Fugu-MT 論文翻訳(概要): Off-Policy Evaluation from Logged Human Feedback

論文の概要: Off-Policy Evaluation from Logged Human Feedback

arxiv url: http://arxiv.org/abs/2406.10030v1
Date: Fri, 14 Jun 2024 13:38:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 13:35:39.725142
Title: Off-Policy Evaluation from Logged Human Feedback
Title（参考訳）: 丸太フィードバックからのオフ・ポリティィ評価
Authors: Aniruddha Bhargava, Lalit Jain, Branislav Kveton, Ge Liu, Subhojyoti Mukherjee,
Abstract要約: 我々は、ログ化された人間のフィードバックから、政治以外の評価について検討する。政策値に対するモデルベースおよびモデルフリー推定器を提案する。我々の推定器は評価されたポリシーの絶対値を予測し、それらをランク付けし、最適化することができる。
参考スコア（独自算出の注目度）: 23.88252045734197
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning from human feedback has been central to recent advances in artificial intelligence and machine learning. Since the collection of human feedback is costly, a natural question to ask is if the new feedback always needs to collected. Or could we evaluate a new model with the human feedback on responses of another model? This motivates us to study off-policy evaluation from logged human feedback. We formalize the problem, propose both model-based and model-free estimators for policy values, and show how to optimize them. We analyze unbiasedness of our estimators and evaluate them empirically. Our estimators can predict the absolute values of evaluated policies, rank them, and be optimized.
Abstract（参考訳）: 人間のフィードバックから学ぶことは、人工知能と機械学習の最近の進歩の中心である。人間のフィードバックの収集はコストがかかるので、疑問に思うのは、新しいフィードバックを常に収集する必要があるかどうかだ。それとも、人間のフィードバックで新しいモデルを別のモデルの反応で評価できるだろうか? これは、ログ化された人間のフィードバックから、政治以外の評価を研究する動機となる。問題を定式化し、ポリシー値に対するモデルベースとモデルフリーの両方の推定器を提案し、それらを最適化する方法を示す。我々は,推定者の不偏性を分析し,それを実証的に評価する。我々の推定器は評価されたポリシーの絶対値を予測し、それらをランク付けし、最適化することができる。

関連論文リスト

From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation [36.40760924116748]
VQA(Visual Question Answering)の課題に対処するためにMLLM(Multimodal Large Language Models)が登場した。既存の評価手法では、視覚画像のQ&Aペアを設計するために必要な人的負担がかなり大きいため、限界に直面している。本研究では,モデルが質問を自動的に生成し,他のモデルからの回答のピアレビュー評価を行うことのできる,教師なしピアレビューMLLM評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-19T07:15:41Z)
Modeling Human Beliefs about AI Behavior for Scalable Oversight [16.068386375496086]
本研究では,評価者の信念をモデル化し,フィードバックをより確実に解釈することを提案する。我々は、人間の信念モデルを定式化し、価値学習における理論的役割を分析し、あいまいさが残るときに特徴付ける。これらの表現は、評価者がAIの振る舞いを誤解している場合でも、人間のフィードバックから正しい値を学ぶために使用することができる。
論文参考訳（メタデータ） (2025-02-28T17:39:55Z)
Accelerating Unbiased LLM Evaluation via Synthetic Feedback [17.597195550638343]
本稿では,人間のアノテーションへの依存を減らすために,人間と合成フィードバックを統合した統計的に原則化されたフレームワークを提案する。実験では、市販の合成評価器で最大12.2%、微調整で最大24.8%のアノテーションを減らした。
論文参考訳（メタデータ） (2025-02-14T21:27:09Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文参考訳（メタデータ） (2023-07-24T17:50:24Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文参考訳（メタデータ） (2023-05-01T17:36:06Z)
Off-policy evaluation for learning-to-rank via interpolating the item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文参考訳（メタデータ） (2022-10-15T17:22:30Z)
Counterfactually Evaluating Explanations in Recommender Systems [14.938252589829673]
人間の関与なしに計算できるオフライン評価手法を提案する。従来の手法と比較して,本手法は実際の人間の判断とより相関した評価スコアを得られることを示す。
論文参考訳（メタデータ） (2022-03-02T18:55:29Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)
Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文参考訳（メタデータ） (2020-09-15T10:50:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。