Fugu-MT 論文翻訳(概要): Optimal Design for Human Feedback

論文の概要: Optimal Design for Human Feedback

arxiv url: http://arxiv.org/abs/2404.13895v1
Date: Mon, 22 Apr 2024 06:05:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 15:05:12.959829
Title: Optimal Design for Human Feedback
Title（参考訳）: フィードバックの最適設計
Authors: Subhojyoti Mukherjee, Anusha Lalitha, Kousha Kalantari, Aniket Deshmukh, Ge Liu, Yifei Ma, Branislav Kveton,
Abstract要約: 学習嗜好モデルにおけるデータ収集の問題について検討する。提案するアイデアの汎用性を示すため,リスト内の項目に対する絶対的および相対的フィードバックについて検討する。設定と解析の両方に効率的なアルゴリズムを設計する。
参考スコア（独自算出の注目度）: 17.520528548509944
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning of preference models from human feedback has been central to recent advances in artificial intelligence. Motivated by this progress, and the cost of obtaining high-quality human annotations, we study the problem of data collection for learning preference models. The key idea in our work is to generalize optimal designs, a tool for computing efficient data logging policies, to ranked lists. To show the generality of our ideas, we study both absolute and relative feedback on items in the list. We design efficient algorithms for both settings and analyze them. We prove that our preference model estimators improve with more data and so does the ranking error under the estimators. Finally, we experiment with several synthetic and real-world datasets to show the statistical efficiency of our algorithms.
Abstract（参考訳）: 人間のフィードバックから好みモデルを学ぶことは、人工知能の最近の進歩の中心である。この進歩と、高品質な人文アノテーションの入手コストに動機付けられ、学習嗜好モデルにおけるデータ収集の問題について検討する。私たちの作業におけるキーとなる考え方は、効率的なデータロギングポリシーを計算するためのツールである最適な設計をランキングリストに一般化することです。提案するアイデアの汎用性を示すため,リスト内の項目に対する絶対的および相対的フィードバックについて検討する。設定と解析の両方に効率的なアルゴリズムを設計する。選好モデル推定器は、より多くのデータで改善され、推定器のランク付け誤差も改善されることを実証する。最後に、アルゴリズムの統計的効率を示すために、いくつかの合成および実世界のデータセットを実験した。

関連論文リスト

Direct Preference Optimization with Rating Information: Practical Algorithms and Provable Gains [67.71020482405343]
評価ギャップの形で追加情報を活用するアルゴリズムを設計する方法について検討する。精度の高いレーティングギャップ情報が存在する場合,DPOよりも高速な統計的レートを実現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2026-01-31T08:38:21Z)
Personalized Recommendations via Active Utility-based Pairwise Sampling [1.704905100460915]
単純かつ直感的なペアワイズ比較から好みを学習するユーティリティベースのフレームワークを提案する。本研究の中心的な貢献は,嗜好評価のための新規なユーティリティベースアクティブサンプリング戦略である。
論文参考訳（メタデータ） (2025-08-12T19:09:33Z)
Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-03T00:36:31Z)
Preference Optimization as Probabilistic Inference [21.95277469346728]
本稿では,好ましくない例や好ましくない例を活用できる手法を提案する。この柔軟性により、生成言語モデルをトレーニングするなど、さまざまな形式のフィードバックとモデルでシナリオに適用することが可能になります。
論文参考訳（メタデータ） (2024-10-05T14:04:03Z)
Data-Centric Human Preference Optimization with Rationales [23.243583332894737]
人間のフィードバックからの強化学習は、言語モデルを人間の好みに合わせる上で重要な役割を担っている。この作業は、データ中心のアプローチによる好み学習の改善に重点を移す。我々は、選択の背景にある理由を説明する機械生成論理を用いて、既存の嗜好データセットを豊かにすることを提案する。
論文参考訳（メタデータ） (2024-07-19T17:27:52Z)
Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文参考訳（メタデータ） (2024-06-17T03:51:46Z)
Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文参考訳（メタデータ） (2024-06-13T16:17:21Z)
Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input [17.131441665935128]
より正確な報酬モデルを学ぶのに有用な例が好まれる理由について,より詳細なデータを抽出する方法を検討する。本研究は, 実用的特徴嗜好を取り入れることが, より効率的なユーザ適応型報酬学習に有望なアプローチであることが示唆された。
論文参考訳（メタデータ） (2024-05-23T16:36:16Z)
Personalized Language Modeling from Personalized Human Feedback [49.344833339240566]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、人間の好みに合わせて大きな言語モデルを微調整するために一般的に用いられる。本研究では,パーソナライズされた言語モデルを構築する手法を開発することにより,この問題に対処することを目的とする。
論文参考訳（メタデータ） (2024-02-06T04:18:58Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)
Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文参考訳（メタデータ） (2023-07-24T17:50:24Z)
Direct Preference-based Policy Optimization without Reward Modeling [25.230992130108767]
嗜好に基づく強化学習(PbRL)は、RLエージェントが嗜好から学習できるアプローチである。報酬モデリングを必要とせずに好みから直接学習するPbRLアルゴリズムを提案する。提案アルゴリズムは,地味な報奨情報を用いて学習するオフラインRL手法を超越することを示す。
論文参考訳（メタデータ） (2023-01-30T12:51:13Z)
Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文参考訳（メタデータ） (2022-06-05T17:58:02Z)
A General Language Assistant as a Laboratory for Alignment [3.3598752405752106]
簡単なベースライン手法と,プロンプトなどの評価について検討する。モデルサイズにより, 緩やかな介入による利点が増大し, 様々なアライメント評価に一般化され, 大規模モデルの性能を損なわないことがわかった。本研究では,人間の嗜好を微調整する際のサンプル効率の向上を目標として,事前学習段階の選好モデルについて検討した。
論文参考訳（メタデータ） (2021-12-01T22:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。