論文の概要: Improving Context-Aware Preference Modeling for Language Models
- arxiv url: http://arxiv.org/abs/2407.14916v1
- Date: Sat, 20 Jul 2024 16:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 20:09:56.889673
- Title: Improving Context-Aware Preference Modeling for Language Models
- Title(参考訳): 言語モデルにおける文脈認識の嗜好モデルの改善
- Authors: Silviu Pitis, Ziang Xiao, Nicolas Le Roux, Alessandro Sordoni,
- Abstract要約: 本稿では、まず、文脈を選択し、選択した文脈に対する嗜好を評価することによって、不特定性を解決する2段階の選好モデリング手法について考察する。
我々は、文脈条件付き嗜好データセットと実験に貢献し、文脈特化選好を評価する言語モデルの能力について検討する。
- 参考スコア(独自算出の注目度): 62.32080105403915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While finetuning language models from pairwise preferences has proven remarkably effective, the underspecified nature of natural language presents critical challenges. Direct preference feedback is uninterpretable, difficult to provide where multidimensional criteria may apply, and often inconsistent, either because it is based on incomplete instructions or provided by diverse principals. To address these challenges, we consider the two-step preference modeling procedure that first resolves the under-specification by selecting a context, and then evaluates preference with respect to the chosen context. We decompose reward modeling error according to these two steps, which suggests that supervising context in addition to context-specific preference may be a viable approach to aligning models with diverse human preferences. For this to work, the ability of models to evaluate context-specific preference is critical. To this end, we contribute context-conditioned preference datasets and accompanying experiments that investigate the ability of language models to evaluate context-specific preference. We use our datasets to (1) show that existing preference models benefit from, but fail to fully consider, added context, (2) finetune a context-aware reward model with context-specific performance exceeding that of GPT-4 and Llama 3 70B on tested datasets, and (3) investigate the value of context-aware preference modeling.
- Abstract(参考訳): ペアの選好から言語モデルを微調整することは極めて効果的であることが証明されているが、自然言語の未特定の性質は重要な課題を呈している。
直接の嗜好フィードバックは解釈不能であり、多次元の基準が適用可能な場所を提供するのが困難であり、不完全な指示に基づくものであるか、様々なプリンシパルによって提供されるため、しばしば矛盾する。
これらの課題に対処するために、まず、コンテキストを選択し、選択したコンテキストに対して好みを評価する2段階の選好モデリング手法を検討する。
これら2つのステップに従って報酬モデリング誤差を分解し、文脈固有の嗜好に加えて文脈を監督することは、モデルと多様な人間の嗜好を整合させるための実行可能なアプローチである可能性を示唆している。
これを実行するためには、コンテキスト固有の嗜好を評価するモデルの能力が不可欠である。
この目的のために、文脈条件付き嗜好データセットと、文脈固有の嗜好を評価する言語モデルの有効性を調査する伴奏実験をコントリビュートする。
我々は(1)既存の嗜好モデルの利点を示すためにデータセットを使用し、(2)テストデータセット上でのGPT-4およびLlama 370Bを超える文脈特異的なパフォーマンスを持つ文脈対応報酬モデルを作成し、(3)文脈対応嗜好モデルの価値を調査する。
関連論文リスト
- Context-Aware Machine Translation with Source Coreference Explanation [26.336947440529713]
本稿では,入力中のコア参照の特徴を予測し,翻訳のための意思決定を説明するモデルを提案する。
我々は、WMT文書レベルの翻訳タスクにおいて、英語-ドイツ語データセット、英語-ロシア語データセット、多言語TEDトークデータセットの評価を行った。
論文 参考訳(メタデータ) (2024-04-30T12:41:00Z) - Optimizing Language Models for Human Preferences is a Causal Inference Problem [41.59906798328058]
直接結果データセットからの人間の嗜好に対する言語モデル最適化について検討する。
まず,言語モデルの最適化を因果問題と見なして,モデルがテキストと結果の関係を正しく学習することを保証する。
我々はCPOを2倍の頑健なCPOで拡張し、従属目的の分散を低減し、バイアスに対する確実な強い保証を維持します。
論文 参考訳(メタデータ) (2024-02-22T21:36:07Z) - Large Language Models as Zero-Shot Conversational Recommenders [52.57230221644014]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。
我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。
我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文 参考訳(メタデータ) (2023-08-19T15:29:45Z) - Reference-less Analysis of Context Specificity in Translation with
Personalised Language Models [3.527589066359829]
本研究は、リッチキャラクタとフィルムアノテーションがいかにパーソナライズ言語モデル(LM)に活用できるかを考察する。
非文脈モデルと比較して、難易度を最大6.5%削減するために、リッチな文脈情報を活用するLMを構築している。
我々の領域における専門翻訳の文脈特化度は、文脈機械翻訳モデルによりよりよく保存できることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:19:23Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - Top-Rank-Focused Adaptive Vote Collection for the Evaluation of
Domain-Specific Semantic Models [0.3359875577705538]
多くの場合、コンテンツベースのレコメンデーターは、特定の概念に対する意味的関連性に基づいて、特に上位に焦点をあてて、単語やテキストのランク付けを要求される。
本研究は,これらの要件に対処するための3倍のコントリビューションを提供する: (i) 利用可能なリソースに基づいて調整された関連性に基づく評価データセットの構築のためのプロトコルを定義し,特にトップランク評価において正確であるように最適化する; (ii) 適切なメトリクス,よく知られたランキング相関係数の拡張を定義し,上記のデータセットを用いてセマンティックモデルを評価する。
論文 参考訳(メタデータ) (2020-10-09T10:20:58Z) - Evaluating Text Coherence at Sentence and Paragraph Levels [17.99797111176988]
本稿では,既存の文順序付け手法の段落順序付けタスクへの適応について検討する。
また、ミニデータセットとノイズの多いデータセットを人工的に作成することで、既存のモデルの学習性と堅牢性を比較する。
我々は、リカレントグラフニューラルネットワークに基づくモデルがコヒーレンスモデリングの最適選択であると結論付けている。
論文 参考訳(メタデータ) (2020-06-05T03:31:49Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。