論文の概要: From Distributional to Overton Pluralism: Investigating Large Language Model Alignment
- arxiv url: http://arxiv.org/abs/2406.17692v1
- Date: Tue, 25 Jun 2024 16:32:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:41:09.721018
- Title: From Distributional to Overton Pluralism: Investigating Large Language Model Alignment
- Title(参考訳): 分散からオーバートン多元主義へ:大規模言語モデルアライメントの考察
- Authors: Thom Lake, Eunsol Choi, Greg Durrett,
- Abstract要約: 適応後の応答多様性の低下を以前報告した再検査を行った。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
- 参考スコア(独自算出の注目度): 82.99849359892112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The alignment process changes several properties of a large language model's (LLM's) output distribution. We analyze two aspects of post-alignment distributional shift of LLM responses. First, we re-examine previously reported reductions in response diversity post-alignment. Our analysis suggests that an apparent drop in the diversity of responses is largely explained by quality control and information aggregation. Alignment suppresses irrelevant and unhelpful content while shifting the output distribution toward longer responses that cover information spanning several responses from the base LLM, essentially presenting diverse information in a single response. Finding little evidence that alignment suppresses useful information, it is natural to ask the opposite question: do aligned models surface information that cannot be recovered from base models? Our second investigation shows this is not the case and the behavior of aligned models is recoverable from base models without fine-tuning. A combination of in-context examples and lower-resolution semantic hints about response content can elicit responses from base LLMs that are as similar to alignment-tuned LLM responses as alignment-tuned LLM responses are to each other. Taken together, these results indicate that current alignment techniques capture but do not extend the useful subset of assistant-like base LLM behavior, providing further evidence for the Superficial Alignment Hypothesis. They also show that in-context alignment can go surprisingly far as a strategy for imitating aligned LLMs without fine-tuning. Our code and data is available at https://github.com/thomlake/investigating-alignment.
- Abstract(参考訳): アライメントプロセスは、大きな言語モデル(LLM)の出力分布のいくつかの特性を変化させる。
LLM応答のアライメント後分布シフトの2つの側面を解析した。
まず, 適応後の応答多様性の低下について, 前報で再検討した。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
アライメントは、出力分布を、ベースLSMから複数の応答をカバーする情報をカバーし、本質的には単一の応答で多様な情報を提示する、より長い応答にシフトしながら、無関係で不必要なコンテンツを抑制する。
アライメントが有用な情報を抑圧する証拠はほとんど見つからないが、逆の質問をするのは当然である。
第2の調査では、これはそうではなく、整列モデルの挙動は微調整なしでベースモデルから復元可能である。
インコンテキストの例と、応答内容に関する低解像度のセマンティックヒントの組み合わせは、アライメントチューニングされたLLM応答と同様にアライメントチューニングされたLLM応答が互いに類似したベースLSMからの応答を引き出すことができる。
これらの結果は、現在のアライメント手法が捉えられるが、補助的なLLM動作の有用なサブセットを拡張せず、表面配向仮説のさらなる証拠となることを示唆している。
また、コンテクスト内アライメントは、微調整なしでアライメントLLMを模倣する戦略として、驚くほど遠くまで進むことができることも示している。
私たちのコードとデータはhttps://github.com/thomlake/investigating-alignment.comで公開されています。
関連論文リスト
- Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning [68.57166425493283]
リファレンス・アウェア・インストラクション・コンストラクション(CRaFT)のための確実性表現型知識フローについて紹介する。
CRaFTは、応答の確実性を取り入れて、データを選択的にフィルタリングし、修正し、静的な競合を減らす。
オープンエンド質問応答と複数選択質問課題について広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-09T14:12:51Z) - Understanding Alignment in Multimodal LLMs: A Comprehensive Study [46.33812471516309]
マルチモーダル大言語モデル(MLLM)における嗜好アライメントのそれぞれの側面を解析する。
オフライン手法とオンライン手法を組み合わせることで,特定のシナリオにおけるモデルの性能が向上することを示す。
BDHS(Bias-Driven Hallucination Smpling)と呼ばれる,マルチモーダルな嗜好データ作成手法を提案する。
論文 参考訳(メタデータ) (2024-07-02T17:55:03Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Enhancing In-Context Learning with Answer Feedback for Multi-Span
Question Answering [9.158919909909146]
本稿では,LLMが望ましくない出力を通知するなど,ラベル付きデータを活用する新しい手法を提案する。
3つのマルチスパン質問応答データセットとキーフレーズ抽出データセットの実験により、我々の新しいプロンプト戦略はLLMの文脈内学習性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2023-06-07T15:20:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。