論文の概要: Societal Alignment Frameworks Can Improve LLM Alignment
- arxiv url: http://arxiv.org/abs/2503.00069v1
- Date: Thu, 27 Feb 2025 13:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:27:10.277809
- Title: Societal Alignment Frameworks Can Improve LLM Alignment
- Title(参考訳): LLMアライメントを改善するための社会アライメントフレームワーク
- Authors: Karolina Stańczak, Nicholas Meade, Mehar Bhatia, Hattie Zhou, Konstantin Böttinger, Jeremy Barnes, Jason Stanley, Jessica Montgomery, Richard Zemel, Nicolas Papernot, Nicolas Chapados, Denis Therien, Timothy P. Lillicrap, Ana Marasović, Sylvie Delacroix, Gillian K. Hadfield, Siva Reddy,
- Abstract要約: LLMアライメントの改善には、社会的アライメントフレームワークからの洞察を取り入れる必要がある、と我々は主張する。
次に,LLMアライメントにおける社会的アライメント・フレームワークの不確実性について検討する。
我々は、LLMアライメントに関する代替的な見解を提供し、その目的の未定義の性質を機会としてフレーミングすることで、議論を終わらせる。
- 参考スコア(独自算出の注目度): 50.97852062232431
- License:
- Abstract: Recent progress in large language models (LLMs) has focused on producing responses that meet human expectations and align with shared values - a process coined alignment. However, aligning LLMs remains challenging due to the inherent disconnect between the complexity of human values and the narrow nature of the technological approaches designed to address them. Current alignment methods often lead to misspecified objectives, reflecting the broader issue of incomplete contracts, the impracticality of specifying a contract between a model developer, and the model that accounts for every scenario in LLM alignment. In this paper, we argue that improving LLM alignment requires incorporating insights from societal alignment frameworks, including social, economic, and contractual alignment, and discuss potential solutions drawn from these domains. Given the role of uncertainty within societal alignment frameworks, we then investigate how it manifests in LLM alignment. We end our discussion by offering an alternative view on LLM alignment, framing the underspecified nature of its objectives as an opportunity rather than perfect their specification. Beyond technical improvements in LLM alignment, we discuss the need for participatory alignment interface designs.
- Abstract(参考訳): 大規模言語モデル(LLMs)の最近の進歩は、人間の期待に応え、共有値(プロセスが作り出されるアライメント)と整合する応答を生成することに重点を置いている。
しかし、人間の価値の複雑さとそれに対応するために設計された技術的アプローチの狭い性質とが本質的に切り離されているため、LLMの整列は依然として困難である。
現在のアライメント手法は、しばしば、不完全な契約の広範な問題、モデル開発者間の契約を規定する非現実性、LLMアライメントにおけるすべてのシナリオを考慮に入れているモデルを反映して、不明確な目標を導出する。
本稿では、LLMアライメントの改善には、社会的、経済的、契約的アライメントを含む社会的アライメントの枠組みからの洞察を取り入れ、これらの領域から引き出された潜在的な解決策について議論する必要があると論じる。
社会的アライメント・フレームワークにおける不確実性の役割を考慮し、LLMアライメントにおけるそれがどのように現れるかを検討する。
我々は、LLMアライメントに関する代替的な見解を提供することで議論を終わらせ、仕様を完璧にするのではなく、その目的の未定義の性質を機会としてフレーミングする。
LLMアライメントの技術的改善に加えて、参加型アライメントインタフェース設計の必要性についても論じる。
関連論文リスト
- LLM Alignment as Retriever Optimization: An Information Retrieval Perspective [44.26715637344781]
大規模言語モデル(LLM)は、推論、コーディング、コミュニケーションの能力を備えた人工知能に革命をもたらした。
我々の研究は、確立された情報検索(IR)の原則に基づいて、LCMアライメントのための新しい直接最適化手法を導入する。
本稿では,LLMアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LarPO)を提案する。
論文 参考訳(メタデータ) (2025-02-06T01:22:06Z) - Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。
本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文 参考訳(メタデータ) (2025-02-01T04:24:47Z) - Exploring Accuracy-Fairness Trade-off in Large Language Models [10.5817207739373]
本研究では,大規模言語モデルの拡張において,精度と公平性を調和させることの難しさについて検討する。
1つの計量の過度な最適化は、必然的にもう1つの計量を著しく劣化させる。
本研究は,多目的進化学習(MOEL)手法が,この課題に対処するための有望な方法であることを明らかにした。
論文 参考訳(メタデータ) (2024-11-21T04:40:35Z) - Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs [64.83462841029089]
我々は、ドメインとアライメントベクトルを補間し、より安全なドメイン固有モデルを作成する、textscMergeAlignと呼ばれる効率的なマージベースのアライメント手法を導入する。
医学やファイナンスの専門家であるLlama3の変種にtextscMergeAlignを適用することで、ドメイン固有のベンチマークを最小限または全く劣化させることなく、大幅なアライメントの改善が得られる。
論文 参考訳(メタデータ) (2024-11-11T09:32:20Z) - A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。
我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。
これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文 参考訳(メタデータ) (2024-05-02T22:43:02Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks [18.068035947969044]
計画と推論タスクにおけるLLM(Large Language Models)の役割には、かなりの混乱がある。
自己回帰型LSMは、それ自体で計画や自己検証を行うことはできない、と我々は主張する。
本稿では,LLMの強みと外部モデルベース検証器を併用した bf LLM-Modulo Framework のビジョンを提案する。
論文 参考訳(メタデータ) (2024-02-02T14:43:18Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Large Language Model Alignment: A Survey [42.03229317132863]
大きな言語モデル(LLM)の潜在能力は疑いようもなく大きいが、不正確、誤解を招く、あるいは有害なテキストを生成できる。
この調査は、LLM向けに設計されたアライメント方法論を広範囲に探究する試みである。
また、モデルの解釈可能性や、敵の攻撃に対する潜在的な脆弱性など、健全な問題を調査します。
論文 参考訳(メタデータ) (2023-09-26T15:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。