論文の概要: Are Dilemmas and Conflicts in LLM Alignment Solvable? A View from Priority Graph
- arxiv url: http://arxiv.org/abs/2603.15527v1
- Date: Mon, 16 Mar 2026 16:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.614422
- Title: Are Dilemmas and Conflicts in LLM Alignment Solvable? A View from Priority Graph
- Title(参考訳): LLMアライメントにおけるジレンマと矛盾は解決可能か? : 優先順位グラフからの考察
- Authors: Zhenheng Tang, Xiang Liu, Qian Wang, Eunsol Choi, Bo Li, Xiaowen Chu,
- Abstract要約: 大きな言語モデル(LLM)は多くのシナリオで対立やジレンマに直面しています。
我々は LLM の好みを,命令と値がノードである優先グラフとして選択し,エッジはモデルの出力分布によって決定されるコンテキスト固有の優先順位を表すようにモデル化する。
本研究では,LCMが外部ソースを検索してコンテキストを把握し,操作に抵抗できる実行時検証機構を提案する。
- 参考スコア(独自算出の注目度): 50.65575078859993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become more powerful and autonomous, they increasingly face conflicts and dilemmas in many scenarios. We first summarize and taxonomize these diverse conflicts. Then, we model the LLM's preferences to make different choices as a priority graph, where instructions and values are nodes, and the edges represent context-specific priorities determined by the model's output distribution. This graph reveals that a unified stable LLM alignment is very challenging, because the graph is neither static nor necessarily consistent in different contexts. Besides, it also reveals a potential vulnerability: priority hacking, where adversaries can craft deceptive contexts to manipulate the graph and bypass safety alignments. To counter this, we propose a runtime verification mechanism, enabling LLMs to query external sources to ground their context and resist manipulation. While this approach enhances robustness, we also acknowledge that many ethical and value dilemmas are philosophically irreducible, posing a long-term, open challenge for the future of AI alignment.
- Abstract(参考訳): 大きな言語モデル(LLM)がより強力で自律的になるにつれて、多くのシナリオで対立やジレンマに直面しています。
まず、これらの多様な紛争を要約し分類する。
次に、LLMの好みをモデル化し、命令と値がノードである優先度グラフとして選択し、エッジはモデルの出力分布によって決定されるコンテキスト固有の優先順位を表す。
このグラフは、安定なLCMアライメントは、グラフが静的でなくても、異なる文脈で必ずしも一貫性がないため、非常に困難であることを示している。
プライオリティハックでは、相手が偽のコンテキストを使ってグラフを操作し、安全アライメントを回避できる。
そこで本稿では,LCMが外部ソースに問い合わせてコンテキストを把握し,操作に抵抗できる実行時検証機構を提案する。
このアプローチは堅牢性を高めますが、多くの倫理的および価値的なジレンマは哲学的に不可避であり、AIアライメントの将来に対する長期的なオープンな挑戦の現れます。
関連論文リスト
- Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。
タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。
この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文 参考訳(メタデータ) (2026-03-03T18:48:15Z) - Matrix as Plan: Structured Logical Reasoning with Feedback-Driven Replanning [9.431480849387595]
Chain-of-Thoughtプロンプトは、Large Language Models(LLMs)の推論能力を高めることが示されている。
ニューロシンボリック法は、外部の解法を通して形式的正しさを強制することによって、このギャップに対処する。
行列ベースの計画を持つ構造化CoTフレームワークであるMatrixCoTを提案する。
論文 参考訳(メタデータ) (2026-01-15T06:12:00Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - Language Models Identify Ambiguities and Exploit Loopholes [67.74087963315213]
ループホールに対する大規模言語モデル(LLM)の応答について検討する。
ループホールを利用するモデルは、曖昧さと矛盾する目標の両方を明確に識別し、推論する。
論文 参考訳(メタデータ) (2025-08-27T03:40:17Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment [51.10604883057508]
DR-IRL(逆強化学習によるリワードの動的調整)を提案する。
まず、IRLを介して7つの有害なカテゴリをカバーするバランスの取れた安全データセットを用いて、カテゴリ固有の報酬モデルを訓練する。
次に,テキストエンコーダのコサイン類似性によるデータレベルの硬さ,報酬ギャップによるモデルレベルの応答性など,タスク難易度による報酬を導入することにより,グループ相対政策最適化(GRPO)を強化する。
論文 参考訳(メタデータ) (2025-03-23T16:40:29Z) - ContraSolver: Self-Alignment of Language Models by Resolving Internal Preference Contradictions [45.42497294822871]
本研究では,選択順序に矛盾を見出すために,自己注釈付き応答間の嗜好関係のグラフ構造を構築した。
提案するContrarは、優先グラフ上のすべてのエッジをトラバースして、矛盾を引き起こす可能性のあるものを識別するアルゴリズムである。
論文 参考訳(メタデータ) (2024-06-13T06:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。