論文の概要: Language Models Identify Ambiguities and Exploit Loopholes
- arxiv url: http://arxiv.org/abs/2508.19546v1
- Date: Wed, 27 Aug 2025 03:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.48037
- Title: Language Models Identify Ambiguities and Exploit Loopholes
- Title(参考訳): 言語モデルによる曖昧さと爆発的ループホールの同定
- Authors: Jio Choi, Mohit Bansal, Elias Stengel-Eskin,
- Abstract要約: ループホールに対する大規模言語モデル(LLM)の応答について検討する。
ループホールを利用するモデルは、曖昧さと矛盾する目標の両方を明確に識別し、推論する。
- 参考スコア(独自算出の注目度): 67.74087963315213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Studying the responses of large language models (LLMs) to loopholes presents a two-fold opportunity. First, it affords us a lens through which to examine ambiguity and pragmatics in LLMs, since exploiting a loophole requires identifying ambiguity and performing sophisticated pragmatic reasoning. Second, loopholes pose an interesting and novel alignment problem where the model is presented with conflicting goals and can exploit ambiguities to its own advantage. To address these questions, we design scenarios where LLMs are given a goal and an ambiguous user instruction in conflict with the goal, with scenarios covering scalar implicature, structural ambiguities, and power dynamics. We then measure different models' abilities to exploit loopholes to satisfy their given goals as opposed to the goals of the user. We find that both closed-source and stronger open-source models can identify ambiguities and exploit their resulting loopholes, presenting a potential AI safety risk. Our analysis indicates that models which exploit loopholes explicitly identify and reason about both ambiguity and conflicting goals.
- Abstract(参考訳): ループホールに対する大きな言語モデル(LLM)の応答を研究することは、2倍の機会をもたらす。
まず、レンズを使ってLLMの曖昧さと実用性を調べることができます。
第二に、ループホールは、モデルに相反する目標が提示され、あいまいさを自身の優位性に活用できる興味深い、斬新なアライメントの問題を引き起こします。
これらの問題に対処するために、私たちは、LLMが目標と矛盾する曖昧なユーザ命令を与えられたシナリオを設計し、スカラー不規則、構造的曖昧性、パワーダイナミクスをカバーするシナリオを設計する。
次に、ユーザの目標とは対照的に、与えられた目標を満たすためにループホールを利用するさまざまなモデルの能力を測定します。
クローズドソースモデルと強力なオープンソースモデルの両方があいまいさを識別し、その結果の抜け穴を悪用し、潜在的なAIの安全性リスクを示唆している。
我々の分析は、ループホールを利用したモデルが曖昧さと矛盾する目標の両方を明確に識別し、推論していることを示している。
関連論文リスト
- When Thinking LLMs Lie: Unveiling the Strategic Deception in Representations of Reasoning Models [9.05950721565821]
大規模言語モデル(LLM)における戦略的偽造について研究する。
我々は、CoT対応LLMにおいて、そのような偽造を誘導し、検出し、制御する。
明示的なプロンプトを伴わずに、文脈に適した詐欺を誘発する成功率を40%達成する。
論文 参考訳(メタデータ) (2025-06-05T11:44:19Z) - Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。
質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。
我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文 参考訳(メタデータ) (2024-04-18T07:59:53Z) - Does Faithfulness Conflict with Plausibility? An Empirical Study in Explainable AI across NLP Tasks [9.979726030996051]
私たちは、Shapleyの価値とLIMEがより忠実で妥当性が高いことを示す。
この結果から,一方の次元を一方の次元に最適化するのではなく,2つの目的を持つ説明可能性アルゴリズムを最適化する可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-29T20:28:42Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Is the Elephant Flying? Resolving Ambiguities in Text-to-Image
Generative Models [64.58271886337826]
テキストから画像への生成モデルで生じるあいまいさについて検討する。
本稿では,ユーザから明確化を求めることによって,システムに与えられるプロンプトのあいまいさを軽減する枠組みを提案する。
論文 参考訳(メタデータ) (2022-11-17T17:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。