論文の概要: On the Impossibility of Separating Intelligence from Judgment: The Computational Intractability of Filtering for AI Alignment
- arxiv url: http://arxiv.org/abs/2507.07341v1
- Date: Wed, 09 Jul 2025 23:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.233728
- Title: On the Impossibility of Separating Intelligence from Judgment: The Computational Intractability of Filtering for AI Alignment
- Title(参考訳): 判断からインテリジェンスを分離する不可能性について:AIアライメントのためのフィルタリングの計算的抽出可能性
- Authors: Sarah Ball, Greg Gluch, Shafi Goldwasser, Frauke Kreuter, Omer Reingold, Guy N. Rothblum,
- Abstract要約: 本研究では,安全でない情報の発生を防ぐためのフィルタに着目し,アライメントの課題について検討する。
本研究の主な成果は,プロンプトとアウトプットの両方をフィルタリングする際の計算上の課題である。
- 参考スコア(独自算出の注目度): 11.33288298772898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increased deployment of large language models (LLMs), one concern is their potential misuse for generating harmful content. Our work studies the alignment challenge, with a focus on filters to prevent the generation of unsafe information. Two natural points of intervention are the filtering of the input prompt before it reaches the model, and filtering the output after generation. Our main results demonstrate computational challenges in filtering both prompts and outputs. First, we show that there exist LLMs for which there are no efficient prompt filters: adversarial prompts that elicit harmful behavior can be easily constructed, which are computationally indistinguishable from benign prompts for any efficient filter. Our second main result identifies a natural setting in which output filtering is computationally intractable. All of our separation results are under cryptographic hardness assumptions. In addition to these core findings, we also formalize and study relaxed mitigation approaches, demonstrating further computational barriers. We conclude that safety cannot be achieved by designing filters external to the LLM internals (architecture and weights); in particular, black-box access to the LLM will not suffice. Based on our technical results, we argue that an aligned AI system's intelligence cannot be separated from its judgment.
- Abstract(参考訳): 大きな言語モデル(LLM)の展開が増加するにつれ、有害なコンテンツを生成する上での潜在的な誤用が懸念される。
我々の研究は、安全でない情報の発生を防ぐためのフィルタに焦点をあて、アライメントの課題について研究している。
2つの自然な介入点は、モデルに到達する前に入力プロンプトをフィルタリングし、生成後に出力をフィルタリングすることである。
本研究の主な成果は,プロンプトとアウトプットの両方をフィルタリングする際の計算上の課題である。
まず、効率的なプロンプトフィルタが存在しないLCMが存在することを示す: 敵対的プロンプトは有害な振る舞いを容易に構築でき、任意の効率的なフィルタに対する良性プロンプトと計算的に区別できない。
2つ目の主な結果は、出力フィルタリングが計算的に難解な自然条件を特定することである。
私たちの分離結果は、すべて暗号のハードネスの仮定の下で行われます。
これらの中核的な発見に加えて、緩和緩和アプローチを形式化し研究し、さらなる計算障壁を示す。
LLMの内部(構造と重み)以外のフィルタを設計しても安全は達成できないと結論付け,特に,LCMへのブラックボックスアクセスは十分ではない。
技術的結果に基づいて、一致したAIシステムの知性を判断から切り離すことはできないと論じる。
関連論文リスト
- Helping Large Language Models Protect Themselves: An Enhanced Filtering and Summarization System [2.0257616108612373]
大規模言語モデルは、敵の攻撃、操作プロンプト、悪意のある入力のエンコードに弱い。
本研究は,LSMが敵対的あるいは悪意的な入力を自力で認識し,フィルタリングし,防御することのできる,ユニークな防御パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-02T14:42:26Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。
意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering [58.403898834018285]
BlendFilterは、知識フィルタリングと組み合わせたクエリ生成を統合することで、検索強化された大規模言語モデルを高める新しいアプローチである。
我々は3つのオープンドメイン質問応答ベンチマークで広範な実験を行い、我々の革新的なBlendFilterが最先端のベースラインをはるかに上回っていることを明らかにした。
論文 参考訳(メタデータ) (2024-02-16T23:28:02Z) - Combining Evidence Across Filtrations [29.950578483005998]
本稿では,異なるフィルタで構築されたE-プロセスを組み合わせる方法を提案する。
調整器と呼ばれる関数のクラスがフィルタ間で任意のe-プロセスを持ち上げることができることを確かめる。
我々は、調整器を使う必要があるという感覚を形式化する調整器の特性定理を証明した。
論文 参考訳(メタデータ) (2024-02-15T04:16:59Z) - Machine Unlearning in Large Language Models [8.14992136443131]
本稿では,大規模言語モデルに新しい機械学習フレームワークを導入する。
我々の目標は、LSMが有害、幻覚、あるいはプライバシーを侵害する応答を生じさせないようにすることです。
実験結果から,本手法はモデル性能を実質的に損なうことなく,学習対象を効果的に満たすことが示唆された。
論文 参考訳(メタデータ) (2024-02-03T05:14:56Z) - Learning Versatile Convolution Filters for Efficient Visual Recognition [125.34595948003745]
本稿では,効率的な畳み込みニューラルネットワーク構築のための多目的フィルタを提案する。
本稿では,ネットワークの複雑性に関する理論的解析を行い,効率的な畳み込み手法を提案する。
ベンチマークデータセットとニューラルネットワークの実験結果は、我々の汎用フィルタが元のフィルタと同等の精度を達成できることを実証している。
論文 参考訳(メタデータ) (2021-09-20T06:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。