Fugu-MT 論文翻訳(概要): Interpreting and Controlling Model Behavior via Constitutions for Atomic Concept Edits

論文の概要: Interpreting and Controlling Model Behavior via Constitutions for Atomic Concept Edits

arxiv url: http://arxiv.org/abs/2602.00092v1
Date: Fri, 23 Jan 2026 16:56:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 02:03:42.37289
Title: Interpreting and Controlling Model Behavior via Constitutions for Atomic Concept Edits
Title（参考訳）: 原子概念編集のための構成によるモデル行動の解釈と制御
Authors: Neha Kalibhat, Zi Wang, Prasoon Bajpai, Drew Proud, Wenjun Zeng, Been Kim, Mani Malek,
Abstract要約: 検証可能な構成を学習するブラックボックス解釈可能性フレームワークを導入する。本フレームワークは,編集から予測可能な結果までの因果マッピングを学習する。その結果,学習された構成はモデル行動を制御するのに極めて有効であることが示唆された。
参考スコア（独自算出の注目度）: 19.77632166937745
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a black-box interpretability framework that learns a verifiable constitution: a natural language summary of how changes to a prompt affect a model's specific behavior, such as its alignment, correctness, or adherence to constraints. Our method leverages atomic concept edits (ACEs), which are targeted operations that add, remove, or replace an interpretable concept in the input prompt. By systematically applying ACEs and observing the resulting effects on model behavior across various tasks, our framework learns a causal mapping from edits to predictable outcomes. This learned constitution provides deep, generalizable insights into the model. Empirically, we validate our approach across diverse tasks, including mathematical reasoning and text-to-image alignment, for controlling and understanding model behavior. We found that for text-to-image generation, GPT-Image tends to focus on grammatical adherence, while Imagen 4 prioritizes atmospheric coherence. In mathematical reasoning, distractor variables confuse GPT-5 but leave Gemini 2.5 models and o4-mini largely unaffected. Moreover, our results show that the learned constitutions are highly effective for controlling model behavior, achieving an average of 1.86 times boost in success rate over methods that do not use constitutions.
Abstract（参考訳）: そこで我々は,検証可能な構成を学習するブラックボックスの解釈可能性フレームワークを紹介した。このフレームワークは,モデル固有の動作,例えばアライメント,正当性,制約の順守といった,プロンプトへの変更がどのように影響するかを自然言語で要約する。提案手法は,入力プロンプトにおける解釈可能な概念の追加,削除,置き換えを行うターゲット操作である,アトミックな概念編集(ACE)を利用する。 ACEを体系的に適用し、様々なタスクにわたるモデル行動への影響を観察することにより、我々のフレームワークは編集から予測可能な結果への因果マッピングを学習する。この学習された構成は、モデルに関する深い、一般化可能な洞察を提供する。実験により,モデル行動の制御と理解のために,数学的推論やテキスト・ツー・イメージアライメントを含む多様なタスクにまたがるアプローチを検証する。テキスト・画像生成では,GPT-Imageは文法的定着に重点を置いている傾向があり,Imagen 4は大気のコヒーレンスを優先していることがわかった。数学的推論では、散逸変数は GPT-5 を混同するが、ジェミニ 2.5 モデルと o4-mini はほとんど影響を受けない。さらに,本研究の結果から,学習された構成はモデル行動の制御に極めて有効であることが示唆され,平均1.86倍の成功率向上が達成された。

関連論文リスト

Position: Explaining Behavioral Shifts in Large Language Models Requires a Comparative Approach [7.72875981545154]
行動シフトは、独立した単一のモデルではなく、相対的に説明されるべきである、と私たちは主張する。我々は、適切な説明法を設計する際に考慮すべきデシラタのセットで比較XAI($-XAI)フレームワークを定式化する。
論文参考訳（メタデータ） (2026-02-02T16:36:21Z)
I2E: From Image Pixels to Actionable Interactive Environments for Text-Guided Image Editing [59.434028565445885]
I2Eは、画像編集を構造化された環境内の実行可能な相互作用プロセスとして再考する、新しい「分解・テーマ・アクション」パラダイムである。 I2EはDecomposerを使用して、非構造化画像を個別に操作可能なオブジェクト層に変換し、複雑な命令を解析するために、物理を意識したVision-Language-Action Agentを導入する。 I2Eは、複雑な構成命令の処理、物理的妥当性の維持、マルチターン編集安定性の確保において、最先端の手法よりも大幅に優れている。
論文参考訳（メタデータ） (2026-01-07T09:29:57Z)
EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。 EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文参考訳（メタデータ） (2025-09-16T17:45:39Z)
What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。 DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文参考訳（メタデータ） (2025-05-26T18:00:10Z)
Conceptual Contrastive Edits in Textual and Vision-Language Retrieval [1.8591405259852054]
我々は、検索モデルの表現に印字された注目すべきパターンやバイアスを明らかにするために、ポストホックな概念的コントラスト編集を用いる。我々はこれらの編集をブラックボックス方式で言語的および言語学的事前学習モデルの両方を説明するために応用する。また、モデル結果に対する対照的な介入による単語ごとの影響を評価するための新しい指標も導入する。
論文参考訳（メタデータ） (2025-03-01T10:14:28Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
Detect Changes like Humans: Incorporating Semantic Priors for Improved Change Detection [52.62459671461816]
本稿では,視覚基盤モデルからのセマンティックな先入観を取り入れ,変化を検出する能力の向上について検討する。人間の視覚パラダイムにインスパイアされた新しいデュアルストリーム特徴デコーダは、意味認識特徴と差認識特徴を組み合わせることで変化を区別するために導出される。
論文参考訳（メタデータ） (2024-12-22T08:27:15Z)
Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文参考訳（メタデータ） (2024-11-25T10:57:48Z)
Resolving Lexical Bias in Model Editing [15.677423638211813]
本稿では,編集の正確な局所化を容易にする不整合表現空間を学習するための原則的アプローチを提案する。提案手法は,従来の手法よりも推論時の計算効率が良く,最先端のモデル編集結果が得られる。
論文参考訳（メタデータ） (2024-08-19T20:50:41Z)
Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-24T16:30:03Z)
Explaining NLP Models via Minimal Contrastive Editing (MiCE) [9.466291927481342]
モデル予測の対照的な説明を生成する手法であるMinimmal Contrastive Editing (MiCE)を提案する。 MiCEは、コントラスト的なだけでなく、最小限で流動的で、人間のコントラスト的な編集と整合した編集を生成する。
論文参考訳（メタデータ） (2020-12-27T18:06:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。