論文の概要: Triangulation as an Acceptance Rule for Multilingual Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2512.24842v1
- Date: Wed, 31 Dec 2025 13:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.659802
- Title: Triangulation as an Acceptance Rule for Multilingual Mechanistic Interpretability
- Title(参考訳): 多言語機械的解釈可能性の受容規則としての三角法
- Authors: Yanan Long,
- Abstract要約: このようなモデルに対する力学的な説明は、エンフカス標準を満たすべきであると論じる。
主張は因果的介入を生き残らなければならないし、意味を保ちながら表面が乱れる環境を横切るようにしなければならない。
我々は、相互干渉の分布に近似的な変換スコアとして配置し、実践的解釈可能性アジェンダに接続し、モデルファミリ、言語ペア、タスク間で比較実験的なプロトコルを提示することにより、因果的抽象において三角測量を基礎とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multilingual language models achieve strong aggregate performance yet often behave unpredictably across languages, scripts, and cultures. We argue that mechanistic explanations for such models should satisfy a \emph{causal} standard: claims must survive causal interventions and must \emph{cross-reference} across environments that perturb surface form while preserving meaning. We formalize \emph{reference families} as predicate-preserving variants and introduce \emph{triangulation}, an acceptance rule requiring necessity (ablating the circuit degrades the target behavior), sufficiency (patching activations transfers the behavior), and invariance (both effects remain directionally stable and of sufficient magnitude across the reference family). To supply candidate subgraphs, we adopt automatic circuit discovery and \emph{accept or reject} those candidates by triangulation. We ground triangulation in causal abstraction by casting it as an approximate transformation score over a distribution of interchange interventions, connect it to the pragmatic interpretability agenda, and present a comparative experimental protocol across multiple model families, language pairs, and tasks. Triangulation provides a falsifiable standard for mechanistic claims that filters spurious circuits passing single-environment tests but failing cross-lingual invariance.
- Abstract(参考訳): 多言語言語モデルは強力な集約性能を達成するが、言語、スクリプト、文化間で予測不可能に振る舞うことが多い。
このようなモデルに対する力学的な説明は、"emph{causal}" 標準を満たすべきである:クレームは因果的介入を生き残らなければならないし、意味を保ちながら表面が乱れる環境をまたいで "emph{cross-reference} しなければならない。
述語保存の変種として \emph{reference family} を定式化し、必要な受け入れ規則である \emph{triangulation} を導入する(回路が対象の動作を劣化させる)。
候補部分グラフの供給には,自動サーキット発見と,これら候補の三角測量によるemph{accept or reject}を採用する。
我々は、相互干渉の分布に近似的な変換スコアとして配置し、実践的な解釈可能性アジェンダに接続し、複数のモデルファミリ、言語ペア、タスクに比較した実験的プロトコルを提示することによって、因果抽象において三角測量を基礎とする。
三角法は、単一環境テストに合格するが、言語間不変性に失敗するスプリアス回路をフィルタリングする、という機械的主張に対して、ファリザブルな標準を提供する。
関連論文リスト
- Conditions for Catastrophic Forgetting in Multilingual Translation [24.10629800866219]
多言語微調整における破滅的忘れを誘発する条件を同定する。
モデルとデータサイズの間の相対的なスケールは、忘れる際の主要な決定要因であることを示す。
また, 言語間アライメントは, 忘れを軽減し, 未確認対象言語への肯定的な移動を促進することも示している。
論文 参考訳(メタデータ) (2025-10-22T12:54:00Z) - Conformal Linguistic Calibration: Trading-off between Factuality and Specificity [41.45862052156885]
本稿では,言語プラグマティクスのレンズを通して,抑止と言語キャリブレーションを結合する枠組みを提案する。
以上の結果から,本手法は実精度に適合した精度で校正出力を生成する。
論文 参考訳(メタデータ) (2025-02-26T13:01:49Z) - On the Efficacy of Sampling Adapters [82.5941326570812]
サンプリングアダプタを理解するための統一的なフレームワークを提案する。
彼らが実施するシフトは、正確さとリコールの間のトレードオフと見なすことができる、と私たちは主張する。
いくつかの精度強調尺度は、サンプリングアダプタが真の分布とより整合した確率分布をもたらすことを確実に示している。
論文 参考訳(メタデータ) (2023-07-07T17:59:12Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Zero and Few-shot Semantic Parsing with Ambiguous Inputs [45.285508941560295]
私たちは、曖昧な自然言語を論理やコードといった形式的な表現に変換するためのフレームワーク、データセット、課題であるAmPを紹介します。
我々は,AmPを用いて,複数ショットのテキスト・ツー・コードシステムがあいまいさをどのように処理し,新しいメトリクスを3つ導入するかを検討する。
事前学習された大規模なモデルでは,意図的な指示を伴わずに,可能な意味の分布を把握できないことが判明した。
論文 参考訳(メタデータ) (2023-06-01T15:46:36Z) - Robust Unsupervised Cross-Lingual Word Embedding using Domain Flow
Interpolation [48.32604585839687]
従来の敵対的アプローチは、並列データ無しに言語間単語埋め込みを誘導する有望な結果を示している。
そこで本研究では,滑らかなブリッジングのための中間空間列を提案する。
論文 参考訳(メタデータ) (2022-10-07T04:37:47Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - Robust Textual Embedding against Word-level Adversarial Attacks [15.235449552083043]
我々は、FTML(Fast Triplet Metric Learning)と呼ばれる新しい堅牢なトレーニング手法を提案する。
FTMLは, 様々な先進攻撃に対して, モデルロバスト性を著しく向上させることができることを示す。
我々の研究は、ロバストな単語埋め込みによってテキストの堅牢性を改善する大きな可能性を示している。
論文 参考訳(メタデータ) (2022-02-28T14:25:00Z) - Locally Typical Sampling [84.62530743899025]
我々は、今日の確率的言語ジェネレータが、一貫性と流動性のあるテキストを生成する際に不足していることを示します。
本稿では,確率モデルから生成する際の,この基準を強制するための簡易かつ効率的な手順を提案する。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。