Fugu-MT 論文翻訳(概要): Make Mechanistic Interpretability Auditable: A Call to Develop Guidelines via Continuous Collaborative Reviewing

論文の概要: Make Mechanistic Interpretability Auditable: A Call to Develop Guidelines via Continuous Collaborative Reviewing

arxiv url: http://arxiv.org/abs/2606.00033v1
Date: Fri, 24 Apr 2026 17:42:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 07:09:36.588779
Title: Make Mechanistic Interpretability Auditable: A Call to Develop Guidelines via Continuous Collaborative Reviewing
Title（参考訳）: 機械的解釈可能性の聴取を可能にする - 継続的な協調的レビューによるガイドライン開発を呼びかける
Authors: Michael Lan, Narmeen Fatimah Oozeer, Chaithanya Bandi, Philip Quirke, Austin Meek, Fazl Barez, Amirali Abdullah,
Abstract要約: 我々はMIコミュニティに、ピアレビューを補完する新しいレビューシステムを開発するよう呼びかける。我々は、AIの安全性、産業、ガバナンスにおいて、MI自体の監査が不可欠であることを提案する。
参考スコア（独自算出の注目度）: 7.7014773606123645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While mechanistic interpretability (MI) has produced important insights into neural network internals, the field has yet to establish a standardized system to audit experiments. As such, many of its findings remain underutilized in safety-critical applications such as medical AI and autonomous systems, as stakeholders cannot certify their validity. Recent work demonstrates this concretely: two papers found conflicting conclusions for the same behavior, and a third study revealed that both were partially correct but incomparable due to methodological inconsistencies. Without standardized auditing, such ambiguities hinder adoption in high-stakes contexts requiring strong correctness guarantees. We call for the MI community to work towards developing a novel reviewing system that complements peer review via: (1) Continuous reviewing supported by a \emph{Collaborative Reviewing Platform} where meta-science results and discussions (such as critiques, negative results, post-hoc extensions, reproductions, replications, and partial results) that fit outside of papers are organized and discussed, allowing for comments and revisions to be made at any time (2) Generalizing good practices found on this platform into expert-verified guidelines and protocols to improve auditing efficiency, and (3) Source-based auditing systems that track arguments which claims depend on. This position paper encourages constructive debate over the necessity, design and implementation of such a framework, providing early concrete examples to help catalyze these dialogues. Overall, we propose that auditing MI itself is essential for its application in AI safety, industry, and governance.
Abstract（参考訳）: 機械的解釈可能性(MI)は、ニューラルネットワークの内部に関する重要な洞察を生み出してきたが、実験を監査する標準的なシステムはまだ確立されていない。そのため、ステークホルダーがその妥当性を証明できないため、医療用AIや自律システムのような安全上重要なアプリケーションでは、その発見の多くは未利用のままである。 2つの論文は、同じ行動について矛盾する結論を出し、3番目の研究では、どちらも部分的には正しいが、方法論上の矛盾のために相容れないことが判明した。標準化された監査がなければ、そのような曖昧さは、強い正当性の保証を必要とする高い状況において採用を妨げる。 1) 論文の外部に適合するメタサイエンスの結果や議論(批判,否定的結果,ポストホック拡張,複製,部分的な結果など)を整理し議論し,いつでもコメントやリビジョンを行えるようにし,(2) このプラットフォームで見出された優れた実践を専門家が検証したガイドラインとプロトコルに一般化し,監査効率を向上させること,(3) オープンソースベースの監査システムである。本稿では,このようなフレームワークの必要性,設計,実装に関する建設的議論を奨励し,これらの対話を触媒する初期の具体例を提供する。全体として、AIの安全性、産業、ガバナンスにおいて、MI自体の監査が不可欠であることを提案します。

関連論文リスト

When AI reviews science: Can we trust the referee? [73.47745294608072]
私たちは、トレーニングとデータ検索、デスクレビュー、深いレビュー、反論、システムレベルといった、レビューライフサイクル全体のアタックをマップします。評価スコアに高名度フレーミング, 断定力, 反抗薬効, 文脈中毒の因果効果を分離するために, 2つの高度なLCMベースの審判を用いた。
論文参考訳（メタデータ） (2026-04-26T08:03:32Z)
Beyond Task Success: An Evidence-Synthesis Framework for Evaluating, Governing, and Orchestrating Agentic AI [0.0]
本稿では,手動符号化コーパスにおける有界なエビデンス合成に寄与する。本稿では,(1)評価,ガバナンス,オーケストレーション,保証にまたがる4層フレームワーク,(2)可観測性,決定性,タイムライン,検証性に基づくODTA実行時配置テスト,(3)状態変更動作のための最小アクション検証バンドル,の3つの関連アーティファクトを紹介する。
論文参考訳（メタデータ） (2026-04-18T20:28:26Z)
OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。 OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文参考訳（メタデータ） (2026-01-04T15:48:51Z)
Exploring Health Misinformation Detection with Multi-Agent Debate [0.11470070927586014]
健康情報検出のための2段階の枠組みを提案する。第1段階では,検索した記事を独立に評価するために,大規模言語モデル (LLM) を用いる。このスコアが、事前定義された閾値以下のコンセンサスフォールが不十分であることを示すと、システムは第2段階に進む。複数のエージェントが構造化された議論を行い、矛盾する証拠を合成し、明確な正当性を持つ十分な評決を生成する。
論文参考訳（メタデータ） (2025-11-29T12:39:30Z)
Towards Real-Time Fake News Detection under Evidence Scarcity [66.58597356379907]
本稿では,リアルタイムフェイクニュース検出のための新しいフレームワークである評価アウェア・セレクション・オブ・エキスパートズ(EASE)を提案する。 EASEは、利用可能な証拠の十分性を評価した意思決定プロセスに適合する。本稿では,新興ニュースのモデル一般化を限られた証拠で評価するための新しいベンチマークであるRealTimeNews-25を紹介する。
論文参考訳（メタデータ） (2025-10-13T11:11:46Z)
Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-29T08:48:00Z)
Justified Evidence Collection for Argument-based AI Fairness Assurance [7.65321625950609]
本稿では,2段階の議論に基づく保証に対する動的アプローチを運用するために,ソフトウェアツールがサポートするシステムエンジニアリング駆動フレームワークを提案する。フレームワークの有効性は、フェアネスに関連する議論を支援することに焦点を当てた、金融における実証的なケーススタディによって実証される。
論文参考訳（メタデータ） (2025-05-12T21:05:33Z)
Position: The AI Conference Peer Review Crisis Demands Author Feedback and Reviewer Rewards [2.8239108914343305]
本稿では,従来の一方向レビューシステムを双方向フィードバックループに変換する必要性を論じる。著者はレビューの品質を評価し、レビュアーは正式な認定を受け、説明責任フレームワークを作成する。
論文参考訳（メタデータ） (2025-05-08T05:51:48Z)
Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。 RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。 AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文参考訳（メタデータ） (2025-04-21T04:56:47Z)
Internal Consistency and Self-Feedback in Large Language Models: A Survey [19.647988281648253]
我々は、内部整合性の統一的な視点を使用し、欠陥や幻覚を推論するための説明を提供する。自己フィードバックと呼ばれる内部一貫性をマイニングできる効果的な理論的枠組みを導入する。
論文参考訳（メタデータ） (2024-07-19T17:59:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。