論文の概要: The Argument is the Explanation: Structured Argumentation for Trust in Agents
- arxiv url: http://arxiv.org/abs/2510.03442v1
- Date: Fri, 03 Oct 2025 19:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.048178
- Title: The Argument is the Explanation: Structured Argumentation for Trust in Agents
- Title(参考訳): 論説 : エージェントの信頼のための構造化論証
- Authors: Ege Cakar, Per Ola Kristensson,
- Abstract要約: 人間はブラックボックスであり、彼らの神経過程を観察することはできないが、検証可能な議論を評価することで社会機能を評価する。
構造化された議論を用いて、説明と検証のレベルを提供する。
我々のパイプラインは、AAECが発行した列車/テストスプリット上で、最先端の94.44マクロF1を達成する。
- 参考スコア(独自算出の注目度): 27.3171971392448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are black boxes -- we cannot observe their neural processes, yet society functions by evaluating verifiable arguments. AI explainability should follow this principle: stakeholders need verifiable reasoning chains, not mechanistic transparency. We propose using structured argumentation to provide a level of explanation and verification neither interpretability nor LLM-generated explanation is able to offer. Our pipeline achieves state-of-the-art 94.44 macro F1 on the AAEC published train/test split (5.7 points above prior work) and $0.81$ macro F1, $\sim$0.07 above previous published results with comparable data setups, for Argumentative MicroTexts relation classification, converting LLM text into argument graphs and enabling verification at each inferential step. We demonstrate this idea on multi-agent risk assessment using the Structured What-If Technique, where specialized agents collaborate transparently to carry out risk assessment otherwise achieved by humans alone. Using Bipolar Assumption-Based Argumentation, we capture support/attack relationships, thereby enabling automatic hallucination detection via fact nodes attacking arguments. We also provide a verification mechanism that enables iterative refinement through test-time feedback without retraining. For easy deployment, we provide a Docker container for the fine-tuned AMT model, and the rest of the code with the Bipolar ABA Python package on GitHub.
- Abstract(参考訳): 人間はブラックボックスであり、彼らの神経過程を観察することはできないが、検証可能な議論を評価することで社会機能を評価する。
ステークホルダーは機械的透明性ではなく、検証可能な推論チェーンが必要です。
本稿では、構造化された議論を用いて、解釈可能性やLLM生成した説明が提供できないような説明と検証のレベルを提供する。
我々のパイプラインは、AAECが発行した列車/テストスプリット(5.7ポイント)と$0.81$ macro F1, $\sim$0.07という最先端の94.44マクロF1を、Argumentative MicroTexts関係分類、LLMテキストを引数グラフに変換し、各推論ステップでの検証を可能にする。
本研究では,人間単独で行うリスクアセスメントを実施するために,特殊なエージェントが透過的に協力する構造的What-If技術を用いて,マルチエージェントのリスクアセスメントを実証する。
バイポーラ仮定に基づく論証を用いて、サポート/アタック関係をキャプチャし、事実ノードによる引数攻撃による幻覚の自動検出を可能にする。
また,テストタイムフィードバックによる反復的な改善を,再トレーニングを伴わない検証機構も提供する。
デプロイを簡単にするために、微調整されたAMTモデル用のDockerコンテナを提供し、残りのコードはGitHubのBipolar ABA Pythonパッケージを使っています。
関連論文リスト
- Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems [0.0]
言語モデルが検出を回避した誤認的な説明を生成できることを示す。
我々のエージェントは、一見無邪気な説明で情報を隠蔽するために、ステガノグラフィー手法を使っている。
試験された全てのLSMエージェントは、基準ラベルに匹敵する高い解釈可能性のスコアを達成しつつ、監督者を欺くことができる。
論文 参考訳(メタデータ) (2025-04-10T15:07:10Z) - Evaluating Evidence Attribution in Generated Fact Checking Explanations [48.776087871960584]
我々は、新しい評価プロトコル、引用マスキングとリカバリを導入する。
我々は,自動アノテータとヒューマンアノテータの両方を用いてプロトコルを実装した。
実験により、最高の性能を持つLSMは、不正確な属性を持つ説明を生成することが明らかとなった。
論文 参考訳(メタデータ) (2024-06-18T14:13:13Z) - Plausible Extractive Rationalization through Semi-Supervised Entailment Signal [29.67884478799914]
抽出された有理量の妥当性を最適化するために,半教師付きアプローチを採用する。
我々は、事前学習された自然言語推論(NLI)モデルを採用し、さらに教師付き論理の小さなセットに微調整する。
質問応答タスクにおける説明と回答のアライメント合意を強制することにより、真理ラベルにアクセスせずに性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-13T14:12:32Z) - CASA: Causality-driven Argument Sufficiency Assessment [79.13496878681309]
ゼロショット因果関係に基づく議論十分性評価フレームワークであるCASAを提案する。
PSは前提イベントの導入が前提イベントと結論イベントの両方が欠落した場合の結論につながる可能性を測っている。
2つの論理的誤り検出データセットの実験により、CASAは不十分な議論を正確に識別することを示した。
論文 参考訳(メタデータ) (2024-01-10T16:21:18Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Argumentative Explanations for Pattern-Based Text Classifiers [15.81939090849456]
文分類のためのパターンベースロジスティック回帰(PLR)という,特定の解釈可能なモデルの説明に焦点をあてる。
本稿では,AXPLRを提案する。AXPLRは,計算論法を用いて説明文を生成する新しい説明法である。
論文 参考訳(メタデータ) (2022-05-22T21:16:49Z) - Exploring Explainable Selection to Control Abstractive Summarization [51.74889133688111]
説明可能性を重視した新しいフレームワークを開発する。
新しいペアワイズ行列は、文の相互作用、中心性、属性スコアをキャプチャする。
コンストラクタ内の文分割アテンション機構は、最終要約が所望のコンテンツを強調することを保証する。
論文 参考訳(メタデータ) (2020-04-24T14:39:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。