論文の概要: From "Thinking" to "Justifying": Aligning High-Stakes Explainability with Professional Communication Standards
- arxiv url: http://arxiv.org/abs/2601.07233v1
- Date: Mon, 12 Jan 2026 06:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.238005
- Title: From "Thinking" to "Justifying": Aligning High-Stakes Explainability with Professional Communication Standards
- Title(参考訳): 思考」から「正当化」へ:専門的コミュニケーション標準による高レベルの説明可能性の調整
- Authors: Chen Qian, Yimeng Wang, Yu Chen, Lingfei Wu, Andreas Stathopoulos,
- Abstract要約: は、その構造化された正当化の前に結論を示すために出力通信を制約します。
その結果、構造化された正当化は妥当性を向上し、信頼性も向上する可能性が示唆された。
- 参考スコア(独自算出の注目度): 21.842813905857863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable AI (XAI) in high-stakes domains should help stakeholders trust and verify system outputs. Yet Chain-of-Thought methods reason before concluding, and logical gaps or hallucinations can yield conclusions that do not reliably align with their rationale. Thus, we propose "Result -> Justify", which constrains the output communication to present a conclusion before its structured justification. We introduce SEF (Structured Explainability Framework), operationalizing professional conventions (e.g., CREAC, BLUF) via six metrics for structure and grounding. Experiments across four tasks in three domains validate this approach: all six metrics correlate with correctness (r=0.20-0.42; p<0.001), and SEF achieves 83.9% accuracy (+5.3 over CoT). These results suggest structured justification can improve verifiability and may also improve reliability.
- Abstract(参考訳): ハイテイクドメインにおける説明可能なAI(XAI)は、ステークホルダーがシステムのアウトプットを信頼し、検証するのに役立ちます。
しかし、結末の連鎖法は結論を下す前に理にかなっており、論理的ギャップや幻覚はそれらの理性と確実に一致しない結論を導き出すことができる。
そこで我々は「結果 -> 正当性」を提案する。これは、その構造化された正当性の前に、出力通信が結論を提示することを制約する。
我々はSEF(Structured Explainability Framework)を導入し、構造化と接地のための6つの指標を通じてプロのコンベンション(例えばCREAC、BLUF)を運用する。
3つの領域における4つのタスクにわたる実験では、すべての6つのメトリクスが正しさ(r=0.20-0.42; p<0.001)と相関し、SEFは83.9%の精度(CoT以上+5.3)を達成した。
これらの結果は、構造化された正当化は検証可能性を改善し、信頼性も向上する可能性があることを示唆している。
関連論文リスト
- How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - Critical or Compliant? The Double-Edged Sword of Reasoning in Chain-of-Thought Explanations [60.27156500679296]
系統的な推論連鎖の摂動とデリバリートーンの操作による道徳シナリオにおけるCoT(Chain-of-Thought)の説明の役割について検討した。
1) 利用者は, 根拠に欠陥がある場合でも, 信頼感を保ち, 結果合意を信頼する傾向がみられた。
これらの結果は、CoTの説明が同時に明確化と誤解を招き、視覚的信頼よりも精査と批判的思考を奨励する説明を提供するNLPシステムの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-15T02:38:49Z) - Co-Sight: Enhancing LLM-Based Agents via Conflict-Aware Meta-Verification and Trustworthy Reasoning with Structured Facts [18.221173068008603]
Co-Sightは推論を偽造可能で監査可能なプロセスに変える。
コンフリクト・アウェア・メタ検証(CAMV)とTrustworthy Reasoning with Structured Facts(TRSF)の2つのメカニズム
論文 参考訳(メタデータ) (2025-10-24T15:14:14Z) - ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability [23.70973331911138]
使用可能な推論システムは、解釈可能性、忠実性、信頼性の3つの特性を特徴とする、信頼できるものでなければならない、と我々は主張する。
本稿では,GRPOと教師付き微調整を統合した新しいトレーニングフレームワークReFIneを提案する。
実験の結果,ReFIneモデルはより明確でより構造化された推論トレースを生成することがわかった。
論文 参考訳(メタデータ) (2025-10-10T07:08:44Z) - ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs [54.154593699263074]
ProtoReasoningは、大規模推論モデルの推論能力を高めるフレームワークである。
ProtoReasoningは問題を対応するプロトタイプ表現に変換する。
ProtoReasoningは論理的推論に基づくベースラインモデルよりも4.7%改善されている。
論文 参考訳(メタデータ) (2025-06-18T07:44:09Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework [26.7264686036634]
大規模言語モデル(LLM)がNLPの標準となり、生成および推論タスクのパフォーマンスが向上した。
最も致命的な欠点の1つは、事実の正しさの欠如である。
非現実的なテキストを生成することは、パフォーマンスを低下させるだけでなく、アプリケーションの信頼性と妥当性を低下させる。
論文 参考訳(メタデータ) (2023-05-05T03:49:14Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。