論文の概要: Disagreement as Data: Reasoning Trace Analytics in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2601.12618v1
- Date: Sun, 18 Jan 2026 23:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.703632
- Title: Disagreement as Data: Reasoning Trace Analytics in Multi-Agent Systems
- Title(参考訳): データとしての診断:マルチエージェントシステムにおけるトレース分析の推論
- Authors: Elham Tajik, Conrad Borchers, Bahar Shahrokhian, Sebastian Simon, Ali Keramati, Sonika Pal, Sreecharan Sankaranarayanan,
- Abstract要約: 本稿では,大規模言語モデル(LLM)エージェントが生成する推論トレースが,プロセスデータの新しいリッチな形式を構成することを提案する。
我々は、推論トレースにコサイン類似性を適用し、エージェント間の不一致を系統的に検出、定量化し、解釈する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning analytics researchers often analyze qualitative student data such as coded annotations or interview transcripts to understand learning processes. With the rise of generative AI, fully automated and human-AI workflows have emerged as promising methods for analysis. However, methodological standards to guide such workflows remain limited. In this study, we propose that reasoning traces generated by large language model (LLM) agents, especially within multi-agent systems, constitute a novel and rich form of process data to enhance interpretive practices in qualitative coding. We apply cosine similarity to LLM reasoning traces to systematically detect, quantify, and interpret disagreements among agents, reframing disagreement as a meaningful analytic signal. Analyzing nearly 10,000 instances of agent pairs coding human tutoring dialog segments, we show that LLM agents' semantic reasoning similarity robustly differentiates consensus from disagreement and correlates with human coding reliability. Qualitative analysis guided by this metric reveals nuanced instructional sub-functions within codes and opportunities for conceptual codebook refinement. By integrating quantitative similarity metrics with qualitative review, our method has the potential to improve and accelerate establishing inter-rater reliability during coding by surfacing interpretive ambiguity, especially when LLMs collaborate with humans. We discuss how reasoning-trace disagreements represent a valuable new class of analytic signals advancing methodological rigor and interpretive depth in educational research.
- Abstract(参考訳): 学習分析研究者は、コード化されたアノテーションやインタビューの書き起こしなどの定性的な学生データを分析して学習プロセスを理解する。
生成AIの台頭に伴い、完全に自動化されたヒューマンAIワークフローが分析の有望な方法として登場した。
しかし、そのようなワークフローを導くための方法論的基準は依然として限られている。
本研究では,大規模言語モデル(LLM)エージェントが生成する推論トレース,特にマルチエージェントシステムにおいて,定性的符号化における解釈的実践を強化するために,プロセスデータの新しいリッチな形式を構成することを提案する。
我々は,LSM推論トレースにコサイン類似性を適用し,エージェント間の不一致を系統的に検出し,定量化し,解釈し,意味のある解析信号として不一致を解釈する。
人間の学習ダイアログセグメントを符号化するエージェントペアの約10,000のインスタンスを分析し,LLMエージェントの意味的推論の類似性を強く区別し,人間のコーディング信頼性と相関することを示す。
この計量で導かれる定性的な分析は、コード内のニュアンスな命令のサブファンクションと、概念的なコードブックの洗練の機会を明らかにする。
定量的類似度指標を質的評価と統合することにより,LLMが人間と協調する場合に,解釈的曖昧さを克服することにより,符号化時の層間信頼性の向上と高速化を図ることができる。
本稿では, 方法論の厳格化と解釈深度を推し進める分析信号の新たなクラスとして, 推論とトレースの相違がどのような意味を持つかを論じる。
関連論文リスト
- Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - Computational frame analysis revisited: On LLMs for studying news coverage [1.4528491369411618]
GPTやClaudeといったジェネレーティブなLLMは、コンテンツ分析ツールとしてますます使われています。
我々はそれらを計算前のものと体系的に評価した。
我々は,方法論的多元的アプローチを支持し,今後の研究者のための計算フレーム分析のロードマップを作成した。
論文 参考訳(メタデータ) (2025-11-21T19:52:46Z) - Illuminating LLM Coding Agents: Visual Analytics for Deeper Understanding and Enhancement [16.472150248814767]
我々は,コーディングエージェントの動作の検査を強化するために,視覚分析システムを導入する。
我々のシステムでは,ML科学者がエージェントの動作に関する構造化された理解を得ることが可能である。
論文 参考訳(メタデータ) (2025-08-18T01:17:11Z) - Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。
本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:49:53Z) - A Computational Method for Measuring "Open Codes" in Qualitative Analysis [44.39424825305388]
本稿では,人間と生成AI(GAI)による帰納的符号化結果を測定するための理論インフォームド計算手法を提案する。
これは、各コーダのコントリビューションを、Coverage、Overlap、Noverety、Divergenceの4つの新しいメトリクスを使用して、マージした結果に対して測定する。
本研究は,人間とAIの質的分析における方法論的厳密性を確保するための信頼性の高い経路を提供する。
論文 参考訳(メタデータ) (2024-11-19T00:44:56Z) - Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Can Large Language Models Serve as Data Analysts? A Multi-Agent Assisted Approach for Qualitative Data Analysis [4.539569292151314]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)における人間とロボットの協調を可能にする
本研究では,人間の意思決定支援をAIと相乗化して,さまざまな定性的データ分析手法を自動化するLLMベースのマルチエージェントシステムの設計と開発を行う。
論文 参考訳(メタデータ) (2024-02-02T13:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。