論文の概要: ReportLogic: Evaluating Logical Quality in Deep Research Reports
- arxiv url: http://arxiv.org/abs/2602.18446v1
- Date: Tue, 27 Jan 2026 14:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.561348
- Title: ReportLogic: Evaluating Logical Quality in Deep Research Reports
- Title(参考訳): レポートロジック:Deep Research Reportsにおける論理的品質の評価
- Authors: Jujia Zhao, Zhaoxin Huan, Zihan Wang, Xiaolu Zhang, Jun Zhou, Suzan Verberne, Zhaochun Ren,
- Abstract要約: ReportLogicは、レポートレベルの論理的品質を定量化するベンチマークである。
我々は,人間の注釈付きルーブリックを構築し,オープンソースのLogicJudgeをスケーラブルな評価のために訓練する。
- 参考スコア(独自算出の注目度): 44.97940942982868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Users increasingly rely on Large Language Models (LLMs) for Deep Research, using them to synthesize diverse sources into structured reports that support understanding and action. In this context, the practical reliability of such reports hinges on logical quality: whether the report's claims and arguments are explicitly supported and can be trusted as a basis for downstream use, rather than merely appearing fluent or informative. However, current evaluation frameworks largely overlook this requirement. To bridge this gap, we introduce ReportLogic, a benchmark that quantifies report-level logical quality through a reader-centric lens of auditability. Specifically, ReportLogic adopts a hierarchical taxonomy that evaluates whether readers can (1) trace an on-topic report structure with a unified analytical arc (Macro-Logic), (2) understand the progression with necessary context (Expositional-Logic), and (3) verify conclusions via explicit claim--support (Structural-Logic). Based on this taxonomy, we construct a human-annotated rubric-guided dataset and train an open-source LogicJudge for scalable evaluation. We further evaluate judge robustness via adversarial attacks, showing that off-the-shelf LLM judges are frequently influenced by superficial cues (e.g., verbosity), and reasoning modes can mask broken support relations. Overall, our results provide actionable guidance for building more robust logic evaluators and improving the logical reliability of LLM-generated reports.
- Abstract(参考訳): ユーザは、Deep ResearchのためにLarge Language Models(LLMs)をますます頼りにし、さまざまなソースを理解とアクションをサポートする構造化レポートに合成する。
この文脈では、そのようなレポートの実用的信頼性は論理的品質に依拠する:レポートの主張と議論が明示的に支持され、単に流動的あるいは情報的に見えるのではなく、下流の使用の基盤として信頼される。
しかし、現在の評価フレームワークはこの要件を概ね見落としている。
このギャップを埋めるために、私たちはレポートレベルの論理的品質を、読者中心の可聴性レンズを通して定量化するベンチマークであるReportLogicを紹介した。
特に、ReportLogicは、(1)分析的アーク(マクロ論理)を統一したオントピー的レポート構造をトレースできるかどうかを評価する階層的な分類を採用し、(2)必要なコンテキスト(エクスポジション論理)による進捗を理解し、(3)明示的なクレーム支援(構造論理)による結論の検証を行う。
この分類法に基づき、人間の注釈付きルーリック誘導データセットを構築し、オープンソースのLogicJudgeをスケーラブルな評価のために訓練する。
さらに, 対人攻撃による判定の堅牢性を評価し, 既往のLCM判事が表面的手がかり(例えば, 冗長性)の影響を頻繁に受けており, 推論モードは, 故障した支援関係を隠蔽できることを示した。
その結果,より堅牢な論理式評価器の構築とLCMレポートの論理的信頼性向上のための実用的なガイダンスが得られた。
関連論文リスト
- Last Layer Logits to Logic: Empowering LLMs with Logic-Consistent Structured Knowledge Reasoning [55.55968342644846]
大規模言語モデル(LLM)は、膨大な非構造化テキストの事前学習を通じて、自然言語推論タスクにおいて優れた性能を達成する。
LLM出力の論理的欠陥を修正するために,ロジット強化とロジットフィルタリングをコアモジュールとして組み込んだ textitLogits-to-Logic フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T07:08:27Z) - Exploratory Semantic Reliability Analysis of Wind Turbine Maintenance Logs using Large Language Models [0.0]
本稿では、より複雑な推論タスクに現代大規模言語モデル(LLM)を活用する際のギャップについて論じる。
我々は,LLMを用いた探索的フレームワークを導入し,分類を超えて意味分析を行う。
以上の結果から,LSMは,テキスト情報や行動可能な専門家レベルの仮説を合成するためにラベル付けを超えて,強力な"信頼性共パイロット"として機能できることが示唆された。
論文 参考訳(メタデータ) (2025-09-26T14:00:20Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - SV-TrustEval-C: Evaluating Structure and Semantic Reasoning in Large Language Models for Source Code Vulnerability Analysis [39.229080120880774]
SV-TrustEval-Cは,C言語で記述されたコードの脆弱性解析のための大規模言語モデルの能力を評価するためのベンチマークである。
以上の結果から,現在のLLMは複雑なコード関係を理解するのに十分ではないことが示され,その脆弱性分析はロバストな論理的推論よりもパターンマッチングに頼っている。
論文 参考訳(メタデータ) (2025-05-27T02:16:27Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Structured Prompting and Feedback-Guided Reasoning with LLMs for Data Interpretation [0.0]
大規模言語モデル(LLM)は、自然言語の理解とタスクの一般化において顕著な能力を示した。
本稿では、構造化されたプロンプトおよびフィードバック駆動型変換ロジック生成手法であるSTROT Frameworkを紹介する。
論文 参考訳(メタデータ) (2025-05-03T00:05:01Z) - Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation [19.46864730994867]
マルチ次元マルチモーダルベンチマークであるtextbfunderline(textbfunderlineCounterfactual textbfunderlineEo textbfunderlineReasoning)を導入する。
複雑なクエリを構造化されたサブクエリに分解し、きめ細かい推論分析を可能にする。
論文 参考訳(メタデータ) (2025-03-12T03:25:51Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。