論文の概要: SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature
- arxiv url: http://arxiv.org/abs/2601.10108v1
- Date: Thu, 15 Jan 2026 06:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.016104
- Title: SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature
- Title(参考訳): SIN-Bench:長期マルチモーダル・サイエントリーブド文学におけるネイティブエビデンス・チェーンの追跡
- Authors: Yiming Ren, Junjie Wang, Yuxin Meng, Yihang Shi, Zhiqiang Lin, Ruihang Chu, Yiran Xu, Ziming Li, Yunfei Zhao, Zihan Wang, Yu Qiao, Ruiming Tang, Minghao Liu, Yujiu Yang,
- Abstract要約: FITO(Fish-in-the-Ocean)パラダイムは、科学文書の中に明確なクロスモーダルなエビデンスチェーンを構築するモデルを必要とする。
我々は、証拠発見(SIN-Find)、仮説検証(SIN-Verify)、接地QA(SIN-QA)、エビデンスアンコレッド合成(SIN-Summary)の4つのプログレッシブなタスクでSIN-Benchを構築する。
検証可能なアンカーに基づき、マッチング、関連性、論理による証拠品質の診断を行う際に、予測値を評価する「No Evidence, No Score」を導入する。
- 参考スコア(独自算出の注目度): 92.88058660627678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating whether multimodal large language models truly understand long-form scientific papers remains challenging: answer-only metrics and synthetic "Needle-In-A-Haystack" tests often reward answer matching without requiring a causal, evidence-linked reasoning trace in the document. We propose the "Fish-in-the-Ocean" (FITO) paradigm, which requires models to construct explicit cross-modal evidence chains within native scientific documents. To operationalize FITO, we build SIN-Data, a scientific interleaved corpus that preserves the native interleaving of text and figures. On top of it, we construct SIN-Bench with four progressive tasks covering evidence discovery (SIN-Find), hypothesis verification (SIN-Verify), grounded QA (SIN-QA), and evidence-anchored synthesis (SIN-Summary). We further introduce "No Evidence, No Score", scoring predictions when grounded to verifiable anchors and diagnosing evidence quality via matching, relevance, and logic. Experiments on eight MLLMs show that grounding is the primary bottleneck: Gemini-3-pro achieves the best average overall score (0.573), while GPT-5 attains the highest SIN-QA answer accuracy (0.767) but underperforms on evidence-aligned overall scores, exposing a gap between correctness and traceable support.
- Abstract(参考訳): 回答のみのメトリクスと合成された"Needle-In-A-Haystack"テストは、文書に因果的、エビデンスにリンクされた推論トレースを必要とせずに、回答マッチングに報いることが多い。
そこで本研究では,ネイティブな科学的文書の中に明確なクロスモーダルなエビデンスチェーンを構築するモデルを必要とする「Fish-in-the-Ocean(FITO)」パラダイムを提案する。
FITOを運用するために,テキストや図形をネイティブにインターリーブする科学的なインターリーブコーパスであるSIN-Dataを構築した。
その上に、証拠発見(SIN-Find)、仮説検証(SIN-Verify)、接地QA(SIN-QA)、証拠合成(SIN-Summary)の4つのプログレッシブタスクからなるSIN-Benchを構築する。
さらに、検証可能なアンカーに基づいて、マッチング、関連性、論理によって証拠の品質を診断する際の予測を評価する「No Evidence, No Score」についても紹介する。
Gemini-3-pro は最高スコア (0.573) を達成し、GPT-5 は最高スコア (0.767) を達成したが、証拠に整合した総合スコアでは性能が低下し、正確さと追跡可能なサポートのギャップが露呈した。
関連論文リスト
- CausalT5K: Diagnosing and Informing Refusal for Trustworthy Causal Reasoning of Skepticism, Sycophancy, Detection-Correction, and Rung Collapse [1.4608214000864057]
CausalT5Kは10ドメインにわたる5000以上のケースの診断ベンチマークである。
合成ベンチマークとは異なり、CausalT5Kはリアルな物語に因果トラップを埋め込んでいる。
予備的な実験では、静的監査ポリシーが普遍的に失敗する4段階のコントロールランドスケープが示される。
論文 参考訳(メタデータ) (2026-02-09T17:36:56Z) - RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction [70.53044880892196]
本稿では、複雑な推論引数を標準推論パラダイムの組み合わせに分解し、Reasoning Logic Tree (RLT) という形で分解しなければならない、ARCHE(Latent Reasoning Chain extract)という新しいタスクを紹介する。
この作業を容易にするために,我々は,1,900以上の参照と38,000の視点を含む70のNature Communicationsの記事から得られた新しいベンチマークであるARCHE Benchをリリースする。
ARCHE Bench上での10のLLMの評価では、モデルがREAとECのトレードオフを示しており、完全な標準推論チェーンを抽出することはできません。
論文 参考訳(メタデータ) (2025-11-16T07:37:09Z) - SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.78540935201558]
我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。
このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。
i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
論文 参考訳(メタデータ) (2025-09-25T17:52:06Z) - Unstructured Evidence Attribution for Long Context Query Focused Summarization [53.08341620504465]
固定粒度の場合よりも、より関連性が高く一貫した証拠を得るために、非構造的(すなわち任意の長さのスパン)な証拠を抽出することを提案する。
既存のシステムが、非構造的証拠をコピーし、適切に引用するのにどのように苦労しているかを示す。
論文 参考訳(メタデータ) (2025-02-20T09:57:42Z) - CORRECT: Context- and Reference-Augmented Reasoning and Prompting for Fact-Checking [14.890042094350411]
本稿では,コンテキストと参照を付加した推論とプロンプティングという新しい手法を提案する。
証拠推論のために、証拠層、文脈層、参照層を持つ3層エビデンスグラフを構築した。
検証予測のために,各クレームに対して独自のプロンプト埋め込みを生成するエビデンス条件のプロンプトエンコーダを設計する。
論文 参考訳(メタデータ) (2025-02-09T01:41:15Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - Retrieve to Explain: Evidence-driven Predictions for Explainable Drug Target Identification [0.791663505497707]
Retrieve to Explain (R2E) は検索に基づくモデルで、可能なすべての回答をスコア付けし、ランク付けする。
R2Eはそれぞれの答えを、その裏付けとしてのみ表現し、答え自体が隠蔽されている。
薬物標的同定の挑戦的科学的発見課題としてR2Eを開発した。
論文 参考訳(メタデータ) (2024-02-06T15:13:17Z) - THiFLY Research at SemEval-2023 Task 7: A Multi-granularity System for
CTR-based Textual Entailment and Evidence Retrieval [13.30918296659228]
NLI4CTタスクは、臨床トライアル報告(CTR)に基づいて仮説を導き、正当化を支持する証拠を回収することを目的としている。
本稿では,CTRに基づくテキスト検索とエビデンス検索のための多粒度システムを提案する。
我々は,T5ベースモデルであるSciFiveを医療用コーパスで事前学習することで,システムの数値推論能力を向上させる。
論文 参考訳(メタデータ) (2023-06-02T03:09:31Z) - CiteWorth: Cite-Worthiness Detection for Improved Scientific Document
Understanding [23.930041685595775]
本研究は,文が外部ソースを引用するか否かをラベル付けした英語における引用親和性検出の詳細な研究である。
CiteWorthは高品質で、挑戦的で、ドメイン適応のような問題の研究に適している。
論文 参考訳(メタデータ) (2021-05-23T11:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。