論文の概要: SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature
- arxiv url: http://arxiv.org/abs/2601.10108v1
- Date: Thu, 15 Jan 2026 06:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.016104
- Title: SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature
- Title(参考訳): SIN-Bench:長期マルチモーダル・サイエントリーブド文学におけるネイティブエビデンス・チェーンの追跡
- Authors: Yiming Ren, Junjie Wang, Yuxin Meng, Yihang Shi, Zhiqiang Lin, Ruihang Chu, Yiran Xu, Ziming Li, Yunfei Zhao, Zihan Wang, Yu Qiao, Ruiming Tang, Minghao Liu, Yujiu Yang,
- Abstract要約: FITO(Fish-in-the-Ocean)パラダイムは、科学文書の中に明確なクロスモーダルなエビデンスチェーンを構築するモデルを必要とする。
我々は、証拠発見(SIN-Find)、仮説検証(SIN-Verify)、接地QA(SIN-QA)、エビデンスアンコレッド合成(SIN-Summary)の4つのプログレッシブなタスクでSIN-Benchを構築する。
検証可能なアンカーに基づき、マッチング、関連性、論理による証拠品質の診断を行う際に、予測値を評価する「No Evidence, No Score」を導入する。
- 参考スコア(独自算出の注目度): 92.88058660627678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating whether multimodal large language models truly understand long-form scientific papers remains challenging: answer-only metrics and synthetic "Needle-In-A-Haystack" tests often reward answer matching without requiring a causal, evidence-linked reasoning trace in the document. We propose the "Fish-in-the-Ocean" (FITO) paradigm, which requires models to construct explicit cross-modal evidence chains within native scientific documents. To operationalize FITO, we build SIN-Data, a scientific interleaved corpus that preserves the native interleaving of text and figures. On top of it, we construct SIN-Bench with four progressive tasks covering evidence discovery (SIN-Find), hypothesis verification (SIN-Verify), grounded QA (SIN-QA), and evidence-anchored synthesis (SIN-Summary). We further introduce "No Evidence, No Score", scoring predictions when grounded to verifiable anchors and diagnosing evidence quality via matching, relevance, and logic. Experiments on eight MLLMs show that grounding is the primary bottleneck: Gemini-3-pro achieves the best average overall score (0.573), while GPT-5 attains the highest SIN-QA answer accuracy (0.767) but underperforms on evidence-aligned overall scores, exposing a gap between correctness and traceable support.
- Abstract(参考訳): 回答のみのメトリクスと合成された"Needle-In-A-Haystack"テストは、文書に因果的、エビデンスにリンクされた推論トレースを必要とせずに、回答マッチングに報いることが多い。
そこで本研究では,ネイティブな科学的文書の中に明確なクロスモーダルなエビデンスチェーンを構築するモデルを必要とする「Fish-in-the-Ocean(FITO)」パラダイムを提案する。
FITOを運用するために,テキストや図形をネイティブにインターリーブする科学的なインターリーブコーパスであるSIN-Dataを構築した。
その上に、証拠発見(SIN-Find)、仮説検証(SIN-Verify)、接地QA(SIN-QA)、証拠合成(SIN-Summary)の4つのプログレッシブタスクからなるSIN-Benchを構築する。
さらに、検証可能なアンカーに基づいて、マッチング、関連性、論理によって証拠の品質を診断する際の予測を評価する「No Evidence, No Score」についても紹介する。
Gemini-3-pro は最高スコア (0.573) を達成し、GPT-5 は最高スコア (0.767) を達成したが、証拠に整合した総合スコアでは性能が低下し、正確さと追跡可能なサポートのギャップが露呈した。
関連論文リスト
- ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction [70.53044880892196]
本稿では、複雑な推論引数を標準推論パラダイムの組み合わせに分解し、Reasoning Logic Tree (RLT) という形で分解しなければならない、ARCHE(Latent Reasoning Chain extract)という新しいタスクを紹介する。
この作業を容易にするために,我々は,1,900以上の参照と38,000の視点を含む70のNature Communicationsの記事から得られた新しいベンチマークであるARCHE Benchをリリースする。
ARCHE Bench上での10のLLMの評価では、モデルがREAとECのトレードオフを示しており、完全な標準推論チェーンを抽出することはできません。
論文 参考訳(メタデータ) (2025-11-16T07:37:09Z) - SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.78540935201558]
我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。
このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。
i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
論文 参考訳(メタデータ) (2025-09-25T17:52:06Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - Retrieve to Explain: Evidence-driven Predictions for Explainable Drug Target Identification [0.791663505497707]
Retrieve to Explain (R2E) は検索に基づくモデルで、可能なすべての回答をスコア付けし、ランク付けする。
R2Eはそれぞれの答えを、その裏付けとしてのみ表現し、答え自体が隠蔽されている。
薬物標的同定の挑戦的科学的発見課題としてR2Eを開発した。
論文 参考訳(メタデータ) (2024-02-06T15:13:17Z) - THiFLY Research at SemEval-2023 Task 7: A Multi-granularity System for
CTR-based Textual Entailment and Evidence Retrieval [13.30918296659228]
NLI4CTタスクは、臨床トライアル報告(CTR)に基づいて仮説を導き、正当化を支持する証拠を回収することを目的としている。
本稿では,CTRに基づくテキスト検索とエビデンス検索のための多粒度システムを提案する。
我々は,T5ベースモデルであるSciFiveを医療用コーパスで事前学習することで,システムの数値推論能力を向上させる。
論文 参考訳(メタデータ) (2023-06-02T03:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。