論文の概要: Do Thought Streams Matter? Evaluating Reasoning in Gemini Vision-Language Models for Video Scene Understanding
- arxiv url: http://arxiv.org/abs/2604.11177v1
- Date: Mon, 13 Apr 2026 08:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.432513
- Title: Do Thought Streams Matter? Evaluating Reasoning in Gemini Vision-Language Models for Video Scene Understanding
- Title(参考訳): 思考ストリームは重要か? 映像シーン理解のためのジェミニ視覚言語モデルにおける推論の評価
- Authors: Shivam Sharma, Sankalp Nagaonkar, Ashish Choithani, Ashutosh Trivedi,
- Abstract要約: 内部推論トレースは、視覚言語モデルにおける映像シーンの理解に影響を与える。
われわれは、GoogleのGemini 2.5 FlashとFlash Liteの4つの設定を100時間の動画から抽出したシーンでベンチマークした。
追加の思考高原から品質が急速に向上し、最初の数百のトークンで改善が起きていることが分かりました。
- 参考スコア(独自算出の注目度): 8.886670910437234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We benchmark how internal reasoning traces, which we call thought streams, affect video scene understanding in vision-language models. Using four configurations of Google's Gemini 2.5 Flash and Flash Lite across scenes extracted from 100 hours of video, we ask three questions: does more thinking lead to better outputs, where do the gains stop, and what do these models actually think about? We introduce three evaluation metrics. Contentfulness measures how much of the thought stream is useful scene content versus meta-commentary. Thought-Final Coverage measures how faithfully the thought stream translates into the final output. Dominant Entity Analysis identifies which subjects, actions, and settings the model focuses on. GPT-5 serves as an independent judge. We find that quality gains from additional thinking plateau quickly, with most improvement occurring in the first few hundred tokens. Flash Lite offers the best balance between quality and token usage. Tight reasoning budgets cause the model to add content in the final output that it never reasoned about, a form of compression-step hallucination. Despite being different model tiers, Flash and Flash Lite produce similar thought streams, though they differ in style: Flash discusses its reasoning process, while Lite focuses on describing the scene.
- Abstract(参考訳): 我々は、思考ストリームと呼ばれる内部の推論トレースが、視覚言語モデルにおける映像シーンの理解にどのように影響するかをベンチマークする。
GoogleのGemini 2.5 Flash LiteとFlash Liteの4つの構成を100時間の動画から抽出したシーンで使用して、私たちは3つの質問に答える。
評価基準を3つ導入する。
コンテントフルネスは、思考ストリームのどれ程がシーンコンテンツに役に立つかを測定します。
Thought-Final Coverageは、思考ストリームが最終的な出力にいかに忠実に変換されるかを測定する。
支配的エンティティ分析(Dominant Entity Analysis)は、モデルがフォーカスする主題、アクション、設定を特定する。
GPT-5は独立した裁判官として機能する。
追加の思考高原から品質が急速に向上し、最初の数百のトークンで改善が起きていることが分かりました。
Flash Liteは、品質とトークン使用率の最良のバランスを提供します。
厳格な推論予算は、圧縮段階の幻覚の一形態である最終的な出力にコンテンツを追加する原因となる。
モデル層が異なるにもかかわらず、FlashとFlash Liteは同様の思考ストリームを生成するが、スタイルが異なる。
関連論文リスト
- Ego-Grounding for Personalized Question-Answering in Egocentric Videos [54.479709790133946]
本稿では,マルチモーダル大言語モデル (MLLM) を,ego-grounding を必要とするパーソナライズされた質問応答において初めて体系的に解析する。
MyEgoは、MLLMのカメラ装着者の理解、記憶、推論能力を評価するために設計された最初のエゴセントリックなVideoQAデータセットである。
論文 参考訳(メタデータ) (2026-04-02T12:29:23Z) - MME-CoF-Pro: Evaluating Reasoning Coherence in Video Generative Models with Text and Visual Hints [95.27042253462963]
MME-CoF-Proはビデオモデルにおける推論コヒーレンスを評価するベンチマークである。
MME-CoF-Proは、視覚論理学から科学的推論まで、16のカテゴリにわたる303のサンプルを含んでいる。
論文 参考訳(メタデータ) (2026-03-20T17:59:56Z) - Know-Show: Benchmarking Video-Language Models on Spatio-Temporal Grounded Reasoning [18.15310805625469]
マルチモーダルビデオ言語モデル(Video-LMs)を評価するための新しいベンチマークであるKnow-Showを提案する。
Know-Showは、空間的(人、物、人、物)と時間的次元の5つのシナリオからなる単一の評価枠組み内での推論と局所化を統一する。
Charades、Action Genome、Ego4Dから2.5万の人間の言語質問で作られたこのベンチマークは、現在のビデオ-LMと人間の推論の間に大きなギャップを露呈している。
このギャップを埋めるために、我々は、きめ細かい接地でビデオ-LMを増強するトレーニング不要なプラグインであるGRAMを提案する。
論文 参考訳(メタデータ) (2025-12-05T08:15:49Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - GLIMPSE: Do Large Vision-Language Models Truly Think With Videos or Just Glimpse at Them? [76.67205289006795]
GLIMPSEは3,269本のビデオと、11のカテゴリで4,342本以上の視覚中心の質問で構成されている。
すべての質問は、人間のアノテータによって慎重に作成され、ビデオ全体を見て、完全なビデオコンテキストを推論する必要がある。
ヒトの評価では、GLIMPSEは94.82%の精度を達成しているが、現在のLVLMは重大な課題に直面している。
論文 参考訳(メタデータ) (2025-07-13T04:44:57Z) - VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding [70.00000053847738]
物理的な世界と対話するAIシステムには、真の視覚的理解が不可欠である。
現在の評価では、主にトレーニングデータと同様の実際のビデオを使用する。
物理的に不可能または論理的に矛盾する事象を描写するビデオを用いた負制御テストを提案する。
論文 参考訳(メタデータ) (2025-05-02T15:58:38Z) - VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict Entailment [19.313541287648473]
VELOCITI(VELOCITI)は,エージェントの理解を解き明かし,評価することで,ビデオLLMを研究するためのベンチマークである。
我々は,ビデオ・ランゲージ・エンターメント・セットアップを採用し,正と負のキャプションの正確な分類(ランキングではなく)を必要とするStrictVLEを提案する。
その結果、アクション理解のラグや、ビデオに現れるエンティティを使って生成された否定的なキャプションは、純粋なテキスト操作で得られたものよりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-16T10:42:21Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。