論文の概要: Seeking Universal Shot Language Understanding Solutions
- arxiv url: http://arxiv.org/abs/2603.18448v1
- Date: Thu, 19 Mar 2026 03:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.936979
- Title: Seeking Universal Shot Language Understanding Solutions
- Title(参考訳): ユニバーサルショット言語理解ソリューションを探る
- Authors: Haoxin Liu, Harshavardhan Kamarthi, Zhiyuan Zhao, Hongjie Chen, B. Aditya Prakash,
- Abstract要約: ショット言語理解(SLU)は、映画解析において重要であるが、その多様な撮影次元と主観的専門家による判断のため、依然として困難である。
SLU-SUITEは、6つのフィルムグラウンド次元にまたがる33のタスクにわたる490Kの人間注釈付きQAペアを含む総合的なトレーニングおよび評価スイートである。
- 参考スコア(独自算出の注目度): 23.502892696009436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shot language understanding (SLU) is crucial for cinematic analysis but remains challenging due to its diverse cinematographic dimensions and subjective expert judgment. While vision-language models (VLMs) have shown strong ability in general visual understanding, recent studies reveal judgment discrepancies between VLMs and film experts on SLU tasks. To address this gap, we introduce SLU-SUITE, a comprehensive training and evaluation suite containing 490K human-annotated QA pairs across 33 tasks spanning six film-grounded dimensions. Using SLU-SUITE, we originally observe two insights into VLM-based SLU from: the model side, which diagnoses key bottlenecks of modules; the data side, which quantifies cross-dimensional influences among tasks. These findings motivate our universal SLU solutions from two complementary paradigms: UniShot, a balanced one-for-all generalist trained via dynamic-balanced data mixing, and AgentShots, a prompt-routed expert cluster that maximizes peak dimension performance. Extensive experiments show that our models outperform task-specific ensembles on in-domain tasks and surpass leading commercial VLMs by 22% on out-of-domain tasks.
- Abstract(参考訳): ショット言語理解(SLU)は、映画解析において重要であるが、その多様な撮影次元と主観的専門家による判断のため、依然として困難である。
視覚言語モデル(VLM)は一般的な視覚的理解において強い能力を示してきたが、近年の研究では、SLUタスクにおけるVLMとフィルム専門家の判断の相違が明らかにされている。
SLU-SUITE(SLU-SUITE)は、6つのフィルムグラウンド次元にまたがる33のタスクにわたる490Kの人間注釈付きQAペアを含む総合的なトレーニングと評価スイートである。
SLU-SUITEを用いて,モジュールのボトルネックを診断するモデル側,タスク間のクロス次元的影響を定量化するデータ側という,VLMベースのSLUに関する2つの洞察を当初観測した。
これらの発見は、ダイナミックバランスのデータミキシングによって訓練されたバランスの取れた1対オールジェネリストであるUniShotと、ピークディメンションのパフォーマンスを最大化するアクティベーションクラスタであるAgentShotsの2つの相補的なパラダイムから、私たちの普遍的なSLUソリューションを動機付けています。
大規模な実験により、我々のモデルはドメイン内タスクにおけるタスク固有のアンサンブルを上回り、ドメイン外タスクにおいて商業的なVLMを22%上回ります。
関連論文リスト
- Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.34964016971127]
iVISPARは、視覚言語モデル(VLM)がエージェントとして働く空間的推論能力を評価するために設計されたインタラクティブなベンチマークである。
このベンチマークは、ビジュアル3D、2D、テキストベースの入力モダリティをサポートし、VLMの計画と推論スキルの包括的な評価を可能にする。
その結果、VLMは3次元やテキストベースの設定に比べて2次元のタスクでは優れていたが、複雑な空間構成に苦慮し、常に人間のパフォーマンスに欠けていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs [83.24033574914425]
視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された革新的フレームワークであるPrismを提示する。
プリズムは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出された視覚情報に基づいて応答を定式化する推論段階と、2つの異なる段階から構成される。
私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T17:54:03Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - ViCor: Bridging Visual Understanding and Commonsense Reasoning with Large Language Models [27.5219975853389]
事前学習された視覚・言語モデル (VLM) と大規模言語モデル (LLM) は,様々な視覚コモンセンス推論問題に長けている。
画像内容以外の結論を推測することが目的である場合、VLMは困難に直面し、LLMは十分な視覚的証拠を与えられた場合、その答えをよく推測するために常識を使用することができる。
論文 参考訳(メタデータ) (2023-10-09T17:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。