論文の概要: SVLTA: Benchmarking Vision-Language Temporal Alignment via Synthetic Video Situation
- arxiv url: http://arxiv.org/abs/2504.05925v1
- Date: Tue, 08 Apr 2025 11:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:42.691835
- Title: SVLTA: Benchmarking Vision-Language Temporal Alignment via Synthetic Video Situation
- Title(参考訳): SVLTA:合成映像による視覚言語時間アライメントのベンチマーク
- Authors: Hao Du, Bo Wu, Yan Lu, Zhendong Mao,
- Abstract要約: 視覚言語による時間的アライメントは、現実世界のシナリオにおける人間の動的な認識と認識にとって重要な能力である。
シミュレーション環境において,よく設計され,実現可能な制御生成手法によって導出されたSVLTA(Synthetic Vision-Language Temporal Alignment)を紹介する。
本実験では, 時間的質問応答, 分布的シフト感度, 時間的アライメント適応の評価を通じて, 診断上の知見を明らかにする。
- 参考スコア(独自算出の注目度): 33.02002580363215
- License:
- Abstract: Vision-language temporal alignment is a crucial capability for human dynamic recognition and cognition in real-world scenarios. While existing research focuses on capturing vision-language relevance, it faces limitations due to biased temporal distributions, imprecise annotations, and insufficient compositionally. To achieve fair evaluation and comprehensive exploration, our objective is to investigate and evaluate the ability of models to achieve alignment from a temporal perspective, specifically focusing on their capacity to synchronize visual scenarios with linguistic context in a temporally coherent manner. As a preliminary step, we present the statistical analysis of existing benchmarks and reveal the existing challenges from a decomposed perspective. To this end, we introduce SVLTA, the Synthetic Vision-Language Temporal Alignment derived via a well-designed and feasible control generation method within a simulation environment. The approach considers commonsense knowledge, manipulable action, and constrained filtering, which generates reasonable, diverse, and balanced data distributions for diagnostic evaluations. Our experiments reveal diagnostic insights through the evaluations in temporal question answering, distributional shift sensitiveness, and temporal alignment adaptation.
- Abstract(参考訳): 視覚言語による時間的アライメントは、現実世界のシナリオにおける人間の動的な認識と認識にとって重要な能力である。
既存の研究は視覚言語関連性の獲得に重点を置いているが、時間分布の偏り、不正確なアノテーション、構成的に不十分な制約に直面している。
本研究の目的は,時間的視点からアライメントを実現するためのモデルの能力,特に視覚的シナリオと言語的コンテキストを時間的コヒーレントな方法で同期させる能力について検討・評価することである。
予備的なステップとして、既存のベンチマークの統計分析を行い、分解された観点から既存の課題を明らかにする。
この目的のために,シミュレーション環境において,よく設計され,実現可能な制御生成手法によって導出されるSVLTA(Synthetic Vision-Language Temporal Alignment)を導入する。
このアプローチは、診断評価のための合理的で多様性がありバランスの取れたデータ分布を生成するコモンセンス知識、操作可能なアクション、制約付きフィルタリングを考察する。
本実験では, 時間的質問応答, 分布的シフト感度, 時間的アライメント適応の評価を通じて, 診断上の知見を明らかにする。
関連論文リスト
- FutureVision: A methodology for the investigation of future cognition [0.5644620681963636]
本研究では,未来シナリオの評価において,視覚的固定パターンがどう変化するかを検討する。
予備的な結果は、遠未来と悲観的なシナリオがより長い固定とより不規則なサケードと関連していることを示している。
論文 参考訳(メタデータ) (2025-02-03T18:29:06Z) - Detecting Neurocognitive Disorders through Analyses of Topic Evolution and Cross-modal Consistency in Visual-Stimulated Narratives [84.03001845263]
神経認知障害(NCD)の早期発見は、時間的介入と疾患管理に不可欠である。
伝統的な物語分析は、しばしば単語の使用法や構文など、ミクロ構造における局所的な指標に焦点を当てる。
本稿では,話題の変化,時間的ダイナミクス,物語の時間的コヒーレンスを分析することによって,特定の認知的・言語的課題を解明することを提案する。
論文 参考訳(メタデータ) (2025-01-07T12:16:26Z) - Large Vision-Language Model Alignment and Misalignment: A Survey Through the Lens of Explainability [20.057227484862523]
LVLM(Large Vision-Language Models)は、視覚情報とテキスト情報の両方を処理する際、顕著な能力を示す。
本調査では,LVLMのアライメントとアライメントについて,説明性レンズを用いて総合的に検討した。
論文 参考訳(メタデータ) (2025-01-02T16:53:50Z) - Dynamic Cross-Modal Alignment for Robust Semantic Location Prediction [0.0]
本稿では,この課題に固有の文脈的あいまいさとモダリティの相違に対処するための識別フレームワークであるtextitContextualized Vision-Language Alignment (CoVLA)を紹介する。
ベンチマークデータセットの実験では、CoVLAは最先端の手法を著しく上回り、精度は2.3%、スコアは2.5%向上した。
論文 参考訳(メタデータ) (2024-12-13T05:29:37Z) - On the Identification of Temporally Causal Representation with Instantaneous Dependence [50.14432597910128]
時間的因果表現学習は時系列観測から潜在因果過程を特定することを目的としている。
ほとんどの方法は、潜在因果過程が即時関係を持たないという仮定を必要とする。
我々は,インスタントtextbfOus textbfLatent dynamics のための textbfIDentification フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T08:08:05Z) - Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning [4.422649561583363]
言語モデル(LM)における空間推論評価のための新しいベンチマークを提案する。
現実的な3Dシミュレーションデータに基づいており、様々なオブジェクトとそれらの空間的関係を持つ一連の多様な部屋レイアウトを提供する。
重要なコントリビューションは、論理ベースの一貫性チェックツールです。
論文 参考訳(メタデータ) (2024-05-23T21:22:00Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - A Kind Introduction to Lexical and Grammatical Aspect, with a Survey of
Computational Approaches [7.310850880167243]
アスペクトの意味は、状況の内部時間構造がどのように表現されるかを意味する。
本調査は,語彙的・文法的側面をモデル化するための計算手法の概要について述べる。
論文 参考訳(メタデータ) (2022-08-18T18:22:42Z) - Continuous-Time Modeling of Counterfactual Outcomes Using Neural
Controlled Differential Equations [84.42837346400151]
反現実的な結果を予測することは、パーソナライズされたヘルスケアをアンロックする可能性がある。
既存の因果推論アプローチでは、観察と治療決定の間の通常の離散時間間隔が考慮されている。
そこで本研究では,腫瘍増殖モデルに基づく制御可能なシミュレーション環境を提案する。
論文 参考訳(メタデータ) (2022-06-16T17:15:15Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。