論文の概要: TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating
Visio-Linguistic Reasoning
- arxiv url: http://arxiv.org/abs/2111.10756v3
- Date: Sat, 15 Apr 2023 09:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-04-19 01:02:17.129885
- Title: TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating
Visio-Linguistic Reasoning
- Title(参考訳): travlr: 今、あなたはそれを見て、あなたはそうしません!
Visio-Linguistic Reasoningの評価のためのバイモーダルデータセット
- Authors: Keng Ji Chow, Samson Tan, Min-Yen Kan
- Abstract要約: 本稿では,4つの視覚言語的推論タスクからなる合成データセットであるTraVLRについて述べる。
TraVLRの各例は、シーンを2つのモードで冗長にエンコードし、関連する情報を失うことなく、トレーニングやテスト中にドロップまたは追加することができる。
我々は、4つの最先端V+Lモデルの性能を比較し、同じモダリティの試験例でよく機能するが、全てクロスモーダル転送では失敗することを示した。
- 参考スコア(独自算出の注目度): 25.520406167426135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous visio-linguistic (V+L) representation learning methods have been
developed, yet existing datasets do not adequately evaluate the extent to which
they represent visual and linguistic concepts in a unified space. We propose
several novel evaluation settings for V+L models, including cross-modal
transfer. Furthermore, existing V+L benchmarks often report global accuracy
scores on the entire dataset, making it difficult to pinpoint the specific
reasoning tasks that models fail and succeed at. We present TraVLR, a synthetic
dataset comprising four V+L reasoning tasks. TraVLR's synthetic nature allows
us to constrain its training and testing distributions along task-relevant
dimensions, enabling the evaluation of out-of-distribution generalisation. Each
example in TraVLR redundantly encodes the scene in two modalities, allowing
either to be dropped or added during training or testing without losing
relevant information. We compare the performance of four state-of-the-art V+L
models, finding that while they perform well on test examples from the same
modality, they all fail at cross-modal transfer and have limited success
accommodating the addition or deletion of one modality. We release TraVLR as an
open challenge for the research community.
- Abstract(参考訳): 多くのヴィシオ言語学(v+l)表現学習法が開発されているが、既存のデータセットでは、視覚と言語の概念を統一空間で表現する範囲を十分に評価していない。
クロスモーダル転送を含む,V+Lモデルの新たな評価設定を提案する。
さらに、既存のV+Lベンチマークでは、データセット全体のグローバルな精度スコアが報告されることが多いため、モデルが失敗して成功した特定の推論タスクを特定することは困難である。
本稿では,4つのV+L推論タスクからなる合成データセットTraVLRを提案する。
travlrの合成的な性質は、タスク関連次元に沿ってトレーニングとテストの分布を制約し、分散一般化の評価を可能にする。
TraVLRの各例は、シーンを2つのモードで冗長にエンコードし、関連する情報を失うことなく、トレーニングやテスト中にドロップまたは追加することができる。
4つの最先端V+Lモデルの性能を比較し、同じモダリティの試験例でよく機能するが、全てクロスモーダル転送で失敗し、1つのモダリティの追加や削除を調節することに成功した。
我々は研究コミュニティのオープンチャレンジとしてTraVLRをリリースする。
関連論文リスト
- LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - SITUATE -- Synthetic Object Counting Dataset for VLM training [0.0]
本稿では,視覚言語モデルの訓練と評価を目的とした新しいデータセットであるSITUATEを提案する。
このデータセットは、VLMCountBenchのような単純な2Dデータセットと、TallyQAのようなあいまいな実生活データセットとのギャップを埋める。
論文 参考訳(メタデータ) (2026-01-26T16:17:53Z) - Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale [70.23466957404891]
多様なスキルと複雑さのレベルにまたがる新しい推論データ生成フレームワークを,100万以上の高品質な合成視覚中心の質問で紹介する。
データ上のQwen2.5-VL-7Bの微調整は、すべての評価されたビジョン中心のベンチマークにおいて、すべてのオープンデータベースラインを上回ります。
論文 参考訳(メタデータ) (2025-11-07T20:50:54Z) - TRUST-VL: An Explainable News Assistant for General Multimodal Misinformation Detection [23.952112817046668]
マルチモーダルな誤報は、生成的AIによって増幅される社会的脅威を増大させる。
様々な歪みタイプが共通の推論能力を共有し、タスク固有のスキルも必要としています。
本稿では,汎用マルチモーダル誤情報検出のための統一的で説明可能な視覚言語モデルであるTRUST-VLを紹介する。
論文 参考訳(メタデータ) (2025-09-04T17:59:43Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models [19.361686225381447]
視覚言語モデル(VLM)は、文脈内学習(ICL)を示すと広く想定されている
提案するMM-ICLにはReasoningパイプラインが組み込まれている。
論文 参考訳(メタデータ) (2025-06-09T16:55:32Z) - COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking [52.62149024881728]
本稿では,視覚言語(VL)追跡のための一段変圧器融合フレームワークを提案する。
ビデオとそれに対応する言語記述間の相互情報を最大化するコントラストアライメント戦略を導入する。
視覚言語変換器を活用することにより,効率的なマルチモーダル融合・推論機構を確立する。
論文 参考訳(メタデータ) (2025-04-02T03:12:38Z) - VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection [5.66050466694651]
本稿では,既存の異常検知器にVLエンコーダを組み込み,セマンティック・ワイドなVL事前学習を有効活用し,外乱認識を改善することを提案する。
また,テキスト・プロンプトによるデータ・トレーニング不要の外部監視を可能にする新たなスコアリング機能を提案する。
得られたVL4ADモデルは、広く使用されているベンチマークデータセット上での競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-25T20:12:10Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文 参考訳(メタデータ) (2024-04-03T02:40:35Z) - The All-Seeing Project V2: Towards General Relation Comprehension of the Open World [58.40101895719467]
本稿では,画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。
本稿では,テキスト生成,オブジェクトローカライゼーション,関係理解の定式化を関係会話タスクに統合するAll-Seeing Model V2を提案する。
我々のモデルは、画像内の全ての物体を知覚・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れている。
論文 参考訳(メタデータ) (2024-02-29T18:59:17Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Going Beyond Nouns With Vision & Language Models Using Synthetic Data [43.87754926411406]
大規模な事前学習型ビジョン・アンド・ランゲージ(VL)モデルは、多くのアプリケーションで顕著な性能を示している。
最近の研究でこれらのモデルの根本的な弱点が明らかになった。
このような欠点を克服するためのモデルを教えるために、純粋に合成されたデータがどの程度活用できるかを調査する。
論文 参考訳(メタデータ) (2023-03-30T17:57:43Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Seeing past words: Testing the cross-modal capabilities of pretrained
V&L models [18.73444918172383]
マルチモーダル統合を必要とする2つのタスクで推論を行う汎用プリトレーニングドビジョンと言語V&Lモデルの能力を検討する。
ViLBERT, ViLBERT 12-in-1, LXMERTの3つの事前訓練V&Lモデルについて検討した。
本研究は, 事前学習したV&L表現が, 2つのモダリティを統合する上での期待よりも少ないことを示唆する。
論文 参考訳(メタデータ) (2020-12-22T21:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。