論文の概要: TraVLR: Now You See It, Now You Don't! Evaluating Cross-Modal Transfer
of Visio-Linguistic Reasoning
- arxiv url: http://arxiv.org/abs/2111.10756v1
- Date: Sun, 21 Nov 2021 07:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 13:28:52.675593
- Title: TraVLR: Now You See It, Now You Don't! Evaluating Cross-Modal Transfer
of Visio-Linguistic Reasoning
- Title(参考訳): travlr: 今、あなたはそれを見て、あなたはそうしません!
Visio-Linguistic Reasoning のクロスモーダル移動の評価
- Authors: Keng Ji Chow, Samson Tan, Min-Yen Kan
- Abstract要約: TraVLRは、視覚言語学的(V+L)推論タスクからなる合成データセットである。
それぞれの例では、シーンをバイモーダルに符号化し、トレーニングやテスト中に、関連する情報が失われることなく、いずれのモダリティをドロップできるようにしている。
我々は4つの最先端V+Lモデルを評価し、同じモダリティからテストセットでうまく動作するが、全てのモデルがクロスモーダルに転送できないことを発見した。
- 参考スコア(独自算出の注目度): 16.380891559221027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous visio-linguistic (V+L) representation learning methods have been
developed, yet existing datasets do not evaluate the extent to which they
represent visual and linguistic concepts in a unified space. Inspired by the
crosslingual transfer and psycholinguistics literature, we propose a novel
evaluation setting for V+L models: zero-shot cross-modal transfer. Existing V+L
benchmarks also often report global accuracy scores on the entire dataset,
rendering it difficult to pinpoint the specific reasoning tasks that models
fail and succeed at. To address this issue and enable the evaluation of
cross-modal transfer, we present TraVLR, a synthetic dataset comprising four
V+L reasoning tasks. Each example encodes the scene bimodally such that either
modality can be dropped during training/testing with no loss of relevant
information. TraVLR's training and testing distributions are also constrained
along task-relevant dimensions, enabling the evaluation of out-of-distribution
generalisation. We evaluate four state-of-the-art V+L models and find that
although they perform well on the test set from the same modality, all models
fail to transfer cross-modally and have limited success accommodating the
addition or deletion of one modality. In alignment with prior work, we also
find these models to require large amounts of data to learn simple spatial
relationships. We release TraVLR as an open challenge for the research
community.
- Abstract(参考訳): 多くのヴィシオ言語(v+l)表現学習法が開発されているが、既存のデータセットでは、視覚と言語の概念を統一された空間で表現する程度を評価していない。
クロスリンガル・トランスファーと精神言語学の文献に着想を得て,v+lモデルのための新しい評価設定,ゼロショットクロスモーダルトランスファーを提案する。
既存のv+lベンチマークもデータセット全体のグローバル精度スコアを報告しており、モデルが失敗して成功した特定の推論タスクを特定するのが難しい。
この問題に対処し, クロスモーダル転送の評価を可能にするために, 4つのV+L推論タスクからなる合成データセットであるTraVLRを提案する。
それぞれの例はシーンをバイモーダルにエンコードし、関連する情報を失うことなく、トレーニング/テスト中にモダリティを落とすことができる。
travlrのトレーニングとテスト分布もタスク関連次元に沿って制限されており、分散一般化の評価を可能にする。
我々は4つの最先端のv+lモデルを評価し、同じモダリティからテストセットでうまく機能するが、全てのモデルはクロスモダリティ転送に失敗し、1つのモダリティの追加や削除に適応した成功が限定されていることを発見した。
先行研究と連動して,単純な空間関係を学ぶために大量のデータを必要とするモデルも見いだした。
我々は研究コミュニティのオープンチャレンジとしてTraVLRをリリースする。
関連論文リスト
- VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection [5.66050466694651]
本稿では,既存の異常検知器にVLエンコーダを組み込み,セマンティック・ワイドなVL事前学習を有効活用し,外乱認識を改善することを提案する。
また,テキスト・プロンプトによるデータ・トレーニング不要の外部監視を可能にする新たなスコアリング機能を提案する。
得られたVL4ADモデルは、広く使用されているベンチマークデータセット上での競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-25T20:12:10Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文 参考訳(メタデータ) (2024-04-03T02:40:35Z) - The All-Seeing Project V2: Towards General Relation Comprehension of the Open World [58.40101895719467]
本稿では,画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。
本稿では,テキスト生成,オブジェクトローカライゼーション,関係理解の定式化を関係会話タスクに統合するAll-Seeing Model V2を提案する。
我々のモデルは、画像内の全ての物体を知覚・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れている。
論文 参考訳(メタデータ) (2024-02-29T18:59:17Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Going Beyond Nouns With Vision & Language Models Using Synthetic Data [43.87754926411406]
大規模な事前学習型ビジョン・アンド・ランゲージ(VL)モデルは、多くのアプリケーションで顕著な性能を示している。
最近の研究でこれらのモデルの根本的な弱点が明らかになった。
このような欠点を克服するためのモデルを教えるために、純粋に合成されたデータがどの程度活用できるかを調査する。
論文 参考訳(メタデータ) (2023-03-30T17:57:43Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Seeing past words: Testing the cross-modal capabilities of pretrained
V&L models [18.73444918172383]
マルチモーダル統合を必要とする2つのタスクで推論を行う汎用プリトレーニングドビジョンと言語V&Lモデルの能力を検討する。
ViLBERT, ViLBERT 12-in-1, LXMERTの3つの事前訓練V&Lモデルについて検討した。
本研究は, 事前学習したV&L表現が, 2つのモダリティを統合する上での期待よりも少ないことを示唆する。
論文 参考訳(メタデータ) (2020-12-22T21:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。