論文の概要: Don't Learn, Ground: A Case for Natural Language Inference with Visual Grounding
- arxiv url: http://arxiv.org/abs/2511.17358v1
- Date: Fri, 21 Nov 2025 16:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.10578
- Title: Don't Learn, Ground: A Case for Natural Language Inference with Visual Grounding
- Title(参考訳): 学習するな、グラウンド:ビジュアルグラウンドを用いた自然言語推論の事例
- Authors: Daniil Ignatev, Ayman Santeer, Albert Gatt, Denis Paperno,
- Abstract要約: 本稿では,言語を視覚的文脈でグラウンド化することで,マルチモーダル表現を活用する自然言語推論(NLI)のゼロショット手法を提案する。
提案手法は,テキスト・ツー・イメージモデルを用いて前提の視覚的表現を生成し,これらの表現をテキスト仮説と比較することで推論を行う。
- 参考スコア(独自算出の注目度): 5.684886190138979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a zero-shot method for Natural Language Inference (NLI) that leverages multimodal representations by grounding language in visual contexts. Our approach generates visual representations of premises using text-to-image models and performs inference by comparing these representations with textual hypotheses. We evaluate two inference techniques: cosine similarity and visual question answering. Our method achieves high accuracy without task-specific fine-tuning, demonstrating robustness against textual biases and surface heuristics. Additionally, we design a controlled adversarial dataset to validate the robustness of our approach. Our findings suggest that leveraging visual modality as a meaning representation provides a promising direction for robust natural language understanding.
- Abstract(参考訳): 本稿では,言語を視覚的文脈でグラウンド化することで,マルチモーダル表現を活用する自然言語推論(NLI)のゼロショット手法を提案する。
提案手法は,テキスト・ツー・イメージモデルを用いて前提の視覚的表現を生成し,これらの表現をテキスト仮説と比較することで推論を行う。
我々は,コサイン類似性と視覚的質問応答の2つの推論手法を評価する。
本手法は,タスク固有の微調整を行わず,テキストバイアスや表面ヒューリスティックスに対して頑健性を示す。
さらに,我々のアプローチの堅牢性を評価するために,制御された逆数データセットを設計する。
この結果から,視覚的モダリティを意味表現として活用することは,頑健な自然言語理解に有望な方向性をもたらすことが示唆された。
関連論文リスト
- Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Augmentation Invariant Discrete Representation for Generative Spoken
Language Modeling [41.733860809136196]
生成言語モデリングのための頑健な離散音声表現を効果的かつ効率的に学習する手法を提案する。
提案手法は、音声信号に一連の信号変換を適用し、反復的な擬似ラベル方式を用いてモデルを最適化することに基づく。
さらに、スペイン語とフランス語の翻訳を考慮し、音声から音声への翻訳作業における手法の評価を行い、提案手法が評価基準よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T14:15:03Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。