論文の概要: Natural Language Inference Improves Compositionality in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.22315v1
- Date: Tue, 29 Oct 2024 17:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:30.622685
- Title: Natural Language Inference Improves Compositionality in Vision-Language Models
- Title(参考訳): 自然言語推論は視覚言語モデルにおける構成性を改善する
- Authors: Paola Cascante-Bonilla, Yu Hou, Yang Trista Cao, Hal Daumé III, Rachel Rudinger,
- Abstract要約: 所与の前提から細部と矛盾を生じさせる原則的アプローチを提案する。
CECEは、その中核的な意味を維持しながら、語彙的に多様な文を生成する。
我々は、追加の微調整を必要とせず、従来の方法よりも大幅に改善した。
- 参考スコア(独自算出の注目度): 35.71815423077561
- License:
- Abstract: Compositional reasoning in Vision-Language Models (VLMs) remains challenging as these models often struggle to relate objects, attributes, and spatial relationships. Recent methods aim to address these limitations by relying on the semantics of the textual description, using Large Language Models (LLMs) to break them down into subsets of questions and answers. However, these methods primarily operate on the surface level, failing to incorporate deeper lexical understanding while introducing incorrect assumptions generated by the LLM. In response to these issues, we present Caption Expansion with Contradictions and Entailments (CECE), a principled approach that leverages Natural Language Inference (NLI) to generate entailments and contradictions from a given premise. CECE produces lexically diverse sentences while maintaining their core meaning. Through extensive experiments, we show that CECE enhances interpretability and reduces overreliance on biased or superficial features. By balancing CECE along the original premise, we achieve significant improvements over previous methods without requiring additional fine-tuning, producing state-of-the-art results on benchmarks that score agreement with human judgments for image-text alignment, and achieving an increase in performance on Winoground of +19.2% (group score) and +12.9% on EqBen (group score) over the best prior work (finetuned with targeted data).
- Abstract(参考訳): 視覚言語モデル(VLM)の構成的推論は、これらのモデルがオブジェクト、属性、空間的関係を関連付けるのにしばしば苦労するため、依然として困難である。
近年の手法は,テキスト記述のセマンティクスに頼り,Large Language Models (LLM) を用いて質問や回答のサブセットに分解することで,これらの制限に対処することを目指している。
しかし、これらの手法は主に表面レベルで動作し、LLMによって生成された誤った仮定を導入しながら、より深い語彙理解を組み込むことができなかった。
これらの問題に対応するために,我々は,自然言語推論(NLI)を活用する原理的アプローチであるCECE(Caption Expansion with Contradictions and Entailments)を提案する。
CECEは、その中核的な意味を維持しながら、語彙的に多様な文を生成する。
広範囲にわたる実験により,CECEは解釈可能性を高め,偏見的特徴や表面的特徴に対する過度な信頼を低下させることが示された。
CECEを元の前提に沿ってバランスさせることにより、より詳細な微調整を必要とせず、画像テキストアライメントのための人間の判断と一致したベンチマークで最先端の結果を生成し、最高の先行作業(ターゲットデータで微調整された)に対して、+19.2%(グループスコア)と+12.9%(グループスコア)のWinogroundのパフォーマンス向上を達成することなく、従来の方法よりも大幅に改善した。
関連論文リスト
- Learning-to-Defer for Extractive Question Answering [0.0]
質問応答の文脈で言語モデルを再訓練することなく、人間の専門家や大規模モデルへの選択的推論を可能にすることにより、意思決定を強化する2段階の学習・判断機構を適応的に導入する。
その結果,最小限のクエリを遅延させることで,計算効率を保ちながら,より大規模なクエリに匹敵する性能を実現することができた。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation [71.72465617754553]
対象中心の3次元空間関係を伝達する低レベルな文を生成し,これらを追加言語として組み込んで,深度推定における下流の影響を評価する。
我々の重要な発見は、現在の言語誘導深度推定器がシーンレベルの記述のみを最適に実行することである。
追加データを活用するにもかかわらず、これらの手法は敵の直接攻撃や分散シフトの増加に伴う性能低下に対して堅牢ではない。
論文 参考訳(メタデータ) (2024-04-12T15:35:20Z) - Evaluating Large Language Models Using Contrast Sets: An Experimental Approach [0.0]
本研究では,スタンフォード自然言語推論データセットのコントラストセットを生成する革新的な手法を提案する。
我々の戦略は、動詞、副詞、形容詞をその同義語と自動置換して、文の本来の意味を保存することである。
本手法は,モデルの性能が真の言語理解に基づくのか,それとも単にパターン認識に基づくのかを評価することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T02:03:28Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Chunk-aware Alignment and Lexical Constraint for Visual Entailment with
Natural Language Explanations [38.50987889221086]
自然言語による視覚的な説明は、テキストと画像のペアの関係を推測し、意思決定プロセスを説明する文を生成することを目的としている。
従来の手法は、主に事前学習された視覚言語モデルを使用して、関係推論と言語モデルを実行し、対応する説明を生成する。
本稿では,CALeC と呼ばれる,Chunk-aware Alignment と Lexical Constraint に基づく統一手法を提案する。
論文 参考訳(メタデータ) (2022-07-23T03:19:50Z) - Lexically-constrained Text Generation through Commonsense Knowledge
Extraction and Injection [62.071938098215085]
我々は、ある入力概念のセットに対して妥当な文を生成することを目的としているcommongenベンチマークに焦点を当てる。
生成したテキストの意味的正しさを高めるための戦略を提案する。
論文 参考訳(メタデータ) (2020-12-19T23:23:40Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。