Fugu-MT 論文翻訳(概要): A Surprising Failure? Multimodal LLMs and the NLVR Challenge

論文の概要: A Surprising Failure? Multimodal LLMs and the NLVR Challenge

arxiv url: http://arxiv.org/abs/2402.17793v1
Date: Mon, 26 Feb 2024 18:37:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 17:21:21.357630
Title: A Surprising Failure? Multimodal LLMs and the NLVR Challenge
Title（参考訳）: 意外な失敗? マルチモーダルLCMとNLVRチャレンジ
Authors: Anne Wu, Kiant\'e Brantley, Yoav Artzi
Abstract要約: 本研究では,GPT-4V,Gemini Pro,オープンソースモデルIDEFICSの3つの最先端MLLMを,合成自然言語ビジョン推論タスクNLVR上で評価する。合成画像と組み合わされた人文が与えられた場合、このタスクは、画像に関する文の真理値を決定するためにモデルを必要とする。
参考スコア（独自算出の注目度）: 20.85272995912912
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study evaluates three state-of-the-art MLLMs -- GPT-4V, Gemini Pro, and the open-source model IDEFICS -- on the compositional natural language vision reasoning task NLVR. Given a human-written sentence paired with a synthetic image, this task requires the model to determine the truth value of the sentence with respect to the image. Despite the strong performance demonstrated by these models, we observe they perform poorly on NLVR, which was constructed to require compositional and spatial reasoning, and to be robust for semantic and systematic biases.
Abstract（参考訳）: 本研究では,GPT-4V,Gemini Pro,オープンソースモデルIDEFICSの3つの最先端MLLMを,合成自然言語ビジョン推論タスクNLVR上で評価する。合成画像と組み合わされた人文が与えられた場合、このタスクは、画像に関する文の真理値を決定するためにモデルを必要とする。これらのモデルで示される強い性能にもかかわらず、構成的・空間的推論を必要とするNLVRでは性能が悪く、意味的・体系的バイアスに対して堅牢である。

関連論文リスト

Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文参考訳（メタデータ） (2025-06-24T09:49:26Z)
Self-Supervised Multi-View Representation Learning using Vision-Language Model for 3D/4D Facial Expression Recognition [1.03341388090561]
SMILE-VLMは3D/4D FERのための自己教師型視覚言語モデルである。多視点視覚表現学習と自然言語指導を一体化する。本フレームワークは,複数のベンチマーク上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-06-01T22:47:11Z)
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。 Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文参考訳（メタデータ） (2025-04-17T06:16:11Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Discriminative Fine-tuning of LVLMs [67.14293827774827]
CLIPのような対照的に訓練された視覚言語モデル(VLM)は、識別的視覚言語表現学習の事実上のアプローチとなっている。我々は,LVLMの識別的微調整のための新たな訓練手法である「両世界のベスト」を組み合わせることを提案する。
論文参考訳（メタデータ） (2024-12-05T17:54:27Z)
Modality-Fair Preference Optimization for Trustworthy MLLM Alignment [22.093944381988496]
MLLM(Multimodal large language model)は、様々なタスクにおいて顕著な成功を収めている。しかし、視覚的エンコーダとテキスト的エンコーダの別個のトレーニングは、しばしばモダリティの誤った調整をもたらす。これらの不正確さは、実世界の応用におけるMLLMの信頼性を著しく損なう。
論文参考訳（メタデータ） (2024-10-20T08:56:52Z)
NL-Eye: Abductive NLI for Images [17.900036535123512]
視覚的帰納的推論能力を評価するためのベンチマークであるNL-Eyeを紹介する。 NL-Eyeは350個の慎重に3重項の例(1,050画像)で構成され、様々な推論カテゴリにまたがっている。我々の実験によると、VLMはNL-Eyeでかなり苦労し、しばしばランダムなベースラインレベルで動作し、人間は可視性予測と説明品質の両方に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:51:36Z)
Logic-Enhanced Language Model Agents for Trustworthy Social Simulations [3.5083201638203154]
本研究では,人間のインタラクションモデルとしてのゲーム理論シナリオにおける意思決定に焦点を当てた。本稿では,社会シミュレーションの信頼性を高める新しいアプローチである論理強化言語モデルエージェント(LELMA)フレームワークを紹介する。
論文参考訳（メタデータ） (2024-08-28T18:25:35Z)
An LLM Feature-based Framework for Dialogue Constructiveness Assessment [8.87747076871578]
対話構築性評価に関する研究は、(i)個人が特定の行動をとること、議論に勝つこと、視点を変えること、またはオープンマインドネスを広げること、および(ii)そのような事例に対する対話に続く構成性の結果を予測することに焦点を当てている。これらの目的は、解釈可能な特徴ベースモデルか、事前訓練された言語モデルのようなニューラルモデルのいずれかをトレーニングすることで達成できる。特徴ベースとニューラルアプローチの強みを組み合わせた対話構築性評価のためのLLM特徴ベースフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-20T22:10:52Z)
Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-26T05:43:51Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation [39.88401703956412]
VIEScoreは、条件付き画像生成タスクを評価するためのVisual Instruction-Guided Explainableメトリックである。 VIEScore (GPT4-o) は人間の評価と0.4のスピアマン相関を達成し, 人と人の相関は0.45である。 VIEScore (オープンソースMLLM) は合成画像の評価において GPT-4o や GPT-4v よりもかなり弱い。
論文参考訳（メタデータ） (2023-12-22T17:45:19Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-08T17:49:44Z)
Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文参考訳（メタデータ） (2023-05-24T06:41:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。