論文の概要: Do Multimodal Language Models Really Understand Direction? A Benchmark for Compass Direction Reasoning
- arxiv url: http://arxiv.org/abs/2412.16599v1
- Date: Sat, 21 Dec 2024 12:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:21.567046
- Title: Do Multimodal Language Models Really Understand Direction? A Benchmark for Compass Direction Reasoning
- Title(参考訳): マルチモーダル言語モデルは方向性を本当に理解しているか? : コンパス方向推論のためのベンチマーク
- Authors: Hang Yin, Zhifeng Lin, Xin Liu, Bin Sun, Kan Li,
- Abstract要約: マルチモーダル言語モデル(MLM)の方向性推論能力の評価を目的としたCompass Direction Reasoning (CDR)ベンチマーク
CDRには、空間(上、下、左、右)とコンパス(北、南、東、西)を画像化する3つのタイプが含まれている。
CDRデータによるトレーニングは、現実世界の物理的なルールを理解する必要があるため、限られた改善をもたらす。
コンパス方向推論の性能を大幅に向上させるミックスデータおよびCoT微調整法の影響について検討する。
- 参考スコア(独自算出の注目度): 18.411086615860675
- License:
- Abstract: Direction reasoning is essential for intelligent systems to understand the real world. While existing work focuses primarily on spatial reasoning, compass direction reasoning remains underexplored. To address this, we propose the Compass Direction Reasoning (CDR) benchmark, designed to evaluate the direction reasoning capabilities of multimodal language models (MLMs). CDR includes three types images to test spatial (up, down, left, right) and compass (north, south, east, west) directions. Our evaluation reveals that most MLMs struggle with direction reasoning, often performing at random guessing levels. Experiments show that training directly with CDR data yields limited improvements, as it requires an understanding of real-world physical rules. We explore the impact of mixdata and CoT fine-tuning methods, which significantly enhance MLM performance in compass direction reasoning by incorporating diverse data and step-by-step reasoning, improving the model's ability to understand direction relationships.
- Abstract(参考訳): 方向推論は、知的なシステムが現実世界を理解するために不可欠である。
既存の研究は主に空間的推論に焦点を当てているが、コンパス方向推論は未解明のままである。
そこで本稿では,マルチモーダル言語モデル(MLM)の方向性推論能力を評価するために,Compass Direction Reasoning (CDR)ベンチマークを提案する。
CDRには、空間(上、下、左、右)とコンパス(北、南、東、西)の3種類の画像が含まれる。
評価の結果,ほとんどのMLMは方向推論に苦慮しており,しばしばランダムな推定レベルでの動作が可能であることがわかった。
CDRデータによるトレーニングは、現実世界の物理的なルールを理解する必要があるため、限られた改善をもたらす。
多様なデータとステップバイステップの推論を組み込むことで、コンパス方向推論におけるMLM性能を大幅に向上させ、方向関係を理解するモデルの能力を向上させるミックスデータとCoT微調整法の影響について検討する。
関連論文リスト
- Is 'Right' Right? Enhancing Object Orientation Understanding in Multimodal Language Models through Egocentric Instruction Tuning [7.911608620021529]
マルチモーダル・大規模言語モデル(MLLM)は、人間とAI技術をマルチモーダル・アプリケーションで結びつける重要なインターフェースとして機能する。
現在のMLLMは、トレーニングデータにおける矛盾した向きアノテーションにより、画像内のオブジェクトの向きを正確に解釈する上で、課題に直面している。
本稿では,MLLMの向き理解とユーザの視点を一致させる,エゴセントリックな命令チューニングを提案する。
論文 参考訳(メタデータ) (2024-11-24T15:07:47Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Large Language Models as an Indirect Reasoner: Contrapositive and
Contradiction for Automated Reasoning [79.37150041259066]
本稿では, 事実推論や数学的証明といったIR課題に対処するために, 反陽性と矛盾の論理を用いた間接推論(IR)手法を提案する。
GPT-3.5-turbo や Gemini-pro などの一般的な LLM の実験結果から,我々のIR 法は事実推論の総合的精度を27.33%,数学的証明を31.43%向上させることを示した。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - What is Right for Me is Not Yet Right for You: A Dataset for Grounding
Relative Directions via Multi-Task Learning [16.538887534958555]
終端ニューラルネットワークによる相対方向の接地問題について検討する。
GRiD-3Dは、相対方向を特徴とし、既存の視覚的質問応答(VQA)データセットを補完する新しいデータセットである。
これらのサブタスクは、相対方向を処理する直感的なパイプラインのステップを反映した順序で学習される。
論文 参考訳(メタデータ) (2022-05-05T14:25:46Z) - Find a Way Forward: a Language-Guided Semantic Map Navigator [53.69229615952205]
本稿では,新たな視点で言語誘導ナビゲーションの問題に対処する。
ロボットが自然言語の指示を実行し、地図観測に基づいて目標位置へ移動できるようにする。
提案手法は特に長距離ナビゲーションの場合において顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2022-03-07T07:40:33Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - LatentCLR: A Contrastive Learning Approach for Unsupervised Discovery of
Interpretable Directions [0.02294014185517203]
本稿では,事前学習したGANの潜在空間における意味的方向を検出するための,コントラッシブ・ラーニングに基づくアプローチを提案する。
私たちのアプローチは、最先端のメソッドと互換性のある意味のある寸法を見つけます。
論文 参考訳(メタデータ) (2021-04-02T00:11:22Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。