論文の概要: Is 'Right' Right? Enhancing Object Orientation Understanding in Multimodal Language Models through Egocentric Instruction Tuning
- arxiv url: http://arxiv.org/abs/2411.16761v1
- Date: Sun, 24 Nov 2024 15:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:37:05.255431
- Title: Is 'Right' Right? Enhancing Object Orientation Understanding in Multimodal Language Models through Egocentric Instruction Tuning
- Title(参考訳): 正しいか? 自己中心型インストラクションチューニングによる多モーダル言語モデルにおけるオブジェクト指向理解の促進
- Authors: Ji Hyeok Jung, Eun Tae Kim, Seo Yeon Kim, Joo Ho Lee, Bumsoo Kim, Buru Chang,
- Abstract要約: マルチモーダル・大規模言語モデル(MLLM)は、人間とAI技術をマルチモーダル・アプリケーションで結びつける重要なインターフェースとして機能する。
現在のMLLMは、トレーニングデータにおける矛盾した向きアノテーションにより、画像内のオブジェクトの向きを正確に解釈する上で、課題に直面している。
本稿では,MLLMの向き理解とユーザの視点を一致させる,エゴセントリックな命令チューニングを提案する。
- 参考スコア(独自算出の注目度): 7.911608620021529
- License:
- Abstract: Multimodal large language models (MLLMs) act as essential interfaces, connecting humans with AI technologies in multimodal applications. However, current MLLMs face challenges in accurately interpreting object orientation in images due to inconsistent orientation annotations in training data, hindering the development of a coherent orientation understanding. To overcome this, we propose egocentric instruction tuning, which aligns MLLMs' orientation understanding with the user's perspective, based on a consistent annotation standard derived from the user's egocentric viewpoint. We first generate egocentric instruction data that leverages MLLMs' ability to recognize object details and applies prior knowledge for orientation understanding. Using this data, we perform instruction tuning to enhance the model's capability for accurate orientation interpretation. In addition, we introduce EgoOrientBench, a benchmark that evaluates MLLMs' orientation understanding across three tasks using images collected from diverse domains. Experimental results on this benchmark show that egocentric instruction tuning significantly improves orientation understanding without compromising overall MLLM performance. The instruction data and benchmark dataset are available on our project page at https://github.com/jhCOR/EgoOrientBench.
- Abstract(参考訳): マルチモーダル・大規模言語モデル(MLLM)は、人間とAI技術をマルチモーダル・アプリケーションで結びつける重要なインターフェースとして機能する。
しかし、現在のMLLMでは、トレーニングデータにおける矛盾した向きアノテーションによる画像のオブジェクト指向の正確な解釈が困難であり、一貫性のある向き理解の開発を妨げている。
そこで本稿では,ユーザの自我的視点から導かれる一貫したアノテーション標準に基づいて,MLLMの方向性理解をユーザ視点に整合させる,自我的指導チューニングを提案する。
まず,MLLMのオブジェクト詳細認識能力を活用し,事前知識をオリエンテーション理解に適用するエゴセントリックインストラクションデータを生成する。
このデータを用いて、正確な向きの解釈のためのモデルの能力を高めるための命令チューニングを行う。
さらに,多様な領域から収集した画像を用いて,3つのタスク間でMLLMの向き理解を評価するベンチマークであるEgoOrientBenchを紹介する。
このベンチマークによる実験結果から,エゴセントリック・インストラクション・チューニングはMLLM全体の性能を損なうことなく,オリエンテーション理解を著しく向上させることが示された。
インストラクションデータとベンチマークデータセットは、プロジェクトのページ(https://github.com/jhCOR/EgoOrientBench.org)で公開されています。
関連論文リスト
- EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection [21.091101582856183]
本稿では,効率的なゼロショットHOI検出(EZ-HOI)のための新しい学習フレームワークを提案する。
まず、学習可能なプロンプトに対してLarge Language Model(LLM)とVLMガイダンスを導入し、詳細なHOI記述と視覚的セマンティクスを統合して、VLMをHOIタスクに適用する。
我々は,既存の手法と比較して,トレーニング可能なパラメータの10.35%から33.95%しか持たない,さまざまなゼロショット設定における最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2024-10-31T13:06:29Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis [51.04181562775778]
本稿では,ロボットエージェントの「ウェイフィンディング指示」を自動的に合成する手法を提案する。
提案アルゴリズムは,LLMの条件付けにコンテキスト内学習を用い,わずかな参照を用いて命令を生成する。
我々は,Matterport3D,AI Habitat,ThreeDWorldなど,複数のシミュレーションプラットフォームにアプローチを実装した。
論文 参考訳(メタデータ) (2024-03-18T05:38:07Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。