論文の概要: OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities
- arxiv url: http://arxiv.org/abs/2410.12219v1
- Date: Wed, 16 Oct 2024 04:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:43:53.144286
- Title: OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities
- Title(参考訳): OmnixR: モダリティ間の推論に基づくOmni-modality言語モデルの評価
- Authors: Lichang Chen, Hexiang Hu, Mingda Zhang, Yiwen Chen, Zifeng Wang, Yandong Li, Pranav Shyam, Tianyi Zhou, Heng Huang, Ming-Hsuan Yang, Boqing Gong,
- Abstract要約: 我々は、SoTA Omni-modality Language Modelsをベンチマークするために設計された評価スイートであるOmnixRを紹介する。
OLMはテキスト、ビジョン、オーディオなどの複数のモードを統合し、ユニークな課題を提示する。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
- 参考スコア(独自算出の注目度): 124.05360767047539
- License:
- Abstract: We introduce OmnixR, an evaluation suite designed to benchmark SoTA Omni-modality Language Models, such as GPT-4o and Gemini. Evaluating OLMs, which integrate multiple modalities such as text, vision, and audio, presents unique challenges. Particularly, the user message might often consist of multiple modalities, such that OLMs have to establish holistic understanding and reasoning across modalities to accomplish the task. Existing benchmarks are limited to single modality or dual-modality tasks, overlooking comprehensive multi-modal assessments of model reasoning. To address this, OmnixR offers two evaluation variants: (1)synthetic subset: a synthetic dataset generated automatically by translating text into multiple modalities--audio, images, video, and hybrids (Omnify). (2)realistic subset: a real-world dataset, manually curated and annotated by experts, for evaluating cross-modal reasoning in natural settings. OmnixR presents a unique evaluation towards assessing OLMs over a diverse mix of modalities, such as a question that involves video, audio, and text, providing a rigorous cross-modal reasoning testbed unlike any existing benchmarks. Our experiments find that all state-of-the-art OLMs struggle with OmnixR questions that require integrating information from multiple modalities to answer. Further analysis highlights differences in reasoning behavior, underscoring the challenges of omni-modal AI alignment.
- Abstract(参考訳): 我々は,GPT-4o や Gemini などの SoTA Omni-modality Language Model をベンチマークするために設計された評価スイートである OmnixR を紹介する。
テキスト、ビジョン、オーディオなどの複数のモードを統合したOLMの評価は、ユニークな課題を提示している。
特に、ユーザメッセージは複数のモダリティから構成されることが多く、OLMはそのタスクを達成するために全体的理解を確立し、モダリティを越えて推論する必要がある。
既存のベンチマークは、モデル推論の総合的なマルチモーダルアセスメントを見越して、単一モダリティまたは二重モダリティタスクに限られている。
OmnixRは、(1)合成サブセット: テキストを複数のモーダルに翻訳することで自動的に生成される合成データセット - オーディオ、画像、ビデオ、ハイブリッド(Omnify)。
2) 現実的サブセット: 自然条件下でのクロスモーダル推論を評価するために, 専門家が手作業でキュレートし, 注釈付けした実世界のデータセット。
OmnixRは、ビデオ、オーディオ、テキストを含む質問など、様々なモードでOLMを評価し、既存のベンチマークと異なり厳密なクロスモーダル推論テストを提供するなど、ユニークな評価を行っている。
実験の結果,OmnixR問題に対処するためには,複数のモダリティからの情報を統合する必要があることがわかった。
さらなる分析は推論行動の違いを強調し、Omni-modal AIアライメントの課題を強調している。
関連論文リスト
- Enhancing Multimodal Sentiment Analysis for Missing Modality through Self-Distillation and Unified Modality Cross-Attention [45.31956918333587]
マルチモーダルな感情分析では、テキストデータの収集はビデオやオーディオよりも難しいことが多い。
我々は,テキストのモダリティがなくても,マルチモーダルな感情情報を統合する頑健なモデルを開発した。
論文 参考訳(メタデータ) (2024-10-19T07:59:41Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - BlendX: Complex Multi-Intent Detection with Blended Patterns [4.852816974803059]
BlendXは、前者よりも多様なパターンを特徴とする洗練されたデータセットのスイートです。
データセット構築には,ルールベースと生成ツール – OpenAIのChatGPT – の両方を使用します。
BlendXの実験によると、最先端のMIDモデルは、新しいデータセットがもたらす課題に苦戦している。
論文 参考訳(メタデータ) (2024-03-27T06:13:04Z) - AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant
Reviews and Images on Social Media [57.70351255180495]
AiGen-FoodReviewは、20,144のレストランレビューイメージペアからなるデータセットである。
FLAVAで99.80%のマルチモーダル精度を達成し,一様・多モーダル検出モデルについて検討する。
この論文は、データセットをオープンソース化し、偽レビュー検出装置を公開し、非モーダルかつマルチモーダルな偽レビュー検出タスクでの使用を推奨し、合成データと真正データにおける言語的特徴と視覚的特徴を評価することで貢献する。
論文 参考訳(メタデータ) (2024-01-16T20:57:36Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model [51.42415340921237]
我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。
さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
論文 参考訳(メタデータ) (2021-07-04T08:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。