Fugu-MT 論文翻訳(概要): SMIR: Efficient Synthetic Data Pipeline To Improve Multi-Image Reasoning

論文の概要: SMIR: Efficient Synthetic Data Pipeline To Improve Multi-Image Reasoning

arxiv url: http://arxiv.org/abs/2501.03675v1
Date: Tue, 07 Jan 2025 10:21:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:03.012867
Title: SMIR: Efficient Synthetic Data Pipeline To Improve Multi-Image Reasoning
Title（参考訳）: SMIR:マルチイメージ推論を改善するための効率的な合成データパイプライン
Authors: Andrew Li, Rahul Thapa, Rahul Chalamala, Qingyang Wu, Kezhen Chen, James Zou,
Abstract要約: マルチイメージ推論のための効率的な合成データ生成パイプラインSMIRを紹介する。また,新しいマルチイメージ推論評価ベンチマークSMIR-BENCHを提案する。その結果、データセットでトレーニングされたモデルは、マルチイメージ推論タスクにおいて、最大8%のベースラインモデルより優れていることがわかった。
参考スコア（独自算出の注目度）: 26.986638043619397
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) have shown strong performance in understanding single images, aided by numerous high-quality instruction datasets. However, multi-image reasoning tasks are still under-explored in the open-source community due to two main challenges: (1) scaling datasets with multiple correlated images and complex reasoning instructions is resource-intensive and maintaining quality is difficult, and (2) there is a lack of robust evaluation benchmarks for multi-image tasks. To address these issues, we introduce SMIR, an efficient synthetic data-generation pipeline for multi-image reasoning, and a high-quality dataset generated using this pipeline. Our pipeline efficiently extracts highly correlated images using multimodal embeddings, combining visual and descriptive information and leverages open-source LLMs to generate quality instructions. Using this pipeline, we generated 160K synthetic training samples, offering a cost-effective alternative to expensive closed-source solutions. Additionally, we present SMIR-BENCH, a novel multi-image reasoning evaluation benchmark comprising 200 diverse examples across 7 complex multi-image reasoning tasks. SMIR-BENCH is multi-turn and utilizes a VLM judge to evaluate free-form responses, providing a comprehensive assessment of model expressiveness and reasoning capability across modalities. We demonstrate the effectiveness of SMIR dataset by fine-tuning several open-source VLMs and evaluating their performance on SMIR-BENCH. Our results show that models trained on our dataset outperform baseline models in multi-image reasoning tasks up to 8% with a much more scalable data pipeline.
Abstract（参考訳）: VLM(Vision-Language Models)は、多数の高品質な命令データセットによって支援された単一のイメージを理解する上で、強力なパフォーマンスを示している。しかし、1)複数の相関画像と複雑な推論命令によるデータセットのスケーリングはリソース集約的であり、品質の維持は困難であり、2)マルチイメージタスクに対する堅牢な評価ベンチマークが欠如している。これらの問題に対処するために,マルチイメージ推論のための効率的な合成データ生成パイプラインSMIRと,このパイプラインを用いて生成された高品質なデータセットを紹介する。パイプラインは,視覚情報と記述情報を組み合わせたマルチモーダル埋め込みを用いて高相関画像を効率よく抽出し,オープンソースのLCMを活用して高品質なインストラクションを生成する。このパイプラインを使用して160Kの合成トレーニングサンプルを生成し、高価なクローズドソースソリューションに代わる費用対効果を提供する。 SMIR-BENCHは7つの複雑なマルチイメージ推論タスクに対して200種類の多種多様な例からなる新しいマルチイメージ推論評価ベンチマークである。 SMIR-BENCHはマルチターンであり、VLM判定器を用いて自由形式の応答を評価する。いくつかのオープンソースVLMを微調整し,SMIR-BENCH上での性能を評価することで,SMIRデータセットの有効性を実証する。その結果、データセットでトレーニングされたモデルは、よりスケーラブルなデータパイプラインで最大8%のマルチイメージ推論タスクにおいて、ベースラインモデルよりも優れています。

関連論文リスト

IDMR: Towards Instance-Driven Precise Visual Correspondence in Multimodal Retrieval [29.05476868272228]
インスタンス駆動型マルチモーダル画像検索(IDMR)は、テキスト記述シナリオにマッチしながら、クエリイメージと同じインスタンスを含む画像を取得するモデルを必要とする、新しいタスクである。この能力をベンチマークするために,実世界の物体追跡と一対一のビデオデータを用いたIDMRベンチを開発した。我々のMultimodal Large Language Model(MLLM)に基づく検索モデルは、1.2Mサンプルに基づいて訓練され、従来のベンチマークとゼロショットIDMRベンチの両方で最先端のアプローチより優れている。
論文参考訳（メタデータ） (2025-04-01T16:47:20Z)
CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文参考訳（メタデータ） (2025-03-25T17:59:50Z)
Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文参考訳（メタデータ） (2025-02-27T09:37:30Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.30364248231053]
本稿では,M2RAG(Multi-Modal Retrieval-Augmented Generation)を紹介する。 M2RAGはマルチモーダル大言語モデル(MLLM)の有効性を評価するためのベンチマークである。 MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文参考訳（メタデータ） (2025-02-24T16:25:25Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。 DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文参考訳（メタデータ） (2025-01-26T03:29:18Z)
Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文参考訳（メタデータ） (2024-12-07T22:46:52Z)
Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications [3.7636375810345744]
大きな言語モデル(LLM)は、質問に答える際、印象的な能力を示してきたが、それらはドメイン固有の知識に欠け、幻覚を起こす傾向がある。 Retrieval Augmented Generation(RAG)は、これらの課題に対処するためのアプローチのひとつであり、マルチモーダルモデルは、テキストとイメージの両方を処理するための有望なAIアシスタントとして現れている。本稿では,産業領域のRAGシステムにマルチモーダルモデルをどのように組み込むかを決定するための一連の実験について述べる。
論文参考訳（メタデータ） (2024-10-29T11:03:31Z)
RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文参考訳（メタデータ） (2024-10-11T14:51:00Z)
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文参考訳（メタデータ） (2024-08-08T17:10:16Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文参考訳（メタデータ） (2024-01-05T00:26:07Z)
UniIR: Training and Benchmarking Universal Multimodal Information Retrievers [76.06249845401975]
命令誘導型マルチモーダルレトリバーであるUniIRを導入する。 UniIRは、10の多様なマルチモーダル-IRデータセットで共同で訓練された単一の検索システムであり、様々な検索タスクを実行するためにユーザー命令を解釈する。我々は,汎用マルチモーダル情報検索の評価を標準化するために,総合的な結果を持つマルチモーダル検索ベンチマークであるM-BEIRを構築した。
論文参考訳（メタデータ） (2023-11-28T18:55:52Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。新たなマルチモーダル検索フレームワーク(MoRe)を提案する。 MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文参考訳（メタデータ） (2022-12-03T13:11:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。