論文の概要: MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction
- arxiv url: http://arxiv.org/abs/2510.05611v1
- Date: Tue, 07 Oct 2025 06:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.128853
- Title: MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction
- Title(参考訳): MADIAVE: 属性値抽出のためのマルチエージェント議論
- Authors: Wei-Chieh Huang, Cornelia Caragea,
- Abstract要約: インプシット属性値抽出(AVE)は、電子商取引における商品の正確な表現に不可欠である。
マルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、多次元データの複雑さのため暗黙のAVEは依然として困難である。
我々は,複数のMLLMエージェントを用いて推論を反復的に洗練するマルチエージェント討論フレームワークであるtextscmodelnameを紹介する。
- 参考スコア(独自算出の注目度): 52.89860691282002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit Attribute Value Extraction (AVE) is essential for accurately representing products in e-commerce, as it infers lantent attributes from multimodal data. Despite advances in multimodal large language models (MLLMs), implicit AVE remains challenging due to the complexity of multidimensional data and gaps in vision-text understanding. In this work, we introduce \textsc{\modelname}, a multi-agent debate framework that employs multiple MLLM agents to iteratively refine inferences. Through a series of debate rounds, agents verify and update each other's responses, thereby improving inference performance and robustness. Experiments on the ImplicitAVE dataset demonstrate that even a few rounds of debate significantly boost accuracy, especially for attributes with initially low performance. We systematically evaluate various debate configurations, including identical or different MLLM agents, and analyze how debate rounds affect convergence dynamics. Our findings highlight the potential of multi-agent debate strategies to address the limitations of single-agent approaches and offer a scalable solution for implicit AVE in multimodal e-commerce.
- Abstract(参考訳): Inlicit Attribute Value extract (AVE)は、マルチモーダルデータからランジェント属性を推測するため、電子商取引における商品を正確に表現するために不可欠である。
マルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、多次元データの複雑さと視覚テキスト理解のギャップのため、暗黙のAVEは依然として困難である。
本稿では,複数のMLLMエージェントを用いて推論を反復的に洗練するマルチエージェント討論フレームワークである‘textsc{\modelname}を紹介する。
一連の議論のラウンドを通じて、エージェントは互いの反応を検証し、更新し、推論性能と堅牢性を改善する。
ImplicitAVEデータセットの実験では、最初はパフォーマンスが低い属性に対して、いくつかの議論でも精度が著しく向上している。
我々は,同一又は異なるMLLMエージェントを含む様々な議論構成を体系的に評価し,議論ラウンドが収束ダイナミクスに与える影響を分析する。
本研究は,単一エージェントアプローチの限界に対処し,マルチモーダルeコマースにおける暗黙のAVEにスケーラブルなソリューションを提供するためのマルチエージェント議論戦略の可能性を強調した。
関連論文リスト
- Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations [70.94563079082751]
電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。
本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。
提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-25T15:38:56Z) - MV-Debate: Multi-view Agent Debate with Dynamic Reflection Gating for Multimodal Harmful Content Detection in Social Media [26.07883439550861]
MV-Debateは、マルチモード有害コンテンツ検出のための動的リフレクションゲーティングを備えたマルチビューエージェント討論フレームワークである。
MV-Debateは4つの相補的な議論エージェント、表面分析者、深い推論者、モダリティコントラスト、社会的文脈主義者を集め、多様な解釈的視点からコンテンツを分析する。
論文 参考訳(メタデータ) (2025-08-07T16:38:25Z) - Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。
本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。
本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T07:12:06Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Should we be going MAD? A Look at Multi-Agent Debate Strategies for LLMs [7.7433783185451075]
コスト、時間、正確性の間のトレードオフを探るため、さまざまな議論と戦略をベンチマークします。
マルチエージェントの議論システムは、現在の形式では、他の提案されたプロンプト戦略を確実に上回っているわけではない。
これらの結果に基づいて、エージェント合意レベルの調整など、議論戦略の改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-11-29T05:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。