論文の概要: An Empirical Study on Configuring In-Context Learning Demonstrations for Unleashing MLLMs' Sentimental Perception Capability
- arxiv url: http://arxiv.org/abs/2505.16193v1
- Date: Thu, 22 May 2025 03:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.024534
- Title: An Empirical Study on Configuring In-Context Learning Demonstrations for Unleashing MLLMs' Sentimental Perception Capability
- Title(参考訳): MLLMの知覚能力の解放のための文脈内学習例の設定に関する実証的研究
- Authors: Daiqing Wu, Dongbao Yang, Sicheng Zhao, Can Ma, Yu Zhou,
- Abstract要約: ゼロショットのパラダイムをインコンテキストラーニング(ICL)に拡張し、デモの設定に関する詳細な研究を行う。
具体的には、デモの検索、プレゼンテーション、配信をカバーする3つの重要な要因を調査し、最適化する。
MLLMに固有の予測バイアスも発見され、その後効果的に反作用する。
- 参考スコア(独自算出の注目度): 20.760483719891887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancements in Multimodal Large Language Models (MLLMs) have enabled various multimodal tasks to be addressed under a zero-shot paradigm. This paradigm sidesteps the cost of model fine-tuning, emerging as a dominant trend in practical application. Nevertheless, Multimodal Sentiment Analysis (MSA), a pivotal challenge in the quest for general artificial intelligence, fails to accommodate this convenience. The zero-shot paradigm exhibits undesirable performance on MSA, casting doubt on whether MLLMs can perceive sentiments as competent as supervised models. By extending the zero-shot paradigm to In-Context Learning (ICL) and conducting an in-depth study on configuring demonstrations, we validate that MLLMs indeed possess such capability. Specifically, three key factors that cover demonstrations' retrieval, presentation, and distribution are comprehensively investigated and optimized. A sentimental predictive bias inherent in MLLMs is also discovered and later effectively counteracted. By complementing each other, the devised strategies for three factors result in average accuracy improvements of 15.9% on six MSA datasets against the zero-shot paradigm and 11.2% against the random ICL baseline.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の進歩により、ゼロショットパラダイムの下で様々なマルチモーダルタスクに対処できるようになった。
このパラダイムは、モデル微調整のコストを横取りし、実用的な応用の主流のトレンドとして現れます。
それでも、汎用人工知能の探求において重要な課題であるマルチモーダル・センティメント・アナリティクス(MSA)は、この利便性に対応できない。
ゼロショットのパラダイムはMSAに好ましくない性能を示しており、MLLMが教師付きモデルほど有能な感情を知覚できるかどうかに疑問を呈している。
ゼロショットのパラダイムをインコンテクスト学習(ICL)に拡張し,実演構成に関する詳細な研究を行うことで,MLLMが実際にそのような能力を持っていることを検証した。
具体的には、デモの検索、プレゼンテーション、配信をカバーする3つの重要な要因を包括的に調査し、最適化する。
MLLMに固有の感情的予測バイアスも発見され、その後効果的に反作用する。
3つの要因を補完することにより、ゼロショットのパラダイムに対して6つのMSAデータセットの平均精度が15.9%向上し、ランダムなICLベースラインに対して11.2%向上した。
関連論文リスト
- VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。
従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。
Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文 参考訳(メタデータ) (2024-11-23T02:17:10Z) - LLM-based MOFs Synthesis Condition Extraction using Few-Shot Demonstrations [31.35595673239483]
大規模言語モデル(LLM)は、この長年の問題に対する破壊的な新しい解決策を提供する。
本稿では,LLMの文脈内学習パラダイムについて紹介する。
提案した少数ショットLLMの合成,構造推定,材料設計性能は,いずれもゼロショットLLMとベースライン法を大きく上回っている。
論文 参考訳(メタデータ) (2024-08-06T14:53:25Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。
GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。
オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文 参考訳(メタデータ) (2024-06-12T02:23:51Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - From Training-Free to Adaptive: Empirical Insights into MLLMs' Understanding of Detection Information [32.57246173437492]
視覚検出モデルは、きめ細かい画像の詳細を認識するのに優れている。
1つの効果的な戦略は、シンプルで効果的なテキスト形式で検出情報を注入することである。
本稿では,MLLMのテキスト検出情報に対する理解に,学習はどのような影響を与えるのか,という疑問に対処する。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large
Language Models [56.256069117502385]
Chain of Thought (CoT)アプローチは、複雑な推論タスクにおいて、LLM(Large Language Models)の能力を高めるために使用できる。
しかし、マルチモーダル推論における最適なCoT実例の選択は、まだ検討されていない。
本稿では,この課題に対処する新しい手法として,検索機構を用いて実演例を自動的に選択する手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T08:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。