論文の概要: Discrete Prompt Tuning via Recursive Utilization of Black-box Multimodal Large Language Model for Personalized Visual Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.04480v1
- Date: Sat, 30 Aug 2025 23:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.318961
- Title: Discrete Prompt Tuning via Recursive Utilization of Black-box Multimodal Large Language Model for Personalized Visual Emotion Recognition
- Title(参考訳): パーソナライズされた視覚感情認識のためのブラックボックスマルチモーダル大言語モデルの再帰的利用による離散プロンプトチューニング
- Authors: Ryo Takahashi, Naoki Saito, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama,
- Abstract要約: MLLM(Multimodal Large Language Models)が注目され、従来の視覚感情認識(VER)手法に匹敵する性能を示した。
提案手法は,生成したプロンプトから最高の自然言語表現を選択し,それを用いて正確なパーソナライズされたVERを実現するためのプロンプトを更新する。
- 参考スコア(独自算出の注目度): 46.86849834199821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Emotion Recognition (VER) is an important research topic due to its wide range of applications, including opinion mining and advertisement design. Extending this capability to recognize emotions at the individual level further broadens its potential applications. Recently, Multimodal Large Language Models (MLLMs) have attracted increasing attention and demonstrated performance comparable to that of conventional VER methods. However, MLLMs are trained on large and diverse datasets containing general opinions, which causes them to favor majority viewpoints and familiar patterns. This tendency limits their performance in a personalized VER, which is crucial for practical and real-world applications, and indicates a key area for improvement. To address this limitation, the proposed method employs discrete prompt tuning inspired by the process of humans' prompt engineering to adapt the VER task to each individual. Our method selects the best natural language representation from the generated prompts and uses it to update the prompt for the realization of accurate personalized VER.
- Abstract(参考訳): 視覚的感情認識(VER)は、意見マイニングや広告デザインなど幅広い応用のために重要な研究トピックである。
この能力を拡張して個々のレベルで感情を認識することで、潜在的な応用をさらに広げる。
近年,MLLM (Multimodal Large Language Models) が注目され,従来のVER法に匹敵する性能を示した。
しかし、MLLMは一般的な意見を含む大規模で多様なデータセットに基づいて訓練されており、大多数の視点と親しみやすいパターンが好まれる。
この傾向は、実用および実世界のアプリケーションに不可欠なパーソナライズされたVERのパフォーマンスを制限し、改善の鍵となる領域を示す。
この制限に対処するため,提案手法では,人間のプロンプト工学のプロセスにインスパイアされた個別のプロンプトチューニングを用いて,各個人にVERタスクを適用する。
提案手法は,生成したプロンプトから最高の自然言語表現を選択し,それを用いて正確なパーソナライズされたVERを実現するためのプロンプトを更新する。
関連論文リスト
- Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。
本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文 参考訳(メタデータ) (2024-12-03T03:59:03Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring
Instruction Tuning [24.87615615489849]
本稿では,ポイントやボックスなどの多様な参照表現を参照プロンプトとして用いて,特定の領域を参照するための正確な参照命令を提案する。
マウスクリックやドラッグアンドドロップ,描画ボックスなど,さまざまな形式の対話性をサポートする,エンドツーエンドの多モーダルな大規模言語モデルであるChatSpotを提案する。
論文 参考訳(メタデータ) (2023-07-18T17:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。