論文の概要: OrderChain: A General Prompting Paradigm to Improve Ordinal Understanding Ability of MLLM
- arxiv url: http://arxiv.org/abs/2504.04801v1
- Date: Mon, 07 Apr 2025 07:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:11.812520
- Title: OrderChain: A General Prompting Paradigm to Improve Ordinal Understanding Ability of MLLM
- Title(参考訳): OrderChain: MLLMの日常的理解能力を改善するための一般的な提案パラダイム
- Authors: Jinhong Wang, Shuo Tong, Jian liu, Dongqi Tang, Weiqiang Wang, Wentong Li, Hongxia Xu, Danny Chen, Jintai Chen, Jian Wu,
- Abstract要約: 本稿では,MLLMの規則的理解能力を,特異性と共通性モデリングにより向上させる,新規で汎用的なプロンプトパラダイムであるOrderChainを提案する。
OrderChainを用いたLarge Language and Vision Assistantモデルは,多様なORデータセットに基づいて,ベースラインのLLaVAを大幅に改善することを示す。
私たちの知る限りでは、OrderChainは、ORタスクのMLLMを拡張した最初の作品です。
- 参考スコア(独自算出の注目度): 28.249198952483685
- License:
- Abstract: Despite the remarkable progress of multimodal large language models (MLLMs), they continue to face challenges in achieving competitive performance on ordinal regression (OR; a.k.a. ordinal classification). To address this issue, this paper presents OrderChain, a novel and general prompting paradigm that improves the ordinal understanding ability of MLLMs by specificity and commonality modeling. Specifically, our OrderChain consists of a set of task-aware prompts to facilitate the specificity modeling of diverse OR tasks and a new range optimization Chain-of-Thought (RO-CoT), which learns a commonality way of thinking about OR tasks by uniformly decomposing them into multiple small-range optimization subtasks. Further, we propose a category recursive division (CRD) method to generate instruction candidate category prompts to support RO-CoT automatic optimization. Comprehensive experiments show that a Large Language and Vision Assistant (LLaVA) model with our OrderChain improves baseline LLaVA significantly on diverse OR datasets, e.g., from 47.5% to 93.2% accuracy on the Adience dataset for age estimation, and from 30.0% to 85.7% accuracy on the Diabetic Retinopathy dataset. Notably, LLaVA with our OrderChain also remarkably outperforms state-of-the-art methods by 27% on accuracy and 0.24 on MAE on the Adience dataset. To our best knowledge, our OrderChain is the first work that augments MLLMs for OR tasks, and the effectiveness is witnessed across a spectrum of OR datasets.
- Abstract(参考訳): MLLM(Multimodal large language model)の顕著な進歩にもかかわらず、彼らは順序回帰(or; or.a. ordinal classification)の競争性能を達成する上での課題に直面し続けている。
そこで本研究では,MLLMの規則理解能力を,特異性と共通性モデリングにより向上させる,新規で汎用的なパラダイムであるOrderChainを提案する。
具体的には、多様なORタスクの特異性モデリングを容易にするタスク認識プロンプトと、ORタスクを複数の小範囲の最適化サブタスクに一様に分解することで、共通的にORタスクを考える方法を学ぶ新しい範囲最適化Chain-of-Thought(RO-CoT)から構成される。
さらに、RO-CoT自動最適化をサポートする命令候補カテゴリプロンプトを生成するカテゴリ再帰除算(CRD)手法を提案する。
総合的な実験により、我々のOrderChainを用いたLarge Language and Vision Assistant(LLaVA)モデルは、さまざまなORデータセットのベースラインLLaVAを、年齢推定のためのAdienceデータセットの47.5%から93.2%、糖尿病網膜症データセットの30.0%から85.7%の精度で大幅に改善することが示された。
特に、OrderChainを使用したLLaVAは、Adienceデータセットの精度で27%、MAEで0.24で、最先端の手法よりも著しく優れています。
私たちの知る限りでは、OrderChainは、ORタスクのMLLMを拡張した最初の作品です。
関連論文リスト
- MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。
実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-04T19:55:32Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。