論文の概要: Concepts or Skills? Rethinking Instruction Selection for Multi-modal Models
- arxiv url: http://arxiv.org/abs/2508.10339v1
- Date: Thu, 14 Aug 2025 04:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.182764
- Title: Concepts or Skills? Rethinking Instruction Selection for Multi-modal Models
- Title(参考訳): 概念とスキル : マルチモーダルモデルにおける指導選択の再考
- Authors: Andrew Bai, Justin Cui, Ruochen Wang, Cho-Jui Hsieh,
- Abstract要約: 視覚言語指導チューニングは、視覚概念の学習と視覚スキルの学習という2つの主な目的を達成する。
この発見にインスパイアされた我々は、与えられたベンチマークの性能を最適化する単純なトレーニングデータ選択法を設計した。
- 参考スコア(独自算出の注目度): 54.829219574424634
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language instruction tuning achieves two main purposes: learning visual concepts and learning visual skills. In this paper, we found that vision-language benchmarks fall into the dichotomy of mainly benefiting from training on instructions with similar skills or visual concepts. Inspired by the discovery, we designed a simple targeted training data selection method to optimize the performance of a given benchmark. We first extract the concepts/skills from the benchmark, determine whether the benchmark predominantly benefits from similar concepts or skills, and finally select instructions with the most matching concepts/skills. Experiments on 10+ benchmarks validate the effectiveness of our targeted data selection method, showing +0.9\% over the best existing baseline averaged over all benchmarks and +1.5\% on the skill-focused subset. Our findings underscore the importance of recognizing the inherent trade-off within instruction selection, which requires balancing the acquisition of conceptual knowledge against visual skill.
- Abstract(参考訳): 視覚言語指導チューニングは、視覚概念の学習と視覚スキルの学習という2つの主な目的を達成する。
本稿では、視覚言語ベンチマークが、主に類似のスキルや視覚概念を持つ指導の訓練の恩恵を受けるという二分法に陥ることを見出した。
この発見にインスパイアされた我々は、与えられたベンチマークの性能を最適化する単純なトレーニングデータ選択法を設計した。
まず、ベンチマークから概念/スキルを抽出し、ベンチマークが類似した概念やスキルから大きな恩恵を受けるかどうかを判断し、最後に最も一致する概念/スキルで指示を選択する。
10以上のベンチマークでの実験では,対象とするデータ選択手法の有効性が検証され,すべてのベンチマークの平均ベースラインを+0.9\%,スキル中心サブセットを+1.5\%上回る結果が得られた。
本研究は,概念的知識の獲得と視覚的スキルの両立を必要とする指導選択における本来のトレードオフを認識することの重要性を強調した。
関連論文リスト
- A Benchmark for Fairness-Aware Graph Learning [58.515305543487386]
本稿では,10の代表的な公正性を考慮したグラフ学習手法に関する広範なベンチマークを示す。
我々の詳細な分析は、既存の手法の強みと限界に関する重要な洞察を明らかにしている。
論文 参考訳(メタデータ) (2024-07-16T18:43:43Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - From Pretext to Purpose: Batch-Adaptive Self-Supervised Learning [32.18543787821028]
本稿では,自己教師付きコントラスト学習におけるバッチ融合の適応的手法を提案する。
公平な比較で最先端のパフォーマンスを達成する。
提案手法は,データ駆動型自己教師型学習研究の進展に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-16T15:47:49Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z) - Concept Generalization in Visual Representation Learning [39.32868843527767]
目に見える概念と目に見えない概念のセマンティックな関係が一般化性能に影響を及ぼすと論じる。
概念一般化を原理的に測定できる,ImageNetデータセットの新たなベンチマークであるImageNet-CoGを提案する。
論文 参考訳(メタデータ) (2020-12-10T13:13:22Z) - A Competence-aware Curriculum for Visual Concepts Learning via Question
Answering [95.35905804211698]
本稿では,視覚概念学習のための質問応答型カリキュラムを提案する。
視覚概念を学習するためのニューラルシンボリックな概念学習者と学習プロセスを導くための多次元項目応答理論(mIRT)モデルを設計する。
CLEVRの実験結果から,コンピテンスを意識したカリキュラムにより,提案手法は最先端のパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2020-07-03T05:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。