Fugu-MT 論文翻訳(概要): Gamified crowd-sourcing of high-quality data for visual fine-tuning

論文の概要: Gamified crowd-sourcing of high-quality data for visual fine-tuning

arxiv url: http://arxiv.org/abs/2410.04038v1
Date: Tue, 8 Oct 2024 02:37:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 14:40:27.463330
Title: Gamified crowd-sourcing of high-quality data for visual fine-tuning
Title（参考訳）: 視覚微調整のための高品質データのクラウドソーシング
Authors: Shashank Yadav, Rohan Tomar, Garvit Jain, Chirag Ahooja, Shubham Chaudhary, Charles Elkan,
Abstract要約: 本稿では,大規模マルチモーダルモデルの視覚的チューニングのための高品質なデータをクラウドソースするフレームワークである Gamified Adversarial Prompting (GAP) を紹介する。 GAPは、データ収集プロセスをエンゲージメントゲームに変換し、モデルの知識のギャップをターゲットとする、きめ細かな、挑戦的な質問と回答を提供するようプレイヤーに動機付ける。
参考スコア（独自算出の注目度）: 0.9487395978583629
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces Gamified Adversarial Prompting (GAP), a framework that crowd-sources high-quality data for visual instruction tuning of large multimodal models. GAP transforms the data collection process into an engaging game, incentivizing players to provide fine-grained, challenging questions and answers that target gaps in the model's knowledge. Our contributions include (1) an approach to capture question-answer pairs from humans that directly address weaknesses in a model's knowledge, (2) a method for evaluating and rewarding players that successfully incentivizes them to provide high-quality submissions, and (3) a scalable, gamified platform that succeeds in collecting this data from over 50,000 participants in just a few weeks. Our implementation of GAP has significantly improved the accuracy of a small multimodal model, namely MiniCPM-Llama3-V-2.5-8B, increasing its GPT score from 0.147 to 0.477 on our dataset, approaching the benchmark set by the much larger GPT-4V. Moreover, we demonstrate that the data generated using MiniCPM-Llama3-V-2.5-8B also enhances its performance across other benchmarks, and exhibits cross-model benefits. Specifically, the same data improves the performance of QWEN2-VL-2B and QWEN2-VL-7B on the same multiple benchmarks.
Abstract（参考訳）: 本稿では,大規模マルチモーダルモデルの視覚的チューニングのための高品質なデータをクラウドソースするフレームワークである Gamified Adversarial Prompting (GAP) を紹介する。 GAPは、データ収集プロセスをエンゲージメントゲームに変換し、モデルの知識のギャップをターゲットとする、きめ細かな、挑戦的な質問と回答を提供するようプレイヤーに動機付ける。コントリビューションには,(1)モデル知識の弱点に直接対処する人間からの質問応答対をキャプチャするアプローチ,(2)高品質な提案を提供するためのインセンティブの獲得に成功したプレイヤーの評価と報奨方法,(3)数週間で5万人以上の参加者からこのデータを収集することに成功するスケーラブルでゲーミフィケーションされたプラットフォームなどが含まれている。 GAP の実装により,小型マルチモーダルモデルである MiniCPM-Llama3-V-2.5-8B の精度が大幅に向上し,データセット上での GPT スコアが0.147 から 0.477 に向上した。さらに,MiniCPM-Llama3-V-2.5-8Bを用いて生成されたデータにより,他のベンチマークにおける性能が向上し,クロスモデルによるメリットが示された。具体的には、同じベンチマークでQWEN2-VL-2BとQWEN2-VL-7Bの性能を改善する。

関連論文リスト

One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文参考訳（メタデータ） (2025-10-30T06:08:27Z)
VERITAS: Leveraging Vision Priors and Expert Fusion to Improve Multimodal Data [3.638465758795032]
VERITASは、SFTデータ品質を向上させるために、ビジョン先行と複数の最先端LMMを統合するパイプラインである。 3つのLMMが元の答えを評価し、信頼性の高いスコアに統計的に融合した批判的合理性とスコアを提供する。我々の批評家モデルは、最先端のLMMに匹敵する拡張能力を示しながら、より効率的である。
論文参考訳（メタデータ） (2025-10-17T05:13:50Z)
TTRV: Test-Time Reinforcement Learning for Vision Language Models [38.36757421304928]
強化学習における報酬信号を抽出する既存の方法は、ラベル付きデータと専用のトレーニング分割に依存するのが一般的である。提案するTTRVは,ラベル付きデータを必要とせずに,推論時にモデルに適応することで視覚言語理解を向上させる。このアプローチは、オブジェクト認識と視覚的質問応答(VQA)の両方で一貫して向上し、それぞれ52.4%と29.8%の改善、および16データセットで平均24.6%と10.0%のアップを実現している。
論文参考訳（メタデータ） (2025-10-08T09:10:31Z)
WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。 1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文参考訳（メタデータ） (2025-05-15T17:38:37Z)
RICo: Refined In-Context Contribution for Automatic Instruction-Tuning Data Selection [29.459431336830267]
本研究では,タスクレベルとグローバルレベルの両方のモデル性能に対して,個々のサンプルの微細な寄与を定量化する勾配のない手法を提案する。我々は、RICoスコアに基づいて訓練された軽量な選択パラダイムを導入し、厳密な線形推論の複雑さでスケーラブルなデータ選択を可能にする。
論文参考訳（メタデータ） (2025-05-08T15:17:37Z)
Anyprefer: An Agentic Framework for Preference Data Synthesis [62.3856754548222]
ターゲットモデルを調整するための高品質な嗜好データを合成するフレームワークであるAnypreferを提案する。審査員モデルの応答を正確に評価するために、外部ツールが導入される。合成されたデータは、58Kの高品質な選好ペアからなる新しい選好データセットであるAnyprefer-V1にコンパイルされる。
論文参考訳（メタデータ） (2025-04-27T15:21:59Z)
Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models [7.61977883644433]
我々はPRRCを提案し、プロフェッショナル主義、可読性、推論、クリーンラインにまたがるデータ品質を評価する。学習した最適重み付けにより,これらの次元を既存の品質指標と統合する多次元データ選択手法であるMeta-raterを紹介する。実験により、Meta-raterは1.3Bパラメータモデルの収束速度を2倍にし、100Bトークンでトレーニングされた3.3Bモデルにおいて、ダウンストリームタスクのパフォーマンスを3.23倍改善することを示した。
論文参考訳（メタデータ） (2025-04-19T06:12:33Z)
ViLBench: A Suite for Vision-Language Process Reward Modeling [25.565912785217822]
本稿では,現在の視覚大言語モデル(VLLM)を2種類の報酬モデルとしてベンチマークする。我々は、集中的なプロセス報酬信号を必要とするように設計された視覚言語ベンチマークViLBenchを紹介する。本稿では,一般VLLMと報奨モデルとのギャップを埋めるための有望な経路を予め紹介する。
論文参考訳（メタデータ） (2025-03-26T06:38:31Z)
DAMA: Data- and Model-aware Alignment of Multi-modal LLMs [31.116618294885065]
本稿では,データとモデルを考慮したDPO(DAMA)を提案し,最適化プロセスを2つの重要な側面から調整する。 2つの戦略を組み合わせることで、DAMAはモデルが様々なレベルの硬さを持つデータに効果的に適応できるようにする。
論文参考訳（メタデータ） (2025-02-04T02:30:36Z)
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。現在のアセスメント手法は、従来のタスクからAIアノテートされた好みラベルに依存している。 VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがるベンチマークである。
論文参考訳（メタデータ） (2024-11-26T14:08:34Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Improving Data Efficiency via Curating LLM-Driven Rating Systems [30.233724785974143]
データ選択のための多変量対応スコアキュレーション手法DS2を紹介する。スコア遷移行列を通じてエラーパターンを体系的にモデル化することにより、DS2はLSMベースのスコアを補正し、選択したデータサンプルの多様性を促進する。このアプローチは、キュレートされたサブセット(元のデータセットのわずか3.3%)が、さまざまなマシンアライメントベンチマークで、フルスケールデータセット(300kサンプル)より優れていることを示している。
論文参考訳（メタデータ） (2024-10-09T10:07:55Z)
MAmmoTH2: Scaling Instructions from the Web [39.786198452175505]
そこで本研究では,学習前のWebコーパスから,1000万の自然界に存在するインストラクションデータを効率的に抽出するパラダイムを提案する。我々はMAmmoTH2モデルを構築し、推論ベンチマークの性能を大幅に向上させた。さらに、パブリックインストラクションチューニングデータセット上でMAmmoTH2をトレーニングすると、MAmmoTH2-Plusが得られ、最先端のパフォーマンスが達成される。
論文参考訳（メタデータ） (2024-05-06T15:11:38Z)
How Can I Improve? Using GPT to Highlight the Desired and Undesired Parts of Open-ended Responses [11.809647985607935]
提案手法は,説明的フィードバックを提供する上で,望ましい,望ましくないコンポーネントを識別することに焦点を当てたシーケンスラベリング手法を提案する。 GPTモデルにより同定された強調された賞賛成分の品質を定量化するため,M-IoU(Modified Intersection over Union)スコアを導入した。以上の結果から,(1)M-IoUスコアはシーケンス品質評価における人的判断と効果的に相関し,(2)GPT-3.5上での2ショットプロンプトは,努力に基づく評価と成果に基づく評価の認識において良好な性能を示し,(3)M-IoUスコアの0.6が最適微調整GPT-3.5モデルであった。
論文参考訳（メタデータ） (2024-05-01T02:59:10Z)
TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文参考訳（メタデータ） (2024-04-19T11:38:08Z)
Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation [56.13803674092712]
本稿では,産業に優しく,専門家に順応し,多様性に配慮した指導データ選択手法を提案する:クラスタリングとランキング(CaR) CaRは2段階のプロセスを採用している: まず、専門家の好みに合わせた高精度(84.25%)のスコアリングモデルを使用して、命令ペアをランク付けする。我々の実験では、CaRはAlpacaのITデータのわずか1.96%を効率よく選択したが、結果のAlpaCaRモデルはGPT-4の評価において平均32.1%の精度でAlpacaのパフォーマンスを上回った。
論文参考訳（メタデータ） (2024-02-28T09:27:29Z)
Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文参考訳（メタデータ） (2023-12-17T09:44:27Z)
Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文参考訳（メタデータ） (2021-11-09T03:23:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。