論文の概要: Improving Large Vision and Language Models by Learning from a Panel of Peers
- arxiv url: http://arxiv.org/abs/2509.01610v1
- Date: Mon, 01 Sep 2025 16:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.783629
- Title: Improving Large Vision and Language Models by Learning from a Panel of Peers
- Title(参考訳): ペアパネルからの学習による大規模ビジョンと言語モデルの改善
- Authors: Jefferson Hernandez, Jing Shi, Simon Jenni, Vicente Ordonez, Kushal Kafle,
- Abstract要約: 本研究では,人間同士の協調学習に触発された新しいパネル・オブ・ピアス学習フレームワークを提案する。
ピアレビューシステムをシミュレートすることで、我々のモデルは、キュレートされた一連のプロンプトに応答して出力を生成し、評価し、精製する。
本実験は,複数のベンチマークにおいて有意な改善を示し,自己監督アライメントに代わるスケーラブルな代替手段としてのピア評価の可能性を示した。
- 参考スコア(独自算出の注目度): 27.83658413272528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional alignment methods for Large Vision and Language Models (LVLMs) primarily rely on human-curated preference data. Human-generated preference data is costly; machine-generated preference data is limited in quality; and self-supervised preference data often introduces hallucinations. To overcome these limitations, we propose a novel Panel-of-Peers learning framework inspired by collaborative learning among humans. This approach leverages a panel of LVLMs, each evaluating and learning from their collective outputs through an iterative self-improvement process. By simulating a peer review system, our models generate, assess, and refine outputs in response to a curated set of prompts, mimicking a classroom learning environment. We demonstrate that this methodology enhances model performance without requiring extensive human-labeled datasets. Our experiments show significant improvement across multiple benchmarks, demonstrating the potential of peer evaluations as a scalable alternative to self-supervised alignment. Notably, we show that Panel-of-Peers increases the average score on fifteen benchmarks from 48% to 57%
- Abstract(参考訳): 従来のLVLM(Large Vision and Language Models)のアライメント手法は主に人為的な選好データに依存している。
人為的嗜好データはコストがかかり、機械的選好データは品質に制限があり、自己監督的選好データは幻覚をもたらすことが多い。
これらの制約を克服するために,人間間の協調学習に触発された新しいパネル・オブ・ピアス学習フレームワークを提案する。
このアプローチはLVLMのパネルを活用し、それぞれが反復的な自己改善プロセスを通じて、集合的なアウトプットを評価し、学習する。
ピアレビューシステムをシミュレートすることで、教室の学習環境を模倣した一連のプロンプトに応答して出力を生成し、評価し、精製する。
この手法は、広範囲な人間ラベル付きデータセットを必要とせずに、モデル性能を向上させることを実証する。
本実験は,複数のベンチマークにおいて有意な改善を示し,自己監督アライメントに代わるスケーラブルな代替手段としてのピア評価の可能性を示した。
特に、Panel-of-Peersは15ベンチマークの平均スコアを48%から57%に引き上げている。
関連論文リスト
- Measuring Teaching with LLMs [4.061135251278187]
本稿では,文レベルの埋め込みをベースとした独自のLarge Language Modelを使用する。
これらの特化モデルは,0.65以上の専門家による評価で,人間レベルおよび超人的性能を達成可能であることを示す。
また,総合的なモデルスコアは教師の付加価値尺度と一致し,生徒の学習に関連する特徴を捉えていることを示す。
論文 参考訳(メタデータ) (2025-10-27T03:42:04Z) - No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0]
視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。
本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T12:54:52Z) - Improving Preference Extraction In LLMs By Identifying Latent Knowledge Through Classifying Probes [20.20764453136706]
大規模言語モデル(LLM)は、しばしばテキストを評価するために自動判断器として使用される。
本稿では,2つのプロンプト間の差異を利用して学習した線形分類プローブを用いて,潜在知識にアクセスし,より正確な選好を抽出する手法を提案する。
論文 参考訳(メタデータ) (2025-03-22T12:35:25Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - ULMA: Unified Language Model Alignment with Human Demonstration and
Point-wise Preference [16.73260713938154]
典型的なアライメント手順は、教師付き微調整と選好学習からなる。
本稿では,ポイントワイズフィードバックを効果的に活用する新しい選好学習手法であるPoint-wise Direct Preference Optimizationを紹介する。
我々の研究は、教師付き微調整とポイントワイド選好学習の新たなつながりを明らかにし、統一言語モデルアライメント(英語版)に到達した。
論文 参考訳(メタデータ) (2023-12-05T07:52:12Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Denoising and Selecting Pseudo-Heatmaps for Semi-Supervised Human Pose
Estimation [38.97427474379367]
ラベルのないデータから学習するターゲットとして,信頼度の高い擬似熱マップを生成するための認知スキームを導入する。
評価された学生間の不確実性によって導かれる擬似熱マップから学習対象を選択する。
提案手法は,従来の半教師付きポーズ推定装置よりも優れていた。
論文 参考訳(メタデータ) (2023-09-29T19:17:30Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - ILLUME: Rationalizing Vision-Language Models through Human Interactions [18.701950647429]
本稿では,機械生成データとのヒューマンインタラクションに基づくチューニングパラダイムを提案する。
我々の ILLUME は以下のループを実行する: 画像検索のプロンプトが与えられたら、VLM は複数の候補論理をサンプリングし、人間の批評家は選好選択を通じてフィードバックを提供する。
このループはトレーニングデータを増やし、人間の意図に合わせたVLMの合理化能力を徐々に削ります。
論文 参考訳(メタデータ) (2022-08-17T11:41:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。