論文の概要: SkillRater: Untangling Capabilities in Multimodal Data
- arxiv url: http://arxiv.org/abs/2602.11615v1
- Date: Thu, 12 Feb 2026 06:07:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.662144
- Title: SkillRater: Untangling Capabilities in Multimodal Data
- Title(参考訳): SkillRater: マルチモーダルデータにおけるアンタングリング機能
- Authors: Naveen Sahi, Jeremy Dohmann, Armen Aghajanyan, Akshat Shrivastava,
- Abstract要約: SkillRaterは、データフィルタリングを特殊なレーダに分解するフレームワークです。
トレーニング段階では、いずれかのレーダが時間を経るにつれて締め付けるしきい値より上位にランクされた場合、サンプルが保持される。
我々は,このアプローチを視覚言語モデルで検証し,品質を視覚的理解,OCR,STEM推論の3つの能力次元に分解する。
- 参考スコア(独自算出の注目度): 12.115111298751179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data curation methods typically assign samples a single quality score. We argue this scalar framing is fundamentally limited: when training requires multiple distinct capabilities, a monolithic scorer cannot maximize useful signals for all of them simultaneously. Quality is better understood as multidimensional, with each dimension corresponding to a capability the model must acquire. We introduce SkillRater, a framework that decomposes data filtering into specialized raters - one per capability, each trained via meta-learning on a disjoint validation objective - and composes their scores through a progressive selection rule: at each training stage, a sample is retained if any rater ranks it above a threshold that tightens over time, preserving diversity early while concentrating on high-value samples late. We validate this approach on vision language models, decomposing quality into three capability dimensions: visual understanding, OCR, and STEM reasoning. At 2B parameters, SkillRater improves over unfiltered baselines by 5.63% on visual understanding, 2.00% on OCR, and 3.53% on STEM on held out benchmarks. The learned rater signals are near orthogonal, confirming that the decomposition captures genuinely independent quality dimensions and explaining why it outperforms both unfiltered training and monolithic learned filtering.
- Abstract(参考訳): データキュレーションメソッドは通常、サンプルに単一の品質スコアを割り当てる。
トレーニングが複数の異なる機能を必要とする場合、モノリシックスコアラはそれらすべてに対して有用な信号を同時に最大化することはできない。
品質は多次元として理解され、各次元はモデルが取得しなければならない能力に対応する。
SkillRaterは、データフィルタリングを特殊なレーダに分解するフレームワークで、機能ごとに1つずつ、それぞれが不整合性検証の目的でメタラーニングによってトレーニングされ、プログレッシブな選択ルールによってスコアを構成する。
我々は,このアプローチを視覚言語モデルで検証し,品質を視覚的理解,OCR,STEM推論の3つの能力次元に分解する。
2Bパラメータで、SkillRaterは、未フィルタリングのベースラインを5.63%、OCRが2.00%、STEMが3.53%改善する。
学習されたレーダ信号は直交に近いので、分解が真に独立した品質の次元をキャプチャし、なぜフィルタされていないトレーニングとモノリシックな学習フィルタリングの両方よりも優れているのかを説明する。
関連論文リスト
- Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models [7.61977883644433]
データ品質を評価するために,専門性,可読性,推論,清潔さの4つの側面を提案する。
学習した最適重み付けにより,これらの次元を既存の品質指標と統合する多次元データ選択手法であるMeta-raterを紹介する。
実験により、Meta-raterは1.3Bパラメータモデルの収束速度を2倍にし、下流タスク性能を3.23倍に改善し、7.2Bパラメータのモデルにスケールする利点がある。
論文 参考訳(メタデータ) (2025-04-19T06:12:33Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - Not Every Side Is Equal: Localization Uncertainty Estimation for
Semi-Supervised 3D Object Detection [38.77989138502667]
点雲からの半教師付き3Dオブジェクト検出は、少数のラベル付きデータと多数のラベルなしデータで検出器を訓練することを目的としている。
既存の方法は、各擬似境界ボックス全体を扱い、トレーニング中に各側面に等しい重要性を割り当てる。
3つの鍵設計からなる半教師付き3次元物体検出のためのサイドアウェアフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-16T09:08:03Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。