論文の概要: CoPE: A Small Language Model for Steerable and Scalable Content Labeling
- arxiv url: http://arxiv.org/abs/2512.18027v1
- Date: Fri, 19 Dec 2025 19:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.155114
- Title: CoPE: A Small Language Model for Steerable and Scalable Content Labeling
- Title(参考訳): CoPE: 安定的でスケーラブルなコンテンツラベリングのための小さな言語モデル
- Authors: Samidh Chakrabarti, David Willner, Kevin Klyman, Tiffany Saade, Emily Capstick, Sabina Nong,
- Abstract要約: CoPEはポリシーステアブルな小型言語モデルであり、高速かつ正確なコンテンツラベリングを可能にする。
本稿では,モデルが単なるポリシー記憶ではなく,ポリシー解釈を学習することのできる,新たなトレーニングカリキュラムを提案する。
我々は、このモデルの90億のパラメータバージョンをオープンにリリースし、単一のコンシューマグレードのGPUで実行できる。
- 参考スコア(独自算出の注目度): 1.299304266312528
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper details the methodology behind CoPE, a policy-steerable small language model capable of fast and accurate content labeling. We present a novel training curricula called Contradictory Example Training that enables the model to learn policy interpretation rather than mere policy memorization. We also present a novel method for generating content policies, called Binocular Labeling, which enables rapid construction of unambiguous training datasets. When evaluated across seven different harm areas, CoPE exhibits equal or superior accuracy to frontier models at only 1% of their size. We openly release a 9 billion parameter version of the model that can be run on a single consumer-grade GPU. Models like CoPE represent a paradigm shift for classifier systems. By turning an ML task into a policy writing task, CoPE opens up new design possibilities for the governance of online platforms.
- Abstract(参考訳): 本稿では,ポリシーステアブルな小言語モデルであるCoPEの背景となる方法論を詳述する。
本稿では,モデルが単なる政策記憶ではなく,政策解釈を学習できるようにするContradictory Example Trainingという新しい学習カリキュラムを提案する。
また、不明瞭なトレーニングデータセットの迅速な構築を可能にする、両眼ラベリングと呼ばれるコンテンツポリシーを生成する新しい手法を提案する。
7つの異なる調和領域で評価すると、CoPEはフロンティアモデルと同等または優れた精度を示し、そのサイズはわずか1%である。
我々は、このモデルの90億のパラメータバージョンをオープンにリリースし、単一のコンシューマグレードのGPUで実行できる。
CoPEのようなモデルは、分類器システムのパラダイムシフトを表す。
MLタスクをポリシー記述タスクにすることで、CoPEはオンラインプラットフォームのガバナンスのための新しい設計可能性を開く。
関連論文リスト
- Metadata Conditioning Accelerates Language Model Pre-training [76.54265482251454]
そこで本研究では,Metadata Conditioning then Cooldown (MeCo) と呼ばれる新しい手法を提案する。
MeCoは、さまざまなモデルスケール(600Mから8Bパラメータ)とトレーニングソース(C4、RefinedWeb、DCLM)の事前トレーニングを著しく加速する
MeCoは驚くほどシンプルで、計算オーバーヘッドを追加せず、より有能でステアブルな言語モデルを生成するという約束を示す。
論文 参考訳(メタデータ) (2025-01-03T18:59:23Z) - TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models [41.19735603722873]
TS-Align"フレームワークは、その出力から自動的に抽出されるペアのフィードバックデータを使用してポリシーモデルを微調整する。
最終調整方針は, 平均勝利率69.7%で基本方針モデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-05-30T16:17:40Z) - CoLLEGe: Concept Embedding Generation for Large Language Models [12.812113254812028]
CoLLEGeは、新しい概念のための柔軟な埋め込みを生成することができるメタ学習フレームワークである。
我々は,現実のシナリオに挑戦する上で,新しい概念学習をテストするための一連のタスクを設計する。
論文 参考訳(メタデータ) (2024-03-22T17:26:05Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。