論文の概要: Conscious Data Contribution via Community-Driven Chain-of-Thought Distillation
- arxiv url: http://arxiv.org/abs/2512.18174v1
- Date: Sat, 20 Dec 2025 02:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.215227
- Title: Conscious Data Contribution via Community-Driven Chain-of-Thought Distillation
- Title(参考訳): コミュニティ駆動型コールド・オブ・ソート蒸留による意識的データ貢献
- Authors: Lena Libon, Meghana Bhange, Rushabh Solanki, Elliot Creager, Ulrich Aïvodji,
- Abstract要約: LLMにおけるデータポータビリティとユーザ自律性に関する疑問を「理性」という文脈で考察する。
利用可能なモデルから低ユーティリティを受信したコミュニティが、自分たちの共有した知識を、目標に沿った代替モデルに集約し、蒸留する方法を示します。
- 参考スコア(独自算出の注目度): 4.275696286826178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current era of AI development places a heavy emphasis on training large models on increasingly scaled-up datasets. This paradigm has catalyzed entirely new product categories, such as LLM chatbots, while also raising concerns about data privacy and consumer choice. In this paper, we consider questions of data portability and user autonomy in the context of LLMs that "reason" using chain-of-thought (CoT) traces, computing intermediate text artifacts from user input before producing a final output. We first interpret recent data privacy and portability law to argue that these intermediate computations qualify as users' personal data. Then, building on the existing framework of Conscious Data Contribution, we show how communities who receive low utility from an available model can aggregate and distill their shared knowledge into an alternate model better aligned with their goals. We verify this approach empirically and investigate the effects of community diversity, reasoning granularity, and community size on distillation performance.
- Abstract(参考訳): AI開発の現在の時代は、拡大するスケールアップデータセットに対する大規模なモデルのトレーニングに重点を置いている。
このパラダイムは、LLMチャットボットのような全く新しい製品カテゴリを開拓し、データのプライバシと消費者選択に対する懸念も高めた。
本稿では,データポータビリティとユーザ自律性に関する質問を,チェーン・オブ・シント(CoT)トレースを用いた「理性」のLLMの文脈で検討し,最終的な出力を生成する前にユーザ入力から中間テキストアーティファクトを計算した。
まず、最近のデータプライバシとポータビリティの法則を解釈し、これらの中間計算をユーザの個人データとみなす。
次に、既存のConscious Data Contributionの枠組みに基づいて、利用可能なモデルから低ユーティリティを受け取ったコミュニティが、自分たちの共有した知識を、目的に沿った代替モデルに集約し、蒸留する方法を示す。
提案手法を実証的に検証し, 蒸留性能に及ぼす地域多様性, 粒度, 地域規模の影響について検討した。
関連論文リスト
- Non-IID data in Federated Learning: A Survey with Taxonomy, Metrics, Methods, Frameworks and Future Directions [2.9434966603161072]
フェデレートラーニング(FL)は、プライベートデータを共有せずにMLモデルを集合的にトレーニングすることを可能にする。
FLは、クライアントにまたがるデータが独立で、同一に分散された(非IID)データである場合に苦労する。
この技術調査は、非IIDデータ、パーティションプロトコル、メトリクスの詳細な分類を提供することで、このギャップを埋めることを目的としています。
論文 参考訳(メタデータ) (2024-11-19T09:53:28Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。