論文の概要: Conscious Data Contribution via Community-Driven Chain-of-Thought Distillation
- arxiv url: http://arxiv.org/abs/2512.18174v1
- Date: Sat, 20 Dec 2025 02:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.215227
- Title: Conscious Data Contribution via Community-Driven Chain-of-Thought Distillation
- Title(参考訳): コミュニティ駆動型コールド・オブ・ソート蒸留による意識的データ貢献
- Authors: Lena Libon, Meghana Bhange, Rushabh Solanki, Elliot Creager, Ulrich Aïvodji,
- Abstract要約: LLMにおけるデータポータビリティとユーザ自律性に関する疑問を「理性」という文脈で考察する。
利用可能なモデルから低ユーティリティを受信したコミュニティが、自分たちの共有した知識を、目標に沿った代替モデルに集約し、蒸留する方法を示します。
- 参考スコア(独自算出の注目度): 4.275696286826178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current era of AI development places a heavy emphasis on training large models on increasingly scaled-up datasets. This paradigm has catalyzed entirely new product categories, such as LLM chatbots, while also raising concerns about data privacy and consumer choice. In this paper, we consider questions of data portability and user autonomy in the context of LLMs that "reason" using chain-of-thought (CoT) traces, computing intermediate text artifacts from user input before producing a final output. We first interpret recent data privacy and portability law to argue that these intermediate computations qualify as users' personal data. Then, building on the existing framework of Conscious Data Contribution, we show how communities who receive low utility from an available model can aggregate and distill their shared knowledge into an alternate model better aligned with their goals. We verify this approach empirically and investigate the effects of community diversity, reasoning granularity, and community size on distillation performance.
- Abstract(参考訳): AI開発の現在の時代は、拡大するスケールアップデータセットに対する大規模なモデルのトレーニングに重点を置いている。
このパラダイムは、LLMチャットボットのような全く新しい製品カテゴリを開拓し、データのプライバシと消費者選択に対する懸念も高めた。
本稿では,データポータビリティとユーザ自律性に関する質問を,チェーン・オブ・シント(CoT)トレースを用いた「理性」のLLMの文脈で検討し,最終的な出力を生成する前にユーザ入力から中間テキストアーティファクトを計算した。
まず、最近のデータプライバシとポータビリティの法則を解釈し、これらの中間計算をユーザの個人データとみなす。
次に、既存のConscious Data Contributionの枠組みに基づいて、利用可能なモデルから低ユーティリティを受け取ったコミュニティが、自分たちの共有した知識を、目的に沿った代替モデルに集約し、蒸留する方法を示す。
提案手法を実証的に検証し, 蒸留性能に及ぼす地域多様性, 粒度, 地域規模の影響について検討した。
関連論文リスト
- The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data [25.926467401802046]
大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。
本稿では,2次元から合成データを評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-25T06:40:25Z) - Learning More with Less: A Generalizable, Self-Supervised Framework for Privacy-Preserving Capacity Estimation with EV Charging Data [84.37348569981307]
自己教師付き事前学習に基づく第一種能力推定モデルを提案する。
我々のモデルは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-05T08:58:35Z) - Amputation-imputation based generation of synthetic tabular data for ratemaking [0.0]
Actuarial ratemakingは高品質なデータに依存するが、そのようなデータへのアクセスは、新しいデータを取得するコストやプライバシー上の懸念などによって制限されることが多い。
本稿では,これらの問題に対する潜在的な解決策として,合成データ生成について検討する。
本稿では,オープンソースデータセットを用いて,変分オートエンコーダや条件付きタブララ生成支援ネットワークといった他の生成モデルと比較して,MICEに基づくモデルの評価を行う。
論文 参考訳(メタデータ) (2025-09-02T10:23:04Z) - Non-IID data in Federated Learning: A Survey with Taxonomy, Metrics, Methods, Frameworks and Future Directions [2.9434966603161072]
フェデレートラーニング(FL)は、プライベートデータを共有せずにMLモデルを集合的にトレーニングすることを可能にする。
FLは、クライアントにまたがるデータが独立で、同一に分散された(非IID)データである場合に苦労する。
この技術調査は、非IIDデータ、パーティションプロトコル、メトリクスの詳細な分類を提供することで、このギャップを埋めることを目的としています。
論文 参考訳(メタデータ) (2024-11-19T09:53:28Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Interpretabilit\'e des mod\`eles : \'etat des lieux des m\'ethodes et
application \`a l'assurance [1.6058099298620423]
データは、今日の多くのモデルの原材料であり、デジタルサービスの品質とパフォーマンスを向上させることができる。
モデル利用者は、モデルが差別されないようにし、その結果を説明することも可能であることを保証する必要がある。
予測アルゴリズムのパネルを広げると、科学者はモデルの使用について警戒するようになる。
論文 参考訳(メタデータ) (2020-07-25T12:18:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。