論文の概要: In-Context Credit Assignment via the Core
- arxiv url: http://arxiv.org/abs/2605.06920v1
- Date: Thu, 07 May 2026 20:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.608234
- Title: In-Context Credit Assignment via the Core
- Title(参考訳): コア経由のIn-Context Credit Assignment
- Authors: Keegan Harris, Siddharth Prasad, Asher Trockman,
- Abstract要約: インコンテキスト・クレジット・アサインメントのためのインセンティブ・アラインメント・メカニズムを提案する。
我々のアプローチは、協調ゲーム理論の最小コア解の概念に基づいている。
- 参考スコア(独自算出の注目度): 14.390387398672997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose incentive-aligned mechanisms for in-context credit assignment: the task of assigning credit for AI-generated content (e.g. code, news articles, short-form videos) among creators whose intellectual property appears in the context window. Our approach is based on the least core solution concept from cooperative game theory, which distributes value in a way that is as stable as possible by ensuring that no subset of creators is significantly under-compensated relative to the value they could generate on their own. We develop algorithms for approximating the least core, which leverage novel routines for constraint seeding and constraint separation. On a web retrieval credit assignment task, we find that our approaches are capable of approximating the least core using orders of magnitude fewer LLM calls compared to alternative methods.
- Abstract(参考訳): コンテキストウィンドウに知的財産が現れるクリエーター間でAI生成コンテンツ(例えば、コード、ニュース記事、ショートフォームビデオ)のクレジットを割り当てるタスク。
本手法は, 創造者のサブセットが, 自ら生成できる価値に対して著しく過小評価されることを保証し, できるだけ安定な方法で価値を分配する協調ゲーム理論から, 最小のコアソリューション概念を基礎にしている。
我々は最小コアを近似するアルゴリズムを開発し、制約シードと制約分離のための新しいルーチンを活用する。
ウェブ検索のクレジット代入タスクにおいて,我々の手法は,他の方法と比較して,桁違いに少ないLCMコールで最小コアを近似できることがわかった。
関連論文リスト
- Contextual Counterfactual Credit Assignment for Multi-Agent Reinforcement Learning in LLM Collaboration [22.269718913202595]
コンテキスト非現実的クレジット割り当て(textbftextttC3)を導入する。
textbftextttC3は、エピソード全体で報酬を分配する代わりに、個々のメッセージの因果的影響を分離する。
textbftextttC3は、確立されたベースラインよりもターミナルパフォーマンスを改善する。
論文 参考訳(メタデータ) (2026-03-06T20:25:11Z) - ConstraintLLM: A Neuro-Symbolic Framework for Industrial-Level Constraint Programming [9.69748612176497]
制約プログラミング(CP)は実世界の制約最適化問題(COP)を解決するための重要な技術である
大きな言語モデル(LLM)を使用してCOPの形式的モデリングを自動的に生成することは、象徴的解決者の助けを借りて、ニューロシンボリックAIを構築するという、有望なアプローチになりつつある。
本稿では,CPモデリングに特化した最初のLLMであるConstraintLLMを紹介する。
CPモデリングのための最初の産業レベルのベンチマークであるIndusCPを構築し,リリースする。
論文 参考訳(メタデータ) (2025-10-07T10:43:39Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Resource-Aware Distributed Submodular Maximization: A Paradigm for
Multi-Robot Decision-Making [3.5788754401889022]
Resource-Aware Distributed Greedyは、各ロボットのオンボードリソースを独立して考慮した最初のアルゴリズムである。
RAGは、中央集権化のトレードオフを、グローバルな準最適性、分散化、ほぼ最小のオンボード計算、通信、メモリリソースのトレードオフとバランス付けます。
論文 参考訳(メタデータ) (2022-04-15T15:47:05Z) - Selective Credit Assignment [57.41789233550586]
選択的クレジット代入のための時間差アルゴリズムについて統一的な視点を述べる。
価値に基づく学習と計画アルゴリズムへの重み付けの適用に関する洞察を提供する。
論文 参考訳(メタデータ) (2022-02-20T00:07:57Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。