論文の概要: CoLa -- Learning to Interactively Collaborate with Large LMs
- arxiv url: http://arxiv.org/abs/2504.02965v1
- Date: Thu, 03 Apr 2025 18:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 22:19:15.748243
- Title: CoLa -- Learning to Interactively Collaborate with Large LMs
- Title(参考訳): CoLa -- 大規模なLMと対話的にコラボレートすることを学ぶ
- Authors: Abhishek Sharma, Dan Goldwasser,
- Abstract要約: 自動ガイドを学習するための新しい自己指導型学習パラダイムであるCoLaを紹介する。
我々は,人間によるQAデータセットの人間による研究を行うことにより,人間と自動ガイドの戦略を比較した。
自動ガイドは,その戦略を推論者の能力に適応させることで人間より優れていることを示す。
- 参考スコア(独自算出の注目度): 22.423899484894477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs' remarkable ability to tackle a wide range of language tasks opened new opportunities for collaborative human-AI problem solving. LLMs can amplify human capabilities by applying their intuitions and reasoning strategies at scale. We explore whether human guides can be simulated, by generalizing from human demonstrations of guiding an AI system to solve complex language problems. We introduce CoLa, a novel self-guided learning paradigm for training automated $\textit{guides}$ and evaluate it on two QA datasets, a puzzle-solving task, and a constrained text generation task. Our empirical results show that CoLa consistently outperforms competitive approaches across all domains. Moreover, a small-sized trained guide outperforms a strong model like GPT-4 when acting as a guide. We compare the strategies employed by humans and automated guides by conducting a human study on a QA dataset. We show that automated guides outperform humans by adapting their strategies to reasoners' capabilities and conduct qualitative analyses highlighting distinct differences in guiding strategies.
- Abstract(参考訳): 幅広い言語タスクに対処するLLMの顕著な能力は、人間とAIの協調的な問題解決の新たな機会を開放した。
LLMは、直観や推論戦略を大規模に適用することで、人間の能力を増幅することができる。
複雑な言語問題を解くためにAIシステムを導くという人間のデモンストレーションを一般化することで、人間のガイドをシミュレートできるかどうかを考察する。
CoLaは、自動化された$\textit{guides}$をトレーニングするための新しい自己指導型学習パラダイムであり、2つのQAデータセット、パズル解決タスク、制約付きテキスト生成タスクで評価する。
私たちの経験的結果は、CoLaがすべてのドメインで競争力のあるアプローチを一貫して上回っていることを示している。
さらに、小型の訓練ガイドは、ガイドとして振る舞う場合、GPT-4のような強力なモデルより優れる。
我々は,人間によるQAデータセットの人間による研究を行うことにより,人間と自動ガイドの戦略を比較した。
自動ガイドは、推論者の能力に戦略を適応させ、指導戦略の異なる違いを強調する定性的な分析を行うことにより、人間より優れていることを示す。
関連論文リスト
- When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration [79.69935257008467]
我々は,人間とAIの知識伝達能力に関する概念的かつ実験的フレームワークである知識統合と伝達評価(KITE)を紹介する。
最初の大規模人間実験(N=118)を行い,その測定を行った。
2段階のセットアップでは、まずAIを使って問題解決戦略を思いつき、その後独立してソリューションを実装し、モデル説明が人間の理解に与える影響を分離します。
論文 参考訳(メタデータ) (2025-06-05T20:48:16Z) - A Task-Driven Human-AI Collaboration: When to Automate, When to Collaborate, When to Challenge [16.734679201317896]
性能を改善しつつ、適切な人間とAIの統合が有意義なエージェンシーを維持するかを示す。
この枠組みは、実用的で道徳的に健全な人間とAIのコラボレーションの基礎を築いた。
論文 参考訳(メタデータ) (2025-05-23T23:19:15Z) - Algorithmic Prompt Generation for Diverse Human-like Teaming and Communication with Large Language Models [14.45823275027527]
品質多様性(QD)最適化は、多様な強化学習(RL)エージェントの振る舞いを生成することができる。
我々はまず、人間-物体実験を通して、人間がこの領域で様々な協調行動とコミュニケーション行動を示すことを示す。
そして、我々の手法は、人間のチームデータからトレンドを効果的に再現し、観察できない振る舞いを捉えることができることを示す。
論文 参考訳(メタデータ) (2025-04-04T23:09:40Z) - Training a Generally Curious Agent [86.84089201249104]
PAPRIKAは,言語モデルによる一般的な意思決定機能の開発を可能にする微調整手法である。
PAPRIKAで微調整されたモデルは、学習した意思決定能力を全く見えないタスクに効果的に移行できることを示す実験結果が得られた。
これらの結果は、新しいシーケンシャルな意思決定問題を自律的に解決できるAIシステムへの有望な道のりを示唆している。
論文 参考訳(メタデータ) (2025-02-24T18:56:58Z) - The Future of Learning in the Age of Generative AI: Automated Question Generation and Assessment with Large Language Models [0.0]
大規模言語モデル(LLM)と生成AIは、自然言語処理(NLP)に革命をもたらした。
本章では,自動質問生成と回答評価におけるLLMの変容の可能性について考察する。
論文 参考訳(メタデータ) (2024-10-12T15:54:53Z) - Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - Can Foundation Models Watch, Talk and Guide You Step by Step to Make a
Cake? [62.59699229202307]
AIの進歩にもかかわらず、インタラクティブなタスクガイダンスシステムの開発は依然として大きな課題である。
我々は、人間のユーザと人間のインストラクターとの自然なインタラクションに基づいて、新しいマルチモーダルベンチマークデータセット、ウォッチ、トーク、ガイド(WTaG)を作成しました。
いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
論文 参考訳(メタデータ) (2023-11-01T15:13:49Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Improving Grounded Language Understanding in a Collaborative Environment
by Interacting with Agents Through Help Feedback [42.19685958922537]
我々は、人間とAIのコラボレーションは対話的であり、人間がAIエージェントの作業を監視し、エージェントが理解し活用できるフィードバックを提供するべきだと論じている。
本研究では, IGLUコンペティションによって定義された課題である, マイニングクラフトのような世界における対話型言語理解タスクを用いて, これらの方向を探索する。
論文 参考訳(メタデータ) (2023-04-21T05:37:59Z) - Learning Complementary Policies for Human-AI Teams [22.13683008398939]
本稿では,効果的な行動選択のための新しい人間-AI協調のための枠組みを提案する。
私たちのソリューションは、人間とAIの相補性を利用して意思決定報酬を最大化することを目的としています。
論文 参考訳(メタデータ) (2023-02-06T17:22:18Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。