論文の概要: Talking with Oompa Loompas: A novel framework for evaluating linguistic acquisition of LLM agents
- arxiv url: http://arxiv.org/abs/2509.07389v1
- Date: Tue, 09 Sep 2025 05:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.182481
- Title: Talking with Oompa Loompas: A novel framework for evaluating linguistic acquisition of LLM agents
- Title(参考訳): Oompa Loompasと話をする: LLMエージェントの言語的獲得を評価するための新しいフレームワーク
- Authors: Sankalp Tattwadarshi Swain, Anshika Krishnatray, Dhruv Kumar, Jagat Sesh Challa,
- Abstract要約: 大規模言語モデルがパターン認識と対話的フィードバックによって言語を習得できるかどうかを評価する。
以上の結果から, LLMエージェントは100応答以内の会話の確立に失敗した。
その結果,インタラクティブなフィードバックからより効果的に学習する設計をモデル化するための評価ベンチマークとオープンパスの新たな方向性が示唆された。
- 参考スコア(独自算出の注目度): 1.2802720336459552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing evaluation studies on linguistic competence of large language models (LLM agents) have focused primarily on vocabulary learning, morphological rule induction, syntactic generalization, pragmatic inference, and cross-linguistic transfer. However, none assess whether LLM agents can acquire a language through pattern recognition and interactive feedback, a central feature of human language acquisition. We propose a novel experimental framework in which an LLM agent is evaluated on its ability to acquire and use a newly constructed language (Tinkatongue) in conversation with a bot that understands only Tinkatongue. Our findings show that LLM agents fail to establish a conversation within 100 responses, yet they adopt distinct strategies that mirror human approaches to language learning. The results suggest a new direction for evaluation benchmarks and open pathways to model designs that learn more effectively from interactive feedback.
- Abstract(参考訳): 既存の言語モデル(LLMエージェント)の言語能力に関する評価研究は、語彙学習、形態素規則誘導、構文一般化、プラグマティック推論、言語間移動に重点を置いている。
しかし、LLMエージェントがパターン認識と対話的フィードバックによって言語を習得できるかは、人間の言語習得の中心的な特徴である。
我々は,新たに構築された言語(Tinkatongue)を,Tinkatongueのみを理解可能なボットと対話する能力に基づいて,LLMエージェントを評価可能な新しい実験フレームワークを提案する。
以上の結果から, LLMエージェントは100応答以内の会話の確立に失敗するが, 言語学習への人間的アプローチを反映した戦略が採用されている。
その結果,インタラクティブなフィードバックからより効果的に学習する設計をモデル化するための,評価ベンチマークとオープンパスの新たな方向性が示唆された。
関連論文リスト
- CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [13.74065648648307]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文 参考訳(メタデータ) (2025-08-05T12:06:16Z) - The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model [59.357993924917]
本研究では,大規模言語モデル(LLM)における事前学習過程における多言語機能の進化について検討する。
本稿では,LLMが新たな言語能力を習得する過程全体を記述したBabel Tower仮説を提案する。
本論文では,多言語コードLLMのための事前学習コーパスを最適化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T08:28:57Z) - Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。
本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-17T09:45:32Z) - From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition [6.617999710257379]
本稿では,LMの能力を評価するための3段階のフレームワークを提案する。
言語研究の手法を用いて, LMの生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-17T06:31:49Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。
重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文 参考訳(メタデータ) (2023-03-02T18:59:46Z) - Communication Drives the Emergence of Language Universals in Neural
Agents: Evidence from the Word-order/Case-marking Trade-off [3.631024220680066]
ニューラルエージェント言語学習通信フレームワーク(NeLLCom)を提案する。
我々はエージェントに特定のバイアスをハードコーディングすることなく、新しいフレームワークでトレードオフを複製することに成功しました。
論文 参考訳(メタデータ) (2023-01-30T17:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。