論文の概要: CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms
- arxiv url: http://arxiv.org/abs/2604.10825v1
- Date: Sun, 12 Apr 2026 21:37:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.235656
- Title: CheeseBench: Evaluating Large Language Models on Rodent Behavioral Neuroscience Paradigms
- Title(参考訳): CheeseBench: 行動神経科学のパラダイムに基づく大規模言語モデルの評価
- Authors: Zacharie Bugaud,
- Abstract要約: CheeseBenchは、9つの古典的行動神経科学パラダイムに基づいて、大きな言語モデル(LLM)を評価するベンチマークである。
それぞれのタスクは、近似動物ベースラインを持つピアレビューされたロジトプロトコルに基礎を置いている。
テキストベースのASCIIレンダリングを用いて6つのオープンウェイトLCMを評価し、ランダムベースラインとグラフベースの強化学習エージェントを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CheeseBench, a benchmark that evaluates large language models (LLMs) on nine classical behavioral neuroscience paradigms (Morris water maze, Barnes maze, T-maze, radial arm maze, star maze, operant chamber, shuttle box, conditioned place preference, and delayed non-match to sample), spanning six cognitive dimensions. Each task is grounded in peer-reviewed rodent protocols with approximate animal baselines. The agent receives a unified system prompt with no task-specific instructions and must discover goals purely from ASCII text observations and reward signals, much like a rodent placed into an unfamiliar apparatus. We evaluate six open-weight LLMs (3B to 72B parameters) on text-based ASCII renderings and compare against both a random baseline and a graph-based reinforcement learning agent. Our best model (Qwen2.5-VL-7B) reaches 52.6% average success on ASCII input, compared to 32.1% for random agents and 78.9% for approximate rodent baselines. We find that (1) scaling beyond 7B yields diminishing returns, (2) longer context history degrades performance, (3) chain-of-thought prompting hurts rather than helps, and (4) a vision-language architecture provides an advantage at 7B but hurts at 32B. Because the same model's performance ranges from 20% to 57% depending on interface parameters alone, these results characterize the agent-plus-interface system, not the model in isolation. Under this unified zero-shot ASCII protocol, current open-weight LLM agents remain well below approximate rodent reference values, particularly on tasks requiring spatial navigation and within-trial state tracking.
- Abstract(参考訳): 我々は,9つの古典的行動神経科学パラダイム(モリス水迷路,バーンズ迷路,T迷路,ラジアルアーム迷路,スター迷路,手術室,シャトルボックス,条件付き場所選好,サンプルへの遅延非マッチ)に基づいて,大きな言語モデル(LLM)を評価するベンチマークであるCheeseBenchを紹介した。
それぞれのタスクは、近似動物ベースラインを持つピアレビューされたロジトプロトコルに基礎を置いている。
エージェントは、タスク固有の指示がない統一されたシステムプロンプトを受け取り、ASCIIテキストの観察と報酬信号から純粋にゴールを見つけなければならない。
テキストベースのASCIIレンダリングを用いて6つのオープンウェイトLSM(3Bから72Bパラメータ)を評価し、ランダムベースラインとグラフベースの強化学習エージェントを比較した。
我々の最良のモデル(Qwen2.5-VL-7B)は、ASCII入力で平均52.6%成功し、ランダムエージェントでは32.1%、親和性ベースラインでは78.9%となった。
その結果,(1)7Bを超えるスケーリングはリターンを減少させ,(2)長いコンテキスト履歴はパフォーマンスを低下させ,(3)チェーン・オブ・シークレットは助けではなく害を助長し,(4)視覚言語アーキテクチャは7Bに有利だが32Bに悪影響を及ぼすことがわかった。
同じモデルの性能はインターフェースパラメータだけで20%から57%の範囲であるため、これらの結果は分離されたモデルではなく、エージェント+インタフェースシステムの特徴である。
この統合されたゼロショットASCIIプロトコルの下では、現在のオープンウェイトLLMエージェントは、特に空間ナビゲーションや内的状態追跡を必要とするタスクにおいて、近似した基準値よりかなり低いままである。
関連論文リスト
- ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks [3.099103925863002]
AIネイティブな6Gシステムにおけるネットワークレベルの意味推論のためのコンパクト言語モデルのスケーリング挙動と展開効率について検討する。
我々は,Llama-3.2-1B,Granite-1B,Qwen2.5-3Bなどの中規模アーキテクチャを含む135M(SmolLM2-135M)から7Bパラメータ(Qwen2.5-7B)までのモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T18:19:49Z) - Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models [0.8552050317027305]
大規模言語モデル(LLM)における幻覚は、高レベルのデプロイメントにとって重要な障壁である。
ニューロサイエンスにインスパイアされた信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
論文 参考訳(メタデータ) (2026-01-22T05:00:21Z) - Benchmarking Small Language Models and Small Reasoning Language Models on System Log Severity Classification [3.192782465393035]
最終タスクとしてではなく,実行時ログ理解のためのベンチマークとして扱われる場合,重大度分類の方が有益である,と我々は主張する。
9つの小言語モデル (SLM) と小推論言語モデル (SRLM) をゼロショット, 少数ショット, 検索強化世代 (RAG) のプロンプトで評価した。
論文 参考訳(メタデータ) (2026-01-12T18:02:33Z) - SCISSOR: Mitigating Semantic Bias through Cluster-Aware Siamese Networks for Robust Classification [16.633948320306832]
ショートカット学習は、モデル一般化をアウト・オブ・ディストリビューションデータに損なう。
本稿では,SCISSOR(Semantic Cluster Intervention for Suppressing ShORtcut)を提案する。
コンピュータビジョンではChest-XRay,Not-MNIST,NLPタスクではGYAFC,Yelpの4つのベンチマークでSCISSORを評価した。
論文 参考訳(メタデータ) (2025-06-17T14:49:29Z) - COS(M+O)S: Curiosity and RL-Enhanced MCTS for Exploring Story Space via Language Models [0.0]
提案するCOS(M+O)Sは,オープンエンドプロット開発のためのシステム2にインスパイアされたフレームワークである。
ストーリー拡張の可能性の広大な空間を探求し、短いストーリータスクにおいて70Bモデルのプロット品質にアプローチする。
67%-77%がCOS(M+O)Sの低い値よりも高い値を示した。
論文 参考訳(メタデータ) (2025-01-28T17:44:04Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文 参考訳(メタデータ) (2024-06-07T09:15:44Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。