論文の概要: ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models
- arxiv url: http://arxiv.org/abs/2603.19515v1
- Date: Thu, 19 Mar 2026 22:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.912655
- Title: ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models
- Title(参考訳): ItinBench: 大規模言語モデルによる複数の認知次元のベンチマーク計画
- Authors: Tianlong Wang, Pinqiao Wang, Weili Shi, Sheng li,
- Abstract要約: 高度な認知能力を持つ大規模言語モデル(LLM)は、様々な推論や計画タスクのエージェントとして登場している。
近年,様々な言語推論タスクを現実世界の文脈に組み込むメディアとして旅行計画が検討されている。
経路最適化という空間的推論の1つのタスクをトリップ反復計画に組み込んだベンチマークであるItinBenchを紹介した。
- 参考スコア(独自算出の注目度): 8.453056552142447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) with advanced cognitive capabilities are emerging as agents for various reasoning and planning tasks. Traditional evaluations often focus on specific reasoning or planning questions within controlled environments. Recent studies have explored travel planning as a medium to integrate various verbal reasoning tasks into real-world contexts. However, reasoning tasks extend beyond verbal reasoning alone, and a comprehensive evaluation of LLMs requires a testbed that incorporates tasks from multiple cognitive domains. To address this gap, we introduce ItinBench, a benchmark that features one task of spatial reasoning, i.e., route optimization, into trip itinerary planning while keeping the traditional verbal reasoning tasks. ItinBench evaluates various LLMs across diverse tasks simultaneously, including Llama 3.1 8B, Mistral Large, Gemini 1.5 Pro, and GPT family. Our findings reveal that LLMs struggle to maintain high and consistent performance when concurrently handling multiple cognitive dimensions. By incorporating tasks from distinct human-level cognitive domains, ItinBench provides new insights into building more comprehensive reasoning testbeds that better reflect real-world challenges. The code and dataset: https://ethanwtl.github.io/IBweb/
- Abstract(参考訳): 高度な認知能力を持つ大規模言語モデル(LLM)は、様々な推論や計画タスクのエージェントとして登場している。
従来の評価は、制御された環境内の特定の推論や計画的な問題に焦点を当てることが多い。
近年,様々な言語推論タスクを現実世界の文脈に組み込むメディアとして旅行計画が検討されている。
しかし、推論タスクは言語的推論だけでなく、LLMの包括的な評価には、複数の認知領域からのタスクを組み込んだテストベッドが必要である。
このギャップに対処するため,従来の言語推論タスクを維持しつつ,経路最適化という空間推論の1つのタスクを旅行計画に導入するベンチマークであるItinBenchを紹介した。
ItinBenchは、Llama 3.1 8B、Mistral Large、Gemini 1.5 Pro、GPTファミリなど、様々なタスクを同時に評価している。
その結果,複数の認知的次元を同時に扱う場合,LLMは高い,一貫した性能を維持するのに苦慮していることがわかった。
ItinBenchは、異なる人間レベルの認知ドメインからのタスクを取り入れることで、現実世界の課題を反映したより包括的な推論テストベッドを構築するための、新たな洞察を提供する。
コードとデータセット:https://ethanwtl.github.io/IBweb/
関連論文リスト
- Robobench: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models as Embodied Brain [62.01012517796797]
動的で非構造的な環境で知覚、理性、行動できるロボットを構築することは、依然として中核的な課題である。
システム2は高レベルの推論を処理し、システム1は低レベルの制御を実行する。
本稿では,マルチモーダル大言語モデル(MLLM)を具体的脳として体系的に評価するベンチマークであるRoboBenchを紹介する。
論文 参考訳(メタデータ) (2025-10-20T17:59:03Z) - What to Ask Next? Probing the Imaginative Reasoning of LLMs with TurtleSoup Puzzles [26.90890466164784]
TurtleSoup-Benchは、想像的推論のための、最初の大規模、バイリンガル、インタラクティブなベンチマークである。
また,この環境下でのLLMの性能を評価するための新しいエージェントであるMosaic-Agentを提案する。
論文 参考訳(メタデータ) (2025-08-14T05:55:42Z) - From Passive to Active Reasoning: Can Large Language Models Ask the Right Questions under Incomplete Information? [34.959850282872594]
LLMのアクティブな推論能力を評価するために設計された新しいベンチマークであるAR-Benchを提案する。
AR-Benchは3つのタスクファミリー検出ケース、状況パズル、推測数で構成される。
AR-ベンチに関する実証的な評価は、現代のLDMは活発な推論を伴う困難を顕著に示していることを示している。
論文 参考訳(メタデータ) (2025-06-09T23:56:41Z) - MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning? [21.638848019633595]
我々は、パターン認識のための最初のマルチショットインコンテキスト推論ベンチマークであるMIR-Benchを提案する。
テキスト内推論における多くの新しい問題について検討し,多くの知見を得た。
論文 参考訳(メタデータ) (2025-02-14T06:05:12Z) - EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios [53.26658545922884]
EgoPlan-Bench2は,MLLMの計画能力を評価するためのベンチマークである。
我々は,21の競争的MLLMを評価し,その限界を詳細に分析した結果,実世界の計画において大きな課題に直面していることが明らかとなった。
EgoPlan-Bench2におけるGPT-4Vの10.24倍の性能向上を図る。
論文 参考訳(メタデータ) (2024-12-05T18:57:23Z) - Multi-Step Reasoning with Large Language Models, a Survey [8.647697652065718]
本稿では,大規模言語モデル(LLM)を用いた多段階推論の分野を概観する。
本稿では,多段階推論の生成,評価,制御の異なる方法を特定する分類法を提案する。
論理学、ゲーム、ロボット工学の課題を解くのに成功している。
論文 参考訳(メタデータ) (2024-07-16T08:49:35Z) - Reasoning in Conversation: Solving Subjective Tasks through Dialogue
Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。
RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。
GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文 参考訳(メタデータ) (2024-02-27T05:37:10Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。