論文の概要: JRDB-Reasoning: A Difficulty-Graded Benchmark for Visual Reasoning in Robotics
- arxiv url: http://arxiv.org/abs/2508.10287v1
- Date: Thu, 14 Aug 2025 02:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.158402
- Title: JRDB-Reasoning: A Difficulty-Graded Benchmark for Visual Reasoning in Robotics
- Title(参考訳): JRDB-Reasoning:ロボットの視覚的推論のための難解なベンチマーク
- Authors: Simindokht Jahangard, Mehrzad Mohammadi, Yi Shen, Zhixi Cai, Hamid Rezatofighi,
- Abstract要約: 本稿では,詳細な中間アノテーションを用いて,様々な複雑さの質問をカスタマイズ可能なクエリエンジンを提案する。
我々はJRDBデータセットを人間とオブジェクトの相互作用と幾何学的関係アノテーションで拡張し、JRDB-Reasoningを作成する。
本エンジンとベンチマークにより,視覚推論フレームワークのきめ細かい評価と視覚言語モデルの動的評価が可能となった。
- 参考スコア(独自算出の注目度): 9.370502417288206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) and large language models (LLMs) have greatly enhanced visual reasoning, a key capability for embodied AI agents like robots. However, existing visual reasoning benchmarks often suffer from several limitations: they lack a clear definition of reasoning complexity, offer have no control to generate questions over varying difficulty and task customization, and fail to provide structured, step-by-step reasoning annotations (workflows). To bridge these gaps, we formalize reasoning complexity, introduce an adaptive query engine that generates customizable questions of varying complexity with detailed intermediate annotations, and extend the JRDB dataset with human-object interaction and geometric relationship annotations to create JRDB-Reasoning, a benchmark tailored for visual reasoning in human-crowded environments. Our engine and benchmark enable fine-grained evaluation of visual reasoning frameworks and dynamic assessment of visual-language models across reasoning levels.
- Abstract(参考訳): ビジョンランゲージモデル(VLM)や大規模言語モデル(LLM)の最近の進歩は、ロボットのようなAIエージェントを具現化する重要な能力である視覚推論を大幅に強化している。
しかしながら、既存の視覚的推論ベンチマークは、推論の複雑さを明確に定義していないこと、さまざまな困難やタスクのカスタマイズに関する質問を生成できないこと、構造化されたステップバイステップの推論アノテーション(ワークフロー)を提供できないこと、など、いくつかの制限に悩まされていることが多い。
これらのギャップを埋めるために、推論の複雑さを形式化し、詳細な中間アノテーションで様々な複雑さのカスタマイズ可能な質問を生成する適応クエリエンジンを導入し、人間とオブジェクトの相互作用と幾何学的関係アノテーションでJRDBデータセットを拡張し、人混み環境における視覚的推論に適したベンチマークであるJRDB-Reasoningを作成する。
我々のエンジンとベンチマークは、視覚的推論フレームワークのきめ細かい評価と、推論レベルを越えて視覚言語モデルの動的評価を可能にする。
関連論文リスト
- Multi-Turn Puzzles: Evaluating Interactive Reasoning and Strategic Dialogue in LLMs [12.176547302474528]
大きな言語モデル(LLM)は、明確で完全なステートメントで問題を解決するのに優れています。
このベンチマークは、複雑でインタラクティブなシナリオを扱う上で、現在のLLMの長所と短所に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-08-13T19:14:45Z) - VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning [10.497961559068493]
ビジュアルトランスフォーメーション推論(VTR)は、知的エージェントが動的シーンを理解するための重要な認知能力である。
既存のベンチマークは、sim-to-realギャップ、タスクの複雑さの制限、不完全な推論カバレッジに悩まされている。
VisualTransは、現実世界の人間とオブジェクトのインタラクションシナリオにおいて、VTR用に特別に設計された最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-08-06T03:07:05Z) - DSR-Bench: Evaluating the Structural Reasoning Abilities of LLMs via Data Structures [20.596558700597644]
大規模言語モデル(LLM)は、データ操作を基本とする現実世界のタスクに対して、ますます多くデプロイされている。
中心となる要件は、構造的推論(つまり、データ関係を理解し、推論する)を実行する能力である。
データ構造を通してLLMの構造的推論能力を評価する新しいベンチマークであるDSR-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T23:24:53Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。
マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-08T10:54:42Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers [54.83459025465947]
最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。
本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T20:48:47Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。