論文の概要: FoREST: Frame of Reference Evaluation in Spatial Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2502.17775v1
- Date: Tue, 25 Feb 2025 02:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:41:07.983677
- Title: FoREST: Frame of Reference Evaluation in Spatial Reasoning Tasks
- Title(参考訳): FoREST:空間推論タスクにおける基準評価の枠組み
- Authors: Tanawan Premsri, Parisa Kordjamshidi,
- Abstract要約: 大規模言語モデル(LLM)におけるFoR理解を評価するために,空間推論タスクにおける参照評価フレーム(FoREST)ベンチマークを導入する。
我々は,FoRESTを用いたテキスト・ツー・イメージモデルにおいて,FoRの理解とレイアウト生成を必要とする質問に対して,LLMを評価した。
その結果,様々なLLMにおけるFORクラス間での顕著な性能差が明らかとなり,テキスト・画像生成のための正確なレイアウトを生成する能力に影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 17.901249830817882
- License:
- Abstract: Spatial reasoning is a fundamental aspect of human intelligence. One key concept in spatial cognition is the Frame of Reference (FoR), which identifies the perspective of spatial expressions. Despite its significance, FoR has received limited attention in AI models that need spatial intelligence. There is a lack of dedicated benchmarks and in-depth evaluation of large language models (LLMs) in this area. To address this issue, we introduce the Frame of Reference Evaluation in Spatial Reasoning Tasks (FoREST) benchmark, designed to assess FoR comprehension in LLMs. We evaluate LLMs on answering questions that require FoR comprehension and layout generation in text-to-image models using FoREST. Our results reveal a notable performance gap across different FoR classes in various LLMs, affecting their ability to generate accurate layouts for text-to-image generation. This highlights critical shortcomings in FoR comprehension. To improve FoR understanding, we propose Spatial-Guided prompting, which improves LLMs ability to extract essential spatial concepts. Our proposed method improves overall performance across spatial reasoning tasks.
- Abstract(参考訳): 空間的推論は人間の知性の基本的側面である。
空間認知における重要な概念の1つは参照フレーム(FoR)であり、空間表現の視点を識別する。
その重要性にもかかわらず、FoRは空間知性を必要とするAIモデルに限定的に注目されている。
この領域には専用のベンチマークや大規模言語モデル(LLM)の詳細な評価が欠けている。
この問題に対処するために、LLMにおけるFoR理解を評価するために設計された、空間推論タスク(FoREST)ベンチマークの参照評価フレームを導入する。
我々は,FoRESTを用いたテキスト・ツー・イメージモデルにおいて,FoRの理解とレイアウト生成を必要とする質問に対して,LLMを評価した。
その結果,様々なLLMにおけるFORクラス間での顕著な性能差が明らかとなり,テキスト・画像生成のための正確なレイアウトを生成する能力に影響を及ぼすことがわかった。
これはFoR理解における重大な欠点を浮き彫りにする。
FoR理解を改善するために,LLMの空間概念抽出能力を向上させるSpatial-Guided promptingを提案する。
提案手法は空間推論タスク全体の性能を向上する。
関連論文リスト
- Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。
テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T18:25:35Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - ReMI: A Dataset for Reasoning with Multiple Images [41.954830849939526]
ReMIは、大規模言語モデルが複数の画像で推論できる能力を評価するために設計されたデータセットである。
このデータセットは、数学、物理学、論理学、コード、表/チャート理解、空間的および時間的推論といった様々な推論領域にまたがる様々なタスクを含んでいる。
我々は,最先端のLDMのベンチマークを行い,その性能と人間レベルの習熟度の間に大きなギャップがあることを発見した。
論文 参考訳(メタデータ) (2024-06-13T14:37:04Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Compressing Long Context for Enhancing RAG with AMR-based Concept Distillation [17.156915103545728]
大規模言語モデル(LLM)は情報取得に大きく貢献している。
Retrieval Augmented Generation (RAG)は、外部の非パラメトリック知識を取り入れることで、この制限に対処する。
本稿では,抽象表現(AMR)に基づく概念蒸留アルゴリズムを用いた新しい概念ベースRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T00:18:43Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - SpartQA: : A Textual Question Answering Benchmark for Spatial Reasoning [10.810615375345511]
本稿では,自然言語テキストにおける空間推論のベンチマークを提案する。
ビジュアルシーンと対応するQAペアの空間的な記述を自動的に生成する文法と推論ルールを設計します。
実験により、これらの自動生成データに対する lms のさらなる事前学習は空間理解における lms の能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-04-12T21:37:18Z) - Hierarchical Deep CNN Feature Set-Based Representation Learning for
Robust Cross-Resolution Face Recognition [59.29808528182607]
クロスリゾリューション顔認識(CRFR)は、インテリジェントな監視およびバイオメトリックフォレンジックにおいて重要である。
既存の浅層学習と深層学習に基づく手法は、HR-LR対を共同特徴空間にマッピングすることに焦点を当てている。
本研究では,多レベル深層畳み込みニューラルネットワーク(CNN)の機能を完全に活用し,堅牢なCRFRを実現することを目的とする。
論文 参考訳(メタデータ) (2021-03-25T14:03:42Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。