論文の概要: GIFARC: Synthetic Dataset for Leveraging Human-Intuitive Analogies to Elevate AI Reasoning
- arxiv url: http://arxiv.org/abs/2505.20672v1
- Date: Tue, 27 May 2025 03:42:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.385046
- Title: GIFARC: Synthetic Dataset for Leveraging Human-Intuitive Analogies to Elevate AI Reasoning
- Title(参考訳): GIFARC:AI推論を高めるための人間直感的アナロジーを活用するための合成データセット
- Authors: Woochang Sim, Hyunseok Ryu, Kyungmin Choi, Sungwon Han, Sundong Kim,
- Abstract要約: 最先端モデルは2024年のARCコンペティションで40-55%の精度しか達成していない。
本稿では、類似に着想を得たARCデータセットGIFARCを紹介する。
GIFARCは、ブルートフォースパターン検索に参加する前に、AIエージェントがタスクを類似的に評価するように誘導する。
- 参考スコア(独自算出の注目度): 7.09254962218677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Abstraction and Reasoning Corpus (ARC) poses a stringent test of general AI capabilities, requiring solvers to infer abstract patterns from only a handful of examples. Despite substantial progress in deep learning, state-of-the-art models still achieve accuracy rates of merely 40-55% on 2024 ARC Competition, indicative of a significant gap between their performance and human-level reasoning. In this work, we seek to bridge that gap by introducing an analogy-inspired ARC dataset, GIFARC. Leveraging large language models (LLMs) and vision-language models (VLMs), we synthesize new ARC-style tasks from a variety of GIF images that include analogies. Each new task is paired with ground-truth analogy, providing an explicit mapping between visual transformations and everyday concepts. By embedding robust human-intuitive analogies into ARC-style tasks, GIFARC guides AI agents to evaluate the task analogically before engaging in brute-force pattern search, thus efficiently reducing problem complexity and build a more concise and human-understandable solution. We empirically validate that guiding LLM with analogic approach with GIFARC affects task-solving approaches of LLMs to align with analogic approach of human.
- Abstract(参考訳): Abstraction and Reasoning Corpus(ARC)は、一般的なAI能力の厳密なテストを行う。
ディープラーニングの大幅な進歩にもかかわらず、最先端のモデルは2024年のARCコンペティションで40-55%の精度しか達成していない。
本研究では,類似のARCデータセットであるGIFARCを導入して,そのギャップを埋めようとしている。
大規模言語モデル (LLMs) と視覚言語モデル (VLMs) を利用して, 類似画像を含む様々なGIF画像からARCスタイルのタスクを合成する。
それぞれの新しいタスクは、視覚的変換と日常的な概念を明確にマッピングする、地道的なアナロジーと組み合わせられる。
堅牢な人間の直感的なアナロジーをARCスタイルのタスクに埋め込むことによって、GIFARCはAIエージェントに、ブルートフォースパターンサーチに携わる前に、そのタスクを類似的に評価するように誘導する。
GIFARC と類似したアプローチで LLM を導くことは,LLM の課題解決アプローチに影響を及ぼし,人間の類似的なアプローチと一致することを実証的に検証する。
関連論文リスト
- VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Tackling the Abstraction and Reasoning Corpus with Vision Transformers: the Importance of 2D Representation, Positions, and Objects [31.926206783846144]
視覚変換器(ViT)は、タスク毎に100万のサンプルをトレーニングしても、ほとんどのARCタスクで劇的に失敗することを示す。
ARCに必要な視覚的推論能力のいくつかを解放する,ViTARC スタイルのアーキテクチャを提案する。
タスク固有のViTARCモデルは、400のパブリックARCタスクの半数以上において、100%に近い確率で解決できる。
論文 参考訳(メタデータ) (2024-10-08T22:25:34Z) - DiffuSyn Bench: Evaluating Vision-Language Models on Real-World Complexities with Diffusion-Generated Synthetic Benchmarks [0.0]
本研究では,AI生成画像と人間生成画像とを区別するLVLM(Large Vision-Language Models)の能力を評価する。
この評価のための新しい自動ベンチマーク構築手法を導入する。
論文 参考訳(メタデータ) (2024-06-06T19:50:33Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and
the Importance of Object-based Representations [50.431003245201644]
GPT-4 は 1D-ARC や単純な ARC サブセットのような非言語領域で完全に「推論」できないことを示す。
本稿では,外部ツールから得られるオブジェクトベース表現を提案する。これにより,解決されたARCタスクのパフォーマンスがほぼ倍増し,より簡単な1D-ARC上でのほぼ完璧なスコアが得られた。
論文 参考訳(メタデータ) (2023-05-26T16:32:17Z) - Solving morphological analogies: from retrieval to generation [4.834203844100681]
分析推論は人間の推論の能力であり、難解な推論タスクの解決に用いられてきた。
本稿では,ARにおける2つの重要な課題である類似検出と解決に対処し,対処するためのディープラーニング(DL)フレームワークを提案する。
このフレームワークは、単語間の形態的類似比(APs)のSiganalogiesデータセットで徹底的にテストされ、多くの言語においてシンボル的アプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-30T12:36:46Z) - Abstract Visual Reasoning Enabled by Language [8.627180519837657]
ARCを解くための一般学習型フレームワークを提案する。
タスクをビジョンから言語領域に変換することに集中しています。
言語と視覚のこの構成により、各段階で事前訓練されたモデルを利用することができる。
論文 参考訳(メタデータ) (2023-03-07T17:52:46Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。