論文の概要: Multi-Perspective Transformers in ARC-AGI-2 Challenge
- arxiv url: http://arxiv.org/abs/2605.01154v1
- Date: Fri, 01 May 2026 23:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.613414
- Title: Multi-Perspective Transformers in ARC-AGI-2 Challenge
- Title(参考訳): ARC-AGI-2チャレンジにおけるマルチパースペクティブトランス
- Authors: Caleb Talley, Vedant Tibrewal, Seun Adekunle, Weiwen Dong, Xinyu Wu, Fariha Sheikh,
- Abstract要約: ARC-AGI-2パズルをTinyLMで解くためのアプローチについて議論する。
本モデルでは,トレーニングセットの96.1%の精度,評価セットの21.7%の精度を実現している。
- 参考スコア(独自算出の注目度): 6.31003460296355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ARC-AGI-2 is a benchmark of human-intuitive visual puzzles that measures a machine's ability to generalize from limited examples, interpret symbolic meaning, and flexibly apply rules in varying contexts. In this paper, we discuss our approach to solving the ARC-AGI-2 puzzles with TinyLM, with additional fine-tuning at test time, including Test-Time-Training (TTT) and Products of Experts (POE). Our model achieves 96.1% accuracy on the training set and 21.7% accuracy on the evaluation set.
- Abstract(参考訳): ARC-AGI-2は、限られた例から機械の一般化能力を測定し、記号の意味を解釈し、様々な文脈で規則を柔軟に適用する人間の直感的な視覚パズルのベンチマークである。
本稿では,テストタイム・トレーニング(TTT)やプロダクト・オブ・エキスパート(POE)など,テスト時に微調整を加えることでARC-AGI-2パズルをTinyLMで解くアプローチについて議論する。
本モデルでは,トレーニングセットの96.1%の精度,評価セットの21.7%の精度を実現している。
関連論文リスト
- ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence [0.0]
ARC-AGI-3は、新しい抽象的なターンベースの環境を通じてエージェントインテリジェンスを研究するためのインタラクティブなベンチマークである。
本稿では,ヒトの行動ベースラインを基盤としたベンチマーク設計,効率に基づく評価フレームワーク,環境の構築,検証,校正に使用される方法論について述べる。
論文 参考訳(メタデータ) (2026-03-24T21:58:16Z) - WISE: Weighted Iterative Society-of-Experts for Robust Multimodal Multi-Agent Debate [31.549907845278327]
マルチエージェントの議論(MAD)は、これらの強みを堅牢な推論に活用するための一般的な方法として現れている。
本稿では,単一・多モード機能を持つ異種専門家による議論プロトコルの一般化を図っている。
WISEは最先端のMADセットアップやアグリゲーション手法よりも精度を2-7%向上することを示す。
論文 参考訳(メタデータ) (2025-12-02T04:31:52Z) - VideoTG-R1: Boosting Video Temporal Grounding via Curriculum Reinforcement Learning on Reflected Boundary Annotations [59.40631942092535]
ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、ビデオ内の正確なセグメントを特定することを目的としている。
最近のMLLM(Multimodal Large Language Models)は、強化学習(RL)を通してVTGに取り組むことを約束している。
本稿では,境界アノテーションを反映した新しいカリキュラムRLフレームワークであるVideoTG-R1を提案する。
論文 参考訳(メタデータ) (2025-10-27T14:55:38Z) - Task-Specific Dual-Model Framework for Comprehensive Traffic Safety Video Description and Analysis [7.392659193819963]
交通安全分析は複雑な映像理解を必要とし、行動パターンを捉え、事故防止のための記述を生成する。
本稿では,タスク固有の最適化を通じて,VideoLLaMAとQwen2.5-VLの相補的強みを戦略的に活用する,ユニークなデュアルモデルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T20:18:23Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - SINAI at eRisk@CLEF 2023: Approaching Early Detection of Gambling with Natural Language Processing [3.987649624343527]
本稿では,eRisk@CLEFラボにおけるSINAIチームの参加について述べる。
提案課題の1つは,病的なギャンブルの兆候を早期に検出するタスク2である。
Task 2で提示されるアプローチは、Transformersアーキテクチャからトレーニング済みのモデルに基づいており、包括的な事前処理データとデータバランシング技術がある。
論文 参考訳(メタデータ) (2025-09-18T09:50:14Z) - ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems [0.03431023404301193]
ARC-AGI-2は、前者の入出力ペアタスクフォーマットを保持し、研究者の連続性を保証する。
それは、抽象的推論と問題解決能力を評価するために特別に設計された、新しくキュレーションされ拡張された一連のタスクを含んでいる。
ARC-AGI-2は、より汎用的で人間らしいAI能力への進歩を厳格に測定するための次世代ツールとして機能することを目指している。
論文 参考訳(メタデータ) (2025-05-17T04:34:48Z) - Q-Adapt: Adapting LMM for Visual Quality Assessment with Progressive Instruction Tuning [49.07442840323135]
そこで本研究では,Q-Adaptという,知覚指向型命令チューニングのための新しいパラダイムを提案する。
提案したQ-Adaptは、軽量な視覚的品質評価器を実現し、同等の性能を示す。
論文 参考訳(メタデータ) (2025-04-02T12:02:57Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - NTIRE 2021 Multi-modal Aerial View Object Classification Challenge [88.89190054948325]
CVPR の NTIRE 2021 ワークショップと共同で,MAVOC (Multi-modal Aerial View Object Classification) の最初の挑戦を紹介した。
この課題は、EOとSAR画像を用いた2つの異なるトラックで構成されている。
本コンペティションで提案した最上位の手法について検討し,その成果を目視テストセットで評価する。
論文 参考訳(メタデータ) (2021-07-02T16:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。