Fugu-MT 論文翻訳(概要): An Approach to Solving the Abstraction and Reasoning Corpus (ARC) Challenge

論文の概要: An Approach to Solving the Abstraction and Reasoning Corpus (ARC) Challenge

arxiv url: http://arxiv.org/abs/2306.03553v1
Date: Tue, 6 Jun 2023 10:08:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 16:03:03.641175
Title: An Approach to Solving the Abstraction and Reasoning Corpus (ARC) Challenge
Title（参考訳）: 抽象推論コーパス(ARC)の課題解決への取り組み
Authors: Tan John Chong Min
Abstract要約: GPT4プロンプトは、任意のタスクを実行するために即座にエンジニアリングされるように設計されている。我々は、ARCタスクを解くための典型的な手順とともに、テキストを介して、そのモデルにいくつかの人間の事前情報を与える。過去の記憶を生かしたマルチエージェントシステムに拡張し、Visual Question Answeringによる画像解釈ツールを装備すれば、ARCの課題の大部分を実際に解決できるかもしれないと仮定する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We utilise the power of Large Language Models (LLMs), in particular GPT4, to be prompt engineered into performing an arbitrary task. Here, we give the model some human priors via text, along with some typical procedures for solving the ARC tasks, and ask it to generate the i) broad description of the input-output relation, ii) detailed steps of the input-output mapping, iii) use the detailed steps to perform manipulation on the test input and derive the test output. The current GPT3.5/GPT4 prompt solves 2 out of 4 tested small ARC challenges (those with small grids of 8x8 and below). With tweaks to the prompt to make it more specific for the use case, it can solve more. We posit that when scaled to a multi-agent system with usage of past memory and equipped with an image interpretation tool via Visual Question Answering, we may actually be able to solve the majority of the ARC challenge
Abstract（参考訳）: 我々は、大規模言語モデル(LLM)、特にGPT4のパワーを利用して、任意のタスクの実行を迅速に行う。ここでは、ARCタスクを解くための典型的な手順とともに、テキストを介して、そのモデルに人間の事前情報を与え、生成を依頼する。一入出力関係の広範な記述二入出力マッピングの詳細な手順三詳細な手順を用いて、試験入力の操作を行い、試験出力を導出すること。現在のGPT3.5/GPT4は、試験された4つのARC課題のうち2つを解決する。ユースケースをより具体化するプロンプトを微調整することで、さらに多くの問題を解決することができる。我々は,過去の記憶を用いてマルチエージェントシステムにスケールし,視覚的質問応答による画像解釈ツールを備える場合,arcチャレンジの大部分を実際に解決できる可能性を示す。

関連論文リスト

3D-AffordanceLLM: Harnessing Large Language Models for Open-Vocabulary Affordance Detection in 3D Worlds [81.14476072159049]
3D Affordance Detectionは、様々なロボットタスクの幅広い応用において難しい問題である。我々は従来の割当検出パラダイムをテキスト推論改善(IRAS)タスクに再構成する。本研究では,3次元オープンシーンにおけるアベイランス検出のためのフレームワークである3D-ADLLMを提案する。
論文参考訳（メタデータ） (2025-02-27T12:29:44Z)
Tackling the Abstraction and Reasoning Corpus with Vision Transformers: the Importance of 2D Representation, Positions, and Objects [31.926206783846144]
視覚変換器(ViT)は、タスク毎に100万のサンプルをトレーニングしても、ほとんどのARCタスクで劇的に失敗することを示す。 ARCに必要な視覚的推論能力のいくつかを解放する,ViTARC スタイルのアーキテクチャを提案する。タスク固有のViTARCモデルは、400のパブリックARCタスクの半数以上において、100%に近い確率で解決できる。
論文参考訳（メタデータ） (2024-10-08T22:25:34Z)
Enabling robots to follow abstract instructions and complete complex dynamic tasks [4.514939211420443]
本稿では,大規模言語モデル,キュレートされた知識ベース,統合力と視覚フィードバック(IFVF)を組み合わせた新しいフレームワークを提案する。提案手法は,抽象的な命令を解釈し,長期的タスクを実行し,不確実性に対処する。私たちの発見は、付随するビデオで説明され、オープンソースのGitHubリポジトリでサポートされています。
論文参考訳（メタデータ） (2024-06-17T05:55:35Z)
Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph [0.3926357402982764]
本稿では,メカニカルエッジとセマンティックエッジを用いた3次元シーングラフ表現を構築するBBQというモジュラーアプローチを提案する。 BBQは、3Dオブジェクト中心のマップを構築するために、堅牢なDINO対応のアソシエーションを使用している。 BBQは,他のゼロショット法と比較して,オープンな3次元セマンティックセマンティックセマンティックセグメンテーションにおいて中心的な役割を担っていることを示す。
論文参考訳（メタデータ） (2024-06-11T09:57:04Z)
Large Language Model (LLM) as a System of Multiple Expert Agents: An Approach to solve the Abstraction and Reasoning Corpus (ARC) Challenge [20.802440121949072]
我々はLarge Language Models (LLMs) を用いたARCチャレンジの解決を試みる。入力画像を複数の適切なテキストベース抽象空間に変換する。次に、LLMの連想力を利用して、入出力関係を導出する。
論文参考訳（メタデータ） (2023-10-08T12:37:28Z)
Exploring Demonstration Ensembling for In-context Learning [75.35436025709049]
In-context Learning (ICL) は、与えられたタスクに対する入出力ペアの言語モデル(LM)の例を示す。 ICLの標準的なアプローチは、LMdのデモとテスト入力の促進である。本研究は,単純な結合の代替として,DENSE(Demonstration Ensembling)を探索する。
論文参考訳（メタデータ） (2023-08-17T04:45:19Z)
Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-06-04T17:02:59Z)
LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and the Importance of Object-based Representations [50.431003245201644]
GPT-4 は 1D-ARC や単純な ARC サブセットのような非言語領域で完全に「推論」できないことを示す。本稿では,外部ツールから得られるオブジェクトベース表現を提案する。これにより,解決されたARCタスクのパフォーマンスがほぼ倍増し,より簡単な1D-ARC上でのほぼ完璧なスコアが得られた。
論文参考訳（メタデータ） (2023-05-26T16:32:17Z)
Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文参考訳（メタデータ） (2022-12-08T06:03:38Z)
Instruction Tuning for Few-Shot Aspect-Based Sentiment Analysis [72.9124467710526]
生成的アプローチは、テキストから(1つ以上の)4つの要素を1つのタスクとして抽出するために提案されている。本稿では,ABSAを解くための統一的なフレームワークと,それに関連するサブタスクを提案する。
論文参考訳（メタデータ） (2022-10-12T23:38:57Z)
Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。 GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文参考訳（メタデータ） (2021-09-16T09:44:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。