論文の概要: Fast and flexible: Human program induction in abstract reasoning tasks
- arxiv url: http://arxiv.org/abs/2103.05823v1
- Date: Wed, 10 Mar 2021 02:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 15:02:20.229281
- Title: Fast and flexible: Human program induction in abstract reasoning tasks
- Title(参考訳): 高速かつ柔軟:抽象推論タスクにおけるヒューマンプログラム誘導
- Authors: Aysja Johnson, Wai Keen Vong, Brenden M. Lake, Todd M. Gureckis
- Abstract要約: ARC(1000点中40点)からタスクのサブセットを解く人間の行動研究から収集された最初の結果について報告する。
実験の結果,人間は基礎となるプログラムを推測し,新しいテスト入力例の正しいテスト出力を生成することができた。
以上の結果から,タスクの関連する特徴や特性を迅速かつ確実に決定し,正しいソリューションを作成できることが示唆された。
- 参考スコア(独自算出の注目度): 14.24200473508597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Abstraction and Reasoning Corpus (ARC) is a challenging program induction
dataset that was recently proposed by Chollet (2019). Here, we report the first
set of results collected from a behavioral study of humans solving a subset of
tasks from ARC (40 out of 1000). Although this subset of tasks contains
considerable variation, our results showed that humans were able to infer the
underlying program and generate the correct test output for a novel test input
example, with an average of 80% of tasks solved per participant, and with 65%
of tasks being solved by more than 80% of participants. Additionally, we find
interesting patterns of behavioral consistency and variability within the
action sequences during the generation process, the natural language
descriptions to describe the transformations for each task, and the errors
people made. Our findings suggest that people can quickly and reliably
determine the relevant features and properties of a task to compose a correct
solution. Future modeling work could incorporate these findings, potentially by
connecting the natural language descriptions we collected here to the
underlying semantics of ARC.
- Abstract(参考訳): Abstraction and Reasoning Corpus (ARC) は、最近 Chollet (2019) によって提案された挑戦的なプログラム誘導データセットである。
ここでは、ARC(1000人中40人)のタスクのサブセットを解決する人間の行動研究から収集された最初の結果のセットを報告します。
このタスクのサブセットにはかなりのばらつきが含まれているが,本研究では,人間は基礎となるプログラムを推測し,新しいテスト入力例に対して,平均80%のタスクが解き,65%のタスクが80%以上の参加者によって解かれるように,正しいテスト結果を生成することができた。
さらに,生成過程における行動シーケンス内における行動の一貫性と変動性の興味深いパターン,タスク毎の変換を記述する自然言語記述,人間が犯したエラーなどを見いだす。
以上の結果から,タスクの関連する特徴や特性を迅速かつ確実に決定し,正しいソリューションを作成できることが示唆された。
将来のモデリング作業では、ここで収集した自然言語記述をARCの基盤となる意味論に結びつけることで、これらの知見を取り入れることができます。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Explainable Procedural Mistake Detection [27.40806437649092]
手続き的誤り検出は、人間が手元のタスクをうまく実行したかどうかを分類する難題である。
我々は PMD を質問や回答の解説的な自己ダイアログにリキャストし、決定の証拠として機能する。
これらの結果から,オープンソースVLMは,この課題に対処する一方で,精度,コヒーレンス,ダイアログの効率を大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2024-12-16T16:13:55Z) - Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Does the Order of Fine-tuning Matter and Why? [11.975836356680855]
本研究では,複数の中間タスクの微調整とその順序がタスク性能に及ぼす影響について検討する。
実験の結果,タスクオーダリングが目標タスクのパフォーマンスに与える影響は,パフォーマンスの最大6%,パフォーマンスの最大4%であることがわかった。
論文 参考訳(メタデータ) (2024-10-03T19:07:14Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - Divergence-Based Domain Transferability for Zero-Shot Classification [78.55044112903148]
事前訓練されたニューラルネットワークモデルから学習パターンを転送することで、さまざまな言語ベースのタスクにおける効果が大幅に向上することが示されている。
中間タスクが目的タスクと十分に関係している場合、中間タスクのさらなるチューニングにより、さらなるパフォーマンス上のメリットが示される。
しかし、関連するタスクの特定方法はオープンな問題であり、効果的なタスクの組み合わせをブルートフォースで探すのは非常に高価である。
論文 参考訳(メタデータ) (2023-02-11T16:04:38Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z) - Probing the Probing Paradigm: Does Probing Accuracy Entail Task
Relevance? [27.64235687067883]
モデルが訓練されたタスクに必要のないモデルでも,言語特性の符号化を学習できることが示される。
ランダムノイズとしてデータに分散しても,これらの特性を確率レベルよりかなり上まで符号化できることを示す。
論文 参考訳(メタデータ) (2020-05-02T06:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。