論文の概要: System~2 Reasoning for Human--AI Alignment: Generality and Adaptivity via ARC-AGI
- arxiv url: http://arxiv.org/abs/2410.07866v4
- Date: Tue, 12 Aug 2025 14:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 14:32:15.864519
- Title: System~2 Reasoning for Human--AI Alignment: Generality and Adaptivity via ARC-AGI
- Title(参考訳): システム~2 ヒューマンアライメントのための推論:ARC-AGIによる一般性と適応性
- Authors: Sejin Kim, Sundong Kim,
- Abstract要約: ARC-AGIタスクのクローズギャップには、推論パイプラインとその評価の見直しが必要であると論じる。
ARC-AGIの評価スイートは, 記号的一般性, フィードバック駆動適応性, タスクレベルのロバスト性などの進捗を追跡できることを示す。
- 参考スコア(独自算出の注目度): 5.806160172544203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their broad applicability, transformer-based models still fall short in System~2 reasoning, lacking the generality and adaptivity needed for human--AI alignment. We examine weaknesses on ARC-AGI tasks, revealing gaps in compositional generalization and novel-rule adaptation, and argue that closing these gaps requires overhauling the reasoning pipeline and its evaluation. We propose three research axes: (1) Symbolic representation pipeline for compositional generality, (2) Interactive feedback-driven reasoning loop for adaptivity, and (3) Test-time task augmentation balancing both qualities. Finally, we demonstrate how ARC-AGI's evaluation suite can be adapted to track progress in symbolic generality, feedback-driven adaptivity, and task-level robustness, thereby guiding future work on robust human--AI alignment.
- Abstract(参考訳): 広く適用可能であるにもかかわらず、トランスフォーマーベースのモデルはシステム~2の推論では依然として不足しており、人間のAIアライメントに必要な汎用性と適応性が欠如している。
ARC-AGIタスクの弱点について検討し、構成一般化と新規ルール適応のギャップを明らかにし、これらのギャップを埋めるには推論パイプラインとその評価の見直しが必要であると論じる。
本研究では,(1)合成一般性のための記号表現パイプライン,(2)適応性のための対話的フィードバック駆動推論ループ,(3)両品質のバランスをとるテスト時タスク拡張という3つの研究軸を提案する。
最後に,ARC-AGIの評価スイートが,記号的汎用性,フィードバック駆動適応性,タスクレベルの堅牢性といった進歩を追跡できることを示す。
関連論文リスト
- Towards Requirements Engineering for GenAI-Enabled Software: Bridging Responsibility Gaps through Human Oversight Requirements [12.18822408018955]
生成的かつ適応的な性質は、人間の監督と責任がどのように特定され、委任され、追跡されるかを複雑にします。
本研究は,GenAI対応ソフトウェアシステムのコンテキストにおいて,これらの研究ギャップを分析することを目的とする。
論文 参考訳(メタデータ) (2025-11-17T07:14:01Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - Reasoning RAG via System 1 or System 2: A Survey on Reasoning Agentic Retrieval-Augmented Generation for Industry Challenges [6.615766570234612]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルの知識制限を克服する強力なフレームワークとして登場した。
これらの課題に対処するため、フィールドは推論エージェントRAG(Reasoning Agentic RAG)へと移行した。
論文 参考訳(メタデータ) (2025-06-12T07:01:56Z) - Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems [0.03431023404301193]
ARC-AGI-2は、前者の入出力ペアタスクフォーマットを保持し、研究者の連続性を保証する。
それは、抽象的推論と問題解決能力を評価するために特別に設計された、新しくキュレーションされ拡張された一連のタスクを含んでいる。
ARC-AGI-2は、より汎用的で人間らしいAI能力への進歩を厳格に測定するための次世代ツールとして機能することを目指している。
論文 参考訳(メタデータ) (2025-05-17T04:34:48Z) - Towards Generalized Video Quality Assessment: A Weak-to-Strong Learning Paradigm [76.63001244080313]
映像品質評価(VQA)は、人間の視覚的知覚に合わせて映像の知覚的品質を予測することを目的としている。
支配的なVQAパラダイムは、人間のラベル付きデータセットによる教師付きトレーニングに依存している。
我々は、大規模な人ラベルデータセットに頼らずにVQAを進めるための新しいパラダイムとして、弱い対強学習(W2S)を探求する。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Enabling Systematic Generalization in Abstract Spatial Reasoning through Meta-Learning for Compositionality [20.958479821810762]
構成性のためのメタラーニングのアプローチを抽象空間推論の領域に拡張する。
この結果から,メタラーニングにより学習したトランスフォーマーを用いたエンコーダ・デコーダモデルにより,既往の変換合成を体系的に一般化できることが示唆された。
論文 参考訳(メタデータ) (2025-04-02T07:56:39Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Learning the Generalizable Manipulation Skills on Soft-body Tasks via Guided Self-attention Behavior Cloning Policy [9.345203561496552]
GP2E行動クローニングポリシーは、ソフトボディタスクから汎用的な操作スキルを学ぶためのエージェントを誘導することができる。
本研究は,Embodied AIモデルの一般化能力を向上する手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-08T07:31:10Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Human-like Category Learning by Injecting Ecological Priors from Large Language Models into Neural Networks [8.213829427624407]
我々は、生態学的に合理的なメタ学習推論(ERMI)と呼ばれるモデルのクラスを開発する。
ERMIは2つの異なる実験で、人間のデータを他の7つの認知モデルより定量的に説明します。
ERMIの生態学的に有効な事前評価により,OpenML-CC18分類ベンチマークで最先端のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2024-02-02T16:32:04Z) - Improving Weak-to-Strong Generalization with Scalable Oversight and
Ensemble Learning [21.401598876308345]
本稿では,OpenAI の Wak-to-Strong Generalization (W2SG) に関する最近のスーパーアライメント研究について報告する。
Superalignmentは、複雑でリスクの高いタスクを扱う際に、ハイレベルなAIシステムが人間の価値観や意図と一貫していることを保証することに重点を置いている。
本研究は,W2SGフレームワーク下での2つのスーパーアライメントの位相をシミュレートする。
論文 参考訳(メタデータ) (2024-02-01T15:30:19Z) - Levels of AGI for Operationalizing Progress on the Path to AGI [64.59151650272477]
本稿では,人工知能(AGI)モデルとその前駆体の性能と動作を分類する枠組みを提案する。
このフレームワークは、AGIのパフォーマンス、一般性、自律性のレベルを導入し、モデルを比較し、リスクを評価し、AGIへの道筋に沿って進捗を測定する共通の言語を提供する。
論文 参考訳(メタデータ) (2023-11-04T17:44:58Z) - A Novel Neural-symbolic System under Statistical Relational Learning [50.747658038910565]
本稿では,GBPGRと呼ばれる2段階の確率的グラフィカル推論フレームワークを提案する。
GBPGRでは、シンボル推論の結果を用いて、ディープラーニングモデルによる予測を洗練し、修正する。
提案手法は高い性能を示し, 帰納的タスクと帰納的タスクの両方において効果的な一般化を示す。
論文 参考訳(メタデータ) (2023-09-16T09:15:37Z) - AR-LSAT: Investigating Analytical Reasoning of Text [57.1542673852013]
テキストの分析的推論の課題を研究し、1991年から2016年までのロースクール入学試験からの質問からなる新しいデータセットを紹介します。
我々は,この課題をうまくこなすために必要な知識理解と推論能力を分析する。
論文 参考訳(メタデータ) (2021-04-14T02:53:32Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z) - Neuro-symbolic Architectures for Context Understanding [59.899606495602406]
本稿では,データ駆動型アプローチと知識駆動型アプローチの強みを組み合わせたフレームワークとして,ハイブリッドAI手法を提案する。
具体的には、知識ベースを用いて深層ニューラルネットワークの学習過程を導く方法として、ニューロシンボリズムの概念を継承する。
論文 参考訳(メタデータ) (2020-03-09T15:04:07Z) - Neuro-evolutionary Frameworks for Generalized Learning Agents [1.2691047660244335]
近年のディープラーニングと深層強化学習の成功は、最先端の人工知能技術としての地位を確固たるものにしている。
これらのアプローチの長年の欠点は、そのようなシステムが設計され、デプロイされる方法を再考する必要性を示している。
このような神経進化の枠組みから期待される改善と関連する課題について論じる。
論文 参考訳(メタデータ) (2020-02-04T02:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。