論文の概要: Product of Experts with LLMs: Boosting Performance on ARC Is a Matter of Perspective
- arxiv url: http://arxiv.org/abs/2505.07859v2
- Date: Wed, 11 Jun 2025 15:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.673666
- Title: Product of Experts with LLMs: Boosting Performance on ARC Is a Matter of Perspective
- Title(参考訳): LLMの専門家の製品:ARCのパフォーマンス向上は視点の問題
- Authors: Daniel Franzen, Jan Disselhoff, David Hartmann,
- Abstract要約: トレーニング、生成、スコアリングフェーズを通じて、タスク固有のデータ拡張を活用します。
深度優先探索アルゴリズムを用いて多種多様な高確率候補解を生成する。
本手法はパブリックARC-AGI評価セットにおいて71.6%(286.5/400タスク)のスコアを得る。
- 参考スコア(独自算出の注目度): 3.2771631221674333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Abstraction and Reasoning Corpus (ARC-AGI) poses a significant challenge for large language models (LLMs), exposing limitations in their abstract reasoning abilities. In this work, we leverage task-specific data augmentations throughout the training, generation, and scoring phases, and employ a depth-first search algorithm to generate diverse, high-probability candidate solutions. Furthermore, we utilize the LLM not only as a generator but also as a scorer, using its output probabilities to select the most promising solutions. Our method achieves a score of 71.6% (286.5/400 solved tasks) on the public ARC-AGI evaluation set, demonstrating state-of-the-art performance among publicly available approaches. While concurrent closed-source work has reported higher scores, our method distinguishes itself through its transparency, reproducibility, and remarkably low inference cost, averaging only around 2ct per task on readily available hardware (we assume a price of 36ct/hour for a Nvidia 4090 GPU).
- Abstract(参考訳): ARC-AGI(Abstraction and Reasoning Corpus)は、大規模言語モデル(LLM)において重要な課題であり、その抽象推論能力の限界を明らかにする。
本研究では,学習,生成,採点フェーズを通じてタスク固有のデータ拡張を活用し,深度優先探索アルゴリズムを用いて多種多様な高確率候補解を生成する。
さらに, LLM をジェネレータとしてだけでなく, スコア器としても利用し, その出力確率を用いて最も有望な解を選択する。
提案手法は、ARC-AGI評価セットの71.6%(286.5/400タスク)のスコアを達成し、公開可能なアプローチの最先端性能を実証する。
コンカレントクローズソース作業では高いスコアが報告されているが、当社の手法は透明性、再現性、および極めて低い推論コストを通じて自分自身を区別し、利用可能なハードウェア上では、タスクあたり平均で21%しか処理できない(Nvidia 4090 GPUでは36ct/hourと仮定する)。
関連論文リスト
- EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。
我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。
我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文 参考訳(メタデータ) (2025-02-11T02:31:11Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - H-ARC: A Robust Estimate of Human Performance on the Abstraction and Reasoning Corpus Benchmark [7.840781070208872]
2019年以降、既存の人工知能手法による課題について、限られた進展が観察されている。
これまでの研究は、ARCベンチマークで人間がいかにうまくタスクを解くことができるかを調査した。
我々は,400のトレーニングと400のタスクの完全なセットに基づいて1729人の人間を評価することによって,より堅牢な人的パフォーマンスの推定値を得る。
論文 参考訳(メタデータ) (2024-09-02T17:11:32Z) - Efficient Budget Allocation for Large-Scale LLM-Enabled Virtual Screening [0.9558392439655016]
そこで我々は,LLM-as- human-evaluatorアプローチによるスクリーニングを事実上実施し,コスト負担を低減した。
我々は,トップ$m$greedy評価機構を用いて,探索ファーストの上位$m$greedy (EFG-$m$) アルゴリズムを設計する。
驚いたことに、我々はボーナスランキング効果を発見し、アルゴリズムは選択されたサブセット内で、自然に無関心なランキングを誘導する。
論文 参考訳(メタデータ) (2024-08-18T16:44:41Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Searching Large Neighborhoods for Integer Linear Programs with
Contrastive Learning [39.40838358438744]
線形プログラム(ILP)は、多数の最適化問題のモデリングと解決のための強力なツールである。
アルゴリズムとしてLarge Neighborhood Search (LNS)は、ブランチやバウンドよりも高速に、ILPの高品質なソリューションを見つけることができる。
本稿では,メトリクスによって測定された複数のILPベンチマークに対して,最先端のリアルタイム性能を実現する新しいアプローチCL-LNSを提案する。
論文 参考訳(メタデータ) (2023-02-03T07:15:37Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。