論文の概要: The CLRS-Text Algorithmic Reasoning Language Benchmark
- arxiv url: http://arxiv.org/abs/2406.04229v1
- Date: Thu, 6 Jun 2024 16:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 13:59:57.819266
- Title: The CLRS-Text Algorithmic Reasoning Language Benchmark
- Title(参考訳): CLRS-Textアルゴリズム推論言語ベンチマーク
- Authors: Larisa Markeeva, Sean McLeish, Borja Ibarz, Wilfried Bounsi, Olga Kozlova, Alex Vitvitskyi, Charles Blundell, Tom Goldstein, Avi Schwarzschild, Petar Veličković,
- Abstract要約: CLRS-TextはCLRSベンチマークのテキストバージョンである。
CLRS-Textは、30の多様な、挑戦的なアルゴリズムタスクのためのトレースデータを手続き的に生成することができる。
このベンチマークでは、様々なLMをジェネラリストエグゼクタとして微調整し評価する。
- 参考スコア(独自算出の注目度): 48.45201665463275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eliciting reasoning capabilities from language models (LMs) is a critical direction on the path towards building intelligent systems. Most recent studies dedicated to reasoning focus on out-of-distribution performance on procedurally-generated synthetic benchmarks, bespoke-built to evaluate specific skills only. This trend makes results hard to transfer across publications, slowing down progress. Three years ago, a similar issue was identified and rectified in the field of neural algorithmic reasoning, with the advent of the CLRS benchmark. CLRS is a dataset generator comprising graph execution traces of classical algorithms from the Introduction to Algorithms textbook. Inspired by this, we propose CLRS-Text -- a textual version of these algorithmic traces. Out of the box, CLRS-Text is capable of procedurally generating trace data for thirty diverse, challenging algorithmic tasks across any desirable input distribution, while offering a standard pipeline in which any additional algorithmic tasks may be created in the benchmark. We fine-tune and evaluate various LMs as generalist executors on this benchmark, validating prior work and revealing a novel, interesting challenge for the LM reasoning community. Our code is available at https://github.com/google-deepmind/clrs/tree/master/clrs/_src/clrs_text.
- Abstract(参考訳): 言語モデル(LM)からの推論能力の排除は、インテリジェントシステム構築への道のりの重要な方向である。
近年の研究では、特定のスキルのみを評価するために、手続き的に生成した合成ベンチマークのアウト・オブ・ディストリビューション性能に焦点をあてている。
この傾向により、結果は出版物間での移動が難しくなり、進捗が遅くなる。
3年前、CLRSベンチマークの出現とともに、ニューラルアルゴリズム推論の分野で同様の問題が特定され、修正された。
CLRSは、古典的なアルゴリズムのグラフ実行トレースで構成されるデータセットジェネレータである。
これに触発されて、これらのアルゴリズムトレースのテキストバージョンであるCLRS-Textを提案する。
CLRS-Textは、望まれる任意の入力分布にまたがる、30の多様な、挑戦的なアルゴリズムタスクのトレースデータを手続き的に生成すると同時に、ベンチマークで追加のアルゴリズムタスクを作成可能な標準パイプラインを提供する。
我々は、このベンチマークにおいて、様々なLMをジェネリストエグゼクタとして微調整し、評価し、事前の作業を検証するとともに、LM推論コミュニティにとって新しい、興味深い課題を明らかにする。
私たちのコードはhttps://github.com/google-deepmind/clrs/tree/master/clrs/_src/clrs_textで利用可能です。
関連論文リスト
- From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models [63.188607839223046]
この調査は、推論中に計算をスケールするメリットに焦点を当てている。
我々はトークンレベルの生成アルゴリズム、メタジェネレーションアルゴリズム、効率的な生成という3つの領域を統一的な数学的定式化の下で探索する。
論文 参考訳(メタデータ) (2024-06-24T17:45:59Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - SALSA-CLRS: A Sparse and Scalable Benchmark for Algorithmic Reasoning [20.706469085872516]
本稿では、CLRSアルゴリズム学習ベンチマークの拡張、スケーラビリティの優先順位付け、スパース表現の利用について紹介する。
我々のアプローチには、オリジナルのCLRSベンチマークからの適応アルゴリズムが含まれており、分散およびランダム化アルゴリズムの新たな問題が導入されている。
論文 参考訳(メタデータ) (2023-09-21T16:57:09Z) - Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models [17.059322033670124]
本稿では,アルゴリズム的推論経路を通じて大規模言語モデルを促進する新しい手法を提案する。
この結果から,LLMをアルゴリズムを用いて指導すると,アルゴリズム自体よりも性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-20T22:36:23Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Momentum Decoding: Open-ended Text Generation As Graph Exploration [49.812280360794894]
自動回帰言語モデル(LM)を用いたオープンエンドテキスト生成は、自然言語処理における中核的なタスクの1つである。
我々は、新しい視点から、すなわち、有向グラフ内の探索プロセスとして、オープンエンドテキスト生成を定式化する。
本稿では,新しい復号法であるtextitmomentum decodingを提案する。
論文 参考訳(メタデータ) (2022-12-05T11:16:47Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - The CLRS Algorithmic Reasoning Benchmark [28.789225199559834]
アルゴリズムの学習表現は機械学習の新たな領域であり、ニューラルネットワークから古典的なアルゴリズムで概念をブリッジしようとしている。
本稿では,従来のアルゴリズムを包括するCLRS Algorithmic Reasoning Benchmarkを提案する。
我々のベンチマークは、ソート、探索、動的プログラミング、グラフアルゴリズム、文字列アルゴリズム、幾何アルゴリズムなど、様々なアルゴリズムの推論手順にまたがっている。
論文 参考訳(メタデータ) (2022-05-31T09:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。