Fugu-MT 論文翻訳(概要): The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement

論文の概要: The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement

arxiv url: http://arxiv.org/abs/2306.09633v4
Date: Wed, 28 Jun 2023 17:39:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-29 17:23:20.155034
Title: The False Dawn: Reevaluating Google's Reinforcement Learning for Chip Macro Placement
Title（参考訳）: the false dawn: チップマクロ配置のためのgoogleの強化学習の再評価
Authors: Igor L. Markov
Abstract要約: Google 2021 Natureの論文で、シリコンチップの物理的設計のための強化学習は、文書化されていない主張のために論争を巻き起こした。 Natureの論文は、報告された結果を生成するのに必要なほとんどのインプットと、方法論におけるいくつかの重要なステップを支持した。しかし、2つの異なる評価がギャップを埋め、Google RLが人間のデザイナーより遅れていることを示した。
参考スコア（独自算出の注目度）: 1.6371451481715193
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Reinforcement learning (RL) for physical design of silicon chips in a Google 2021 Nature paper stirred controversy due to poorly documented claims that raised eyebrows and attracted critical media coverage. The Nature paper withheld most inputs needed to produce reported results and some critical steps in the methodology. But two separate evaluations filled in the gaps and demonstrated that Google RL lags behind human designers, behind a well-known algorithm (Simulated Annealing), and also behind generally-available commercial software. Crosschecked data indicate that the integrity of the Nature paper is substantially undermined owing to errors in the conduct, analysis and reporting.
Abstract（参考訳）: Google 2021 Natureの論文で、シリコンチップの物理的設計のための強化学習(RL)が論争を引き起こした。 nature紙は、報告された結果を生成するために必要なほとんどの入力と、方法論におけるいくつかの重要なステップを支持した。しかし、2つの異なる評価がギャップを埋め、Google RLが人間設計者より遅れており、よく知られたアルゴリズム(Simulated Annealing)、そして一般的な商用ソフトウェアよりも遅れていることを示した。クロスチェックデータによると、Nature論文の完全性は、行動、分析、報告の誤りによって著しく損なわれている。

関連論文リスト

Identity Theft in AI Conference Peer Review [50.18240135317708]
人工知能(AI)研究における科学的ピアレビュープロセスにおいて,新たに発見されたID盗難事例について論じる。論文評価の操作に不正なレビュアープロファイルを作成することにより、不正直な研究者がピアレビューシステムをどのように活用するかを詳述する。
論文参考訳（メタデータ） (2025-08-06T02:36:52Z)
Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文参考訳（メタデータ） (2025-07-17T18:33:50Z)
Reviewing Scientific Papers for Critical Problems With Reasoning LLMs: Baseline Approaches and Automatic Evaluation [0.552480439325792]
本稿では,いくつかのベースラインアプローチと,トップ推論 LLM を判断として用いた拡張可能な自動評価フレームワークを提案する。 O3は、全てのモデルで最低限のコストで、最高の問題識別性能を示した。本稿では,文書に基づく科学的理解・推論に関する知見を提供し,今後の応用の基盤となる。
論文参考訳（メタデータ） (2025-05-28T06:14:30Z)
Reproducibility and Artifact Consistency of the SIGIR 2022 Recommender Systems Papers Based on Message Passing [10.474191156751928]
我々は、SIGIR 2022と2023で発表されたグラフベースのRecommender Systemsの10の論文を分析した。分析の結果,注意を要するいくつかの重要な点が明らかになった。これらの問題により、調査・再生を試みた論文のほとんどに記載された主張を裏付けることができない。
論文参考訳（メタデータ） (2025-03-10T20:09:04Z)
Reevaluating Policy Gradient Methods for Imperfect-Information Games [94.45878689061335]
我々は,不完全情報ゲームにおけるDRLアルゴリズムの最大利用可能性比較を行う。 5600以上のトレーニング実行、FP、DO、CFRベースのアプローチは、一般的なポリシー勾配メソッドを上回りません。
論文参考訳（メタデータ） (2025-02-13T03:38:41Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design [6.383127282050037]
2020年、我々は超人的なチップレイアウトを生成する深層強化学習法を導入した。 ISPD 2023の非レビュー論文は、Natureに記載されているように、我々の方法を実行できなかったにもかかわらず、パフォーマンスに関する主張を疑問視した。われわれはこの対応を公表し、誰もこの影響のある分野での革新を誤って妨げられないようにしている。
論文参考訳（メタデータ） (2024-11-15T09:11:10Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
Autonomous LLM-driven research from data to human-verifiable research papers [0.0]
完全なステップワイズプロセスを通じてインタラクションをガイドする自動化プラットフォームを構築しています。注釈付きデータのみを提供するモードでは、データペーパーは仮説を立て、計画を立て、分析コードを書き、解釈し、結果を生成し、解釈した。我々は、トレーサビリティ、透明性、妥当性を高めながら、AIによる科学的発見の加速の可能性を示す。
論文参考訳（メタデータ） (2024-04-24T23:15:49Z)
FABLES: Evaluating faithfulness and content selection in book-length summarization [55.50680057160788]
本稿では,本書の忠実度と内容選択の大規模評価を行う。 LLMが生成した26冊のサマリーで作成した3,158冊の注釈のデータセットであるFABLESを5.2KUSDで収集する。注釈の分析によると、ほとんどの不誠実な主張は出来事や登場人物の状態に関係しており、物語を無効にするために間接的推論を必要とする。
論文参考訳（メタデータ） (2024-04-01T17:33:38Z)
Second-Order Information Matters: Revisiting Machine Unlearning for Large Language Models [1.443696537295348]
プライバシーの漏洩と著作権侵害はまだ未発見だ。我々の未学習のアルゴリズムは、データに依存しない/モデルに依存しないだけでなく、ユーティリティの保存やプライバシー保証の観点からも堅牢であることが証明されている。
論文参考訳（メタデータ） (2024-03-13T18:57:30Z)
FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文参考訳（メタデータ） (2023-10-01T17:37:31Z)
A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文参考訳（メタデータ） (2023-07-20T17:33:25Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)
A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。 2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%～30%、ハードケースでは36%～43%である。
論文参考訳（メタデータ） (2023-03-23T16:15:03Z)
Automated scholarly paper review: Concepts, technologies, and challenges [5.431798850623952]
近年、ピアレビュープロセスを支援するために人工知能(AI)が応用されている。人間の関与により、このような制限は避けられないままである。
論文参考訳（メタデータ） (2021-11-15T04:44:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。