論文の概要: Position: Ideas Should be the Center of Machine Learning Research
- arxiv url: http://arxiv.org/abs/2605.15253v1
- Date: Thu, 14 May 2026 16:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.122212
- Title: Position: Ideas Should be the Center of Machine Learning Research
- Title(参考訳): ポジション:アイデアは機械学習研究の中心であるべきだ
- Authors: Jairo Diaz-Rodriguez,
- Abstract要約: 機械学習の研究は、理解よりもメトリクスを優先するベンチマーク駆動エンジニアリングと、現代システムへの移行に失敗することが多い理想化された理論の2つの非接続モードにますます分岐している、と私たちは主張する。
我々は,現代のモデルで予測される行動シグネチャに対して,アイデアを価値付けするアイデアファーストフレームワークを提案し,これらのシグネチャは,リーダボードに勝つのではなく,関連するパターンを検出するように設計された調整された実験によってテストされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning research increasingly bifurcates into two disconnected modes: benchmark-driven engineering that prioritizes metrics over understanding, and idealized theory that often fails to transfer to modern systems. In this position paper, we argue that the field focuses too heavily on these endpoints, neglecting the central scientific object: the idea. We propose an Ideas First framework in which ideas are valued for the behavioral signatures they predict in modern models, and these signatures are tested through tailored experiments designed to detect the relevant patterns rather than to win leaderboards. This shift not only bridges the gap between theory and practice but also promotes equity by removing the "complexity premium," enabling rigorous scientific contributions from researchers with modest computational, financial, and human resources. Ultimately, we advocate for a research culture centered on ideas, treating benchmarks and theorems as instruments for testing mechanistic hypotheses rather than as ends in themselves.
- Abstract(参考訳): 機械学習の研究は、理解よりもメトリクスを優先するベンチマーク駆動エンジニアリングと、現代システムへの転送に失敗する理想的な理論という、2つの非接続モードに分岐する。
このポジションペーパーでは、フィールドはこれらのエンドポイントに重きを置いており、中心的な科学的対象であるアイデアを無視している、と論じている。
我々は,現代のモデルで予測される行動シグネチャに対して,アイデアを価値付けするアイデアファーストフレームワークを提案し,これらのシグネチャは,リーダボードに勝つのではなく,関連するパターンを検出するように設計された調整された実験によってテストされる。
このシフトは理論と実践のギャップを埋めるだけでなく、「複雑なプレミアム」を取り除き、控えめな計算、財務、人的資源を持つ研究者からの厳密な科学的貢献を可能にすることで、株式の獲得を促進する。
究極的には、我々はアイデアを中心にした研究文化を提唱し、ベンチマークと定理をそれ自体ではなく、機械的仮説をテストするための道具として扱います。
関連論文リスト
- Navigating Ideation Space: Decomposed Conceptual Representations for Positioning Scientific Ideas [35.25560221100292]
新しいアイデアは、既存の知識の絶え間なく拡大しているランドスケープの中に配置する必要がある。
現在の埋め込みアプローチは、異なる概念的側面を単一の表現に分割する。
科学的知識を3つの異なる次元に分解する構造化表現である観念空間を導入する。
論文 参考訳(メタデータ) (2026-01-13T18:56:11Z) - Deep Ideation: Designing LLM Agents to Generate Novel Research Ideas on Scientific Concept Network [9.317340414316446]
本稿では,キーワード共起関係と文脈関係をキャプチャする科学ネットワークを統合する枠組みを提案する。
現実のレビュアーのフィードバックに基づいて訓練された批評家エンジンは、アイデアの新規性と実現可能性に関する継続的なフィードバックを提供することによって、プロセスをガイドする。
当社のアプローチでは,他の手法に比べて10.67%の品質向上を実現しています。
論文 参考訳(メタデータ) (2025-11-04T04:00:20Z) - LiveIdeaBench: Evaluating LLMs' Divergent Thinking for Scientific Idea Generation with Minimal Context [13.967898012303325]
我々は,Large Language Modelsの科学的アイデア生成を評価するベンチマークであるLiveIdeaBenchを紹介する。
我々のベンチマークでは、最先端のLCMのダイナミックパネルを用いて、創発性、実現性、流布性、柔軟性、明快さの5つの重要な側面で生成されたアイデアを評価する。
我々の結果は、QwQ-32B-previewのようなモデルが、一般的な知能スコアに大きな差があるにもかかわらず、claude-3.7-sonnet:thinkingのような上位モデルのモデルに匹敵する創造的なパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-12-23T14:13:44Z) - Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems [92.89673285398521]
o1のような推論システムは、複雑な推論タスクを解く際、顕著な能力を示した。
推論モデルをトレーニングするために、模倣、探索、自己改善のフレームワークを導入します。
提案手法は,産業レベルの推論システムと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-12T16:20:36Z) - Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。
埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。
本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文 参考訳(メタデータ) (2024-06-11T18:13:46Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。