論文の概要: What is Reproducibility in Artificial Intelligence and Machine Learning Research?
- arxiv url: http://arxiv.org/abs/2407.10239v1
- Date: Mon, 29 Apr 2024 18:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-22 12:59:07.453039
- Title: What is Reproducibility in Artificial Intelligence and Machine Learning Research?
- Title(参考訳): 人工知能と機械学習研究における再現性とは何か
- Authors: Abhyuday Desai, Mohamed Abdelhamid, Nakul R. Padalkar,
- Abstract要約: 重要な検証作業の役割と定義を明らかにするための検証フレームワークを導入する。
この構造化フレームワークは、AI/ML研究者にこれらの本質的な概念を明確化することを目的としている。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the rapidly evolving fields of Artificial Intelligence (AI) and Machine Learning (ML), the reproducibility crisis underscores the urgent need for clear validation methodologies to maintain scientific integrity and encourage advancement. The crisis is compounded by the prevalent confusion over validation terminology. Responding to this challenge, we introduce a validation framework that clarifies the roles and definitions of key validation efforts: repeatability, dependent and independent reproducibility, and direct and conceptual replicability. This structured framework aims to provide AI/ML researchers with the necessary clarity on these essential concepts, facilitating the appropriate design, conduct, and interpretation of validation studies. By articulating the nuances and specific roles of each type of validation study, we hope to contribute to a more informed and methodical approach to addressing the challenges of reproducibility, thereby supporting the community's efforts to enhance the reliability and trustworthiness of its research findings.
- Abstract(参考訳): 人工知能(AI)と機械学習(ML)の急速に発展する分野において、再現性危機は、科学的完全性を維持し、進歩を促進するために明確な検証方法が緊急に必要であることを示している。
この危機は、検証用語に関する一般的な混乱によって複雑化している。
この課題に対応して,再現性,依存的かつ独立的な再現性,直接的かつ概念的再現性といった,重要な検証作業の役割と定義を明確にする検証フレームワークを導入する。
この構造化されたフレームワークは、AI/ML研究者にこれらの不可欠な概念を明確化し、適切な設計、実行、検証研究の解釈を促進することを目的としている。
それぞれの検証研究のニュアンスや特定の役割を明確にすることで、再現性の問題に対処するためのより情報的かつ方法論的なアプローチに貢献し、研究成果の信頼性と信頼性を高めるためのコミュニティの取り組みを支援したいと考えています。
関連論文リスト
- A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,5つのコアパラダイムにまたがるPoLMの進化を体系的に追跡する,最初の包括的調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。
本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。
我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文 参考訳(メタデータ) (2025-02-25T03:40:36Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Autotelic Reinforcement Learning: Exploring Intrinsic Motivations for Skill Acquisition in Open-Ended Environments [1.104960878651584]
本稿では, 自己強化学習(RL)の概要を概観し, スキルレパートリーのオープンエンド形成における本質的モチベーションの役割を強調した。
知識ベースと能力ベースの本質的なモチベーションの区別を明確にし、これらの概念が自己定義目標を生成・追求できる自律エージェントの開発にどのように役立つかを説明する。
論文 参考訳(メタデータ) (2025-02-06T14:37:46Z) - Generative AI in Health Economics and Outcomes Research: A Taxonomy of Key Definitions and Emerging Applications, an ISPOR Working Group Report [12.204470166456561]
ジェネレーティブAIは、健康経済学と成果研究(HEOR)において大きな可能性を秘めている
生成AIは、HEORに大きな可能性を示し、効率性、生産性を高め、複雑な課題に対する新しいソリューションを提供する。
ファウンデーションモデルは複雑なタスクを自動化する上で有望だが、科学的信頼性、バイアス、解釈可能性、ワークフローの統合には課題が残っている。
論文 参考訳(メタデータ) (2024-10-26T15:42:50Z) - Reproducibility study of "LICO: Explainable Models with Language-Image Consistency" [0.5825410941577593]
本稿では, Lei et al. (2023) が提案手法であるlicOについて, ポストホック解釈可能性の向上のために行った主張について検討する。
licOは,解釈可能性の定量的・定性的な尺度の分類性能の向上や改善に一貫して寄与しているとは見出されていない。
論文 参考訳(メタデータ) (2024-10-17T19:41:34Z) - StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。
本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。
実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (2024-10-11T13:52:44Z) - GIVE: Structured Reasoning with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを統合する新しい推論フレームワークである。
本手法は,ゴールド回答検索ではなく,専門家の問題解決に類似した論理的・段階的推論手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - The Role of Deductive and Inductive Reasoning in Large Language Models [35.43513487137371]
大規模言語モデル(LLM)は人工知能、特に推論タスクにおいて大きな進歩を遂げている。
本稿では, 帰納的推論と帰納的推論を動的に統合することにより, LLM推論を強化するDID法を提案する。
以上の結果から,DIDはLLMにおける推論のための,より堅牢で認知に整合した枠組みを提供する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-03T18:30:47Z) - Cooperative Resilience in Artificial Intelligence Multiagent Systems [2.0608564715600273]
本稿では, 協調レジリエンスの明確な定義とその定量化手法を提案する。
その結果は、集団システムが破壊に直面してどのように準備し、抵抗し、回復し、幸福を維持し、変革するかを分析する上で、レジリエンス指標の重要な役割を強調している。
論文 参考訳(メタデータ) (2024-09-20T03:28:48Z) - Identifiable Exchangeable Mechanisms for Causal Structure and Representation Learning [54.69189620971405]
IEM(Identible Exchangeable Mechanisms)と呼ばれる,表現と構造学習のための統合フレームワークを提供する。
IEMは、交換可能な非i.d.データにおける因果構造同定に必要な条件を緩和する新しい洞察を提供する。
また、認識可能な表現学習における双対性条件の存在を実証し、新たな識別可能性結果をもたらす。
論文 参考訳(メタデータ) (2024-06-20T13:30:25Z) - Self-Distilled Disentangled Learning for Counterfactual Prediction [49.84163147971955]
我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。
情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。
人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2024-06-09T16:58:19Z) - From Model Performance to Claim: How a Change of Focus in Machine Learning Replicability Can Help Bridge the Responsibility Gap [0.0]
2つの目標 - 機械学習研究の複製性と説明責任の改善。
本稿では,複製可能性の再構築がギャップを埋める助けとなることを示唆する。
論文 参考訳(メタデータ) (2024-04-19T18:36:14Z) - A Comprehensive Survey of Continual Learning: Theory, Method and
Application [64.23253420555989]
本稿では,基礎的設定,理論的基礎,代表的方法,実践的応用を橋渡しする継続的学習に関する包括的調査を行う。
連続学習の一般的な目的は、資源効率の文脈において、適切な安定性と塑性のトレードオフと適切なタスク内/タスク内一般化性を保証することであると要約する。
論文 参考訳(メタデータ) (2023-01-31T11:34:56Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。