論文の概要: STRIDE: A Self-Reflective Agent Framework for Reliable Automatic Equation Discovery
- arxiv url: http://arxiv.org/abs/2605.17790v1
- Date: Mon, 18 May 2026 03:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.696594
- Title: STRIDE: A Self-Reflective Agent Framework for Reliable Automatic Equation Discovery
- Title(参考訳): STRIDE: 信頼性の高い自動方程式発見のための自己表現型エージェントフレームワーク
- Authors: Jiarui Su, Songjun Tu, Bei Sun, Xiaojun Liang,
- Abstract要約: LLMに基づく方程式探索は、データからシンボル法則を回復するための有望な経路を提供する。
本研究では,データ・アウェア・ジェネレーション,混合適合評価,批評家・実行者修復,多様性保存セマンティックメモリの調整により信頼性を向上させる自己表現型エージェント・フレームワークSTRIDEを提案する。
- 参考スコア(独自算出の注目度): 6.0574120466674986
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLM-based equation discovery offers a promising route to recovering symbolic laws from data, but many systems still rely on generation-centered loops that propose candidates, fit parameters, score results, and reuse selected examples. Such loops can misjudge useful skeletons under unreliable fitting, discard near-correct equations that require repair, and accumulate redundant memories that provide limited guidance. We propose STRIDE, a self-reflective agent framework that improves reliability by coordinating data-aware generation, mixed-fitting evaluation, critic--executor repair, and diversity-preserving semantic memory. By turning fitted scores and candidate behavior into shared feedback, STRIDE enables equations to be proposed, assessed, refined, and reused within a closed-loop discovery process. Experiments on representative symbolic-regression benchmarks and LSR-Synth suites show that STRIDE improves accuracy, OOD robustness, and structural recovery across multiple LLM backbones, with ablations and analyses confirming the contribution of its core components.
- Abstract(参考訳): LLMに基づく方程式探索は、データからシンボル法則を回復するための有望な経路を提供するが、多くのシステムは、候補、適合パラメータ、スコア結果、選択された例の再利用を提案する生成中心ループに依存している。
このようなループは、信頼できないフィッティングの下で有用な骨格を誤認し、修理を必要とする近似正しい方程式を破棄し、限られたガイダンスを提供する冗長な記憶を蓄積する。
本稿では,データ認識生成のコーディネート,混合適合評価,批判-実行者修復,多様性保存セマンティックメモリによる信頼性向上を目的とした,自己表現型エージェントフレームワークSTRIDEを提案する。
組み合わされたスコアと候補の振る舞いを共有フィードバックにすることで、STRIDEはクローズドループ発見プロセス内で方程式を提案し、評価し、洗練し、再利用することができる。
代表的シンボル回帰ベンチマークとLSR-Synthスイートの実験により、STRIDEは複数のLSMバックボーンの精度、OOD堅牢性、構造回復を改善し、コアコンポーネントの寄与を確認した。
関連論文リスト
- Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria [17.272139541614383]
Auto-Rubric as Reward (ARR)は、暗黙の重み付け最適化から明示的な基準ベースの分解まで、報酬モデリングを再構成するフレームワークである。
ARRはVLMの選好知識をプロンプト固有の勾配として外部化し、全体論的意図を独立に検証可能な品質次元に変換する。
ARR-RPOは、テキスト・ツー・イメージ生成と画像編集のベンチマークにおいて、ペアワイズ報酬モデルとVLM判事より優れている。
論文 参考訳(メタデータ) (2026-05-08T18:05:27Z) - FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-04-14T17:04:25Z) - Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning [79.88942231770629]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を向上させるための訓練後の中心的なツールとなっている。
統一表記によるロールアウトパイプラインの形式化とGenerate-Filter-Control-Replay(GFCR)の導入
検証可能な報酬、プロセスの監督、判断に基づくゲーティング、ガイドとツリー/セグメントのロールアウト、アダプティブな計算割り当て、早期終了と部分的なロールアウト、スループット最適化、自己改善のための再生/再配置でRLにまたがる手法を合成する。
論文 参考訳(メタデータ) (2026-04-08T00:53:29Z) - Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning [47.963236269307735]
リランカはRetrieval-Augmented Generationの検索結果の精錬において重要な役割を果たす。
現在のリグレードモデルは通常、ダウンストリーム生成プロセスから切り離された静的な人間アノテートされた関連ラベルに独立して最適化される。
本稿では,LLMの生成品質と直接整合する強化学習フレームワークであるReRanking Preference Optimization(RRPO)を紹介する。
論文 参考訳(メタデータ) (2026-04-02T14:19:47Z) - Hybrid Retrieval-Augmented Generation for Robust Multilingual Document Question Answering [0.3376269351435395]
大規模なデジタル化のイニシアチブは、多くの歴史新聞を解き放った。
雑音の多い歴史文書に対する質問応答に特化して設計された多言語検索型拡張生成パイプラインを開発し,評価する。
論文 参考訳(メタデータ) (2025-12-14T13:57:05Z) - RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems [33.389969814185214]
Retrieval-Augmented Generation (RAG)は、回答の正確性と事実性を高める。
既存の評価では、RAGシステムが現実世界のノイズ、内部と外部の取得したコンテキストの衝突、あるいは急速に変化する事実にどれくらいうまく対処しているかを検査することはめったにない。
本稿では,動的で時間に敏感なコーパス上でのストレステストクエリと文書摂動を共同で行う,統一されたフレームワークと大規模ベンチマークであるRetrieval-Aware Robustness Evaluation (RARE)を紹介する。
論文 参考訳(メタデータ) (2025-06-01T02:42:36Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。