論文の概要: METIS: Mentoring Engine for Thoughtful Inquiry & Solutions
- arxiv url: http://arxiv.org/abs/2601.13075v1
- Date: Mon, 19 Jan 2026 14:10:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.920686
- Title: METIS: Mentoring Engine for Thoughtful Inquiry & Solutions
- Title(参考訳): METIS:Thoughtful Inquiry & Solutionsのためのメンタリングエンジン
- Authors: Abhinav Rajeev Kumar, Dhruv Trehan, Paras Chopra,
- Abstract要約: METISは,文芸検索機能を備えたツール拡張型ステージ認識アシスタントである。
GPT-5 と Claude Sonnet 4.5 に対する METIS の評価を行った。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many students lack access to expert research mentorship. We ask whether an AI mentor can move undergraduates from an idea to a paper. We build METIS, a tool-augmented, stage-aware assistant with literature search, curated guidelines, methodology checks, and memory. We evaluate METIS against GPT-5 and Claude Sonnet 4.5 across six writing stages using LLM-as-a-judge pairwise preferences, student-persona rubrics, short multi-turn tutoring, and evidence/compliance checks. On 90 single-turn prompts, LLM judges preferred METIS to Claude Sonnet 4.5 in 71% and to GPT-5 in 54%. Student scores (clarity/actionability/constraint-fit; 90 prompts x 3 judges) are higher across stages. In multi-turn sessions (five scenarios/agent), METIS yields slightly higher final quality than GPT-5. Gains concentrate in document-grounded stages (D-F), consistent with stage-aware routing and groundings failure modes include premature tool routing, shallow grounding, and occasional stage misclassification.
- Abstract(参考訳): 多くの学生は専門的な研究メンターシップにアクセスできない。
AIのメンターが大学生をアイデアから論文に移行できるかどうかを問う。
METISは、文学検索、キュレートされたガイドライン、方法論チェック、メモリを備えた、ツール強化されたステージ認識アシスタントである。
GPT-5 と Claude Sonnet 4.5 に対する METIS の評価には,LLM-as-a-judge の相互選好,学生向けルーリック,ショートマルチターンチューリング,エビデンス/コンプライアンスチェックを併用した。
90回のシングルターンプロンプトでは、LCM判事はMeTISをクロード・ソネット4.5の71%、GPT-5の54%に好んだ。
学生スコア(明快さ/行動可能性/制約適合性、90プロンプト×3審査員)はステージによって高い。
マルチターンセッション(5つのシナリオ/エージェント)では、METISはGPT-5よりも若干高い最終品質が得られる。
文書化ステージ(D-F)に集中し、ステージ認識のルーティングとグラウンディングの障害モードには、早めのツールルーティング、浅いグラウンド、時にはステージの誤分類が含まれる。
関連論文リスト
- Grading Handwritten Engineering Exams with Multimodal Large Language Models [0.0]
手書きのSTEM試験は、オープンエンドの推論と図をキャプチャするが、手動のグラデーションは遅く、スケールが難しい。
マルチモーダル大言語モデル(LLM)を用いた手書き手書き工学クイズを段階的に学習するためのエンドツーエンドワークフローを提案する。
講師は手書きの参照ソリューション(100%)と短時間のグルーピングルールのみを提供し、基準スキャンを露出することなく、条件がグルーピングされるテキストのみの要約に変換する。
論文 参考訳(メタデータ) (2026-01-02T16:10:08Z) - OpenAI GPT-5 System Card [247.27796140570612]
GPT-5は、多くの質問に答えるスマートで高速なモデルを備えた統一システムである。
リアルタイムルータは、会話タイプ、複雑さ、ツールニーズ、明示的な意図に基づいて使用するモデルを決定する。
利用制限に達すると、各モデルのミニバージョンが残りのクエリを処理する。
論文 参考訳(メタデータ) (2025-12-19T07:05:38Z) - Scaling Item-to-Standard Alignment with Large Language Models: Accuracy, Limits, and Solutions [0.0]
従来の人間のアライメントレビューは正確だが、遅く、労働集約的である。
本研究では,Large Language Models (LLM) が精度を犠牲にすることなく,このプロセスを加速できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-24T22:12:23Z) - ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding [49.67493845115009]
ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。
難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。
実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-10-12T11:11:20Z) - AISysRev -- LLM-based Tool for Title-abstract Screening [0.7758046038799246]
AiSysRevは、書類をスクリーニングするためのDockerコンテナで動作するWebアプリケーションである。
紙のタイトルと要約を含むCSVファイルを受け取る。
ユーザーはインクルージョンと除外の基準を指定する。
ゼロショットと少数ショットの両方をサポートする。
論文 参考訳(メタデータ) (2025-10-08T06:59:23Z) - Artificial-Intelligence Grading Assistance for Handwritten Components of a Calculus Exam [41.99844472131922]
大規模な1年間の試験では、生徒の手書き作業は、教師助手(TA)が使用するのと同じルーリックに対して、GPT-5で評価された。
我々は,AIスコアとモデル予測スコアとの偏差に基づいて,部分クレディットしきい値と項目応答理論(2PL)リスク尺度を併用したループ型フィルタを校正した。
フィルタされていないAI-TA契約は適度で、低レベルのフィードバックには適していたが、高レベルの使用には適していなかった。
論文 参考訳(メタデータ) (2025-10-04T15:07:06Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Multi-party Goal Tracking with LLMs: Comparing Pre-training,
Fine-tuning, and Prompt Engineering [3.5838912422280456]
本稿では,現在のLarge Language Models (LLMs) がタスク指向多人数会話 (MPCs) をどの程度捉えることができるかを評価する。
当院では患者29名,同伴者1名,社会ロボット1名にMPCを記録・転写した。
人々は目標を共有し、お互いの目標に答え、他の人の目標をMPCで提供します。
論文 参考訳(メタデータ) (2023-08-29T11:40:03Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。