論文の概要: STRICTA: Structured Reasoning in Critical Text Assessment for Peer Review and Beyond
- arxiv url: http://arxiv.org/abs/2409.05367v2
- Date: Mon, 02 Jun 2025 08:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.937544
- Title: STRICTA: Structured Reasoning in Critical Text Assessment for Peer Review and Beyond
- Title(参考訳): STRICTA:批判的テキストアセスメントにおける構造的推論
- Authors: Nils Dycke, Matej Zečević, Ilia Kuznetsov, Beatrix Suess, Kristian Kersting, Iryna Gurevych,
- Abstract要約: 本研究では,テキストアセスメントをステップワイド推論プロセスとしてモデル化するために,Structured Reasoning In Critical Text Assessment (STRICTA)を導入する。
STRICTAは、因果性理論に基づく相互接続推論ステップのグラフに評価を分解する。
約40人のバイオメディカル専門家が20以上の論文について4000以上の推論ステップのデータセットにSTRICTAを適用した。
- 参考スコア(独自算出の注目度): 68.47402386668846
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Critical text assessment is at the core of many expert activities, such as fact-checking, peer review, and essay grading. Yet, existing work treats critical text assessment as a black box problem, limiting interpretability and human-AI collaboration. To close this gap, we introduce Structured Reasoning In Critical Text Assessment (STRICTA), a novel specification framework to model text assessment as an explicit, step-wise reasoning process. STRICTA breaks down the assessment into a graph of interconnected reasoning steps drawing on causality theory (Pearl, 1995). This graph is populated based on expert interaction data and used to study the assessment process and facilitate human-AI collaboration. We formally define STRICTA and apply it in a study on biomedical paper assessment, resulting in a dataset of over 4000 reasoning steps from roughly 40 biomedical experts on more than 20 papers. We use this dataset to empirically study expert reasoning in critical text assessment, and investigate if LLMs are able to imitate and support experts within these workflows. The resulting tools and datasets pave the way for studying collaborative expert-AI reasoning in text assessment, in peer review and beyond.
- Abstract(参考訳): 批判的なテキストアセスメントは、ファクトチェック、ピアレビュー、エッセイグレーディングなど、多くの専門家の活動の中核にある。
しかし、既存の研究は批判的なテキストアセスメントをブラックボックスの問題として扱い、解釈可能性や人間とAIのコラボレーションを制限する。
このギャップを埋めるために、テキストアセスメントを明示的でステップワイズな推論プロセスとしてモデル化する新しい仕様フレームワークSTRICTA(Structured Reasoning In critical Text Assessment)を紹介した。
STRICTAは、因果性理論に基づく相互接続推論ステップのグラフに評価を分解する(Pearl, 1995)。
このグラフは専門家のインタラクションデータに基づいて集約され、アセスメントプロセスの研究と人間とAIのコラボレーションを促進するために使用される。
我々はSTRICTAを正式に定義し、バイオメディカル・ペーパーアセスメントの研究に応用し、20以上の論文で約40人のバイオメディカル・エキスパートから4000以上の推論ステップのデータセットを作成した。
このデータセットを用いて、クリティカルテキストアセスメントにおける専門家の推論を実証的に研究し、LLMがこれらのワークフロー内で専門家を模倣し支援できるかどうかを調査する。
その結果得られたツールとデータセットは、テキストアセスメントやピアレビューなどにおいて、共同専門家とAIの推論を研究するための道を開いた。
関連論文リスト
- Enhancing Essay Cohesion Assessment: A Novel Item Response Theory Approach [0.7845950813414773]
本研究では,項目応答理論に基づく凝集点予測手法の提案と解析を行う。
提案手法は,従来の機械学習モデルとアンサンブル手法を,いくつかの評価指標で比較した。
論文 参考訳(メタデータ) (2025-07-11T11:05:27Z) - Causality for Natural Language Processing [17.681875945732042]
因果推論は人間の知性の基礎であり、人工システムにとって重要な能力である。
この論文は、大きな言語モデルにおける因果推論と理解の様々な次元に展開する。
論文 参考訳(メタデータ) (2025-04-20T08:11:11Z) - Identifying Aspects in Peer Reviews [61.374437855024844]
我々は、ピアレビューのコーパスからアスペクトを抽出するデータ駆動スキーマを開発した。
我々は、アスペクトを付加したピアレビューのデータセットを導入し、コミュニティレベルのレビュー分析にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2025-04-09T14:14:42Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - exHarmony: Authorship and Citations for Benchmarking the Reviewer Assignment Problem [11.763640675057076]
明示的なラベルを必要とせずにレビュアー代入問題を評価するためのベンチマークデータセットを開発した。
従来の語彙マッチング、静的なニューラル埋め込み、文脈化されたニューラル埋め込みなど、さまざまな手法をベンチマークする。
本研究は,従来の手法が合理的に良好に機能する一方で,学術文献で訓練された文脈的埋め込みが最高の性能を示すことを示すものである。
論文 参考訳(メタデータ) (2025-02-11T16:35:04Z) - Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research [7.4327380079414676]
本稿では,外部ツール利用エージェントを統合することで,大規模言語モデル(LLM)推論を強化するフレームワークであるAgentic Reasoningを紹介する。
本フレームワークでは,論理的関係を追跡するための構造化知識グラフを構築するMind Mapエージェントを導入している。
PhDレベルの科学的推論(GPQA)とドメイン固有の深層研究タスクの評価は、我々のアプローチが既存のモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-07T04:08:46Z) - LLM-Generated Heuristics for AI Planning: Do We Even Need Domain-Independence Anymore? [87.71321254733384]
大規模言語モデル(LLM)は、特定の計画問題に適した計画手法を生成することができる。
LLMは、いくつかの標準IPCドメインで最先端のパフォーマンスを達成することができる。
これらの結果がパラダイムシフトを意味するのか、既存の計画手法をどのように補完するかについて議論する。
論文 参考訳(メタデータ) (2025-01-30T22:21:12Z) - Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。
われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。
本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-25T07:20:44Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering [14.198330378235632]
我々は,3つのジェネラリストと3つの専門的なバイオメディカルサブドメインにおいて,22のデータセットに関する大規模な実験研究を行うために,複数選択と抽象質問応答を用いた。
15個のLLMの性能の多面的解析により、リコールや理解の向上につながる命令チューニングなどの成功要因が明らかになった。
最近提案されたドメイン適応モデルには十分な知識が欠如している可能性があるが、収集した医療知識データセットを直接微調整することは、奨励的な結果を示している。
我々は、必要な知識を単に思い出し、提示された知識と統合するモデルの能力の間に大きなギャップがあることを明らかにする、スキル指向手動エラー解析で定量的結果を補完する。
論文 参考訳(メタデータ) (2024-06-06T02:43:21Z) - A Survey of Artificial Intelligence in Gait-Based Neurodegenerative Disease Diagnosis [51.07114445705692]
神経変性疾患(神経変性疾患、ND)は、伝統的に医学的診断とモニタリングのために広範囲の医療資源と人的努力を必要とする。
重要な疾患関連運動症状として、ヒトの歩行を利用して異なるNDを特徴づけることができる。
人工知能(AI)モデルの現在の進歩は、NDの識別と分類のための自動歩行分析を可能にする。
論文 参考訳(メタデータ) (2024-05-21T06:44:40Z) - Conversational Disease Diagnosis via External Planner-Controlled Large Language Models [18.93345199841588]
本研究は,医師のエミュレートによる計画能力の向上を目的としたLCMに基づく診断システムを提案する。
実際の患者電子カルテデータを利用して,仮想患者と医師とのシミュレーション対話を構築した。
論文 参考訳(メタデータ) (2024-04-04T06:16:35Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - The Radiation Oncology NLP Database [33.391114383354804]
放射線オンコロジーのためのNLPデータセットとして,放射線オンコロジーNLPデータベース(ROND)を提案する。
RONDは放射線腫瘍学の領域におけるこのギャップに対処するために特別に設計された。
Logic Reasoning, Text Classification, Named Entity Recognition (NER), Question Answering (QA), Text Summarization, patient-Clinician Conversationsなど,さまざまなNLPタスクを含んでいる。
論文 参考訳(メタデータ) (2024-01-19T19:23:37Z) - From Voices to Validity: Leveraging Large Language Models (LLMs) for
Textual Analysis of Policy Stakeholder Interviews [14.135107583299277]
本研究では,米国内におけるK-12教育政策に関するステークホルダインタビューのテキスト分析を強化するために,大規模言語モデル(LLM)と人間の専門知識の統合について検討する。
混合メソッドのアプローチを用いて、ドメイン知識や教師なしトピックモデリングの結果から情報を得たコードブックとコーディングプロセスを開発した。
結果、GPT-4のテーマは、特定のテーマで77.89%の精度で人間のコーディングと一致しているが、より広いテーマが一致し96.02%に拡大し、従来の自然言語処理(NLP)の手法を25%以上上回った。
論文 参考訳(メタデータ) (2023-12-02T18:55:14Z) - Injecting linguistic knowledge into BERT for Dialogue State Tracking [60.42231674887294]
本稿では,教師なしの枠組みを用いて言語知識を抽出する手法を提案する。
次に、この知識を用いて、対話状態追跡(DST)タスクにおけるBERTの性能と解釈可能性を高める。
このフレームワークを様々なDSTタスクでベンチマークし、精度の顕著な改善を観察する。
論文 参考訳(メタデータ) (2023-11-27T08:38:42Z) - Unveiling A Core Linguistic Region in Large Language Models [49.860260050718516]
本稿では,脳局在化をプロトタイプとして用いた類似研究を行う。
我々は、言語能力に対応する大規模言語モデルにおいて、中核領域を発見した。
我々は,言語能力の向上が必ずしもモデルの知識レベルの向上に伴わないことを観察する。
論文 参考訳(メタデータ) (2023-10-23T13:31:32Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - ChatGPT-HealthPrompt. Harnessing the Power of XAI in Prompt-Based
Healthcare Decision Support using ChatGPT [15.973406739758856]
本研究は,OpenAIのChatGPTを中心に,大規模言語モデル(LLM)を臨床意思決定に適用するための革新的なアプローチを提案する。
提案手法では,タスク記述,特徴記述,ドメイン知識の統合を前提とした文脈的プロンプトの利用を提案する。
論文 参考訳(メタデータ) (2023-08-17T20:50:46Z) - Multi-Task Training with In-Domain Language Models for Diagnostic
Reasoning [5.321587036724933]
ドメイン内言語モデルとドメイン外言語モデルの比較分析を行い、マルチタスクと単一タスクトレーニングを比較した。
マルチタスクで臨床訓練を受けた言語モデルは、その一般ドメインよりも大きなマージンで優れていることを実証する。
論文 参考訳(メタデータ) (2023-06-07T15:55:34Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Automated Evaluation for Student Argumentative Writing: A Survey [2.9466390764652415]
本稿では,学生論文の自動評価という,未研究領域における研究成果の調査と整理を行う。
全体論的なエッセイ評価に焦点を当てた従来の自動筆記評価とは異なり、この分野はより具体的であり、議論的なエッセイを評価し、特定のフィードバックを提供する。
論文 参考訳(メタデータ) (2022-05-09T07:27:59Z) - Revise and Resubmit: An Intertextual Model of Text-based Collaboration
in Peer Review [52.359007622096684]
ピアレビューは、ほとんどの科学分野における出版プロセスの重要な要素である。
既存のNLP研究は個々のテキストの分析に重点を置いている。
編集補助は、しばしばテキストのペア間の相互作用をモデル化する必要がある。
論文 参考訳(メタデータ) (2022-04-22T16:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。