論文の概要: UM_FHS at TREC 2024 PLABA: Exploration of Fine-tuning and AI agent approach for plain language adaptations of biomedical text
- arxiv url: http://arxiv.org/abs/2502.14144v1
- Date: Wed, 19 Feb 2025 23:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 22:18:11.445428
- Title: UM_FHS at TREC 2024 PLABA: Exploration of Fine-tuning and AI agent approach for plain language adaptations of biomedical text
- Title(参考訳): TREC 2024 PLABAにおけるUM_FHS: バイオメディカルテキストのプレーン言語適応のための微調整およびAIエージェントアプローチの探索
- Authors: Primoz Kocbek, Leon Kopitar, Zhihong Zhang, Emirhan Aydin, Maxim Topaz, Gregor Stiglic,
- Abstract要約: TREC 2024 PLABA トラックへの投稿は,K8 レベルの学生 (13~14歳) を対象に, バイオメディカル・抽象化の簡易化を目的としている。
我々は,OpenAIのGPt-4oとGPt-4o-miniモデルを用いて,ベースラインプロンプトエンジニアリング,2AIエージェントアプローチ,微調整という3つのアプローチを検証した。
その結果、GPt-4o-miniモデルを用いた2エージェントアプローチとベースラインプロンプトエンジニアリングは質的性能が優れ、微調整モデルは精度と完全性に優れるが、より単純ではないことがわかった。
- 参考スコア(独自算出の注目度): 3.223303935767146
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper describes our submissions to the TREC 2024 PLABA track with the aim to simplify biomedical abstracts for a K8-level audience (13-14 years old students). We tested three approaches using OpenAI's gpt-4o and gpt-4o-mini models: baseline prompt engineering, a two-AI agent approach, and fine-tuning. Adaptations were evaluated using qualitative metrics (5-point Likert scales for simplicity, accuracy, completeness, and brevity) and quantitative readability scores (Flesch-Kincaid grade level, SMOG Index). Results indicated that the two-agent approach and baseline prompt engineering with gpt-4o-mini models show superior qualitative performance, while fine-tuned models excelled in accuracy and completeness but were less simple. The evaluation results demonstrated that prompt engineering with gpt-4o-mini outperforms iterative improvement strategies via two-agent approach as well as fine-tuning with gpt-4o. We intend to expand our investigation of the results and explore advanced evaluations.
- Abstract(参考訳): TREC 2024 PLABA トラックへの投稿は,K8 レベルの学生 (13~14歳) を対象に, バイオメディカル・抽象化の簡易化を目的としている。
OpenAIのgpt-4oとgpt-4o-miniモデルを用いて,ベースラインプロンプトエンジニアリング,2AIエージェントアプローチ,微調整という3つのアプローチを試した。
定性尺度(簡易性,正確性,完全性,簡潔性)と定量的可読性スコア(Flesch-Kincaid grade level, SMOG Index)を用いて適応性を評価した。
その結果, gpt-4o-miniモデルを用いた2エージェントアプローチとベースラインプロンプト技術は質的性能が優れ, 微調整モデルは精度と完全性に優れるが, 単純さは低いことがわかった。
評価の結果, gpt-4o-miniによる迅速な工学は, gpt-4oによる微調整だけでなく, 2エージェントアプローチによる反復的改善戦略よりも優れていた。
我々は、その結果の調査を拡大し、高度な評価を探求するつもりです。
関連論文リスト
- Weak-for-Strong: Training Weak Meta-Agent to Harness Strong Executors [104.5401871607713]
本稿では、より小型でコスト効率の良い言語モデルをカスタマイズし、より強力なモデルを利用するための設計と最適化を行う新しいフレームワークであるWeakfor-Strong Harnessing (W4S)を提案する。
W4Sはマルチターンマルコフ決定プロセスとして設計を定式化し、エージェントワークフロー最適化のための強化学習を導入する。
経験的な結果から、GPU時間でトレーニングされた7Bメタエージェントは、11ベンチマークで2.9%、最強のベースラインを2.9%上回るW4Sの優位性を示している。
論文 参考訳(メタデータ) (2025-04-07T07:27:31Z) - Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。
GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。
以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-18T23:38:21Z) - Empirical evaluation of LLMs in predicting fixes of Configuration bugs in Smart Home System [0.0]
本研究では,スマートホームシステムにおける構成バグの修正予測におけるLarge Language Models (LLMs)の有効性を評価する。
この研究は、GPT-4、GPT-4o(GPT-4 Turbo)、Claude 3.5 Sonnetの3つの著名なLCMを分析した。
論文 参考訳(メタデータ) (2025-02-16T02:11:36Z) - Large language models streamline automated systematic review: A preliminary study [12.976248955642037]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて、体系的なレビューを自動化する可能性を秘めている。
本研究は,3つのLLMの系統的レビュー作業における性能評価である。
論文 参考訳(メタデータ) (2025-01-09T01:59:35Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - Edinburgh Clinical NLP at SemEval-2024 Task 2: Fine-tune your model unless you have access to GPT-4 [10.01547158445743]
各種大規模言語モデル (LLM) を複数戦略で評価する。例えば、Chain-of-Thought, In-Context Learning, Efficient Fine-Tuning (PEFT) などである。
その結果,2つのPEFTアダプタはF1スコア(+0.0346)とLLMの一貫性(+0.152)を改善した。
3つの指標を平均して、GPT-4は0.8328との競争で1位となった。
論文 参考訳(メタデータ) (2024-03-30T22:27:21Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code [7.760653867600283]
我々は,基本的なプロンプト,コンテキスト内学習,タスク固有のプロンプトという3つのプロンプト技術戦略を用いて,GPT-4を評価する。
コード要約、生成、翻訳という3つのコード関連タスクに関する17の微調整モデルと比較する。
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - DiffNAS: Bootstrapping Diffusion Models by Prompting for Better
Architectures [63.12993314908957]
そこで我々は,DiffNASと呼ばれるベースモデル探索手法を提案する。
GPT-4をスーパーネットとして利用して検索を高速化し,検索メモリを補足して結果を向上する。
厳密な実験により,GPTに基づくシナリオでは,探索効率を2倍に向上できることが示された。
論文 参考訳(メタデータ) (2023-10-07T09:10:28Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - Adversarial Fine-Tuning of Language Models: An Iterative Optimisation
Approach for the Generation and Detection of Problematic Content [0.0]
大規模言語モデル(LLM)における意図しない有害コンテンツ生成の課題に挑戦する。
私たちの2つのアプローチでは、潜在的に有害なプロンプトを生成するために微調整された敵モデルと、これらのプロンプトを反復的に識別するように最適化された判断モデルを採用しています。
本研究は, 初歩的なモデルテキストタダを用いて, わずか数ラウンドでGPT-4よりも13%高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-08-26T05:20:58Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - LENS: A Learnable Evaluation Metric for Text Simplification [17.48383068498169]
テキスト単純化のための学習可能な評価指標であるLENSを提案する。
また、ランクとレートについても紹介します。これは、リストワイドで複数のモデルから単純化を評価する人間の評価フレームワークです。
論文 参考訳(メタデータ) (2022-12-19T18:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。