論文の概要: Interpreting COVID Lateral Flow Tests' Results with Foundation Models
- arxiv url: http://arxiv.org/abs/2404.14990v1
- Date: Sun, 21 Apr 2024 18:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:01:50.125618
- Title: Interpreting COVID Lateral Flow Tests' Results with Foundation Models
- Title(参考訳): ファンデーションモデルによる横流検査結果の解釈
- Authors: Stuti Pandey, Josh Myers-Dean, Jarek Reynolds, Danna Gurari,
- Abstract要約: 横流試験(LFT)は、コビッド、妊娠、HIV、マラリアなどの健康状態の迅速かつ低コストな検査を可能にする。
本稿では,現代基盤視覚言語モデル (VLM) のこのようなテストの解釈能力について考察する。
現状のVLMでは,LFT検査のタイプを正しく識別できず,検査結果の解釈,LFT検査のネストした結果ウィンドウの特定,部分的難読化時のLFT検査の認識が困難であることがよく示されている。
- 参考スコア(独自算出の注目度): 12.275416896300714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lateral flow tests (LFTs) enable rapid, low-cost testing for health conditions including Covid, pregnancy, HIV, and malaria. Automated readers of LFT results can yield many benefits including empowering blind people to independently learn about their health and accelerating data entry for large-scale monitoring (e.g., for pandemics such as Covid) by using only a single photograph per LFT test. Accordingly, we explore the abilities of modern foundation vision language models (VLMs) in interpreting such tests. To enable this analysis, we first create a new labeled dataset with hierarchical segmentations of each LFT test and its nested test result window. We call this dataset LFT-Grounding. Next, we benchmark eight modern VLMs in zero-shot settings for analyzing these images. We demonstrate that current VLMs frequently fail to correctly identify the type of LFT test, interpret the test results, locate the nested result window of the LFT tests, and recognize LFT tests when they partially obfuscated. To facilitate community-wide progress towards automated LFT reading, we publicly release our dataset at https://iamstuti.github.io/lft_grounding_foundation_models/.
- Abstract(参考訳): 横流試験(LFT)は、コビッド、妊娠、HIV、マラリアなどの健康状態の迅速かつ低コストな検査を可能にする。
LFTの結果の自動化された読者は、視覚障害者が自分の健康について独立して学び、LFTテスト毎に1枚の写真だけを使用することで大規模なモニタリング(例えば、Covidのようなパンデミック)のためのデータ入力を加速するなど、多くの利益を得ることができる。
そこで本研究では,現代の基盤視覚言語モデル(VLM)の,このようなテストの解釈能力について検討する。
この分析を可能にするために、まず、各LFTテストとそのネストしたテスト結果ウィンドウの階層的なセグメンテーションを持つ新しいラベル付きデータセットを作成する。
このデータセットを LFT-Grounding と呼ぶ。
次に、これらの画像を分析するため、ゼロショット設定で8つの最新のVLMをベンチマークする。
現状のVLMでは,LFT検査のタイプを正しく識別できず,検査結果の解釈,LFT検査のネストした結果ウィンドウの特定,部分的難読化時のLFT検査の認識が困難であることがよく示されている。
自動LFT読み込みに向けたコミュニティ全体の進歩を促進するため、私たちはデータセットをhttps://iamstuti.github.io/lft_grounding_foundation_models/で公開しています。
関連論文リスト
- Test smells in LLM-Generated Unit Tests [11.517293765116307]
本研究では,大規模言語モデルの生成した単体テストスイートにおけるテストの匂いの拡散について検討する。
5つのプロンプトエンジニアリング技術で4つのモデルで生成された20,500 LLM生成テストスイートのベンチマークを解析した。
我々は,LLM生成テストスイートと筆記テストスイートの両方において,種々のテスト匂いの出現頻度と発生頻度を同定し,解析する。
論文 参考訳(メタデータ) (2024-10-14T15:35:44Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Large Language Models Memorize Sensor Datasets! Implications on Human Activity Recognition Research [0.23982628363233693]
本研究では,Large Language Models (LLMs) が,訓練中にHAR(Human Activity Recognition)データセットにアクセス可能かどうかを検討する。
ほとんどの現代のLLMは、事実上(アクセス可能な)インターネット上でトレーニングされています。
特にダフネットデータセットでは、GPT-4はセンサー読み取りのブロックを再現することができる。
論文 参考訳(メタデータ) (2024-06-09T19:38:27Z) - TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。
オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。
特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文 参考訳(メタデータ) (2024-06-06T22:07:50Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文 参考訳(メタデータ) (2024-04-03T02:40:35Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。