論文の概要: An Empirical Study on Common Defects in Modern Web Browsers Using Knowledge Embedding in GPT-4o
- arxiv url: http://arxiv.org/abs/2504.20381v1
- Date: Tue, 29 Apr 2025 02:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.729462
- Title: An Empirical Study on Common Defects in Modern Web Browsers Using Knowledge Embedding in GPT-4o
- Title(参考訳): GPT-4oに埋め込まれた知識を用いた近代Webブラウザの共通欠陥に関する実証的研究
- Authors: Rahul Singh, Yousuf Sultan, Tajmilur Rahman, Sri Vidya Puttareddygari,
- Abstract要約: 私たちは、GPT-4.oを使用して、欠陥(バグ)のカテゴリを特定し、2つの著名なWebブラウザで最もよく見られるバグのクラスタを分析しました。
Google ChromiumとFirefoxは、ほぼ同時期(2006-2008)から一緒に進化してきたが、Firefoxは、非常に高い欠陥を引き起こすコンポーネントを持つ多くのバグに悩まされている。
- 参考スコア(独自算出の注目度): 1.872014009254834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Technology is advancing at an unprecedented pace. With the advent of cutting-edge technologies, keeping up with rapid changes are becoming increasingly challenging. In addition to that, increasing dependencies on the cloud technologies have imposed enormous pressure on modern web browsers leading to adapting new technologies faster and making them more susceptible to defects/bugs. Although, many studies have explored browser bugs, a comparative study among the modern browsers generalizing the bug categories and their nature was still lacking. To fill this gap, we undertook an empirical investigation aimed at gaining insights into the prevalent bugs in Google Chromium and Mozilla Firefox as the representatives of modern web browsers. We used GPT-4.o to identify the defect (bugs) categories and analyze the clusters of the most commonly appeared bugs in the two prominent web browsers. Additionally, we compared our LLM based bug categorization with the traditional NLP based approach using TF-IDF and K-Means clustering. We found that although Google Chromium and Firefox have evolved together since almost around the same time (2006-2008), Firefox suffers from high number of bugs having extremely high defect-prone components compared to Chromium. This exploratory study offers valuable insights on the browser bugs and defect-prone components to the developers, enabling them to craft web browsers and web-applications with enhanced resilience and reduced errors.
- Abstract(参考訳): テクノロジーは前例のないペースで進歩している。
最先端技術の出現に伴い、急激な変化に追いつくことはますます困難になりつつある。
それに加えて、クラウド技術への依存度の増加は、最新のWebブラウザに多大なプレッシャーを与え、新しいテクノロジを迅速に適用し、欠陥やバグに対してより影響を受けやすくしている。
多くの研究がブラウザのバグを調査してきたが、現代のブラウザではバグカテゴリを一般化し、その性質はいまだに欠けていた。
このギャップを埋めるために、私たちは、モダンなWebブラウザの代表として、Google ChromiumとMozilla Firefoxの一般的なバグに関する洞察を得るために、経験的な調査を実施しました。
私たちは、GPT-4.oを使用して、欠陥(バグ)のカテゴリを特定し、2つの著名なWebブラウザで最もよく見られるバグのクラスタを分析しました。
さらに, TF-IDF と K-Means クラスタリングを用いた従来の NLP ベースの手法と LLM ベースのバグ分類を比較した。
Google ChromiumとFirefoxは、ほぼ同時期(2006-2008)から一緒に進化してきたが、FirefoxはChromiumと比較して非常に高い欠陥発生率のコンポーネントを持つ多くのバグに悩まされている。
この探索的研究は、ブラウザのバグと欠陥発生コンポーネントに関する貴重な洞察を開発者に提供し、WebブラウザやWebアプリケーションの開発を可能にし、レジリエンスの強化とエラーの低減を実現している。
関連論文リスト
- BEARCUBS: A benchmark for computer-using web agents [33.1173997263462]
BEARCUBSは、WebエージェントがWebから事実情報を検索、閲覧、識別する能力を評価するために設計された111の情報検索質問のベンチマークである。
BEARCUBSを解くには、合成されたページやシミュレーションされたページではなく、ライブのWebコンテンツにアクセスする必要がある。
人間による研究では、BEARCUBSの質問は解決可能であるが、非自明(84.7%の正確性)であり、探索の非効率性とドメイン知識のギャップを共通の障害点として明らかにしている。
論文 参考訳(メタデータ) (2025-03-10T23:50:30Z) - WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z) - DarthShader: Fuzzing WebGPU Shader Translators & Compilers [19.345967816562364]
より要求の多いWebアプリケーションを実行するための最近のトレンドは、WebGPU標準の採用につながっている。
信頼できないWebコンテンツは、伝統的にセキュリティではなくパフォーマンスのために最適化されたGPUスタックに渡される。
DarthShaderは、中間表現に基づくミュータと、より伝統的な抽象構文木を使用したものを組み合わせた最初の言語ファザである。
論文 参考訳(メタデータ) (2024-09-03T12:06:19Z) - Consent in Crisis: The Rapid Decline of the AI Data Commons [74.68176012363253]
汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。
我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
論文 参考訳(メタデータ) (2024-07-20T16:50:18Z) - Anatomizing Deep Learning Inference in Web Browsers [17.63663828498732]
ブラウザ内推論の総合的なパフォーマンス測定を,これまでに初めて行った。
提案手法は,ブラウザ内推論(応答性,滑らか性,推測精度)を測定するための新しい指標を提案する。
ブラウザ内推論は、CPUでは平均16.9倍、GPUでは4.9倍の遅延差を示す。
論文 参考訳(メタデータ) (2024-02-08T08:02:57Z) - SoK: Analysis techniques for WebAssembly [0.0]
WebAssemblyは低レベルのバイトコード言語で、C、C++、Rustといった言語をネイティブに近いパフォーマンスでブラウザで実行できる。
CやC++のようなメモリ不安全な言語の脆弱性は、WebAssemblyバイナリの脆弱性に変換できる。
WebAssemblyは暗号鍵のような悪意ある目的で使われてきた。
論文 参考訳(メタデータ) (2024-01-11T14:28:13Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Adversarial Environment Generation for Learning to Navigate the Web [107.99759923626242]
Webナビゲーションエージェントのトレーニングのボトルネックの1つは、トレーニング環境の学習可能なカリキュラムを提供することです。
AEG(Adversarial Environment Generation)を使用して、強化学習(RL)エージェントを訓練する困難なWeb環境を生成することを提案する。
提案するフレキシブルb-PAIRED技術を用いて訓練したナビゲータエージェントは,競争力のある自動カリキュラム生成ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-03-02T19:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。