このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241019となっている論文です。

PDF登録状況(公開日: 20241019)

TitleAuthorsAbstract論文公表日・翻訳日
# Data, Data Everywhere: データセット構築の事前トレーニングガイド

Data, Data Everywhere: A Guide for Pretraining Dataset Construction ( http://arxiv.org/abs/2407.06380v2 )

ライセンス: Link先を確認
Jupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Bo Liu, Aastha Jhunjhunwala, Zhilin Wang, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, (参考訳) 最近の言語モデルの印象的な機能は、トレーニング中のデータセットをトレーニングするマルチトリリオントークンに大きく影響する可能性がある。 しかし、モデル開発者は、効率的な事前学習セットの開発方法に関するオープンな情報が欠如している建設方法論を開示することができない。 この問題に対処するため、我々は事前学習セット構築のパイプライン全体にわたって、最初の系統的研究を行う。 まず,既存の事前学習手法を改良して,下流評価におけるモデル精度の最大値に変換する手法を特定する。 そして、最も広く使われているデータソースであるWebクローススナップショットを、毒性、品質、音声の種類、ドメインの属性に分類する。 最後に,そのような属性情報を用いて事前学習セットの品質をさらに向上し,改善する方法について述べる。 これらの知見は、実践者が高品質な事前訓練セットを開発するために使用できる、実行可能なステップのセットである。

The impressive capabilities of recent language models can be largely attributed to the multi-trillion token pretraining datasets that they are trained on. However, model developers fail to disclose their construction methodology which has lead to a lack of open information on how to develop effective pretraining sets. To address this issue, we perform the first systematic study across the entire pipeline of pretraining set construction. First, we run ablations on existing techniques for pretraining set development to identify which methods translate to the largest gains in model accuracy on downstream evaluations. Then, we categorize the most widely used data source, web crawl snapshots, across the attributes of toxicity, quality, type of speech, and domain. Finally, we show how such attribute information can be used to further refine and improve the quality of a pretraining set. These findings constitute an actionable set of steps that practitioners can use to develop high quality pretraining sets.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-19
# Sparse Mixture-of-Expertsにおけるタスク非依存プルーニングのエキスパート知識の多様化

Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts ( http://arxiv.org/abs/2407.09590v3 )

ライセンス: Link先を確認
Zeliang Zhang, Xiaodong Liu, Hao Cheng, Chenliang Xu, Jianfeng Gao, (参考訳) モデルパラメータを増大させるが、タスクの実行時にわずかに活性化することにより、Mixture-of-Experts (MoE)アーキテクチャの使用は、推論コストを増大させることなく、LLM(Large Language Models)の性能を大幅に向上させる。 しかし、専門家の増加によるメモリ消費量の増加は、これらのモデルを多くの実環境に展開する上での課題となっている。 実験によっては、一部の専門家が事前トレーニング中に冗長な知識をエンコードしていることが明らかになりました。 そこで本研究では,モデルパラメータの効率を向上させるために,類似の専門家をグループ化して抽出する手法を提案する。 提案手法の有効性を,Mixtral, Deepseek-MoE, Qwenの3つの最先端MoEアーキテクチャを用いて検証した。 評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。 私たちは将来の研究を促進するためにコードを公開します。

By increasing model parameters but activating them sparsely when performing a task, the use of Mixture-of-Experts (MoE) architecture significantly improves the performance of Large Language Models (LLMs) without increasing the inference cost. However, the memory consumption due to the growing number of experts presents a challenge to the deployment of these models in many real world settings. Our empirical study reveals that some experts encode redundant knowledge during pre-training. We thus propose a method of grouping and pruning similar experts to improve the model's parameter efficiency. We validate the effectiveness of our method by pruning three state-of-the-art MoE architectures, including Mixtral, Deepseek-MoE, and Qwen. The evaluation shows that our method outperforms other model pruning methods on a range of natural language tasks. We will release our code to facilitate future research.
翻訳日:2024-11-08 21:54:45 公開日:2024-10-19
# 優先順位付けされたリプレイと一般化の相互作用の検討

Investigating the Interplay of Prioritized Replay and Generalization ( http://arxiv.org/abs/2407.09702v2 )

ライセンス: Link先を確認
Parham Mohammad Panahi, Andrew Patterson, Martha White, Adam White, (参考訳) サンプル効率を改善するために過去のデータの再利用であるエクスペリエンス・リプレイは、強化学習においてユビキタスである。 性能向上のために様々なスマートサンプリングスキームが導入されたが、今までのところ、一様サンプリングが最も一般的なアプローチである。 1つの例外は優先順位付き体験再生(PER)であり、サンプリングは動的プログラミングにおける優先順位付きスイーピングの成功にインスパイアされたTDエラーに比例して行われる。 PERの当初の作業では、Atariの改善が見られたが、その後の結果はさまざまだった。 本稿ではPERの様々なバリエーションについて検討し、PERがいつ役に立つかを理解する。 予測タスクでは,PERは表の設定で値の伝搬を改善することができるが,ニューラルネットワークと組み合わせた場合の挙動は著しく異なる。 ある緩和$-$は、ターゲットネットワークのアップデートを遅らせて一般化を制御したり、PERで期待されるTDエラーの見積もりを使用して確率性を追跡することを避ける。 制御タスクでは、優先順位付けされたどの変種も一貫して均一なリプレイを上回っていない。 我々は、優先順位付け、ブートストラップ、ニューラルネットワーク間の相互作用に関する新たな知見を提示し、表の設定やノイズの多いドメインにおけるPERのいくつかの改善を提案する。

Experience replay, the reuse of past data to improve sample efficiency, is ubiquitous in reinforcement learning. Though a variety of smart sampling schemes have been introduced to improve performance, uniform sampling by far remains the most common approach. One exception is Prioritized Experience Replay (PER), where sampling is done proportionally to TD errors, inspired by the success of prioritized sweeping in dynamic programming. The original work on PER showed improvements in Atari, but follow-up results were mixed. In this paper, we investigate several variations on PER, to attempt to understand where and when PER may be useful. Our findings in prediction tasks reveal that while PER can improve value propagation in tabular settings, behavior is significantly different when combined with neural networks. Certain mitigations $-$ like delaying target network updates to control generalization and using estimates of expected TD errors in PER to avoid chasing stochasticity $-$ can avoid large spikes in error with PER and neural networks but generally do not outperform uniform replay. In control tasks, none of the prioritized variants consistently outperform uniform replay. We present new insight into the interaction between prioritization, bootstrapping, and neural networks and propose several improvements for PER in tabular settings and noisy domains.
翻訳日:2024-11-08 21:54:45 公開日:2024-10-19
# ガウス過程を用いた導出的グローバル感性分析のためのアクティブラーニング

Active Learning for Derivative-Based Global Sensitivity Analysis with Gaussian Processes ( http://arxiv.org/abs/2407.09739v2 )

ライセンス: Link先を確認
Syrine Belakaria, Benjamin Letham, Janardhan Rao Doppa, Barbara Engelhardt, Stefano Ermon, Eytan Bakshy, (参考訳) 高価なブラックボックス関数のグローバル感度解析におけるアクティブラーニングの問題点を考察する。 本研究の目的は,車両安全実験における入力変数の重要性を効率よく学習することであり,各種部品の厚さが安全性に与える影響について検討することである。 関数評価は高価であるため,最も価値の高い実験資源の優先順位付けにアクティブラーニングを利用する。 本稿では,ガウス過程サロゲートモデルの下で,導関数に基づくグローバル感度測定(DGSM)の重要量の直接的ターゲットとする,新たな能動的学習獲得関数を提案する。 本稿では, DGSM に直接能動学習を応用し, トラクタブルな不確実性低減と情報取得機能を開発する。 本研究は,合成・実世界の問題に対する総合的な評価を通じて,DGSM推定のサンプル効率を,特に限られた評価予算で大きく向上させる方法を示す。 我々の研究は、様々な科学的・工学的応用において、より効率的で正確な感度分析の道を開いた。

We consider the problem of active learning for global sensitivity analysis of expensive black-box functions. Our aim is to efficiently learn the importance of different input variables, e.g., in vehicle safety experimentation, we study the impact of the thickness of various components on safety objectives. Since function evaluations are expensive, we use active learning to prioritize experimental resources where they yield the most value. We propose novel active learning acquisition functions that directly target key quantities of derivative-based global sensitivity measures (DGSMs) under Gaussian process surrogate models. We showcase the first application of active learning directly to DGSMs, and develop tractable uncertainty reduction and information gain acquisition functions for these measures. Through comprehensive evaluation on synthetic and real-world problems, our study demonstrates how these active learning acquisition strategies substantially enhance the sample efficiency of DGSM estimation, particularly with limited evaluation budgets. Our work paves the way for more efficient and accurate sensitivity analysis in various scientific and engineering applications.
翻訳日:2024-11-08 21:54:45 公開日:2024-10-19
# 視覚質問応答におけるオブジェクト中心表現の有効性の探索:基礎モデルとの比較

Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models ( http://arxiv.org/abs/2407.15589v3 )

ライセンス: Link先を確認
Amir Mohammad Karimi Mamaghan, Samuele Papa, Karl Henrik Johansson, Stefan Bauer, Andrea Dittadi, (参考訳) オブジェクト中心(OC)表現は、オブジェクトの合成としてモデル化することで、視覚シーンの状態を表すものであり、様々な下流タスクにおいて、体系的な構成の一般化と推論の促進に利用することができる。 しかし、これらの主張はまだ完全には分析されていない。 近年、基礎モデルは言語からコンピュータビジョンまで様々な領域にまたがる非並列的な能力を実証し、様々な計算タスクの将来の研究の基盤としてマークしている。 本稿では,下流視覚質問応答(VQA)における表現学習に関する広範な実証的研究を行い,シーンの正確な構成的理解を必要とする。 我々は、OCモデルの利点とトレードオフを徹底的に検討し、合成データと実世界のデータの両方において、大規模な事前学習基礎モデルを含む代替アプローチについて検討し、両世界の長所を達成するための実行可能な方法を実証する。 我々は,600以上の下流VQAモデルと15種類の上流表現を網羅し,コミュニティ全体に関心を抱くであろう,いくつかの洞察を与えている。

Object-centric (OC) representations, which represent the state of a visual scene by modeling it as a composition of objects, have the potential to be used in various downstream tasks to achieve systematic compositional generalization and facilitate reasoning. However, these claims have not been thoroughly analyzed yet. Recently, foundation models have demonstrated unparalleled capabilities across diverse domains from language to computer vision, marking them as a potential cornerstone of future research for a multitude of computational tasks. In this paper, we conduct an extensive empirical study on representation learning for downstream Visual Question Answering (VQA), which requires an accurate compositional understanding of the scene. We thoroughly investigate the benefits and trade-offs of OC models and alternative approaches including large pre-trained foundation models on both synthetic and real-world data, and demonstrate a viable way to achieve the best of both worlds. The extensiveness of our study, encompassing over 600 downstream VQA models and 15 different types of upstream representations, also provides several additional insights that we believe will be of interest to the community at large.
翻訳日:2024-11-08 15:45:25 公開日:2024-10-19
# Logifold: エンサンブル機械学習の幾何学的基礎

Logifold: A Geometrical Foundation of Ensemble Machine Learning ( http://arxiv.org/abs/2407.16177v2 )

ライセンス: Link先を確認
Inkee Jung, Siu-Cheong Lau, (参考訳) データセット理解のための局所的・局所的・測度論的アプローチを提案する。 中心となる考え方は、ロジフォールド構造を定式化し、制限されたドメインを持つネットワークモデルをデータセットの局所チャートとして解釈することである。 特に、これはアンサンブル機械学習の数学的基礎を提供する。 本実験では, ファジィ領域を同定し, モデル出力の平均値と比較して精度を向上させるために, ロジフォールドを実装できることを実証した。 さらに、ロジフォールドの理論的な例を示し、アンサンブル内の分類器の領域に制限を加えることの重要性を強調している。

We present a local-to-global and measure-theoretical approach to understanding datasets. The core idea is to formulate a logifold structure and to interpret network models with restricted domains as local charts of datasets. In particular, this provides a mathematical foundation for ensemble machine learning. Our experiments demonstrate that logifolds can be implemented to identify fuzzy domains and improve accuracy compared to taking average of model outputs. Additionally, we provide a theoretical example of a logifold, highlighting the importance of restricting to domains of classifiers in an ensemble.
翻訳日:2024-11-08 15:34:26 公開日:2024-10-19
# グラフニューラルネットワークを用いたサプライチェーンの学習機能

Learning production functions for supply chains with graph neural networks ( http://arxiv.org/abs/2407.18772v2 )

ライセンス: Link先を確認
Serina Chang, Zhiyin Lin, Benjamin Yan, Swapnil Bembde, Qi Xiu, Chi Heem Wong, Yu Qin, Frank Kloster, Alex Luo, Raj Palleti, Jure Leskovec, (参考訳) 世界経済はサプライチェーンネットワーク上の商品の流れに依存しており、ノードは企業、エッジは企業間の取引となっている。 外部の取引を観察することはできるが、それらは目に見えない生産機能によって管理され、企業がどのように内部的に受信した入力製品を、彼らが販売するアウトプット製品に変換するかを決定する。 この環境では、これらの生産機能を推測し、サプライチェーンの可視性を改善し、将来の取引をより正確に予測することが極めて貴重である。 しかし、既存のグラフニューラルネットワーク(GNN)は、これらのノードの入力と出力の間の隠れた関係をキャプチャできない。 本稿では、時間的GNNと、注意重みと特別な損失関数を用いて生産関数を学習する新しい在庫モジュールを組み合わせることで、この設定のための新しいモデルのクラスを導入する。 我々は、我々の新しいオープンソースシミュレータであるサプライシムから生成された実際のサプライチェーンデータとデータに基づいて、我々のモデルを広範囲に評価する。 我々のモデルは生産機能の推定に成功し、最強のベースラインを6%~50%上回り(データセット全体で)、将来の取引を予測し、最強のベースラインを11%~62%上回りました。

The global economy relies on the flow of goods over supply chain networks, with nodes as firms and edges as transactions between firms. While we may observe these external transactions, they are governed by unseen production functions, which determine how firms internally transform the input products they receive into output products that they sell. In this setting, it can be extremely valuable to infer these production functions, to improve supply chain visibility and to forecast future transactions more accurately. However, existing graph neural networks (GNNs) cannot capture these hidden relationships between nodes' inputs and outputs. Here, we introduce a new class of models for this setting by combining temporal GNNs with a novel inventory module, which learns production functions via attention weights and a special loss function. We evaluate our models extensively on real supply chains data and data generated from our new open-source simulator, SupplySim. Our models successfully infer production functions, outperforming the strongest baseline by 6%-50% (across datasets), and forecast future transactions, outperforming the strongest baseline by 11%-62%
翻訳日:2024-11-08 14:50:05 公開日:2024-10-19
# 医用画像診断の安全性:AI耐性攻撃の詳細な分析

Securing the Diagnosis of Medical Imaging: An In-depth Analysis of AI-Resistant Attacks ( http://arxiv.org/abs/2408.00348v2 )

ライセンス: Link先を確認
Angona Biswas, MD Abdullah Al Nasim, Kishor Datta Gupta, Roy George, Abdur Rashid, (参考訳) 機械学習(ML)は、コンピュータ科学と統計学を医療問題に適用するために重要な資源を使用する、急速に発展する医学分野である。 MLの支持者たちは、膨大な、複雑で、不安定な医療データを扱う能力を誇示している。 機械学習分類器のインプットを意図的に生成することで、攻撃者が誤分類を引き起こすという一般的な知識である。 コンピュータビジョン応用の分野では、敵の例の研究が盛んに行われている。 医療システムは、それらが含むセキュリティや生命・死の考慮から非常に困難であると考えられており、パフォーマンスの正確性は非常に重要である。 近年の議論は、医療画像分析(MedIA)技術に対する敵対的な攻撃は、技術基盤と強力な金融インセンティブが伴うことによる可能性があることを示唆している。 診断は重要な決定の基盤となるため、医療用DNNタスクが敵の攻撃に対してどれほど強いかを評価することが不可欠である。 いくつかの初期の研究では、単純な敵対攻撃が考慮されている。 しかし、DNNはより危険で現実的な攻撃を受けやすい。 本稿では,医療画像と対策のためのDNNに対する最近提案された敵攻撃戦略について述べる。 本研究では, 敵画像攻撃, 検出技術について概説する。 また、これらのテクニックのさまざまな側面を包含し、将来改善されるニューラルネットワークの堅牢性を提案する。

Machine learning (ML) is a rapidly developing area of medicine that uses significant resources to apply computer science and statistics to medical issues. ML's proponents laud its capacity to handle vast, complicated, and erratic medical data. It's common knowledge that attackers might cause misclassification by deliberately creating inputs for machine learning classifiers. Research on adversarial examples has been extensively conducted in the field of computer vision applications. Healthcare systems are thought to be highly difficult because of the security and life-or-death considerations they include, and performance accuracy is very important. Recent arguments have suggested that adversarial attacks could be made against medical image analysis (MedIA) technologies because of the accompanying technology infrastructure and powerful financial incentives. Since the diagnosis will be the basis for important decisions, it is essential to assess how strong medical DNN tasks are against adversarial attacks. Simple adversarial attacks have been taken into account in several earlier studies. However, DNNs are susceptible to more risky and realistic attacks. The present paper covers recent proposed adversarial attack strategies against DNNs for medical imaging as well as countermeasures. In this study, we review current techniques for adversarial imaging attacks, detections. It also encompasses various facets of these techniques and offers suggestions for the robustness of neural networks to be improved in the future.
翻訳日:2024-11-08 13:29:21 公開日:2024-10-19
# 深層強化学習によるモバイルエッジ生成とコンピューティングのためのレイテンシを考慮したリソース割り当て

Latency-Aware Resource Allocation for Mobile Edge Generation and Computing via Deep Reinforcement Learning ( http://arxiv.org/abs/2408.02047v2 )

ライセンス: Link先を確認
Yinyu Wu, Xuhui Zhang, Jinke Ren, Huijun Xing, Yanyan Shen, Shuguang Cui, (参考訳) 近年、モバイルエッジコンピューティング(MEC)と生成人工知能(GAI)技術の統合により、モバイルエッジ生成・コンピューティング(MEGC)と呼ばれる新しい分野が生まれ、タスクコンピューティングやコンテンツ生成といった異種サービスを提供している。 本稿では,MEGCシステムにおける共同通信,計算,AIGC資源割り当て問題について検討する。 レイテンシの最小化問題は、まずモバイルユーザーのサービス品質を高めるために定式化される。 最適化変数の強い結合により,より効率的に解ける深部強化学習に基づくアルゴリズムを提案する。 数値計算により,提案アルゴリズムは2つのベースラインアルゴリズムよりも低レイテンシを実現することができることを示した。

Recently, the integration of mobile edge computing (MEC) and generative artificial intelligence (GAI) technology has given rise to a new area called mobile edge generation and computing (MEGC), which offers mobile users heterogeneous services such as task computing and content generation. In this letter, we investigate the joint communication, computation, and the AIGC resource allocation problem in an MEGC system. A latency minimization problem is first formulated to enhance the quality of service for mobile users. Due to the strong coupling of the optimization variables, we propose a new deep reinforcement learning-based algorithm to solve it efficiently. Numerical results demonstrate that the proposed algorithm can achieve lower latency than two baseline algorithms.
翻訳日:2024-11-08 13:07:08 公開日:2024-10-19
# SustainDC -- 持続可能なデータセンター管理のためのベンチマーク

SustainDC -- Benchmarking for Sustainable Data Center Control ( http://arxiv.org/abs/2408.07841v2 )

ライセンス: Link先を確認
Avisek Naug, Antonio Guillen, Ricardo Luna, Vineet Gundecha, Desik Rengarajan, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Dejan Markovikj, Lekhapriya D Kashyap, Soumyendu Sarkar, (参考訳) 機械学習は計算需要を劇的に増加させ、大量のエネルギーを消費し、気候変動に寄与する巨大なデータセンターにつながった。 これにより、持続可能なデータセンタコントロールが優先される。 本稿では、データセンター(DC)のためのマルチエージェント強化学習(MARL)アルゴリズムをベンチマークするためのPython環境であるSustainDCを紹介する。 SustainDCは、ワークロードスケジューリング、冷却最適化、補助バッテリー管理などのカスタムDC設定とタスクをサポートし、複数のエージェントが互いに影響を考慮しながらこれらの操作を管理している。 SustainDC上での各種MARLアルゴリズムの評価を行い, 各種DC設計, 位置, 気象条件, グリッドカーボン強度, 負荷負荷条件などを検討した。 この結果から,MARLアルゴリズムによるデータセンター運用の改善の可能性が示唆された。 AIによるDCの利用の増加を踏まえ、SustainDCは、持続可能なコンピューティングの実現と、他の異種現実の課題への対処に不可欠な高度なアルゴリズムの開発とベンチマークのための重要なプラットフォームを提供する。

Machine learning has driven an exponential increase in computational demand, leading to massive data centers that consume significant amounts of energy and contribute to climate change. This makes sustainable data center control a priority. In this paper, we introduce SustainDC, a set of Python environments for benchmarking multi-agent reinforcement learning (MARL) algorithms for data centers (DC). SustainDC supports custom DC configurations and tasks such as workload scheduling, cooling optimization, and auxiliary battery management, with multiple agents managing these operations while accounting for the effects of each other. We evaluate various MARL algorithms on SustainDC, showing their performance across diverse DC designs, locations, weather conditions, grid carbon intensity, and workload requirements. Our results highlight significant opportunities for improvement of data center operations using MARL algorithms. Given the increasing use of DC due to AI, SustainDC provides a crucial platform for the development and benchmarking of advanced algorithms essential for achieving sustainable computing and addressing other heterogeneous real-world challenges.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-19
# SustainDC -- 持続可能なデータセンター管理のためのベンチマーク

SustainDC -- Benchmarking for Sustainable Data Center Control ( http://arxiv.org/abs/2408.07841v3 )

ライセンス: Link先を確認
Avisek Naug, Antonio Guillen, Ricardo Luna, Vineet Gundecha, Desik Rengarajan, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Dejan Markovikj, Lekhapriya D Kashyap, Soumyendu Sarkar, (参考訳) 機械学習は計算需要を劇的に増加させ、大量のエネルギーを消費し、気候変動に寄与する巨大なデータセンターにつながった。 これにより、持続可能なデータセンタコントロールが優先される。 本稿では、データセンター(DC)のためのマルチエージェント強化学習(MARL)アルゴリズムをベンチマークするためのPython環境であるSustainDCを紹介する。 SustainDCは、ワークロードスケジューリング、冷却最適化、補助バッテリー管理などのカスタムDC設定とタスクをサポートし、複数のエージェントが互いに影響を考慮しながらこれらの操作を管理している。 SustainDC上での各種MARLアルゴリズムの評価を行い, 各種DC設計, 位置, 気象条件, グリッドカーボン強度, 負荷負荷条件などを検討した。 この結果から,MARLアルゴリズムによるデータセンター運用の改善の可能性が示唆された。 AIによるDCの利用の増加を踏まえ、SustainDCは、持続可能なコンピューティングの実現と、他の異種現実の課題への対処に不可欠な高度なアルゴリズムの開発とベンチマークのための重要なプラットフォームを提供する。

Machine learning has driven an exponential increase in computational demand, leading to massive data centers that consume significant amounts of energy and contribute to climate change. This makes sustainable data center control a priority. In this paper, we introduce SustainDC, a set of Python environments for benchmarking multi-agent reinforcement learning (MARL) algorithms for data centers (DC). SustainDC supports custom DC configurations and tasks such as workload scheduling, cooling optimization, and auxiliary battery management, with multiple agents managing these operations while accounting for the effects of each other. We evaluate various MARL algorithms on SustainDC, showing their performance across diverse DC designs, locations, weather conditions, grid carbon intensity, and workload requirements. Our results highlight significant opportunities for improvement of data center operations using MARL algorithms. Given the increasing use of DC due to AI, SustainDC provides a crucial platform for the development and benchmarking of advanced algorithms essential for achieving sustainable computing and addressing other heterogeneous real-world challenges.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-19
# SustainDC: 持続可能なデータセンター管理のためのベンチマーク

SustainDC: Benchmarking for Sustainable Data Center Control ( http://arxiv.org/abs/2408.07841v4 )

ライセンス: Link先を確認
Avisek Naug, Antonio Guillen, Ricardo Luna, Vineet Gundecha, Desik Rengarajan, Sahand Ghorbanpour, Sajad Mousavi, Ashwin Ramesh Babu, Dejan Markovikj, Lekhapriya D Kashyap, Soumyendu Sarkar, (参考訳) 機械学習は計算需要を劇的に増加させ、大量のエネルギーを消費し、気候変動に寄与する巨大なデータセンターにつながった。 これにより、持続可能なデータセンタコントロールが優先される。 本稿では、データセンター(DC)のためのマルチエージェント強化学習(MARL)アルゴリズムをベンチマークするためのPython環境であるSustainDCを紹介する。 SustainDCは、ワークロードスケジューリング、冷却最適化、補助バッテリー管理などのカスタムDC設定とタスクをサポートし、複数のエージェントが互いに影響を考慮しながらこれらの操作を管理している。 SustainDC上での各種MARLアルゴリズムの評価を行い, 各種DC設計, 位置, 気象条件, グリッドカーボン強度, 負荷負荷条件などを検討した。 この結果から,MARLアルゴリズムによるデータセンター運用の改善の可能性が示唆された。 AIによるDCの利用の増加を踏まえ、SustainDCは、持続可能なコンピューティングの実現と、他の異種現実の課題への対処に不可欠な高度なアルゴリズムの開発とベンチマークのための重要なプラットフォームを提供する。

Machine learning has driven an exponential increase in computational demand, leading to massive data centers that consume significant amounts of energy and contribute to climate change. This makes sustainable data center control a priority. In this paper, we introduce SustainDC, a set of Python environments for benchmarking multi-agent reinforcement learning (MARL) algorithms for data centers (DC). SustainDC supports custom DC configurations and tasks such as workload scheduling, cooling optimization, and auxiliary battery management, with multiple agents managing these operations while accounting for the effects of each other. We evaluate various MARL algorithms on SustainDC, showing their performance across diverse DC designs, locations, weather conditions, grid carbon intensity, and workload requirements. Our results highlight significant opportunities for improvement of data center operations using MARL algorithms. Given the increasing use of DC due to AI, SustainDC provides a crucial platform for the development and benchmarking of advanced algorithms essential for achieving sustainable computing and addressing other heterogeneous real-world challenges.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-19
# ペルソナはダブルエッジソード:ゼロショット推論タスクにおけるロールプレイングプロンプトの負の影響を緩和する

Persona is a Double-edged Sword: Mitigating the Negative Impact of Role-playing Prompts in Zero-shot Reasoning Tasks ( http://arxiv.org/abs/2408.08631v2 )

ライセンス: Link先を確認
Junseok Kim, Nakyeong Yang, Kyomin Jung, (参考訳) 近年の研究では、ロールプレイングペルソナをLLMに誘導することで推論能力が向上することが示されている。 しかし、LLMが割り当てられたプロンプトに対して極めて敏感であるため、適切なペルソナの割り当ては困難であり、不正確なペルソナがLLMを妨げ、それらの推論能力を低下させることがある。 本稿ではまず,言語モデルにペルソナを注入することによる負の影響について検討する。 さらに,ロールプレイングとニュートラルプロンプトの両方の結果をアンサンブル化し,推論能力の堅牢性を高める新しいフレームワークであるJerkyll \& Hydeを提案する。 特に、Jekyll \&Hydeはロールプレイングプロンプトを定義する際に、LLMを使用して適切なペルソナを予測する。 次に、Jekyll \&Hyde はロールプレイングとニュートラルプロンプトから2つの潜在的な解を収集し、LLM評価器を用いてより良い解を選択する。 実験分析では、ロールプレイングプロンプトがLLMを混乱させ、ラマ3の12のデータセットのうち7つの推論能力を低下させることが示されている。 一方、Jekyll \&Hydeは、広く使用されている12の自然言語推論データセット上で、潜在的なソリューションの中からよりよい選択肢を選択することで、推論機能を改善している。 さらに,LLM生成したペルソナを割り当てることで,手作りペルソナよりも安定した結果が得られることを明らかにした。

Recent studies demonstrate that prompting a role-playing persona to an LLM improves reasoning capability. However, assigning an adequate persona is difficult since LLMs are extremely sensitive to assigned prompts; thus, inaccurately defined personas sometimes hinder LLMs and degrade their reasoning capabilities. In this paper, we first investigate the potential negative impact of injecting persona into language models. Furthermore, we propose a novel framework, Jekyll \& Hyde, which ensembles the outcomes of both role-playing and neutral prompts to enhance the robustness of reasoning ability. Specifically, Jekyll \& Hyde predicts an appropriate persona using an LLM when defining the role-playing prompt. Then, Jekyll \& Hyde collects two potential solutions from role-playing and neutral prompts and selects a better solution using the LLM evaluator. The experimental analysis demonstrates that role-playing prompts sometimes distract LLMs, degrading their reasoning abilities in 7 out of 12 datasets in llama3. Meanwhile, Jekyll \& Hyde improve reasoning capabilities by selecting better choices among the potential solutions on twelve widely-used natural language reasoning datasets. In addition, we reveal that assigning LLM-generated personas obtains more stable results than handcrafted personas.
翻訳日:2024-11-08 07:18:07 公開日:2024-10-19
# 3Dマップにおける視覚的位置決め:ポイントクラウド,メッシュ,NeRF表現の比較

Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations ( http://arxiv.org/abs/2408.11966v2 )

ライセンス: Link先を確認
Lintong Zhang, Yifu Tao, Jiarong Lin, Fu Zhang, Maurice Fallon, (参考訳) 近年のマッピング技術の進歩により、ポイントクラウド、メッシュ、NeRFベースの表現などのロボットミッションにおいて、高精度な3Dマップの作成が可能になった。 これらの開発は、これらの地図をローカライゼーションのために再利用する新たな機会を提供する。 しかし、異なるマップ表現をシームレスに操作できる統一的なアプローチがまだ存在しない。 本稿では,視覚とライダーの両方で構築された様々な3次元地図表現に対して,単一のカメライメージをローカライズ可能なグローバルな視覚的ローカライズシステムを提案し,評価する。 本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。 高精度な3次元幾何マップを応用し,レンダリングポーズを自動的に定義し,検索性能を保ちながらデータベース画像の数を削減した。 実際の問合せカメラ画像と合成データベース画像との領域ギャップを埋めるために,学習ベースの記述子と特徴検出器を用いる。 屋内および屋外の両方で実施された広範囲な実環境実験を通じてシステムの性能評価を行い、各地図表現の有効性を評価し、従来のSfM(Structure-from-motion)ローカライゼーションアプローチに対する利点を示す。 その結果,3つの地図表現がそれぞれ55%以上の一貫した局所化成功率を達成できることが示唆された。 NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。 さらに,SfMに基づく手法の利点として,合成したデータベースは,マッピングプロセス中に見つからない逆走行方向のローカライズを可能にする。 当社のシステムは,GPUを搭載したモバイルラップトップ上でリアルタイムに動作し,処理速度が1Hzに達する。

Recent advances in mapping techniques have enabled the creation of highly accurate dense 3D maps during robotic missions, such as point clouds, meshes, or NeRF-based representations. These developments present new opportunities for reusing these maps for localization. However, there remains a lack of a unified approach that can operate seamlessly across different map representations. This paper presents and evaluates a global visual localization system capable of localizing a single camera image across various 3D map representations built using both visual and lidar sensing. Our system generates a database by synthesizing novel views of the scene, creating RGB and depth image pairs. Leveraging the precise 3D geometric map, our method automatically defines rendering poses, reducing the number of database images while preserving retrieval performance. To bridge the domain gap between real query camera images and synthetic database images, our approach utilizes learning-based descriptors and feature detectors. We evaluate the system's performance through extensive real-world experiments conducted in both indoor and outdoor settings, assessing the effectiveness of each map representation and demonstrating its advantages over traditional structure-from-motion (SfM) localization approaches. The results show that all three map representations can achieve consistent localization success rates of 55% and higher across various environments. NeRF synthesized images show superior performance, localizing query images at an average success rate of 72%. Furthermore, we demonstrate an advantage over SfM-based approaches that our synthesized database enables localization in the reverse travel direction which is unseen during the mapping process. Our system, operating in real-time on a mobile laptop equipped with a GPU, achieves a processing rate of 1Hz.
翻訳日:2024-11-08 06:00:03 公開日:2024-10-19
# コネクトームの熱平衡状態としての脳機能

Brain functions emerge as thermal equilibrium states of the connectome ( http://arxiv.org/abs/2408.14221v2 )

ライセンス: Link先を確認
Elkaïoum M. Moutuou, Habib Benali, (参考訳) 神経科学の基本的なパラダイムは、認知機能(知覚、学習、記憶、移動)が脳の構造的構造によって形成されることである。 しかし、この物理的アーキテクチャが機能をどのように支配するかを説明する理論的原理は、いまだ解明されていない。 本稿では、構造コネクトームの関数状態が、基礎となる有向多重グラフ上に定義された代数量子系の熱平衡状態として出現する代数量子力学(AQM)フレームワークを提案する。 これらの平衡状態は、KMS(Kubo-Martin-Schwinger)から派生したもので、情報フロー全体への各ニューロンの寄与を定式化している。 線虫Cenorhabditis elegans {\displaystyle {\em Caenorhabditis elegans} のコネクトームにこの枠組みを適用し、KMS状態の詳細な説明、機能的含意の探索、解剖学的接続に基づく機能的ネットワークの予測を行う。 究極的には,コネクトームのトポロジーによって予測される機能回路を明らかにし,構造と機能とをリンクする機構に光を照射する。

A fundamental paradigm in neuroscience is that cognitive functions -- such as perception, learning, memory, and locomotion -- are shaped by the brain's structural organization. However, the theoretical principles explaining how this physical architecture governs its function remain elusive. Here, we propose an algebraic quantum mechanics (AQM) framework in which the functional states of a structural connectome emerge as thermal equilibrium states of an algebraic quantum system defined on the underlying directed multigraph. These equilibrium states, derived from the Kubo-Martin-Schwinger (KMS) states formalism, capture the contribution of each neuron to the overall information flow. We apply this framework to the connectome of the nematode {\em Caenorhabditis elegans}, providing a detailed description of the KMS states, exploring their functional implications, and predicting functional networks based on anatomical connectivity. Ultimately, our approach reveals functional circuits predicted by the topology of the connectome and illuminates on the mechanisms linking structure to function.
翻訳日:2024-11-08 05:04:12 公開日:2024-10-19
# 離散変調連続可変量子鍵分布の一般攻撃対策への応用

Discrete-modulated continuous-variable quantum key distribution secure against general attacks ( http://arxiv.org/abs/2409.02630v3 )

ライセンス: Link先を確認
Ignatius William Primaatmaja, Wen Yu Kon, Charles Lim, (参考訳) 近年,離散変調型連続可変量子鍵分布 (DM-CV-QKD) は,コスト効率,簡易な状態調整,既存の通信技術との互換性といった実用的優位性により,注目を集めている。 本研究では,有限サイズ効果を含む一般的なシーケンシャル攻撃に対するDM-CV-QKDのセキュリティ解析を行う。 注目すべきは、我々の証明は独立でも同一でもない攻撃を考慮し、受信機のヒルベルト空間次元について仮定しないことである。 セキュリティを解析するために、最近の一般化エントロピー累積定理と準相対エントロピーに基づく数値手法を利用する。 また,エントロピー蓄積フレームワークと互換性のある新しい次元低減手法を開発した。 分析の結果,鍵レートに対する有意な有限サイズ補正が得られたが,実際的な利点から,特定のシナリオにメリットがある可能性がある。 私たちの研究は、将来のセキュリティ証明がこの作業で引き起こされたセキュリティ境界をどのように改善できるかに関する洞察も提供しています。

In recent years, discrete-modulated continuous-variable quantum key distribution (DM-CV-QKD) has gained traction due to its practical advantages: cost-effectiveness, simple state preparation, and compatibility with existing communication technologies. This work presents a security analysis of DM-CV-QKD against general sequential attacks, including finite-size effects. Remarkably, our proof considers attacks that are neither independent nor identical, and makes no assumptions about the Hilbert space dimension of the receiver. To analyse the security, we leverage the recent generalised entropy accumulation theorem and the numerical methods based on quasi-relative entropy. We also develop a novel dimension reduction technique which is compatible with the entropy accumulation framework. While our analysis reveals significant finite-size corrections to the key rate, the protocol might still offer advantages in specific scenarios due to its practical merits. Our work also offers some insights on how future security proofs can improve the security bounds derived in this work.
翻訳日:2024-11-07 23:45:04 公開日:2024-10-19
# 台湾マンダリン会話における単音節単語のピッチ輪郭のコーパスに基づく検討

A corpus-based investigation of pitch contours of monosyllabic words in conversational Taiwan Mandarin ( http://arxiv.org/abs/2409.07891v2 )

ライセンス: Link先を確認
Xiaoyun Jin, Mirjam Ernestus, R. Harald Baayen, (参考訳) マンダリンでは、単音節音の音節輪郭は、高音階(T1)、高音階(T2)、ディッピング音階(T3)、下音階(T4)の4つの語彙音で特徴付けられる。 しかし, 自然発声では, 単音節単語の音節化は, 声節内共声調と声節間共声調と隣接音調により, 音節間共声調とは大きく異なる。 また,Chuang et al (2024) は近年,T2-T4音調パターンの非音節的マンダリン語の音節輪郭が,その意味によって同時決定されていることを報告している。 その研究に続いて,単音節単語のピッチパターンが自然会話のマンダリンでどのように実現されるのかをコーパスベースで検討し,文脈予測者が片手に与える影響と,他方で単語の意味がピッチパターンを共決定する方法について考察する。 台湾・マンダリン・コーパスにおける3824個の異なる単語型のトークンのF0輪郭を一般化付加(混合)モデルを用いて解析し,与えられたピッチ輪郭を成分ピッチ輪郭の集合に分解する。 音調文脈が単語の標準音調を著しく変化させることを示す。 音調コンテキストが制御されると、T2とT3は低い平坦な音色として現れ、T1は高い音色として、T4は高中間の音色として現れる。 標準記述では、前音に基づいて中性音(T0)が、標準音T1、T2、T3、T4と同じ方法で他の予測器によって修正され、それ自身で低音として現れる。 また、その単語、更には、単語センス、共同決定語F0の輪郭も示します。 ランダムな森林を用いた変動重要度の分析は、音調文脈の実質的な影響と単語感覚の効果をさらに裏付けた。

In Mandarin, the tonal contours of monosyllabic words produced in isolation or in careful speech are characterized by four lexical tones: a high-level tone (T1), a rising tone (T2), a dipping tone (T3) and a falling tone (T4). However, in spontaneous speech, the actual tonal realization of monosyllabic words can deviate significantly from these canonical tones due to intra-syllabic co-articulation and inter-syllabic co-articulation with adjacent tones. In addition, Chuang et al. (2024) recently reported that the tonal contours of disyllabic Mandarin words with T2-T4 tone pattern are co-determined by their meanings. Following up on their research, we present a corpus-based investigation of how the pitch contours of monosyllabic words are realized in spontaneous conversational Mandarin, focusing on the effects of contextual predictors on the one hand, and the way in words' meanings co-determine pitch contours on the other hand. We analyze the F0 contours of 3824 tokens of 63 different word types in a spontaneous Taiwan Mandarin corpus, using the generalized additive (mixed) model to decompose a given observed pitch contour into a set of component pitch contours. We show that the tonal context substantially modify a word's canonical tone. Once the effect of tonal context is controlled for, T2 and T3 emerge as low flat tones, contrasting with T1 as a high tone, and with T4 as a high-to-mid falling tone. The neutral tone (T0), which in standard descriptions, is realized based on the preceding tone, emerges as a low tone in its own right, modified by the other predictors in the same way as the standard tones T1, T2, T3, and T4. We also show that word, and even more so, word sense, co-determine words' F0 contours. Analyses of variable importance using random forests further supported the substantial effect of tonal context and an effect of word sense.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-19
# 台湾マンダリン会話における単音節単語のピッチ輪郭のコーパスに基づく検討

A corpus-based investigation of pitch contours of monosyllabic words in conversational Taiwan Mandarin ( http://arxiv.org/abs/2409.07891v3 )

ライセンス: Link先を確認
Xiaoyun Jin, Mirjam Ernestus, R. Harald Baayen, (参考訳) マンダリンでは、単音節音の音節輪郭は、高音階(T1)、高音階(T2)、ディッピング音階(T3)、下音階(T4)の4つの語彙音で特徴付けられる。 しかし, 自然発声では, 単音節単語の音節化は, 声節内共声調と声節間共声調と隣接音調により, 音節間共声調とは大きく異なる。 また,Chuang et al (2024) は近年,T2-T4音調パターンの非音節的マンダリン語の音節輪郭が,その意味によって同時決定されていることを報告している。 その研究に続いて,単音節単語のピッチパターンが自然会話のマンダリンでどのように実現されるのかをコーパスベースで検討し,文脈予測者が片手に与える影響と,他方で単語の意味がピッチパターンを共決定する方法について考察する。 台湾・マンダリン・コーパスにおける3824個の異なる単語型のトークンのF0輪郭を一般化付加(混合)モデルを用いて解析し,与えられたピッチ輪郭を成分ピッチ輪郭の集合に分解する。 音調文脈が単語の標準音調を著しく変化させることを示す。 音調コンテキストが制御されると、T2とT3は低い平坦な音色として現れ、T1は高い音色として、T4は高中間の音色として現れる。 標準記述では、前音に基づいて中性音(T0)が、標準音T1、T2、T3、T4と同じ方法で他の予測器によって修正され、それ自身で低音として現れる。 また、その単語、更には、単語センス、共同決定語F0の輪郭も示します。 ランダムな森林を用いた変動重要度の分析は、音調文脈の実質的な影響と単語感覚の効果をさらに裏付けた。

In Mandarin, the tonal contours of monosyllabic words produced in isolation or in careful speech are characterized by four lexical tones: a high-level tone (T1), a rising tone (T2), a dipping tone (T3) and a falling tone (T4). However, in spontaneous speech, the actual tonal realization of monosyllabic words can deviate significantly from these canonical tones due to intra-syllabic co-articulation and inter-syllabic co-articulation with adjacent tones. In addition, Chuang et al. (2024) recently reported that the tonal contours of disyllabic Mandarin words with T2-T4 tone pattern are co-determined by their meanings. Following up on their research, we present a corpus-based investigation of how the pitch contours of monosyllabic words are realized in spontaneous conversational Mandarin, focusing on the effects of contextual predictors on the one hand, and the way in words' meanings co-determine pitch contours on the other hand. We analyze the F0 contours of 3824 tokens of 63 different word types in a spontaneous Taiwan Mandarin corpus, using the generalized additive (mixed) model to decompose a given observed pitch contour into a set of component pitch contours. We show that the tonal context substantially modify a word's canonical tone. Once the effect of tonal context is controlled for, T2 and T3 emerge as low flat tones, contrasting with T1 as a high tone, and with T4 as a high-to-mid falling tone. The neutral tone (T0), which in standard descriptions, is realized based on the preceding tone, emerges as a low tone in its own right, modified by the other predictors in the same way as the standard tones T1, T2, T3, and T4. We also show that word, and even more so, word sense, co-determine words' F0 contours. Analyses of variable importance using random forests further supported the substantial effect of tonal context and an effect of word sense.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-19
# 大規模言語モデルのセキュア化: バイアス、誤情報、即時攻撃に対処する

Securing Large Language Models: Addressing Bias, Misinformation, and Prompt Attacks ( http://arxiv.org/abs/2409.08087v2 )

ライセンス: Link先を確認
Benji Peng, Keyu Chen, Ming Li, Pohsun Feng, Ziqian Bi, Junyu Liu, Qian Niu, (参考訳) 大きな言語モデル(LLM)は、様々な分野において印象的な機能を示しているが、その使用の増加は重要なセキュリティ上の懸念を提起している。 この記事では、LLMセキュリティにおける重要な問題に対処する最近の文献をレビューし、正確性、バイアス、コンテンツ検出、攻撃に対する脆弱性に焦点を当てる。 ファクトチェック手法による応答信頼性の向上に焦点をあてて,LLMからの不正確な出力や誤解を招くアウトプットに関する問題点を論じる。 LLM内の遺伝的バイアスは、制御された入力研究やレッド・チームリング・エクササイズを含む様々な評価手法によって批判的に検証される。 偏差緩和戦略の包括的分析を行い、前処理の介入からトレーニング中の調整、後処理の改良までアプローチする。 また,LLM生成したコンテンツを人為的テキストと区別し,複雑な状況下での機械学習有効分類の限界に留意しながら,検出GPTや透かし技術などの検出機構を導入するという複雑さについても検討した。 さらに、Jailbreak攻撃やプロンプトインジェクションエクスプロイトを含むLLM脆弱性は、さまざまなケーススタディとHackAPromptのような大規模コンペティションを調査して分析される。 このレビューは、LLMの安全を守るための防衛機構をふりかえり、LLMのセキュリティ分野に関するより広範な研究の必要性を強調することによって締めくくられる。

Large Language Models (LLMs) demonstrate impressive capabilities across various fields, yet their increasing use raises critical security concerns. This article reviews recent literature addressing key issues in LLM security, with a focus on accuracy, bias, content detection, and vulnerability to attacks. Issues related to inaccurate or misleading outputs from LLMs is discussed, with emphasis on the implementation from fact-checking methodologies to enhance response reliability. Inherent biases within LLMs are critically examined through diverse evaluation techniques, including controlled input studies and red teaming exercises. A comprehensive analysis of bias mitigation strategies is presented, including approaches from pre-processing interventions to in-training adjustments and post-processing refinements. The article also probes the complexity of distinguishing LLM-generated content from human-produced text, introducing detection mechanisms like DetectGPT and watermarking techniques while noting the limitations of machine learning enabled classifiers under intricate circumstances. Moreover, LLM vulnerabilities, including jailbreak attacks and prompt injection exploits, are analyzed by looking into different case studies and large-scale competitions like HackAPrompt. This review is concluded by retrospecting defense mechanisms to safeguard LLMs, accentuating the need for more extensive research into the LLM security field.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-19
# ORB-SfMLearner:選択的オンライン適応を用いたORB誘導型自己監督型視覚眼振

ORB-SfMLearner: ORB-Guided Self-supervised Visual Odometry with Selective Online Adaptation ( http://arxiv.org/abs/2409.11692v2 )

ライセンス: Link先を確認
Yanlin Jin, Rui-Yang Ju, Haojun Liu, Yuzhong Zhong, (参考訳) ディープ・ビジュアル・オドメトリーは広範な研究にもかかわらず、その幅広い応用を妨げる精度と一般化性の限界に直面している。 これらの課題に対処するため,ORB-SfMLearner という名前の選択的オンライン適応を用いた Oriented FAST と Rotated BRIEF (ORB) 誘導視覚計測手法を提案する。 我々は、学習に基づく自我運動推定にORBの新たな利用法を提案し、より堅牢で正確な結果をもたらす。 また、PoseNetの説明可能性を高めるためのクロスアテンション機構を導入し、車両の運転方向を注意重みによって説明できることを明らかにした。 一般化性を向上させるため、選択的なオンライン適応により、ネットワークは異なるドメイン間で最適なパラメータを迅速かつ選択的に調整できる。 KITTIとvKITTIのデータセットによる実験結果から,本手法はエゴモーションの精度と一般化性の観点から,従来の最先端の深部視覚計測法よりも優れていた。

Deep visual odometry, despite extensive research, still faces limitations in accuracy and generalizability that prevent its broader application. To address these challenges, we propose an Oriented FAST and Rotated BRIEF (ORB)-guided visual odometry with selective online adaptation named ORB-SfMLearner. We present a novel use of ORB features for learning-based ego-motion estimation, leading to more robust and accurate results. We also introduce the cross-attention mechanism to enhance the explainability of PoseNet and have revealed that driving direction of the vehicle can be explained through the attention weights. To improve generalizability, our selective online adaptation allows the network to rapidly and selectively adjust to the optimal parameters across different domains. Experimental results on KITTI and vKITTI datasets show that our method outperforms previous state-of-the-art deep visual odometry methods in terms of ego-motion accuracy and generalizability.
翻訳日:2024-11-07 19:50:48 公開日:2024-10-19
# ADHD研究の新しい展望:LLMによる知識グラフ構築とネットワークベースインサイト

A New Perspective on ADHD Research: Knowledge Graph Construction with LLMs and Network Based Insights ( http://arxiv.org/abs/2409.12853v1 )

ライセンス: Link先を確認
Hakan T. Otal, Stephen V. Faraone, M. Abdullah Canbaz, (参考訳) アテンション・デフィシット・ハイパーアクティビティ障害(ADHD: Attention-Deficit/Hyper Activity Disorder)は、複雑な症状と様々な要因から研究が難しい疾患である。 そこで我々は,ADHDの包括的知識グラフ(KG)を用いて,最先端の大規模言語モデルの助けを借りて,科学的文献と臨床データを統合して構築したネットワーク分析を行った。 kコア技術を含む分析では、障害を理解する中心となる重要なノードと関係が特定された。 これらの結果に基づいて,Large Language Models (LLMs) とRetrieval-Augmented Generation (RAG) を用いた文脈認識型チャットボットを開発した。 私たちの知識グラフはADHDの理解を深めるだけでなく、研究や臨床応用のための強力なツールも提供します。

Attention-Deficit/Hyperactivity Disorder (ADHD) is a challenging disorder to study due to its complex symptomatology and diverse contributing factors. To explore how we can gain deeper insights on this topic, we performed a network analysis on a comprehensive knowledge graph (KG) of ADHD, constructed by integrating scientific literature and clinical data with the help of cutting-edge large language models. The analysis, including k-core techniques, identified critical nodes and relationships that are central to understanding the disorder. Building on these findings, we developed a context-aware chatbot using Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG), enabling accurate and informed interactions. Our knowledge graph not only advances the understanding of ADHD but also provides a powerful tool for research and clinical applications.
翻訳日:2024-11-07 13:10:09 公開日:2024-10-19
# ADHD研究の新しい展望:LLMによる知識グラフ構築とネットワークベースインサイト

A New Perspective on ADHD Research: Knowledge Graph Construction with LLMs and Network Based Insights ( http://arxiv.org/abs/2409.12853v2 )

ライセンス: Link先を確認
Hakan T. Otal, Stephen V. Faraone, M. Abdullah Canbaz, (参考訳) アテンション・デフィシット・ハイパーアクティビティ障害(ADHD: Attention-Deficit/Hyper Activity Disorder)は、複雑な症状と様々な要因から研究が難しい疾患である。 そこで我々は,ADHDの包括的知識グラフ(KG)を用いて,最先端の大規模言語モデルの助けを借りて,科学的文献と臨床データを統合して構築したネットワーク分析を行った。 kコア技術を含む分析では、障害を理解する中心となる重要なノードと関係が特定された。 これらの結果に基づいて,Large Language Models (LLMs) を用いた文脈認識型チャットボット (Graph-RAG) で使用可能な知識グラフをキュレートし,正確かつインフォメーションなインタラクションを実現した。 私たちの知識グラフはADHDの理解を深めるだけでなく、研究や臨床応用のための強力なツールも提供します。

Attention-Deficit/Hyperactivity Disorder (ADHD) is a challenging disorder to study due to its complex symptomatology and diverse contributing factors. To explore how we can gain deeper insights on this topic, we performed a network analysis on a comprehensive knowledge graph (KG) of ADHD, constructed by integrating scientific literature and clinical data with the help of cutting-edge large language models. The analysis, including k-core techniques, identified critical nodes and relationships that are central to understanding the disorder. Building on these findings, we curated a knowledge graph that is usable in a context-aware chatbot (Graph-RAG) with Large Language Models (LLMs), enabling accurate and informed interactions. Our knowledge graph not only advances the understanding of ADHD but also provides a powerful tool for research and clinical applications.
翻訳日:2024-11-07 13:10:09 公開日:2024-10-19
# LSAST -- LLMをサポートする静的アプリケーションセキュリティテストによるサイバーセキュリティの強化

LSAST -- Enhancing Cybersecurity through LLM-supported Static Application Security Testing ( http://arxiv.org/abs/2409.15735v2 )

ライセンス: Link先を確認
Mete Keltek, Rong Hu, Mohammadreza Fani Sani, Ziyue Li, (参考訳) 現在のサイバーセキュリティの状況はますます複雑化しており、従来の静的アプリケーションセキュリティテスト(SAST)ツールは、ルールベースのマッチングに依存しているため、複雑で出現する脆弱性を捉えるのに苦労している。 一方、LLM(Large Language Models)は、強力なコード解析機能を示しているが、静的トレーニングデータとプライバシリスクは、その有効性を制限している。 両手法の限界を克服するために,LSASTを提案する。LSASTは,LSLMをSASTスキャナと統合し,脆弱性検出を強化する手法である。 LSASTは、ローカルにホスト可能なLSMと最先端の知識検索システムを組み合わせて、データのプライバシを損なうことなく、最新の脆弱性洞察を提供する。 私たちは、従来のスキャナと高度なAI駆動分析のギャップを埋める、堅牢でプライバシを重視したソリューションを提供する、静的脆弱性分析のための新しいベンチマークを設定しました。 評価の結果,LSM解析にSASTを組み込むことで検出精度が向上し,従来の手法では欠落していた脆弱性が同定された。

The current cybersecurity landscape is increasingly complex, with traditional Static Application Security Testing (SAST) tools struggling to capture complex and emerging vulnerabilities due to their reliance on rule-based matching. Meanwhile, Large Language Models (LLMs) have demonstrated powerful code analysis capabilities, but their static training data and privacy risks limit their effectiveness. To overcome the limitations of both approaches, we propose LSAST, a novel approach that integrates LLMs with SAST scanners to enhance vulnerability detection. LSAST leverages a locally hostable LLM, combined with a state-of-the-art knowledge retrieval system, to provide up-to-date vulnerability insights without compromising data privacy. We set a new benchmark for static vulnerability analysis, offering a robust, privacy-conscious solution that bridges the gap between traditional scanners and advanced AI-driven analysis. Our evaluation demonstrates that incorporating SAST results into LLM analysis significantly improves detection accuracy, identifying vulnerabilities missed by conventional methods.
翻訳日:2024-11-06 19:21:13 公開日:2024-10-19
# リフレーズとコントラスト:コミュニケーションとコンピュータネットワークの理解を深めるための微調整言語モデル

Rephrase and Contrast: Fine-Tuning Language Models for Enhanced Understanding of Communication and Computer Networks ( http://arxiv.org/abs/2409.19007v1 )

ライセンス: Link先を確認
Liujianfu Wang, Yuyang Du, Jingqi Lin, Kexin Chen, Soung Chang Liew, (参考訳) 大規模言語モデル(LLM)は様々な分野において広く研究されており、通信ネットワークの動作の理解にLLMを適用することに注力している。 しかし、プロンプト技術への過度な依存は、これらのモデルの一般化能力のフル活用を妨げるとともに、効率的な微調整手法の欠如が軽量LLMのポテンシャルのフル実現を妨げている。 本稿では,効率的な微調整フレームワークであるRephrase and Contrast(RaC)フレームワークを導入することで,これらの課題に対処する。 RaCは、質問の修正と、微調整過程における正解と誤解の対比分析を取り入れることで、LLMの理解と批判的思考能力を高める。 実験結果から,ネットワークの包括的問題に対して,基礎モデルよりも63.73%の精度向上が得られた。 さらに,RaCファインチューニングのためのデータセットを効率的に構築するために,高品質な質問応答(QA)ペアを生成するためのGPT支援データマイニング手法を開発し,さらに,回答順序バイアスを低減しつつデータセットサイズを拡大するChoiceBoostを導入する。 これらの技術革新とは別に、我々は、以下を含む貴重な研究資源をオープンソース化することによって、ネットワークコミュニティに貢献する。 1)RaC-Netと呼ばれる微調整ネットワークモデル 2 模型の微調整に用いる訓練データセット 3 将来の研究のベンチマークとなるための異なる課題の3 つのテスト問題セット。 4) 上記のリソースに関連付けられたコード。

Large language models (LLMs) are being widely researched across various disciplines, with significant recent efforts focusing on adapting LLMs for understanding of how communication networks operate. However, over-reliance on prompting techniques hinders the full exploitation of the generalization ability of these models, and the lack of efficient fine-tuning methods prevents the full realization of lightweight LLMs' potential. This paper addresses these challenges by introducing our Rephrase and Contrast (RaC) framework, an efficient fine-tuning framework. RaC enhances LLMs' comprehension and critical thinking abilities by incorporating question reformulation and contrastive analysis of correct and incorrect answers during the fine-tuning process. Experimental results demonstrate a 63.73% accuracy improvement over the foundational model when tested on a comprehensive networking problem set. Moreover, to efficiently construct the dataset for RaC fine-tuning, we develop a GPT-assisted data mining method for generating high-quality question-answer (QA) pairs; furthermore, we introduce ChoiceBoost, a data augmentation technique that expands dataset size while reducing answer-order bias. Apart from these technical innovations, we contribute to the networking community by open-sourcing valuable research resources, including: 1) the fine-tuned networking model referred to as RaC-Net, 2) the training dataset used for fine-tuning the model, 3) three testing problem sets of different difficulties to serve as benchmarks for future research, and 4) code associated with the above resources.
翻訳日:2024-11-06 05:00:47 公開日:2024-10-19
# リフレーズとコントラスト:コミュニケーションとコンピュータネットワークの理解を深めるための微調整言語モデル

Rephrase and Contrast: Fine-Tuning Language Models for Enhanced Understanding of Communication and Computer Networks ( http://arxiv.org/abs/2409.19007v2 )

ライセンス: Link先を確認
Liujianfu Wang, Yuyang Du, Jingqi Lin, Kexin Chen, Soung Chang Liew, (参考訳) 大規模言語モデル(LLM)は様々な分野において広く研究されており、通信ネットワークの動作の理解にLLMを適用することに注力している。 しかし、プロンプト技術への過度な依存は、これらのモデルの一般化能力のフル活用を妨げるとともに、効率的な微調整手法の欠如が軽量LLMのポテンシャルのフル実現を妨げている。 本稿では,効率的な微調整フレームワークであるRephrase and Contrast(RaC)フレームワークを導入することで,これらの課題に対処する。 RaCは、質問の修正と、微調整過程における正解と誤解の対比分析を取り入れることで、LLMの理解と批判的思考能力を高める。 実験結果から,ネットワークの包括的問題に対して,基礎モデルよりも63.73%の精度向上が得られた。 さらに,RaCファインチューニングのためのデータセットを効率的に構築するために,高品質な質問応答(QA)ペアを生成するためのGPT支援データマイニング手法を開発し,さらに,回答順序バイアスを低減しつつデータセットサイズを拡大するChoiceBoostを導入する。 これらの技術革新とは別に、我々は、以下を含む貴重な研究資源をオープンソース化することによって、ネットワークコミュニティに貢献する。 1)RaC-Netと呼ばれる微調整ネットワークモデル 2 模型の微調整に用いる訓練データセット 3 将来の研究のベンチマークとなるための異なる課題の3 つのテスト問題セット。 4) 上記のリソースに関連付けられたコード。

Large language models (LLMs) are being widely researched across various disciplines, with significant recent efforts focusing on adapting LLMs for understanding of how communication networks operate. However, over-reliance on prompting techniques hinders the full exploitation of the generalization ability of these models, and the lack of efficient fine-tuning methods prevents the full realization of lightweight LLMs' potential. This paper addresses these challenges by introducing our Rephrase and Contrast (RaC) framework, an efficient fine-tuning framework. RaC enhances LLMs' comprehension and critical thinking abilities by incorporating question reformulation and contrastive analysis of correct and incorrect answers during the fine-tuning process. Experimental results demonstrate a 63.73% accuracy improvement over the foundational model when tested on a comprehensive networking problem set. Moreover, to efficiently construct the dataset for RaC fine-tuning, we develop a GPT-assisted data mining method for generating high-quality question-answer (QA) pairs; furthermore, we introduce ChoiceBoost, a data augmentation technique that expands dataset size while reducing answer-order bias. Apart from these technical innovations, we contribute to the networking community by open-sourcing valuable research resources, including: 1) the fine-tuned networking model referred to as RaC-Net, 2) the training dataset used for fine-tuning the model, 3) three testing problem sets of different difficulties to serve as benchmarks for future research, and 4) code associated with the above resources.
翻訳日:2024-11-06 05:00:47 公開日:2024-10-19
# 大規模言語モデルの秘密利用

Secret Use of Large Language Models ( http://arxiv.org/abs/2409.19450v1 )

ライセンス: Link先を確認
Zhiping Zhang, Chenxinran Shen, Bingsheng Yao, Dakuo Wang, Tianshi Li, (参考訳) 大規模言語モデル(LLM)の進歩は、AI使用の透明性に対する責任を分散化している。 具体的には、LLMユーザは、様々な現実世界のタスクに対して、LLM生成コンテンツの使用を奨励されるか、あるいは開示する必要がある。 しかし、ユーザがLLMを秘密に使用するという新たな現象は、エンドユーザが透明性要件に準拠することを確実にする上での課題を提起する。 本研究は,LLMの秘密利用の背景にある状況と原因を明らかにするために,探索的調査(125件の現実世界秘密ユースケース報告)と300名のユーザを対象とした制御実験を行った。 このような秘密行動は、特定のタスクによって引き起こされることが多く、ユーザ間での人口動態や人格差を超越する。 タスクタイプは, LLM使用に関する知覚的外部判断に影響を与えることにより, ユーザの秘密行動の意図に影響を及ぼすことがわかった。 我々の結果は、LLMや他のAI技術の使用をより透明に開示するために、介入の設計に関する今後の研究に重要な洞察をもたらす。

The advancements of Large Language Models (LLMs) have decentralized the responsibility for the transparency of AI usage. Specifically, LLM users are now encouraged or required to disclose the use of LLM-generated content for varied types of real-world tasks. However, an emerging phenomenon, users' secret use of LLM, raises challenges in ensuring end users adhere to the transparency requirement. Our study used mixed-methods with an exploratory survey (125 real-world secret use cases reported) and a controlled experiment among 300 users to investigate the contexts and causes behind the secret use of LLMs. We found that such secretive behavior is often triggered by certain tasks, transcending demographic and personality differences among users. Task types were found to affect users' intentions to use secretive behavior, primarily through influencing perceived external judgment regarding LLM usage. Our results yield important insights for future work on designing interventions to encourage more transparent disclosure of the use of LLMs or other AI technologies.
翻訳日:2024-11-05 23:07:28 公開日:2024-10-19
# 大規模言語モデル(LLM)の秘密利用

Secret Use of Large Language Model (LLM) ( http://arxiv.org/abs/2409.19450v2 )

ライセンス: Link先を確認
Zhiping Zhang, Chenxinran Shen, Bingsheng Yao, Dakuo Wang, Tianshi Li, (参考訳) 大規模言語モデル(LLM)の進歩は、AI使用の透明性に対する責任を分散化している。 具体的には、LLMユーザは、様々な現実世界のタスクに対して、LLM生成コンテンツの使用を奨励されるか、あるいは開示する必要がある。 しかし、ユーザがLLMを秘密に使用するという新たな現象は、エンドユーザが透明性要件に準拠することを確実にする上での課題を提起する。 本研究は,LLMの秘密利用の背景にある状況と原因を明らかにするために,探索的調査(125件の現実世界秘密ユースケース報告)と300名のユーザを対象とした制御実験を行った。 このような秘密行動は、特定のタスクによって引き起こされることが多く、ユーザ間での人口動態や人格差を超越する。 タスクタイプは, LLM使用に関する知覚的外部判断に影響を与えることにより, ユーザの秘密行動の意図に影響を及ぼすことがわかった。 我々の結果は、LLMや他のAI技術の使用をより透明に開示するために、介入の設計に関する今後の研究に重要な洞察をもたらす。

The advancements of Large Language Models (LLMs) have decentralized the responsibility for the transparency of AI usage. Specifically, LLM users are now encouraged or required to disclose the use of LLM-generated content for varied types of real-world tasks. However, an emerging phenomenon, users' secret use of LLM, raises challenges in ensuring end users adhere to the transparency requirement. Our study used mixed-methods with an exploratory survey (125 real-world secret use cases reported) and a controlled experiment among 300 users to investigate the contexts and causes behind the secret use of LLMs. We found that such secretive behavior is often triggered by certain tasks, transcending demographic and personality differences among users. Task types were found to affect users' intentions to use secretive behavior, primarily through influencing perceived external judgment regarding LLM usage. Our results yield important insights for future work on designing interventions to encourage more transparent disclosure of the use of LLMs or other AI technologies.
翻訳日:2024-11-05 23:07:28 公開日:2024-10-19
# 大規模言語モデルは専門家のようなグラフを分析できるか?ベンチマーク、データセット、モデル

Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models ( http://arxiv.org/abs/2409.19667v1 )

ライセンス: Link先を確認
Xin Li, Weize Chen, Qizhi Chu, Haopeng Li, Zhaojun Sun, Ran Li, Chen Qian, Yiwei Wei, Zhiyuan Liu, Chuan Shi, Maosong Sun, Cheng Yang, (参考訳) グラフの分析の必要性は、ソーシャルネットワークから生物研究・レコメンデーションシステムまで、さまざまな分野にまたがっている。 したがって、グラフ処理のための大規模言語モデル(LLM)の実現は、より高度な汎用インテリジェンスに向けた重要なステップである。 しかしながら、グラフ解析に関する現在のLLMベンチマークでは、グラフトポロジを記述するプロンプトを直接推論する必要があるため、数十のノードしか持たない小さなグラフに限られる。 対照的に、人間の専門家は通常、タスク解決のための一般的なライブラリに基づいたプログラムを書くため、異なるスケールでグラフを処理できる。 LLMはプロフェッショナルのようなグラフを分析できますか? 本稿では,3種類のグラフタスクを含む手作業によるベンチマークであるProGraphを紹介する。 ベンチマークでは、生の入力を直接推論するのではなく、プログラミングに基づくソリューションが期待されている。 その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。 このギャップを埋めるために,6つの広く使用されているグラフライブラリに基づいたクローリングドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。 文書検索と微調整を施したオープンソースLCMをコード上に拡張することにより,その精度が11~32%向上したことを示す。 以上の結果から,構造化データ処理におけるLLMの能力はいまだ過小評価されており,LLM4Graphがグラフ解析の習熟度を高める上での有効性を示している。 ベンチマーク、データセット、拡張オープンソースモデルはhttps://github.com/BUPT-GAMMA/ProGraphで公開されている。

The need to analyze graphs is ubiquitous across various fields, from social networks to biological research and recommendation systems. Therefore, enabling the ability of large language models (LLMs) to process graphs is an important step toward more advanced general intelligence. However, current LLM benchmarks on graph analysis require models to directly reason over the prompts describing graph topology, and are thus limited to small graphs with only a few dozens of nodes. In contrast, human experts typically write programs based on popular libraries for task solving, and can thus handle graphs with different scales. To this end, a question naturally arises: can LLMs analyze graphs like professionals? In this paper, we introduce ProGraph, a manually crafted benchmark containing 3 categories of graph tasks. The benchmark expects solutions based on programming instead of directly reasoning over raw inputs. Our findings reveal that the performance of current LLMs is unsatisfactory, with the best model achieving only 36% accuracy. To bridge this gap, we propose LLM4Graph datasets, which include crawled documents and auto-generated codes based on 6 widely used graph libraries. By augmenting closed-source LLMs with document retrieval and fine-tuning open-source ones on the codes, we show 11-32% absolute improvements in their accuracies. Our results underscore that the capabilities of LLMs in handling structured data are still under-explored, and show the effectiveness of LLM4Graph in enhancing LLMs' proficiency of graph analysis. The benchmark, datasets and enhanced open-source models are available at https://github.com/BUPT-GAMMA/ProGraph.
翻訳日:2024-11-05 21:49:14 公開日:2024-10-19
# 大規模言語モデルは専門家のようなグラフを分析できるか?ベンチマーク、データセット、モデル

Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models ( http://arxiv.org/abs/2409.19667v2 )

ライセンス: Link先を確認
Xin Li, Weize Chen, Qizhi Chu, Haopeng Li, Zhaojun Sun, Ran Li, Chen Qian, Yiwei Wei, Zhiyuan Liu, Chuan Shi, Maosong Sun, Cheng Yang, (参考訳) グラフの分析の必要性は、ソーシャルネットワークから生物研究・レコメンデーションシステムまで、さまざまな分野にまたがっている。 したがって、グラフ処理のための大規模言語モデル(LLM)の実現は、より高度な汎用インテリジェンスに向けた重要なステップである。 しかしながら、グラフ解析に関する現在のLLMベンチマークでは、グラフトポロジを記述するプロンプトを直接推論する必要があるため、数十のノードしか持たない小さなグラフに限られる。 対照的に、人間の専門家は通常、タスク解決のための一般的なライブラリに基づいたプログラムを書くため、異なるスケールでグラフを処理できる。 LLMはプロフェッショナルのようなグラフを分析できますか? 本稿では,3種類のグラフタスクを含む手作業によるベンチマークであるProGraphを紹介する。 ベンチマークでは、生の入力を直接推論するのではなく、プログラミングに基づくソリューションが期待されている。 その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。 このギャップを埋めるために,6つの広く使用されているグラフライブラリに基づいたクローリングドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。 文書検索と微調整を施したオープンソースLCMをコード上に拡張することにより,その精度が11~32%向上したことを示す。 以上の結果から,構造化データ処理におけるLLMの能力はいまだ過小評価されており,LLM4Graphがグラフ解析の習熟度を高める上での有効性を示している。 ベンチマーク、データセット、拡張オープンソースモデルはhttps://github.com/BUPT-GAMMA/ProGraphで公開されている。

The need to analyze graphs is ubiquitous across various fields, from social networks to biological research and recommendation systems. Therefore, enabling the ability of large language models (LLMs) to process graphs is an important step toward more advanced general intelligence. However, current LLM benchmarks on graph analysis require models to directly reason over the prompts describing graph topology, and are thus limited to small graphs with only a few dozens of nodes. In contrast, human experts typically write programs based on popular libraries for task solving, and can thus handle graphs with different scales. To this end, a question naturally arises: can LLMs analyze graphs like professionals? In this paper, we introduce ProGraph, a manually crafted benchmark containing 3 categories of graph tasks. The benchmark expects solutions based on programming instead of directly reasoning over raw inputs. Our findings reveal that the performance of current LLMs is unsatisfactory, with the best model achieving only 36% accuracy. To bridge this gap, we propose LLM4Graph datasets, which include crawled documents and auto-generated codes based on 6 widely used graph libraries. By augmenting closed-source LLMs with document retrieval and fine-tuning open-source ones on the codes, we show 11-32% absolute improvements in their accuracies. Our results underscore that the capabilities of LLMs in handling structured data are still under-explored, and show the effectiveness of LLM4Graph in enhancing LLMs' proficiency of graph analysis. The benchmark, datasets and enhanced open-source models are available at https://github.com/BUPT-GAMMA/ProGraph.
翻訳日:2024-11-05 21:49:14 公開日:2024-10-19
# LMOD:大規模視線モデルのための大規模マルチモーダル眼科データセットとベンチマーク

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models ( http://arxiv.org/abs/2410.01620v1 )

ライセンス: Link先を確認
Zhenyue Qin, Yu Yin, Dylan Campbell, Xuansheng Wu, Ke Zou, Yih-Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen, (参考訳) 眼科は診断と治療計画のための詳細な画像解析に大きく依存している。 大きな視覚言語モデル(LVLM)は複雑な視覚情報を理解することを約束しているが、眼科画像におけるそれらの性能はいまだ探索されていない。 本稿では,眼科画像のLVLMを評価するためのデータセットとベンチマークであるLMODを紹介し,解剖学的理解,診断分析,人口統計学的抽出について紹介する。 LMODinは21,993枚の光学コヒーレンストモグラフィー、走査型レーザー眼科鏡、眼写真、手術シーン、カラーファンドス写真を含む。 我々は、13の最先端のLVLMをベンチマークし、眼科画像の解釈には完璧ではないことを発見した。 モデルは、診断分析と人口統計抽出に苦慮し、空間的推論の弱点、診断分析、領域外クエリの処理、眼科画像のバイオマーカーを扱うための安全ガードを明らかにする。

Ophthalmology relies heavily on detailed image analysis for diagnosis and treatment planning. While large vision-language models (LVLMs) have shown promise in understanding complex visual information, their performance on ophthalmology images remains underexplored. We introduce LMOD, a dataset and benchmark for evaluating LVLMs on ophthalmology images, covering anatomical understanding, diagnostic analysis, and demographic extraction. LMODincludes 21,993 images spanning optical coherence tomography, scanning laser ophthalmoscopy, eye photos, surgical scenes, and color fundus photographs. We benchmark 13 state-of-the-art LVLMs and find that they are far from perfect for comprehending ophthalmology images. Models struggle with diagnostic analysis and demographic extraction, reveal weaknesses in spatial reasoning, diagnostic analysis, handling out-of-domain queries, and safeguards for handling biomarkers of ophthalmology images.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-19
# LMOD:大規模視線モデルのための大規模マルチモーダル眼科データセットとベンチマーク

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models ( http://arxiv.org/abs/2410.01620v2 )

ライセンス: Link先を確認
Zhenyue Qin, Yu Yin, Dylan Campbell, Xuansheng Wu, Ke Zou, Yih-Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen, (参考訳) 眼科は診断と治療計画のための詳細な画像解析に大きく依存している。 大きな視覚言語モデル(LVLM)は複雑な視覚情報を理解することを約束しているが、眼科画像におけるそれらの性能はいまだ探索されていない。 本稿では,眼科画像のLVLMを評価するためのデータセットとベンチマークであるLMODを紹介し,解剖学的理解,診断分析,人口統計学的抽出について紹介する。 LMODinは21,993枚の光学コヒーレンストモグラフィー、走査型レーザー眼科鏡、眼写真、手術シーン、カラーファンドス写真を含む。 我々は、13の最先端のLVLMをベンチマークし、眼科画像の解釈には完璧ではないことを発見した。 モデルは、診断分析と人口統計抽出に苦慮し、空間的推論の弱点、診断分析、領域外クエリの処理、眼科画像のバイオマーカーを扱うための安全ガードを明らかにする。

Ophthalmology relies heavily on detailed image analysis for diagnosis and treatment planning. While large vision-language models (LVLMs) have shown promise in understanding complex visual information, their performance on ophthalmology images remains underexplored. We introduce LMOD, a dataset and benchmark for evaluating LVLMs on ophthalmology images, covering anatomical understanding, diagnostic analysis, and demographic extraction. LMODincludes 21,993 images spanning optical coherence tomography, scanning laser ophthalmoscopy, eye photos, surgical scenes, and color fundus photographs. We benchmark 13 state-of-the-art LVLMs and find that they are far from perfect for comprehending ophthalmology images. Models struggle with diagnostic analysis and demographic extraction, reveal weaknesses in spatial reasoning, diagnostic analysis, handling out-of-domain queries, and safeguards for handling biomarkers of ophthalmology images.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-19
# LMOD:大規模視線モデルのための大規模マルチモーダル眼科データセットとベンチマーク

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models ( http://arxiv.org/abs/2410.01620v3 )

ライセンス: Link先を確認
Zhenyue Qin, Yu Yin, Dylan Campbell, Xuansheng Wu, Ke Zou, Yih-Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen, (参考訳) 眼科は診断と治療計画のための詳細な画像解析に大きく依存している。 大きな視覚言語モデル(LVLM)は複雑な視覚情報を理解することを約束しているが、眼科画像におけるそれらの性能はいまだ探索されていない。 本稿では,眼科画像のLVLMを評価するためのデータセットとベンチマークであるLMODを紹介し,解剖学的理解,診断分析,人口統計学的抽出について紹介する。 LMODinは21,993枚の光学コヒーレンストモグラフィー、走査型レーザー眼科鏡、眼写真、手術シーン、カラーファンドス写真を含む。 我々は、13の最先端のLVLMをベンチマークし、眼科画像の解釈には完璧ではないことを発見した。 モデルは、診断分析と人口統計抽出に苦慮し、空間的推論の弱点、診断分析、領域外クエリの処理、眼科画像のバイオマーカーを扱うための安全ガードを明らかにする。

Ophthalmology relies heavily on detailed image analysis for diagnosis and treatment planning. While large vision-language models (LVLMs) have shown promise in understanding complex visual information, their performance on ophthalmology images remains underexplored. We introduce LMOD, a dataset and benchmark for evaluating LVLMs on ophthalmology images, covering anatomical understanding, diagnostic analysis, and demographic extraction. LMODincludes 21,993 images spanning optical coherence tomography, scanning laser ophthalmoscopy, eye photos, surgical scenes, and color fundus photographs. We benchmark 13 state-of-the-art LVLMs and find that they are far from perfect for comprehending ophthalmology images. Models struggle with diagnostic analysis and demographic extraction, reveal weaknesses in spatial reasoning, diagnostic analysis, handling out-of-domain queries, and safeguards for handling biomarkers of ophthalmology images.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-19
# LMOD:大規模視線モデルのための大規模マルチモーダル眼科データセットとベンチマーク

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models ( http://arxiv.org/abs/2410.01620v4 )

ライセンス: Link先を確認
Zhenyue Qin, Yu Yin, Dylan Campbell, Xuansheng Wu, Ke Zou, Yih-Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen, (参考訳) 視力低下による眼疾患の流行は、治療に時間がかかりすぎ、未診断または診断が遅れているケースが多いため、世界的な重荷となっている。 大規模視覚言語モデル(LVLM)は、解剖情報を理解し、眼疾患を診断し、解釈と追跡計画の起草を支援する可能性があり、臨床医の負担を軽減し、アイケアへのアクセスを改善する。 しかし、眼科固有の応用において、LVLMの性能を評価するための限られたベンチマークが利用可能である。 本研究では,(1)光コヒーレンス断層撮影,カラー眼底撮影,走査レーザー眼鏡,レンズ写真,手術シーン,(2)自由テキスト,人口統計,疾患バイオマーカー情報,(3)解剖学的情報理解,疾患診断,サブグループ分析の5つの眼科画像モダリティから成る21,993例からなる大規模マルチモーダル眼科ベンチマークLMODを紹介する。 さらに、クローズドソース、オープンソース、医療ドメインの13の最先端のLVLM代表をベンチマークした。 その結果,眼科領域では他の領域と比較してLVLMが有意に低下した。 体系的誤り分析はさらに、誤分類、棄却の失敗、一貫性のない推論、幻覚、正当化のない主張、ドメイン固有の知識の欠如の6つの主要な障害モードを特定した。 対照的に、ベースラインとしてこれらのタスクを特別に訓練した教師付きニューラルネットワークは、高い精度を示した。 これらの結果から,眼科用LVLMの開発・検証におけるベンチマークの必要性が示唆された。

The prevalence of vision-threatening eye diseases is a significant global burden, with many cases remaining undiagnosed or diagnosed too late for effective treatment. Large vision-language models (LVLMs) have the potential to assist in understanding anatomical information, diagnosing eye diseases, and drafting interpretations and follow-up plans, thereby reducing the burden on clinicians and improving access to eye care. However, limited benchmarks are available to assess LVLMs' performance in ophthalmology-specific applications. In this study, we introduce LMOD, a large-scale multimodal ophthalmology benchmark consisting of 21,993 instances across (1) five ophthalmic imaging modalities: optical coherence tomography, color fundus photographs, scanning laser ophthalmoscopy, lens photographs, and surgical scenes; (2) free-text, demographic, and disease biomarker information; and (3) primary ophthalmology-specific applications such as anatomical information understanding, disease diagnosis, and subgroup analysis. In addition, we benchmarked 13 state-of-the-art LVLM representatives from closed-source, open-source, and medical domains. The results demonstrate a significant performance drop for LVLMs in ophthalmology compared to other domains. Systematic error analysis further identified six major failure modes: misclassification, failure to abstain, inconsistent reasoning, hallucination, assertions without justification, and lack of domain-specific knowledge. In contrast, supervised neural networks specifically trained on these tasks as baselines demonstrated high accuracy. These findings underscore the pressing need for benchmarks in the development and validation of ophthalmology-specific LVLMs.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-19
# 性的な引用の実践におけるバイアス--探索的研究とマシュー効果とマチルダ効果の考察

Biases in gendered citation practices: an exploratory study and some reflections on the Matthew and Matilda effects ( http://arxiv.org/abs/2410.02801v1 )

ライセンス: Link先を確認
Karolina Tchilinguirova, Alvine Boaye Belle, Gouled Mahamud, (参考訳) 近年の研究では、一部の社会文化的グループ(例えば、女性、人種化の人々)に属する研究者は、通常、支配的なグループに属する他の研究者よりも少ないと結論付けている。 これは通常、参照リストに引用バイアスが存在するためである。 社会文化的グループの研究者に対するこれらの引用バイアスは、必然的に、記事の影響評価において不公平と不正確を生じさせる可能性がある。 これらの引用バイアスは、昇進、保留、助成金、賞、共同の機会、出版物において大きな格差をもたらす可能性がある。 本稿では,ソフトウェア工学(SE)文献における性的な引用の実践の分析を目的とした,最初の研究を行う。 本研究は,SE分野における引用の実践を反映し,分析対象に関するより堅牢な実証研究の出発点となる。 この結果から,SE分野における引用実践の公平性を達成するためには,まだいくつかの努力が必要であることが示唆された。 このような取り組みは、特に、SEジャーナルや会議に掲載される原稿に引用多様性のステートメントを含めることによって構成される。

Recent studies conducted in different scientific disciplines have concluded that researchers belonging to some socio-cultural groups (e.g., women, racialized people) are usually less cited than other researchers belonging to dominating groups. This is usually due to the presence of citation biases in reference lists. These citation biases towards researchers from some socio-cultural groups may inevitably cause unfairness and inaccuracy in the assessment of articles impact. These citation biases may therefore translate to significant disparities in promotion, retention, grant funding, awards, collaborative opportunities, and publications. In this paper, we conduct the first study aiming at analyzing gendered citation practices in the software engineering (SE) literature. Our study allows reflecting on citations practices adopted in the SE field and serves as a starting point for more robust empirical studies on the analyzed topic. Our results show that some efforts still need to be done to achieve fairness in citation practices in the SE field. Such efforts may notably consist in the inclusion of citation diversity statements in manuscripts submitted for publication in SE journals and conferences.
翻訳日:2024-11-03 05:44:23 公開日:2024-10-19
# 性的な引用の実践におけるバイアス--探索的研究とマシュー効果とマチルダ効果の考察

Biases in gendered citation practices: an exploratory study and some reflections on the Matthew and Matilda effects ( http://arxiv.org/abs/2410.02801v2 )

ライセンス: Link先を確認
Karolina Tchilinguirova, Alvine Boaye Belle, Gouled Mahamud, (参考訳) 近年の研究では、一部の社会文化的グループ(例えば、女性、人種化の人々)に属する研究者は、通常、支配的なグループに属する他の研究者よりも少ないと結論付けている。 これは通常、参照リストに引用バイアスが存在するためである。 社会文化的グループの研究者に対するこれらの引用バイアスは、必然的に、記事の影響評価において不公平と不正確を生じさせる可能性がある。 これらの引用バイアスは、昇進、保留、助成金、賞、共同の機会、出版物において大きな格差をもたらす可能性がある。 本稿では,ソフトウェア工学(SE)文献における性的な引用の実践の分析を目的とした,最初の研究を行う。 本研究は,SE分野における引用の実践を反映し,分析対象に関するより堅牢な実証研究の出発点となる。 この結果から,SE分野における引用実践の公平性を達成するためには,まだいくつかの努力が必要であることが示唆された。 このような取り組みは、特に、SEジャーナルや会議に掲載される原稿に引用多様性のステートメントを含めることによって構成される。

Recent studies conducted in different scientific disciplines have concluded that researchers belonging to some socio-cultural groups (e.g., women, racialized people) are usually less cited than other researchers belonging to dominating groups. This is usually due to the presence of citation biases in reference lists. These citation biases towards researchers from some socio-cultural groups may inevitably cause unfairness and inaccuracy in the assessment of articles impact. These citation biases may therefore translate to significant disparities in promotion, retention, grant funding, awards, collaborative opportunities, and publications. In this paper, we conduct the first study aiming at analyzing gendered citation practices in the software engineering (SE) literature. Our study allows reflecting on citations practices adopted in the SE field and serves as a starting point for more robust empirical studies on the analyzed topic. Our results show that some efforts still need to be done to achieve fairness in citation practices in the SE field. Such efforts may notably consist in the inclusion of citation diversity statements in manuscripts submitted for publication in SE journals and conferences.
翻訳日:2024-11-03 05:44:23 公開日:2024-10-19
# LLM駆動型コンテキスト拡張とプレフィックス付きVAEによる短文トピックモデリングの強化

Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs ( http://arxiv.org/abs/2410.03071v1 )

ライセンス: Link先を確認
Pritom Saha Akash, Kevin Chen-Chuan Chang, (参考訳) トピックモデリングは、文書の集合の中に隠されたテーマを明らかにするための強力なテクニックである。 しかし、従来のトピックモデルの有効性は、短いテキストに欠けている十分な単語共起に依存していることが多い。 したがって、確率的であれ神経的であれ、既存のアプローチは、そのようなデータから意味のあるパターンを抽出するのにしばしば苦労し、一貫性のないトピックをもたらす。 この課題に対処するために,話題モデリングを適用する前に,大規模言語モデル(LLM)を用いて短いテキストをより詳細なシーケンスに拡張する手法を提案する。 そこで本研究では,LLM生成テキストから意味的不整合の問題を解消し,より小さな言語モデルと短文トピックモデリングのための変分オートエンコーダを併用したトレーニングを行うためのプレフィックスチューニングを提案する。 提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,現在最先端のトピックモデルよりも優れており,短文のトピックモデリング性能を著しく向上させる。

Topic modeling is a powerful technique for uncovering hidden themes within a collection of documents. However, the effectiveness of traditional topic models often relies on sufficient word co-occurrence, which is lacking in short texts. Therefore, existing approaches, whether probabilistic or neural, frequently struggle to extract meaningful patterns from such data, resulting in incoherent topics. To address this challenge, we propose a novel approach that leverages large language models (LLMs) to extend short texts into more detailed sequences before applying topic modeling. To further improve the efficiency and solve the problem of semantic inconsistency from LLM-generated texts, we propose to use prefix tuning to train a smaller language model coupled with a variational autoencoder for short-text topic modeling. Our method significantly improves short-text topic modeling performance, as demonstrated by extensive experiments on real-world datasets with extreme data sparsity, outperforming current state-of-the-art topic models.
翻訳日:2024-11-03 04:06:08 公開日:2024-10-19
# LLM駆動型コンテキスト拡張とプレフィックス付きVAEによる短文トピックモデリングの強化

Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs ( http://arxiv.org/abs/2410.03071v2 )

ライセンス: Link先を確認
Pritom Saha Akash, Kevin Chen-Chuan Chang, (参考訳) トピックモデリングは、文書の集合の中に隠されたテーマを明らかにするための強力なテクニックである。 しかし、従来のトピックモデルの有効性は、短いテキストに欠けている十分な単語共起に依存していることが多い。 したがって、確率的であれ神経的であれ、既存のアプローチは、そのようなデータから意味のあるパターンを抽出するのにしばしば苦労し、一貫性のないトピックをもたらす。 この課題に対処するために,話題モデリングを適用する前に,大規模言語モデル(LLM)を用いて短いテキストをより詳細なシーケンスに拡張する手法を提案する。 そこで本研究では,LLM生成テキストから意味的不整合の問題を解消し,より小さな言語モデルと短文トピックモデリングのための変分オートエンコーダを併用したトレーニングを行うためのプレフィックスチューニングを提案する。 提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,現在最先端のトピックモデルよりも優れており,短文のトピックモデリング性能を著しく向上させる。

Topic modeling is a powerful technique for uncovering hidden themes within a collection of documents. However, the effectiveness of traditional topic models often relies on sufficient word co-occurrence, which is lacking in short texts. Therefore, existing approaches, whether probabilistic or neural, frequently struggle to extract meaningful patterns from such data, resulting in incoherent topics. To address this challenge, we propose a novel approach that leverages large language models (LLMs) to extend short texts into more detailed sequences before applying topic modeling. To further improve the efficiency and solve the problem of semantic inconsistency from LLM-generated texts, we propose to use prefix tuning to train a smaller language model coupled with a variational autoencoder for short-text topic modeling. Our method significantly improves short-text topic modeling performance, as demonstrated by extensive experiments on real-world datasets with extreme data sparsity, outperforming current state-of-the-art topic models.
翻訳日:2024-11-03 04:06:08 公開日:2024-10-19
# マイクロビデオレコメンデーションのためのドリーミングユーザマルチモーダル表現

Dreamming User Multimodal Representation for Micro-Video Recommendation ( http://arxiv.org/abs/2410.03538v1 )

ライセンス: Link先を確認
Chengzhi Lin, Hezheng Lin, Shuchang Liu, Cangguang Ruan, LingJing Xu, Dezhao Yang, Chuyuan Wang, Yongqi Liu, (参考訳) オンラインのマイクロビデオプラットフォームの普及は、情報過負荷を軽減し、適切なコンテンツを提供するための高度なレコメンデーションシステムの必要性を浮き彫りにした。 進歩にも拘わらず、ダイナミックなユーザーの興味を正確にかつ迅速に捉えることは、依然として困難な課題だ。 異なるデータモダリティが共有統計モデルに収束することを示すプラトン表現仮説(Platonic Representation hypothesis)に着想を得て,DreamUMM(Dreaming User Multi-Modal Representation)を紹介した。 DreamUMMは、ユーザビデオの好みとマルチモーダルな類似性を関連づけたクローズドフォームのソリューションを採用しており、ユーザ興味が統一マルチモーダル空間で効果的に表現できるという仮説を立てている。 また,近年のユーザ行動データに欠けるシナリオに対して,候補ビデオのみから興味を引いたCandidate-DreamUMMを提案する。 大規模なオンラインA/Bテストでは、アクティブデイやプレイ数など、ユーザエンゲージメントの指標が大幅に改善されている。 DreamUMMは、毎日数億人のアクティブユーザーを持つ2つのマイクロビデオプラットフォームにデプロイされ、パーソナライズされたマイクロビデオコンテンツ配信における実用性とスケーラビリティを示している。 本研究は,マルチモーダル空間におけるユーザ関心表現の可能性を支える実証的証拠を提供することにより,表現収束の探求に寄与する。

The proliferation of online micro-video platforms has underscored the necessity for advanced recommender systems to mitigate information overload and deliver tailored content. Despite advancements, accurately and promptly capturing dynamic user interests remains a formidable challenge. Inspired by the Platonic Representation Hypothesis, which posits that different data modalities converge towards a shared statistical model of reality, we introduce DreamUMM (Dreaming User Multi-Modal Representation), a novel approach leveraging user historical behaviors to create real-time user representation in a multimoda space. DreamUMM employs a closed-form solution correlating user video preferences with multimodal similarity, hypothesizing that user interests can be effectively represented in a unified multimodal space. Additionally, we propose Candidate-DreamUMM for scenarios lacking recent user behavior data, inferring interests from candidate videos alone. Extensive online A/B tests demonstrate significant improvements in user engagement metrics, including active days and play count. The successful deployment of DreamUMM in two micro-video platforms with hundreds of millions of daily active users, illustrates its practical efficacy and scalability in personalized micro-video content delivery. Our work contributes to the ongoing exploration of representational convergence by providing empirical evidence supporting the potential for user interest representations to reside in a multimodal space.
翻訳日:2024-11-02 21:39:44 公開日:2024-10-19
# マイクロビデオレコメンデーションのためのプラトン表現仮説に基づくドリームユーザマルチモーダル表現

Dreaming User Multimodal Representation Guided by The Platonic Representation Hypothesis for Micro-Video Recommendation ( http://arxiv.org/abs/2410.03538v2 )

ライセンス: Link先を確認
Chengzhi Lin, Hezheng Lin, Shuchang Liu, Cangguang Ruan, LingJing Xu, Dezhao Yang, Chuyuan Wang, Yongqi Liu, (参考訳) オンラインのマイクロビデオプラットフォームの普及は、情報過負荷を軽減し、適切なコンテンツを提供するための高度なレコメンデーションシステムの必要性を浮き彫りにした。 進歩にも拘わらず、ダイナミックなユーザーの興味を正確にかつ迅速に捉えることは、依然として困難な課題だ。 異なるデータモダリティが共有統計モデルに収束することを示すプラトン表現仮説(Platonic Representation hypothesis)に着想を得て,DreamUMM(Dreaming User Multi-Modal Representation)を紹介した。 DreamUMMは、ユーザビデオの好みとマルチモーダルな類似性を関連づけたクローズドフォームのソリューションを採用しており、ユーザ興味が統一マルチモーダル空間で効果的に表現できるという仮説を立てている。 また,近年のユーザ行動データに欠けるシナリオに対して,候補ビデオのみから興味を引いたCandidate-DreamUMMを提案する。 大規模なオンラインA/Bテストでは、アクティブデイやプレイ数など、ユーザエンゲージメントの指標が大幅に改善されている。 DreamUMMは、毎日数億人のアクティブユーザーを持つ2つのマイクロビデオプラットフォームにデプロイされ、パーソナライズされたマイクロビデオコンテンツ配信における実用性とスケーラビリティを示している。 本研究は,マルチモーダル空間におけるユーザ関心表現の可能性を支える実証的証拠を提供することにより,表現収束の探求に寄与する。

The proliferation of online micro-video platforms has underscored the necessity for advanced recommender systems to mitigate information overload and deliver tailored content. Despite advancements, accurately and promptly capturing dynamic user interests remains a formidable challenge. Inspired by the Platonic Representation Hypothesis, which posits that different data modalities converge towards a shared statistical model of reality, we introduce DreamUMM (Dreaming User Multi-Modal Representation), a novel approach leveraging user historical behaviors to create real-time user representation in a multimoda space. DreamUMM employs a closed-form solution correlating user video preferences with multimodal similarity, hypothesizing that user interests can be effectively represented in a unified multimodal space. Additionally, we propose Candidate-DreamUMM for scenarios lacking recent user behavior data, inferring interests from candidate videos alone. Extensive online A/B tests demonstrate significant improvements in user engagement metrics, including active days and play count. The successful deployment of DreamUMM in two micro-video platforms with hundreds of millions of daily active users, illustrates its practical efficacy and scalability in personalized micro-video content delivery. Our work contributes to the ongoing exploration of representational convergence by providing empirical evidence supporting the potential for user interest representations to reside in a multimodal space.
翻訳日:2024-11-02 21:39:44 公開日:2024-10-19
# StreetSurfGS:平面型ガウススプラッティングによるスケーラブルな街路表面再構成

StreetSurfGS: Scalable Urban Street Surface Reconstruction with Planar-based Gaussian Splatting ( http://arxiv.org/abs/2410.04354v1 )

ライセンス: Link先を確認
Xiao Cui, Weicai Ye, Yifan Wang, Guofeng Zhang, Wengang Zhou, Tong He, Houqiang Li, (参考訳) 都市景観の再建は、自動運転や都市計画などの応用において重要な役割を担っている。 これらのシーンは、長く狭いカメラ軌道、オクルージョン、複雑なオブジェクト関係、複数のスケールにわたるデータ空間によって特徴づけられる。 近年の進歩にもかかわらず、主にオブジェクト中心のシナリオ向けに設計された既存の表面再構成手法は、街路景観の特徴に効果的に対応するのに苦労している。 この課題に対処するため,我々は,スケーラブルな街路景観の再現に適したガウシアン・スプレイティングを利用する最初の方法であるStreetSurfGSを紹介した。 StreetSurfGSは、平面ベースのオクツリー表現とセグメンテーショントレーニングを使用して、メモリコストを削減し、ユニークなカメラ特性に対応し、スケーラビリティを確保する。 また,物体の重なりによる深度不正確さを軽減するため,不正確な境界点や外れ値を排除するために,正規化内での平滑化戦略を提案する。 さらに、スパースビューとマルチスケールの課題に対処するために、隣接する情報と長期情報を活用する2段階マッチング戦略を用いる。 大規模な実験は、新しいビュー合成と表面再構成の両方においてStreetSurfGSの有効性を検証する。

Reconstructing urban street scenes is crucial due to its vital role in applications such as autonomous driving and urban planning. These scenes are characterized by long and narrow camera trajectories, occlusion, complex object relationships, and data sparsity across multiple scales. Despite recent advancements, existing surface reconstruction methods, which are primarily designed for object-centric scenarios, struggle to adapt effectively to the unique characteristics of street scenes. To address this challenge, we introduce StreetSurfGS, the first method to employ Gaussian Splatting specifically tailored for scalable urban street scene surface reconstruction. StreetSurfGS utilizes a planar-based octree representation and segmented training to reduce memory costs, accommodate unique camera characteristics, and ensure scalability. Additionally, to mitigate depth inaccuracies caused by object overlap, we propose a guided smoothing strategy within regularization to eliminate inaccurate boundary points and outliers. Furthermore, to address sparse views and multi-scale challenges, we use a dual-step matching strategy that leverages adjacent and long-term information. Extensive experiments validate the efficacy of StreetSurfGS in both novel view synthesis and surface reconstruction.
翻訳日:2024-11-02 08:20:17 公開日:2024-10-19
# StreetSurfGS:平面型ガウススプラッティングによるスケーラブルな街路表面再構成

StreetSurfGS: Scalable Urban Street Surface Reconstruction with Planar-based Gaussian Splatting ( http://arxiv.org/abs/2410.04354v2 )

ライセンス: Link先を確認
Xiao Cui, Weicai Ye, Yifan Wang, Guofeng Zhang, Wengang Zhou, Houqiang Li, (参考訳) 都市景観の再建は、自動運転や都市計画などの応用において重要な役割を担っている。 これらのシーンは、長く狭いカメラ軌道、オクルージョン、複雑なオブジェクト関係、複数のスケールにわたるデータ空間によって特徴づけられる。 近年の進歩にもかかわらず、主にオブジェクト中心のシナリオ向けに設計された既存の表面再構成手法は、街路景観の特徴に効果的に対応するのに苦労している。 この課題に対処するため,我々は,スケーラブルな街路景観の再現に適したガウシアン・スプレイティングを利用する最初の方法であるStreetSurfGSを紹介した。 StreetSurfGSは、平面ベースのオクツリー表現とセグメンテーショントレーニングを使用して、メモリコストを削減し、ユニークなカメラ特性に対応し、スケーラビリティを確保する。 また,物体の重なりによる深度不正確さを軽減するため,不正確な境界点や外れ値を排除するために,正規化内での平滑化戦略を提案する。 さらに、スパースビューとマルチスケールの課題に対処するために、隣接する情報と長期情報を活用する2段階マッチング戦略を用いる。 大規模な実験は、新しいビュー合成と表面再構成の両方においてStreetSurfGSの有効性を検証する。

Reconstructing urban street scenes is crucial due to its vital role in applications such as autonomous driving and urban planning. These scenes are characterized by long and narrow camera trajectories, occlusion, complex object relationships, and data sparsity across multiple scales. Despite recent advancements, existing surface reconstruction methods, which are primarily designed for object-centric scenarios, struggle to adapt effectively to the unique characteristics of street scenes. To address this challenge, we introduce StreetSurfGS, the first method to employ Gaussian Splatting specifically tailored for scalable urban street scene surface reconstruction. StreetSurfGS utilizes a planar-based octree representation and segmented training to reduce memory costs, accommodate unique camera characteristics, and ensure scalability. Additionally, to mitigate depth inaccuracies caused by object overlap, we propose a guided smoothing strategy within regularization to eliminate inaccurate boundary points and outliers. Furthermore, to address sparse views and multi-scale challenges, we use a dual-step matching strategy that leverages adjacent and long-term information. Extensive experiments validate the efficacy of StreetSurfGS in both novel view synthesis and surface reconstruction.
翻訳日:2024-11-02 08:20:17 公開日:2024-10-19
# アダムの収束度を総合的に分析するフレームワーク:SGDでギャップを埋める

A Comprehensive Framework for Analyzing the Convergence of Adam: Bridging the Gap with SGD ( http://arxiv.org/abs/2410.04458v1 )

ライセンス: Link先を確認
Ruinan Jin, Xiao Li, Yaoliang Yu, Baoxiang Wang, (参考訳) アダプティブモーメント推定(アダプティブモーメント推定、Adaptive Moment Estimation、Adam)は、大規模データの処理において、適応的な学習率と効率性を備えた、ディープラーニングの基盤となる最適化アルゴリズムである。 しかし、その実際的な成功にもかかわらず、アダムの収束の理論的理解は、ほぼ確実に有界な確率勾配や一様有界な勾配といった厳密な仮定によって制限されており、これは確率勾配勾配(SGD)の分析に通常必要とされるものよりも制限的である。 本稿では,Adamの収束特性を解析するための,新しい包括的枠組みを提案する。 このフレームワークはアダムの収束を確立するための汎用的なアプローチを提供する。 具体的には、Adam がほぼ確実な意味で漸近的(最後の反復感覚)収束と、SGD によく用いられる緩和された仮定、すなわち \(L\)-滑らかさと ABC の不等式の下での \(L_1\) 感覚の両方を達成することを証明している。 一方、同じ仮定の下で、AdamはSGDと似た非漸近的なサンプル複雑性を持つことを示す。

Adaptive Moment Estimation (Adam) is a cornerstone optimization algorithm in deep learning, widely recognized for its flexibility with adaptive learning rates and efficiency in handling large-scale data. However, despite its practical success, the theoretical understanding of Adam's convergence has been constrained by stringent assumptions, such as almost surely bounded stochastic gradients or uniformly bounded gradients, which are more restrictive than those typically required for analyzing stochastic gradient descent (SGD). In this paper, we introduce a novel and comprehensive framework for analyzing the convergence properties of Adam. This framework offers a versatile approach to establishing Adam's convergence. Specifically, we prove that Adam achieves asymptotic (last iterate sense) convergence in both the almost sure sense and the \(L_1\) sense under the relaxed assumptions typically used for SGD, namely \(L\)-smoothness and the ABC inequality. Meanwhile, under the same assumptions, we show that Adam attains non-asymptotic sample complexity bounds similar to those of SGD.
翻訳日:2024-11-02 07:25:54 公開日:2024-10-19
# アダムの収束度を総合的に分析するフレームワーク:SGDでギャップを埋める

A Comprehensive Framework for Analyzing the Convergence of Adam: Bridging the Gap with SGD ( http://arxiv.org/abs/2410.04458v2 )

ライセンス: Link先を確認
Ruinan Jin, Xiao Li, Yaoliang Yu, Baoxiang Wang, (参考訳) アダプティブモーメント推定(アダプティブモーメント推定、Adaptive Moment Estimation、Adam)は、大規模データの処理において、適応的な学習率と効率性を備えた、ディープラーニングの基盤となる最適化アルゴリズムである。 しかし、その実際的な成功にもかかわらず、アダムの収束の理論的理解は、ほぼ確実に有界な確率勾配や一様有界な勾配といった厳密な仮定によって制限されており、これは確率勾配勾配(SGD)の分析に通常必要とされるものよりも制限的である。 本稿では,Adamの収束特性を解析するための,新しい包括的枠組みを提案する。 このフレームワークはアダムの収束を確立するための汎用的なアプローチを提供する。 具体的には、Adam がほぼ確実な意味で漸近的(最後の反復感覚)収束と、SGD によく用いられる緩和された仮定、すなわち \(L\)-滑らかさと ABC の不等式の下での \(L_1\) 感覚の両方を達成することを証明している。 一方、同じ仮定の下で、AdamはSGDと似た非漸近的なサンプル複雑性を持つことを示す。

Adaptive Moment Estimation (Adam) is a cornerstone optimization algorithm in deep learning, widely recognized for its flexibility with adaptive learning rates and efficiency in handling large-scale data. However, despite its practical success, the theoretical understanding of Adam's convergence has been constrained by stringent assumptions, such as almost surely bounded stochastic gradients or uniformly bounded gradients, which are more restrictive than those typically required for analyzing stochastic gradient descent (SGD). In this paper, we introduce a novel and comprehensive framework for analyzing the convergence properties of Adam. This framework offers a versatile approach to establishing Adam's convergence. Specifically, we prove that Adam achieves asymptotic (last iterate sense) convergence in both the almost sure sense and the \(L_1\) sense under the relaxed assumptions typically used for SGD, namely \(L\)-smoothness and the ABC inequality. Meanwhile, under the same assumptions, we show that Adam attains non-asymptotic sample complexity bounds similar to those of SGD.
翻訳日:2024-11-02 07:25:54 公開日:2024-10-19
# 部分観測可能性下での滑らかな信号からのグラフ学習の一次アルゴリズム

A First-Order Algorithm for Graph Learning from Smooth Signals Under Partial Observability ( http://arxiv.org/abs/2410.05707v1 )

ライセンス: Link先を確認
Chuansen Peng, Hanning Tang, Zhiguo Wang, Xiaojing Shen, (参考訳) 滑らかな信号からグラフ構造を学ぶことは、データサイエンスとエンジニアリングにおいて重要な問題である。 現実のシナリオにおける一般的な課題は、部分的に観測されたノードのみの可用性である。 隠れノードを考慮し、様々な最適化フレームワークを提案する研究もあるが、既存の手法は大規模ネットワークに必要な実用的効率を欠いている場合が多い。 本稿では,部分的に観測されたノードを持つスムーズな信号からネットワークトポロジを推定する問題に対処する。 本稿では,列間隔正規化に基づく1次アルゴリズムフレームワークと,低ランク制約に基づく1次アルゴリズムフレームワークを提案する。 我々は、理論収束保証を確立し、アルゴリズムの線形収束率を実証する。 合成データと実世界のデータの両方に対する大規模な実験により、我々の結果は理論上の予測と一致し、線形収束だけでなく、既存の手法よりも高速であることが示された。 我々の知る限りでは、線形収束と大規模ネットワークの実用性の両方を保証し、スムーズな信号からネットワーク構造を推定する1次アルゴリズムフレームワークを初めて提案する。

Learning graph structures from smooth signals is a significant problem in data science and engineering. A common challenge in real-world scenarios is the availability of only partially observed nodes. While some studies have considered hidden nodes and proposed various optimization frameworks, existing methods often lack the practical efficiency needed for large-scale networks or fail to provide theoretical convergence guarantees. In this paper, we address the problem of inferring network topologies from smooth signals with partially observed nodes. We propose a first-order algorithmic framework that includes two variants: one based on column sparsity regularization and the other on a low-rank constraint. We establish theoretical convergence guarantees and demonstrate the linear convergence rate of our algorithms. Extensive experiments on both synthetic and real-world data show that our results align with theoretical predictions, exhibiting not only linear convergence but also superior speed compared to existing methods. To the best of our knowledge, this is the first work to propose a first-order algorithmic framework for inferring network structures from smooth signals under partial observability, offering both guaranteed linear convergence and practical effectiveness for large-scale networks.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-19
# 部分観測可能性下における平滑信号からのネットワークトポロジ推定

Network Topology Inference from Smooth Signals Under Partial Observability ( http://arxiv.org/abs/2410.05707v2 )

ライセンス: Link先を確認
Chuansen Peng, Hanning Tang, Zhiguo Wang, Xiaojing Shen, (参考訳) 滑らかな信号からネットワークトポロジを推定することは、データサイエンスとエンジニアリングにおいて重要な問題である。 現実のシナリオにおける一般的な課題は、部分的に観測されたノードのみの可用性である。 隠れノードを考慮し、様々な最適化フレームワークを提案する研究もあるが、既存の手法は大規模ネットワークに必要な実用的効率を欠いている場合が多い。 本稿では,部分的に観測されたノードを持つスムーズな信号からネットワークトポロジを推定する問題に対処する。 本稿では,列間隔正規化に基づく1次アルゴリズムフレームワークと,低ランク制約に基づく1次アルゴリズムフレームワークを提案する。 我々は、理論収束保証を確立し、アルゴリズムの線形収束率を実証する。 合成データと実世界のデータの両方に対する大規模な実験により、我々の結果は理論上の予測と一致し、線形収束だけでなく、既存の手法よりも高速であることが示された。 我々の知る限りでは、線形収束と大規模ネットワークの実用性の両方を保証し、スムーズな信号からネットワーク構造を推定する1次アルゴリズムフレームワークを初めて提案する。

Inferring network topology from smooth signals is a significant problem in data science and engineering. A common challenge in real-world scenarios is the availability of only partially observed nodes. While some studies have considered hidden nodes and proposed various optimization frameworks, existing methods often lack the practical efficiency needed for large-scale networks or fail to provide theoretical convergence guarantees. In this paper, we address the problem of inferring network topologies from smooth signals with partially observed nodes. We propose a first-order algorithmic framework that includes two variants: one based on column sparsity regularization and the other on a low-rank constraint. We establish theoretical convergence guarantees and demonstrate the linear convergence rate of our algorithms. Extensive experiments on both synthetic and real-world data show that our results align with theoretical predictions, exhibiting not only linear convergence but also superior speed compared to existing methods. To the best of our knowledge, this is the first work to propose a first-order algorithmic framework for inferring network structures from smooth signals under partial observability, offering both guaranteed linear convergence and practical effectiveness for large-scale networks.
翻訳日:2024-11-01 16:59:10 公開日:2024-10-19
# トリソアップリフティング符号化3次元点雲の知覚的品質評価

Perceptual Quality Assessment of Trisoup-Lifting Encoded 3D Point Clouds ( http://arxiv.org/abs/2410.06689v1 )

ライセンス: Link先を確認
Juncheng Long, Honglei Su, Qi Liu, Hui Yuan, Wei Gao, Jiarun Song, Zhou Wang, (参考訳) no-reference bitstream-layer point cloud quality Assessment (PCQA) は、任意のネットワークノードで完全にデコードすることなく、リアルタイムな品質監視を実現することができる。 本研究では,Trisoup-Liftingエンコードされた3Dポイントクラウド専用のPCQAモデルを開発した。 具体的には,テクスチャビットレート/ポイント(TBPP),テクスチャ複雑性(TC),テクスチャ量子化パラメータ(TQP)の関係について検討する。 その後,TQPとTBPPを用いてTQPを推定した。 そこで我々は,TC,TBPP,TQPに基づくテクスチャ歪み評価モデルを構築した。 最終的に、このテクスチャ歪みモデルと幾何学減衰係数(tNSL)とを統合することにより、ストリームPCQ-TLと呼ばれるNRビットストリーム層PCQAモデルを得る。 さらに、この研究は、Trisoup-Liftingエンコーディングモード専用の最初の最大かつ最大のPCQAデータベースであるWPC6.0というデータベースを確立する。 M-PCCD、ICIP2020、提案したWPC6.0データベースの実験結果から、提案したストリームPCQ-TLモデルは、特に計算コストの観点から、既存のPCQAメトリクスとは対照的に、堅牢で顕著な性能を示すことが示唆された。 データセットとソースコードは \href{https://github.com/qdushl/Waterloo-Point-Cloud-Database-6.0}{\textit{https://github.com/qdushl/Waterloo-Point-Cloud-Database-6.0}} で公開される。

No-reference bitstream-layer point cloud quality assessment (PCQA) can be deployed without full decoding at any network node to achieve real-time quality monitoring. In this work, we develop the first PCQA model dedicated to Trisoup-Lifting encoded 3D point clouds by analyzing bitstreams without full decoding. Specifically, we investigate the relationship among texture bitrate per point (TBPP), texture complexity (TC) and texture quantization parameter (TQP) while geometry encoding is lossless. Subsequently, we estimate TC by utilizing TQP and TBPP. Then, we establish a texture distortion evaluation model based on TC, TBPP and TQP. Ultimately, by integrating this texture distortion model with a geometry attenuation factor, a function of trisoupNodeSizeLog2 (tNSL), we acquire a comprehensive NR bitstream-layer PCQA model named streamPCQ-TL. In addition, this work establishes a database named WPC6.0, the first and largest PCQA database dedicated to Trisoup-Lifting encoding mode, encompassing 400 distorted point clouds with both 4 geometric multiplied by 5 texture distortion levels. Experiment results on M-PCCD, ICIP2020 and the proposed WPC6.0 database suggest that the proposed streamPCQ-TL model exhibits robust and notable performance in contrast to existing advanced PCQA metrics, particularly in terms of computational cost. The dataset and source code will be publicly released at \href{https://github.com/qdushl/Waterloo-Point-Cloud-Database-6.0}{\textit{https://github.com/qdushl/Waterloo-Point-Cloud-Database-6.0}}
翻訳日:2024-11-01 04:19:50 公開日:2024-10-19
# トリソアップリフティング符号化3次元点雲の知覚的品質評価

Perceptual Quality Assessment of Trisoup-Lifting Encoded 3D Point Clouds ( http://arxiv.org/abs/2410.06689v2 )

ライセンス: Link先を確認
Juncheng Long, Honglei Su, Qi Liu, Hui Yuan, Wei Gao, Jiarun Song, Zhou Wang, (参考訳) no-reference bitstream-layer point cloud quality Assessment (PCQA) は、任意のネットワークノードで完全にデコードすることなく、リアルタイムな品質監視を実現することができる。 本研究では,Trisoup-Liftingエンコードされた3Dポイントクラウド専用のPCQAモデルを開発した。 具体的には,テクスチャビットレート/ポイント(TBPP),テクスチャ複雑性(TC),テクスチャ量子化パラメータ(TQP)の関係について検討する。 その後,TQPとTBPPを用いてTQPを推定した。 そこで我々は,TC,TBPP,TQPに基づくテクスチャ歪み評価モデルを構築した。 最終的に、このテクスチャ歪みモデルと幾何学減衰係数(tNSL)とを統合することにより、ストリームPCQ-TLと呼ばれるNRビットストリーム層PCQAモデルを得る。 さらに、この研究は、Trisoup-Liftingエンコーディングモード専用の最初の最大かつ最大のPCQAデータベースであるWPC6.0というデータベースを確立する。 M-PCCD、ICIP2020、提案したWPC6.0データベースの実験結果から、提案したストリームPCQ-TLモデルは、特に計算コストの観点から、既存のPCQAメトリクスとは対照的に、堅牢で顕著な性能を示すことが示唆された。 データセットとソースコードはhttps://github.com/qdushl/Waterloo-Point-Cloud-Database-6.0で公開される。

No-reference bitstream-layer point cloud quality assessment (PCQA) can be deployed without full decoding at any network node to achieve real-time quality monitoring. In this work, we develop the first PCQA model dedicated to Trisoup-Lifting encoded 3D point clouds by analyzing bitstreams without full decoding. Specifically, we investigate the relationship among texture bitrate per point (TBPP), texture complexity (TC) and texture quantization parameter (TQP) while geometry encoding is lossless. Subsequently, we estimate TC by utilizing TQP and TBPP. Then, we establish a texture distortion evaluation model based on TC, TBPP and TQP. Ultimately, by integrating this texture distortion model with a geometry attenuation factor, a function of trisoupNodeSizeLog2 (tNSL), we acquire a comprehensive NR bitstream-layer PCQA model named streamPCQ-TL. In addition, this work establishes a database named WPC6.0, the first and largest PCQA database dedicated to Trisoup-Lifting encoding mode, encompassing 400 distorted point clouds with both 4 geometric multiplied by 5 texture distortion levels. Experiment results on M-PCCD, ICIP2020 and the proposed WPC6.0 database suggest that the proposed streamPCQ-TL model exhibits robust and notable performance in contrast to existing advanced PCQA metrics, particularly in terms of computational cost. The dataset and source code will be publicly released at https://github.com/qdushl/Waterloo-Point-Cloud-Database-6.0
翻訳日:2024-11-01 04:19:50 公開日:2024-10-19
# 最適環境政策に向けて : 任意二部ネットワーク干渉による政策学習

Towards Optimal Environmental Policies: Policy Learning under Arbitrary Bipartite Network Interference ( http://arxiv.org/abs/2410.08362v1 )

ライセンス: Link先を確認
Raphael C. Kim, Falco J. Bargagli-Stoffi, Kevin L. Chen, Rachel C. Nethery, (参考訳) 大気汚染が心臓血管疾患や死亡の重荷に与える影響は十分に確立されている。 大気汚染の主な原因である石炭火力発電所への排出削減介入は、汚染に関連する健康負担を減らすための効果があるが、コストがかかる戦略であることが証明されている。 現実的なコスト制約を満たしつつ、最大の健康上の利益を達成する発電所をターゲットにすることは困難である。 主な困難は、特定の植物に介入する健康上の利益を定量化することである。 これは、発電所への介入が適用されるのに対して、潜在的に離れた地域社会では健康への影響が生じるため、さらに複雑である。 本稿では,Q-とA-ラーニングに基づく新しい政策学習手法を導入し,任意のBNIの下での最適政策を決定する。 我々は漸近特性を導出し、シミュレーションにおいて有限サンプルの有効性を示す。 我々は,医療クレーム,発電所データ,公害輸送ネットワークの包括的データセットに新しい手法を適用した。 本研究の目的は, 虚血性心疾患 (IHD) の入院を最小限に抑えるため, 発電所スクラブを設置するための最適戦略を決定することである。 年間IHD入院率は1万人あたり20.66-44.51から、異なるコスト制約下での最適政策により減少する可能性がある。

The substantial effect of air pollution on cardiovascular disease and mortality burdens is well-established. Emissions-reducing interventions on coal-fired power plants -- a major source of hazardous air pollution -- have proven to be an effective, but costly, strategy for reducing pollution-related health burdens. Targeting the power plants that achieve maximum health benefits while satisfying realistic cost constraints is challenging. The primary difficulty lies in quantifying the health benefits of intervening at particular plants. This is further complicated because interventions are applied on power plants, while health impacts occur in potentially distant communities, a setting known as bipartite network interference (BNI). In this paper, we introduce novel policy learning methods based on Q- and A-Learning to determine the optimal policy under arbitrary BNI. We derive asymptotic properties and demonstrate finite sample efficacy in simulations. We apply our novel methods to a comprehensive dataset of Medicare claims, power plant data, and pollution transport networks. Our goal is to determine the optimal strategy for installing power plant scrubbers to minimize ischemic heart disease (IHD) hospitalizations under various cost constraints. We find that annual IHD hospitalization rates could be reduced in a range from 20.66-44.51 per 10,000 person-years through optimal policies under different cost constraints.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-19
# 最適環境政策に向けて : 任意二部ネットワーク干渉による政策学習

Towards Optimal Environmental Policies: Policy Learning under Arbitrary Bipartite Network Interference ( http://arxiv.org/abs/2410.08362v2 )

ライセンス: Link先を確認
Raphael C. Kim, Falco J. Bargagli-Stoffi, Kevin L. Chen, Rachel C. Nethery, (参考訳) 大気汚染が心臓血管疾患や死亡の重荷に与える影響は十分に確立されている。 大気汚染の主な原因である石炭火力発電所への排出削減介入は、汚染に関連する健康負担を減らすための効果があるが、コストがかかる戦略であることが証明されている。 現実的なコスト制約を満たしつつ、最大の健康上の利益を達成する発電所をターゲットにすることは困難である。 主な困難は、特定の植物に介入する健康上の利益を定量化することである。 これは、発電所への介入が適用されるのに対して、潜在的に離れた地域社会では健康への影響が生じるため、さらに複雑である。 本稿では,Q-とA-ラーニングに基づく新しい政策学習手法を導入し,任意のBNIの下での最適政策を決定する。 我々は漸近特性を導出し、シミュレーションにおいて有限サンプルの有効性を示す。 我々は,医療クレーム,発電所データ,公害輸送ネットワークの包括的データセットに新しい手法を適用した。 本研究の目的は, 虚血性心疾患 (IHD) の入院を最小限に抑えるため, 発電所スクラブを設置するための最適戦略を決定することである。 年間IHD入院率は1万人あたり20.66-44.51から、異なるコスト制約下での最適政策により減少する可能性がある。

The substantial effect of air pollution on cardiovascular disease and mortality burdens is well-established. Emissions-reducing interventions on coal-fired power plants -- a major source of hazardous air pollution -- have proven to be an effective, but costly, strategy for reducing pollution-related health burdens. Targeting the power plants that achieve maximum health benefits while satisfying realistic cost constraints is challenging. The primary difficulty lies in quantifying the health benefits of intervening at particular plants. This is further complicated because interventions are applied on power plants, while health impacts occur in potentially distant communities, a setting known as bipartite network interference (BNI). In this paper, we introduce novel policy learning methods based on Q- and A-Learning to determine the optimal policy under arbitrary BNI. We derive asymptotic properties and demonstrate finite sample efficacy in simulations. We apply our novel methods to a comprehensive dataset of Medicare claims, power plant data, and pollution transport networks. Our goal is to determine the optimal strategy for installing power plant scrubbers to minimize ischemic heart disease (IHD) hospitalizations under various cost constraints. We find that annual IHD hospitalization rates could be reduced in a range from 20.66-44.51 per 10,000 person-years through optimal policies under different cost constraints.
翻訳日:2024-10-31 03:46:24 公開日:2024-10-19
# SportU: マルチモーダル大言語モデルのための総合スポーツ理解ベンチマーク

SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models ( http://arxiv.org/abs/2410.08474v1 )

ライセンス: Link先を確認
Haotian Xia, Zhengbang Yang, Junbo Zou, Rhys Tracy, Yuqing Wang, Chi Lu, Christopher Lai, Yanjun He, Xun Shao, Zhuoqing Xie, Yuan-fang Wang, Weining Shen, Hanjie Chen, (参考訳) MLLM(Multimodal Large Language Models)は、テキストと視覚情報を統合することで、複雑なスポーツシナリオを推論する能力を高めている。 SPORTUは,多段階スポーツ推論タスクにおけるMLLMの評価を行うベンチマークである。 SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。 このコンポーネントは、7つの異なるスポーツで1,701のスローモーションビデオクリップと12,048のQAペアで構成され、単純なスポーツ認識からファウル検出やルール適用のような複雑なタスクに至るまで、多段階の推論を評価するように設計されている。 筆者らは,SPORTUテキスト部分上で,チェーン・オブ・シント(CoT)で補足された少数ショット学習パラダイムを主に活用した4つのLLMの評価を行った。 SPORTU-text を用いて,少数ショット学習とチェーン・オブ・シント (CoT) による4つの LLM の評価を行った。 GPT-4oは71%の精度を達成しているが、それでも人間レベルの性能に欠けており、ルール理解と推論の改善の余地が強調されている。 SPORTUビデオ部の評価には、7つのプロプライエタリなMLLMと6つのオープンソースMLLMが含まれる。 実験によると、モデルは深い推論とルールベースの理解を必要とする難しいタスクに不足している。 Claude-3.5-Sonnetは52.6%の精度で最高の性能を発揮し、改善の余地は大きい。 SPORTUは、スポーツ理解と推論におけるモデルの能力を評価するための重要なステップとして機能することを願っている。

Multimodal Large Language Models (MLLMs) are advancing the ability to reason about complex sports scenarios by integrating textual and visual information. To comprehensively evaluate their capabilities, we introduce SPORTU, a benchmark designed to assess MLLMs across multi-level sports reasoning tasks. SPORTU comprises two key components: SPORTU-text, featuring 900 multiple-choice questions with human-annotated explanations for rule comprehension and strategy understanding. This component focuses on testing models' ability to reason about sports solely through question-answering (QA), without requiring visual inputs; SPORTU-video, consisting of 1,701 slow-motion video clips across 7 different sports and 12,048 QA pairs, designed to assess multi-level reasoning, from simple sports recognition to complex tasks like foul detection and rule application. We evaluate four prevalent LLMs mainly utilizing few-shot learning paradigms supplemented by chain-of-thought (CoT) prompting on the SPORTU-text part. We evaluate four LLMs using few-shot learning and chain-of-thought (CoT) prompting on SPORTU-text. GPT-4o achieves the highest accuracy of 71%, but still falls short of human-level performance, highlighting room for improvement in rule comprehension and reasoning. The evaluation for the SPORTU-video part includes 7 proprietary and 6 open-source MLLMs. Experiments show that models fall short on hard tasks that require deep reasoning and rule-based understanding. Claude-3.5-Sonnet performs the best with only 52.6% accuracy on the hard task, showing large room for improvement. We hope that SPORTU will serve as a critical step toward evaluating models' capabilities in sports understanding and reasoning.
翻訳日:2024-10-31 03:06:36 公開日:2024-10-19
# SportU: マルチモーダル大言語モデルのための総合スポーツ理解ベンチマーク

SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models ( http://arxiv.org/abs/2410.08474v2 )

ライセンス: Link先を確認
Haotian Xia, Zhengbang Yang, Junbo Zou, Rhys Tracy, Yuqing Wang, Chi Lu, Christopher Lai, Yanjun He, Xun Shao, Zhuoqing Xie, Yuan-fang Wang, Weining Shen, Hanjie Chen, (参考訳) MLLM(Multimodal Large Language Models)は、テキストと視覚情報を統合することで、複雑なスポーツシナリオを推論する能力を高めている。 SPORTUは,多段階スポーツ推論タスクにおけるMLLMの評価を行うベンチマークである。 SPORTUは2つの重要なコンポーネントで構成されている。 SPORTU-textは900の多重選択質問と、ルール理解と戦略理解のための人間アノテーションによる説明を含む。 このコンポーネントは、7つの異なるスポーツで1,701のスローモーションビデオクリップと12,048のQAペアで構成され、単純なスポーツ認識からファウル検出やルール適用のような複雑なタスクに至るまで、多段階の推論を評価するように設計されている。 筆者らは,SPORTUテキスト部分上で,チェーン・オブ・シント(CoT)で補足された少数ショット学習パラダイムを主に活用した4つのLLMの評価を行った。 SPORTU-text を用いて,少数ショット学習とチェーン・オブ・シント (CoT) による4つの LLM の評価を行った。 GPT-4oは71%の精度を達成しているが、それでも人間レベルの性能に欠けており、ルール理解と推論の改善の余地が強調されている。 SPORTUビデオ部の評価には、7つのプロプライエタリなMLLMと6つのオープンソースMLLMが含まれる。 実験によると、モデルは深い推論とルールベースの理解を必要とする難しいタスクに不足している。 Claude-3.5-Sonnetは52.6%の精度で最高の性能を発揮し、改善の余地は大きい。 SPORTUは、スポーツ理解と推論におけるモデルの能力を評価するための重要なステップとして機能することを願っている。

Multimodal Large Language Models (MLLMs) are advancing the ability to reason about complex sports scenarios by integrating textual and visual information. To comprehensively evaluate their capabilities, we introduce SPORTU, a benchmark designed to assess MLLMs across multi-level sports reasoning tasks. SPORTU comprises two key components: SPORTU-text, featuring 900 multiple-choice questions with human-annotated explanations for rule comprehension and strategy understanding. This component focuses on testing models' ability to reason about sports solely through question-answering (QA), without requiring visual inputs; SPORTU-video, consisting of 1,701 slow-motion video clips across 7 different sports and 12,048 QA pairs, designed to assess multi-level reasoning, from simple sports recognition to complex tasks like foul detection and rule application. We evaluate four prevalent LLMs mainly utilizing few-shot learning paradigms supplemented by chain-of-thought (CoT) prompting on the SPORTU-text part. We evaluate four LLMs using few-shot learning and chain-of-thought (CoT) prompting on SPORTU-text. GPT-4o achieves the highest accuracy of 71%, but still falls short of human-level performance, highlighting room for improvement in rule comprehension and reasoning. The evaluation for the SPORTU-video part includes 7 proprietary and 6 open-source MLLMs. Experiments show that models fall short on hard tasks that require deep reasoning and rule-based understanding. Claude-3.5-Sonnet performs the best with only 52.6% accuracy on the hard task, showing large room for improvement. We hope that SPORTU will serve as a critical step toward evaluating models' capabilities in sports understanding and reasoning.
翻訳日:2024-10-31 03:06:36 公開日:2024-10-19
# 宣言デフェンダに基づくロバスト3次元点雲分類

Robust 3D Point Clouds Classification based on Declarative Defenders ( http://arxiv.org/abs/2410.09691v1 )

ライセンス: Link先を確認
Kaidong Li, Tianxiao Zhang, Chuncong Zhong, Ziming Zhang, Guanghui Wang, (参考訳) 3次元点雲分類は,各入力データの発散特性により,2次元画像分類とは異なるモデルを必要とする。 3Dポイントの雲は非構造的でスパースであるが、2Dイメージは構造的で密度が高い。 これら2つのデータ型間のドメインギャップを埋めることは、モデル交換性を実現するための簡単な問題ではありません。 格子点分類器(LPC)を用いた最近の研究は、クロスドメイン適用の可能性を強調している。 しかし、LPCにおける格子投影操作は、非連結な投影画素を持つ2次元画像を生成する。 本稿では,3次元点雲を2次元画像にマッピングする3つの異なるアルゴリズムについて検討する。 広範囲な実験を通して、我々はそれらの性能と防御機構を徹底的に検証し分析する。 現在の大規模基盤モデルを利用して、通常の2次元画像と投影された2次元画像との間の特徴格差を精査する。 提案手法は敵攻撃に対する高い精度と堅牢性を示す。 生成モデルに基づくマッピングアルゴリズムは、通常の2D画像を生成し、通常の2D分類タスクからドメインギャップを最小化する。 ソースコードはhttps://github.com/KaidongLi/pytorch-LatticePointClassifier.gitで公開されている。

3D point cloud classification requires distinct models from 2D image classification due to the divergent characteristics of the respective input data. While 3D point clouds are unstructured and sparse, 2D images are structured and dense. Bridging the domain gap between these two data types is a non-trivial challenge to enable model interchangeability. Recent research using Lattice Point Classifier (LPC) highlights the feasibility of cross-domain applicability. However, the lattice projection operation in LPC generates 2D images with disconnected projected pixels. In this paper, we explore three distinct algorithms for mapping 3D point clouds into 2D images. Through extensive experiments, we thoroughly examine and analyze their performance and defense mechanisms. Leveraging current large foundation models, we scrutinize the feature disparities between regular 2D images and projected 2D images. The proposed approaches demonstrate superior accuracy and robustness against adversarial attacks. The generative model-based mapping algorithms yield regular 2D images, further minimizing the domain gap from regular 2D classification tasks. The source code is available at https://github.com/KaidongLi/pytorch-LatticePointClassifier.git.
翻訳日:2024-10-30 08:46:35 公開日:2024-10-19
# 宣言デフェンダに基づくロバスト3次元点雲分類

Robust 3D Point Clouds Classification based on Declarative Defenders ( http://arxiv.org/abs/2410.09691v2 )

ライセンス: Link先を確認
Kaidong Li, Tianxiao Zhang, Cuncong Zhong, Ziming Zhang, Guanghui Wang, (参考訳) 3次元点雲分類は,各入力データの発散特性により,2次元画像分類とは異なるモデルを必要とする。 3Dポイントの雲は非構造的でスパースであるが、2Dイメージは構造的で密度が高い。 これら2つのデータ型間のドメインギャップを埋めることは、モデル交換性を実現するための簡単な問題ではありません。 格子点分類器(LPC)を用いた最近の研究は、クロスドメイン適用の可能性を強調している。 しかし、LPCにおける格子投影操作は、非連結な投影画素を持つ2次元画像を生成する。 本稿では,3次元点雲を2次元画像にマッピングする3つの異なるアルゴリズムについて検討する。 広範囲な実験を通して、我々はそれらの性能と防御機構を徹底的に検証し分析する。 現在の大規模基盤モデルを利用して、通常の2次元画像と投影された2次元画像との間の特徴格差を精査する。 提案手法は敵攻撃に対する高い精度と堅牢性を示す。 生成モデルに基づくマッピングアルゴリズムは、通常の2D画像を生成し、通常の2D分類タスクからドメインギャップを最小化する。 ソースコードはhttps://github.com/KaidongLi/pytorch-LatticePointClassifier.gitで公開されている。

3D point cloud classification requires distinct models from 2D image classification due to the divergent characteristics of the respective input data. While 3D point clouds are unstructured and sparse, 2D images are structured and dense. Bridging the domain gap between these two data types is a non-trivial challenge to enable model interchangeability. Recent research using Lattice Point Classifier (LPC) highlights the feasibility of cross-domain applicability. However, the lattice projection operation in LPC generates 2D images with disconnected projected pixels. In this paper, we explore three distinct algorithms for mapping 3D point clouds into 2D images. Through extensive experiments, we thoroughly examine and analyze their performance and defense mechanisms. Leveraging current large foundation models, we scrutinize the feature disparities between regular 2D images and projected 2D images. The proposed approaches demonstrate superior accuracy and robustness against adversarial attacks. The generative model-based mapping algorithms yield regular 2D images, further minimizing the domain gap from regular 2D classification tasks. The source code is available at https://github.com/KaidongLi/pytorch-LatticePointClassifier.git.
翻訳日:2024-10-30 08:46:35 公開日:2024-10-19
# $α$-DPO: Adaptive Reward Marginは直接参照最適化に必要なもの

$α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs ( http://arxiv.org/abs/2410.10148v1 )

ライセンス: Link先を確認
Junkang Wu, Xue Wang, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, Rong Jin, Xiangnan He, (参考訳) 人的価値と意図を持った大きな言語モデル(LLM)の調整は、実用性、誠実さ、安全性に不可欠である。 人間のフィードバックからの強化学習(RLHF)は、このアライメントを達成するための一般的なアプローチであるが、計算効率と訓練安定性の課題に直面している。 直接選好最適化(DPO)や簡易選好最適化(SimPO)といった最近の手法では、RLHFのオフライン代替案が提案されている。 しかし、DPOは潜在的に最適以下の参照モデルに依存しており、SimPOの固定目標報酬マージンの仮定は、多様なデータ設定において最適以下の決定を引き起こす可能性がある。 本稿では,動的報酬マージンを導入することで,これらの制約に対処する適応的優先最適化アルゴリズムである$\alpha$-DPOを提案する。 具体的には、$\alpha$-DPOは、パーソナライズされた報酬マージンを達成するために、ポリシーモデルと参照モデルのバランスをとる適応的な選好分布を採用する。 我々は$\alpha$-DPOの理論的保証を提供し、そのサロゲート最適化目標としての有効性と、KL分散制御によるアライメントと多様性のバランスをとる能力を示す。 AlpacaEval 2 と Arena-Hard の実証的な評価によると、$\alpha$-DPO は様々なモデル設定において DPO と SimPO を一貫して上回り、細調整 LLM の堅牢なアプローチとして確立されている。 本手法は, LLMアライメントのための強力なツールとしての可能性を強調し, 勝利率の大幅な向上を実現している。 コードはhttps://github.com/junkangwu/alpha-DPOで公開されている。

Aligning large language models (LLMs) with human values and intentions is crucial for their utility, honesty, and safety. Reinforcement learning from human feedback (RLHF) is a popular approach to achieve this alignment, but it faces challenges in computational efficiency and training stability. Recent methods like Direct Preference Optimization (DPO) and Simple Preference Optimization (SimPO) have proposed offline alternatives to RLHF, simplifying the process by reparameterizing the reward function. However, DPO depends on a potentially suboptimal reference model, and SimPO's assumption of a fixed target reward margin may lead to suboptimal decisions in diverse data settings. In this work, we propose $\alpha$-DPO, an adaptive preference optimization algorithm designed to address these limitations by introducing a dynamic reward margin. Specifically, $\alpha$-DPO employs an adaptive preference distribution, balancing the policy model and the reference model to achieve personalized reward margins. We provide theoretical guarantees for $\alpha$-DPO, demonstrating its effectiveness as a surrogate optimization objective and its ability to balance alignment and diversity through KL divergence control. Empirical evaluations on AlpacaEval 2 and Arena-Hard show that $\alpha$-DPO consistently outperforms DPO and SimPO across various model settings, establishing it as a robust approach for fine-tuning LLMs. Our method achieves significant improvements in win rates, highlighting its potential as a powerful tool for LLM alignment. The code is available at https://github.com/junkangwu/alpha-DPO
翻訳日:2024-10-30 02:44:27 公開日:2024-10-19
# $α$-DPO: Adaptive Reward Marginは直接参照最適化に必要なもの

$α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs ( http://arxiv.org/abs/2410.10148v2 )

ライセンス: Link先を確認
Junkang Wu, Xue Wang, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, Rong Jin, Xiangnan He, (参考訳) 人的価値と意図を持った大きな言語モデル(LLM)の調整は、実用性、誠実さ、安全性に不可欠である。 人間のフィードバックからの強化学習(RLHF)は、このアライメントを達成するための一般的なアプローチであるが、計算効率と訓練安定性の課題に直面している。 直接選好最適化(DPO)や簡易選好最適化(SimPO)といった最近の手法では、RLHFのオフライン代替案が提案されている。 しかし、DPOは潜在的に最適以下の参照モデルに依存しており、SimPOの固定目標報酬マージンの仮定は、多様なデータ設定において最適以下の決定を引き起こす可能性がある。 本稿では,動的報酬マージンを導入することで,これらの制約に対処する適応的優先最適化アルゴリズムである$\alpha$-DPOを提案する。 具体的には、$\alpha$-DPOは、パーソナライズされた報酬マージンを達成するために、ポリシーモデルと参照モデルのバランスをとる適応的な選好分布を採用する。 我々は$\alpha$-DPOの理論的保証を提供し、そのサロゲート最適化目標としての有効性と、KL分散制御によるアライメントと多様性のバランスをとる能力を示す。 AlpacaEval 2 と Arena-Hard の実証的な評価によると、$\alpha$-DPO は様々なモデル設定において DPO と SimPO を一貫して上回り、細調整 LLM の堅牢なアプローチとして確立されている。 本手法は, LLMアライメントのための強力なツールとしての可能性を強調し, 勝利率の大幅な向上を実現している。 コードはhttps://github.com/junkangwu/alpha-DPOで公開されている。

Aligning large language models (LLMs) with human values and intentions is crucial for their utility, honesty, and safety. Reinforcement learning from human feedback (RLHF) is a popular approach to achieve this alignment, but it faces challenges in computational efficiency and training stability. Recent methods like Direct Preference Optimization (DPO) and Simple Preference Optimization (SimPO) have proposed offline alternatives to RLHF, simplifying the process by reparameterizing the reward function. However, DPO depends on a potentially suboptimal reference model, and SimPO's assumption of a fixed target reward margin may lead to suboptimal decisions in diverse data settings. In this work, we propose $\alpha$-DPO, an adaptive preference optimization algorithm designed to address these limitations by introducing a dynamic reward margin. Specifically, $\alpha$-DPO employs an adaptive preference distribution, balancing the policy model and the reference model to achieve personalized reward margins. We provide theoretical guarantees for $\alpha$-DPO, demonstrating its effectiveness as a surrogate optimization objective and its ability to balance alignment and diversity through KL divergence control. Empirical evaluations on AlpacaEval 2 and Arena-Hard show that $\alpha$-DPO consistently outperforms DPO and SimPO across various model settings, establishing it as a robust approach for fine-tuning LLMs. Our method achieves significant improvements in win rates, highlighting its potential as a powerful tool for LLM alignment. The code is available at https://github.com/junkangwu/alpha-DPO
翻訳日:2024-10-30 02:44:27 公開日:2024-10-19
# $α$-DPO: Adaptive Reward Marginは直接参照最適化に必要なもの

$α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs ( http://arxiv.org/abs/2410.10148v3 )

ライセンス: Link先を確認
Junkang Wu, Xue Wang, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He, (参考訳) 人的価値と意図を持った大きな言語モデル(LLM)の調整は、実用性、誠実さ、安全性に不可欠である。 人間のフィードバックからの強化学習(RLHF)は、このアライメントを達成するための一般的なアプローチであるが、計算効率と訓練安定性の課題に直面している。 直接選好最適化(DPO)や簡易選好最適化(SimPO)といった最近の手法では、RLHFのオフライン代替案が提案されている。 しかし、DPOは潜在的に最適以下の参照モデルに依存しており、SimPOの固定目標報酬マージンの仮定は、多様なデータ設定において最適以下の決定を引き起こす可能性がある。 本稿では,動的報酬マージンを導入することで,これらの制約に対処する適応的優先最適化アルゴリズムである$\alpha$-DPOを提案する。 具体的には、$\alpha$-DPOは、パーソナライズされた報酬マージンを達成するために、ポリシーモデルと参照モデルのバランスをとる適応的な選好分布を採用する。 我々は$\alpha$-DPOの理論的保証を提供し、そのサロゲート最適化目標としての有効性と、KL分散制御によるアライメントと多様性のバランスをとる能力を示す。 AlpacaEval 2 と Arena-Hard の実証的な評価によると、$\alpha$-DPO は様々なモデル設定において DPO と SimPO を一貫して上回り、細調整 LLM の堅牢なアプローチとして確立されている。 本手法は, LLMアライメントのための強力なツールとしての可能性を強調し, 勝利率の大幅な向上を実現している。 コードはhttps://github.com/junkangwu/alpha-DPOで公開されている。

Aligning large language models (LLMs) with human values and intentions is crucial for their utility, honesty, and safety. Reinforcement learning from human feedback (RLHF) is a popular approach to achieve this alignment, but it faces challenges in computational efficiency and training stability. Recent methods like Direct Preference Optimization (DPO) and Simple Preference Optimization (SimPO) have proposed offline alternatives to RLHF, simplifying the process by reparameterizing the reward function. However, DPO depends on a potentially suboptimal reference model, and SimPO's assumption of a fixed target reward margin may lead to suboptimal decisions in diverse data settings. In this work, we propose $\alpha$-DPO, an adaptive preference optimization algorithm designed to address these limitations by introducing a dynamic reward margin. Specifically, $\alpha$-DPO employs an adaptive preference distribution, balancing the policy model and the reference model to achieve personalized reward margins. We provide theoretical guarantees for $\alpha$-DPO, demonstrating its effectiveness as a surrogate optimization objective and its ability to balance alignment and diversity through KL divergence control. Empirical evaluations on AlpacaEval 2 and Arena-Hard show that $\alpha$-DPO consistently outperforms DPO and SimPO across various model settings, establishing it as a robust approach for fine-tuning LLMs. Our method achieves significant improvements in win rates, highlighting its potential as a powerful tool for LLM alignment. The code is available at https://github.com/junkangwu/alpha-DPO
翻訳日:2024-10-30 02:44:27 公開日:2024-10-19
# Effi-Code: 言語モデルにおけるコード効率の解放

Effi-Code: Unleashing Code Efficiency in Language Models ( http://arxiv.org/abs/2410.10209v1 )

ライセンス: Link先を確認
Dong Huang, Guangtao Zeng, Jianbo Dai, Meng Luo, Han Weng, Yuhao Qing, Heming Cui, Zhijiang Guo, Jie M. Zhang, (参考訳) コード生成における大規模言語モデル(LLM)の使用がソフトウェア開発においてより普及するにつれて、生成されたコードの効率性と正確性を高めることが重要である。 既存の方法やモデルは、LLM生成コードの正確さに重点を置いており、効率性を無視している。 本研究では,LLMにおけるコード生成を効率化する手法であるEffi-Codeを提案する。 オーバヘッドプロファイリング(Overhead Profiling)に基づく自己最適化プロセスを導入し,オープンソースのLCMを利用して,高精度かつ効率的なコードサンプルのデータセットを生成する。 このデータセットは、様々なLSMを微調整するために使用される。 提案手法は,実行時のパフォーマンス指標と正当性チェックによってガイドされる生成コードの反復的な改善を含む。 大規模な実験では、Effi-Codeで微調整されたモデルでは、タスクタイプ間のコードの正しさと効率の両方が大幅に改善されていることが示されている。 例えば、DeepSeek-Coder-6.7B-Instruct生成コードのpass@1は \textbf{43.3\%} から \textbf{76.8\%} に増加し、同じ正しいタスクの実行時間は \textbf{30.5\%} で減少する。 Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。 Effi-Code のソースコードは \url{https://github.com/huangd 1999/Effi-Code} でリリースされた。

As the use of large language models (LLMs) for code generation becomes more prevalent in software development, it is critical to enhance both the efficiency and correctness of the generated code. Existing methods and models primarily focus on the correctness of LLM-generated code, ignoring efficiency. In this work, we present Effi-Code, an approach to enhancing code generation in LLMs that can improve both efficiency and correctness. We introduce a Self-Optimization process based on Overhead Profiling that leverages open-source LLMs to generate a high-quality dataset of correct and efficient code samples. This dataset is then used to fine-tune various LLMs. Our method involves the iterative refinement of generated code, guided by runtime performance metrics and correctness checks. Extensive experiments demonstrate that models fine-tuned on the Effi-Code show significant improvements in both code correctness and efficiency across task types. For example, the pass@1 of DeepSeek-Coder-6.7B-Instruct generated code increases from \textbf{43.3\%} to \textbf{76.8\%}, and the average execution time for the same correct tasks decreases by \textbf{30.5\%}. Effi-Code offers a scalable and generalizable approach to improving code generation in AI systems, with potential applications in software development, algorithm design, and computational problem-solving. The source code of Effi-Code was released in \url{https://github.com/huangd1999/Effi-Code}.
翻訳日:2024-10-30 02:24:44 公開日:2024-10-19
# Effi-Code: 言語モデルにおけるコード効率の解放

Effi-Code: Unleashing Code Efficiency in Language Models ( http://arxiv.org/abs/2410.10209v2 )

ライセンス: Link先を確認
Dong Huang, Guangtao Zeng, Jianbo Dai, Meng Luo, Han Weng, Yuhao Qing, Heming Cui, Zhijiang Guo, Jie M. Zhang, (参考訳) コード生成における大規模言語モデル(LLM)の使用がソフトウェア開発においてより普及するにつれて、生成されたコードの効率性と正確性を高めることが重要である。 既存の方法やモデルは、LLM生成コードの正確さに重点を置いており、効率性を無視している。 本研究では,LLMにおけるコード生成を効率化する手法であるEffi-Codeを提案する。 オーバヘッドプロファイリング(Overhead Profiling)に基づく自己最適化プロセスを導入し,オープンソースのLCMを利用して,高精度かつ効率的なコードサンプルのデータセットを生成する。 このデータセットは、様々なLSMを微調整するために使用される。 提案手法は,実行時のパフォーマンス指標と正当性チェックによってガイドされる生成コードの反復的な改善を含む。 大規模な実験では、Effi-Codeで微調整されたモデルでは、タスクタイプ間のコードの正しさと効率の両方が大幅に改善されていることが示されている。 例えば、DeepSeek-Coder-6.7B-Instruct生成コードのpass@1は \textbf{43.3\%} から \textbf{76.8\%} に増加し、同じ正しいタスクの実行時間は \textbf{30.5\%} で減少する。 Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。 Effi-Code のソースコードは \url{https://github.com/huangd 1999/Effi-Code} でリリースされた。

As the use of large language models (LLMs) for code generation becomes more prevalent in software development, it is critical to enhance both the efficiency and correctness of the generated code. Existing methods and models primarily focus on the correctness of LLM-generated code, ignoring efficiency. In this work, we present Effi-Code, an approach to enhancing code generation in LLMs that can improve both efficiency and correctness. We introduce a Self-Optimization process based on Overhead Profiling that leverages open-source LLMs to generate a high-quality dataset of correct and efficient code samples. This dataset is then used to fine-tune various LLMs. Our method involves the iterative refinement of generated code, guided by runtime performance metrics and correctness checks. Extensive experiments demonstrate that models fine-tuned on the Effi-Code show significant improvements in both code correctness and efficiency across task types. For example, the pass@1 of DeepSeek-Coder-6.7B-Instruct generated code increases from \textbf{43.3\%} to \textbf{76.8\%}, and the average execution time for the same correct tasks decreases by \textbf{30.5\%}. Effi-Code offers a scalable and generalizable approach to improving code generation in AI systems, with potential applications in software development, algorithm design, and computational problem-solving. The source code of Effi-Code was released in \url{https://github.com/huangd1999/Effi-Code}.
翻訳日:2024-10-30 02:24:44 公開日:2024-10-19
# Burning RED: Average-Reward Markov決定プロセスにおけるサブタスク駆動の強化学習とリスク認識のアンロック

Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes ( http://arxiv.org/abs/2410.10578v1 )

ライセンス: Link先を確認
Juan Sebastian Rojas, Chi-Guhn Lee, (参考訳) 平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。 しかし, 平均回帰MDPは, 強化学習(RL)設定においてほとんど未探索であり, RLに基づく取り組みの大部分は, エピソード的かつ割引されたMDPに割り当てられている。 本研究では, 平均回帰MDPの特異な構造特性を考察し, 平均回帰設定において, 様々なサブタスクを効果的かつ効率的に解ける新しいRLフレームワークであるReward-Extended Differential (RED) 強化学習を導入する。 本稿では,表ケースに対する実証収束アルゴリズムを含む,予測と制御のためのRED学習アルゴリズムのファミリーを紹介する。 次に、明示的な二段階最適化スキームや拡張状態空間を使わずに、よく知られた条件付きリスク尺度(CVaR)を完全なオンライン方式で最適化するポリシーを初めて学習する方法を示すことで、これらのアルゴリズムのパワーを実証する。

Average-reward Markov decision processes (MDPs) provide a foundational framework for sequential decision-making under uncertainty. However, average-reward MDPs have remained largely unexplored in reinforcement learning (RL) settings, with the majority of RL-based efforts having been allocated to episodic and discounted MDPs. In this work, we study a unique structural property of average-reward MDPs and utilize it to introduce Reward-Extended Differential (or RED) reinforcement learning: a novel RL framework that can be used to effectively and efficiently solve various subtasks simultaneously in the average-reward setting. We introduce a family of RED learning algorithms for prediction and control, including proven-convergent algorithms for the tabular case. We then showcase the power of these algorithms by demonstrating how they can be used to learn a policy that optimizes, for the first time, the well-known conditional value-at-risk (CVaR) risk measure in a fully-online manner, without the use of an explicit bi-level optimization scheme or an augmented state-space.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-19
# Burning RED: Average-Reward Markov決定プロセスにおけるサブタスク駆動の強化学習とリスク認識のアンロック

Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes ( http://arxiv.org/abs/2410.10578v2 )

ライセンス: Link先を確認
Juan Sebastian Rojas, Chi-Guhn Lee, (参考訳) 平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。 しかし, 平均回帰MDPは, 強化学習(RL)設定においてほとんど未探索であり, RLに基づく取り組みの大部分は, エピソード的かつ割引されたMDPに割り当てられている。 本研究では, 平均回帰MDPの特異な構造特性を考察し, 平均回帰設定において, 様々なサブタスクを効果的かつ効率的に解ける新しいRLフレームワークであるReward-Extended Differential (RED) 強化学習を導入する。 本稿では,表ケースに対する実証収束アルゴリズムを含む,予測と制御のためのRED学習アルゴリズムのファミリーを紹介する。 次に、明示的な二段階最適化スキームや拡張状態空間を使わずに、よく知られた条件付きリスク尺度(CVaR)を完全なオンライン方式で最適化するポリシーを初めて学習する方法を示すことで、これらのアルゴリズムのパワーを実証する。

Average-reward Markov decision processes (MDPs) provide a foundational framework for sequential decision-making under uncertainty. However, average-reward MDPs have remained largely unexplored in reinforcement learning (RL) settings, with the majority of RL-based efforts having been allocated to episodic and discounted MDPs. In this work, we study a unique structural property of average-reward MDPs and utilize it to introduce Reward-Extended Differential (or RED) reinforcement learning: a novel RL framework that can be used to effectively and efficiently solve various subtasks simultaneously in the average-reward setting. We introduce a family of RED learning algorithms for prediction and control, including proven-convergent algorithms for the tabular case. We then showcase the power of these algorithms by demonstrating how they can be used to learn a policy that optimizes, for the first time, the well-known conditional value-at-risk (CVaR) risk measure in a fully-online manner, without the use of an explicit bi-level optimization scheme or an augmented state-space.
翻訳日:2024-10-29 20:45:18 公開日:2024-10-19