このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241026となっている論文です。

PDF登録状況(公開日: 20241026)

TitleAuthorsAbstract論文公表日・翻訳日
# 連続学習のためのNull空間におけるビジュアルプロンプトチューニング

Visual Prompt Tuning in Null Space for Continual Learning ( http://arxiv.org/abs/2406.05658v3 )

ライセンス: Link先を確認
Yue Lu, Shizhou Zhang, De Cheng, Yinghui Xing, Nannan Wang, Peng Wang, Yanning Zhang, (参考訳) 既存のプロンプトチューニング手法は、視覚変換モデルにおいて関連するプロンプトを選択して更新することにより、連続学習(CL)における印象的なパフォーマンスを示す。 一方,本論文は,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整して各タスクを学習することを目的としており,CLにおける破滅的な忘れを克服するために学習されたタスクに対する干渉を確実にすることを目的としている。 しかし、従来のCNNアーキテクチャの直交射影と異なり、ViTアーキテクチャの急進勾配直交射影は、全く異なる、より大きな挑戦を示す。 1) 高次非直線自己注意操作 2) 変圧器ブロック内のLayerNormによってもたらされるプロンプト分布のドリフト。 理論的には、2つの整合性条件を導出し、直交直交射影を高速に達成し、視覚的インパルスチューニングにおいて自己認識機構を介して学習した知識に対する干渉を排除できる理論的保証を提供する。 実際、急勾配直交射影を実装するために、実効的なヌル空間に基づく近似解が提案されている。 各種ベースラインモデルを用いた4つのクラスインクリメンタルベンチマークにおけるアンチフォッゲッティングの有効性を実験的に検証し,本手法は最先端手法よりも優れた性能を実現する。 私たちのコードはhttps://github.com/zugexiaodui/VPTinNSforCLで利用可能です。

Existing prompt-tuning methods have demonstrated impressive performances in continual learning (CL), by selecting and updating relevant prompts in the vision-transformer models. On the contrary, this paper aims to learn each task by tuning the prompts in the direction orthogonal to the subspace spanned by previous tasks' features, so as to ensure no interference on tasks that have been learned to overcome catastrophic forgetting in CL. However, different from the orthogonal projection in the traditional CNN architecture, the prompt gradient orthogonal projection in the ViT architecture shows completely different and greater challenges, i.e., 1) the high-order and non-linear self-attention operation; 2) the drift of prompt distribution brought by the LayerNorm in the transformer block. Theoretically, we have finally deduced two consistency conditions to achieve the prompt gradient orthogonal projection, which provide a theoretical guarantee of eliminating interference on previously learned knowledge via the self-attention mechanism in visual prompt tuning. In practice, an effective null-space-based approximation solution has been proposed to implement the prompt gradient orthogonal projection. Extensive experimental results demonstrate the effectiveness of anti-forgetting on four class-incremental benchmarks with diverse pre-trained baseline models, and our approach achieves superior performances to state-of-the-art methods. Our code is available at https://github.com/zugexiaodui/VPTinNSforCL.
翻訳日:2024-11-09 01:44:51 公開日:2024-10-26
# CONGO: 圧縮的なオンライングラディエント最適化

CONGO: Compressive Online Gradient Optimization ( http://arxiv.org/abs/2407.06325v2 )

ライセンス: Link先を確認
Jeremy Carleton, Prathik Vijaykumar, Divyanshu Saxena, Dheeraj Narasimha, Srinivas Shakkottai, Aditya Akella, (参考訳) 目的関数の勾配がスパース性を示すようなゼロ階オンライン凸最適化の課題に対処し、少数の次元のみがゼロ階の勾配を持たないことを示す。 本研究の目的は,関数サンプルの数が限られている場合にのみ,目的関数の勾配の有用な推定値を得ることである。 私たちのモチベーションは、時間に敏感なジョブを処理する大規模キューネットワークの最適化に起因しています。 ここでは、ジョブは出力を生成するために、潜在的に多くのキューによって処理されなければならず、任意のキューでのサービス時間は、そのキューに割り当てられたリソースの関数である。 リソースはコストがかかるため、ジョブのエンドツーエンドのレイテンシは、使用するリソース全体のコストとバランスをとらなければならない。 キューの数は相当に多いが、レイテンシ関数は主にリソースの変更にほんの数秒で反応し、勾配がスパースになる。 我々は,従来の確率的最適化に適用された圧縮的センシング手法を用いて,時間的地平線に最適な依存度で残差を達成できる圧縮的オンライン勾配最適化フレームワークを導入することで,この問題に対処する。 具体的アルゴリズムでは,勾配推定に要するサンプルを全次元ではなく勾配の空間係数で縮小する。 数値シミュレーションと実世界のマイクロサービスベンチマークは、分散性を考慮しない勾配降下アプローチよりもCONGOの方が優れていることを示している。

We address the challenge of zeroth-order online convex optimization where the objective function's gradient exhibits sparsity, indicating that only a small number of dimensions possess non-zero gradients. Our aim is to leverage this sparsity to obtain useful estimates of the objective function's gradient even when the only information available is a limited number of function samples. Our motivation stems from the optimization of large-scale queueing networks that process time-sensitive jobs. Here, a job must be processed by potentially many queues in sequence to produce an output, and the service time at any queue is a function of the resources allocated to that queue. Since resources are costly, the end-to-end latency for jobs must be balanced with the overall cost of the resources used. While the number of queues is substantial, the latency function primarily reacts to resource changes in only a few, rendering the gradient sparse. We tackle this problem by introducing the Compressive Online Gradient Optimization framework which allows compressive sensing methods previously applied to stochastic optimization to achieve regret bounds with an optimal dependence on the time horizon without the full problem dimension appearing in the bound. For specific algorithms, we reduce the samples required per gradient estimate to scale with the gradient's sparsity factor rather than its full dimensionality. Numerical simulations and real-world microservices benchmarks demonstrate CONGO's superiority over gradient descent approaches that do not account for sparsity.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-26
# AI法のロバストガバナンス:AIオフィス、AIボード、科学パネル、国家機関

A Robust Governance for the AI Act: AI Office, AI Board, Scientific Panel, and National Authorities ( http://arxiv.org/abs/2407.10369v2 )

ライセンス: Link先を確認
Claudio Novelli, Philipp Hacker, Jessica Morley, Jarle Trondal, Luciano Floridi, (参考訳) 規制は施行なしでは何もない。 これは特に新興技術のダイナミックな分野に当てはまる。 したがって、この記事には2つの野望がある。 まず、EUの新しい人工知能法(AIA)が様々な機関によってどのように実施され、施行されるかを説明し、AIAのガバナンスの枠組みを明確にする。 第2に、AIAの均一かつ協調的な実行と法律の充足を保証するための勧告を提供する、規範的なガバナンスモデルを提案する。 この記事は、欧州委員会のような長年の機関やAI OfficeのようなAIAが新たに設立した機関を含む、各国とEUの機関がAIAをどのように実施するかを考察する。 欧州連合の規制が制度構造や運営にどのように影響するかを強調し、超国家的、国家的レベルの役割について調査している。 これらの規則は、機関の構造設計を直接規定するだけでなく、AIAの施行に必要な管理能力も間接的に要求する。

Regulation is nothing without enforcement. This particularly holds for the dynamic field of emerging technologies. Hence, this article has two ambitions. First, it explains how the EU's new Artificial Intelligence Act (AIA) will be implemented and enforced by various institutional bodies, thus clarifying the governance framework of the AIA. Second, it proposes a normative model of governance, providing recommendations to ensure uniform and coordinated execution of the AIA and the fulfilment of the legislation. Taken together, the article explores how the AIA may be implemented by national and EU institutional bodies, encompassing longstanding bodies, such as the European Commission, and those newly established under the AIA, such as the AI Office. It investigates their roles across supranational and national levels, emphasizing how EU regulations influence institutional structures and operations. These regulations may not only directly dictate the structural design of institutions but also indirectly request administrative capacities needed to enforce the AIA.
翻訳日:2024-11-08 21:43:45 公開日:2024-10-26
# 二次元エントロピーモデルによる双方向ステレオ画像圧縮

Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model ( http://arxiv.org/abs/2407.10632v2 )

ライセンス: Link先を確認
Zhening Liu, Xinjie Zhang, Jiawei Shao, Zehong Lin, Jun Zhang, (参考訳) ステレオビジョン技術の急速な進歩により、ステレオ画像圧縮が重要な分野として出現し、注目され続けている。 従来のアプローチでは、一方のビューの圧縮が他方に依存し、結果として不均衡な圧縮となる一方向のパラダイムを主に採用していた。 この問題に対処するために、対称な双方向ステレオ画像圧縮アーキテクチャ、BiSICを導入する。 具体的には,3次元畳み込みに基づくコーデックバックボーンを提案する。 さらに、エントロピー符号化のための潜在表現の分布を効果的に推定するために、空間コンテキスト、チャネルコンテキスト、ステレオ依存性を含む様々な条件要素を統合する新しいクロス次元エントロピーモデルを設計する。 提案したBiSICは,PSNRとMS-SSIMの両面で,従来の画像・映像圧縮規格と最先端の学習手法に優れることを示した。

With the rapid advancement of stereo vision technologies, stereo image compression has emerged as a crucial field that continues to draw significant attention. Previous approaches have primarily employed a unidirectional paradigm, where the compression of one view is dependent on the other, resulting in imbalanced compression. To address this issue, we introduce a symmetric bidirectional stereo image compression architecture, named BiSIC. Specifically, we propose a 3D convolution based codec backbone to capture local features and incorporate bidirectional attention blocks to exploit global features. Moreover, we design a novel cross-dimensional entropy model that integrates various conditioning factors, including the spatial context, channel context, and stereo dependency, to effectively estimate the distribution of latent representations for entropy coding. Extensive experiments demonstrate that our proposed BiSIC outperforms conventional image/video compression standards, as well as state-of-the-art learning-based methods, in terms of both PSNR and MS-SSIM.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-26
# ModalChorus: Modal Fusion Mapによるマルチモーダル埋め込みの可視化とアライメント

ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map ( http://arxiv.org/abs/2407.12315v2 )

ライセンス: Link先を確認
Yilin Ye, Shishi Xiao, Xingchen Zeng, Wei Zeng, (参考訳) マルチモーダル埋め込みは、最も広く使われているテキストイメージ埋め込みであるCLIP埋め込みのようなビジョン言語モデルの基盤を形成する。 しかし、これらの埋め込みは、クロスモーダルな特徴の微妙なミスアライメントに弱いため、モデル性能が低下し、一般化が低下する。 この問題に対処するために,マルチモーダル埋め込みの視覚的探索とアライメントのためのインタラクティブシステムであるModalChorusを設計する。 ModalChorusは主に2段階のプロセスを提供している。 1 モーダルフュージョンマップ(MFM)による埋め込み探索(MFM) - 計量と非計量の両目的を統合してモダリティ融合を強化するパラメトリック次元削減法- 2) 埋め込みアライメントにより、ユーザーはポイントセットとセットセットの両方のアライメントに対して対話的に意図を表現できる。 CLIP埋め込みと既存の次元削減(例えば、t-SNEとMDS)とデータ融合(例えば、データコンテキストマップ)メソッドとの定量的および定性的な比較は、共通ビジョン言語データセットに対するクロスモーダルな特徴を示す上で、MFMの利点を示す。 ケーススタディでは、ゼロショット分類からクロスモーダル検索と生成までのシナリオにおいて、ModalChorusが直感的に誤調整と効率的な再調整の発見を容易にすることが示されている。

Multi-modal embeddings form the foundation for vision-language models, such as CLIP embeddings, the most widely used text-image embeddings. However, these embeddings are vulnerable to subtle misalignment of cross-modal features, resulting in decreased model performance and diminished generalization. To address this problem, we design ModalChorus, an interactive system for visual probing and alignment of multi-modal embeddings. ModalChorus primarily offers a two-stage process: 1) embedding probing with Modal Fusion Map (MFM), a novel parametric dimensionality reduction method that integrates both metric and nonmetric objectives to enhance modality fusion; and 2) embedding alignment that allows users to interactively articulate intentions for both point-set and set-set alignments. Quantitative and qualitative comparisons for CLIP embeddings with existing dimensionality reduction (e.g., t-SNE and MDS) and data fusion (e.g., data context map) methods demonstrate the advantages of MFM in showcasing cross-modal features over common vision-language datasets. Case studies reveal that ModalChorus can facilitate intuitive discovery of misalignment and efficient re-alignment in scenarios ranging from zero-shot classification to cross-modal retrieval and generation.
翻訳日:2024-11-08 20:48:00 公開日:2024-10-26
# コース・コレクション:合成選好を用いた安全アライメント

Course-Correction: Safety Alignment Using Synthetic Preferences ( http://arxiv.org/abs/2407.16637v2 )

ライセンス: Link先を確認
Rongwu Xu, Yishuo Cai, Zhenhong Zhou, Renjie Gu, Haiqin Weng, Yan Liu, Tianwei Zhang, Wei Xu, Han Qiu, (参考訳) 大規模言語モデル(LLM)が生み出す有害なコンテンツのリスクは重要な問題となっている。 本稿では, 有害なコンテンツを自律的に生成することを避けるため, LLMの課題を遂行する能力の評価と改善に関する体系的研究を行う。 まず,<textsc{C$^2$-Eval} ベンチマークを導入し,10種類のLLMの定量的評価と解析を行った。 そこで本研究では,時間的コース補正の嗜好を重視した選好学習による微調整 LLM を提案する。 自動パイプラインを用いて750K対の選好を持つ合成データセットである \textsc{C$^2$-Syn} を作成し、データ駆動の選好学習を通じてタイムリーなコース補正の概念をモデルに教える。 2つのLLM, \textsc{Llama2-Chat 7B} と \textsc{Qwen2 7B} を実験した結果, 一般的な性能に影響を与えることなく, 効果的にコース補正能力を向上させることができた。 さらに、特に脱獄攻撃に対するLLMの安全性を効果的に向上させる。

The risk of harmful content generated by large language models (LLMs) becomes a critical concern. This paper presents a systematic study on assessing and improving LLMs' capability to perform the task of \textbf{course-correction}, \ie, the model can steer away from generating harmful content autonomously. To start with, we introduce the \textsc{C$^2$-Eval} benchmark for quantitative assessment and analyze 10 popular LLMs, revealing varying proficiency of current safety-tuned LLMs in course-correction. To improve, we propose fine-tuning LLMs with preference learning, emphasizing the preference for timely course-correction. Using an automated pipeline, we create \textsc{C$^2$-Syn}, a synthetic dataset with 750K pairwise preferences, to teach models the concept of timely course-correction through data-driven preference learning. Experiments on 2 LLMs, \textsc{Llama2-Chat 7B} and \textsc{Qwen2 7B}, show that our method effectively enhances course-correction skills without affecting general performance. Additionally, it effectively improves LLMs' safety, particularly in resisting jailbreak attacks.
翻訳日:2024-11-08 15:34:26 公開日:2024-10-26
# 異なる音声認識アーキテクチャにおける純合成学習データの効果について

On the Effect of Purely Synthetic Training Data for Different Automatic Speech Recognition Architectures ( http://arxiv.org/abs/2407.17997v2 )

ライセンス: Link先を確認
Benedikt Hilmes, Nick Rossenbach, and Ralf Schlüter, (参考訳) 本研究では,自動音声認識(ASR)の学習における合成データの有用性を評価する。 我々は、ASRトレーニングデータを用いて、FastSpeech-2に似たテキスト音声合成システム(TTS)を訓練する。 このTTSにより、我々は元のトレーニングデータを再生し、合成データのみに基づいてASRシステムを訓練する。 ASRでは、アテンションベースのエンコーダデコーダ、ハイブリッドディープニューラルネットワーク隠蔽マルコフモデル、ガウス混合隠蔽マルコフモデルという3つの異なるアーキテクチャを使用し、合成データ生成に対するモデルの異なる感度を示す。 これまでの研究を拡大するために,ASRのための合成と実のトレーニングデータの有効性について,多くのアブレーション研究を行った。 特に、話者埋め込みの変化やモデルサイズの拡大によって、合成データと実データ間のトレーニングのギャップがどのように変化するかに焦点を当てる。 後者については、トレーニングスコアが過度な適合を示す場合であっても、TSモデルがうまく一般化されていることを示す。

In this work we evaluate the utility of synthetic data for training automatic speech recognition (ASR). We use the ASR training data to train a text-to-speech (TTS) system similar to FastSpeech-2. With this TTS we reproduce the original training data, training ASR systems solely on synthetic data. For ASR, we use three different architectures, attention-based encoder-decoder, hybrid deep neural network hidden Markov model and a Gaussian mixture hidden Markov model, showing the different sensitivity of the models to synthetic data generation. In order to extend previous work, we present a number of ablation studies on the effectiveness of synthetic vs. real training data for ASR. In particular we focus on how the gap between training on synthetic and real data changes by varying the speaker embedding or by scaling the model size. For the latter we show that the TTS models generalize well, even when training scores indicate overfitting.
翻訳日:2024-11-08 15:01:09 公開日:2024-10-26
# LLaVA-OneVision: 簡単なビジュアルタスク転送

LLaVA-OneVision: Easy Visual Task Transfer ( http://arxiv.org/abs/2408.03326v3 )

ライセンス: Link先を確認
Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Peiyuan Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li, (参考訳) LLaVA-OneVisionは、LLaVA-NeXTブログシリーズにおいて、データ、モデル、視覚表現に関する洞察を集約して開発されたオープンな大規模マルチモーダルモデル(LMM)のファミリーである。 実験の結果、LLaVA-OneVisionは、オープンLMMの性能境界を3つの重要なコンピュータビジョンシナリオ(シングルイメージ、マルチイメージ、ビデオシナリオ)で同時に押し上げることができる最初の単一モデルであることがわかった。 重要なのは、LLaVA-OneVisionの設計により、さまざまなモダリティ/シナリオをまたいだ強力なトランスファー学習が可能となり、新たな能力が得られることだ。 特に、画像からビデオへのタスク転送を通じて、強力なビデオ理解とクロスシナリオ機能を示す。

We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-26
# システムレビューにおける大規模言語モデルの有効性

Efficacy of Large Language Models in Systematic Reviews ( http://arxiv.org/abs/2408.04646v2 )

ライセンス: Link先を確認
Aaditya Shah, Shridhar Mehendale, Siddha Kanthi, (参考訳) 本研究では,環境・社会・ガバナンス(ESG)要因と財務業績との関係を体系的に検討し,既存の文献を解釈する上での言語モデル(LLM)の有効性について検討した。 第一の目的は、ESGに焦点を当てた論文のコーパスにおいて、LLMが体系的なレビューをいかに再現できるかを評価することである。 私たちは2020年3月から2024年5月までに88の関連論文のデータベースを作成・手書きで作成しました。 さらに,2015年1月から2020年2月までにESG文献の体系的レビューを行った。 我々は,メタAIのLlama 3 8BとOpenAIのGPT-4oの2つの現状のLCMを,両論文の人為的分類に対する解釈の精度に基づいて評価した。 次に,238論文のコーパスをトレーニングデータとして用いた「カスタムGPT」と微調整GPT-4o Miniモデルと比較した。 微調整のGPT-4o Miniモデルは、プロンプト1の精度で平均28.3%向上した。 同時に、「カスタムGPT」は、プロンプト2と3の総合的精度で平均3.0%と15.7%の改善を示した。 この結果から、投資家や機関がLSMを活用してESG投資に関する複雑な証拠を要約し、迅速な意思決定とより効率的な市場を実現することが期待できる結果となった。

This study investigates the effectiveness of Large Language Models (LLMs) in interpreting existing literature through a systematic review of the relationship between Environmental, Social, and Governance (ESG) factors and financial performance. The primary objective is to assess how LLMs can replicate a systematic review on a corpus of ESG-focused papers. We compiled and hand-coded a database of 88 relevant papers published from March 2020 to May 2024. Additionally, we used a set of 238 papers from a previous systematic review of ESG literature from January 2015 to February 2020. We evaluated two current state-of-the-art LLMs, Meta AI's Llama 3 8B and OpenAI's GPT-4o, on the accuracy of their interpretations relative to human-made classifications on both sets of papers. We then compared these results to a "Custom GPT" and a fine-tuned GPT-4o Mini model using the corpus of 238 papers as training data. The fine-tuned GPT-4o Mini model outperformed the base LLMs by 28.3% on average in overall accuracy on prompt 1. At the same time, the "Custom GPT" showed a 3.0% and 15.7% improvement on average in overall accuracy on prompts 2 and 3, respectively. Our findings reveal promising results for investors and agencies to leverage LLMs to summarize complex evidence related to ESG investing, thereby enabling quicker decision-making and a more efficient market.
翻訳日:2024-11-08 12:11:36 公開日:2024-10-26
# レンジメンバーシップ推論攻撃

Range Membership Inference Attacks ( http://arxiv.org/abs/2408.05131v2 )

ライセンス: Link先を確認
Jiashu Tao, Reza Shokri, (参考訳) 機械学習モデルは、トレーニングデータに関するプライベート情報をリークする可能性があるが、このリスクを測定する標準的な方法は、メンバシップ推論攻撃(MIA)に基づいており、大きな制限がある。 彼らは、与えられたデータポイント \textit{exactly} がトレーニングポイントと一致するかどうかのみチェックし、同じプライベート情報を示す類似または部分的に重複するデータの可能性を無視する。 この問題に対処するために、RaMIA(Ra Range Memberation Inference attack)のクラスを導入し、モデルが特定の範囲の任意のデータ(プライバシのセマンティクスに基づいて定義された)でトレーニングされたかどうかをテストする。 我々は、RaMIAsのゲームを定式化し、その複雑な仮説に対する原理的な統計的試験を設計する。 また,RaMIAは,表や画像,言語など,さまざまな種類のデータに対して,MIAよりも正確かつ包括的にプライバシ損失を捉えることができることを示す。 RaMIAは、機械学習アルゴリズムのより包括的で意味のあるプライバシー監査の道を開く。

Machine learning models can leak private information about their training data, but the standard methods to measure this risk, based on membership inference attacks (MIAs), have a major limitation. They only check if a given data point \textit{exactly} matches a training point, neglecting the potential of similar or partially overlapping data revealing the same private information. To address this issue, we introduce the class of range membership inference attacks (RaMIAs), testing if the model was trained on any data in a specified range (defined based on the semantics of privacy). We formulate the RaMIAs game and design a principled statistical test for its complex hypotheses. We show that RaMIAs can capture privacy loss more accurately and comprehensively than MIAs on various types of data, such as tabular, image, and language. RaMIA paves the way for a more comprehensive and meaningful privacy auditing of machine learning algorithms.
翻訳日:2024-11-08 12:00:36 公開日:2024-10-26
# マルチキューコントラスト学習による逆気象群カウントの強化

Boosting Adverse Weather Crowd Counting via Multi-queue Contrastive Learning ( http://arxiv.org/abs/2408.05956v2 )

ライセンス: Link先を確認
Tianhang Pan, Xiuyi Jia, (参考訳) 現在、ほとんどの群集カウント法は、通常の気象条件下では優れた性能を保っている。 しかし、ドメインの大幅な違いとトレーニング用の悪天候画像の欠如により、極端で悪天候条件下でのパフォーマンスを維持するのに苦労することが多い。 この問題に対処し、悪天候下でのモデルの堅牢性を高めるために、2段階の群集カウント法を提案する。 特に第1段階では、気象クラス不均衡の問題に対処するために、マルチキューのMoCoコントラスト学習戦略を導入する。 この戦略は、モデルによる気象認識表現の学習を促進する。 第2段階では、コントラスト学習の指導の下で表現を洗練し、天気予知表現を通常の気象領域に変換することを提案する。 頑健性は著しく向上するが,本手法はモデルの重量をわずかに増加させるだけである。 また、新しい合成悪天候データセットも作成する。 実験結果から,本手法は競争性能を向上することが示された。

Currently, most crowd counting methods have outstanding performance under normal weather conditions. However, they often struggle to maintain their performance in extreme and adverse weather conditions due to significant differences in the domain and a lack of adverse weather images for training. To address this issue and enhance the model's robustness in adverse weather, we propose a two-stage crowd counting method. Specifically, in the first stage, we introduce a multi-queue MoCo contrastive learning strategy to tackle the problem of weather class imbalance. This strategy facilitates the learning of weather-aware representations by the model. In the second stage, we propose to refine the representations under the guidance of contrastive learning, enabling the conversion of the weather-aware representations to the normal weather domain. While significantly improving the robustness, our method only marginally increases the weight of the model. In addition, we also create a new synthetic adverse weather dataset. Extensive experimental results show that our method achieves competitive performance.
翻訳日:2024-11-08 11:49:24 公開日:2024-10-26
# FuxiTranyu: バランスデータでトレーニングされた多言語大言語モデル

FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data ( http://arxiv.org/abs/2408.06273v3 )

ライセンス: Link先を確認
Haoran Sun, Renren Jin, Shaoyang Xu, Leiyu Pan, Supryadi, Menglong Cui, Jiangcun Du, Yikun Lei, Lei Yang, Ling Shi, Juesi Xiao, Shaolin Zhu, Deyi Xiong, (参考訳) 大規模言語モデル (LLM) は様々なタスクに長けている。 しかし、多くのLLMは、ハイソース言語と低リソース言語の間に大きな性能差がある。 この課題を軽減するため,オープンソースの多言語LLMであるFuxiTranyuを紹介した。 ベースモデルであるFuxiTranyu-8Bは、80億のパラメータを持ち、43の自然言語と16のプログラミング言語をカバーする600億のトークンを含む厳密にバランスの取れた多言語データに基づいて、スクラッチからトレーニングされている。 また、多様な多言語命令データセットを微調整したFuxiTranyu-8B-SFTと、さらにDPOで改良したFuxiTranyu-8B-DPOという2つの命令調整モデルを開発し、アライメント能力を向上させる。 広範囲にわたる多言語ベンチマーク実験により、既存の多言語LLM(例えば、BLOOM-7B、PolyLM-13B、Mistral-7B-Instruct)に対するFuxiTranyuの競合性能が示された。 ニューロンと表現の解釈可能性の解析は、フキシトラユが言語間で一貫した多言語表現を達成していることを示している。 多言語LLMのさらなる研究を促進するため、HugingFaceの58の事前学習チェックポイント(https://huggingface.co/TJUNLP/FuxiTranyu-8B)とGithub(https://github.com/tjunlp-lab/FuxiTranyu参照)とともにベースモデルと命令チューニングモデルの両方をリリースする。

Large language models (LLMs) have demonstrated prowess in a wide range of tasks. However, many LLMs exhibit significant performance discrepancies between high- and low-resource languages. To mitigate this challenge, we present FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the need of the research community for balanced and high-performing multilingual capabilities. The base model, FuxiTranyu-8B, features 8 billion parameters and is trained from scratch on meticulously balanced multilingual data that contains 600 billion tokens covering 43 natural languages and 16 programming languages. We also develop two instruction-tuned models: FuxiTranyu-8B-SFT which is fine-tuned on a diverse multilingual instruction dataset, and FuxiTranyu-8B-DPO which is further refined with DPO on a preference dataset for enhanced alignment ability. Extensive experiments on a wide range of multilingual benchmarks demonstrate the competitive performance of FuxiTranyu against existing multilingual LLMs, e.g., BLOOM-7B, PolyLM-13B, and Mistral-7B-Instruct. Both neuron and representation interpretability analyses reveal that FuxiTranyu achieves consistent multilingual representations across languages. To promote further research into multilingual LLMs, we release both the base and instruction-tuned FuxiTranyu models together with 58 pre-training checkpoints at HuggingFace (see https://huggingface.co/TJUNLP/FuxiTranyu-8B) and Github (see https://github.com/tjunlp-lab/FuxiTranyu).
翻訳日:2024-11-08 11:38:16 公開日:2024-10-26
# マルチエージェントシステムにおけるネットワークトポロジのグラフアテンション推定

Graph Attention Inference of Network Topology in Multi-Agent Systems ( http://arxiv.org/abs/2408.15449v2 )

ライセンス: Link先を確認
Akshay Kolli, Reza Azadeh, Kshitj Jerath, (参考訳) マルチエージェントシステムの基盤となるグラフ構造を正確に同定することは難しい課題である。 本研究は,ノード表現を学習することで,マルチエージェントシステムの将来の状態を予測するためのアテンションメカニズムを活用する,新しい機械学習ベースのソリューションを提案する。 次に、注目値の強さからグラフ構造を推定する。 このアプローチは、線形コンセンサス力学と倉本振動子の非線形力学の両方に適用され、良いエージェント表現を学習することでグラフの暗黙的な学習をもたらす。 提案したデータ駆動型グラフアテンション機械学習モデルは,リンク予測において達成されたF1スコアが示すように,基礎となる動的モデルが未知の場合でも,マルチエージェントシステムのネットワークトポロジを識別可能であることを示す。

Accurately identifying the underlying graph structures of multi-agent systems remains a difficult challenge. Our work introduces a novel machine learning-based solution that leverages the attention mechanism to predict future states of multi-agent systems by learning node representations. The graph structure is then inferred from the strength of the attention values. This approach is applied to both linear consensus dynamics and the non-linear dynamics of Kuramoto oscillators, resulting in implicit learning of the graph by learning good agent representations. Our results demonstrate that the presented data-driven graph attention machine learning model can identify the network topology in multi-agent systems, even when the underlying dynamic model is not known, as evidenced by the F1 scores achieved in the link prediction.
翻訳日:2024-11-08 04:41:58 公開日:2024-10-26
# 大規模言語モデルと認知科学 : 類似性・相違・課題の包括的考察

Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges ( http://arxiv.org/abs/2409.02387v4 )

ライセンス: Link先を確認
Qian Niu, Junyu Liu, Ziqian Bi, Pohsun Feng, Benji Peng, Keyu Chen, Ming Li, Lawrence KQ Yan, Yichao Zhang, Caitlyn Heqi Yin, Cheng Fei, (参考訳) この総合的なレビューでは、LLMと人間の認知過程の類似点と相違点について、Large Language Models(LLM)と認知科学の交わりについて考察する。 我々は,LLMの認知能力を評価する手法を分析し,認知モデルとしての可能性について議論する。 このレビューでは、認知科学研究で得られた知見を取り上げ、様々な認知分野におけるLLMの応用を取り上げている。 我々はLLMの認知バイアスと限界を評価し,その性能向上手法を提案する。 LLMと認知アーキテクチャの統合について検討し、人工知能(AI)能力を向上するための有望な道を明らかにする。 主要な課題と今後の研究方向が特定され、人間の認知とよりよく整合するLLMの継続的な改良の必要性を強調している。 このレビューは、人工知能と人間の知性の両方の理解を深める上で、LLMの現状と将来の可能性について、バランスのとれた視点を提供する。

This comprehensive review explores the intersection of Large Language Models (LLMs) and cognitive science, examining similarities and differences between LLMs and human cognitive processes. We analyze methods for evaluating LLMs cognitive abilities and discuss their potential as cognitive models. The review covers applications of LLMs in various cognitive fields, highlighting insights gained for cognitive science research. We assess cognitive biases and limitations of LLMs, along with proposed methods for improving their performance. The integration of LLMs with cognitive architectures is examined, revealing promising avenues for enhancing artificial intelligence (AI) capabilities. Key challenges and future research directions are identified, emphasizing the need for continued refinement of LLMs to better align with human cognition. This review provides a balanced perspective on the current state and future potential of LLMs in advancing our understanding of both artificial and human intelligence.
翻訳日:2024-11-07 23:45:04 公開日:2024-10-26
# CLC-UKETデータセット:英国雇用裁判所のベンチマークケースアウトカム予測

The CLC-UKET Dataset: Benchmarking Case Outcome Prediction for the UK Employment Tribunal ( http://arxiv.org/abs/2409.08098v2 )

ライセンス: Link先を確認
Huiyuan Xie, Felix Steffek, Joana Ribeiro de Faria, Christine Carter, Jonathan Rutherford, (参考訳) 本稿では,英国雇用裁判所(UKET)の事例成果を予測するためのベンチマークを開発することにより,技術革新と司法アクセスの交わりについて考察する。 広範囲な手動アノテーションの課題に対処するため、この研究では、大規模な言語モデル(LLM)を自動アノテーションに使用し、CLC-UKETデータセットを作成する。 データセットは約19,000のUKETケースとそのメタデータで構成されている。 包括的な法的注釈は、事実、クレーム、前例参照、法定参照、事例結果、理由および司法法典をカバーしている。 CLC-UKETデータに精通し,UKETにおけるマルチクラス事例結果予測タスクについて検討した。 モデル比較のパフォーマンス基準を確立するために、人間の予測が収集される。 ベースラインモデルによる実証的な結果は、微調整されたトランスフォーマーモデルがUKET予測タスクにおいてゼロショットおよび少数ショットLLMよりも優れていることを示している。 ゼロショットLLMの性能は、タスク関連情報を少数ショットの例に統合することで向上することができる。 CLC-UKETデータセットは、人間のアノテーションや経験的な発見とともに、雇用に関する紛争解決のための貴重なベンチマークとして役立てられることを期待している。

This paper explores the intersection of technological innovation and access to justice by developing a benchmark for predicting case outcomes in the UK Employment Tribunal (UKET). To address the challenge of extensive manual annotation, the study employs a large language model (LLM) for automatic annotation, resulting in the creation of the CLC-UKET dataset. The dataset consists of approximately 19,000 UKET cases and their metadata. Comprehensive legal annotations cover facts, claims, precedent references, statutory references, case outcomes, reasons and jurisdiction codes. Facilitated by the CLC-UKET data, we examine a multi-class case outcome prediction task in the UKET. Human predictions are collected to establish a performance reference for model comparison. Empirical results from baseline models indicate that finetuned transformer models outperform zero-shot and few-shot LLMs on the UKET prediction task. The performance of zero-shot LLMs can be enhanced by integrating task-related information into few-shot examples. We hope that the CLC-UKET dataset, along with human annotations and empirical findings, can serve as a valuable benchmark for employment-related dispute resolution.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-26
# CLC-UKETデータセット:英国雇用裁判所のベンチマークケースアウトカム予測

The CLC-UKET Dataset: Benchmarking Case Outcome Prediction for the UK Employment Tribunal ( http://arxiv.org/abs/2409.08098v3 )

ライセンス: Link先を確認
Huiyuan Xie, Felix Steffek, Joana Ribeiro de Faria, Christine Carter, Jonathan Rutherford, (参考訳) 本稿では,英国雇用裁判所(UKET)の事例成果を予測するためのベンチマークを開発することにより,技術革新と司法アクセスの交わりについて考察する。 広範囲な手動アノテーションの課題に対処するため、この研究では、大規模な言語モデル(LLM)を自動アノテーションに使用し、CLC-UKETデータセットを作成する。 データセットは約19,000のUKETケースとそのメタデータで構成されている。 包括的な法的注釈は、事実、クレーム、前例参照、法定参照、事例結果、理由および司法法典をカバーしている。 CLC-UKETデータに精通し,UKETにおけるマルチクラス事例結果予測タスクについて検討した。 モデル比較のパフォーマンス基準を確立するために、人間の予測が収集される。 ベースラインモデルによる実証的な結果は、微調整されたトランスフォーマーモデルがUKET予測タスクにおいてゼロショットおよび少数ショットLLMよりも優れていることを示している。 ゼロショットLLMの性能は、タスク関連情報を少数ショットの例に統合することで向上することができる。 CLC-UKETデータセットは、人間のアノテーションや経験的な発見とともに、雇用に関する紛争解決のための貴重なベンチマークとして役立てられることを期待している。

This paper explores the intersection of technological innovation and access to justice by developing a benchmark for predicting case outcomes in the UK Employment Tribunal (UKET). To address the challenge of extensive manual annotation, the study employs a large language model (LLM) for automatic annotation, resulting in the creation of the CLC-UKET dataset. The dataset consists of approximately 19,000 UKET cases and their metadata. Comprehensive legal annotations cover facts, claims, precedent references, statutory references, case outcomes, reasons and jurisdiction codes. Facilitated by the CLC-UKET data, we examine a multi-class case outcome prediction task in the UKET. Human predictions are collected to establish a performance reference for model comparison. Empirical results from baseline models indicate that finetuned transformer models outperform zero-shot and few-shot LLMs on the UKET prediction task. The performance of zero-shot LLMs can be enhanced by integrating task-related information into few-shot examples. We hope that the CLC-UKET dataset, along with human annotations and empirical findings, can serve as a valuable benchmark for employment-related dispute resolution.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-26
# 随伴マッチング:メモリレス確率最適制御を用いた微調整流れと拡散生成モデル

Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control ( http://arxiv.org/abs/2409.08861v2 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Michal Drozdzal, Brian Karrer, Ricky T. Q. Chen, (参考訳) フローマッチング (Flow Matching) や拡散モデル (denoising diffusion model) のような反復的プロセスを通じてサンプルを生成する動的生成モデルは広く用いられているが、これらのモデルを改善するための理論的な手法は、報酬の微調整によって多くは存在していない。 本研究では,確率的最適制御(SOC)として報酬の微調整を行った。 重要なことは、ノイズ変数と生成されたサンプルとの依存性を考慮するために、微調整中に非常に具体的なメモリレスノイズスケジュールを強制する必要があることを証明する。 また、回帰問題としてSOC問題をキャストすることにより、既存のSOCアルゴリズムより優れているAdjoint Matchingというアルゴリズムを提案する。 提案手法は, サンプル多様性を維持しつつ, 従来の微調整法よりも大幅に改善し, 一貫性, リアリズム, 人間の嗜好報酬モデルへの一般化を実現している。

Dynamical generative models that produce samples through an iterative process, such as Flow Matching and denoising diffusion models, have seen widespread use, but there have not been many theoretically-sound methods for improving these models with reward fine-tuning. In this work, we cast reward fine-tuning as stochastic optimal control (SOC). Critically, we prove that a very specific memoryless noise schedule must be enforced during fine-tuning, in order to account for the dependency between the noise variable and the generated samples. We also propose a new algorithm named Adjoint Matching which outperforms existing SOC algorithms, by casting SOC problems as a regression problem. We find that our approach significantly improves over existing methods for reward fine-tuning, achieving better consistency, realism, and generalization to unseen human preference reward models, while retaining sample diversity.
翻訳日:2024-11-07 21:09:04 公開日:2024-10-26
# 随伴マッチング:メモリレス確率最適制御を用いた微調整流れと拡散生成モデル

Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control ( http://arxiv.org/abs/2409.08861v3 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Michal Drozdzal, Brian Karrer, Ricky T. Q. Chen, (参考訳) フローマッチング (Flow Matching) や拡散モデル (denoising diffusion model) のような反復的プロセスを通じてサンプルを生成する動的生成モデルは広く用いられているが、これらのモデルを改善するための理論的な手法は、報酬の微調整によって多くは存在していない。 本研究では,確率的最適制御(SOC)として報酬の微調整を行った。 重要なことは、ノイズ変数と生成されたサンプルとの依存性を考慮するために、微調整中に非常に具体的なメモリレスノイズスケジュールを強制する必要があることを証明する。 また、回帰問題としてSOC問題をキャストすることにより、既存のSOCアルゴリズムより優れているAdjoint Matchingというアルゴリズムを提案する。 提案手法は, サンプル多様性を維持しつつ, 従来の微調整法よりも大幅に改善し, 一貫性, リアリズム, 人間の嗜好報酬モデルへの一般化を実現している。

Dynamical generative models that produce samples through an iterative process, such as Flow Matching and denoising diffusion models, have seen widespread use, but there have not been many theoretically-sound methods for improving these models with reward fine-tuning. In this work, we cast reward fine-tuning as stochastic optimal control (SOC). Critically, we prove that a very specific memoryless noise schedule must be enforced during fine-tuning, in order to account for the dependency between the noise variable and the generated samples. We also propose a new algorithm named Adjoint Matching which outperforms existing SOC algorithms, by casting SOC problems as a regression problem. We find that our approach significantly improves over existing methods for reward fine-tuning, achieving better consistency, realism, and generalization to unseen human preference reward models, while retaining sample diversity.
翻訳日:2024-11-07 21:09:04 公開日:2024-10-26
# 随伴マッチング:メモリレス確率最適制御を用いた微調整流れと拡散生成モデル

Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control ( http://arxiv.org/abs/2409.08861v4 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Michal Drozdzal, Brian Karrer, Ricky T. Q. Chen, (参考訳) フローマッチング (Flow Matching) や拡散モデル (denoising diffusion model) のような反復的プロセスを通じてサンプルを生成する動的生成モデルは広く用いられているが、これらのモデルを改善するための理論的な手法は、報酬の微調整によって多くは存在していない。 本研究では,確率的最適制御(SOC)として報酬の微調整を行った。 重要なことは、ノイズ変数と生成されたサンプルとの依存性を考慮するために、微調整中に非常に具体的なメモリレスノイズスケジュールを強制する必要があることを証明する。 また、回帰問題としてSOC問題をキャストすることにより、既存のSOCアルゴリズムより優れているAdjoint Matchingというアルゴリズムを提案する。 提案手法は, サンプル多様性を維持しつつ, 従来の微調整法よりも大幅に改善し, 一貫性, リアリズム, 人間の嗜好報酬モデルへの一般化を実現している。

Dynamical generative models that produce samples through an iterative process, such as Flow Matching and denoising diffusion models, have seen widespread use, but there have not been many theoretically-sound methods for improving these models with reward fine-tuning. In this work, we cast reward fine-tuning as stochastic optimal control (SOC). Critically, we prove that a very specific memoryless noise schedule must be enforced during fine-tuning, in order to account for the dependency between the noise variable and the generated samples. We also propose a new algorithm named Adjoint Matching which outperforms existing SOC algorithms, by casting SOC problems as a regression problem. We find that our approach significantly improves over existing methods for reward fine-tuning, achieving better consistency, realism, and generalization to unseen human preference reward models, while retaining sample diversity.
翻訳日:2024-11-07 21:09:04 公開日:2024-10-26
# 浅勾配における持続性擬足動物分割は効果的な遊走戦略である

Persistent pseudopod splitting is an effective chemotaxis strategy in shallow gradients ( http://arxiv.org/abs/2409.09342v2 )

ライセンス: Link先を確認
Albert Alonso, Julius B. Kirkegaard, Robert G. Endres, (参考訳) 単細胞生物や様々な細胞は、化学勾配に従う際に様々な運動モードを使用するが、どのモードが異なる勾配に最も適しているかは分かっていない。 そこで我々は, 遊走性アモエボイド細胞の方向性決定を, 刺激依存性アクチンリクルートコンテストとしてモデル化した。 細胞体から伸びる擬足動物は、有限のアクチンプールを競い、1つの擬足動物が勝利し、動きの方向を決定するまで細胞をその方向に押し上げる。 我々の最小限のモデルは、細胞が正確な化学反応の物理的限界に達するために使用する戦略を定量的に理解し、明示的な勾配検出や永続性のためのセルメモリのないデータと整合する。 このモデルを一般化するために,我々は擬似ポッド抑制の効果を研究するために強化学習最適化を用いた。 異なる擬足動物に基づく遊走戦略は、環境とその動態によって自然に現れる。 例えば、静的勾配では、細胞は擬似ポッドの精度を犠牲にしてより高速に反応することができる。 対照的に、動的勾配では、細胞はデ・ノボの擬足動物を形成する。 本研究は, 細胞制御が最小限に抑えられた, ケモタキシー性能の機械知能を実証する。

Single-cell organisms and various cell types use a range of motility modes when following a chemical gradient, but it is unclear which mode is best suited for different gradients. Here, we model directional decision-making in chemotactic amoeboid cells as a stimulus-dependent actin recruitment contest. Pseudopods extending from the cell body compete for a finite actin pool to push the cell in their direction until one pseudopod wins and determines the direction of movement. Our minimal model provides a quantitative understanding of the strategies cells use to reach the physical limit of accurate chemotaxis, aligning with data without explicit gradient sensing or cellular memory for persistence. To generalize our model, we employ reinforcement learning optimization to study the effect of pseudopod suppression, a simple but effective cellular algorithm by which cells can suppress possible directions of movement. Different pseudopod-based chemotaxis strategies emerge naturally depending on the environment and its dynamics. For instance, in static gradients, cells can react faster at the cost of pseudopod accuracy, which is particularly useful in noisy, shallow gradients where it paradoxically increases chemotactic accuracy. In contrast, in dynamics gradients, cells form de novo pseudopods. Overall, our work demonstrates mechanical intelligence for high chemotaxis performance with minimal cellular regulation.
翻訳日:2024-11-07 20:57:42 公開日:2024-10-26
# 検出が容易になった: ソリティー脆弱性のための大規模言語モデルの可能性

Detection Made Easy: Potentials of Large Language Models for Solidity Vulnerabilities ( http://arxiv.org/abs/2409.10574v2 )

ライセンス: Link先を確認
Md Tauseef Alam, Raju Halder, Abyayananda Maiti, (参考訳) Ethereumのメインネット上でのSolidityスマートコントラクトの大規模展開は、近年、経済的に動機づけられた攻撃者を惹きつけている。 Ethereumの歴史では、2016年のDAO攻撃(5000万ドルの損失)、2017年のParity Walletハック(1億4600万ドルのロック)、2018年のBeautychainのトークンBEC(9億ドルの市場価値が0に低下)、2022年のNFTゲームブロックチェーン侵害(6億ドルの盗難)など、悪名高い攻撃がいくつかある。 本稿では,大規模言語モデル(LLM)の使用状況とOWASPトップ10脆弱性の検出能力について,包括的に検討する。 このデータセットは、GPT-3.5 TurboやGPT-4o Miniといったクローズドソースモデルとともに、CodeLlama、Llama2、CodeT5、FalconといったオープンソースのLLMのパフォーマンスをベンチマークし比較するために使用します。 提案するSmartVDフレームワークは,BLEUとROUGEのメトリクスを用いて,スマートコントラクトにおける脆弱性検出の有効性を評価することにより,これらのモデルに対して厳格に検証する。 また、SmartVDフレームワークのマルチクラス分類と生成能力を評価するために、ゼロショット、少数ショット、チェーンオブ思考の3つの異なる戦略についても検討する。 その結果,SmartVDはオープンソースモデルよりも優れており,GPT-3.5やGPT-4 Miniといったクローズドソースベースモデルよりも優れていることがわかった。 微調整後、GPT-3.5 TurboとGPT-4o Miniは、脆弱性の検出に99%の精度、タイプ識別に94%、重大度判定に98%の精度で優れた性能を達成した。 特に、SmartVDは 'chain-of- Thought' プロンプト技術で優れているが、微調整されたクローズドソースモデルは 'zero-shot' プロンプトアプローチで優れている。

The large-scale deployment of Solidity smart contracts on the Ethereum mainnet has increasingly attracted financially-motivated attackers in recent years. A few now-infamous attacks in Ethereum's history includes DAO attack in 2016 (50 million dollars lost), Parity Wallet hack in 2017 (146 million dollars locked), Beautychain's token BEC in 2018 (900 million dollars market value fell to 0), and NFT gaming blockchain breach in 2022 ($600 million in Ether stolen). This paper presents a comprehensive investigation of the use of large language models (LLMs) and their capabilities in detecting OWASP Top Ten vulnerabilities in Solidity. We introduce a novel, class-balanced, structured, and labeled dataset named VulSmart, which we use to benchmark and compare the performance of open-source LLMs such as CodeLlama, Llama2, CodeT5 and Falcon, alongside closed-source models like GPT-3.5 Turbo and GPT-4o Mini. Our proposed SmartVD framework is rigorously tested against these models through extensive automated and manual evaluations, utilizing BLEU and ROUGE metrics to assess the effectiveness of vulnerability detection in smart contracts. We also explore three distinct prompting strategies-zero-shot, few-shot, and chain-of-thought-to evaluate the multi-class classification and generative capabilities of the SmartVD framework. Our findings reveal that SmartVD outperforms its open-source counterparts and even exceeds the performance of closed-source base models like GPT-3.5 and GPT-4 Mini. After fine-tuning, the closed-source models, GPT-3.5 Turbo and GPT-4o Mini, achieved remarkable performance with 99% accuracy in detecting vulnerabilities, 94% in identifying their types, and 98% in determining severity. Notably, SmartVD performs best with the `chain-of-thought' prompting technique, whereas the fine-tuned closed-source models excel with the `zero-shot' prompting approach.
翻訳日:2024-11-07 20:24:12 公開日:2024-10-26
# 視覚に基づく空間知能エージェントのための接地型GUI理解:バーチャルリアリティアプリによる実証

Grounded GUI Understanding for Vision Based Spatial Intelligent Agent: Exemplified by Virtual Reality Apps ( http://arxiv.org/abs/2409.10811v3 )

ライセンス: Link先を確認
Shuqing Li, Binchang Li, Yepang Liu, Cuiyun Gao, Jianping Zhang, Shing-Chi Cheung, Michael R. Lyu, (参考訳) 近年、空間コンピューティングのバーチャルリアリティ(VR)は、様々な仮想環境にまたがって、没入的でインタラクティブな体験を提供するトランスフォーメーション技術として出現している。 ユーザは立体3Dグラフィカルユーザインタフェース(GUI)上で対話可能なGUI要素(IGE)を介してVRアプリと対話することができる。 これらのIGEの正確な認識は、自動テストや効果的なGUI検索など、多くのソフトウェアエンジニアリングタスクの基盤として機能する。 2Dモバイルアプリの最新のIGE検出アプローチは、通常、ボタンやスピナーのようなクリック可能なGUI要素カテゴリのセットで、手動で大規模にラベル付けされたGUIデータセットに基づいて、教師付きオブジェクト検出モデルをトレーニングする。 オープンボキャブラリとヘテロジニアスなIGEカテゴリによる複雑度、文脈に敏感な相互作用性の複雑さ、正確なIGE検出結果のための正確な空間知覚と視覚的セマンティックアライメントの必要性など、VRアプリのIGE検出にはこのようなアプローチが適用できない。 したがって、VRアプリに適したIGE研究を始める必要がある。 本稿では,仮想現実感アプリのための最初のゼロショットcOntext-sensitive inteRactable GUI ElemeNT dEtectionフレームワークOrienterを提案する。 人間の振る舞いを模倣することで、OrienterはまずVRアプリのシーンの意味的コンテキストを観察し、理解し、次に検出を実行する。 検出プロセスは、フィードバック指向のバリデーションとリフレクションループ内で反復される。 具体的には,(1)セマンティックコンテキスト理解,(2)リフレクション指向IGE候補検出,(3)コンテキスト依存的対話性分類の3つのコンポーネントを含む。 大規模な実験により、Orienterは最先端のGUI要素検出アプローチよりも効果的であることが示された。

In recent years, spatial computing Virtual Reality (VR) has emerged as a transformative technology, offering users immersive and interactive experiences across diversified virtual environments. Users can interact with VR apps through interactable GUI elements (IGEs) on the stereoscopic three-dimensional (3D) graphical user interface (GUI). The accurate recognition of these IGEs is instrumental, serving as the foundation of many software engineering tasks, including automated testing and effective GUI search. The most recent IGE detection approaches for 2D mobile apps typically train a supervised object detection model based on a large-scale manually-labeled GUI dataset, usually with a pre-defined set of clickable GUI element categories like buttons and spinners. Such approaches can hardly be applied to IGE detection in VR apps, due to a multitude of challenges including complexities posed by open-vocabulary and heterogeneous IGE categories, intricacies of context-sensitive interactability, and the necessities of precise spatial perception and visual-semantic alignment for accurate IGE detection results. Thus, it is necessary to embark on the IGE research tailored to VR apps. In this paper, we propose the first zero-shot cOntext-sensitive inteRactable GUI ElemeNT dEtection framework for virtual Reality apps, named Orienter. By imitating human behaviors, Orienter observes and understands the semantic contexts of VR app scenes first, before performing the detection. The detection process is iterated within a feedback-directed validation and reflection loop. Specifically, Orienter contains three components, including (1) Semantic context comprehension, (2) Reflection-directed IGE candidate detection, and (3) Context-sensitive interactability classification. Extensive experiments demonstrate that Orienter is more effective than the state-of-the-art GUI element detection approaches.
翻訳日:2024-11-07 20:24:10 公開日:2024-10-26
# テキストから画像への知識編集における信頼性評価:細粒度データセットの活用とイノベーティブな基準

Pioneering Reliable Assessment in Text-to-Image Knowledge Editing: Leveraging a Fine-Grained Dataset and an Innovative Criterion ( http://arxiv.org/abs/2409.17928v2 )

ライセンス: Link先を確認
Hengrui Gu, Kaixiong Zhou, Yili Wang, Ruobing Wang, Xin Wang, (参考訳) 事前学習中、テキスト・トゥ・イメージ(T2I)拡散モデルは、事実知識をパラメータにエンコードする。 これらのパラメータ化された事実は、現実的な画像生成を可能にするが、時間とともに時代遅れになり、それによって世界の現在の状態を誤って表現する。 知識編集技術は、対象とする方法でモデル知識を更新することを目的としている。 しかし、データセットの編集が不十分なことと、信頼性の低い評価基準によって引き起こされる2つの課題に直面し、T2I知識編集の開発は、効果的に注入された知識を一般化するのに困難に直面した。 本稿では,T2I知識編集フレームワークを3つのフェーズに網羅して設計する。まず,パラフレーズと多目的テストを含むデータセットをキュレートし,知識一般化のより詳細な評価を可能にする。 次に,新しい基準である「textbf{adaptive CLIP threshold}」を提案する。 最後に、T2I知識編集のための単純かつ効果的なアプローチである \textbf{MPE} を紹介する。 パラメータをチューニングする代わりに、MPEは条件付きテキストプロンプトの古い部分を正確に認識し、編集し、最新の知識に適合させる。 MPEの簡単な実装(コンテキスト内学習に基づく)では、以前のモデルエディタよりも全体的なパフォーマンスが向上している。 これらの取り組みにより,T2I知識編集手法の忠実な評価がさらに促進されることを願っている。

During pre-training, the Text-to-Image (T2I) diffusion models encode factual knowledge into their parameters. These parameterized facts enable realistic image generation, but they may become obsolete over time, thereby misrepresenting the current state of the world. Knowledge editing techniques aim to update model knowledge in a targeted way. However, facing the dual challenges posed by inadequate editing datasets and unreliable evaluation criterion, the development of T2I knowledge editing encounter difficulties in effectively generalizing injected knowledge. In this work, we design a T2I knowledge editing framework by comprehensively spanning on three phases: First, we curate a dataset \textbf{CAKE}, comprising paraphrase and multi-object test, to enable more fine-grained assessment on knowledge generalization. Second, we propose a novel criterion, \textbf{adaptive CLIP threshold}, to effectively filter out false successful images under the current criterion and achieve reliable editing evaluation. Finally, we introduce \textbf{MPE}, a simple but effective approach for T2I knowledge editing. Instead of tuning parameters, MPE precisely recognizes and edits the outdated part of the conditioning text-prompt to accommodate the up-to-date knowledge. A straightforward implementation of MPE (Based on in-context learning) exhibits better overall performance than previous model editors. We hope these efforts can further promote faithful evaluation of T2I knowledge editing methods.
翻訳日:2024-11-06 16:00:56 公開日:2024-10-26
# タスク頻度バイアスが逆転する:初等・中等教育における共分散の適応

Task-recency bias strikes back: Adapting covariances in Exemplar-Free Class Incremental Learning ( http://arxiv.org/abs/2409.18265v1 )

ライセンス: Link先を確認
Grzegorz Rypeść, Sebastian Cygert, Tomasz Trzciński, Bartłomiej Twardowski, (参考訳) Exemplar-Free Class Incremental Learning (EFCIL)は、過去のデータにアクセスせずにタスクのシーケンス上でモデルをトレーニングする問題に取り組む。 既存の最先端手法は、特徴抽出器の潜在空間におけるガウス分布としてクラスを表現し、擬似特徴を再生することによってベイズ分類や分類器の訓練を可能にする。 しかし,機能抽出器がインクリメンタルなタスクで更新されると,その効果を損なう2つの重要な問題を特定する。 まず、クラス間の共分散行列が変化し、各タスク後に適応しなければならないと考える。 第二に、トレーニング中に発生する次元的崩壊によって引き起こされるタスクの頻度バイアスに影響を受けやすい。 本研究では,タスクからタスクへの共分散行列の適応と,追加の反崩壊損失関数によるタスク-待ち行列の緩和を行う新しい手法であるAdaGaussを提案する。 AdaGaussは、トレーニングをスクラッチから始め、あるいはトレーニング済みのバックボーンから始めると、人気のあるEFCILベンチマークとデータセットに対して最先端の結果を得る。 コードは、https://github.com/grypesc/AdaGauss.comで入手できる。

Exemplar-Free Class Incremental Learning (EFCIL) tackles the problem of training a model on a sequence of tasks without access to past data. Existing state-of-the-art methods represent classes as Gaussian distributions in the feature extractor's latent space, enabling Bayes classification or training the classifier by replaying pseudo features. However, we identify two critical issues that compromise their efficacy when the feature extractor is updated on incremental tasks. First, they do not consider that classes' covariance matrices change and must be adapted after each task. Second, they are susceptible to a task-recency bias caused by dimensionality collapse occurring during training. In this work, we propose AdaGauss -- a novel method that adapts covariance matrices from task to task and mitigates the task-recency bias owing to the additional anti-collapse loss function. AdaGauss yields state-of-the-art results on popular EFCIL benchmarks and datasets when training from scratch or starting from a pre-trained backbone. The code is available at: https://github.com/grypesc/AdaGauss.
翻訳日:2024-11-06 14:51:14 公開日:2024-10-26
# タスク頻度バイアスが逆転する:初等・中等教育における共分散の適応

Task-recency bias strikes back: Adapting covariances in Exemplar-Free Class Incremental Learning ( http://arxiv.org/abs/2409.18265v2 )

ライセンス: Link先を確認
Grzegorz Rypeść, Sebastian Cygert, Tomasz Trzciński, Bartłomiej Twardowski, (参考訳) Exemplar-Free Class Incremental Learning (EFCIL)は、過去のデータにアクセスせずにタスクのシーケンス上でモデルをトレーニングする問題に取り組む。 既存の最先端手法は、特徴抽出器の潜在空間におけるガウス分布としてクラスを表現し、擬似特徴を再生することによってベイズ分類や分類器の訓練を可能にする。 しかし,機能抽出器がインクリメンタルなタスクで更新されると,その効果を損なう2つの重要な問題を特定する。 まず、クラス間の共分散行列が変化し、各タスク後に適応しなければならないと考える。 第二に、トレーニング中に発生する次元的崩壊によって引き起こされるタスクの頻度バイアスに影響を受けやすい。 本研究では,タスクからタスクへの共分散行列の適応と,追加の反崩壊損失関数によるタスク-待ち行列の緩和を行う新しい手法であるAdaGaussを提案する。 AdaGaussは、トレーニングをスクラッチから始め、あるいはトレーニング済みのバックボーンから始めると、人気のあるEFCILベンチマークとデータセットに対して最先端の結果を得る。 コードは、https://github.com/grypesc/AdaGauss.comで入手できる。

Exemplar-Free Class Incremental Learning (EFCIL) tackles the problem of training a model on a sequence of tasks without access to past data. Existing state-of-the-art methods represent classes as Gaussian distributions in the feature extractor's latent space, enabling Bayes classification or training the classifier by replaying pseudo features. However, we identify two critical issues that compromise their efficacy when the feature extractor is updated on incremental tasks. First, they do not consider that classes' covariance matrices change and must be adapted after each task. Second, they are susceptible to a task-recency bias caused by dimensionality collapse occurring during training. In this work, we propose AdaGauss -- a novel method that adapts covariance matrices from task to task and mitigates the task-recency bias owing to the additional anti-collapse loss function. AdaGauss yields state-of-the-art results on popular EFCIL benchmarks and datasets when training from scratch or starting from a pre-trained backbone. The code is available at: https://github.com/grypesc/AdaGauss.
翻訳日:2024-11-06 14:51:14 公開日:2024-10-26
# ニュートリノ振動の位相空間法:マルチビームへの拡張

Phase-Space methods for neutrino oscillations: extension to multi-beams ( http://arxiv.org/abs/2409.20215v2 )

ライセンス: Link先を確認
Denis Lacroix, Angel Bauge, Bulent Yilmaz, Mariane Mangin-Brinet, Alessandro Roggero, A. Baha Balantekin, (参考訳) The Phase-Space approach (PSA) was introduced in [Lacroix et al , Phys. D 106, 123006 (2022)] to describe neutrino flavor oscillation for interacting neutrinos emission from stellar objects is extended to describe any number of neutrino beams。 PSAは、初期条件をサンプリングし、続いて独立平均場進化によって、量子ゆらぎを統計的処理にマッピングする。 ニュートリノビームの任意の数のニュートリノを処理できる新しいサンプリング法が提案されている。 提案手法の検証に成功し,参照正確な計算が可能となるいくつかの事例において,その予測力を検証した。 ニュートリノ間の相互作用によって引き起こされる絡み合いや散逸などの多体効果を記述できることを示す。 問題の複雑さのため、厳密な解は比較的限られた場合にのみ計算でき、ビーム数やニュートリノは各ビームに限られている。 PSAアプローチは計算コストを大幅に削減し、任意のビーム数を正確にシミュレートする効率的な技術を提供する。 PSAの結果の例としては、時間非依存または時間依存ハミルトニアンを持つ200個のビームがある。 我々はこの手法がニュートリノ振動に使用されるより伝統的な輸送理論で精密な技術に橋渡しするのに有用であると予測している。 また、他の技術が古典的コンピュータに適用できない将来の量子コンピュータアプリケーションに対して重要な参照計算を提供する。

The Phase-Space approach (PSA), which was originally introduced in [Lacroix et al., Phys. Rev. D 106, 123006 (2022)] to describe neutrino flavor oscillations for interacting neutrinos emitted from stellar objects is extended to describe arbitrary numbers of neutrino beams. The PSA is based on mapping the quantum fluctuations into a statistical treatment by sampling initial conditions followed by independent mean-field evolution. A new method is proposed to perform this sampling that allows treating an arbitrary number of neutrinos in each neutrino beam. We validate the technique successfully and confirm its predictive power on several examples where a reference exact calculation is possible. We show that it can describe many-body effects, such as entanglement and dissipation induced by the interaction between neutrinos. Due to the complexity of the problem, exact solutions can only be calculated for rather limited cases, with a limited number of beams and/or neutrinos in each beam. The PSA approach considerably reduces the numerical cost and provides an efficient technique to accurately simulate arbitrary numbers of beams. Examples of PSA results are given here, including up to 200 beams with time-independent or time-dependent Hamiltonian. We anticipate that this approach will be useful to bridge exact microscopic techniques with more traditional transport theories used in neutrino oscillations. It will also provide important reference calculations for future quantum computer applications where other techniques are not applicable to classical computers.
翻訳日:2024-11-05 15:58:31 公開日:2024-10-26
# ニュートリノ振動の位相空間法:マルチビームへの拡張

Phase-Space methods for neutrino oscillations: extension to multi-beams ( http://arxiv.org/abs/2409.20215v3 )

ライセンス: Link先を確認
Denis Lacroix, Angel Bauge, Bulent Yilmaz, Mariane Mangin-Brinet, Alessandro Roggero, A. Baha Balantekin, (参考訳) The Phase-Space approach (PSA) was introduced in [Lacroix et al , Phys. D 106, 123006 (2022)] to describe neutrino flavor oscillation for interacting neutrinos emission from stellar objects is extended to describe any number of neutrino beams。 PSAは、初期条件をサンプリングし、続いて独立平均場進化によって、量子ゆらぎを統計的処理にマッピングする。 ニュートリノビームの任意の数のニュートリノを処理できる新しいサンプリング法が提案されている。 提案手法の検証に成功し,参照正確な計算が可能となるいくつかの事例において,その予測力を検証した。 ニュートリノ間の相互作用によって引き起こされる絡み合いや散逸などの多体効果を記述できることを示す。 問題の複雑さのため、厳密な解は比較的限られた場合にのみ計算でき、ビーム数やニュートリノは各ビームに限られている。 PSAアプローチは計算コストを大幅に削減し、任意のビーム数を正確にシミュレートする効率的な技術を提供する。 PSAの結果の例としては、時間非依存または時間依存ハミルトニアンを持つ200個のビームがある。 我々はこの手法がニュートリノ振動に使用されるより伝統的な輸送理論で精密な技術に橋渡しするのに有用であると予測している。 また、他の技術が古典的コンピュータに適用できない将来の量子コンピュータアプリケーションに対して重要な参照計算を提供する。

The Phase-Space approach (PSA), which was originally introduced in [Lacroix et al., Phys. Rev. D 106, 123006 (2022)] to describe neutrino flavor oscillations for interacting neutrinos emitted from stellar objects is extended to describe arbitrary numbers of neutrino beams. The PSA is based on mapping the quantum fluctuations into a statistical treatment by sampling initial conditions followed by independent mean-field evolution. A new method is proposed to perform this sampling that allows treating an arbitrary number of neutrinos in each neutrino beam. We validate the technique successfully and confirm its predictive power on several examples where a reference exact calculation is possible. We show that it can describe many-body effects, such as entanglement and dissipation induced by the interaction between neutrinos. Due to the complexity of the problem, exact solutions can only be calculated for rather limited cases, with a limited number of beams and/or neutrinos in each beam. The PSA approach considerably reduces the numerical cost and provides an efficient technique to accurately simulate arbitrary numbers of beams. Examples of PSA results are given here, including up to 200 beams with time-independent or time-dependent Hamiltonian. We anticipate that this approach will be useful to bridge exact microscopic techniques with more traditional transport theories used in neutrino oscillations. It will also provide important reference calculations for future quantum computer applications where other techniques are not applicable to classical computers.
翻訳日:2024-11-05 15:58:31 公開日:2024-10-26
# コントラスト学習に基づく多段階プログレッシブファインタニングSNNとRLに基づく外部最適化によるGANの強化

Enhancing GANs with Contrastive Learning-Based Multistage Progressive Finetuning SNN and RL-Based External Optimization ( http://arxiv.org/abs/2409.20340v3 )

ライセンス: Link先を確認
Osama Mustafa, (参考訳) Generative Adversarial Networks (GAN) は画像合成の最前線にあり、特に病理学のような医学分野において、データの不足、患者のプライバシー、クラス不均衡といった課題に対処している。 しかし、いくつかの固有のドメイン固有の問題が残っている。 GANでは、トレーニングの不安定性、モード崩壊、バイナリ分類からのフィードバック不足がパフォーマンスを損なう可能性がある。 これらの課題は、複雑な特徴表現と空間的詳細のため、特に高解像度の病理像で顕著である。 これらの課題に対応するために,本研究では,MFT-SNN(Multistage Progressive Finetuning Siamese Neural Network)と強化学習ベース外部最適化器(RL-EO)を統合した新しいフレームワークを提案する。 MFT-SNNは、病理組織データの特徴類似性抽出を改善し、RL-EOは、GANトレーニングのバランスをとるための報酬ベースのガイドとして機能し、モード崩壊に対処し、出力品質を向上させる。 提案手法は最先端(SOTA)のGANモデルに対して評価され,複数の指標に対して優れた性能を示す。

Generative Adversarial Networks (GANs) have been at the forefront of image synthesis, especially in medical fields like histopathology, where they help address challenges such as data scarcity, patient privacy, and class imbalance. However, several inherent and domain-specific issues remain. For GANs, training instability, mode collapse, and insufficient feedback from binary classification can undermine performance. These challenges are particularly pronounced with high-resolution histopathology images due to their complex feature representation and high spatial detail. In response to these challenges, this work proposes a novel framework integrating a contrastive learning-based Multistage Progressive Finetuning Siamese Neural Network (MFT-SNN) with a Reinforcement Learning-based External Optimizer (RL-EO). The MFT-SNN improves feature similarity extraction in histopathology data, while the RL-EO acts as a reward-based guide to balance GAN training, addressing mode collapse and enhancing output quality. The proposed approach is evaluated against state-of-the-art (SOTA) GAN models and demonstrates superior performance across multiple metrics.
翻訳日:2024-11-05 15:58:31 公開日:2024-10-26
# 高度放射線治療目標線量推定のためのマルチモーダル生成AIにおける多施設専門家の混在

Mixture of Multicenter Experts in Multimodal Generative AI for Advanced Radiotherapy Target Delineation ( http://arxiv.org/abs/2410.00046v1 )

ライセンス: Link先を確認
Yujin Oh, Sangjoon Park, Xiang Li, Wang Yi, Jonathan Paly, Jason Efstathiou, Annie Chan, Jun Won Kim, Hwa Kyung Byun, Ik Jae Lee, Jaeho Cho, Chan Woo Wee, Peng Shu, Peilong Wang, Nathan Yu, Jason Holmes, Jong Chul Ye, Quanzheng Li, Wei Liu, Woong Sub Koom, Jin Sung Kim, Kyungsang Kim, (参考訳) 臨床専門家は、地域患者人口の影響を受けて、多様な哲学と患者ケア戦略を取り入れている。 しかし、既存の医療人工知能(AI)モデルは、非常に一般的なパターンを不均等に反映し、バイアスを補強し、臨床医の多様な専門知識を見越すデータ分布に基づいて訓練されることが多い。 この制限を克服するために、我々はMixture of Multicenter Experts (MoME)アプローチを導入する。 この方法は、様々な臨床戦略から専門的な専門知識を戦略的に統合し、複数の医療センターをまたいだAIモデルの一般化と適応能力を強化する。 前立腺癌放射線治療における基準線法よりも優れた成績を示したMOMEベースマルチモーダルボリュームデラインモデルについて,各医療センターからの画像や臨床ノートを含む数点のサンプルを用いて訓練を行った。 また, 医療機関間のデータ共有を必要とせず, 医療機関間のデータ共有を必要とせずに, 医療機関ごとの特定の嗜好に適応して, 資源制約のある医療施設にAIベースの目標容積デラインモデルを配置することが可能となった。 MoMEフレームワーク内のマルチセンターの専門家の数を増やすことで、一般化可能性を大幅に向上するとともに、精度放射線腫瘍学の分野における臨床AI応用のユーザビリティと適応性を向上させることができる。

Clinical experts employ diverse philosophies and strategies in patient care, influenced by regional patient populations. However, existing medical artificial intelligence (AI) models are often trained on data distributions that disproportionately reflect highly prevalent patterns, reinforcing biases and overlooking the diverse expertise of clinicians. To overcome this limitation, we introduce the Mixture of Multicenter Experts (MoME) approach. This method strategically integrates specialized expertise from diverse clinical strategies, enhancing the AI model's ability to generalize and adapt across multiple medical centers. The MoME-based multimodal target volume delineation model, trained with few-shot samples including images and clinical notes from each medical center, outperformed baseline methods in prostate cancer radiotherapy target delineation. The advantages of MoME were most pronounced when data characteristics varied across centers or when data availability was limited, demonstrating its potential for broader clinical applications.Therefore, the MoME framework enables the deployment of AI-based target volume delineation models in resource-constrained medical facilities by adapting to specific preferences of each medical center only using a few sample data, without the need for data sharing between institutions. Expanding the number of multicenter experts within the MoME framework will significantly enhance the generalizability, while also improving the usability and adaptability of clinical AI applications in the field of precision radiation oncology.
翻訳日:2024-11-05 15:19:28 公開日:2024-10-26
# 高度放射線治療目標線量推定のためのマルチモーダル生成AIにおける多施設専門家の混在

Mixture of Multicenter Experts in Multimodal Generative AI for Advanced Radiotherapy Target Delineation ( http://arxiv.org/abs/2410.00046v2 )

ライセンス: Link先を確認
Yujin Oh, Sangjoon Park, Xiang Li, Wang Yi, Jonathan Paly, Jason Efstathiou, Annie Chan, Jun Won Kim, Hwa Kyung Byun, Ik Jae Lee, Jaeho Cho, Chan Woo Wee, Peng Shu, Peilong Wang, Nathan Yu, Jason Holmes, Jong Chul Ye, Quanzheng Li, Wei Liu, Woong Sub Koom, Jin Sung Kim, Kyungsang Kim, (参考訳) 臨床専門家は、地域患者人口の影響を受けて、多様な哲学と患者ケア戦略を取り入れている。 しかし、既存の医療人工知能(AI)モデルは、非常に一般的なパターンを不均等に反映し、バイアスを補強し、臨床医の多様な専門知識を見越すデータ分布に基づいて訓練されることが多い。 この制限を克服するために、我々はMixture of Multicenter Experts (MoME)アプローチを導入する。 この方法は、様々な臨床戦略から専門的な専門知識を戦略的に統合し、複数の医療センターをまたいだAIモデルの一般化と適応能力を強化する。 前立腺癌放射線治療における基準線法よりも優れた成績を示したMOMEベースマルチモーダルボリュームデラインモデルについて,各医療センターからの画像や臨床ノートを含む数点のサンプルを用いて訓練を行った。 MoMEの利点は、データ特性がセンターによって異なる場合や、データ可用性が制限された場合が最も顕著であり、より広範な臨床応用の可能性を示した。 したがって、MOMEフレームワークは、機関間でのデータ共有を必要とせず、少数のサンプルデータのみを使用して、各医療センターの特定の嗜好に適応することにより、AIベースのターゲットボリュームデラインモデルのリソース制約のある医療施設への展開を可能にする。 MoMEフレームワーク内のマルチセンターの専門家の数を増やすことで、一般化可能性を大幅に向上するとともに、精度放射線腫瘍学の分野における臨床AI応用のユーザビリティと適応性を向上させることができる。

Clinical experts employ diverse philosophies and strategies in patient care, influenced by regional patient populations. However, existing medical artificial intelligence (AI) models are often trained on data distributions that disproportionately reflect highly prevalent patterns, reinforcing biases and overlooking the diverse expertise of clinicians. To overcome this limitation, we introduce the Mixture of Multicenter Experts (MoME) approach. This method strategically integrates specialized expertise from diverse clinical strategies, enhancing the AI model's ability to generalize and adapt across multiple medical centers. The MoME-based multimodal target volume delineation model, trained with few-shot samples including images and clinical notes from each medical center, outperformed baseline methods in prostate cancer radiotherapy target delineation. The advantages of MoME were most pronounced when data characteristics varied across centers or when data availability was limited, demonstrating its potential for broader clinical applications. Therefore, the MoME framework enables the deployment of AI-based target volume delineation models in resource-constrained medical facilities by adapting to specific preferences of each medical center only using a few sample data, without the need for data sharing between institutions. Expanding the number of multicenter experts within the MoME framework will significantly enhance the generalizability, while also improving the usability and adaptability of clinical AI applications in the field of precision radiation oncology.
翻訳日:2024-11-05 15:19:28 公開日:2024-10-26
# 確率的最適制御のための損失関数の分類法

A Taxonomy of Loss Functions for Stochastic Optimal Control ( http://arxiv.org/abs/2410.00345v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich, (参考訳) 確率最適制御(SOC)は、ノイズの多いシステムの振舞いを指示することを目的としており、科学、工学、人工知能に広く応用されている。 特に拡散・流れマッチングモデルの微調整と非正規化手法からのサンプリングをSOC問題として再放送することができる。 近年の研究では、報酬微調整装置において既存の損失関数を大幅に上回るSOC問題の損失関数であるAdjoint Matching (Domingo-Enrich et al , 2024)を導入している。 この研究の目的は、既存の(そしていくつかの新しい)SOC損失関数間の接続を明らかにすることである。 すなわち、SOC損失関数は期待値と同じ勾配のクラスにグループ化でき、最適化のランドスケープが同じであることを意味する。 異なる損失関数の強みと弱みを理解するために、簡単なSOC実験を行う。

Stochastic optimal control (SOC) aims to direct the behavior of noisy systems and has widespread applications in science, engineering, and artificial intelligence. In particular, reward fine-tuning of diffusion and flow matching models and sampling from unnormalized methods can be recast as SOC problems. A recent work has introduced Adjoint Matching (Domingo-Enrich et al., 2024), a loss function for SOC problems that vastly outperforms existing loss functions in the reward fine-tuning setup. The goal of this work is to clarify the connections between all the existing (and some new) SOC loss functions. Namely, we show that SOC loss functions can be grouped into classes that share the same gradient in expectation, which means that their optimization landscape is the same; they only differ in their gradient variance. We perform simple SOC experiments to understand the strengths and weaknesses of different loss functions.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-26
# 確率的最適制御のための損失関数の分類法

A Taxonomy of Loss Functions for Stochastic Optimal Control ( http://arxiv.org/abs/2410.00345v2 )

ライセンス: Link先を確認
Carles Domingo-Enrich, (参考訳) 確率最適制御(SOC)は、ノイズの多いシステムの振舞いを指示することを目的としており、科学、工学、人工知能に広く応用されている。 特に拡散・流れマッチングモデルの微調整と非正規化手法からのサンプリングをSOC問題として再放送することができる。 近年の研究では、報酬微調整装置において既存の損失関数を大幅に上回るSOC問題の損失関数であるAdjoint Matching (Domingo-Enrich et al , 2024)を導入している。 この研究の目的は、既存の(そしていくつかの新しい)SOC損失関数間の接続を明らかにすることである。 すなわち、SOC損失関数は期待値と同じ勾配のクラスにグループ化でき、最適化のランドスケープが同じであることを意味する。 異なる損失関数の強みと弱みを理解するために、簡単なSOC実験を行う。

Stochastic optimal control (SOC) aims to direct the behavior of noisy systems and has widespread applications in science, engineering, and artificial intelligence. In particular, reward fine-tuning of diffusion and flow matching models and sampling from unnormalized methods can be recast as SOC problems. A recent work has introduced Adjoint Matching (Domingo-Enrich et al., 2024), a loss function for SOC problems that vastly outperforms existing loss functions in the reward fine-tuning setup. The goal of this work is to clarify the connections between all the existing (and some new) SOC loss functions. Namely, we show that SOC loss functions can be grouped into classes that share the same gradient in expectation, which means that their optimization landscape is the same; they only differ in their gradient variance. We perform simple SOC experiments to understand the strengths and weaknesses of different loss functions.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-26
# グラフとテキストを組み合わせてデータ分析をガイドする!

Show Me What's Wrong!: Combining Charts and Text to Guide Data Analysis ( http://arxiv.org/abs/2410.00727v2 )

ライセンス: Link先を確認
Beatriz Feliciano, Rita Costa, Jean Alves, Javier Liébana, Diogo Duarte, Pedro Bizarro, (参考訳) 多次元データセットにおける異常の解析と発見は、さまざまな領域にわたる煩雑だが重要なタスクである。 金融詐欺検出の文脈では、アナリストは取引データの中で不審な活動を素早く特定する必要がある。 これは、パターンの認識、グループ化、比較といった複雑な探索的なタスクからなる反復的なプロセスである。 これらのステップに固有の情報の過負荷を軽減するために、自動化された情報ハイライト、大規模言語モデルが生成するテキストインサイト、および視覚分析を組み合わせたツールを提案する。 分析領域毎にデータのセグメンテーションを行い、各データを視覚的に表現し、より注意を要する信号に自動的な視覚的手がかりを利用する。 地域をユーザが選択すると,本システムはテキストとグラフィカルの要約を提供する。 テキストは、選択されたセグメントの高レベルと詳細なビューのリンクとして機能し、関連する詳細を素早く理解することができる。 選択を含むデータの徹底的な探索は、グラフィカルな表現によって行うことができる。 7つのドメインの専門家による調査で得られたフィードバックは、我々のツールが探索分析を効果的に支援し、ガイドし、不審な情報の識別を緩和することを示唆している。

Analyzing and finding anomalies in multi-dimensional datasets is a cumbersome but vital task across different domains. In the context of financial fraud detection, analysts must quickly identify suspicious activity among transactional data. This is an iterative process made of complex exploratory tasks such as recognizing patterns, grouping, and comparing. To mitigate the information overload inherent to these steps, we present a tool combining automated information highlights, Large Language Model generated textual insights, and visual analytics, facilitating exploration at different levels of detail. We perform a segmentation of the data per analysis area and visually represent each one, making use of automated visual cues to signal which require more attention. Upon user selection of an area, our system provides textual and graphical summaries. The text, acting as a link between the high-level and detailed views of the chosen segment, allows for a quick understanding of relevant details. A thorough exploration of the data comprising the selection can be done through graphical representations. The feedback gathered in a study performed with seven domain experts suggests our tool effectively supports and guides exploratory analysis, easing the identification of suspicious information.
翻訳日:2024-11-05 04:15:24 公開日:2024-10-26
# グラフとテキストを組み合わせてデータ分析をガイドする"Show Me What's Wrong!

"Show Me What's Wrong!": Combining Charts and Text to Guide Data Analysis ( http://arxiv.org/abs/2410.00727v3 )

ライセンス: Link先を確認
Beatriz Feliciano, Rita Costa, Jean Alves, Javier Liébana, Diogo Duarte, Pedro Bizarro, (参考訳) 多次元データセットにおける異常の解析と発見は、さまざまな領域にわたる煩雑だが重要なタスクである。 金融詐欺検出の文脈では、アナリストは取引データの中で不審な活動を素早く特定する必要がある。 これは、パターンの認識、グループ化、比較といった複雑な探索的なタスクからなる反復的なプロセスである。 これらのステップに固有の情報の過負荷を軽減するために、自動化された情報ハイライト、大規模言語モデルが生成するテキストインサイト、および視覚分析を組み合わせたツールを提案する。 分析領域毎にデータのセグメンテーションを行い、各データを視覚的に表現し、より注意を要する信号に自動的な視覚的手がかりを利用する。 地域をユーザが選択すると,本システムはテキストとグラフィカルの要約を提供する。 テキストは、選択されたセグメントの高レベルと詳細なビューのリンクとして機能し、関連する詳細を素早く理解することができる。 選択を含むデータの徹底的な探索は、グラフィカルな表現によって行うことができる。 7つのドメインの専門家による調査で得られたフィードバックは、我々のツールが探索分析を効果的に支援し、ガイドし、不審な情報の識別を緩和することを示唆している。

Analyzing and finding anomalies in multi-dimensional datasets is a cumbersome but vital task across different domains. In the context of financial fraud detection, analysts must quickly identify suspicious activity among transactional data. This is an iterative process made of complex exploratory tasks such as recognizing patterns, grouping, and comparing. To mitigate the information overload inherent to these steps, we present a tool combining automated information highlights, Large Language Model generated textual insights, and visual analytics, facilitating exploration at different levels of detail. We perform a segmentation of the data per analysis area and visually represent each one, making use of automated visual cues to signal which require more attention. Upon user selection of an area, our system provides textual and graphical summaries. The text, acting as a link between the high-level and detailed views of the chosen segment, allows for a quick understanding of relevant details. A thorough exploration of the data comprising the selection can be done through graphical representations. The feedback gathered in a study performed with seven domain experts suggests our tool effectively supports and guides exploratory analysis, easing the identification of suspicious information.
翻訳日:2024-11-05 04:15:24 公開日:2024-10-26
# 超反応性の準備:非常に複雑な反応系の開発における早期故障検出

Preparing for Super-Reactivity: Early Fault-Detection in the Development of Exceedingly Complex Reactive Systems ( http://arxiv.org/abs/2410.02627v1 )

ライセンス: Link先を確認
David Harel, Assaf Marron, (参考訳) 構築と振る舞いが複雑で、常に変化し、進化し、他のシステムや物理世界と密接な関係を持つリアクティブシステムを指すために、Super-Reactive Systemsという用語を紹介します。 計画と開発の初期段階でそのようなシステムに隠れた欠陥を見つけることは、人間の安全、環境、社会、経済にとって重要である。 しかし、システムの複雑さと相互作用、適切な技術的詳細が欠如していることは大きな障害となる。 本稿では,このような障壁を克服し,シミュレーション,系統解析,故障検出とハンドリングを可能にするモデルとツールのアーキテクチャを提案する。 このアプローチは、推論と抽象化機能と、大きな言語モデルと関連するAIツールによって提供されるパワーと知識によって促進される。 根拠は以下の通り。 (i)自然言語形式で記憶されているモデル要素のジャスト・イン・タイム解釈を延期し、 (II)直交性要件の暗黙的相互依存性の早期取得。

We introduce the term Super-Reactive Systems to refer to reactive systems whose construction and behavior are complex, constantly changing and evolving, and heavily interwoven with other systems and the physical world. Finding hidden faults in such systems early in planning and development is critical for human safety, the environment, society and the economy. However, the complexity of the system and its interactions and the absence of adequate technical details pose a great obstacle. We propose an architecture for models and tools to overcome such barriers and enable simulation, systematic analysis, and fault detection and handling, early in the development of super-reactive systems. The approach is facilitated by the inference and abstraction capabilities and the power and knowledge afforded by large language models and associated AI tools. It is based on: (i) deferred, just-in-time interpretation of model elements that are stored in natural language form, and (ii) early capture of tacit interdependencies among seemingly orthogonal requirements.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-26
# 超反応性の準備:非常に複雑な反応系の開発における早期故障検出

Preparing for Super-Reactivity: Early Fault-Detection in the Development of Exceedingly Complex Reactive Systems ( http://arxiv.org/abs/2410.02627v2 )

ライセンス: Link先を確認
David Harel, Assaf Marron, (参考訳) 構築と振る舞いが複雑で、常に変化し、進化し、他のシステムや物理世界と密接な関係を持つリアクティブシステムを指すために、Super-Reactive Systemsという用語を紹介します。 計画と開発の初期段階でそのようなシステムに隠れた欠陥を見つけることは、人間の安全、環境、社会、経済にとって重要である。 しかし、システムの複雑さと相互作用、適切な技術的詳細が欠如していることは大きな障害となる。 本稿では,このような障壁を克服し,シミュレーション,系統解析,故障検出とハンドリングを可能にするモデルとツールのアーキテクチャを提案する。 このアプローチは、推論と抽象化機能と、大きな言語モデルと関連するAIツールによって提供されるパワーと知識によって促進される。 根拠は以下の通り。 (i)自然言語形式で記憶されているモデル要素のジャスト・イン・タイム解釈を延期し、 (II)直交性要件の暗黙的相互依存性の早期取得。

We introduce the term Super-Reactive Systems to refer to reactive systems whose construction and behavior are complex, constantly changing and evolving, and heavily interwoven with other systems and the physical world. Finding hidden faults in such systems early in planning and development is critical for human safety, the environment, society and the economy. However, the complexity of the system and its interactions and the absence of adequate technical details pose a great obstacle. We propose an architecture for models and tools to overcome such barriers and enable simulation, systematic analysis, and fault detection and handling, early in the development of super-reactive systems. The approach is facilitated by the inference and abstraction capabilities and the power and knowledge afforded by large language models and associated AI tools. It is based on: (i) deferred, just-in-time interpretation of model elements that are stored in natural language form, and (ii) early capture of tacit interdependencies among seemingly orthogonal requirements.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-26
# データ汚染について、どのくらい忘れることができるのか?

How much can we forget about Data Contamination? ( http://arxiv.org/abs/2410.03249v1 )

ライセンス: Link先を確認
Sebastian Bordt, Suraj Srinivas, Valentyn Boreiko, Ulrike von Luxburg, (参考訳) トレーニングデータへのベンチマークデータの漏洩は,大規模言語モデル(LLM)の能力を評価する上で,大きな課題となっている。 本研究では,実験的なエビデンスと理論的推定を用いて,小規模汚染がベンチマーク評価を無効にするという一般的な仮定に挑戦する。 まず,3次元のスケーリングに基づいてベンチマークオーバーフィッティングの規模を実験的に定量化する。モデルパラメータの数(1.6Bまで),サンプルの回数(144まで),トレーニングトークンの数(40Bまで)。 モデルとデータがチンチラのスケーリング法に従えば、小さな汚染は確かに過度に適合する。 同時に、トレーニングデータがチンチラの5倍を超えれば、144倍の汚染も忘れてはならない。 すると、累積重崩壊によって忘れる例の単純な理論を導出する。 これによって、AdamWのハイパーパラメータを知っている任意のトレーニング実行において、過去のデータを忘れるのに必要な勾配ステップの数を制限できます。 これは、Llama 3を含む多くのLLMが、トレーニングの開始時に見られたデータを忘れていることを示している。 実験により, 境界によって予測されることよりも, 忘れることの方が早く起こることを示した。 また,本研究の結果から,現実的に規模を拡大したトレーニングの最後には,適度な量の汚染を忘れることが可能であることが示唆された。

The leakage of benchmark data into the training data has emerged as a significant challenge for evaluating the capabilities of large language models (LLMs). In this work, we use experimental evidence and theoretical estimates to challenge the common assumption that small-scale contamination renders benchmark evaluations invalid. First, we experimentally quantify the magnitude of benchmark overfitting based on scaling along three dimensions: The number of model parameters (up to 1.6B), the number of times an example is seen (up to 144), and the number of training tokens (up to 40B). We find that if model and data follow the Chinchilla scaling laws, minor contamination indeed leads to overfitting. At the same time, even 144 times of contamination can be forgotten if the training data is scaled beyond five times Chinchilla, a regime characteristic of many modern LLMs. We then derive a simple theory of example forgetting via cumulative weight decay. It allows us to bound the number of gradient steps required to forget past data for any training run where we know the hyperparameters of AdamW. This indicates that many LLMs, including Llama 3, have forgotten the data seen at the beginning of training. Experimentally, we demonstrate that forgetting occurs faster than what is predicted by our bounds. Taken together, our results suggest that moderate amounts of contamination can be forgotten at the end of realistically scaled training runs.
翻訳日:2024-11-02 23:28:42 公開日:2024-10-26
# データ汚染について、どのくらい忘れることができるのか?

How much can we forget about Data Contamination? ( http://arxiv.org/abs/2410.03249v2 )

ライセンス: Link先を確認
Sebastian Bordt, Suraj Srinivas, Valentyn Boreiko, Ulrike von Luxburg, (参考訳) トレーニングデータへのベンチマークデータの漏洩は,大規模言語モデル(LLM)の能力を評価する上で,大きな課題となっている。 本研究では,実験的なエビデンスと理論的推定を用いて,小規模汚染がベンチマーク評価を無効にするという一般的な仮定に挑戦する。 まず,3次元のスケーリングに基づいてベンチマークオーバーフィッティングの規模を実験的に定量化する。モデルパラメータの数(1.6Bまで),サンプルの回数(144まで),トレーニングトークンの数(40Bまで)。 モデルとデータがチンチラのスケーリング法に従えば、小さな汚染は確かに過度に適合する。 同時に、トレーニングデータがチンチラの5倍を超えれば、144倍の汚染も忘れてはならない。 すると、累積重崩壊によって忘れる例の単純な理論を導出する。 これによって、AdamWのハイパーパラメータを知っている任意のトレーニング実行において、過去のデータを忘れるのに必要な勾配ステップの数を制限できます。 これは、Llama 3を含む多くのLLMが、トレーニングの開始時に見られたデータを忘れていることを示している。 実験により, 境界によって予測されることよりも, 忘れることの方が早く起こることを示した。 また,本研究の結果から,現実的に規模を拡大したトレーニングの最後には,適度な量の汚染を忘れることが可能であることが示唆された。

The leakage of benchmark data into the training data has emerged as a significant challenge for evaluating the capabilities of large language models (LLMs). In this work, we use experimental evidence and theoretical estimates to challenge the common assumption that small-scale contamination renders benchmark evaluations invalid. First, we experimentally quantify the magnitude of benchmark overfitting based on scaling along three dimensions: The number of model parameters (up to 1.6B), the number of times an example is seen (up to 144), and the number of training tokens (up to 40B). We find that if model and data follow the Chinchilla scaling laws, minor contamination indeed leads to overfitting. At the same time, even 144 times of contamination can be forgotten if the training data is scaled beyond five times Chinchilla, a regime characteristic of many modern LLMs. We then derive a simple theory of example forgetting via cumulative weight decay. It allows us to bound the number of gradient steps required to forget past data for any training run where we know the hyperparameters of AdamW. This indicates that many LLMs, including Llama 3, have forgotten the data seen at the beginning of training. Experimentally, we demonstrate that forgetting occurs faster than what is predicted by our bounds. Taken together, our results suggest that moderate amounts of contamination can be forgotten at the end of realistically scaled training runs.
翻訳日:2024-11-02 23:28:42 公開日:2024-10-26
# 医用画像からの特徴抽出のためのマルチスケール潜時拡散モデル

Multiscale Latent Diffusion Model for Enhanced Feature Extraction from Medical Images ( http://arxiv.org/abs/2410.04000v1 )

ライセンス: Link先を確認
Rabeya Tus Sadia, Jie Zhang, Jin Chen, (参考訳) 様々な画像モダリティが患者の診断に使われ、それぞれにユニークな利点と解剖学と病理学に関する貴重な知見がある。 CT(Computed Tomography)は診断において重要であり,内臓器の正確な可視化のための高解像度画像を提供する。 CTの微妙な組織変化を検出する能力は、肺癌などの疾患の早期発見と正確な腫瘍評価を可能にするために不可欠である。 しかし、CTスキャナーモデルと取得プロトコルのバリエーションは、同じ患者を撮像しても、抽出した放射線学的特徴に有意な変動をもたらす。 この変動は、一貫した信頼性のある特徴抽出に依存する下流の研究と臨床分析にかなりの課題をもたらす。 医用画像の特徴抽出の現在の手法は、GANベースのモデルを含む教師付き学習アプローチに基づいており、様々な撮像環境における一般化の限界に直面している。 これらの課題に対応するために,医用画像の特徴抽出の強化を目的とした多スケール潜在拡散モデルLTDiff++を提案する。 このモデルは、非一様分布を潜在空間で標準化し、特徴整合性を改善することで可変性に対処する。 LTDiff++ は UNet++ エンコーダデコーダアーキテクチャと条件付き Denoising Diffusion Probabilistic Model (DDPM) を組み合わせることで,堅牢な機能抽出と標準化を実現している。 患者とファントムのCTデータセットに対する広範囲な実験的評価は、複数の放射線学的特徴カテゴリにまたがるコンコーダンス相関係数(CCC)が向上し、画像の標準化が著しく向上したことを示している。 これらの進歩を通じて、LTDiff++は、医用画像データの固有のばらつきを克服し、特徴抽出プロセスにおける信頼性と精度を改善した、有望なソリューションである。

Various imaging modalities are used in patient diagnosis, each offering unique advantages and valuable insights into anatomy and pathology. Computed Tomography (CT) is crucial in diagnostics, providing high-resolution images for precise internal organ visualization. CT's ability to detect subtle tissue variations is vital for diagnosing diseases like lung cancer, enabling early detection and accurate tumor assessment. However, variations in CT scanner models and acquisition protocols introduce significant variability in the extracted radiomic features, even when imaging the same patient. This variability poses considerable challenges for downstream research and clinical analysis, which depend on consistent and reliable feature extraction. Current methods for medical image feature extraction, often based on supervised learning approaches, including GAN-based models, face limitations in generalizing across different imaging environments. In response to these challenges, we propose LTDiff++, a multiscale latent diffusion model designed to enhance feature extraction in medical imaging. The model addresses variability by standardizing non-uniform distributions in the latent space, improving feature consistency. LTDiff++ utilizes a UNet++ encoder-decoder architecture coupled with a conditional Denoising Diffusion Probabilistic Model (DDPM) at the latent bottleneck to achieve robust feature extraction and standardization. Extensive empirical evaluations on both patient and phantom CT datasets demonstrate significant improvements in image standardization, with higher Concordance Correlation Coefficients (CCC) across multiple radiomic feature categories. Through these advancements, LTDiff++ represents a promising solution for overcoming the inherent variability in medical imaging data, offering improved reliability and accuracy in feature extraction processes.
翻訳日:2024-11-02 14:50:11 公開日:2024-10-26
# 医用画像からの特徴抽出のためのマルチスケール潜時拡散モデル

Multiscale Latent Diffusion Model for Enhanced Feature Extraction from Medical Images ( http://arxiv.org/abs/2410.04000v2 )

ライセンス: Link先を確認
Rabeya Tus Sadia, Jie Zhang, Jin Chen, (参考訳) 様々な画像モダリティが患者の診断に使われ、それぞれにユニークな利点と解剖学と病理学に関する貴重な知見がある。 CT(Computed Tomography)は診断において重要であり,内臓器の正確な可視化のための高解像度画像を提供する。 CTの微妙な組織変化を検出する能力は、肺癌などの疾患の早期発見と正確な腫瘍評価を可能にするために不可欠である。 しかし、CTスキャナーモデルと取得プロトコルのバリエーションは、同じ患者を撮像しても、抽出した放射線学的特徴に有意な変動をもたらす。 この変動は、一貫した信頼性のある特徴抽出に依存する下流の研究と臨床分析にかなりの課題をもたらす。 医用画像の特徴抽出の現在の手法は、GANベースのモデルを含む教師付き学習アプローチに基づいており、様々な撮像環境における一般化の限界に直面している。 これらの課題に対応するために,医用画像の特徴抽出の強化を目的とした多スケール潜在拡散モデルLTDiff++を提案する。 このモデルは、非一様分布を潜在空間で標準化し、特徴整合性を改善することで可変性に対処する。 LTDiff++ は UNet++ エンコーダデコーダアーキテクチャと条件付き Denoising Diffusion Probabilistic Model (DDPM) を組み合わせることで,堅牢な機能抽出と標準化を実現している。 患者とファントムのCTデータセットに対する広範囲な実験的評価は、複数の放射線学的特徴カテゴリにまたがるコンコーダンス相関係数(CCC)が向上し、画像の標準化が著しく向上したことを示している。 これらの進歩を通じて、LTDiff++は、医用画像データの固有のばらつきを克服し、特徴抽出プロセスにおける信頼性と精度を改善した、有望なソリューションである。

Various imaging modalities are used in patient diagnosis, each offering unique advantages and valuable insights into anatomy and pathology. Computed Tomography (CT) is crucial in diagnostics, providing high-resolution images for precise internal organ visualization. CT's ability to detect subtle tissue variations is vital for diagnosing diseases like lung cancer, enabling early detection and accurate tumor assessment. However, variations in CT scanner models and acquisition protocols introduce significant variability in the extracted radiomic features, even when imaging the same patient. This variability poses considerable challenges for downstream research and clinical analysis, which depend on consistent and reliable feature extraction. Current methods for medical image feature extraction, often based on supervised learning approaches, including GAN-based models, face limitations in generalizing across different imaging environments. In response to these challenges, we propose LTDiff++, a multiscale latent diffusion model designed to enhance feature extraction in medical imaging. The model addresses variability by standardizing non-uniform distributions in the latent space, improving feature consistency. LTDiff++ utilizes a UNet++ encoder-decoder architecture coupled with a conditional Denoising Diffusion Probabilistic Model (DDPM) at the latent bottleneck to achieve robust feature extraction and standardization. Extensive empirical evaluations on both patient and phantom CT datasets demonstrate significant improvements in image standardization, with higher Concordance Correlation Coefficients (CCC) across multiple radiomic feature categories. Through these advancements, LTDiff++ represents a promising solution for overcoming the inherent variability in medical imaging data, offering improved reliability and accuracy in feature extraction processes.
翻訳日:2024-11-02 14:50:11 公開日:2024-10-26
# SeeClear: セマンティック蒸留で高分解能ビデオが撮れる

SeeClear: Semantic Distillation Enhances Pixel Condensation for Video Super-Resolution ( http://arxiv.org/abs/2410.05799v1 )

ライセンス: Link先を確認
Qi Tang, Yao Zhao, Meiqin Liu, Chao Yao, (参考訳) 拡散に基づくビデオ超解法(VSR)は、知覚的にリアルなビデオを生成することで有名だが、確率的ゆらぎによるフレーム間の詳細整合性を維持している。 画素レベルのアライメントの従来のアプローチは、反復的破壊のために拡散処理されたフレームには効果がない。 これを解決するために、SeeClearという条件付きビデオ生成を利用した新しいVSRフレームワークを導入し、インスタンス中心のセマンティックコントロールとチャネルワイドのセマンティックコントロールによって構成する。 このフレームワークはSemantic DistillerとPixel Condenserを統合している。 インスタンス中心アライメントモジュール(InCAM)は、ビデオクリップワイズトークンを使用してフレーム内およびフレーム間のピクセルを動的に関連付け、コヒーレンシーを高める。 さらに、Channel-wise Texture Aggregation Memory (CaTeGory)は、長年のセマンティックなテクスチャを活かして、外生的な知識を注入する。 また,ResShift機構により拡散過程のぼかしを改良し,シャープネスと拡散効果の微妙なバランスをとる。 総合実験により、最先端拡散型VSR技術に対する我々のフレームワークの優位性が確認された。 コードは、https://github.com/Tang1705/SeeClear-NeurIPS24.comで入手できる。

Diffusion-based Video Super-Resolution (VSR) is renowned for generating perceptually realistic videos, yet it grapples with maintaining detail consistency across frames due to stochastic fluctuations. The traditional approach of pixel-level alignment is ineffective for diffusion-processed frames because of iterative disruptions. To overcome this, we introduce SeeClear--a novel VSR framework leveraging conditional video generation, orchestrated by instance-centric and channel-wise semantic controls. This framework integrates a Semantic Distiller and a Pixel Condenser, which synergize to extract and upscale semantic details from low-resolution frames. The Instance-Centric Alignment Module (InCAM) utilizes video-clip-wise tokens to dynamically relate pixels within and across frames, enhancing coherency. Additionally, the Channel-wise Texture Aggregation Memory (CaTeGory) infuses extrinsic knowledge, capitalizing on long-standing semantic textures. Our method also innovates the blurring diffusion process with the ResShift mechanism, finely balancing between sharpness and diffusion effects. Comprehensive experiments confirm our framework's advantage over state-of-the-art diffusion-based VSR techniques. The code is available: https://github.com/Tang1705/SeeClear-NeurIPS24.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-26
# SeeClear: セマンティック蒸留で高分解能ビデオが撮れる

SeeClear: Semantic Distillation Enhances Pixel Condensation for Video Super-Resolution ( http://arxiv.org/abs/2410.05799v2 )

ライセンス: Link先を確認
Qi Tang, Yao Zhao, Meiqin Liu, Chao Yao, (参考訳) 拡散に基づくビデオ超解法(VSR)は、知覚的にリアルなビデオを生成することで有名だが、確率的ゆらぎによるフレーム間の詳細整合性を維持している。 画素レベルのアライメントの従来のアプローチは、反復的破壊のために拡散処理されたフレームには効果がない。 これを解決するために、SeeClearという条件付きビデオ生成を利用した新しいVSRフレームワークを導入し、インスタンス中心のセマンティックコントロールとチャネルワイドのセマンティックコントロールによって構成する。 このフレームワークはSemantic DistillerとPixel Condenserを統合している。 インスタンス中心アライメントモジュール(InCAM)は、ビデオクリップワイズトークンを使用してフレーム内およびフレーム間のピクセルを動的に関連付け、コヒーレンシーを高める。 さらに、Channel-wise Texture Aggregation Memory (CaTeGory)は、長年のセマンティックなテクスチャを活かして、外生的な知識を注入する。 また,ResShift機構により拡散過程のぼかしを改良し,シャープネスと拡散効果の微妙なバランスをとる。 総合実験により、最先端拡散型VSR技術に対する我々のフレームワークの優位性が確認された。 コードは、https://github.com/Tang1705/SeeClear-NeurIPS24.comで入手できる。

Diffusion-based Video Super-Resolution (VSR) is renowned for generating perceptually realistic videos, yet it grapples with maintaining detail consistency across frames due to stochastic fluctuations. The traditional approach of pixel-level alignment is ineffective for diffusion-processed frames because of iterative disruptions. To overcome this, we introduce SeeClear--a novel VSR framework leveraging conditional video generation, orchestrated by instance-centric and channel-wise semantic controls. This framework integrates a Semantic Distiller and a Pixel Condenser, which synergize to extract and upscale semantic details from low-resolution frames. The Instance-Centric Alignment Module (InCAM) utilizes video-clip-wise tokens to dynamically relate pixels within and across frames, enhancing coherency. Additionally, the Channel-wise Texture Aggregation Memory (CaTeGory) infuses extrinsic knowledge, capitalizing on long-standing semantic textures. Our method also innovates the blurring diffusion process with the ResShift mechanism, finely balancing between sharpness and diffusion effects. Comprehensive experiments confirm our framework's advantage over state-of-the-art diffusion-based VSR techniques. The code is available: https://github.com/Tang1705/SeeClear-NeurIPS24.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-26
# SeeClear: セマンティック蒸留で高分解能ビデオが撮れる

SeeClear: Semantic Distillation Enhances Pixel Condensation for Video Super-Resolution ( http://arxiv.org/abs/2410.05799v3 )

ライセンス: Link先を確認
Qi Tang, Yao Zhao, Meiqin Liu, Chao Yao, (参考訳) 拡散に基づくビデオ超解法(VSR)は、知覚的にリアルなビデオを生成することで有名だが、確率的ゆらぎによるフレーム間の詳細整合性を維持している。 画素レベルのアライメントの従来のアプローチは、反復的破壊のために拡散処理されたフレームには効果がない。 これを解決するために、SeeClearという条件付きビデオ生成を利用した新しいVSRフレームワークを導入し、インスタンス中心のセマンティックコントロールとチャネルワイドのセマンティックコントロールによって構成する。 このフレームワークはSemantic DistillerとPixel Condenserを統合している。 インスタンス中心アライメントモジュール(InCAM)は、ビデオクリップワイズトークンを使用してフレーム内およびフレーム間のピクセルを動的に関連付け、コヒーレンシーを高める。 さらに、Channel-wise Texture Aggregation Memory (CaTeGory)は、長年のセマンティックなテクスチャを活かして、外生的な知識を注入する。 また,ResShift機構により拡散過程のぼかしを改良し,シャープネスと拡散効果の微妙なバランスをとる。 総合実験により、最先端拡散型VSR技術に対する我々のフレームワークの優位性が確認された。 コードは、https://github.com/Tang1705/SeeClear-NeurIPS24.comで入手できる。

Diffusion-based Video Super-Resolution (VSR) is renowned for generating perceptually realistic videos, yet it grapples with maintaining detail consistency across frames due to stochastic fluctuations. The traditional approach of pixel-level alignment is ineffective for diffusion-processed frames because of iterative disruptions. To overcome this, we introduce SeeClear--a novel VSR framework leveraging conditional video generation, orchestrated by instance-centric and channel-wise semantic controls. This framework integrates a Semantic Distiller and a Pixel Condenser, which synergize to extract and upscale semantic details from low-resolution frames. The Instance-Centric Alignment Module (InCAM) utilizes video-clip-wise tokens to dynamically relate pixels within and across frames, enhancing coherency. Additionally, the Channel-wise Texture Aggregation Memory (CaTeGory) infuses extrinsic knowledge, capitalizing on long-standing semantic textures. Our method also innovates the blurring diffusion process with the ResShift mechanism, finely balancing between sharpness and diffusion effects. Comprehensive experiments confirm our framework's advantage over state-of-the-art diffusion-based VSR techniques. The code is available: https://github.com/Tang1705/SeeClear-NeurIPS24.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-26
# SeeClear: セマンティック蒸留で高分解能ビデオが撮れる

SeeClear: Semantic Distillation Enhances Pixel Condensation for Video Super-Resolution ( http://arxiv.org/abs/2410.05799v4 )

ライセンス: Link先を確認
Qi Tang, Yao Zhao, Meiqin Liu, Chao Yao, (参考訳) 拡散に基づくビデオ超解法(VSR)は、知覚的にリアルなビデオを生成することで有名だが、確率的ゆらぎによるフレーム間の詳細整合性を維持している。 画素レベルのアライメントの従来のアプローチは、反復的破壊のために拡散処理されたフレームには効果がない。 これを解決するために、SeeClearという条件付きビデオ生成を利用した新しいVSRフレームワークを導入し、インスタンス中心のセマンティックコントロールとチャネルワイドのセマンティックコントロールによって構成する。 このフレームワークはSemantic DistillerとPixel Condenserを統合している。 インスタンス中心アライメントモジュール(InCAM)は、ビデオクリップワイズトークンを使用してフレーム内およびフレーム間のピクセルを動的に関連付け、コヒーレンシーを高める。 さらに、Channel-wise Texture Aggregation Memory (CaTeGory)は、長年のセマンティックなテクスチャを活かして、外生的な知識を注入する。 また,ResShift機構により拡散過程のぼかしを改良し,シャープネスと拡散効果の微妙なバランスをとる。 総合実験により、最先端拡散型VSR技術に対する我々のフレームワークの優位性が確認された。 コードは、https://github.com/Tang1705/SeeClear-NeurIPS24.comで入手できる。

Diffusion-based Video Super-Resolution (VSR) is renowned for generating perceptually realistic videos, yet it grapples with maintaining detail consistency across frames due to stochastic fluctuations. The traditional approach of pixel-level alignment is ineffective for diffusion-processed frames because of iterative disruptions. To overcome this, we introduce SeeClear--a novel VSR framework leveraging conditional video generation, orchestrated by instance-centric and channel-wise semantic controls. This framework integrates a Semantic Distiller and a Pixel Condenser, which synergize to extract and upscale semantic details from low-resolution frames. The Instance-Centric Alignment Module (InCAM) utilizes video-clip-wise tokens to dynamically relate pixels within and across frames, enhancing coherency. Additionally, the Channel-wise Texture Aggregation Memory (CaTeGory) infuses extrinsic knowledge, capitalizing on long-standing semantic textures. Our method also innovates the blurring diffusion process with the ResShift mechanism, finely balancing between sharpness and diffusion effects. Comprehensive experiments confirm our framework's advantage over state-of-the-art diffusion-based VSR techniques. The code is available: https://github.com/Tang1705/SeeClear-NeurIPS24.
翻訳日:2024-11-01 12:49:50 公開日:2024-10-26
# e-Fold Cross-Validation for Energy-Aware Machine Learning Evaluations

e-Fold Cross-Validation for energy-aware Machine Learning Evaluations ( http://arxiv.org/abs/2410.09463v1 )

ライセンス: Link先を確認
Christopher Mahlich, Tobias Vente, Joeran Beel, (参考訳) 本稿では,k-foldクロスバリデーションに代わるエネルギー効率のよいe-foldクロスバリデーションを提案する。 停止基準に基づいて折りたたみ数を動的に調整する。 各折り曲げ後の基準値は、評価された折り曲げの標準偏差が一貫して減少しているか、安定しているかを判定する。 一度会えば、プロセスは早く止まる。 15のデータセットと10の機械学習アルゴリズムでe-foldクロスバリデーションを検証した。 平均すると、10倍のクロスバリデーションよりも4倍の折りたたみが必要であり、評価時間、計算資源、エネルギー使用量を約40%削減した。 e-foldと10-foldのクロスバリデーションのパフォーマンス差は、より大きなデータセットでは2%未満であった。 より複雑なモデルはより小さな相違を示した。 96%の反復において、結果は信頼区間内にあり、統計的意義が確認された。 E-foldクロスバリデーションは、k-foldの信頼性と効率的な代替手段を提供し、精度を維持しながら計算コストを削減する。

This paper introduces e-fold cross-validation, an energy-efficient alternative to k-fold cross-validation. It dynamically adjusts the number of folds based on a stopping criterion. The criterion checks after each fold whether the standard deviation of the evaluated folds has consistently decreased or remained stable. Once met, the process stops early. We tested e-fold cross-validation on 15 datasets and 10 machine-learning algorithms. On average, it required 4 fewer folds than 10-fold cross-validation, reducing evaluation time, computational resources, and energy use by about 40%. Performance differences between e-fold and 10-fold cross-validation were less than 2% for larger datasets. More complex models showed even smaller discrepancies. In 96% of iterations, the results were within the confidence interval, confirming statistical significance. E-fold cross-validation offers a reliable and efficient alternative to k-fold, reducing computational costs while maintaining accuracy.
翻訳日:2024-10-30 14:14:38 公開日:2024-10-26
# 理論から実践へ:e-Foldクロスバリデーションの実装と評価

From Theory to Practice: Implementing and Evaluating e-Fold Cross-Validation ( http://arxiv.org/abs/2410.09463v2 )

ライセンス: Link先を確認
Christopher Mahlich, Tobias Vente, Joeran Beel, (参考訳) 本稿では,k-foldクロスバリデーションに代わるエネルギー効率のよいe-foldクロスバリデーションを提案する。 停止基準に基づいて折りたたみ数を動的に調整する。 各折り曲げ後の基準値は、評価された折り曲げの標準偏差が一貫して減少しているか、安定しているかを判定する。 一度会えば、プロセスは早く止まる。 15のデータセットと10の機械学習アルゴリズムでe-foldクロスバリデーションを検証した。 平均すると、10倍のクロスバリデーションよりも4倍の折りたたみが必要であり、評価時間、計算資源、エネルギー使用量を約40%削減した。 e-foldと10-foldのクロスバリデーションのパフォーマンス差は、より大きなデータセットでは2%未満であった。 より複雑なモデルはより小さな相違を示した。 96%の反復において、結果は信頼区間内にあり、統計的意義が確認された。 E-foldクロスバリデーションは、k-foldの信頼性と効率的な代替手段を提供し、計算コストを低減し、同等の精度を維持している。

This paper introduces e-fold cross-validation, an energy-efficient alternative to k-fold cross-validation. It dynamically adjusts the number of folds based on a stopping criterion. The criterion checks after each fold whether the standard deviation of the evaluated folds has consistently decreased or remained stable. Once met, the process stops early. We tested e-fold cross-validation on 15 datasets and 10 machine-learning algorithms. On average, it required 4 fewer folds than 10-fold cross-validation, reducing evaluation time, computational resources, and energy use by about 40%. Performance differences between e-fold and 10-fold cross-validation were less than 2% for larger datasets. More complex models showed even smaller discrepancies. In 96% of iterations, the results were within the confidence interval, confirming statistical significance. E-fold cross-validation offers a reliable and efficient alternative to k-fold, reducing computational costs while maintaining comparable accuracy.
翻訳日:2024-10-30 14:14:38 公開日:2024-10-26