このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240919となっている論文です。

PDF登録状況(公開日: 20240919)

TitleAuthorsAbstract論文公表日・翻訳日
# 大規模言語モデルにおけるプログラムスライシング

Program Slicing in the Era of Large Language Models ( http://arxiv.org/abs/2409.12369v1 )

ライセンス: Link先を確認
Kimya Khakzad Shahandashti, Mohammad Mahdi Mohajer, Alvine Boaye Belle, Song Wang, Hadi Hemmati, (参考訳) プログラムスライシングは、ソフトウェアエンジニアリングにおいて重要なテクニックであり、開発者はバグ検出、コード理解、デバッグといったタスクのために、関連するコードの一部を分離することができる。 本研究では,大規模言語モデル(LLM)の静的スライシングおよび動的プログラムスライシングへの応用について検討し,Javaプログラムに着目した。 我々は,4つの最先端LPM- GPT-4o, GPT-3.5 Turbo, Llama-2, Gemma-7Bの性能評価を行った。 LeetCode問題から派生した100のJavaプログラムのデータセットを用いて、GPT-4oは静的スライシングと動的スライシングの両方において、それぞれ60.84%と59.69%の精度で最高の性能を発揮することを示した。 この結果から, 静的スライシングと動的スライシングのいずれにおいても, LLM はまだ妥当な性能が得られていないことが明らかとなった。 厳密な手動解析により,根本原因と失敗箇所の分類法を開発し,失敗事例をより深く調査した。 複雑な制御フローは失敗の最も頻繁な根本原因であり,問題の大部分は可変宣言やアサインメントの場所で発生している。 LLMの性能を向上させるために,スライシングプロセスを通じてLCMをより良くガイドするためのプロンプトを改良するプロンプト作成や,モデルの根本原因や障害箇所に対するフィードバックを受け取り,その応答を再現する反復的プロンプトなど,我々の分類に導かれる2つの独立したプロンプトについて検討した。 評価の結果,これら2つの促進手法は,それぞれ4%,3.9%の精度向上を図っている。

Program slicing is a critical technique in software engineering, enabling developers to isolate relevant portions of code for tasks such as bug detection, code comprehension, and debugging. In this study, we investigate the application of large language models (LLMs) to both static and dynamic program slicing, with a focus on Java programs. We evaluate the performance of four state-of-the-art LLMs- GPT-4o, GPT-3.5 Turbo, Llama-2, and Gemma-7B leveraging advanced prompting techniques, including few-shot learning and chain-of-thought reasoning. Using a dataset of 100 Java programs derived from LeetCode problems, our experiments reveal that GPT-4o performs the best in both static and dynamic slicing across other LLMs, achieving an accuracy of 60.84% and 59.69%, respectively. Our results also show that the LLMs we experimented with are yet to achieve reasonable performance for either static slicing or dynamic slicing. Through a rigorous manual analysis, we developed a taxonomy of root causes and failure locations to explore the unsuccessful cases in more depth. We identified Complex Control Flow as the most frequent root cause of failures, with the majority of issues occurring in Variable Declarations and Assignments locations. To improve the performance of LLMs, we further examined two independent strategies for prompting guided by our taxonomy, including prompt crafting, which involved refining the prompts to better guide the LLM through the slicing process, and iterative prompting, where the model receives feedback on the root cause and location of the failure and re-generates its responses. Our evaluation shows these two prompting enhancement approaches can improve accuracy by 4% and 3.9%, respectively.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-19
# 混合実験によるロバスト音声認識モデル

Robust Audiovisual Speech Recognition Models with Mixture-of-Experts ( http://arxiv.org/abs/2409.12370v1 )

ライセンス: Link先を確認
Yihan Wu, Yifan Peng, Yichen Lu, Xuankai Chang, Ruihua Song, Shinji Watanabe, (参考訳) 視覚信号は、追加の文脈情報を提供することで、音声認識の精度を高めることができる。 視覚信号の複雑さを考えると、音声視覚音声認識モデルは様々なビデオシナリオにまたがる堅牢な一般化機能を必要とし、重要な課題を提示する。 本稿では,オーディオVisual ASRのミックス・オブ・エクササイズを利用して,<in-the-wild'ビデオに対してロバストな音声認識を行うEVAを紹介する。 具体的には、まず視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。 そこで我々は,頑健な事前学習音声認識モデルに基づいてEVAを構築し,その一般化能力を確保する。 さらに,視覚情報を効果的に組み込むために,知識混合モジュールを用いて視覚情報をASRモデルに注入する。 実験により,本モデルが3つのベンチマークで最先端の結果を達成し,多様なビデオ領域にまたがるEVAの一般化能力を実証した。

Visual signals can enhance audiovisual speech recognition accuracy by providing additional contextual information. Given the complexity of visual signals, an audiovisual speech recognition model requires robust generalization capabilities across diverse video scenarios, presenting a significant challenge. In this paper, we introduce EVA, leveraging the mixture-of-Experts for audioVisual ASR to perform robust speech recognition for ``in-the-wild'' videos. Specifically, we first encode visual information into visual tokens sequence and map them into speech space by a lightweight projection. Then, we build EVA upon a robust pretrained speech recognition model, ensuring its generalization ability. Moreover, to incorporate visual information effectively, we inject visual information into the ASR model through a mixture-of-experts module. Experiments show our model achieves state-of-the-art results on three benchmarks, which demonstrates the generalization ability of EVA across diverse video domains.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-19
# 通信効率のよいフェデレーション低ランク更新アルゴリズムとその帰属正規化への接続

Communication-Efficient Federated Low-Rank Update Algorithm and its Connection to Implicit Regularization ( http://arxiv.org/abs/2409.12371v1 )

ライセンス: Link先を確認
Haemin Park, Diego Klabjan, (参考訳) フェデレートラーニング(FL)は、コミュニケーション効率と不均一性に関連する重要な課題に直面している。 これらの問題に対処するため、低ランク更新を使用する可能性について検討する。 理論的解析により、クライアントの損失はサーバの損失よりも高いランク構造(次数はヘッセンの上位部分空間にまたがる)を示すことが明らかとなった。 この知見に基づいて、クライアント側の最適化を低ランクな部分空間に制限することは、暗黙の正規化効果をもたらすと仮定する。 その結果,フェデレート学習のための一般的な低ランク更新フレームワークであるFedLoRUを提案する。 我々のフレームワークは、低ランククライアント側の更新を強制し、これらの更新を蓄積して高ランクモデルを作成します。 さらに、FedLoRUの変種は、複数のまたは階層的な低ランク更新を利用することで、統計的およびモデルの不均一性のある環境に適応することができる。 実験により、FedLoRUはフルランクのアルゴリズムと互換性があり、不均一で多数のクライアントに対して堅牢性を示すことが示された。

Federated Learning (FL) faces significant challenges related to communication efficiency and heterogeneity. To address these issues, we explore the potential of using low-rank updates. Our theoretical analysis reveals that client's loss exhibits a higher rank structure (gradients span higher rank subspace of Hessian) compared to the server's loss. Based on this insight, we hypothesize that constraining client-side optimization to a low-rank subspace could provide an implicit regularization effect. Consequently, we propose FedLoRU, a general low-rank update framework for federated learning. Our framework enforces low-rank client-side updates and accumulates these updates to form a higher-rank model. Additionally, variants of FedLoRU can adapt to environments with statistical and model heterogeneity by employing multiple or hierarchical low-rank updates. Experimental results demonstrate that FedLoRU performs comparably to full-rank algorithms and exhibits robustness to heterogeneous and large numbers of clients.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-19
# 低炭素遷移を背景にしたLSTMモデルに基づくブレント原油価格の予測

Prediction of Brent crude oil price based on LSTM model under the background of low-carbon transition ( http://arxiv.org/abs/2409.12376v1 )

ライセンス: Link先を確認
Yuwen Zhao, Baojun Hu, Sizhe Wang, (参考訳) 世界のエネルギー・環境分野において、原油は重要な戦略的資源であり、その価格変動は世界経済、金融市場、低炭素開発プロセスに大きな影響を与えている。 近年、各国の温暖化と低炭素化の進展に伴い、原油市場の動態は複雑化し、変化しやすくなっている。 原油価格は、供給や需要、地政学的な対立、生産技術といった伝統的な要因に影響されるだけでなく、エネルギー政策転換、二酸化炭素排出抑制、新しいエネルギー技術開発といった課題に直面している。 この多角化要因により、原油価格の予測は、経済意思決定やエネルギー計画において重要なだけでなく、金融市場においても重要な問題となり、エネルギー情報管理による欧州ブレント原油のスポット価格データが選択され、3層LSTM単位の深層学習モデルが構築され、今後数日で原油価格が予測される。 その結果、LSTMモデルは、急激な価格変動の時期に多少のずれがあるにもかかわらず、全体的な価格トレンドを捉えるのによく機能することが示された。 本稿では,エネルギー市場予測におけるLSTMモデルの適用性を検証するとともに,原油価格の不確実性に直面した政策立案者や投資家にデータ支援を提供する。

In the field of global energy and environment, crude oil is an important strategic resource, and its price fluctuation has a far-reaching impact on the global economy, financial market and the process of low-carbon development. In recent years, with the gradual promotion of green energy transformation and low-carbon development in various countries, the dynamics of crude oil market have become more complicated and changeable. The price of crude oil is not only influenced by traditional factors such as supply and demand, geopolitical conflict and production technology, but also faces the challenges of energy policy transformation, carbon emission control and new energy technology development. This diversified driving factor makes the prediction of crude oil price not only very important in economic decision-making and energy planning, but also a key issue in financial markets.In this paper, the spot price data of European Brent crude oil provided by us energy information administration are selected, and a deep learning model with three layers of LSTM units is constructed to predict the crude oil price in the next few days. The results show that the LSTM model performs well in capturing the overall price trend, although there is some deviation during the period of sharp price fluctuation. The research in this paper not only verifies the applicability of LSTM model in energy market forecasting, but also provides data support for policy makers and investors when facing the uncertainty of crude oil price.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-19
# 直接拡散橋による地底画像強調

Fundus image enhancement through direct diffusion bridges ( http://arxiv.org/abs/2409.12377v1 )

ライセンス: Link先を確認
Sehui Kim, Hyungjin Chung, Se Hie Park, Eui-Sang Chung, Kayoung Yi, Jong Chul Ye, (参考訳) 本研究では, 直接拡散ブリッジをベースとした基礎画像強調手法FD3を提案し, 迷路, ぼやけ, 騒音, 影など, 幅広い複雑な劣化に対処できる。 まず,低画質インビボ画像の最大品質向上のために,基板認証眼科医によるフィードバックループによる合成前方モデルを提案する。 提案したフォワードモデルを用いて,事前学習モデル上でのみ精錬器として機能する従来の拡散モデルベースアプローチと異なり,スタンドアローン手法として非常に有効である頑健で柔軟な拡散ベース画像強調ネットワークを訓練する。 広範囲にわたる実験により,FD3は合成劣化だけでなく,白内障患者や小学生から得られた低品質の眼底写真を用いた生体内研究にも有効であることが明らかとなった。 この分野のさらなる研究を促進するため、この研究に使用されるコードとデータを、https://github.com/heeheee888/FD3でオープンソース化しました。

We propose FD3, a fundus image enhancement method based on direct diffusion bridges, which can cope with a wide range of complex degradations, including haze, blur, noise, and shadow. We first propose a synthetic forward model through a human feedback loop with board-certified ophthalmologists for maximal quality improvement of low-quality in-vivo images. Using the proposed forward model, we train a robust and flexible diffusion-based image enhancement network that is highly effective as a stand-alone method, unlike previous diffusion model-based approaches which act only as a refiner on top of pre-trained models. Through extensive experiments, we show that FD3 establishes \add{superior quality} not only on synthetic degradations but also on in vivo studies with low-quality fundus photos taken from patients with cataracts or small pupils. To promote further research in this area, we open-source all our code and data used for this research at https://github.com/heeheee888/FD3
翻訳日:2024-11-07 15:14:47 公開日:2024-09-19
# カリキュラム学習による対人相互情報の最小化による3次元ロボット視ロバスト性向上

Enhancing 3D Robotic Vision Robustness by Minimizing Adversarial Mutual Information through a Curriculum Training Approach ( http://arxiv.org/abs/2409.12379v1 )

ライセンス: Link先を確認
Nastaran Darabi, Dinithi Jayasuriya, Devashri Naik, Theja Tulabandhula, Amit Ranjan Trivedi, (参考訳) 敵対的攻撃は、モデルの決定境界における脆弱性を小さな、慎重に構築された摂動を通じて悪用し、重大な誤予測を引き起こす。 3Dビジョンでは、高次元とデータ空間が攻撃面を大きく拡大し、3Dビジョンは特に安全クリティカルなロボティクスに対して脆弱になる。 本研究では,3次元視覚の逆方向のロバスト性を高めるために,逆方向の摂動下での予測損失と相互情報(MI)を同時に最小化し,誤予測誤差の上限を最大化する訓練目標を提案する。 本手法は, 従来手法と比較して, 対向サンプルの明示的な探索と訓練を必要とする場合に比べて, 対向サンプルの処理を簡略化する。 しかし、予測損失の最小化はMIの最小化と矛盾し、ロバスト性や破滅的な忘れを招いた。 これを解決するために、我々はカリキュラムアドバイザをトレーニング環境に統合し、段階的に、訓練のバランスをとるための敵の目標を導入し、プロセスの初期に困難なケースによってモデルが圧倒されるのを防ぐ。 アドバイザはまた、エントロピー正則化器による様々なMIサンプルのトレーニングを奨励することで堅牢性を高める。 提案手法をPointNet, DGCNN, SECOND, Point Transformersを用いてModelNet40およびKITTI上で評価し, ModelNet40の精度を2-5%向上し, オブジェクト検出における5-10%のmAP改善を実現した。 私たちのコードはhttps://github.com/nstrndrbi/Mine-N-Learn.comで公開されています。

Adversarial attacks exploit vulnerabilities in a model's decision boundaries through small, carefully crafted perturbations that lead to significant mispredictions. In 3D vision, the high dimensionality and sparsity of data greatly expand the attack surface, making 3D vision particularly vulnerable for safety-critical robotics. To enhance 3D vision's adversarial robustness, we propose a training objective that simultaneously minimizes prediction loss and mutual information (MI) under adversarial perturbations to contain the upper bound of misprediction errors. This approach simplifies handling adversarial examples compared to conventional methods, which require explicit searching and training on adversarial samples. However, minimizing prediction loss conflicts with minimizing MI, leading to reduced robustness and catastrophic forgetting. To address this, we integrate curriculum advisors in the training setup that gradually introduce adversarial objectives to balance training and prevent models from being overwhelmed by difficult cases early in the process. The advisors also enhance robustness by encouraging training on diverse MI examples through entropy regularizers. We evaluated our method on ModelNet40 and KITTI using PointNet, DGCNN, SECOND, and PointTransformers, achieving 2-5% accuracy gains on ModelNet40 and a 5-10% mAP improvement in object detection. Our code is publicly available at https://github.com/nstrndrbi/Mine-N-Learn.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-19
# バンドルフラグメントを全体へ: Web トピック検出のための Web ページのサブモジュール選択によるより完全なクラスタのマイニング

Bundle Fragments into a Whole: Mining More Complete Clusters via Submodular Selection of Interesting webpages for Web Topic Detection ( http://arxiv.org/abs/2409.12380v1 )

ライセンス: Link先を確認
Junbiao Pang, Anjing Hu, Qingming Huang, (参考訳) 興味深いWebページをホットトピックに整理することは、マルチモーダルなWebデータのトレンドを理解するための重要なステップの1つです。 最先端のソリューションは、まず、Webページを多数の多粒度トピック候補にまとめることであり、ホットトピックは、その面白さを見積もることによってさらに特定される。 しかし、これらのトピック候補には、非効率な特徴表現と教師なしのトピック生成の両方のため、ホットトピックの断片が多数含まれている。 本稿では,フラグメントからより完全なホットトピックを抽出するためのバンドル・リフィニング手法を提案する。 具体的には、バンドルステップはフラグメントトピックを粗いトピックに整理し、次に、拡張性のあるアプローチで粗いトピックを洗練するためのサブモジュールベースの方法を提案する。 提案手法は, 設計や複雑なステップを含む従来のランク付け手法よりも優れているが, 提案手法は単純かつ強力である。 大規模な実験により、提案手法は最先端の手法(すなわち、潜伏したPoisson deconvolution Pang et al (2016)) を20%の精度で上回り、2つの公開データセット上で10%の精度で上回っていることが示された。

Organizing interesting webpages into hot topics is one of key steps to understand the trends of multimodal web data. A state-of-the-art solution is firstly to organize webpages into a large volume of multi-granularity topic candidates; hot topics are further identified by estimating their interestingness. However, these topic candidates contain a large number of fragments of hot topics due to both the inefficient feature representations and the unsupervised topic generation. This paper proposes a bundling-refining approach to mine more complete hot topics from fragments. Concretely, the bundling step organizes the fragment topics into coarse topics; next, the refining step proposes a submodular-based method to refine coarse topics in a scalable approach. The propose unconventional method is simple, yet powerful by leveraging submodular optimization, our approach outperforms the traditional ranking methods which involve the careful design and complex steps. Extensive experiments demonstrate that the proposed approach surpasses the state-of-the-art method (i.e., latent Poisson deconvolution Pang et al. (2016)) 20% accuracy and 10% one on two public data sets, respectively.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-19
# 個人差分データフリー蒸留によるプライバシー保護学習

Privacy-Preserving Student Learning with Differentially Private Data-Free Distillation ( http://arxiv.org/abs/2409.12384v1 )

ライセンス: Link先を確認
Bochao Liu, Jianghu Lu, Pengju Wang, Junjie Zhang, Dan Zeng, Zhenxing Qian, Shiming Ge, (参考訳) ディープラーニングモデルは、大量の注釈付きデータから豊富な知識を抽出することで、高い推論精度を達成することができるが、実践的なデプロイメントにおいて、データのプライバシリークのリスクを生じさせる可能性がある。 本稿では,プライバシーを保護した深層学習モデルを,差分的にプライベートなデータフリー蒸留を用いて学習するための効果的な教師学習手法を提案する。 主なアイデアは、合成データを生成して、個人データでよく訓練された教師の能力を模倣できる学生を学ぶことだ。 このアプローチでは、教師を固定判別器として組み込むことにより、まずデータフリーで発電機を事前訓練する。 ジェネレータを使用すると、データのプライバシを公開することなく、モデルトレーニングのために大量の合成データを生成することができる。 そして、合成データを教師に供給し、プライベートラベルを生成する。 そこで我々は,ラベル情報を保護するために,選択ランダム化応答と呼ばれるラベル差分プライバシアルゴリズムを提案する。 最後に、学生は、プライベートレーベルの監督の下で、合成データに基づいて訓練される。 このように、データのプライバシとラベルのプライバシは、統一されたフレームワークで十分に保護されており、プライバシ保護モデルにつながります。 大規模な実験と分析は、我々のアプローチの有効性を明確に示している。

Deep learning models can achieve high inference accuracy by extracting rich knowledge from massive well-annotated data, but may pose the risk of data privacy leakage in practical deployment. In this paper, we present an effective teacher-student learning approach to train privacy-preserving deep learning models via differentially private data-free distillation. The main idea is generating synthetic data to learn a student that can mimic the ability of a teacher well-trained on private data. In the approach, a generator is first pretrained in a data-free manner by incorporating the teacher as a fixed discriminator. With the generator, massive synthetic data can be generated for model training without exposing data privacy. Then, the synthetic data is fed into the teacher to generate private labels. Towards this end, we propose a label differential privacy algorithm termed selective randomized response to protect the label information. Finally, a student is trained on the synthetic data with the supervision of private labels. In this way, both data privacy and label privacy are well protected in a unified framework, leading to privacy-preserving models. Extensive experiments and analysis clearly demonstrate the effectiveness of our approach.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-19
# マスクを通して見る:脱閉塞蒸留による仮面認識に向けて

Look Through Masks: Towards Masked Face Recognition with De-Occlusion Distillation ( http://arxiv.org/abs/2409.12385v1 )

ライセンス: Link先を確認
Chenyu Li, Shiming Ge, Daichi Zhang, Jia Li, (参考訳) 現在、ビデオ監視や都市ガバナンスのような現実世界の多くのアプリケーションは、さまざまなマスクによるコンテンツ置換が不完全な外観と曖昧な表現をもたらし、精度が急激に低下するマスク付き顔の認識に対処する必要がある。 近年のアモーダル認識の進展に触発されて, 2つのモジュールからなるエンドツーエンドの除染蒸留フレームワークを用いて, マスク面認識タスクにおけるアモーダル完了のメカニズムを移行することを提案する。 textit{de-occlusion} モジュールは生成的敵ネットワークを適用して顔補完を行い、マスクの下のコンテンツを復元し、外観の曖昧さを除去する。 textit{distillation}モジュールは、訓練済みの一般顔認識モデルを教師として受け取り、大量のオンライン合成顔ペアを使用して、その知識を学生に訓練する。 特に、教師の知識は、複数の順序のインスタンス間の構造的関係で表現され、適応を可能にする後続の正規化として機能する。 このようにして、知識を完全に蒸留し、マスクされた顔を特定するために転送することができる。 合成および現実的なデータセットの実験は、提案手法の有効性を示す。

Many real-world applications today like video surveillance and urban governance need to address the recognition of masked faces, where content replacement by diverse masks often brings in incomplete appearance and ambiguous representation, leading to a sharp drop in accuracy. Inspired by recent progress on amodal perception, we propose to migrate the mechanism of amodal completion for the task of masked face recognition with an end-to-end de-occlusion distillation framework, which consists of two modules. The \textit{de-occlusion} module applies a generative adversarial network to perform face completion, which recovers the content under the mask and eliminates appearance ambiguity. The \textit{distillation} module takes a pre-trained general face recognition model as the teacher and transfers its knowledge to train a student for completed faces using massive online synthesized face pairs. Especially, the teacher knowledge is represented with structural relations among instances in multiple orders, which serves as a posterior regularization to enable the adaptation. In this way, the knowledge can be fully distilled and transferred to identify masked faces. Experiments on synthetic and realistic datasets show the efficacy of the proposed approach.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-19
# チャネル対応ドメイン適応型ロバスト音声認識用生成共振器ネットワーク

Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition ( http://arxiv.org/abs/2409.12386v1 )

ライセンス: Link先を確認
Chien-Chun Wang, Li-Wei Chen, Cheng-Kang Chou, Hung-Shin Lee, Berlin Chen, Hsin-Min Wang, (参考訳) 事前訓練された自動音声認識(ASR)システムは、マッチした領域で顕著な性能を示すが、その性能は、目に見えない記録環境や条件から発生するチャネルミスマッチに直面すると劣化することが多い。 この問題を軽減するために,ロバストなASRトレーニングのためのチャネル認識型データシミュレーション手法を提案する。 本手法は,チャネル抽出技術とGANの相乗効果を利用する。 まず、任意のオーディオから埋め込みを抽出できるチャネルエンコーダを訓練する。 これに加えて、最小限のターゲットドメインデータを用いてチャネル埋め込みを抽出し、GANベースの音声合成器を誘導する。 本発明の合成器は、対象領域のチャネル特性を模倣しながら、入力の音声内容が忠実に保存される音声を生成する。 台湾におけるハッカ・アクロス・台湾 (HAT) と台湾・アクロス・台湾 (TAT) のコーパスを比較検討し, 基準値と比較して相対的文字誤り率 (CER) が20.02%, 9.64%であった。 これらの結果は,ソース領域とターゲット領域の音響的ギャップを埋めるためのチャネル認識型データシミュレーション手法の有効性を浮き彫りにした。

While pre-trained automatic speech recognition (ASR) systems demonstrate impressive performance on matched domains, their performance often degrades when confronted with channel mismatch stemming from unseen recording environments and conditions. To mitigate this issue, we propose a novel channel-aware data simulation method for robust ASR training. Our method harnesses the synergistic power of channel-extractive techniques and generative adversarial networks (GANs). We first train a channel encoder capable of extracting embeddings from arbitrary audio. On top of this, channel embeddings are extracted using a minimal amount of target-domain data and used to guide a GAN-based speech synthesizer. This synthesizer generates speech that faithfully preserves the phonetic content of the input while mimicking the channel characteristics of the target domain. We evaluate our method on the challenging Hakka Across Taiwan (HAT) and Taiwanese Across Taiwan (TAT) corpora, achieving relative character error rate (CER) reductions of 20.02% and 9.64%, respectively, compared to the baselines. These results highlight the efficacy of our channel-aware data simulation method for bridging the gap between source- and target-domain acoustics.
翻訳日:2024-11-07 15:14:47 公開日:2024-09-19
# 逆数要求による符号化キャッシングのレジストレーションについて

On the Regret of Coded Caching with Adversarial Requests ( http://arxiv.org/abs/2409.12387v1 )

ライセンス: Link先を確認
Anupam Nayak, Kota Srinivas Reddy, Nikhil Karamchandani, (参考訳) オンライン学習フレームワークでは,要求が順次届き,これまでの要求履歴に基づいて,オンラインポリシによってキャッシュ内容を更新することが可能である。 本稿では、Follow-The-Perturbed-Leaderの原則に基づくキャッシュポリシーを導入し、任意の時間水平線Tおよび任意のリクエストシーケンスに対して、事前に要求シーケンスを知っている託宣について \mathcal{O}(\sqrt(T))のサブ線形後悔を達成することを示す。 本研究は,符号化キャッシングセットアップにおける敵意的後悔の初診である。 さらに,制限のない切換条件下でのアルゴリズムのキャッシュ更新数に対する上限の設定や,予め指定されたタイムスロットのサブセットでしかキャッシュ更新ができない場合にのみ,制限された切換条件下での後悔量に対する上限の設定により,スイッチングコストの問題にも対処する。 最後に,実世界のデータセットを用いた数値計算による理論的知見の検証を行った。

We study the well-known coded caching problem in an online learning framework, wherein requests arrive sequentially, and an online policy can update the cache contents based on the history of requests seen thus far. We introduce a caching policy based on the Follow-The-Perturbed-Leader principle and show that for any time horizon T and any request sequence, it achieves a sub-linear regret of \mathcal{O}(\sqrt(T) ) with respect to an oracle that knows the request sequence beforehand. Our study marks the first examination of adversarial regret in the coded caching setup. Furthermore, we also address the issue of switching cost by establishing an upper bound on the expected number of cache updates made by our algorithm under unrestricted switching and also provide an upper bound on the regret under restricted switching when cache updates can only happen in a pre-specified subset of timeslots. Finally, we validate our theoretical insights with numerical results using a real-world dataset
翻訳日:2024-11-07 15:14:47 公開日:2024-09-19
# 話者認識CTCを用いたマルチ話者音声認識におけるディエンタングリング話者

Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC ( http://arxiv.org/abs/2409.12388v1 )

ライセンス: Link先を確認
Jiawen Kang, Lingwei Meng, Mingyu Cui, Yuejiao Wang, Xixin Wu, Xunying Liu, Helen Meng, (参考訳) MTASR(Multi-talker speech Recognition)は、重なり合う音声を分離し、書き起こす際、独特な課題に直面している。 これらの課題に対処するために,MTASRにおけるSOT(Serialized Output Training)を取り入れた場合の話者の絡み合いにおける接続性時間分類(CTC)の役割について検討する。 可視化の結果,CTCは音響埋め込みの異なる時間領域における異なる話者を表現するためにエンコーダを誘導することがわかった。 そこで本研究では,ベイズリスクCTCフレームワークに基づく話者認識型CTC(SACTC)学習目標を提案する。 SACTC はマルチストーカーシナリオ用に調整された CTC 変種であり、特定の時間フレームで異なる話者のトークンを表現するエンコーダを制約することで、話者の絡み合いを明示的にモデル化する。 SOTと統合すると、SOT-SACTCモデルは様々な音声重複度で標準のSOT-CTCより一貫して優れる。 具体的には,低オーバラップ音声の単語誤り率を10%,低オーバラップ音声で15%削減する。 この研究は、MTASRタスクに対するCTCに基づく拡張の最初の調査であり、マルチトーカー音声認識における話者のゆがみに対する新たな視点を提供する。

Multi-talker speech recognition (MTASR) faces unique challenges in disentangling and transcribing overlapping speech. To address these challenges, this paper investigates the role of Connectionist Temporal Classification (CTC) in speaker disentanglement when incorporated with Serialized Output Training (SOT) for MTASR. Our visualization reveals that CTC guides the encoder to represent different speakers in distinct temporal regions of acoustic embeddings. Leveraging this insight, we propose a novel Speaker-Aware CTC (SACTC) training objective, based on the Bayes risk CTC framework. SACTC is a tailored CTC variant for multi-talker scenarios, it explicitly models speaker disentanglement by constraining the encoder to represent different speakers' tokens at specific time frames. When integrated with SOT, the SOT-SACTC model consistently outperforms standard SOT-CTC across various degrees of speech overlap. Specifically, we observe relative word error rate reductions of 10% overall and 15% on low-overlap speech. This work represents an initial exploration of CTC-based enhancements for MTASR tasks, offering a new perspective on speaker disentanglement in multi-talker speech recognition.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# 時空作用素の理論における瞬時トンネル時間

Instantaneous tunneling time within the theory of time-of-arrival operators ( http://arxiv.org/abs/2409.12389v1 )

ライセンス: Link先を確認
Philip Caesar Flores, Dean Alvin Pablico, Eric Galapon, (参考訳) これは \href{https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.108.170402}{\textit{Phys。 Rev. Lett. 量子トンネルは古典的TOAのワイル量子化によって構築された時変演算子(TOA)を用いて瞬時に行われる。 しかし、古典的TOAの量子画像は無限に多くあり、それらが他のものよりも一意に好まれているかどうかは不明である。 このことは、即時トンネル時間が単に選択された順序規則の成果物であるかどうかという疑問を提起する。 ここでは、位置と運動量観測値の間の順序規則によらず、古典的到着時間の可能な全ての量子画像についてトンネル時間が消滅することを実証する。 結果は、標準量子化とは無関係に構築されるTOA-演算子に対して、時-エネルギーの正準可換関係によって定義される正しい代数をいまだに示唆する。

It has been shown in \href{https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.108.170402}{\textit{Phys. Rev. Lett.}, \textbf{108} 170402 (2012)}, that quantum tunneling is instantaneous using a time-of-arrival (TOA) operator constructed by Weyl quantization of the classical TOA. However, there are infinitely many possible quantum images of the classical TOA, leaving it unclear if one is uniquely preferred over the others. This raises the question on whether instantaneous tunneling time is simply an artifact of the chosen ordering rule. Here, we demonstrate that tunneling time vanishes for all possible quantum images of the classical arrival time, irrespective of the ordering rule between the position and momentum observables. The result still holds for TOA-operators that are constructed independent of canonical quantization, while still imposing the correct algebra defined by the time-energy canonical commutation relation.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# マルチモーダル多ラベル皮膚病変分類の新しい展望

A Novel Perspective for Multi-modal Multi-label Skin Lesion Classification ( http://arxiv.org/abs/2409.12390v1 )

ライセンス: Link先を確認
Yuan Zhang, Yutong Xie, Hu Wang, Jodie C Avery, M Louise Hull, Gustavo Carneiro, (参考訳) 皮膚疾患に対するDeep Learning-based Computer-Aided Diagnosis (CAD)法の有効性は、複数のデータモダリティ(臨床+皮膚画像、患者メタデータ)を分析し、マルチラベル分類の課題に対処することに依存する。 現在のアプローチでは、限られたマルチモーダル手法に頼り、マルチラベル問題をマルチクラス問題として扱い、不均衡学習やマルチラベル相関の問題を見越す傾向にある。 本稿では,マルチモーダルマルチラベルトランスフォーマーモデル(SkinM2Former)を用いた,革新的な皮膚病変分類手法を提案する。 マルチモーダル解析のために,変換器エンコーダの特徴レベルにおいて3つの画像とメタデータを融合するTMCT(Tri-Modal Cross-attention Transformer)を導入する。 マルチラベル分類では,マルチラベル相関を学習するためのマルチヘッドアテンション(MHA)モジュールを導入する。 SkinM2Formerは、平均平均精度77.27%、平均診断精度77.85%を公開Derm7ptデータセットで達成し、最先端(SOTA)法より優れている。

The efficacy of deep learning-based Computer-Aided Diagnosis (CAD) methods for skin diseases relies on analyzing multiple data modalities (i.e., clinical+dermoscopic images, and patient metadata) and addressing the challenges of multi-label classification. Current approaches tend to rely on limited multi-modal techniques and treat the multi-label problem as a multiple multi-class problem, overlooking issues related to imbalanced learning and multi-label correlation. This paper introduces the innovative Skin Lesion Classifier, utilizing a Multi-modal Multi-label TransFormer-based model (SkinM2Former). For multi-modal analysis, we introduce the Tri-Modal Cross-attention Transformer (TMCT) that fuses the three image and metadata modalities at various feature levels of a transformer encoder. For multi-label classification, we introduce a multi-head attention (MHA) module to learn multi-label correlations, complemented by an optimisation that handles multi-label and imbalanced learning problems. SkinM2Former achieves a mean average accuracy of 77.27% and a mean diagnostic accuracy of 77.85% on the public Derm7pt dataset, outperforming state-of-the-art (SOTA) methods.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# 分類性能尺度の選択:その尺度と問題との整合性

Selecting a classification performance measure: matching the measure to the problem ( http://arxiv.org/abs/2409.12391v1 )

ライセンス: Link先を確認
David J. Hand, Peter Christen, Sumayya Ziyad, (参考訳) 与えられたクラスオブジェクトのどれが属しているかを特定する問題はユビキタスであり、医療診断、金融決定、オンラインコマース、国家安全保障など、多くの研究領域や応用領域で発生している。 しかし、そのような割り当ては完全に完璧であることは滅多になく、分類ミスが発生する。 これは、特定の問題に対して ``best'' がどれであるかを決定するには、分類法とアルゴリズムを比較する必要があることを意味する。 しかし、多くの異なる分類方法があるように、その性能を測定する方法は様々である。 したがって、研究や応用の目的と一致するパフォーマンスの尺度を選択することが不可欠である。 本論文は,異なるパフォーマンス尺度の相対的メリットに関する文献の増大に寄与するものである。 その特に焦点は、測定値の特性を分類される目的に合わせることの重要性である。

The problem of identifying to which of a given set of classes objects belong is ubiquitous, occurring in many research domains and application areas, including medical diagnosis, financial decision making, online commerce, and national security. But such assignments are rarely completely perfect, and classification errors occur. This means it is necessary to compare classification methods and algorithms to decide which is ``best'' for any particular problem. However, just as there are many different classification methods, so there are many different ways of measuring their performance. It is thus vital to choose a measure of performance which matches the aims of the research or application. This paper is a contribution to the growing literature on the relative merits of different performance measures. Its particular focus is the critical importance of matching the properties of the measure to the aims for which the classification is being made.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# 小言語モデルは方程式推論子である

Small Language Models are Equation Reasoners ( http://arxiv.org/abs/2409.12393v1 )

ライセンス: Link先を確認
Bumjun Kim, Kunha Lee, Juyeon Kim, Sangam Lee, (参考訳) CoT(Chain-of-Thought)推論により、算術的問題解決を含む様々なNLPタスクにおいて、LLM(Large Language Model)が顕著な性能を達成できるようになった。 しかし、この成功はT5のような小さな言語モデル(sLM)に一般化しない。 近年の知識蒸留によるsLMの強化はいくつかの改善をもたらしているが、特に自然言語表現の多様性や計算コストの大幅な変動から、大きな制約に直面している。 本稿では,sLMが算術的推論に不利な理由を考察し,自然言語形式がこれらの小さなモデルに高いあいまいさをもたらすことを仮定する。 この仮説に基づいて,従来自然言語形式で表現されていた算術的推論を数学的方程式に統一する推論形式である方程式のみの形式を用いて実験を行う。 実験の結果、特にT5-Tinyのような非常に小さなモデルにおいて、方程式のみの形式はsLMの算術的推論能力を効果的に向上させることが示された。

Chain-of-Thought (CoT) reasoning has enabled Large Language Model (LLM) to achieve remarkable performance in various NLP tasks, including arithmetic problem-solving. However, this success does not generalize to small language model (sLM) like T5, due to their limited capacity and absence of emergent abilities associated with larger models. Recent works to enhance sLM through knowledge distillation have yielded some improvements but still face significant limitations, particularly high ambiguity from the variability in natural language expressions and substantial computational costs. In this paper, we investigate why sLM perform poorly on arithmetic reasoning tasks and hypothesize that natural language format variability introduces high ambiguity for these smaller models. Based on this hypothesis, we conduct experiments with equation-only format, which is a reasoning format that unifies arithmetic reasoning previously expressed in natural language formats into mathematical equations. Experiment results demonstrate that equation-only format effectively boosts the arithmetic reasoning abilities of sLM, especially in very small models like T5-Tiny.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# ITPatch: 交通信号認識に対する非可視でトリガー化された物理的敵対的パッチ

ITPatch: An Invisible and Triggered Physical Adversarial Patch against Traffic Sign Recognition ( http://arxiv.org/abs/2409.12394v1 )

ライセンス: Link先を確認
Shuai Yuan, Hongwei Li, Xingshuo Han, Guowen Xu, Wenbo Jiang, Tao Ni, Qingchuan Zhao, Yuguang Fang, (参考訳) 物理的敵パッチは、現実世界における交通標識認識(TSR)システムの誤分類を引き起こす主要な敵攻撃として出現している。 しかし、既存の敵のパッチは盗難に乏しく、一度配備された全ての車両を無差別に攻撃する。 本稿では,新しい攻撃ベクトル,すなわち蛍光インキを用いた,目に見えない,引き起こされる物理的敵パッチ(ITPatch)を導入して,最先端の技術を推し進める。 標的の標識に慎重に設計された蛍光摂動を適用し、攻撃者は後に目に見えない紫外線を使って蛍光効果を誘発し、TSRシステムは標識を誤って分類し、交通事故を引き起こす可能性がある。 低照度条件下でのIPTatchの有効性を総合的に評価し,98.31%の成功率を示した。 さらに,攻撃は5つの防御を回避し,96.72%の成功率を達成した。

Physical adversarial patches have emerged as a key adversarial attack to cause misclassification of traffic sign recognition (TSR) systems in the real world. However, existing adversarial patches have poor stealthiness and attack all vehicles indiscriminately once deployed. In this paper, we introduce an invisible and triggered physical adversarial patch (ITPatch) with a novel attack vector, i.e., fluorescent ink, to advance the state-of-the-art. It applies carefully designed fluorescent perturbations to a target sign, an attacker can later trigger a fluorescent effect using invisible ultraviolet light, causing the TSR system to misclassify the sign and potentially resulting in traffic accidents. We conducted a comprehensive evaluation to investigate the effectiveness of ITPatch, which shows a success rate of 98.31% in low-light conditions. Furthermore, our attack successfully bypasses five popular defenses and achieves a success rate of 96.72%.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# ARTAI:Recommenderアルゴリズムの社会的リスクを評価する評価プラットフォーム

ARTAI: An Evaluation Platform to Assess Societal Risk of Recommender Algorithms ( http://arxiv.org/abs/2409.12396v1 )

ライセンス: Link先を確認
Qin Ruan, Jin Xu, Ruihai Dong, Arjumand Younus, Tai Tan Mai, Barry O'Sullivan, Susan Leavy, (参考訳) 推奨アルゴリズムがオンラインコンテンツをいかに拡散するかから生じる社会的リスクは、今や十分に文書化されている。 創発的な規制は、倫理監査を通じてこのリスクを軽減し、アルゴリズムの社会的影響に関する新たな研究を可能にすることを目的としている。 しかし、現在そのような評価を可能にするツールや方法が必要である。 本稿では,レコメンダアルゴリズムを大規模に評価することで,オンライン配信における有害なパターンを識別し,レコメンダシステムにおける透明性向上のための新たな規制要件の実装を可能にするARTAIを提案する。

Societal risk emanating from how recommender algorithms disseminate content online is now well documented. Emergent regulation aims to mitigate this risk through ethical audits and enabling new research on the social impact of algorithms. However, there is currently a need for tools and methods that enable such evaluation. This paper presents ARTAI, an evaluation environment that enables large-scale assessments of recommender algorithms to identify harmful patterns in how content is distributed online and enables the implementation of new regulatory requirements for increased transparency in recommender systems.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# 不完全情報に基づくコミュニケーションのない協調学習

Learning to Coordinate without Communication under Incomplete Information ( http://arxiv.org/abs/2409.12397v1 )

ライセンス: Link先を確認
Shenghui Chen, Shufang Zhu, Giuseppe De Giacomo, Ufuk Topcu, (参考訳) 協調ゲームにおけるシームレスなコーディネーションを達成することは、特に不完全な情報の下でプレイヤーが操作する場合、人工知能において重要な課題である。 この情報の非対称性を緩和するための一般的な戦略は、明示的なコミュニケーションを活用することである。 しかし、伝送損失などの要因により、直接通信が常に可能であるとは限らない。 我々は,お互いの行動を観察することのみに頼って,言葉によるコミュニケーションを使わずに効果的なコーディネーションを実現する方法について検討する。 我々は、自律エージェントが、その意図を暗示するために使用されるパートナーの行動を理解することによって、どのように協力を学べるかを実証する。 提案手法では, 可能な動作毎に決定論的有限オートマトンを構築し, 非マルコフ有限状態トランスデューサに統合することにより, エージェント戦略の開発を行う。 このトランスデューサは、ゲームプレイ中にパートナーを支援するアクションを提案するエージェントの非決定論的戦略を表す。 Gnomes at Night というテストベッドでの実験結果から,学習した非コミュニケーション協調戦略は成功率を著しく高くし,非コーディネートシナリオよりもゲームを完成させる手順を少なくする必要があり,直接通信によるオラクルベースラインとほぼ同等に機能することがわかった。

Achieving seamless coordination in cooperative games is a crucial challenge in artificial intelligence, particularly when players operate under incomplete information. A common strategy to mitigate this information asymmetry involves leveraging explicit communication. However, direct communication is not always feasible due to factors such as transmission loss. We explore how effective coordination can be achieved without verbal communication, relying solely on observing each other's actions. We demonstrate how an autonomous agent can learn to cooperate by interpreting its partner's actions, which are used to hint at its intents. Our approach involves developing an agent strategy by constructing deterministic finite automata for each possible action and integrating them into a non-Markovian finite-state transducer. This transducer represents a non-deterministic strategy for the agent that suggests actions to assist its partner during gameplay. Experimental results in a testbed called Gnomes at Night show that the learned no-communication coordination strategy achieves significantly higher success rates and requires fewer steps to complete the game compared to uncoordinated scenarios, performing almost as well as an oracle baseline with direct communication.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# I2I-Galip:ジェネレーティブ・逆境CLIPを用いた教師なし医用画像翻訳

I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP ( http://arxiv.org/abs/2409.12399v1 )

ライセンス: Link先を確認
Yilmaz Korkmaz, Vishal M. Patel, (参考訳) ソースとターゲットドメインの異なる分布間の複雑なマッピングを複雑に学習する、ペア化された例が存在しないため、未ペア画像変換は難しい作業である。 このタスクで最もよく使われるアプローチの1つはCycleGANであり、各ドメインペアに対して新しいジェネレータ-識別器ネットワークのトレーニングを必要とする。 本稿では,イメージ・ツー・イメージ・ジェネレーティブ・アドバイザリ・CLIP (I2I-Galip) という画像から画像への変換フレームワークを提案する。 基礎モデルの事前学習中に収集した膨大な知識を生かして,多領域画像翻訳タスクに約13Mのパラメータを持つ単一軽量なジェネレータネットワークを利用する。 公開MRIおよびCTデータセットの翻訳性能に関する総合的な実験は、既存のアプローチよりも提案フレームワークの優れた性能を示す。 コードは利用可能になる(https://github.com/yilmazkorkmaz1/I2I-Galip)。

Unpaired image-to-image translation is a challenging task due to the absence of paired examples, which complicates learning the complex mappings between the distinct distributions of the source and target domains. One of the most commonly used approach for this task is CycleGAN which requires the training of a new pair of generator-discriminator networks for each domain pair. In this paper, we propose a new image-to-image translation framework named Image-to-Image-Generative-Adversarial-CLIP (I2I-Galip) where we utilize a pre-trained multi-model foundation model (i.e., CLIP) to mitigate the need of separate generator-discriminator pairs for each source-target mapping while achieving better and more efficient multi-domain translation. By utilizing the massive knowledge gathered during pre-training a foundation model, our approach makes use of a single lightweight generator network with ~13M parameters for the multi-domain image translation task. Comprehensive experiments on translation performance in public MRI and CT datasets show the superior performance of the proposed framework over the existing approaches. Code will be available (https://github.com/yilmazkorkmaz1/I2I-Galip).
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# 符号付き距離関数領域符号化に基づく形状インフォームドサロゲートモデル

Shape-informed surrogate models based on signed distance function domain encoding ( http://arxiv.org/abs/2409.12400v1 )

ライセンス: Link先を確認
Linying Zhang, Stefano Pagani, Jun Zhang, Francesco Regazzoni, (参考訳) 本稿では,パラメータ化偏微分方程式(PDE)の解を近似した代理モデルを構築するための非侵入的手法を提案する。 我々のアプローチは、2つのニューラルネットワーク(NN)の組み合わせに基づいている。 最初のNNは、符号付き距離関数による幾何変数の暗黙的な表現を提供する。 この自動形状符号化技術は、エンコーダの明示的な構成を必要とせず、潜在空間内の幾何学のコンパクトで低次元の表現を生成する。 第2NNは、各空間点ごとに出力の物理場を独立に再構成するので、計算メッシュのような高次元の離散化に関連する計算負担を回避することができる。 さらに, NNの入力特徴としてフーリエ特徴写像を用いることにより, 幾何的特徴付けの精度をさらに高めることができることを示す。 提案手法のメッシュレス特性は,潜在空間における自動特徴抽出によって達成される次元の低減と相まって,高い柔軟性と計算効率を実現する。 この戦略は、幾何学的パラメーターの抽出に手動で介入する必要をなくし、幾何学的パラメーターがトポロジの変化を受ける場合にも適用できる。 流体力学と固体力学の分野における数値実験により,任意の形状の領域におけるPDEの解を正確に予測する手法の有効性が示された。 注目すべきは、計算領域の明示的なパラメトリゼーションが利用可能な最良のシナリオに匹敵する精度を達成できることである。

We propose a non-intrusive method to build surrogate models that approximate the solution of parameterized partial differential equations (PDEs), capable of taking into account the dependence of the solution on the shape of the computational domain. Our approach is based on the combination of two neural networks (NNs). The first NN, conditioned on a latent code, provides an implicit representation of geometry variability through signed distance functions. This automated shape encoding technique generates compact, low-dimensional representations of geometries within a latent space, without requiring the explicit construction of an encoder. The second NN reconstructs the output physical fields independently for each spatial point, thus avoiding the computational burden typically associated with high-dimensional discretizations like computational meshes. Furthermore, we show that accuracy in geometrical characterization can be further enhanced by employing Fourier feature mapping as input feature of the NN. The meshless nature of the proposed method, combined with the dimensionality reduction achieved through automatic feature extraction in latent space, makes it highly flexible and computationally efficient. This strategy eliminates the need for manual intervention in extracting geometric parameters, and can even be applied in cases where geometries undergo changes in their topology. Numerical tests in the field of fluid dynamics and solid mechanics demonstrate the effectiveness of the proposed method in accurately predict the solution of PDEs in domains of arbitrary shape. Remarkably, the results show that it achieves accuracy comparable to the best-case scenarios where an explicit parametrization of the computational domain is available.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# MambaRecon: 構造化状態空間モデルを用いたMRI再構成

MambaRecon: MRI Reconstruction with Structured State Space Models ( http://arxiv.org/abs/2409.12401v1 )

ライセンス: Link先を確認
Yilmaz Korkmaz, Vishal M. Patel, (参考訳) 磁気共鳴イメージング(MRI)は、軟部組織の優れた分解能を提供するが、走査速度に顕著な制限があるため、最も重要な医用画像モダリティの1つである。 深層学習の出現は、畳み込みニューラルネットワークと最近では視覚変換器を利用して、MRIスキャンの迅速な再構築のための最先端の手法の開発を触媒にした。 最近提案された構造化状態空間モデル(例:Mamba)は、トランスフォーマーモデルと比較して、その効率性と計算要求の低さから、多少の注目を集めている。 本稿では,長期的文脈感度と再構成の有効性の両立を目的とした,構造化状態空間モデルをコアに採用した革新的なMRI再構成フレームワークを提案する。 公開脳MRIデータセットの総合的な実験により、我々のモデルは最先端の再構築ベースラインを上回り、新しいベンチマークを設定した。 コードは利用可能になる(https://github.com/yilmazkorkmaz1/MambaRecon)。

Magnetic Resonance Imaging (MRI) is one of the most important medical imaging modalities as it provides superior resolution of soft tissues, albeit with a notable limitation in scanning speed. The advent of deep learning has catalyzed the development of cutting-edge methods for the expedited reconstruction of MRI scans, utilizing convolutional neural networks and, more recently, vision transformers. Recently proposed structured state space models (e.g., Mamba) have gained some traction due to their efficiency and low computational requirements compared to transformer models. We propose an innovative MRI reconstruction framework that employs structured state space models at its core, aimed at amplifying both long-range contextual sensitivity and reconstruction efficacy. Comprehensive experiments on public brain MRI datasets show that our model sets new benchmarks beating state-of-the-art reconstruction baselines. Code will be available (https://github.com/yilmazkorkmaz1/MambaRecon).
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# Preference Alignment は言語モデルに基づく TTS を改善する

Preference Alignment Improves Language Model-Based TTS ( http://arxiv.org/abs/2409.12403v1 )

ライセンス: Link先を確認
Jinchuan Tian, Chunlei Zhang, Jiatong Shi, Hao Zhang, Jianwei Yu, Shinji Watanabe, Dong Yu, (参考訳) 最近のTTS(text-to-speech)の進歩は、言語モデル(LM)ベースのシステムが、言語モデルと競合する性能を提供することを示している。 優先アライメントアルゴリズムにより、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高めることで、さらなる最適化が達成できる。 本研究は、特にDPO(Direct Preference Optimization)の選好アライメントアルゴリズムが、LMベースのTSをいかに強化するかを、徹底的に実証的に評価する。 1.15B のパラメータ LM に基づく TTS モデルを用いて、選好アライメントは、特定の評価において、人間の発話を超越する2つの指標を用いて、インテリジェンス、話者類似性、代理主観評価スコアを一貫して改善することを示した。 また、プライオリティアライメントは低リソースのシナリオに適用可能であることを示し、ドメイン外アプリケーションに効果的に一般化する。

Recent advancements in text-to-speech (TTS) have shown that language model (LM)-based systems offer competitive performance to their counterparts. Further optimization can be achieved through preference alignment algorithms, which adjust LMs to align with the preferences of reward models, enhancing the desirability of the generated content. This study presents a thorough empirical evaluation of how preference alignment algorithms, particularly Direct Preference Optimization (DPO), enhance LM-based TTS. With a 1.15B parameter LM-based TTS model, we demonstrate that preference alignment consistently improves intelligibility, speaker similarity, and proxy subjective evaluation scores, with the latter two metrics surpassing even human speech in certain evaluations. We also show preference alignment is applicable to low-resource scenarios and effectively generalized to out-of-domain applications.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# 手動テスト検証におけるLLMの有効性について

On the Effectiveness of LLMs for Manual Test Verifications ( http://arxiv.org/abs/2409.12405v1 )

ライセンス: Link先を確認
Myron David Lucena Campos Peixoto, Davy de Medeiros Baia, Nathalia Nascimento, Paulo Alencar, Baldoino Fonseca, Márcio Ribeiro, (参考訳) 背景: 自動テストで見逃された問題を検出するためには手動テストが不可欠だが、正確な検証の特定は難しい。 Aims: この研究は、手動テストの検証を作成するために、LLM(Large Language Models)の使用を検討することを目的としています。 方法:2つの独立・相補的な探索的研究を行った。 最初の研究は、2つのクローズドソースと6つのオープンソースLCMを使用して、手動テストステップの検証を生成し、元の検証と類似性を評価することである。 第2の研究では、ソフトウェアテストのプロフェッショナルを採用して、生成した検証に対する認識と合意を評価する。 結果: オープンソースモデル Mistral-7B と Phi-3-mini-4k は、手動テスト検証を生成する上で、Gemini-1.5-flash や GPT-3.5-turbo のようなクローズドソースモデルと同等の有効性と一貫性を示した。 しかしながら、プロのテスタ間の合意レベルは40%をわずかに上回り、改善の約束と余地を示した。 一部のLCM生成検証はオリジナルのものよりも優れていると考えられていたが、AI幻覚にも懸念があり、検証は期待から著しく逸脱した。 結論: 8つの異なるLLMを用いて37,040の検証データセットを生成した。 モデルは潜在的な可能性を示しているが、比較的控えめな40%の合意レベルでは、さらなる改善の必要性が浮き彫りになっている。 生成された検証の正確性、妥当性、明確性を高めることは、実世界のテストシナリオにおける信頼性を高めるために重要です。

Background: Manual testing is vital for detecting issues missed by automated tests, but specifying accurate verifications is challenging. Aims: This study aims to explore the use of Large Language Models (LLMs) to produce verifications for manual tests. Method: We conducted two independent and complementary exploratory studies. The first study involved using 2 closed-source and 6 open-source LLMs to generate verifications for manual test steps and evaluate their similarity to original verifications. The second study involved recruiting software testing professionals to assess their perception and agreement with the generated verifications compared to the original ones. Results: The open-source models Mistral-7B and Phi-3-mini-4k demonstrated effectiveness and consistency comparable to closed-source models like Gemini-1.5-flash and GPT-3.5-turbo in generating manual test verifications. However, the agreement level among professional testers was slightly above 40%, indicating both promise and room for improvement. While some LLM-generated verifications were considered better than the originals, there were also concerns about AI hallucinations, where verifications significantly deviated from expectations. Conclusion: We contributed by generating a dataset of 37,040 test verifications using 8 different LLMs. Although the models show potential, the relatively modest 40% agreement level highlights the need for further refinement. Enhancing the accuracy, relevance, and clarity of the generated verifications is crucial to ensure greater reliability in real-world testing scenarios.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# 非整合多モーダル言語系列に対する相互情報に基づく表現のアンタングル化

Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences ( http://arxiv.org/abs/2409.12408v1 )

ライセンス: Link先を確認
Fan Qian, Jiqing Han, Jianchen Li, Yongjun He, Tieran Zheng, Guibin Zheng, (参考訳) 不整合多モーダル言語列の鍵となる課題は、洗練された多モーダル関節表現を得るために、様々なモーダルからの情報を効果的に統合することにある。 近年,不整合およびヒューズ法は,モダリティ非依存およびモダリティ特化表現を明示的に学習し,それらをマルチモーダルな関節表現に融合することで,有望な性能を実現している。 しかしながら、これらの手法は、各モダリティに対するモダリティ非依存表現を独立に学習し、直交制約を利用して、モダリティ非依存表現とモダリティ固有表現の間の線形相関を減らし、それらの非線形相関を排除している。 その結果、得られたマルチモーダルな関節表現は、通常、情報の冗長性に悩まされ、モデルの過度な適合と一般化に繋がる。 本稿では,非整合多モーダル言語列に対する相互情報に基づくRepresentations Disentanglement(MIRD)手法を提案する。 さらに、相互情報最小化制約を用いて表現のより優れた絡み合いを確保することにより、マルチモーダルな関節表現における情報冗長性を解消する。 さらに、ラベル付けされていないデータを導入することにより、ラベル付けされたデータによって引き起こされる相互情報を推定する課題を緩和する。 一方、ラベル付けされていないデータは、マルチモーダルデータの基盤構造を特徴づけるのにも役立ち、結果としてモデルの過度な適合や性能向上を防止できる。 提案手法の有効性を検証するために, 広く利用されているベンチマークデータセットの実験結果を得た。

The key challenge in unaligned multimodal language sequences lies in effectively integrating information from various modalities to obtain a refined multimodal joint representation. Recently, the disentangle and fuse methods have achieved the promising performance by explicitly learning modality-agnostic and modality-specific representations and then fusing them into a multimodal joint representation. However, these methods often independently learn modality-agnostic representations for each modality and utilize orthogonal constraints to reduce linear correlations between modality-agnostic and modality-specific representations, neglecting to eliminate their nonlinear correlations. As a result, the obtained multimodal joint representation usually suffers from information redundancy, leading to overfitting and poor generalization of the models. In this paper, we propose a Mutual Information-based Representations Disentanglement (MIRD) method for unaligned multimodal language sequences, in which a novel disentanglement framework is designed to jointly learn a single modality-agnostic representation. In addition, the mutual information minimization constraint is employed to ensure superior disentanglement of representations, thereby eliminating information redundancy within the multimodal joint representation. Furthermore, the challenge of estimating mutual information caused by the limited labeled data is mitigated by introducing unlabeled data. Meanwhile, the unlabeled data also help to characterize the underlying structure of multimodal data, consequently further preventing overfitting and enhancing the performance of the models. Experimental results on several widely used benchmark datasets validate the effectiveness of our proposed approach.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# LMT-Net:Sparse Vehicle 観測による自動HDマッピングのためのレーンモデル変圧器ネットワーク

LMT-Net: Lane Model Transformer Network for Automated HD Mapping from Sparse Vehicle Observations ( http://arxiv.org/abs/2409.12409v1 )

ライセンス: Link先を確認
Michael Mink, Thomas Monninger, Steffen Staab, (参考訳) 自律運転においては、高定義(HD)写像は、センサー範囲と閉塞によって制限されない完全な車線モデルを提供する。 しかし、HDマップの生成とアップキープには、周期的なデータ収集とヒューマンアノテーションが含まれており、スケーラビリティが制限されている。 そこで本研究では,高密度センサではなく,車線モデル生成の自動化とスパース車両観測の利用について検討する。 提案手法では, 前処理工程で観測された車線境界を調整・集約することでポリラインを生成する。 配向された駆動トレースは、左境界点と右境界点によって定義される車線対を予測する出発点として使用される。 本稿では,エンコーダとデコーダのニューラルネットワークアーキテクチャであるLane Model Transformer Network (LMT-Net)を提案する。 予測レーンペアをノードとして、予測レーン接続をエッジとして、レーングラフを形成する。 我々は、複数の車両観測と、GT(Garth Truth)としての人間のアノテーションからなる内部データセット上でのLMT-Netの性能を評価する。 本評価は,ハイウェイおよび非ハイウェイ運転設計領域(ODD)の実施ベースラインと比較して,有望な結果を示し,優れた性能を示す。

In autonomous driving, High Definition (HD) maps provide a complete lane model that is not limited by sensor range and occlusions. However, the generation and upkeep of HD maps involves periodic data collection and human annotations, limiting scalability. To address this, we investigate automating the lane model generation and the use of sparse vehicle observations instead of dense sensor measurements. For our approach, a pre-processing step generates polylines by aligning and aggregating observed lane boundaries. Aligned driven traces are used as starting points for predicting lane pairs defined by the left and right boundary points. We propose Lane Model Transformer Network (LMT-Net), an encoder-decoder neural network architecture that performs polyline encoding and predicts lane pairs and their connectivity. A lane graph is formed by using predicted lane pairs as nodes and predicted lane connectivity as edges. We evaluate the performance of LMT-Net on an internal dataset that consists of multiple vehicle observations as well as human annotations as Ground Truth (GT). The evaluation shows promising results and demonstrates superior performance compared to the implemented baseline on both highway and non-highway Operational Design Domain (ODD).
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# 複合作業に対する複数ラウンドLLM生成によるテキスト化エージェントスタイル推論

Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation ( http://arxiv.org/abs/2409.12411v1 )

ライセンス: Link先を確認
Chen Liang, Zhifan Feng, Zihe Liu, Wenbin Jiang, Jinan Xu, Yufeng Chen, Yong Wang, (参考訳) 思考の連鎖は、大きな言語モデルの推論能力を大幅に向上させるが、幻覚問題、制限された解釈可能性、制御不能な生成という3つの問題に直面している。 これらの課題に対処するために,複数ラウンドLLM生成によるエージェントスタイルの複雑な問題を解く,llmベースの自律エージェントフレームワークであるAgentCOTを提案する。 それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。 さらに、ステップのインデックスを推論プロセスに統合し、複雑な推論ロジックのためのグラフ構造を形成する。 我々は,エージェントCOTの性能向上のための2つの新しい手法を導入し,提案手法の有効性を6つの共通ベンチマークで検証した。 その結果,本手法は現在の競合手法よりも大幅に改善されていることがわかった。

Chain-of-thought prompting significantly boosts the reasoning ability of large language models but still faces three issues: hallucination problem, restricted interpretability, and uncontrollable generation. To address these challenges, we present AgentCOT, a llm-based autonomous agent framework, which can solve complex problems in an agent-style manner by multiple round LLM generation. At each step, AgentCOT selects an action and executes it to yield an intermediate result with supporting evidence. In addition, we integrate the step's index into the reasoning process to form a graph structure for complex inference logic. We introduce two new strategies to enhance the performance of AgentCOT.We conduct extensive experiments to verify the effectiveness of our method on six common benchmarks. Results exhibit that our method brings in substantial improvements over current competitive approaches.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# ストリートビュー画像と機械学習に基づく道路大気汚染の予測方法:最適戦略の定量的分析

How to predict on-road air pollution based on street view images and machine learning: a quantitative analysis of the optimal strategy ( http://arxiv.org/abs/2409.12412v1 )

ライセンス: Link先を確認
Hui Zhong, Di Chen, Pengqin Wang, Wenrui Wang, Shaojie Shen, Yonghong Liu, Meixin Zhu, (参考訳) オンロード大気汚染は、放出源、希釈、物理化学的プロセスによる短距離でのかなりの変動を示す。 モバイル監視データをストリートビューイメージ(SVI)と統合することは、局所的な大気汚染を予測することを約束する。 しかし、アルゴリズム、サンプリング戦略、画像品質は、その効果を定量化する信頼性のある参照が欠如しているため、余分なエラーをもたらす。 このギャップを埋めるために,NO,NO2,PM2.5,PM10を動的に監視するために314台のタクシーを使用し,対応するSVIをサンプリングし,信頼性の高い戦略開発を目指した。 約382,000のストリートスケープ画像からSVIの特徴を抽出し,様々な角度 (0{\deg, 90{\deg, 180{\deg, 270{\deg}) と範囲 (100m, 200m, 300m, 400m, 500m) で収集した。 また,線形土地利用回帰モデル(LUR)とともに3つの機械学習アルゴリズムを実験して,異なるアルゴリズムの影響について検討した。 画像品質に関する4つの典型的な課題が特定され議論された。 一般に、機械学習手法は、4つの汚染物質を推定するために線形LURよりも優れており、ランダムフォレスト > XGBoost > ニューラルネットワーク > LUR である。 単角サンプリングと比較すると, 平均化戦略は, 特徴捕捉不足のバイアスを回避するための有効な方法である。 したがって、最適なサンプリング戦略は、100mの半径バッファでSVIを取得し、平均化戦略を用いて特徴を抽出することである。 この手法は, 2.5 {\mu}g/m^2 または ppb 未満の絶対誤差で各集合位置の推定結果を得た。 過剰露光、ぼかし、露出不足は画像の誤判定と誤識別を引き起こし、道路の特徴の過大評価と人間の活動特性の過小評価を引き起こし、不正確なNO, NO2, PM2.5, PM10の推定に寄与した。

On-road air pollution exhibits substantial variability over short distances due to emission sources, dilution, and physicochemical processes. Integrating mobile monitoring data with street view images (SVIs) holds promise for predicting local air pollution. However, algorithms, sampling strategies, and image quality introduce extra errors due to a lack of reliable references that quantify their effects. To bridge this gap, we employed 314 taxis to monitor NO, NO2, PM2.5 and PM10 dynamically and sampled corresponding SVIs, aiming to develop a reliable strategy. We extracted SVI features from ~ 382,000 streetscape images, which were collected at various angles (0{\deg}, 90{\deg}, 180{\deg}, 270{\deg}) and ranges (buffers with radii of 100m, 200m, 300m, 400m, 500m). Also, three machine learning algorithms alongside the linear land-used regression (LUR) model were experimented with to explore the influences of different algorithms. Four typical image quality issues were identified and discussed. Generally, machine learning methods outperform linear LUR for estimating the four pollutants, with the ranking: random forest > XGBoost > neural network > LUR. Compared to single-angle sampling, the averaging strategy is an effective method to avoid bias of insufficient feature capture. Therefore, the optimal sampling strategy is to obtain SVIs at a 100m radius buffer and extract features using the averaging strategy. This approach achieved estimation results for each aggregation location with absolute errors almost less than 2.5 {\mu}g/m^2 or ppb. Overexposure, blur, and underexposure led to image misjudgments and incorrect identifications, causing an overestimation of road features and underestimation of human-activity features, contributing to inaccurate NO, NO2, PM2.5 and PM10 estimation.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# 方向とタイムスタンプを用いたマルチチャネル・マルチチャネル目標音抽出

Multichannel-to-Multichannel Target Sound Extraction Using Direction and Timestamp Clues ( http://arxiv.org/abs/2409.12415v1 )

ライセンス: Link先を確認
Dayun Choi, Jung-Woo Choi, (参考訳) マルチチャネル・マルチチャネル・ターゲット音抽出(M2M-TSE)フレームワークを提案する。 ターゲット音抽出(TSE)は、通常、クラスラベルや時間的アクティベーションマップを用いた単一チャネル抽出に焦点を当て、ユーザが提供する手がかりを用いて特定のターゲット信号を分離する。 しかし,マルチチャンネル音声信号の空間情報を保存・活用するためには,対象音源のマルチチャネル信号を抽出することが不可欠である。 さらに、抽出の手がかりには、方向方向(DoA)やソースアクティベーションのタイムスタンプのような空間的または時間的手がかりも含まれる。 これらの課題に対処するため,時空間手がかりに基づいてマルチチャンネル音声信号を抽出するM2Mフレームワークを提案する。 異なる部屋環境における多様なクラスの音声信号から合成されたマルチチャネル信号に対して,我々のトランスフォーマーベースアーキテクチャがM2M-TSEタスクを順次達成できることを実証した。 さらに,マルチチャネル抽出タスクはDNNに十分な帰納バイアスを導入し,手作りの空間的特徴を生かさずに直接DoAの手がかりを扱えることを示す。

We propose a multichannel-to-multichannel target sound extraction (M2M-TSE) framework for separating multichannel target signals from a multichannel mixture of sound sources. Target sound extraction (TSE) isolates a specific target signal using user-provided clues, typically focusing on single-channel extraction with class labels or temporal activation maps. However, to preserve and utilize spatial information in multichannel audio signals, it is essential to extract multichannel signals of a target sound source. Moreover, the clue for extraction can also include spatial or temporal cues like direction-of-arrival (DoA) or timestamps of source activation. To address these challenges, we present an M2M framework that extracts a multichannel sound signal based on spatio-temporal clues. We demonstrate that our transformer-based architecture can successively accomplish the M2M-TSE task for multichannel signals synthesized from audio signals of diverse classes in different room environments. Furthermore, we show that the multichannel extraction task introduces sufficient inductive bias in the DNN, allowing it to directly handle DoA clues without utilizing hand-crafted spatial features.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# COSAS 2024チャレンジにおけるクロスオーガナイズド・クロススキャナ腺癌手術

Domain-stratified Training for Cross-organ and Cross-scanner Adenocarcinoma Segmentation in the COSAS 2024 Challenge ( http://arxiv.org/abs/2409.12418v1 )

ライセンス: Link先を確認
Huang Jiayan, Ji Zheng, Kuang Jinbo, Xu Shuoyu, (参考訳) この原稿は、COSAS 2024(Cross-Organ and Cross-Scanner Adenocarcinoma Segmentation)チャレンジのために開発された画像分割アルゴリズムを提示する。 我々は,複数の Upernet ベースセグメンテーションモデルを訓練するための臓器層化およびスキャナ層化アプローチを採用し,その結果を要約した。 異なる臓器の腫瘍特性や様々なスキャナーの撮像条件の違いによる課題にもかかわらず,本手法は第1タスクで0.7643,第2タスクで0.8354,第2タスクで0.7643,第2タスクで0.8354,第2タスクで0.7643,第2タスクで0.7643,第2タスクで0.7654,第2タスクで0.7643,第2タスクで0.7643,第2タスクで0.8354,第2タスクで0。 これらの結果は, 多様な条件にまたがるアプローチの適応性と有効性を示すものである。 我々のモデルが様々なデータセットにまたがって一般化する能力は、現実世界のアプリケーションに対するその可能性を示している。

This manuscript presents an image segmentation algorithm developed for the Cross-Organ and Cross-Scanner Adenocarcinoma Segmentation (COSAS 2024) challenge. We adopted an organ-stratified and scanner-stratified approach to train multiple Upernet-based segmentation models and subsequently ensembled the results. Despite the challenges posed by the varying tumor characteristics across different organs and the differing imaging conditions of various scanners, our method achieved a final test score of 0.7643 for Task 1 and 0.8354 for Task 2. These results demonstrate the adaptability and efficacy of our approach across diverse conditions. Our model's ability to generalize across various datasets underscores its potential for real-world applications.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# カモフラージュ物体検出のための周波数誘導型空間適応

Frequency-Guided Spatial Adaptation for Camouflaged Object Detection ( http://arxiv.org/abs/2409.12421v1 )

ライセンス: Link先を確認
Shizhou Zhang, Dexuan Kong, Yinghui Xing, Yue Lu, Lingyan Ran, Guoqiang Liang, Hexu Wang, Yanning Zhang, (参考訳) カモフラージュされた物体検出(COD)は、周囲の環境と非常に類似したパターンを示すカモフラージュされた物体を分割することを目的としている。 近年の研究では、周波数情報による特徴表現の強化により、前景オブジェクトと背景とのあいまいさの問題を大幅に軽減できることが示されており、インターンイメージ、セグメントアシングモデルなどのビジョン基盤モデルの出現に伴い、CODタスクの事前学習モデルを軽量アダプターモジュールで適用することで、新規で有望な研究方向を示すことができる。 既存のアダプタモジュールは、主に空間領域における特徴適応を気にする。 本稿では,CODタスクのための新しい周波数誘導空間適応法を提案する。 具体的には、アダプタの入力特徴を周波数領域に変換する。 スペクトログラム内の非重なり円内に位置する周波数成分をグループ化して相互作用することにより、異なる周波数成分を動的に強化または弱め、画像の詳細や輪郭の特徴の強度を適応的に調整する。 同時に、被写体と背景を区別するための特徴を強調し、被写体の位置と形状を間接的に示唆する。 広範に採用されている4つのベンチマークデータセットについて広範な実験を行い、提案手法は26の最先端手法よりも大きなマージンを有する。 コードはリリースされる。

Camouflaged object detection (COD) aims to segment camouflaged objects which exhibit very similar patterns with the surrounding environment. Recent research works have shown that enhancing the feature representation via the frequency information can greatly alleviate the ambiguity problem between the foreground objects and the background.With the emergence of vision foundation models, like InternImage, Segment Anything Model etc, adapting the pretrained model on COD tasks with a lightweight adapter module shows a novel and promising research direction. Existing adapter modules mainly care about the feature adaptation in the spatial domain. In this paper, we propose a novel frequency-guided spatial adaptation method for COD task. Specifically, we transform the input features of the adapter into frequency domain. By grouping and interacting with frequency components located within non overlapping circles in the spectrogram, different frequency components are dynamically enhanced or weakened, making the intensity of image details and contour features adaptively adjusted. At the same time, the features that are conducive to distinguishing object and background are highlighted, indirectly implying the position and shape of camouflaged object. We conduct extensive experiments on four widely adopted benchmark datasets and the proposed method outperforms 26 state-of-the-art methods with large margins. Code will be released.
翻訳日:2024-11-07 15:03:37 公開日:2024-09-19
# ゼロ・ストロング一般化:ゴールドラベルなしで反復的に大規模言語モデルの強機能化

Zero-to-Strong Generalization: Eliciting Strong Capabilities of Large Language Models Iteratively without Gold Labels ( http://arxiv.org/abs/2409.12425v1 )

ライセンス: Link先を確認
Chaoqun Liu, Qin Chao, Wenxuan Zhang, Xiaobao Wu, Boyang Li, Anh Tuan Luu, Lidong Bing, (参考訳) 大規模言語モデル(LLM)は,ゴールドラベルを用いた教師付き微調整やテキスト内学習を通じて,顕著な性能を示した。 しかしながら、このパラダイムはゴールドラベルの可用性によって制限されるが、あるシナリオでは、LCMは人間がそのようなラベルを提供するには複雑すぎるタスクを実行する必要がある。 この課題に対処するために、ラベルのないデータのみを利用することで、強力なモデル機能を引き出すことができるかどうかを検討する。 ゼロ・ツー・ストロング一般化と呼ばれる新しいパラダイムを提案する。 我々は、LCMにラベルのないデータを注釈付けし、フィルタによって高品質なラベルを保持するように繰り返し促す。 驚くべきことに、この反復的なプロセスは、下流タスクにおけるLSMのポテンシャルを徐々に解き放つ。 広範囲な分類と推論タスクに関する実験により,提案手法の有効性が確認された。 分析の結果,本パラダイムは文脈内学習と微調整の両方に有効であり,様々なモデルサイズに有効であることが示唆された。

Large Language Models (LLMs) have demonstrated remarkable performance through supervised fine-tuning or in-context learning using gold labels. However, this paradigm is limited by the availability of gold labels, while in certain scenarios, LLMs may need to perform tasks that are too complex for humans to provide such labels. To tackle this challenge, this study explores whether solely utilizing unlabeled data can elicit strong model capabilities. We propose a new paradigm termed zero-to-strong generalization. We iteratively prompt LLMs to annotate unlabeled data and retain high-quality labels by filtering. Surprisingly, we obverse that this iterative process gradually unlocks LLMs' potential on downstream tasks. Our experiments on extensive classification and reasoning tasks confirm the effectiveness of our proposed framework. Our analysis indicates that this paradigm is effective for both in-context learning and fine-tuning, and for various model sizes.
翻訳日:2024-11-07 14:52:37 公開日:2024-09-19
# 持続可能なビジョン:グローバルな開発目標に関する教師なしの機械学習の洞察

Sustainable Visions: Unsupervised Machine Learning Insights on Global Development Goals ( http://arxiv.org/abs/2409.12427v1 )

ライセンス: Link先を確認
Alberto García-Rodríguez, Matias Núñez, Miguel Robles Pérez, Tzipe Govezensky, Rafael A. Barrio, Carlos Gershenson, Kimmo K. Kaski, Julia Tagüeña, (参考訳) 国連2030アジェンダ・フォー・サステナブル・ディベロップメントは、世界的課題に取り組むための17の目標を概説している。 しかし、進捗は予想よりも遅かったため、この事実の背景にある理由を調査する必要がある。 本研究では,教師なし機械学習技術を用いて107か国(2000ドル~2022ドル)のデータを解析するために,新しいデータ駆動手法を用いた。 分析の結果,特定のSDG間には強い正と負の相関が認められた。 その結果, SDGの進展は地理的, 文化的, 社会経済的要因に大きく影響され, 2030年までにすべての目標を達成する国は存在しないことがわかった。 これは、目標の複雑な相互依存と国家の多様な能力を認める、持続可能な開発に対する地域特異的で体系的なアプローチの必要性を強調している。 弊社のアプローチは、効率的でデータインフォームドな戦略を開発するための堅牢なフレームワークを提供し、持続可能な進歩に向けた協調的かつ目標とするイニシアチブを促進する。

The United Nations 2030 Agenda for Sustainable Development outlines 17 goals to address global challenges. However, progress has been slower than expected and, consequently, there is a need to investigate the reasons behind this fact. In this study, we used a novel data-driven methodology to analyze data from 107 countries (2000$-$2022) using unsupervised machine learning techniques. Our analysis reveals strong positive and negative correlations between certain SDGs. The findings show that progress toward the SDGs is heavily influenced by geographical, cultural and socioeconomic factors, with no country on track to achieve all goals by 2030. This highlights the need for a region specific, systemic approach to sustainable development that acknowledges the complex interdependencies of the goals and the diverse capacities of nations. Our approach provides a robust framework for developing efficient and data-informed strategies, to promote cooperative and targeted initiatives for sustainable progress.
翻訳日:2024-11-07 14:52:37 公開日:2024-09-19
# いまだにフェアか?共変量ドリフトレンズによるフェアネスアルゴリズムの比較評価

Is it Still Fair? A Comparative Evaluation of Fairness Algorithms through the Lens of Covariate Drift ( http://arxiv.org/abs/2409.12428v1 )

ライセンス: Link先を確認
Oscar Blessed Deho, Michael Bewong, Selasi Kwashie, Jiuyong Li, Jixue Liu, Lin Liu, Srecko Joksimovic, (参考訳) 過去数十年間、機械学習(ML)のアプリケーションは指数関数的に増加し、社会にいくつかの恩恵をもたらしてきた。 しかしながら、これらの利点は、MLモデルによって示される差別的行動の懸念によって誘惑される。 この点において、機械学習の公平性は優先研究領域として浮上している。 その結果、MLモデルが持つ可能性のある差別行動に対して緩和するために、いくつかの公正度指標とアルゴリズムが開発された。 それでも、データパターンの変化(\textit{aka} データ分散ドリフト)の自然発生の問題や、その公正性アルゴリズムやメトリクスへの影響にはほとんど注意が払われていない。 本研究では,4つのフェアネスを意識しないベースラインアルゴリズムと7つのフェアネスを意識したアルゴリズムを網羅的に分析し,そのタイプミスの幅を,パブリックデータとプロプライエタリデータを含む5つのデータセットで詳細に解析し,予測性能と10個のフェアネス指標を用いて評価した。 そこで本研究では,(1)データ分布ドリフトは自明な発生ではなく,(2)データ分布ドリフトの大きさと方向が不公平な結果と相関していないこと,(3)データ分布ドリフトの訓練が,文献で無視されるデータ分布ドリフトの影響に影響していること,などを示す。 この結果から,利害関係者や実践者にとって非常に関係のある公平性アルゴリズムにおけるデータ分散ドリフトの政策的含意を整理した。

Over the last few decades, machine learning (ML) applications have grown exponentially, yielding several benefits to society. However, these benefits are tempered with concerns of discriminatory behaviours exhibited by ML models. In this regard, fairness in machine learning has emerged as a priority research area. Consequently, several fairness metrics and algorithms have been developed to mitigate against discriminatory behaviours that ML models may possess. Yet still, very little attention has been paid to the problem of naturally occurring changes in data patterns (\textit{aka} data distributional drift), and its impact on fairness algorithms and metrics. In this work, we study this problem comprehensively by analyzing 4 fairness-unaware baseline algorithms and 7 fairness-aware algorithms, carefully curated to cover the breadth of its typology, across 5 datasets including public and proprietary data, and evaluated them using 3 predictive performance and 10 fairness metrics. In doing so, we show that (1) data distributional drift is not a trivial occurrence, and in several cases can lead to serious deterioration of fairness in so-called fair models; (2) contrary to some existing literature, the size and direction of data distributional drift is not correlated to the resulting size and direction of unfairness; and (3) choice of, and training of fairness algorithms is impacted by the effect of data distributional drift which is largely ignored in the literature. Emanating from our findings, we synthesize several policy implications of data distributional drift on fairness algorithms that can be very relevant to stakeholders and practitioners.
翻訳日:2024-11-07 14:52:37 公開日:2024-09-19
# 大規模言語モデルにおける言語学的最小ペアの言語学的類似性

Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models ( http://arxiv.org/abs/2409.12435v1 )

ライセンス: Link先を確認
Xinyu Zhou, Delong Chen, Samuel Cahyawijaya, Xufeng Duan, Zhenguang G. Cai, (参考訳) 本稿では,言語モデル(LLM)の内部言語表現を探索するために,言語最小ペアを活用する新しい分析手法を提案する。 最小ペア間のLLMアクティベーション差の類似性を測定することにより、LLMが捉えた言語知識の定量化と洞察を得る。 3言語で100以上のLLMと150k以上の最小ペアにまたがる大規模な実験では、LLM間の一貫性、理論的分類との関係、意味的文脈への依存性、関連する現象の言語間アライメントという、4つの重要な側面から言語的類似性の性質を明らかにした。 私たちの発見は 1) 言語的類似性は, 訓練データ露出に大きく影響され, 高い情報源言語におけるLLM間の合意が高くなる。 2) 言語学的類似性は, より微細な理論的言語カテゴリーと強く一致しているが, より広範に一致している。 3)言語的類似性は意味的類似性と弱い相関を示し,その文脈依存性を示す。 4) LLMは関連言語現象の理解に限定的な言語間アライメントを示す。 この研究は、LLMにおける言語表現の窓口としての最小対の可能性を示し、LLMと言語理論の関係に光を当てている。

We introduce a novel analysis that leverages linguistic minimal pairs to probe the internal linguistic representations of Large Language Models (LLMs). By measuring the similarity between LLM activation differences across minimal pairs, we quantify the and gain insight into the linguistic knowledge captured by LLMs. Our large-scale experiments, spanning 100+ LLMs and 150k minimal pairs in three languages, reveal properties of linguistic similarity from four key aspects: consistency across LLMs, relation to theoretical categorizations, dependency to semantic context, and cross-lingual alignment of relevant phenomena. Our findings suggest that 1) linguistic similarity is significantly influenced by training data exposure, leading to higher cross-LLM agreement in higher-resource languages. 2) Linguistic similarity strongly aligns with fine-grained theoretical linguistic categories but weakly with broader ones. 3) Linguistic similarity shows a weak correlation with semantic similarity, showing its context-dependent nature. 4) LLMs exhibit limited cross-lingual alignment in their understanding of relevant linguistic phenomena. This work demonstrates the potential of minimal pairs as a window into the neural representations of language in LLMs, shedding light on the relationship between LLMs and linguistic theory.
翻訳日:2024-11-07 14:52:37 公開日:2024-09-19
# グラフベース合成データによる大規模言語モデルにおける論理推論の強化

Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data ( http://arxiv.org/abs/2409.12437v1 )

ライセンス: Link先を確認
Jiaming Zhou, Abbas Ghaddar, Ge Zhang, Liheng Ma, Yaochen Hu, Soumyasundar Pal, Mark Coates, Bin Wang, Yingxue Zhang, Jianye Hao, (参考訳) 近年のLarge Language Models (LLMs) のトレーニングと促進戦略の進歩にもかかわらず、これらのモデルは長い推論連鎖を含む複雑な論理的推論タスクの課題に直面し続けている。 本研究では,LLMの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。 帰納的推論(inductive reasoning)と空間的推論(spatial reasoning)という2つの確立された自然言語推論タスクに対して行った広範囲な実験により,合成グラフに基づく推論データを用いた教師付き微調整(SFT)が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。

Despite recent advances in training and prompting strategies for Large Language Models (LLMs), these models continue to face challenges with complex logical reasoning tasks that involve long reasoning chains. In this work, we explore the potential and limitations of using graph-based synthetic reasoning data as training signals to enhance LLMs' reasoning capabilities. Our extensive experiments, conducted on two established natural language reasoning tasks -- inductive reasoning and spatial reasoning -- demonstrate that supervised fine-tuning (SFT) with synthetic graph-based reasoning data effectively enhances LLMs' reasoning performance without compromising their effectiveness on other standard evaluation benchmarks.
翻訳日:2024-11-07 14:52:37 公開日:2024-09-19
# モーズドワード予測を支援するインクリメンタル・データ効率な概念形成

Incremental and Data-Efficient Concept Formation to Support Masked Word Prediction ( http://arxiv.org/abs/2409.12440v1 )

ライセンス: Link先を確認
Xin Lian, Nishant Baglodi, Christopher J. MacLellan, (参考訳) 本稿では、マスク付き単語予測をサポートする効率的な言語モデル学習のための新しいアプローチであるCobweb4Lを紹介する。 このアプローチは、確率論的概念の階層構造を学ぶインクリメンタルシステムであるCobweb上に構築されている。 各概念は、その概念ラベルにタグ付けされたインスタンスに現れる単語の頻度を格納する。 このシステムは属性値表現を利用して、単語とその周辺コンテキストをインスタンスにエンコードする。 Cobweb4Lは、カテゴリユーティリティの情報理論の変種と、複数の概念を活用して予測を生成する新しいパフォーマンスメカニズムを使用している。 これらの拡張により、単一のノードのみを使用して予測を生成する、以前のCobwebパフォーマンスメカニズムよりも大幅に性能が向上することを示した。 さらに、Cobweb4Lは急速に学習し、Word2Vecに匹敵する性能を達成できることを示した。 次に、Cobweb4LとWord2VecがBERTよりも少ないトレーニングデータで性能を向上していることを示す。 最後に、我々の結論をより堅牢かつ包括的にするための今後の取り組みについて論じる。

This paper introduces Cobweb4L, a novel approach for efficient language model learning that supports masked word prediction. The approach builds on Cobweb, an incremental system that learns a hierarchy of probabilistic concepts. Each concept stores the frequencies of words that appear in instances tagged with that concept label. The system utilizes an attribute value representation to encode words and their surrounding context into instances. Cobweb4L uses the information theoretic variant of category utility and a new performance mechanism that leverages multiple concepts to generate predictions. We demonstrate that with these extensions it significantly outperforms prior Cobweb performance mechanisms that use only a single node to generate predictions. Further, we demonstrate that Cobweb4L learns rapidly and achieves performance comparable to and even superior to Word2Vec. Next, we show that Cobweb4L and Word2Vec outperform BERT in the same task with less training data. Finally, we discuss future work to make our conclusions more robust and inclusive.
翻訳日:2024-11-07 14:52:37 公開日:2024-09-19
# 空間的キュー保存を考慮した軽量・リアルタイムバイノーラル音声強調モデル

A Lightweight and Real-Time Binaural Speech Enhancement Model with Spatial Cues Preservation ( http://arxiv.org/abs/2409.12444v1 )

ライセンス: Link先を確認
Jingyuan Wang, Jie Zhang, Shihao Chen, Miao Sun, (参考訳) バイノーラル音声強調(BSE)は、聴覚装置が受信した雑音信号の音声品質と可聴性を共同で改善し、ターゲットの空間的手がかりを自然聴取に保存することを目的としている。 既存の手法は、複雑な音響シーンにおいて、ノイズ低減(NR)容量と空間的手がかり保存(SCP)精度の妥協と高い計算要求に悩まされることが多い。 本研究では、低周波帯域をフィルタし、残りを保ち、NRの優れた学習ベースの軽量バイノーラル複合畳み込みネットワーク(LBCCN)を提案する。 さらに,提案手法は,空間的手がかりの忠実度と音声明瞭度を確保するために,チャネル間相対音響伝達関数の推定を明示的に取り入れている。 その結果,提案したLBCCNは,様々なノイズ条件下での最先端手法に匹敵するNR性能を達成できるが,計算コストは大幅に低く,SCPも向上した。 再現可能なコードとオーディオサンプルはhttps://github.com/jywanng/LBCCN.comで公開されている。

Binaural speech enhancement (BSE) aims to jointly improve the speech quality and intelligibility of noisy signals received by hearing devices and preserve the spatial cues of the target for natural listening. Existing methods often suffer from the compromise between noise reduction (NR) capacity and spatial cues preservation (SCP) accuracy and a high computational demand in complex acoustic scenes. In this work, we present a learning-based lightweight binaural complex convolutional network (LBCCN), which excels in NR by filtering low-frequency bands and keeping the rest. Additionally, our approach explicitly incorporates the estimation of interchannel relative acoustic transfer function to ensure the spatial cues fidelity and speech clarity. Results show that the proposed LBCCN can achieve a comparable NR performance to state-of-the-art methods under various noise conditions, but with a much lower computational cost and a better SCP. The reproducible code and audio examples are available at https://github.com/jywanng/LBCCN.
翻訳日:2024-11-07 14:52:37 公開日:2024-09-19
# プロンプトもプログラムだ! 開発者がプロンプトを含むソフトウェアを構築する方法を理解する

Prompts Are Programs Too! Understanding How Developers Build Software Containing Prompts ( http://arxiv.org/abs/2409.12447v1 )

ライセンス: Link先を確認
Jenny T. Liang, Melissa Lin, Nikitha Rao, Brad A. Myers, (参考訳) GPT-4のような生成事前学習モデルの導入は、プロンプトエンジニアリング(英語版)として知られる現象を導入し、モデルユーザーがタスクを達成しようとして繰り返しプロンプトを書き、修正する。 ソフトウェアアプリケーションのインテリジェントな機能にこれらのAIモデルを使用するには、開発者によるプロンプトを通じて制御されるAPIを使用する必要がある。 これらのプロンプトは、人気のソフトウェア製品でAI体験を生かし、数百万のユーザーを獲得した可能性がある。 迅速なソフトウェアの影響が増大しているにもかかわらず、開発プロセスとプログラミングとの関係についてはほとんど知られていない。 本研究では,いくつかのプロンプトはプログラムであり,プロンプトの開発はプログラミングにおいて異なる現象である,と論じる。 この現象を即興プログラミングと呼ぶ。 そこで我々は, 様々なコンテキスト, モデル, ドメイン, 急激な複雑さにまたがる迅速な開発に携わる20人の開発者へのインタビューを通じて, ストラウス的基礎理論を用いた即時プログラミングの理解を深める。 そこで本研究では,プロンプトプログラミングに関する14の観察結果について報告する。 例えば、コードのメンタルモデルを構築する代わりに、プログラマはプロンプト上のFMの振る舞いのメンタルモデルを開発し、そのモデルと対話することでそのユニークな性質を身につける。 これまでの研究では、専門家はよく形づくられたメンタルモデルを持っていることが示されていますが、数十のプロンプトを開発したプログラマは、それぞれに多くのイテレーションがあり、信頼できるメンタルモデルを開発するのに依然として苦労しています。 これは、迅速かつ非体系的な開発プロセスに寄与します。 まとめると、我々の観察は、プロンプトプログラミングが従来のソフトウェア開発と大きく異なることを示し、プロンプトプログラミングをサポートするツールの作成を動機付けている。 我々の発見は、ソフトウェア工学の実践者、教育者、研究者に影響を及ぼす。

The introduction of generative pre-trained models, like GPT-4, has introduced a phenomenon known as prompt engineering, whereby model users repeatedly write and revise prompts while trying to achieve a task. Using these AI models for intelligent features in software applications require using APIs that are controlled through developer-written prompts. These prompts have powered AI experiences in popular software products, potentially reaching millions of users. Despite the growing impact of prompt-powered software, little is known about its development process and its relationship to programming. In this work, we argue that some forms of prompts are programs, and that the development of prompts is a distinct phenomenon in programming. We refer to this phenomenon as prompt programming. To this end, we develop an understanding of prompt programming using Straussian grounded theory through interviews with 20 developers engaged in prompt development across a variety of contexts, models, domains, and prompt complexities. Through this study, we contribute 14 observations about prompt programming. For example, rather than building mental models of code, prompt programmers develop mental models of the FM's behavior on the prompt and its unique qualities by interacting with the model. While prior research has shown that experts have well-formed mental models, we find that prompt programmers who have developed dozens of prompts, each with many iterations, still struggle to develop reliable mental models. This contributes to a rapid and unsystematic development process. Taken together, our observations indicate that prompt programming is significantly different from traditional software development, motivating the creation of tools to support prompt programming. Our findings have implications for software engineering practitioners, educators, and researchers.
翻訳日:2024-11-07 14:52:37 公開日:2024-09-19
# 拡張型スタイルコンテンツ情報と超画素一貫性による内視鏡画像分割のための領域一般化

Domain Generalization for Endoscopic Image Segmentation by Disentangling Style-Content Information and SuperPixel Consistency ( http://arxiv.org/abs/2409.12450v1 )

ライセンス: Link先を確認
Mansoor Ali Teevno, Rafael Martinez-Garcia-Pena, Gilberto Ochoa-Ruiz, Sharib Ali, (参考訳) 消化器癌前駆体(GI)を発症する可能性に基づいて、個体を階層化するには、頻繁なモニタリングが必要である。 臨床では、危険領域を評価するために、ホワイトライトイメージング(WLI)と、狭帯域イメージング(NBI)や蛍光イメージングなどの相補的なモダリティを用いる。 しかし、従来のディープラーニング(DL)モデルは、あるモデルが1つのモダリティで訓練され、別のモデルでテストされると、ドメインギャップによって劣化した性能を示す。 従来の手法では、色と空間距離を用いてドメイン不変情報を効果的に学習し、ピクセル群を生成するために「SUPRA」と呼ばれるスーパーピクセルベースの手法を用いていた。 この初期の研究の主な制限の1つは、アグリゲーションが構造情報を利用せず、特にポリープや不均一な色分布においてセグメンテーションタスクに最適であるということである。 そこで本研究では, インスタンス正規化とインスタンス選択白化(ISW)を用いて, SUPRAと組み合わせた場合のドメイン一般化を改善する手法を提案する。 本研究では,EndoUDA BarrettのEsophagusとEndoUDA polypsの2つのデータセットに対するアプローチを評価し,その性能を3つの最先端(SOTA)手法と比較した。 本研究は,対象領域データにわたるベースライン法およびSOTA法と比較して,性能の顕著な向上を示すものである。 特に,本手法では,ベースラインよりも14%,10%,8%,および18%,ポリプデータセットでは3種類のSOTA法が改善した。 さらに、バレットの食道データセットの2番目のベストメソッド(EndoUDA)を2%近く上回った。

Frequent monitoring is necessary to stratify individuals based on their likelihood of developing gastrointestinal (GI) cancer precursors. In clinical practice, white-light imaging (WLI) and complementary modalities such as narrow-band imaging (NBI) and fluorescence imaging are used to assess risk areas. However, conventional deep learning (DL) models show degraded performance due to the domain gap when a model is trained on one modality and tested on a different one. In our earlier approach, we used a superpixel-based method referred to as "SUPRA" to effectively learn domain-invariant information using color and space distances to generate groups of pixels. One of the main limitations of this earlier work is that the aggregation does not exploit structural information, making it suboptimal for segmentation tasks, especially for polyps and heterogeneous color distributions. Therefore, in this work, we propose an approach for style-content disentanglement using instance normalization and instance selective whitening (ISW) for improved domain generalization when combined with SUPRA. We evaluate our approach on two datasets: EndoUDA Barrett's Esophagus and EndoUDA polyps, and compare its performance with three state-of-the-art (SOTA) methods. Our findings demonstrate a notable enhancement in performance compared to both baseline and SOTA methods across the target domain data. Specifically, our approach exhibited improvements of 14%, 10%, 8%, and 18% over the baseline and three SOTA methods on the polyp dataset. Additionally, it surpassed the second-best method (EndoUDA) on the Barrett's Esophagus dataset by nearly 2%.
翻訳日:2024-11-07 14:52:37 公開日:2024-09-19
# FoME:Adaptive Temporal-Lateral Attention Scalingを用いた脳波基礎モデル

FoME: A Foundation Model for EEG using Adaptive Temporal-Lateral Attention Scaling ( http://arxiv.org/abs/2409.12454v1 )

ライセンス: Link先を確認
Enze Shi, Kui Zhao, Qilong Yuan, Jiaqi Wang, Huawen Hu, Sigang Yu, Shu Zhang, (参考訳) 脳波検査(EEG)は神経科学および臨床応用における脳活動の測定と記録に欠かせないツールであるが、そのポテンシャルは信号の不均一性、低信号-雑音比、ラベル付きデータセットによって制限されている。 本稿では,適応的時間的アテンションスケーリングを用いた新たなアプローチであるFoME(Foundation Model for EEG)を提案する。 FoMEは1.7TBの頭皮と頭蓋内脳波記録のデータセットで事前訓練されており、1,096kのステップで745Mのパラメータが訓練されている。 本モデルでは,時間周波数融合埋込み技術と適応型時間側アテンションスケーリング(ATLAS)機構の2つの重要なイノベーションを紹介する。 これらのコンポーネントは相乗的に複雑な時間的およびスペクトル脳波のダイナミクスを捉え、FoMEは多様なデータストリームにまたがる様々なパターンに適応し、堅牢なマルチチャネルモデリングを容易にする。 4つの下流タスクに対する評価は、FoMEの分類と予測アプリケーションにおける優れた性能を示し、一貫して最先端の結果が得られている。 結論として、FoMEは脳波分析の新しいパラダイムを確立し、脳-コンピュータインターフェース、臨床診断、神経科学および関連する分野における認知研究を進化させる汎用的な基盤を提供する。 私たちのコードはhttps://github.com/1061413241/FoME.comで公開されます。

Electroencephalography (EEG) is a vital tool to measure and record brain activity in neuroscience and clinical applications, yet its potential is constrained by signal heterogeneity, low signal-to-noise ratios, and limited labeled datasets. In this paper, we propose FoME (Foundation Model for EEG), a novel approach using adaptive temporal-lateral attention scaling to address above-mentioned challenges. FoME is pre-trained on a diverse 1.7TB dataset of scalp and intracranial EEG recordings, comprising 745M parameters trained for 1,096k steps. Our model introduces two key innovations: a time-frequency fusion embedding technique and an adaptive time-lateral attention scaling (ATLAS) mechanism. These components synergistically capture complex temporal and spectral EEG dynamics, enabling FoME to adapt to varying patterns across diverse data streams and facilitate robust multi-channel modeling. Evaluations across four downstream tasks demonstrate FoME's superior performance in classification and forecasting applications, consistently achieving state-of-the-art results. To conclude, FoME establishes a new paradigm for EEG analysis, offering a versatile foundation that advances brain-computer interfaces, clinical diagnostics, and cognitive research across neuroscience and related fields. Our code will be available at https://github.com/1061413241/FoME.
翻訳日:2024-11-07 14:52:37 公開日:2024-09-19
# 実時間3次元動作予測のための知識蒸留を用いたベイズ最適化ワンステップ拡散モデル

Bayesian-Optimized One-Step Diffusion Model with Knowledge Distillation for Real-Time 3D Human Motion Prediction ( http://arxiv.org/abs/2409.12456v1 )

ライセンス: Link先を確認
Sibo Tian, Minghui Zheng, Xiao Liang, (参考訳) 人間の動き予測は人間とロボットのコラボレーション(HRC)の基盤であり、ロボットは過去の動きの手がかりに基づいて人間の働きの将来の動きを推測し、積極的に動きを計画し、密接なコラボレーションシナリオにおける安全性を確保する必要がある。 拡散モデルは,高品質な動作サンプルを合理的な多様性で予測する上で顕著な性能を示したが,複数のモデル評価を必要とする遅い生成過程に悩まされ,現実の応用を妨げている。 本研究では, 実時間予測を実現するために, 知識蒸留とベイズ最適化を用いた1段階多層パーセプトロン(MLP)拡散モデルを提案する。 私たちの方法には2つのステップがあります。 まず,事前訓練された拡散に基づく運動予測器であるTransFusionを,同一のデノイザ構造を持つ1ステップ拡散モデルに直接蒸留する。 さらに, 推定時間を短縮するために, 計算コストのかかる成分を元のデノイザから除去し, 再び知識蒸留を用いて, 得られた一段階拡散モデルを, MLPのみに基づくより小さなモデルに蒸留する。 ベイズ最適化は、より小さな拡散モデルのトレーニングのためにハイパーパラメータをチューニングするために用いられる。 ベンチマークデータセットを用いて大規模な実験を行い,本モデルでは予測速度を大幅に向上し,性能劣化を伴わないリアルタイム予測を実現している。

Human motion prediction is a cornerstone of human-robot collaboration (HRC), as robots need to infer the future movements of human workers based on past motion cues to proactively plan their motion, ensuring safety in close collaboration scenarios. The diffusion model has demonstrated remarkable performance in predicting high-quality motion samples with reasonable diversity, but suffers from a slow generative process which necessitates multiple model evaluations, hindering real-world applications. To enable real-time prediction, in this work, we propose training a one-step multi-layer perceptron-based (MLP-based) diffusion model for motion prediction using knowledge distillation and Bayesian optimization. Our method contains two steps. First, we distill a pretrained diffusion-based motion predictor, TransFusion, directly into a one-step diffusion model with the same denoiser architecture. Then, to further reduce the inference time, we remove the computationally expensive components from the original denoiser and use knowledge distillation once again to distill the obtained one-step diffusion model into an even smaller model based solely on MLPs. Bayesian optimization is used to tune the hyperparameters for training the smaller diffusion model. Extensive experimental studies are conducted on benchmark datasets, and our model can significantly improve the inference speed, achieving real-time prediction without noticeable degradation in performance.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# SurgPLAN++: オンラインおよびオフライン推論のためのユニバーサルな外科的フェーズローカライゼーションネットワーク

SurgPLAN++: Universal Surgical Phase Localization Network for Online and Offline Inference ( http://arxiv.org/abs/2409.12467v1 )

ライセンス: Link先を確認
Zhen Chen, Xingjian Luo, Jinlin Wu, Long Bai, Zhen Lei, Hongliang Ren, Sebastien Ourselin, Hongbin Liu, (参考訳) 外科的位相認識は、外科医が手術ビデオを理解するのを助けるために重要である。 既存の研究では、以前のフレームを活用して現在のフレームを予測することで、オンラインの外科的位相認識をより重視している。 大きな進歩にもかかわらず、彼らはタスクを一連のフレームワイドな分類として定式化し、その結果、手順全体のグローバルなコンテキストが欠如し、一貫性のない予測がなされた。 さらに, オンライン解析の他に, 正確なオフライン外科的位相認識は, 振り返り解析にとって重要な臨床要件であり, 既存のオンラインアルゴリズムでは全映像を十分に解析できないため, オフライン解析の精度が制限される。 これらの課題を克服し、オンラインとオフラインの両方の推論機能を強化するために、時間的検出の原理を取り入れた、SurgPLAN++と呼ばれる普遍的な外科的位相局所化ネットワークを提案する。 外科手術のグローバルな理解を確保するため,SurgPLAN++のフェーズローカライズ戦略を考案し,フェーズプロポーザルを通じてビデオ全体のフェーズセグメントを予測する。 オンライン分析では、高品質なフェーズ提案を生成するために、SurgPLAN++は、ストリーミングビデオをミラーリング、センター複製、ダウンサンプリングを通じて擬似完全ビデオに拡張するデータ拡張戦略を採用している。 オフライン解析のために、SurgPLAN++はグローバルフェーズ予測フレームワークを利用して、オンライン推論の各ステップで先行予測を継続的に洗練し、フェーズ認識の精度を大幅に向上させる。 我々のSurgPLAN++は、オンラインモードとオフラインモードの両方で顕著なパフォーマンスを実現し、最先端の手法よりも優れています。 ソースコードはhttps://github.com/lxj22/SurgPLAN-Plusで入手できる。

Surgical phase recognition is critical for assisting surgeons in understanding surgical videos. Existing studies focused more on online surgical phase recognition, by leveraging preceding frames to predict the current frame. Despite great progress, they formulated the task as a series of frame-wise classification, which resulted in a lack of global context of the entire procedure and incoherent predictions. Moreover, besides online analysis, accurate offline surgical phase recognition is also in significant clinical need for retrospective analysis, and existing online algorithms do not fully analyze the entire video, thereby limiting accuracy in offline analysis. To overcome these challenges and enhance both online and offline inference capabilities, we propose a universal Surgical Phase Localization Network, named SurgPLAN++, with the principle of temporal detection. To ensure a global understanding of the surgical procedure, we devise a phase localization strategy for SurgPLAN++ to predict phase segments across the entire video through phase proposals. For online analysis, to generate high-quality phase proposals, SurgPLAN++ incorporates a data augmentation strategy to extend the streaming video into a pseudo-complete video through mirroring, center-duplication, and down-sampling. For offline analysis, SurgPLAN++ capitalizes on its global phase prediction framework to continuously refine preceding predictions during each online inference step, thereby significantly improving the accuracy of phase recognition. We perform extensive experiments to validate the effectiveness, and our SurgPLAN++ achieves remarkable performance in both online and offline modes, which outperforms state-of-the-art methods. The source code is available at https://github.com/lxj22/SurgPLAN-Plus.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# 検索向上のための親密性を考慮したエビデンス圧縮

Familiarity-aware Evidence Compression for Retrieval Augmented Generation ( http://arxiv.org/abs/2409.12468v1 )

ライセンス: Link先を確認
Dongwon Jung, Qin Liu, Tenghao Huang, Ben Zhou, Muhao Chen, (参考訳) Retrieval Augmented Generation (RAG)は、外部ソースからのエビデンス検索を通じて、非パラメトリック知識を組み込むことにより、大規模な言語モデル(LM)を改善する。 しかし、LMをタスクから逸脱させる可能性のある、一貫性のない無関係な情報をフィルタリングするのに苦労することが多い。 抽出された証拠を圧縮モデルで圧縮することは、この問題に対処することを目的としているが、圧縮された証拠は、下流タスクで使用されるターゲットモデルに不慣れであり、その証拠を効果的に活用できない可能性がある。 本研究では,FaviComp (Familiarity-aware Evidence Compression) を提案する。FaviComp (Familiarity-aware Evidence Compression) は,モデルからパラメトリック知識をシームレスに統合しながら,対象モデルにより親しみやすいエビデンスを抽出する,新たなトレーニングフリーエビデンス圧縮手法である。 具体的には、FaviCompは、圧縮モデルとターゲットモデルの両方からのトークン確率を組み合わせて、対象モデルに慣れ親しんだコンテキストを生成することにより、対象モデルに関する圧縮されたエビデンスの難易度を積極的に下げる。 このアプローチはパラメトリック知識と非パラメトリック知識の統合のバランスをとるが、これは検索されたエビデンスセットが必要な情報をすべて含まないような複雑なタスクにおいて特に有用である。 実験の結果、FaviCompは複数のオープンドメインQAデータセットにおいて既存のベースラインを一貫して上回り、高い圧縮率を達成し、パラメトリック知識と非パラメトリック知識の効果的な統合を示す。

Retrieval Augmented Generation (RAG) improves large language models (LMs) by incorporating non-parametric knowledge through evidence retrieval from external sources. However, it often struggles to filter out inconsistent and irrelevant information that can distract the LM from its tasks. While compressing the retrieved evidence with a compression model aims to address this issue, the compressed evidence may still be unfamiliar to the target model used for downstream task, potentially failing to utilize the evidence effectively. We propose FaviComp (Familiarity-aware Evidence Compression), a novel training-free evidence compression technique that makes retrieved evidence more familiar to the target model, while seamlessly integrating parametric knowledge from the model. Specifically, FaviComp proactively lowers the perplexity of the compressed evidence with regard to the target model by combining token probabilities from both the compression model and the target model to generate context that is more familiar to the target model. This approach balances the integration of parametric and non-parametric knowledge, which is especially helpful in complex tasks where the retrieved evidence set may not contain all the necessary information. Experimental results demonstrate that FaviComp consistently outperforms existing baselines in multiple open-domain QA datasets, achieving high compression rates and showcasing the effective integration of both parametric and non-parametric knowledge.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# Arena 4.0: 生成モデルに基づく環境生成を用いた人間中心ナビゲーションのための総合的なROS2開発とベンチマークプラットフォーム

Arena 4.0: A Comprehensive ROS2 Development and Benchmarking Platform for Human-centric Navigation Using Generative-Model-based Environment Generation ( http://arxiv.org/abs/2409.12471v1 )

ライセンス: Link先を確認
Volodymyr Shcherbyna1, Linh Kästner, Diego Diaz, Huu Giang Nguyen, Maximilian Ho-Kyoung Schreff, Tim Lenz, Jonas Kreutz, Ahmed Martban, Huajian Zeng, Harold Soh, (参考訳) この論文では、Arena 3.0、Arena-Bench、Arena 1.0、Arena 2.0の大幅な進歩であるArena 4.0を紹介します。 アリーナ4.0は、(1)大規模言語モデル(LLM)と拡散モデルを利用して、テキストプロンプトや2Dフロアプランから複雑で人間中心の環境を動的に生成し、ソーシャルナビゲーション戦略の開発とベンチマークに有用な生成モデルとシナリオ生成アプローチ、(2)3Dワールド内で動的に生成および配置するために意味的にリンクされ注釈付けされた追加の3Dアセットで拡張可能な総合的な3Dモデルデータベース、(3)ROS 2への完全移行、そしてナビゲーション、ユーザビリティ、実際のロボットへの展開を容易にするモダンなハードウェアと拡張機能を実現する。 プラットフォームの性能を総合的なユーザスタディを通じて評価し、以前のバージョンと比較してユーザビリティと効率が大幅に向上したことを示す。 Arena 4.0はhttps://github.com/Arena-Rosnav.comで公開されている。

Building on the foundations of our previous work, this paper introduces Arena 4.0, a significant advancement over Arena 3.0, Arena-Bench, Arena 1.0, and Arena 2.0. Arena 4.0 offers three key novel contributions: (1) a generative-model-based world and scenario generation approach that utilizes large language models (LLMs) and diffusion models to dynamically generate complex, human-centric environments from text prompts or 2D floorplans, useful for the development and benchmarking of social navigation strategies; (2) a comprehensive 3D model database, extendable with additional 3D assets that are semantically linked and annotated for dynamic spawning and arrangement within 3D worlds; and (3) a complete migration to ROS 2, enabling compatibility with modern hardware and enhanced functionalities for improved navigation, usability, and easier deployment on real robots. We evaluated the platform's performance through a comprehensive user study, demonstrating significant improvements in usability and efficiency compared to previous versions. Arena 4.0 is openly available at https://github.com/Arena-Rosnav.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# TEAM:RNNに応用したネットワーク侵入検知システムに対する攻撃モデル

TEAM: Temporal Adversarial Examples Attack Model against Network Intrusion Detection System Applied to RNN ( http://arxiv.org/abs/2409.12472v1 )

ライセンス: Link先を確認
Ziyi Liu, Dengpan Ye, Long Tang, Yunming Zhang, Jiacheng Deng, (参考訳) 人工知能の発展に伴い、ニューラルネットワークはネットワーク侵入検知システム(NIDS)において重要な役割を果たす。 膨大なアドバンテージにもかかわらず、ニューラルネットワークは敵の攻撃に影響を受けやすい。 NIDSの信頼性を向上させるため、多くの研究が行われ、多くの解決策が提案されている。 しかし、既存のソリューションでは、実世界におけるNIDSの適用に大きな影響を及ぼすような、時間ステップを伴うリカレントニューラルネットワーク(RNN)に対する敵攻撃を考えることは滅多にない。 そこで我々はまず, 時系列データに適用し, 対角線と時間ステップの潜在的な関係を明らかにする, 特徴再構成に基づく新しい RNN 対角線攻撃モデルである \textbf{T} を提案する。 つまり、過去の逆の例は同時に、現在のまたは将来のオリジナルの例に対するさらなる攻撃を引き起こす可能性がある。 さらに、TEAMはTD(Time Dilation)を利用して、同じ時間ステップで相手の例間の時間的効果を効果的に緩和する。 実験の結果、ほとんどの攻撃カテゴリーにおいて、TEAMはブラックボックスとホワイトボックスの両方でのNIDSの誤判定率を改善し、96.68%以上に達することがわかった。 一方、元の標本に対するNIDSの誤判定率の最大増加率は95.57%を超えた。

With the development of artificial intelligence, neural networks play a key role in network intrusion detection systems (NIDS). Despite the tremendous advantages, neural networks are susceptible to adversarial attacks. To improve the reliability of NIDS, many research has been conducted and plenty of solutions have been proposed. However, the existing solutions rarely consider the adversarial attacks against recurrent neural networks (RNN) with time steps, which would greatly affect the application of NIDS in real world. Therefore, we first propose a novel RNN adversarial attack model based on feature reconstruction called \textbf{T}emporal adversarial \textbf{E}xamples \textbf{A}ttack \textbf{M}odel \textbf{(TEAM)}, which applied to time series data and reveals the potential connection between adversarial and time steps in RNN. That is, the past adversarial examples within the same time steps can trigger further attacks on current or future original examples. Moreover, TEAM leverages Time Dilation (TD) to effectively mitigates the effect of temporal among adversarial examples within the same time steps. Experimental results show that in most attack categories, TEAM improves the misjudgment rate of NIDS on both black and white boxes, making the misjudgment rate reach more than 96.68%. Meanwhile, the maximum increase in the misjudgment rate of the NIDS for subsequent original samples exceeds 95.57%.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# バルク系ステンレス鋼粉末層核融合におけるオン軸ビデオからのレーザパラメータ再構成のための基準データセットとベンチマーク

Reference Dataset and Benchmark for Reconstructing Laser Parameters from On-axis Video in Powder Bed Fusion of Bulk Stainless Steel ( http://arxiv.org/abs/2409.12475v1 )

ライセンス: Link先を確認
Cyril Blanc, Ayyoub Ahar, Kurt De Grave, (参考訳) RAISE-LPBFは316L鋼バルク材の粉末層融合(LPBF)におけるレーザーパワーとレーザードット速度の大規模なデータセットであり, オン軸20kFPSビデオで観察した。 いずれのプロセスパラメータも、連続分布から各スキャンラインに対して独立にサンプリングされるので、異なるパラメータ選択の相互作用を調べることができる。 このデータは、LPBFの統計的性質の導出や、異常検出器の構築に利用できる。 データを読み込むためのサンプルソースコード、ベースライン機械学習モデルと結果、予測モデルを評価するための公開ベンチマークを提供する。

We present RAISE-LPBF, a large dataset on the effect of laser power and laser dot speed in powder bed fusion (LPBF) of 316L stainless steel bulk material, monitored by on-axis 20k FPS video. Both process parameters are independently sampled for each scan line from a continuous distribution, so interactions of different parameter choices can be investigated. The data can be used to derive statistical properties of LPBF, as well as to build anomaly detectors. We provide example source code for loading the data, baseline machine learning models and results, and a public benchmark to evaluate predictive models.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# AutoMode-ASR: より良い品質とコストのためにASRシステムを選択することを学ぶ

AutoMode-ASR: Learning to Select ASR Systems for Better Quality and Cost ( http://arxiv.org/abs/2409.12476v1 )

ライセンス: Link先を確認
Ahmet Gündüz, Yunsu Kim, Kamer Ali Yuksel, Mohamed Al-Badrashiny, Thiago Castro Ferreira, Hassan Sawaf, (参考訳) 複数のASRシステムを効果的に統合し、コストを最適化しながら全体の転写品質を向上させる新しいフレームワークであるAutoMode-ASRを提案する。 システムを実行する前に、音声入力のみに基づいて各セグメントに対して最適なASRシステムを選択するための決定モデルを訓練する。 2つのシステム間の選好を決定するバイナリ分類器を組み込むことでこれを実現できる。 これらの分類器は、オーディオ埋め込み、品質推定、信号特性などの様々な特徴を備えている。 さらに, 品質推定器を用いることで, コストを最小限に抑えることで, 性能をさらに向上させることができることを示す。 実験の結果、WERは16.2%、コストは65%、スピードは75%向上した。 我々のフレームワークは、モデルコードの変更を必要としないため、商用およびオープンソースのブラックボックスASRシステムと互換性がある。

We present AutoMode-ASR, a novel framework that effectively integrates multiple ASR systems to enhance the overall transcription quality while optimizing cost. The idea is to train a decision model to select the optimal ASR system for each segment based solely on the audio input before running the systems. We achieve this by ensembling binary classifiers determining the preference between two systems. These classifiers are equipped with various features, such as audio embeddings, quality estimation, and signal properties. Additionally, we demonstrate how using a quality estimator can further improve performance with minimal cost increase. Experimental results show a relative reduction in WER of 16.2%, a cost saving of 65%, and a speed improvement of 75%, compared to using a single-best model for all segments. Our framework is compatible with commercial and open-source black-box ASR systems as it does not require changes in model codes.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# ViolinDiff:ピッチベンドコンディショニングによる表現的ビオリン合成の促進

ViolinDiff: Enhancing Expressive Violin Synthesis with Pitch Bend Conditioning ( http://arxiv.org/abs/2409.12477v1 )

ライセンス: Link先を確認
Daewoong Kim, Hao-Wen Dong, Dasaem Jeong, (参考訳) 基本周波数(F0)の自然な輪郭のモデル化は、音楽音声合成において重要な役割を果たす。 しかし、ポリフォニック・ミュージックにおける複数のF0輪郭の書き起こしと管理は困難であり、明示的なF0輪郭モデリングはまだポリフォニック・インスツルメンタル・シンセサイザーズのために研究されていない。 本稿では,2段階拡散に基づく合成フレームワークであるViolinDiffについて述べる。 所定のバイオリンMIDIファイルに対して、第1ステージは、F0輪郭をピッチ曲げ情報として推定し、第2ステージは、これらの表現的詳細を組み込んだメルスペクトログラムを生成する。 定量的な測定値と聴力試験結果から,提案モデルが明瞭なピッチ屈曲を伴わないモデルよりも,より現実的なヴァイオリン音を生成することが示された。 オーディオサンプルは、daewoung.github.io/ViolinDiff-Demo.comで入手できる。

Modeling the natural contour of fundamental frequency (F0) plays a critical role in music audio synthesis. However, transcribing and managing multiple F0 contours in polyphonic music is challenging, and explicit F0 contour modeling has not yet been explored for polyphonic instrumental synthesis. In this paper, we present ViolinDiff, a two-stage diffusion-based synthesis framework. For a given violin MIDI file, the first stage estimates the F0 contour as pitch bend information, and the second stage generates mel spectrogram incorporating these expressive details. The quantitative metrics and listening test results show that the proposed model generates more realistic violin sounds than the model without explicit pitch bend modeling. Audio samples are available online: daewoung.github.io/ViolinDiff-Demo.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# 外部分布検出のための多次元埋め込み学習

Learning Multi-Manifold Embedding for Out-Of-Distribution Detection ( http://arxiv.org/abs/2409.12479v1 )

ライセンス: Link先を確認
Jeng-Lin Li, Ming-Ching Chang, Wei-Chao Chen, (参考訳) 現実世界のアプリケーションにおいて、信頼に値するAIには、OOD(out-of-distriion)サンプルの検出が不可欠である。 表現学習と潜伏埋め込みの最近の進歩を活用して、様々なスコアリングアルゴリズムは、トレーニングデータを超えた分布を推定する。 しかし、単一の埋め込み空間は、分配データの特徴付けと多様なOOD条件に対する防御において不足する。 本稿では,多次元埋め込み学習(MMEL, Multi-Manifold Embedding Learning)フレームワークを提案する。 MMELは代表埋め込みを生成し、OODサンプルの識別にプロトタイプ認識スコアリング機能を利用する。 非常に少数のOODサンプルで動作し、モデルの再トレーニングを必要としない。 6つのオープンデータセットの実験は、最先端の距離ベースOOD検出法と比較して高いAUCを維持しながら、MMELのFPRの大幅な削減を実証している。 複数の多様体を学習し、データセット間のOODスコア分布を可視化する効果を解析する。 特に、リトレーニングなしで10個のOODサンプルを登録すると、モデルトレーニングに8000万のアウトレイラサンプルを使用して、現代のアウトレイラ露光法に匹敵するFPRとAUCが得られる。

Detecting out-of-distribution (OOD) samples is crucial for trustworthy AI in real-world applications. Leveraging recent advances in representation learning and latent embeddings, Various scoring algorithms estimate distributions beyond the training data. However, a single embedding space falls short in characterizing in-distribution data and defending against diverse OOD conditions. This paper introduces a novel Multi-Manifold Embedding Learning (MMEL) framework, optimizing hypersphere and hyperbolic spaces jointly for enhanced OOD detection. MMEL generates representative embeddings and employs a prototype-aware scoring function to differentiate OOD samples. It operates with very few OOD samples and requires no model retraining. Experiments on six open datasets demonstrate MMEL's significant reduction in FPR while maintaining a high AUC compared to state-of-the-art distance-based OOD detection methods. We analyze the effects of learning multiple manifolds and visualize OOD score distributions across datasets. Notably, enrolling ten OOD samples without retraining achieves comparable FPR and AUC to modern outlier exposure methods using 80 million outlier samples for model training.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# ConvexECG: パーソナライズされた連続心臓モニタリングのための軽量で説明可能なニューラルネットワーク

ConvexECG: Lightweight and Explainable Neural Networks for Personalized, Continuous Cardiac Monitoring ( http://arxiv.org/abs/2409.12493v1 )

ライセンス: Link先を確認
Rayan Ansari, John Cao, Sabyasachi Bandyopadhyay, Sanjiv M. Narayan, Albert J. Rogers, Mert Pilanci, (参考訳) ConvexECG(コンベックスECG)は,心電図(ECG)を単葉データから再構成し,パーソナライズおよび連続心臓モニタリングの促進を目的とした,説明可能な,資源効率のよい手法である。 ConvexECGは、2層ReLUニューラルネットワークの凸再構成を利用して、リソース制約された環境における効率的なトレーニングとデプロイメントを可能にすると同時に、決定論的かつ説明可能な振る舞いを持つ。 25人の患者のデータを用いて、ConvexECGはより大きなニューラルネットワークに匹敵する精度を実現し、計算オーバーヘッドを大幅に削減し、リアルタイムで低リソースのモニタリングアプリケーションの可能性を強調した。

We present ConvexECG, an explainable and resource-efficient method for reconstructing six-lead electrocardiograms (ECG) from single-lead data, aimed at advancing personalized and continuous cardiac monitoring. ConvexECG leverages a convex reformulation of a two-layer ReLU neural network, enabling the potential for efficient training and deployment in resource constrained environments, while also having deterministic and explainable behavior. Using data from 25 patients, we demonstrate that ConvexECG achieves accuracy comparable to larger neural networks while significantly reducing computational overhead, highlighting its potential for real-time, low-resource monitoring applications.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# マルチモーダル・プロンプティングによる端から端までのオープン・ボキャブラリ・ビデオ・リレーションシップ検出

End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting ( http://arxiv.org/abs/2409.12499v1 )

ライセンス: Link先を確認
Yongqi Wang, Shuo Yang, Xinxiao Wu, Jiebo Luo, (参考訳) Open-vocabulary video visual relationship detectionは、ビデオ内の見えないオブジェクトと見えないオブジェクトの両方の関係を検出することによって、アノテーション付きカテゴリを超えて、ビデオ視覚的関係検出を拡張することを目的としている。 既存の方法は、通常、閉じたデータセットで訓練された軌跡検出器を使用して物体の軌跡を検出し、これらの軌跡を大規模に訓練された視覚言語モデルに供給し、オープン語彙分類を実現する。 このような事前訓練された軌道検出器への強い依存は、新しい対象カテゴリーに一般化する能力を制限し、性能劣化をもたらす。 この課題に対処するために、オブジェクトの軌跡検出と関係分類をエンドツーエンドのオープン語彙フレームワークに統合することを提案する。 本枠組みでは,関係対応型オープンボキャブラリ軌道検出器を提案する。 主にクエリベースのTransformerデコーダで構成され、CLIPのビジュアルエンコーダはフレーム単位のオープン語彙オブジェクト検出のために蒸留される。 トラジェクトリ検出時に関係コンテキストを活用するために、関係クエリをTransformerデコーダに埋め込み、それに伴い、デコーダがオブジェクト間の関係を明示的に知覚できるように補助的な関係損失を設計する。 さらに,CLIPの豊富な意味的知識を活用して新しい関係を発見するオープン語彙関係分類器を提案する。 CLIPを関係分類に適合させるために,視覚表現と視覚誘導言語に時空間的プロンプトを用いた多モーダルプロンプト法を設計した。 VidVRDとVidORの2つの公開データセットに対する大規模な実験は、我々のフレームワークの有効性を実証している。 我々のフレームワークは、その一般化能力をさらに実証するために、より難しいクロスデータセットシナリオにも適用されます。

Open-vocabulary video visual relationship detection aims to expand video visual relationship detection beyond annotated categories by detecting unseen relationships between both seen and unseen objects in videos. Existing methods usually use trajectory detectors trained on closed datasets to detect object trajectories, and then feed these trajectories into large-scale pre-trained vision-language models to achieve open-vocabulary classification. Such heavy dependence on the pre-trained trajectory detectors limits their ability to generalize to novel object categories, leading to performance degradation. To address this challenge, we propose to unify object trajectory detection and relationship classification into an end-to-end open-vocabulary framework. Under this framework, we propose a relationship-aware open-vocabulary trajectory detector. It primarily consists of a query-based Transformer decoder, where the visual encoder of CLIP is distilled for frame-wise open-vocabulary object detection, and a trajectory associator. To exploit relationship context during trajectory detection, a relationship query is embedded into the Transformer decoder, and accordingly, an auxiliary relationship loss is designed to enable the decoder to perceive the relationships between objects explicitly. Moreover, we propose an open-vocabulary relationship classifier that leverages the rich semantic knowledge of CLIP to discover novel relationships. To adapt CLIP well to relationship classification, we design a multi-modal prompting method that employs spatio-temporal visual prompting for visual representation and vision-guided language prompting for language input. Extensive experiments on two public datasets, VidVRD and VidOR, demonstrate the effectiveness of our framework. Our framework is also applied to a more difficult cross-dataset scenario to further demonstrate its generalization ability.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# LLMR:大規模言語モデルによるリワードによる知識蒸留

LLMR: Knowledge Distillation with a Large Language Model-Induced Reward ( http://arxiv.org/abs/2409.12500v1 )

ライセンス: Link先を確認
Dongheng Li, Yongchang Hao, Lili Mou, (参考訳) 大規模言語モデルは、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを示すようになった。 しかし、これらのモデルは一般的に計算コストが高く、資源制約のある環境では展開が困難である。 本稿では,大規模言語モデルから誘導される報酬関数に基づく新しい知識蒸留(KD)手法であるLLMRを提案する。 対話生成と要約タスクにおける複数のデータセットの実験を行った。 LLMRアプローチが従来のKDメソッドをさまざまなタスクやデータセットで一貫して上回ることを示す実験結果が得られた。

Large language models have become increasingly popular and demonstrated remarkable performance in various natural language processing (NLP) tasks. However, these models are typically computationally expensive and difficult to be deployed in resource-constrained environments. In this paper, we propose LLMR, a novel knowledge distillation (KD) method based on a reward function induced from large language models. We conducted experiments on multiple datasets in the dialogue generation and summarization tasks. Empirical results demonstrate that our LLMR approach consistently outperforms traditional KD methods in different tasks and datasets.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# 効率的な4レベル光子エコーメモリの進歩

Progress towards efficient 4-level photon echo memories ( http://arxiv.org/abs/2409.12503v1 )

ライセンス: Link先を確認
James Stuart, Kieran Smith, Morgan Hedges, Rose Ahlefeldt, Matthew Sellars, (参考訳) 量子メモリは、量子情報処理において多くのデバイスに恩恵をもたらす可能性がある。 量子が現実世界の応用に有用であるためには、量子メモリは高いリコール効率を持つ必要がある。 ここでは、Er:YSOにおいて、4レベル再相増幅自然発光プロトコルを用いて、効率(最大80%)のスピン記憶量子メモリを実証する。 量子メモリによって生成されるASEフィールドとRASEフィールドの非古典的相関を示す。 また、70のテンポラリモード、150の書き込み時間、25のストレージタイムを実証する。 最後に、効率、保存時間、モード容量を改善するために明確な経路が提示される。 そのようなデバイスは量子ネットワークや測定ベースの量子コンピューティングに応用される。

Quantum memories could benefit many devices in quantum information processing. For a quantum to be useful in real-world applications, the quantum memory must have a high recall efficiency. Here we demonstrate an efficient (up to 80%) spin-storage quantum memory in Er:YSO, using the 4-level rephased amplified spontaneous emission protocol. We show non-classical correlations between the ASE and RASE fields produced by the quantum memory. Also, we demonstrate the storage of 70 temporal modes, with a write time of 150 us, and a storage time of 25 us. Finally, a clear pathway is presented to improve the efficiency, storage time, and mode capacity. Such a device would have applications in quantum networking and measurement-based quantum computing.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# ハイブリッドステップワイド蒸留スパイクニューラルネットワークによる低レイテンシイベントベース視覚認識の実現に向けて

Towards Low-latency Event-based Visual Recognition with Hybrid Step-wise Distillation Spiking Neural Networks ( http://arxiv.org/abs/2409.12507v1 )

ライセンス: Link先を確認
Xian Zhong, Shengwang Hu, Wenxuan Liu, Wenxin Huang, Jianhao Ding, Zhaofei Yu, Tiejun Huang, (参考訳) スパイキングニューラルネットワーク(SNN)は、低消費電力と高い生物学的解釈可能性のために大きな注目を集めている。 その豊富な時空間情報処理能力とイベント駆動性は、ニューロモルフィックなデータセットに最適である。 しかしながら、現在のSNNは、これらのデータセットの分類において、正確性とレイテンシのバランスをとるのに苦労している。 本稿では, ニューロモルフィックデータセットに適したHybrid Step-wise Distillation (HSD)法を提案する。 我々の作業は、イベントフレーム数とSNNの時間ステップ間の依存性を解消し、トレーニング段階ではイベントフレームの数を増やしてパフォーマンスを向上させると同時に、推論段階ではイベントフレームが少ないことでレイテンシを低減します。 それでも、全ての時間ステップの平均SNN出力は、特に非常に低い時間ステップにおいて、異常な出力を持つ個々の時間ステップに影響を受けやすい。 この問題に対処するため,SNNの出力分布の変動を考慮したステップワイズ知識蒸留(SKD)モジュールを実装した。 実験的な証拠は,本手法がニューロモルフィックデータセットの分類タスクにおいて,特に低段階において,競争性能を示すことを示している。 私たちのコードは以下の通りです。

Spiking neural networks (SNNs) have garnered significant attention for their low power consumption and high biological interpretability. Their rich spatio-temporal information processing capability and event-driven nature make them ideally well-suited for neuromorphic datasets. However, current SNNs struggle to balance accuracy and latency in classifying these datasets. In this paper, we propose Hybrid Step-wise Distillation (HSD) method, tailored for neuromorphic datasets, to mitigate the notable decline in performance at lower time steps. Our work disentangles the dependency between the number of event frames and the time steps of SNNs, utilizing more event frames during the training stage to improve performance, while using fewer event frames during the inference stage to reduce latency. Nevertheless, the average output of SNNs across all time steps is susceptible to individual time step with abnormal outputs, particularly at extremely low time steps. To tackle this issue, we implement Step-wise Knowledge Distillation (SKD) module that considers variations in the output distribution of SNNs at each time step. Empirical evidence demonstrates that our method yields competitive performance in classification tasks on neuromorphic datasets, especially at lower time steps. Our code will be available at: {https://github.com/hsw0929/HSD}.
翻訳日:2024-11-07 14:41:29 公開日:2024-09-19
# マルチエージェント市場モデルは、金融市場におけるAIトレーダーの影響を説明できる -- GARCHモデルの新たなマイクロファウンデーション

A Multi-agent Market Model Can Explain the Impact of AI Traders in Financial Markets -- A New Microfoundations of GARCH model ( http://arxiv.org/abs/2409.12516v1 )

ライセンス: Link先を確認
Kei Nakagawa, Masanori Hirano, Kentaro Minami, Takanobu Mizuta, (参考訳) 金融市場のAIトレーダーは、価格形成のメカニズムと市場のボラティリティに大きな関心を惹き付け、市場の安定と規制に関する重要な疑問を提起している。 この関心にもかかわらず、AIトレーダーの具体的な影響を定量的に評価する包括的なモデルはまだ開発されていない。 本研究では,マルチエージェントフレームワークにおける市場価格形成と変動性に対するAIトレーダーの影響をモデル化し,マイクロファウンデーションの概念を活用することにより,このギャップに対処することを目的とする。 マイクロファウンデーションは、個々の経済エージェントの意思決定と相互作用を通じて、市場価格形成のようなマクロ経済現象を理解することを含む。 マクロ経済学では広く知られているが、特に揮発性クラスタリングや脂肪尾といった重要な金融統計特性を捉えたGARCHモデルのようなモデルでは、マイクロファウンデーションのアプローチは経験的ファイナンスでは未解明のままである。 本研究では,GARCHモデルにノイズトレーダー,基本トレーダー,AIトレーダーの3種類のエージェントを組み込んだマルチエージェント市場モデルを提案する。 これらのエージェントのマイクロ構造を数学的に集約することにより、GARCHモデルのマイクロファウンドを確立する。 我々は,このモデルをマルチエージェントシミュレーションにより検証し,金融市場のスタイル化された事実を再現する能力を確認する。 最後に、これらのマイクロファウンデーションから派生したパラメータを用いてAIトレーダーが与える影響を分析し、市場ダイナミクスにおけるその役割についてより深く理解することに貢献した。

The AI traders in financial markets have sparked significant interest in their effects on price formation mechanisms and market volatility, raising important questions for market stability and regulation. Despite this interest, a comprehensive model to quantitatively assess the specific impacts of AI traders remains undeveloped. This study aims to address this gap by modeling the influence of AI traders on market price formation and volatility within a multi-agent framework, leveraging the concept of microfoundations. Microfoundations involve understanding macroeconomic phenomena, such as market price formation, through the decision-making and interactions of individual economic agents. While widely acknowledged in macroeconomics, microfoundational approaches remain unexplored in empirical finance, particularly for models like the GARCH model, which captures key financial statistical properties such as volatility clustering and fat tails. This study proposes a multi-agent market model to derive the microfoundations of the GARCH model, incorporating three types of agents: noise traders, fundamental traders, and AI traders. By mathematically aggregating the micro-structure of these agents, we establish the microfoundations of the GARCH model. We validate this model through multi-agent simulations, confirming its ability to reproduce the stylized facts of financial markets. Finally, we analyze the impact of AI traders using parameters derived from these microfoundations, contributing to a deeper understanding of their role in market dynamics.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# 1兆兆LLMへのFP8トレーニングのスケールアップ

Scaling FP8 training to trillion-token LLMs ( http://arxiv.org/abs/2409.12517v1 )

ライセンス: Link先を確認
Maxim Fishman, Brian Chmiel, Ron Banner, Daniel Soudry, (参考訳) データセットに対して最大2兆トークンのFP8精度を使用して、初めて、大規模な言語モデルをトレーニングします。 これらの拡張トレーニングの実行を通じて、より短い期間で観測できないFP8トレーニングの致命的な不安定さを明らかにした。 我々はこれらの不安定性をSwiGLUアクティベーション関数によって外乱増幅に追従する。 興味深いことに、分析的にも実験的にも、この増幅は長いトレーニング期間でしか起こらず、SwiGLUの重み付けプロセスにリンクしていることが示されています。 Smooth-SwiGLUは,FP8の安定なトレーニングを機能的動作を変えることなく実現する新しい修正である。 また、両AdamオプティマイザモーメントのFP8量子化を初めて示す。 これらのイノベーションを組み合わせることで、256のIntel Gaudi2アクセラレータ上でFP8精度を使用して7Bパラメータモデルをトレーニングし、BF16ベースラインで中間結果を実現し、最大$\sim 34 \%$スループットの改善を実現した。

We train, for the first time, large language models using FP8 precision on datasets up to 2 trillion tokens -- a 20-fold increase over previous limits. Through these extended training runs, we uncover critical instabilities in FP8 training that were not observable in earlier works with shorter durations. We trace these instabilities to outlier amplification by the SwiGLU activation function. Interestingly, we show, both analytically and empirically, that this amplification happens only over prolonged training periods, and link it to a SwiGLU weight alignment process. To address this newly identified issue, we introduce Smooth-SwiGLU, a novel modification that ensures stable FP8 training without altering function behavior. We also demonstrate, for the first time, FP8 quantization of both Adam optimizer moments. Combining these innovations, we successfully train a 7B parameter model using FP8 precision on 256 Intel Gaudi2 accelerators, achieving on-par results with the BF16 baseline while delivering up to a $\sim 34 \%$ throughput improvement.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# 情報検索に基づくフォールトローカライゼーションのための多視点適応型コントラスト学習

Multi-View Adaptive Contrastive Learning for Information Retrieval Based Fault Localization ( http://arxiv.org/abs/2409.12519v1 )

ライセンス: Link先を確認
Chunying Zhou, Xiaoyuan Xie, Gong Chen, Peng He, Bing Li, (参考訳) たいていの研究では、バグレポートやソースコードファイルの表現を構築し、類似度測定によってそれらの意味ベクトルと一致したフォールトローカライゼーションのための情報検索に基づく手法に焦点を当てている。 しかし、そのようなアプローチは、ローカライズ性能を改善するのに役立ついくつかの有用な情報を無視することが多い。 1) バグ報告とソースコードファイルの相互関係 2 バグ報告の類似性関係及び 3)ソースコードファイル間の共引用関係。 本稿では,Multi-View Adaptive Contrastive Learning for Information Retrieval Fault Localization (MACL-IRFL) という手法を提案する。 具体的には、まず、レポート-コード相互作用ビュー、レポート-レポート類似ビュー、コード-コード共引用ビューを別々に生成し、グラフニューラルネットワークを用いて、埋め込みプロセスにおける3つのビューからバグレポートやソースコードファイルの情報を集約する。 さらに,これらの観点から,コントラスト学習を実施している。 コントラスト学習タスクの設計では,バグレポート表現に対して,レポートレポートやレポートコードビューで共有される情報をエンコードし,コードコードやレポートコードビューで共有されるソースコードファイルの表現を強制的に行うことで,補助情報からノイズを緩和する。 最後に、我々のアプローチの性能を評価するために、5つのオープンソースのJavaプロジェクトで広範な実験を行います。 その結果,我々のモデルでは,Accuracy@1,MAP,MRRでそれぞれ28.93%,25.57%,20.35%の改善が可能であった。

Most studies focused on information retrieval-based techniques for fault localization, which built representations for bug reports and source code files and matched their semantic vectors through similarity measurement. However, such approaches often ignore some useful information that might help improve localization performance, such as 1) the interaction relationship between bug reports and source code files; 2) the similarity relationship between bug reports; and 3) the co-citation relationship between source code files. In this paper, we propose a novel approach named Multi-View Adaptive Contrastive Learning for Information Retrieval Fault Localization (MACL-IRFL) to learn the above-mentioned relationships for software fault localization. Specifically, we first generate data augmentations from report-code interaction view, report-report similarity view and code-code co-citation view separately, and adopt graph neural network to aggregate the information of bug reports or source code files from the three views in the embedding process. Moreover, we perform contrastive learning across these views. Our design of contrastive learning task will force the bug report representations to encode information shared by report-report and report-code views,and the source code file representations shared by code-code and report-code views, thereby alleviating the noise from auxiliary information. Finally, to evaluate the performance of our approach, we conduct extensive experiments on five open-source Java projects. The results show that our model can improve over the best baseline up to 28.93%, 25.57% and 20.35% on Accuracy@1, MAP and MRR, respectively.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# 一般化可能な医用画像分割のためのドメイン適応型プロトタイプを用いたプロンプトセグメントモデル

Prompting Segment Anything Model with Domain-Adaptive Prototype for Generalizable Medical Image Segmentation ( http://arxiv.org/abs/2409.12522v1 )

ライセンス: Link先を確認
Zhikai Wei, Wenhui Dong, Peilin Zhou, Yuliang Gu, Zhou Zhao, Yongchao Xu, (参考訳) ディープラーニングベースの手法は、ドメインシフトによって生じるパフォーマンス劣化に悩まされることが多い。 近年,多くの高度なネットワーク構造がこの問題に対処するために設計されている。 しかし、その例外的なセグメンテーション能力を備えた大規模データを用いた大規模モデルの出現は、医療セグメンテーション問題を解決するための新たな視点を導入している。 本稿では,医療画像のセグメント化における単一ソース領域一般化(SDG)に対処するため,Segment Anything Model(DAPSAM)を微調整する新しいDomain-Adaptive Promptフレームワークを提案する。 DAPSAMは、より一般化しやすいアダプタを使用して大きなモデルを微調整するだけでなく、モデルの一般化能力を高めるための自己学習プロトタイプベースのプロンプトジェネレータも導入している。 具体的には、まず、各アダプタに入力する前に、重要な低レベル機能を中間機能にマージし、次に、冗長な情報を除去するアテンションフィルタを用いる。 これにより、より堅牢な画像埋め込みが得られる。 そこで本研究では,学習可能なメモリバンクを用いてドメイン適応型プロトタイプの構築を行い,汎用的な医用画像セグメント化を実現する。 DAPSAMは2つのSDG医用画像分割タスクにおいて,異なるモダリティで最先端の性能を達成できることを実証した。 コードはhttps://github.com/wkklavis/DAPSAMで公開されている。

Deep learning based methods often suffer from performance degradation caused by domain shift. In recent years, many sophisticated network structures have been designed to tackle this problem. However, the advent of large model trained on massive data, with its exceptional segmentation capability, introduces a new perspective for solving medical segmentation problems. In this paper, we propose a novel Domain-Adaptive Prompt framework for fine-tuning the Segment Anything Model (termed as DAPSAM) to address single-source domain generalization (SDG) in segmenting medical images. DAPSAM not only utilizes a more generalization-friendly adapter to fine-tune the large model, but also introduces a self-learning prototype-based prompt generator to enhance model's generalization ability. Specifically, we first merge the important low-level features into intermediate features before feeding to each adapter, followed by an attention filter to remove redundant information. This yields more robust image embeddings. Then, we propose using a learnable memory bank to construct domain-adaptive prototypes for prompt generation, helping to achieve generalizable medical image segmentation. Extensive experimental results demonstrate that our DAPSAM achieves state-of-the-art performance on two SDG medical image segmentation tasks with different modalities. The code is available at https://github.com/wkklavis/DAPSAM.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# RAGチャットボットはユニークな会話を忘れるべきか?

Should RAG Chatbots Forget Unimportant Conversations? Exploring Importance and Forgetting with Psychological Insights ( http://arxiv.org/abs/2409.12524v1 )

ライセンス: Link先を確認
Ryuichi Sumida, Koji Inoue, Tatsuya Kawahara, (参考訳) Retrieval-Augmented Generation (RAG) は長期会話の強化を約束しているが,会話進行に伴う記憶負荷の増加は検索精度を低下させる。 心理的な洞察に基づいて、感情的な記憶を刺激し、会話の10%未満を維持できるシンプルで効果的な方法LUFYを提案する。 ユーザ実験では、参加者は3つのタイプのRAGチャットボットと対話し、それぞれが4セッションで2時間以上、チャットボットの長期的能力(既存のベンチマークの4倍以上)を最も広範囲に評価した。 その結果,会話の大部分を忘れたままの記憶の優先順位付けがユーザエクスペリエンスを著しく向上させることが示された。 本研究は、長期的な会話のフロンティアを推し進め、会話の重要でない部分を忘れることの重要性を強調する。 コードとデータセット:https://github.com/ryuichi-sumida/LUFY

While Retrieval-Augmented Generation (RAG) has shown promise in enhancing long-term conversations, the increasing memory load as conversations progress degrades retrieval accuracy. Drawing on psychological insights, we propose LUFY, a simple yet effective method that focuses on emotionally arousing memories and retains less than 10% of the conversation. In the user experiment, participants interacted with three types of RAG chatbots, each for 2 hours over 4 sessions, marking the most extensive assessment of a chatbot's long-term capabilities to date -- more than four times longer than any existing benchmark. The results demonstrate that prioritizing arousing memories while forgetting the majority of the conversation significantly enhances user experience. This study pushes the frontier of long-term conversations and highlights the importance of forgetting unimportant parts of conversations. Code and Dataset: https://github.com/ryuichi-sumida/LUFY
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# リアプノフ制御による反断熱量子最適化

Lyapunov Controlled Counterdiabatic Quantum Optimization ( http://arxiv.org/abs/2409.12525v1 )

ライセンス: Link先を確認
Pranav Chandarana, Koushik Paul, Kasturi Ranjan Swain, Xi Chen, Adolfo del Campo, (参考訳) 本稿では,組合せ最適化問題に対処するために,逆ダイアバティック(CD)プロトコルと量子リアプノフ制御(QLC)を統合する量子アルゴリズムを提案する。 このアプローチは汎用性を提供し、選択した制御戦略に基づいてデジタルアナログまたは純粋にデジタルアルゴリズムとして実装できる。 スピングラスハミルトニアンを調べた結果,従来のCD手法と比較して解法効果を高めるために,アルゴリズムが代替経路を探索する方法について考察した。 この方法では、広範囲の高階CD用語と古典最適化技術への依存を減らし、既存の量子コンピューティングプラットフォームにもっと適している。 CDプロトコルによるデジタル圧縮とQLC法の適応性の組み合わせは、このアプローチを短期量子コンピューティングの有望な候補と位置づけている。

We introduce a quantum algorithm integrating counterdiabatic (CD) protocols with quantum Lyapunov control (QLC) to tackle combinatorial optimization problems. This approach offers versatility, allowing implementation as either a digital-analog or purely digital algorithm based on selected control strategies. By examining spin-glass Hamiltonians, we illustrate how the algorithm can explore alternative paths to enhance solution outcomes compared to conventional CD techniques. This method reduces the dependence on extensive higher-order CD terms and classical optimization techniques, rendering it more suitable for existing quantum computing platforms. The combination of digital compression via CD protocols and the adaptable nature of QLC methods positions this approach as a promising candidate for near-term quantum computing.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# Denoising Reuse: 効率的なビデオ遅延生成のためのフレーム間運動一貫性の爆発

Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation ( http://arxiv.org/abs/2409.12532v1 )

ライセンス: Link先を確認
Chenyu Wang, Shuo Yan, Yixuan Chen, Yujiang Wang, Mingzhi Dong, Xiaochen Yang, Dongsheng Li, Robert P. Dick, Qin Lv, Fan Yang, Tun Lu, Ning Gu, Li Shang, (参考訳) 拡散モデルを用いたビデオ生成は,フレームワイド反復拡散プロセスにより,高い計算コストで制約される。 本研究は、遅延ビデオ生成を高速化する拡散再利用モード(Dr. Mo)ネットワークを提案する。 私たちのキーとなる発見は、初期のデノナイジングステップにおける粗いきめのノイズが、連続したビデオフレーム間で高い動きの一貫性を示したことです。 この観察の後、Dr. Moはフレーム間の動きを慎重に設計し、フレーム単位の拡散モデルにおける膨大な計算冗長性を排除し、これらの粗粒のノイズを次のフレームに伝播させる。 より感度が高くきめ細かなノイズは、視覚的品質を維持するために不可欠である後続のデノナイジングステップによってまだ取得されている。 したがって、どの中間ステップを動きに基づく伝搬から denoising に切り替えるべきかを判断することは重要な問題であり、効率と品質の主なトレードオフとなる。 モ博士は、ビデオフレーム間の望ましい中間ステップを動的に決定するために、Denoising Step Selector(DSS)というメタネットワークを使用している。 映像生成および編集タスクに関する広範囲な評価の結果,Mo博士は映像品質の向上により,映像タスクにおける拡散モデルを大幅に加速できることがわかった。

Video generation using diffusion-based models is constrained by high computational costs due to the frame-wise iterative diffusion process. This work presents a Diffusion Reuse MOtion (Dr. Mo) network to accelerate latent video generation. Our key discovery is that coarse-grained noises in earlier denoising steps have demonstrated high motion consistency across consecutive video frames. Following this observation, Dr. Mo propagates those coarse-grained noises onto the next frame by incorporating carefully designed, lightweight inter-frame motions, eliminating massive computational redundancy in frame-wise diffusion models. The more sensitive and fine-grained noises are still acquired via later denoising steps, which can be essential to retain visual qualities. As such, deciding which intermediate steps should switch from motion-based propagations to denoising can be a crucial problem and a key tradeoff between efficiency and quality. Dr. Mo employs a meta-network named Denoising Step Selector (DSS) to dynamically determine desirable intermediate steps across video frames. Extensive evaluations on video generation and editing tasks have shown that Dr. Mo can substantially accelerate diffusion models in video tasks with improved visual qualities.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# MambaClinix: 3次元医用画像分割のための階層的ゲート付き畳み込みとMambaベースのU-Net

MambaClinix: Hierarchical Gated Convolution and Mamba-Based U-Net for Enhanced 3D Medical Image Segmentation ( http://arxiv.org/abs/2409.12533v1 )

ライセンス: Link先を確認
Chenyuan Bian, Nan Xia, Xia Yang, Feifei Wang, Fengjiao Wang, Bin Wei, Qian Dong, (参考訳) ディープラーニング、特に畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、3D医療画像セグメンテーションを大幅に進歩させた。 CNNは局所的な特徴を捉えるのに非常に効果的であるが、その制限された受容野は複雑な臨床シナリオにおけるパフォーマンスを阻害する可能性がある。 対照的にTransformerは、長距離依存関係のモデリングに優れていますが、計算集約的であるため、トレーニングやデプロイにコストがかかります。 近年,状態空間モデル(SSM)に基づくMambaアーキテクチャは,線形計算複雑性を維持しつつ,長距離依存を効率的にモデル化する手法として提案されている。 しかし, 医用画像のセグメンテーションへの応用は, 特に臨床領域の正確なデライン化に欠かせない重要な局所的特徴を捉える際の欠点を明らかにする。 本研究では,HGCN(hierarchical gated convolutional network)とMambaを適応的な段階的枠組みで統合した,医用画像セグメンテーションのための新しいU字型アーキテクチャであるMambaClinixを提案する。 この設計により、計算効率と高次空間相互作用が大幅に向上し、医用画像における近位関係と遠位関係の両方を効果的に捉えることができる。 具体的には、HGCNは、トランスフォーマーの注意機構を純粋に畳み込み構造で模倣し、トランスフォーマーベースの手法に典型的な計算複雑性を回避しつつ、特徴写像における高次空間相互作用を容易にするように設計されている。 さらに、領域固有のTversky損失を導入し、特定のピクセル領域を強調し、自動分割性能を改善し、モデルの決定過程を最適化する。 5つのベンチマークデータセットによる実験結果から,提案したMambaClinixは,低モデルの複雑性を維持しつつ高いセグメンテーション精度を実現することが示された。

Deep learning, particularly convolutional neural networks (CNNs) and Transformers, has significantly advanced 3D medical image segmentation. While CNNs are highly effective at capturing local features, their limited receptive fields may hinder performance in complex clinical scenarios. In contrast, Transformers excel at modeling long-range dependencies but are computationally intensive, making them expensive to train and deploy. Recently, the Mamba architecture, based on the State Space Model (SSM), has been proposed to efficiently model long-range dependencies while maintaining linear computational complexity. However, its application in medical image segmentation reveals shortcomings, particularly in capturing critical local features essential for accurate delineation of clinical regions. In this study, we propose MambaClinix, a novel U-shaped architecture for medical image segmentation that integrates a hierarchical gated convolutional network(HGCN) with Mamba in an adaptive stage-wise framework. This design significantly enhances computational efficiency and high-order spatial interactions, enabling the model to effectively capture both proximal and distal relationships in medical images. Specifically, our HGCN is designed to mimic the attention mechanism of Transformers by a purely convolutional structure, facilitating high-order spatial interactions in feature maps while avoiding the computational complexity typically associated with Transformer-based methods. Additionally, we introduce a region-specific Tversky loss, which emphasizes specific pixel regions to improve auto-segmentation performance, thereby optimizing the model's decision-making process. Experimental results on five benchmark datasets demonstrate that the proposed MambaClinix achieves high segmentation accuracy while maintaining low model complexity.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# Deep Probability Segmentation: セグメンテーションモデルは確率推定器か?

Deep Probability Segmentation: Are segmentation models probability estimators? ( http://arxiv.org/abs/2409.12535v1 )

ライセンス: Link先を確認
Simone Fassio, Simone Monaco, Daniele Apiletti, (参考訳) ディープラーニングは、高精度な予測と推定を可能にすることによって、さまざまな分野に革命をもたらした。 1つの重要な応用は確率的予測(probabilistic prediction)であり、モデルが決定論的結果よりも事象の確率を推定する。 このアプローチは特に重要であり、画像の各ピクセルを分類する必要があるセグメンテーションタスクに対しては、まだ探索されていない。 従来のモデルは、しばしばラベルの確率的性質を無視するが、モデルの信頼性と適用性を改善するためには、正確な不確実性推定が不可欠である。 本研究では,キャリブレート確率推定(CaPE)をセグメンテーションタスクに適用し,モデルキャリブレーションへの影響を評価する。 以上の結果から,CaPEはキャリブレーションを向上するが,その効果は分類タスクに比べて顕著に示されず,セグメンテーションモデルが本質的により優れた確率推定を提供する可能性が示唆された。 また, キャリブレーションの有効性に及ぼすデータセットサイズとビン最適化の影響についても検討した。 本研究では,確率推定器としてセグメンテーションモデルの表現力を強調し,確率論的推論を取り入れた。

Deep learning has revolutionized various fields by enabling highly accurate predictions and estimates. One important application is probabilistic prediction, where models estimate the probability of events rather than deterministic outcomes. This approach is particularly relevant and, therefore, still unexplored for segmentation tasks where each pixel in an image needs to be classified. Conventional models often overlook the probabilistic nature of labels, but accurate uncertainty estimation is crucial for improving the reliability and applicability of models. In this study, we applied Calibrated Probability Estimation (CaPE) to segmentation tasks to evaluate its impact on model calibration. Our results indicate that while CaPE improves calibration, its effect is less pronounced compared to classification tasks, suggesting that segmentation models can inherently provide better probability estimates. We also investigated the influence of dataset size and bin optimization on the effectiveness of calibration. Our results emphasize the expressive power of segmentation models as probability estimators and incorporate probabilistic reasoning, which is crucial for applications requiring precise uncertainty quantification.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# ペルソナフロー: LLMを模擬した専門家ペルソナによる研究思想の育成

PersonaFlow: Boosting Research Ideation with LLM-Simulated Expert Personas ( http://arxiv.org/abs/2409.12538v1 )

ライセンス: Link先を確認
Yiren Liu, Pranav Sharma, Mehul Jitendra Oswal, Haijun Xia, Yun Huang, (参考訳) 新たな学際的な研究のアイデアを開発するには、さまざまな分野の専門家による議論とフィードバックが必要となることが多い。 しかし、ドメインの専門家が不足しているため、タイムリーなインプットを得るのは難しい。 大規模言語モデル(LLM)研究の最近の進歩は、LLMを模擬した専門家ペルソナを研究思想に活用する可能性を示している。 本研究では,パーソナシミュレーションを用いたLLMシステムであるPersonaFlowを紹介し,学際的な科学的発見の構想段階を支援する。 その結果,複数のペルソナの使用は,認知負荷を増大させることなく,ユーザの認識した結果の質(例えば,批判の妥当性,研究課題の創造性)を著しく向上させることが示唆された。 また、ユーザのペルソナカスタマイズインタラクションによって、生成したアイデアの制御とリコールの感覚が大幅に向上することが判明した。 本研究は,LLMを模擬した専門家ペルソナを応用し,人間の専門知識が利用できない場合に研究思想を支援するための設計上の意義を考察する。

Developing novel interdisciplinary research ideas often requires discussions and feedback from experts across different domains. However, obtaining timely inputs is challenging due to the scarce availability of domain experts. Recent advances in Large Language Model (LLM) research have suggested the feasibility of utilizing LLM-simulated expert personas to support research ideation. In this study, we introduce PersonaFlow, an LLM-based system using persona simulation to support the ideation stage of interdisciplinary scientific discovery. Our findings indicate that using multiple personas during ideation significantly enhances user-perceived quality of outcomes (e.g., relevance of critiques, creativity of research questions) without increasing cognitive load. We also found that users' persona customization interactions significantly improved their sense of control and recall of generated ideas. Based on the findings, we discuss highlighting ethical concerns, including potential over-reliance and cognitive biases, and suggest design implications for leveraging LLM-simulated expert personas to support research ideation when human expertise is inaccessible.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# 知識蒸留強化拡散モデルによるコーンビームCT画像の品質向上

Improving Cone-Beam CT Image Quality with Knowledge Distillation-Enhanced Diffusion Model in Imbalanced Data Settings ( http://arxiv.org/abs/2409.12539v1 )

ライセンス: Link先を確認
Joonil Hwang, Sangjoon Park, NaHyeon Park, Seungryong Cho, Jin Sung Kim, (参考訳) 放射線治療(RT)において,CT画像は解剖学的変化による課題に遭遇し,適応計画が必要である。 毎日のコーンビームCT(CBCT)画像は、治療調整の要点であり、組織密度の精度が低い。 これを解決するために,CT画像生成のための拡散モデルを統合し,データ合成を正確に制御する。 知識蒸留による自己学習法を応用し, 治療中のCBCTデータを最大化し, 疎対ファンビームCTで補足した。 この戦略は最先端の拡散モデルに組み込まれており、Pix2pixやCycleGANといった従来の手法を超越している。 4200個のCBCTスキャンで補足された2800個のCBCTとCTスキャンの厳密にキュレートされたデータセットは、Brownian Bridge Diffusion Model (BBDM)を含む前処理と教師モデルのトレーニングを受けている。 擬似ラベルCT画像が生成され、5600個のCT画像と対応するCBCT画像を組み合わせたデータセットが生成される。 MSE,SSIM,PSNR,LPIPSを用いた詳細な評価はPix2pixとCycleGANに対して優れた性能を示す。 本手法はRTにおけるCBCTスキャンから高画質CT画像を生成する上で有望であることを示す。

In radiation therapy (RT), the reliance on pre-treatment computed tomography (CT) images encounter challenges due to anatomical changes, necessitating adaptive planning. Daily cone-beam CT (CBCT) imaging, pivotal for therapy adjustment, falls short in tissue density accuracy. To address this, our innovative approach integrates diffusion models for CT image generation, offering precise control over data synthesis. Leveraging a self-training method with knowledge distillation, we maximize CBCT data during therapy, complemented by sparse paired fan-beam CTs. This strategy, incorporated into state-of-the-art diffusion-based models, surpasses conventional methods like Pix2pix and CycleGAN. A meticulously curated dataset of 2800 paired CBCT and CT scans, supplemented by 4200 CBCT scans, undergoes preprocessing and teacher model training, including the Brownian Bridge Diffusion Model (BBDM). Pseudo-label CT images are generated, resulting in a dataset combining 5600 CT images with corresponding CBCT images. Thorough evaluation using MSE, SSIM, PSNR and LPIPS demonstrates superior performance against Pix2pix and CycleGAN. Our approach shows promise in generating high-quality CT images from CBCT scans in RT.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# アルツハイマー病検出のための大規模言語モデル推論による患者トランスクリプトのプロファイリング

Profiling Patient Transcript Using Large Language Model Reasoning Augmentation for Alzheimer's Disease Detection ( http://arxiv.org/abs/2409.12541v1 )

ライセンス: Link先を確認
Chin-Po Chen, Jeng-Lin Li, (参考訳) アルツハイマー病(AD)は認知症の主要な原因であり、徐々に音声や言語能力の低下が特徴である。 近年の深層学習は自発音声によるAD自動検出を容易にする。 しかし, 言語的特徴をグローバルに把握することなく, 各発話中のテキストパターンを直接モデル化し, 識別可能性や解釈可能性に制限が生じる。 大規模言語モデル(LLM)の推論能力は強化されているが、AD検出とモデル解釈を容易にする推論能力を完全に活用する上ではまだギャップが残っている。 そこで本研究では,LLMに基づく推論強化を利用した言語障害属性の体系的抽出による患者レベルの転写プロファイリングフレームワークを提案する。 属性の要約した埋め込みは、AD検出のためのAlbertモデルに統合される。 このフレームワークは、ADReSSデータセットで8.51\% ACCと8.34\% F1の改善を実現している。 以上の結果から,特定言語障害属性の有効性と,AD検出の解釈にLLMを用いることの可能性が示唆された。

Alzheimer's disease (AD) stands as the predominant cause of dementia, characterized by a gradual decline in speech and language capabilities. Recent deep-learning advancements have facilitated automated AD detection through spontaneous speech. However, common transcript-based detection methods directly model text patterns in each utterance without a global view of the patient's linguistic characteristics, resulting in limited discriminability and interpretability. Despite the enhanced reasoning abilities of large language models (LLMs), there remains a gap in fully harnessing the reasoning ability to facilitate AD detection and model interpretation. Therefore, we propose a patient-level transcript profiling framework leveraging LLM-based reasoning augmentation to systematically elicit linguistic deficit attributes. The summarized embeddings of the attributes are integrated into an Albert model for AD detection. The framework achieves 8.51\% ACC and 8.34\% F1 improvements on the ADReSS dataset compared to the baseline without reasoning augmentation. Our further analysis shows the effectiveness of our identified linguistic deficit attributes and the potential to use LLM for AD detection interpretation.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# ナイジェリアのソフトウェアエンジニアかアメリカのデータサイエンティストか? 大規模な言語モデルにおけるGitHubプロファイルのリクルートバイアス

Nigerian Software Engineer or American Data Scientist? GitHub Profile Recruitment Bias in Large Language Models ( http://arxiv.org/abs/2409.12544v1 )

ライセンス: Link先を確認
Takashi Nakano, Kazumasa Shimari, Raula Gaikovina Kula, Christoph Treude, Marc Cheong, Kenichi Matsumoto, (参考訳) 大きな言語モデル(LLM)は、退屈なタスクを自動化するだけでなく、ソフトウェアエンジニアリングタスクの完了にある程度の習熟度を示す能力を示している。 LLMの主な関心事は、内部の働きを曖昧にし、出力に社会的バイアスをもたらす「ブラックボックス」の性質である。 ソフトウェアエンジニアリングの文脈では、この初期の成果論文では、LLMが地理的に多様なソフトウェアチームのための採用タスクをいかに自動化できるかを実証的に検討しています。 OpenAIのChatGPTを使って、4つのリージョンからGitHub User Profileを使って6人のソフトウェア開発チームを募集し、5年間(2019年~2023年)に合計3,657のプロファイルを分析しました。 結果から,ChatGPTは2つのプロファイル(数値)の位置文字列をスワップしても,他の領域よりも好みを示すことがわかった。 さらにChatGPTは、特定の国のユーザに特定の開発者ロールを割り当てる傾向があり、暗黙の偏見が浮かび上がっていた。 本研究は, LLMの内部構造に関する知見を明らかにするとともに, これらのモデルにおける社会的バイアスの軽減に寄与すると考えられる。

Large Language Models (LLMs) have taken the world by storm, demonstrating their ability not only to automate tedious tasks, but also to show some degree of proficiency in completing software engineering tasks. A key concern with LLMs is their "black-box" nature, which obscures their internal workings and could lead to societal biases in their outputs. In the software engineering context, in this early results paper, we empirically explore how well LLMs can automate recruitment tasks for a geographically diverse software team. We use OpenAI's ChatGPT to conduct an initial set of experiments using GitHub User Profiles from four regions to recruit a six-person software development team, analyzing a total of 3,657 profiles over a five-year period (2019-2023). Results indicate that ChatGPT shows preference for some regions over others, even when swapping the location strings of two profiles (counterfactuals). Furthermore, ChatGPT was more likely to assign certain developer roles to users from a specific country, revealing an implicit bias. Overall, this study reveals insights into the inner workings of LLMs and has implications for mitigating such societal biases in these models.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# 効率的な多モード分布アライメントによる大規模言語モデルの知識蒸留の促進

Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment ( http://arxiv.org/abs/2409.12545v1 )

ライセンス: Link先を確認
Tianyu Peng, Jiajun Zhang, (参考訳) 知識蒸留(KD)は、大規模言語モデル(LLM)の内部能力をより小さなものに伝達できる効果的なモデル圧縮手法である。 しかし,教師のLLMが予測するマルチモーダル確率分布は,学生モデルの学習に困難をもたらす。 本稿では,実験とマルチモーダル分布アライメントの重要性を最初に示すとともに,マルチモーダル分布学習における既存のKDアプローチの非効率性を明らかにする。 この問題に対処するために,教師モデルと学生モデル間のピーク予測のランキングの整合性を促進するRLKD( Ranking Loss Based Knowledge Distillation)を提案する。 単語レベルのランキングの損失を組み込むことにより、予測された2つの分布のピークにおける異なるカテゴリ間の詳細な情報を完全に活用しながら、既存の蒸留目標との整合性を確保する。 実験結果から,本手法は教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらすことが示された。

Knowledge distillation (KD) is an effective model compression method that can transfer the internal capabilities of large language models (LLMs) to smaller ones. However, the multi-modal probability distribution predicted by teacher LLMs causes difficulties for student models to learn. In this paper, we first demonstrate the importance of multi-modal distribution alignment with experiments and then highlight the inefficiency of existing KD approaches in learning multi-modal distributions. To address this problem, we propose Ranking Loss based Knowledge Distillation (RLKD), which encourages the consistency of the ranking of peak predictions between the teacher and student models. By incorporating word-level ranking loss, we ensure excellent compatibility with existing distillation objectives while fully leveraging the fine-grained information between different categories in peaks of two predicted distribution. Experimental results demonstrate that our method enables the student model to better learn the multi-modal distributions of the teacher model, leading to a significant performance improvement in various downstream tasks.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# 音に隠れた環境環境のバックドア、ささやきの攻撃と緩和

Hidden in Plain Sound: Environmental Backdoor Poisoning Attacks on Whisper, and Mitigations ( http://arxiv.org/abs/2409.12553v1 )

ライセンス: Link先を確認
Jonatan Bartolini, Todor Stoyanov, Alberto Giaretta, (参考訳) トランスフォーマーベースのモデルの普及により、産業やロボティクスといった様々な分野において、ミッションクリティカルなデバイスが混在する音声認識(SR)が注目を集めている。 トランスフォーマーをベースとしたSRは、ヒューマンマシンのインタフェースを簡素化するための様々な利点を提供するが、これらのモデルのサイバーセキュリティに関する研究は不十分である。 特に、バックドアの毒殺事件。 本稿では,異なる環境トリガの音を異なる長さのフレーズにマッピングする新しい中毒手法を提案する。 我々は、最も人気のあるトランスフォーマーベースのSRモデルであるWhisperで、いくつかのテスト条件下で、攻撃に対して非常に脆弱であることを示す。 本稿では,この攻撃を抑えるため,防衛機構として,最先端音声活動検出(VAD)モデルであるSilero VAD(Silero VAD)について検討する。 実験の結果,VADモデルを用いて悪意のあるトリガをフィルタリングし,攻撃を軽減できることが判明した。

Thanks to the popularisation of transformer-based models, speech recognition (SR) is gaining traction in various application fields, such as industrial and robotics environments populated with mission-critical devices. While transformer-based SR can provide various benefits for simplifying human-machine interfacing, the research on the cybersecurity aspects of these models is lacklustre. In particular, concerning backdoor poisoning attacks. In this paper, we propose a new poisoning approach that maps different environmental trigger sounds to target phrases of different lengths, during the fine-tuning phase. We test our approach on Whisper, one of the most popular transformer-based SR model, showing that it is highly vulnerable to our attack, under several testing conditions. To mitigate the attack proposed in this paper, we investigate the use of Silero VAD, a state-of-the-art voice activity detection (VAD) model, as a defence mechanism. Our experiments show that it is possible to use VAD models to filter out malicious triggers and mitigate our attacks, with a varying degree of success, depending on the type of trigger sound and testing conditions.
翻訳日:2024-11-07 14:30:28 公開日:2024-09-19
# RAD-Bench: 検索拡張対話における大規模言語モデルの評価

RAD-Bench: Evaluating Large Language Models Capabilities in Retrieval Augmented Dialogues ( http://arxiv.org/abs/2409.12558v1 )

ライセンス: Link先を確認
Tzu-Lin Kuo, Feng-Ting Liao, Mu-Wei Hsieh, Fu-Chieh Chang, Po-Chun Hsu, Da-Shan Shiu, (参考訳) LLM(Large Language Models)を用いた実世界のアプリケーションでは、検索・拡張生成(SAG)、ツール利用、検索・拡張生成(RAG)といった外部検索機構が、対話における拡張世代の品質を高めるためにしばしば使用される。 これらのアプローチは、しばしば、外部ソースから取得された関連する情報によって各インタラクションが豊かになるマルチターン対話が伴う。 既存のベンチマークでは、マルチターン対話におけるLLMのチャット能力の評価や、シングルターン設定における拡張応答に対する検索の利用が評価されている。 しかし、複数回にわたるより正確な応答に対して、LLMが検索を活用できる能力を評価するにはギャップがある。 この制限に対処するために, RAD-Bench (Retrieval Augmented Dialogue) というベンチマークを導入する。 RAD-Benchは、検索合成と検索推論の2つの重要な能力を評価する。 これらは、識別的質問や検索されたコンテキスト、およびそれに対応する参照回答を用いて測定され、LLMがいかに効果的に統合され、コンテキストと推論することで、複数回にわたる会話品質の維持と向上を図るかを評価する。 提案手法を用いたLLMの性能評価の結果, 精度の高いコンテキストが提供されても, 会話のターン毎に追加の条件や制約が適用されるため, モデル性能は劣化することが明らかとなった。

In real-world applications with Large Language Models (LLMs), external retrieval mechanisms - such as Search-Augmented Generation (SAG), tool utilization, and Retrieval-Augmented Generation (RAG) - are often employed to enhance the quality of augmented generations in dialogues. These approaches often come with multi-turn dialogue, where each interaction is enriched by relevant information retrieved from external sources. Existing benchmarks either assess LLMs' chat abilities in multi-turn dialogues or their use of retrieval for augmented responses in single-turn settings. However, there is a gap in evaluating LLMs' ability to leverage retrieval for more precise responses across multiple turns. To address this limitation, we introduce RAD-Bench (Retrieval Augmented Dialogue), a benchmark designed to evaluate LLMs' capabilities in multi-turn dialogues following retrievals, essential for their deployment in context-rich applications. RAD-Bench evaluates two key abilities of LLMs: Retrieval Synthesis and Retrieval Reasoning. These are measured using discriminative questions and retrieved contexts, and corresponding reference answers, assessing how effectively LLMs integrate and reason with context to maintain and enhance conversation quality over multiple turns. Our evaluation results on commonly used LLMs reveal that model performance deteriorates as additional layers of conditions or constraints are applied across conversation turns, even when accurate retrieved contexts are provided.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# 計算神経科学における並列微分進化アルゴリズムを用いたモデル校正-ストレッチ誘発神経障害のシミュレーション

Model calibration using a parallel differential evolution algorithm in computational neuroscience: simulation of stretch induced nerve deficit ( http://arxiv.org/abs/2409.12567v1 )

ライセンス: Link先を確認
Antonio LaTorre, Man Ting Kwong, Julián A. García-Grajales, Riyi Shi, Antoine Jérusalem, José-María Peña, (参考訳) 神経損傷は、脳損傷と脊髄損傷の両方の形で、世界中の若者の障害と死の主な原因の1つである。 機械的侮辱後の直接的な損傷を評価する1つの方法は、機械的事象後の神経細胞の機能的障害のシミュレーションである。 本研究では,実験結果に対する校正に必要な自由パラメータを複数有する複合機械電気生理学的モデルを用いて検討した。 キャリブレーションは進化的アルゴリズム (差分進化, DE) を用いて実行され、6つの異なる損傷ケースにおけるパラメータのそれぞれの構成を評価する必要がある。 DEのパラメータチューニングのシミュレーション時間を最小化するために、簡単なトリガ処理による1つのユニークな固定径軸索のストレッチを用いて計算を高速化する。 モデルは、より現実的な独立した軸索のバンドルのパラメータ最適化に利用され、これは単一のプロセッサコンピュータ上で実行するための非現実的な構成である。 そこで我々は,利用可能な計算パワーをすべて活用して,マルチプロセッサ上で動作するOpenMPに基づく並列実装を開発した。 並列DEアルゴリズムは,手動キャリブレーションによって達成される最善を,わずかな時間で達成し,良好な結果が得られる。 実験結果を完全に把握できないが、結果として得られる神経モデルは、束内の徐々に軸索機能の変化をシミュレートできる神経損傷シミュレーションのための複雑な平均化の枠組みを提供する。

Neuronal damage, in the form of both brain and spinal cord injuries, is one of the major causes of disability and death in young adults worldwide. One way to assess the direct damage occurring after a mechanical insult is the simulation of the neuronal cells functional deficits following the mechanical event. In this study, we use a coupled mechanical electrophysiological model with several free parameters that are required to be calibrated against experimental results. The calibration is carried out by means of an evolutionary algorithm (differential evolution, DE) that needs to evaluate each configuration of parameters on six different damage cases, each of them taking several minutes to compute. To minimise the simulation time of the parameter tuning for the DE, the stretch of one unique fixed-diameter axon with a simplified triggering process is used to speed up the calculations. The model is then leveraged for the parameter optimization of the more realistic bundle of independent axons, an impractical configuration to run on a single processor computer. To this end, we have developed a parallel implementation based on OpenMP that runs on a multi-processor taking advantage of all the available computational power. The parallel DE algorithm obtains good results, outperforming the best effort achieved by published manual calibration, in a fraction of the time. While not being able to fully capture the experimental results, the resulting nerve model provides a complex averaging framework for nerve damage simulation able to simulate gradual axonal functional alteration in a bundle.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# InfiMM-WebMath-40B: 拡張数学的推論のためのマルチモーダル事前学習の改善

InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning ( http://arxiv.org/abs/2409.12568v1 )

ライセンス: Link先を確認
Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You, (参考訳) 大規模で高品質なデータセットの事前トレーニングは、特に数学のような専門分野において、LLM(Large Language Models)の推論能力を高めるために不可欠である。 重要視されているにもかかわらず、Multimodal LLMs (MLLMs) フィールドは現在、数学的推論のために特別に設計された、包括的なオープンソース事前トレーニングデータセットを欠いている。 InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。 ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。 データ収集と処理パイプラインの詳細な概要を提供します。 InfiMM-WebMath-40Bのロバスト性を実証するため,テキストのみとマルチモーダルの両方で評価を行った。 テキストのみのベンチマークによる評価では、わずか400億のトークンを使用しても、データセットは1.3Bモデルの性能を大幅に向上させ、同じモデルサイズで1200億のトークンを使用するDeepSeekMath-1.3Bに匹敵する結果をもたらすことが示されている。 それにもかかわらず、我々のモデルはマルチモーダル数学事前学習データセットを導入し、MathVerseやWe-Mathといったマルチモーダル数学ベンチマーク上で、オープンソースのモデルの中で新しい最先端のモデルを構築しました。 データをhttps://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40Bでリリースします。

Pre-training on large-scale, high-quality datasets is crucial for enhancing the reasoning capabilities of Large Language Models (LLMs), especially in specialized domains such as mathematics. Despite the recognized importance, the Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source pre-training dataset specifically designed for mathematical reasoning. To address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of interleaved image-text documents. It comprises 24 million web pages, 85 million associated image URLs, and 40 billion text tokens, all meticulously extracted and filtered from CommonCrawl. We provide a detailed overview of our data collection and processing pipeline. To demonstrate the robustness of InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal settings. Our evaluations on text-only benchmarks show that, despite utilizing only 40 billion tokens, our dataset significantly enhances the performance of our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses 120 billion tokens for the same model size. Nevertheless, with the introduction of our multi-modal math pre-training dataset, our models set a new state-of-the-art among open-source models on multi-modal math benchmarks such as MathVerse and We-Math. We release our data at https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# 5Gネットワークにおけるオーバー・ザ・エア制御チャネルによるスケーラブルかつロバストな移動型フィンガープリント

Scalable and Robust Mobile Activity Fingerprinting via Over-the-Air Control Channel in 5G Networks ( http://arxiv.org/abs/2409.12572v1 )

ライセンス: Link先を確認
Gunwoo Yoon, Byeongdo Hong, (参考訳) 5Gは、パフォーマンス向上を目的としたレガシーネットワークと比較して、オーバー・ザ・エアの制御チャネルアーキテクチャに大きな変化を経験している。 これらの変更は意図せずコントロールチャネルのセキュリティを強化し、攻撃者の無線チャネルの脆弱性を減らした。 しかし, 実験結果から, 物理ダウンリンク制御チャネル (PDCCH) メッセージの10%未満をスニファーを用いて復号化することができた。 この制限されたデータであっても、セルスキャンとターゲットとするモバイルアクティビティトラッキングが実現可能であることを実証する。 このプライバシー攻撃は、アクティブな通信チャネルの数を明らかにし、モバイルアプリケーションとその使用時間を明らかにする。 本稿では,データ損失のあるシナリオにおいても高い性能を維持しつつ,様々なアプリケーションにまたがるスケーラビリティを実現し,手動による特徴抽出の必要性を解消する,効率的なディープラーニングベースのモバイルトラフィック分類手法を提案する。 提案手法の有効性を,オープンソーステストベッドと商用5Gテストベッドの両方を用いて評価し,モバイル・アクティビティ・フィンガープリントとターゲット・アタックの有効性を実証した。 私たちの知る限りでは、PDCCHメッセージを使ってモバイルのアクティビティをオンザエアで追跡する最初の研究である。

5G has undergone significant changes in its over-the-air control channel architecture compared to legacy networks, aimed at enhancing performance. These changes have unintentionally strengthened the security of control channels, reducing vulnerabilities in radio channels for attackers. However, based on our experimental results, less than 10% of Physical Downlink Control Channel (PDCCH) messages could be decoded using sniffers. We demonstrate that even with this limited data, cell scanning and targeted user mobile activity tracking are feasible. This privacy attack exposes the number of active communication channels and reveals the mobile applications and their usage time. We propose an efficient deep learning-based mobile traffic classification method that eliminates the need for manual feature extraction, enabling scalability across various applications while maintaining high performance even in scenarios with data loss. We evaluated the effectiveness of our approach using both an open-source testbed and a commercial 5G testbed, demonstrating the feasibility of mobile activity fingerprinting and targeted attacks. To the best of our knowledge, this is the first study to track mobile activity over-the-air using PDCCH messages.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# フェデレーションストリーミングデータに基づく適応学習のためのDeep Transfer Hashing

Deep Transfer Hashing for Adaptive Learning on Federated Streaming Data ( http://arxiv.org/abs/2409.12575v1 )

ライセンス: Link先を確認
Manuel Röder, Frank-Michael Schleif, (参考訳) この拡張抽象化は、分散予測タスクのための深層移行ハッシュとフェデレート学習の統合を探求し、進化するデータストリームからのリソース効率の高いクライアントトレーニングを強調した。 フェデレートラーニングにより、複数のクライアントがデータのプライバシを維持しながら、共有モデルを共同でトレーニングすることが可能になります。 提案フレームワークは、転送学習、中央サーバ上のディープニューラルネットワークの事前学習、モデル精度と適応性を高めるためのクライアントの微調整を利用する。 プライバシー保護グローバルメモリバンクを用いた選択的ハッシュコード共有機構は、クライアントの微調整をさらにサポートする。 このアプローチは、計算効率とスケーラビリティを改善することによって、過去の研究における課題に対処する。 Car2Xイベント予測では、共有モデルでトラフィックパターンを認識し、トラフィック密度評価や事故検出などのタスクを支援する。 本研究の目的は,フェデレートラーニング,ディープ・トランスファー・ハッシュ,トランスファー・ラーニングを組み合わせて,下流のタスク実行を効率的かつセキュアにするための堅牢なフレームワークを開発することである。

This extended abstract explores the integration of federated learning with deep transfer hashing for distributed prediction tasks, emphasizing resource-efficient client training from evolving data streams. Federated learning allows multiple clients to collaboratively train a shared model while maintaining data privacy - by incorporating deep transfer hashing, high-dimensional data can be converted into compact hash codes, reducing data transmission size and network loads. The proposed framework utilizes transfer learning, pre-training deep neural networks on a central server, and fine-tuning on clients to enhance model accuracy and adaptability. A selective hash code sharing mechanism using a privacy-preserving global memory bank further supports client fine-tuning. This approach addresses challenges in previous research by improving computational efficiency and scalability. Practical applications include Car2X event predictions, where a shared model is collectively trained to recognize traffic patterns, aiding in tasks such as traffic density assessment and accident detection. The research aims to develop a robust framework that combines federated learning, deep transfer hashing and transfer learning for efficient and secure downstream task execution.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# StoryMaker: テキスト・ツー・イメージ・ジェネレーションにおけるホロスティックな一貫性のあるキャラクタを目指して

StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation ( http://arxiv.org/abs/2409.12576v1 )

ライセンス: Link先を確認
Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang, (参考訳) チューニング不要なパーソナライズされた画像生成手法は、顔の一貫性、すなわち複数の文字であってもアイデンティティを維持することに成功している。 しかし、複数のキャラクタを持つシーンにおける全体的一貫性の欠如は、これらの手法が結束的な物語を作る能力を損なう。 本稿では,顔の整合性だけでなく,衣服,髪型,身体の整合性も保持し,一連の画像によるストーリー作成を容易にする,個人化ソリューションであるStoryMakerを紹介する。 StoryMakerは、顔のアイデンティティと、衣服、髪型、体を含むクロップされたキャラクターイメージに基づく条件を取り入れている。 具体的には,PPR(Pightal-aware Perceiver Resampler)を用いて,顔の識別情報を収集した人物画像と統合し,特徴を識別する。 複数文字と背景の混在を防止するため,分割マスクを用いたMSE損失を用いて,異なる文字と背景のクロスアテンション影響領域を別々に制限する。 さらに、ポーズから疎結合を促進するために、ポーズに条件付けされた世代ネットワークを訓練する。 LoRAはまた、忠実さと品質を高めるためにも使用されている。 実験は我々のアプローチの有効性を浮き彫りにした。 StoryMakerは多くのアプリケーションをサポートし、他のソーシャルプラグインと互換性がある。 ソースコードとモデルウェイトはhttps://github.com/RedAIGC/StoryMaker.comで公開されています。

Tuning-free personalized image generation methods have achieved significant success in maintaining facial consistency, i.e., identities, even with multiple characters. However, the lack of holistic consistency in scenes with multiple characters hampers these methods' ability to create a cohesive narrative. In this paper, we introduce StoryMaker, a personalization solution that preserves not only facial consistency but also clothing, hairstyles, and body consistency, thus facilitating the creation of a story through a series of images. StoryMaker incorporates conditions based on face identities and cropped character images, which include clothing, hairstyles, and bodies. Specifically, we integrate the facial identity information with the cropped character images using the Positional-aware Perceiver Resampler (PPR) to obtain distinct character features. To prevent intermingling of multiple characters and the background, we separately constrain the cross-attention impact regions of different characters and the background using MSE loss with segmentation masks. Additionally, we train the generation network conditioned on poses to promote decoupling from poses. A LoRA is also employed to enhance fidelity and quality. Experiments underscore the effectiveness of our approach. StoryMaker supports numerous applications and is compatible with other societal plug-ins. Our source codes and model weights are available at https://github.com/RedAIGC/StoryMaker.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# 純散逸結合のチューニングによるカップリング誘起透明性の創発

Emergence of coupling induced transparency by tuning purely dissipative couplings ( http://arxiv.org/abs/2409.12577v1 )

ライセンス: Link先を確認
Kuldeep Kumar Shrivastava, Moulik Deviprasad Ketkar, Biswanath Bhoi, Rajeev Singh, (参考訳) 結合誘起透明性(CIT)と結合誘起吸収(CIA)の制御された遷移は、基本的重要性と様々なデバイスにおける潜在的な応用の両方の影響である。 我々は,マルチモード結合型ハイブリッド量子系におけるこれらの現象を,チューニング可能なモード (TM) といくつかの静的モード (SM) を考慮して検討した。 個々のSMとTMはCIAを示すように設計されているが、異なるSMを結合するとCIAからCITへの移行が観察される。 純粋に散逸的なカップリングのみを用いてCITを実現することができるのに対して、CITはコヒーレントなカップリングで現れることはよく知られている。 我々は、CIAからCITへの遷移を捉えることができ、また、CIAからCIA、CITからCITへの変換(CITからCIAへの遷移)と、多モードハイブリッド量子システムにおける相互変換(CIAからCIA、CIT、CITなど)を、ただの線形アプローチで説明できる、堅牢な量子理論に基づく形式主義を開発した。 Nモードを持つハイブリッド量子システム向けに汎用モデルを開発した。 次に,2つのハイブリッドシステムの集合を明示的に記述し,第1の集合は3つのモード,第2の集合は3つのモード,第2の集合は4つのモード,第1の集合は3つのモードからなる。 その後、N個のモードを持つハイブリッド量子系に対して一般化した。 この結果は、光のグループ速度を制御し、光スイッチングおよび量子情報技術の分野における潜在的な応用を提供するハイブリッドシステムの設計経路を提供する。 我々の発見と定式化は、単一のハイブリッド量子システムにおいて制御可能な相互遷移とCIT/CIAの内遷移を達成することができ、TM/SMが他の実粒子や準粒子にも十分に拡張できるため、量子技術や量子材料への応用のためのツールとガイダンスを開くことができる。

Controlled transitions between coupling induced transparency (CIT) and coupling induced absorption (CIA) are effects of both fundamental importance as well as potential applications in various devices. We have explored these peculiar phenomena in multi-mode coupled hybrid quantum systems by considering a tunable mode (TM) and several static modes (SMs). The individual SMs and TM are designed such that they show CIA, but upon coupling different SMs we observe a transition from CIA to CIT. Quite remarkably we are able to achieve CIT using only purely dissipative couplings, whereas it is well known that CIT appears with coherent coupling. We have developed a robust quantum theory based formalism which is able to capture the transition between CIA to CIT and have the capability to explain the inter-transition (CIT to CIA) as well as intra-transitions (CIA to CIA, CIT to CIT etc.) in a multimode hybrid quantum system all with just linear approach. A general model is developed for hybrid quantum systems having N modes. We have then explicitly described two sets of hybrid systems, the first set is of three modes, 1TM coupled with 2SMs, and the second set is of four modes, 1TM coupled with 3SMs. Later we have generalised it for hybrid quantum systems having N number of modes. The results provide a pathway for designing hybrid systems that can control the group velocity of light, offering potential applications in the fields of optical switching and quantum information technology. Our finding and formulation that in a single hybrid quantum system we can achieve controllable inter-transitions and intra-transitions of CIT/ CIA may open a tool and guidance for its application in quantum technology and quantum materials as the TMs/SMs may be well extended to other real/ quasi-particles also.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# LLMは、交通理解タスクにおける幻覚を軽減するために、独自の結果を確認することができる

LLMs Can Check Their Own Results to Mitigate Hallucinations in Traffic Understanding Tasks ( http://arxiv.org/abs/2409.12580v1 )

ライセンス: Link先を確認
Malsha Ashani Mahawatta Dona, Beatriz Cabrero-Daniel, Yinan Yu, Christian Berger, (参考訳) 今日のLarge Language Models (LLM)は、単純なテキスト生成から高度な画像処理まで、模範的な機能を示している。 先進運転支援システム(ADAS)や自律運転支援システム(AD)システムにおける認識タスクのサポートなど、LLMがマルチモーダルデータを処理できることを考えると、車内サービスのためにこのようなモデルが現在検討されている。 しかし LLM は、しばしば ''hallucinations'' として知られる、非感覚的または不誠実な情報を生成する。 本稿では、スウェーデンのWaymo Open DatasetとPrePER CITYデータセットの2つのソースから視覚的な自動車データを分析する際に、3つの最先端LCM(GPT-4o, LLaVA, Llama3)による幻覚を見つけるためのSelfCheckGPTの採用を体系的に検討する。 以上の結果より, GPT-4oはLLaVAよりも忠実な画像キャプションを生成するのが得意である。 さらに, 実験結果から, データセット型 (Waymo または PrePER CITY) は, キャプションの品質や幻覚検出の有効性に有意な影響を与えていないことが明らかとなった。 しかし、これらのモデルでは、夜明け、夕暮れ、夜間に比べて、昼間に撮影された画像よりもパフォーマンスが向上した。 以上の結果から,SlfCheckGPTとその適応は,交通関連画像キャプション生成における幻覚のフィルタリングに有効であることが示唆された。

Today's Large Language Models (LLMs) have showcased exemplary capabilities, ranging from simple text generation to advanced image processing. Such models are currently being explored for in-vehicle services such as supporting perception tasks in Advanced Driver Assistance Systems (ADAS) or Autonomous Driving (AD) systems, given the LLMs' capabilities to process multi-modal data. However, LLMs often generate nonsensical or unfaithful information, known as ``hallucinations'': a notable issue that needs to be mitigated. In this paper, we systematically explore the adoption of SelfCheckGPT to spot hallucinations by three state-of-the-art LLMs (GPT-4o, LLaVA, and Llama3) when analysing visual automotive data from two sources: Waymo Open Dataset, from the US, and PREPER CITY dataset, from Sweden. Our results show that GPT-4o is better at generating faithful image captions than LLaVA, whereas the former demonstrated leniency in mislabeling non-hallucinated content as hallucinations compared to the latter. Furthermore, the analysis of the performance metrics revealed that the dataset type (Waymo or PREPER CITY) did not significantly affect the quality of the captions or the effectiveness of hallucination detection. However, the models showed better performance rates over images captured during daytime, compared to during dawn, dusk or night. Overall, the results show that SelfCheckGPT and its adaptation can be used to filter hallucinations in generated traffic-related image captions for state-of-the-art LLMs.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# 一次元位相系における量子同期

Quantum synchronization in one-dimensional topological systems ( http://arxiv.org/abs/2409.12581v1 )

ライセンス: Link先を確認
Tong Liu, (参考訳) 同期現象は、自然科学の様々な領域において、実体が整列した周波数と位相で安定な振動を示す現象である。 マイクロ波通信や信号処理といった複数のアプリケーションにおいて、周波数ロックを実現する上で重要な役割を果たす。 量子系における同期の研究は、特に遠方の物体を同期させる堅牢な方法の開発において大きな関心を集めている。 ここでは、一次元一般化 Aubry-Andr\e-Harper 模型の境界点間の同期が中心点への散逸によって引き起こされることを示す。 トポロジカルエッジ状態に由来する2種類の同期は、境界点間の対角線外あるいは対角線の相関によって特徴づけられる。 バルク散逸による同期と加速を実現するために緩和速度を解析した。 注目すべきは、同期振動は熱力学的限界において安定した振幅と周波数を維持することである。 さらに、同期はハミルトニアン状態と初期状態の摂動に対して堅牢であることを示し、量子ネットワークにおける実践的実装の可能性を強調した。

The phenomenon of synchronization, where entities exhibit stable oscillations with aligned frequencies and phases, has been detected in diverse areas of natural science. It plays a crucial role in achieving frequency locking in multiple applications such as microwave communication and signal processing. The study of synchronization in quantum systems has gained significant interest, particularly in developing robust methods for synchronizing distant objects. Here, we demonstrate that synchronization between the boundary sites of one-dimensional generalized Aubry-Andr\'e-Harper models can be induced through applying dissipation on the central sites. Two types of synchronization, stemming from the topological edge states, are characterized by the off-diagonal or diagonal correlations between the boundary sites. We analyze the relaxation rate to realize the synchronization and its acceleration with bulk dissipation. Remarkably, the synchronous oscillations maintain steady amplitude and frequency in the thermodynamic limit. Moreover, we show that the synchronization is robust against the perturbations in the Hamiltonian and initial states, highlighting its potential for practical implementation in quantum networks.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# 効果的な知識蒸留:教師モデルインサイトによる小言語モデルの活用

Efficient Knowledge Distillation: Empowering Small Language Models with Teacher Model Insights ( http://arxiv.org/abs/2409.12586v1 )

ライセンス: Link先を確認
Mohamad Ballout, Ulf Krumnack, Gunther Heidemann, Kai-Uwe Kühnberger, (参考訳) 実際のアプリケーションデプロイメントのために、小さな言語モデルを拡張することは、研究コミュニティが直面している重要な課題である。 大規模な言語モデルを使用することの困難さとコストのため、研究者はタスク固有の小さなモデルを効果的にデプロイする方法を模索している。 そこで本研究では,小型言語モデルの性能向上を目的とした,シンプルながら効果的な知識蒸留手法を提案する。 提案手法では,約30億のパラメータを持つ教師モデルを用いて,意思決定プロセスにおいて最も影響力のあるトークンを同定する。 これらのトークンは、サリエンシマップのような手法を用いて、出力に対する属性スコアに基づいて入力から抽出される。 これらの重要なトークンは、教師モデルの知識を抽出することを目的として、学生モデルの理論的根拠として提供される。 この方法は、標準的な微調整法と最先端の知識蒸留モデルの両方の改善を示す4つの多様なデータセットで実証されたように、効果的であることが証明されている。 さらに,教師モデルから抽出した重要なトークンを分析し,モデルの成功を説明する。 その結果,68%の症例,特にラベルが回答の一部となっているデータセットでは,抽出されたトークンが真実の1つとなっていることがわかった。

Enhancing small language models for real-life application deployment is a significant challenge facing the research community. Due to the difficulties and costs of using large language models, researchers are seeking ways to effectively deploy task-specific small models. In this work, we introduce a simple yet effective knowledge distillation method to improve the performance of small language models. Our approach utilizes a teacher model with approximately 3 billion parameters to identify the most influential tokens in its decision-making process. These tokens are extracted from the input based on their attribution scores relative to the output, using methods like saliency maps. These important tokens are then provided as rationales to a student model, aiming to distill the knowledge of the teacher model. This method has proven to be effective, as demonstrated by testing it on four diverse datasets, where it shows improvement over both standard fine-tuning methods and state-of-the-art knowledge distillation models. Furthermore, we explore explanations of the success of the model by analyzing the important tokens extracted from the teacher model. Our findings reveal that in 68\% of cases, specifically in datasets where labels are part of the answer, such as multiple-choice questions, the extracted tokens are part of the ground truth.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# Test-Time Augmentationは変分ベイと出会う

Test-Time Augmentation Meets Variational Bayes ( http://arxiv.org/abs/2409.12587v1 )

ライセンス: Link先を確認
Masanari Kimura, Howard Bondell, (参考訳) データ拡張は、機械学習モデルの堅牢性に大きく貢献することが知られている。 ほとんどの場合、トレーニングフェーズでデータ拡張が利用されます。 TTA(Test-Time Augmentation)は、テストフェーズ中にこれらのデータ拡張を活用して、堅牢な予測を実現するテクニックである。 より正確には、TTAはインスタンスの複数のデータ拡張の予測を平均化し、最終的な予測を生成する。 TTAの有効性は実証的に報告されているが、得られた予測性能は、テスト中に使用されるデータ拡張手法のセットに依存することが期待できる。 特に、適用されるデータ拡張方法は、パフォーマンスに異なる貢献をするべきである。 すなわち、TTAで使用されるデータ拡張手法のセットには、コントリビューションの程度が異なっており、予測性能に悪影響を及ぼす可能性がある。 本研究では,TTAの重み付け版について,各データ拡張の貢献に基づいて検討する。 TTAのいくつかの変種は、適切な重み付けを決定する問題を考えることができる。 この重み付けされたTTAの係数の決定は変分ベイズ的枠組みで定式化できることを実証する。 また,限界対数類似度を最大化するための重み付けを最適化することで,テストフェーズにおける不要なデータ増大の候補を抑えることを示す。

Data augmentation is known to contribute significantly to the robustness of machine learning models. In most instances, data augmentation is utilized during the training phase. Test-Time Augmentation (TTA) is a technique that instead leverages these data augmentations during the testing phase to achieve robust predictions. More precisely, TTA averages the predictions of multiple data augmentations of an instance to produce a final prediction. Although the effectiveness of TTA has been empirically reported, it can be expected that the predictive performance achieved will depend on the set of data augmentation methods used during testing. In particular, the data augmentation methods applied should make different contributions to performance. That is, it is anticipated that there may be differing degrees of contribution in the set of data augmentation methods used for TTA, and these could have a negative impact on prediction performance. In this study, we consider a weighted version of the TTA based on the contribution of each data augmentation. Some variants of TTA can be regarded as considering the problem of determining the appropriate weighting. We demonstrate that the determination of the coefficients of this weighted TTA can be formalized in a variational Bayesian framework. We also show that optimizing the weights to maximize the marginal log-likelihood suppresses candidates of unwanted data augmentations at the test phase.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# 時空間データのためのハイブリッドアンサンブル深部グラフ時間クラスタリング

Hybrid Ensemble Deep Graph Temporal Clustering for Spatiotemporal Data ( http://arxiv.org/abs/2409.12590v1 )

ライセンス: Link先を確認
Francis Ndikum Nji, Omar Faruque, Mostafa Cham, Janeja Vandana, Jianwu Wang, (参考訳) 空間的・時間的特徴に基づくサブセットの分類は,空間的・時間的変動に固有の空間的・時間的変動を考慮した時空間データの解析に不可欠である。 単一のクラスタリングアルゴリズムが最適結果を保証することはないため、研究者はアンサンブルアプローチの有効性をますます探求してきた。 アンサンブルクラスタリングは、多様性の向上、一般化の向上、クラスタリング性能の全体的な改善により、多くの注目を集めている。 アンサンブルクラスタリングは単純なデータセット上で有望な結果をもたらすかもしれないが、複雑な多変量時空間データでは十分に研究されていない。 この分野へのコントリビューションのために,多変量時空間データのためのハイブリッドアンサンブル深部グラフ時間クラスタリング(HEDGTC)手法を提案する。 HEDGTCは同種および異種アンサンブル法を統合し、従来のクラスタリングからノイズや誤分類に対処するための二重のコンセンサスアプローチを採用する。 さらに、クラスタリング性能と安定性を向上させるために、グラフアテンションオートエンコーダネットワークを適用している。 3つの実世界の多変量時空間データを用いて評価すると、HEDGTCは、一貫した結果で性能と安定性の向上を示すことにより、最先端のアンサンブルクラスタリングモデルより優れている。 このことは、HEDGTCが複雑な時空間データにおいて暗黙の時間パターンを効果的にキャプチャできることを示唆している。

Classifying subsets based on spatial and temporal features is crucial to the analysis of spatiotemporal data given the inherent spatial and temporal variability. Since no single clustering algorithm ensures optimal results, researchers have increasingly explored the effectiveness of ensemble approaches. Ensemble clustering has attracted much attention due to increased diversity, better generalization, and overall improved clustering performance. While ensemble clustering may yield promising results on simple datasets, it has not been fully explored on complex multivariate spatiotemporal data. For our contribution to this field, we propose a novel hybrid ensemble deep graph temporal clustering (HEDGTC) method for multivariate spatiotemporal data. HEDGTC integrates homogeneous and heterogeneous ensemble methods and adopts a dual consensus approach to address noise and misclassification from traditional clustering. It further applies a graph attention autoencoder network to improve clustering performance and stability. When evaluated on three real-world multivariate spatiotemporal data, HEDGTC outperforms state-of-the-art ensemble clustering models by showing improved performance and stability with consistent results. This indicates that HEDGTC can effectively capture implicit temporal patterns in complex spatiotemporal data.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# LARE:視覚言語モデルを用いた局所埋め込みを用いた潜時拡張

LARE: Latent Augmentation using Regional Embedding with Vision-Language Model ( http://arxiv.org/abs/2409.12597v1 )

ライセンス: Link先を確認
Kosuke Sakurai, Tatsuya Ishii, Ryotaro Shimizu, Linxin Song, Masayuki Goto, (参考訳) 近年、画像データとテキストデータの両方を扱う視覚言語モデルについてかなりの研究が行われており、これらのモデルは「画像関連チャット」や「指示による画像認識」や「視覚的質問」といった様々な下流タスクに応用されている。 Contrastive Language-Image Pre-Training (CLIP) のような視覚言語モデル(VLM)は、言語情報を利用して未知の領域に拡張できる領域適応手法として開発されている高性能な画像分類器である。 しかし、これらのVLMは統合埋め込み空間に単一点として画像を埋め込むため、分類精度が向上する余地がある。 そこで本研究では,VLMが学習した統合埋め込み空間において,画像を領域として埋め込んだLARE(Latent Augmentation using Regional Embedding)を提案する。 この潜伏領域から拡張画像埋め込みをサンプリングすることにより、LAREは特定の未確認領域だけでなく、さまざまな未確認領域へのデータ拡張を可能にする。 LAREは、細いVLMへの拡張画像埋め込みを用いて、領域内および外部の堅牢な画像分類を実現する。 LAREは3つのベンチマークで画像分類精度で従来の微調整モデルより優れていることを示す。 また、LAREは、未確認領域、少量のデータ、不均衡データなど、複数の条件下で有効である、より堅牢で一般的なモデルであることを示す。

In recent years, considerable research has been conducted on vision-language models that handle both image and text data; these models are being applied to diverse downstream tasks, such as "image-related chat," "image recognition by instruction," and "answering visual questions." Vision-language models (VLMs), such as Contrastive Language-Image Pre-training (CLIP), are also high-performance image classifiers that are being developed into domain adaptation methods that can utilize language information to extend into unseen domains. However, because these VLMs embed images as a single point in a unified embedding space, there is room for improvement in the classification accuracy. Therefore, in this study, we proposed the Latent Augmentation using Regional Embedding (LARE), which embeds the image as a region in the unified embedding space learned by the VLM. By sampling the augmented image embeddings from within this latent region, LARE enables data augmentation to various unseen domains, not just to specific unseen domains. LARE achieves robust image classification for domains in and out using augmented image embeddings to fine-tune VLMs. We demonstrate that LARE outperforms previous fine-tuning models in terms of image classification accuracy on three benchmarks. We also demonstrate that LARE is a more robust and general model that is valid under multiple conditions, such as unseen domains, small amounts of data, and imbalanced data.
翻訳日:2024-11-07 14:19:13 公開日:2024-09-19
# チャットGPTとデータセット拡張によるSLMの強化

Enhancing SLM via ChatGPT and Dataset Augmentation ( http://arxiv.org/abs/2409.12599v1 )

ライセンス: Link先を確認
Tom Pieper, Mohamad Ballout, Ulf Krumnack, Gunther Heidemann, Kai-Uwe Kühnberger, (参考訳) 本稿では、自然言語推論(NLI)分野において、ChatGPT-3.5-Turboによる戦略的データセット拡張による小言語モデルの強化について検討する。 知識蒸留技術と合成データセット増強技術を用いて,人間のアノテーションの膨大なコストを伴わずに,大規模言語モデル (LLM) と小言語モデル (SLM) のパフォーマンスギャップを埋めることを目的としている。 提案手法は,情報抽出と情報推論という2種類の理性生成を伴い,ANLIデータセットを充実させる。 次に、これらのデータセット上でT5-Smallを微調整し、確立したベンチマークに対してパフォーマンスを評価します。 これらの結果から, 合成合理化は, 自然言語の理解能力を大幅に向上させ, それぞれ1.3\%と2.3\%の高い分類精度をANLIデータセット上で達成し, LLMをデータセット拡張に活用する可能性を実証した。 このアプローチは、複雑なタスクにおけるより小さなモデルの性能を高めるだけでなく、より小さな言語モデルを微調整するためのコスト効率の高い方法も導入する。 知識蒸留と微調整戦略の理解を深めることで、より有能で効率的なNLPシステムを構築するための継続的な努力に寄与する。

This paper explores the enhancement of small language models through strategic dataset augmentation via ChatGPT-3.5-Turbo, in the domain of Natural Language Inference (NLI). By employing knowledge distillation-based techniques and synthetic dataset augmentation, we aim to bridge the performance gap between large language models (LLMs) and small language models (SLMs) without the immense cost of human annotation. Our methods involve two forms of rationale generation--information extraction and informed reasoning--to enrich the ANLI dataset. We then fine-tune T5-Small on these augmented datasets, evaluating its performance against an established benchmark. Our findings reveal that the incorporation of synthetic rationales significantly improves the model's ability to comprehend natural language, leading to 1.3\% and 2.3\% higher classification accuracy, respectively, on the ANLI dataset, demonstrating the potential of leveraging LLMs for dataset augmentation. This approach not only enhances the performance of smaller models on complex tasks but also introduces a cost-effective method for fine-tuning smaller language models. By advancing our understanding of knowledge distillation and fine-tuning strategies, this work contributes to the ongoing effort to create more capable and efficient NLP systems.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# アクティブビジョンとゼロショット学習による農業環境認識の促進

Enhancing Agricultural Environment Perception via Active Vision and Zero-Shot Learning ( http://arxiv.org/abs/2409.12602v1 )

ライセンス: Link先を確認
Michele Carlo La Greca, Mirko Usuelli, Matteo Matteucci, (参考訳) 農業は人間の耐久の基本であり、前例のない課題に直面している。 効率的で協力的で持続可能な農業方法の必要性はかつてないほど大きくなっていた。 この研究の中心的な貢献は、アクティブビジョン(AV)技術とゼロショット学習(ZSL)を活用して、果実収穫の文脈において、ロボットが農業環境を知覚し、相互作用する能力を向上させることである。 ROS 2で実装されたAV Pipelineは、ダイナミックな3D実行マップを通じて3D環境再構築のためのNext-Best View(NBV)プランニングを統合している。 本システムでは,ロボットアームを動的に設計し,最も情報性の高い視点に移動させ,環境を探索し,ZSLモデルを用いて生成した意味情報を用いて3次元再構成を更新する。 シミュレーションと実世界の実験により,複雑な可視性条件におけるシステムの有効性が示され,従来型および静的な事前定義された計画手法よりも優れていた。 YOLO World + EfficientViT SAMなどのZSLセグメンテーションモデルは、高速な性能と正確なセグメンテーションを示し、微調整プロセスを必要としない未知の農業環境での意味情報を扱う際の柔軟性を提供する。

Agriculture, fundamental for human sustenance, faces unprecedented challenges. The need for efficient, human-cooperative, and sustainable farming methods has never been greater. The core contributions of this work involve leveraging Active Vision (AV) techniques and Zero-Shot Learning (ZSL) to improve the robot's ability to perceive and interact with agricultural environment in the context of fruit harvesting. The AV Pipeline implemented within ROS 2 integrates the Next-Best View (NBV) Planning for 3D environment reconstruction through a dynamic 3D Occupancy Map. Our system allows the robotics arm to dynamically plan and move to the most informative viewpoints and explore the environment, updating the 3D reconstruction using semantic information produced through ZSL models. Simulation and real-world experimental results demonstrate our system's effectiveness in complex visibility conditions, outperforming traditional and static predefined planning methods. ZSL segmentation models employed, such as YOLO World + EfficientViT SAM, exhibit high-speed performance and accurate segmentation, allowing flexibility when dealing with semantic information in unknown agricultural contexts without requiring any fine-tuning process.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# CF-GO-Net:グラフ最適化を用いた特徴関数ネットワークによるユニバーサル分散学習

CF-GO-Net: A Universal Distribution Learner via Characteristic Function Networks with Graph Optimizers ( http://arxiv.org/abs/2409.12610v1 )

ライセンス: Link先を確認
Zeyang Yu, Shengxi Li, Danilo Mandic, (参考訳) 生成モデルは、画像などのデータセットの分布を学習し、統計的に実際のデータに類似したサンプルを生成することを目的としている。 しかし、基礎となる確率分布の学習は非常に困難で難解である。 そこで本研究では,その分布と直接対応する確率的記述子である特徴関数(CF)を用いる手法を提案する。 しかし、確率密度関数(pdf)とは異なり、特徴関数は常に存在するだけでなく、さらなる自由度を与え、学習分布の柔軟性を高める。 これにより、従来のメソッドの適用性を制限するpdfベースの仮定への批判的依存が取り除かれる。 いくつかの研究がCFを生成モデリングに使おうとしているが、訓練プロセスに強い制約を課すことが多い。 対照的に,本手法は制約のない,明確に定義された問題であるCF領域の問合せ点間の距離を計算する。 次に,評価モデルとして重要なサンプリング戦略に対処するため,サンプリングプロセスのためのグラフニューラルネットワーク(GNN)に基づく最適化手法を提案し,CF間の差が最も大きい領域を同定する。 さらに,本手法では,訓練済みのオートエンコーダなどの事前学習モデルを使用することで,パラメータを変更することなく,特徴空間で直接学習することができる。 これは、より広範な適用性と性能向上を提供するだけでなく、生成モデルになる能力を持った潜在空間の世界も備える、フレキシブルで堅牢な生成モデリングアプローチを提供する。

Generative models aim to learn the distribution of datasets, such as images, so as to be able to generate samples that statistically resemble real data. However, learning the underlying probability distribution can be very challenging and intractable. To this end, we introduce an approach which employs the characteristic function (CF), a probabilistic descriptor that directly corresponds to the distribution. However, unlike the probability density function (pdf), the characteristic function not only always exists, but also provides an additional degree of freedom, hence enhances flexibility in learning distributions. This removes the critical dependence on pdf-based assumptions, which limit the applicability of traditional methods. While several works have attempted to use CF in generative modeling, they often impose strong constraints on the training process. In contrast, our approach calculates the distance between query points in the CF domain, which is an unconstrained and well defined problem. Next, to deal with the sampling strategy, which is crucial to model performance, we propose a graph neural network (GNN)-based optimizer for the sampling process, which identifies regions where the difference between CFs is most significant. In addition, our method allows the use of a pre-trained model, such as a well-trained autoencoder, and is capable of learning directly in its feature space, without modifying its parameters. This offers a flexible and robust approach to generative modeling, not only provides broader applicability and improved performance, but also equips any latent space world with the ability to become a generative model.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# リモートセンシング画像変化キャプションにおけるキー変化の知覚の促進

Enhancing Perception of Key Changes in Remote Sensing Image Change Captioning ( http://arxiv.org/abs/2409.12612v1 )

ライセンス: Link先を確認
Cong Yang, Zuchao Li, Hongzan Jiao, Zhi Gao, Lefei Zhang, (参考訳) 近年,リモートセンシング画像のキャプションにおいて顕著な進歩が見られたが,既存の手法では実際の変化とは無関係な領域をフィルタリングすることができず,無関係な特徴に敏感なモデルとなっている。 本稿では,KCFI(Key Change Features and Instruction-tuned)によるリモートセンシング画像のキャプションのための新しいマルチモーダルフレームワークを提案する。 本フレームワークは,大規模言語モデルの内在的知識を視覚的指示を通じて完全に活用することを目的としており,画素レベルの変化検出タスクを用いて,変化特徴の有効性と精度を高めることを目的としている。 具体的には、両時間リモートセンシング画像特徴を抽出するViTsエンコーダと、臨界変化領域を識別するキー特徴知覚器と、キー変更特徴を制約する画素レベル変化検出デコーダと、大きな言語モデルに基づく命令調整デコーダとを含む。 さらに、変更記述と変更検出タスクが協調的に最適化されることを保証するため、この2つのタスク間の損失のバランスをとるために、動的な重み付き戦略を採用する。 また、視覚的な微調整命令のための様々な機能の組み合わせについても検討し、大きな言語モデルを導くために重要な変更機能のみを使用することが最適な選択であることを示す。 提案手法の有効性を検証するため,LEVIR-CCデータセット上のいくつかの最新の変更キャプション手法と比較し,最高の性能を実現した。 私たちのコードはhttps://github.com/yangcong356/KCFI.gitで公開されます。

Recently, while significant progress has been made in remote sensing image change captioning, existing methods fail to filter out areas unrelated to actual changes, making models susceptible to irrelevant features. In this article, we propose a novel multimodal framework for remote sensing image change captioning, guided by Key Change Features and Instruction-tuned (KCFI). This framework aims to fully leverage the intrinsic knowledge of large language models through visual instructions and enhance the effectiveness and accuracy of change features using pixel-level change detection tasks. Specifically, KCFI includes a ViTs encoder for extracting bi-temporal remote sensing image features, a key feature perceiver for identifying critical change areas, a pixel-level change detection decoder to constrain key change features, and an instruction-tuned decoder based on a large language model. Moreover, to ensure that change description and change detection tasks are jointly optimized, we employ a dynamic weight-averaging strategy to balance the losses between the two tasks. We also explore various feature combinations for visual fine-tuning instructions and demonstrate that using only key change features to guide the large language model is the optimal choice. To validate the effectiveness of our approach, we compare it against several state-of-the-art change captioning methods on the LEVIR-CC dataset, achieving the best performance. Our code will be available at https://github.com/yangcong356/KCFI.git.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# 並列計測による試料高効率量子状態トモグラフィ

Experimental sample-efficient quantum state tomography via parallel measurements ( http://arxiv.org/abs/2409.12614v1 )

ライセンス: Link先を確認
Chang-Kang Hu, Chao Wei, Chilong Liu, Liangyu Che, Yuxuan Zhou, Guixu Xie, Haiyang Qin, Guantian Hu, Haolan Yuan, Ruiyang Zhou, Song Liu, Dian Tan, Tao Xin, Dapeng Yu, (参考訳) 還元密度行列(LQST)の局所測定による量子状態トモグラフィ(QST)は有望なアプローチであるが、大規模システムでは実用的ではない。 この課題に対処するために、並列測定(PQST)を用いた量子重畳トモグラフィー(Phys. Rev. 124, 100401(2020))]に着想を得た効率的な量子状態トモグラフィー法を開発した。 LQSTとは対照的に、PQSTは測定回数を大幅に削減し、ショットノイズに対してより堅牢性を提供する。 実験により、高効率回路を設計し、W状態、ハミルトン状態およびランダム状態の基底状態を作成し、フル量子状態トモグラフィー(FQST)、LQST、PQSTを用いてこれらの密度行列を再構成することにより、木状超伝導量子ビットチップにおけるPQSTの実現可能性を示す。 以上の結果から,PQSTは測定コストを低減し,75および99の観測可能な6キュービットおよび9キュービットのW状態の忠実度を98.68\%,95.07\%とした。 さらに、12量子W状態の最大の密度行列の再構成は、243$並列観測可能度を測った後に89.23\%の類似性で達成され、FQSTには3^{12}=531441$完全観測可能度が必要である。 その結果、PQSTは、状態の再構築、評価、ベンチマーク、プロパティ学習といった将来のタスクに有用なツールとなる。

Quantum state tomography (QST) via local measurements on reduced density matrices (LQST) is a promising approach but becomes impractical for large systems. To tackle this challenge, we developed an efficient quantum state tomography method inspired by quantum overlapping tomography [Phys. Rev. Lett. 124, 100401(2020)], which utilizes parallel measurements (PQST). In contrast to LQST, PQST significantly reduces the number of measurements and offers more robustness against shot noise. Experimentally, we demonstrate the feasibility of PQST in a tree-like superconducting qubit chip by designing high-efficiency circuits, preparing W states, ground states of Hamiltonians and random states, and then reconstructing these density matrices using full quantum state tomography (FQST), LQST, and PQST. Our results show that PQST reduces measurement cost, achieving fidelities of 98.68\% and 95.07\% after measuring 75 and 99 observables for 6-qubit and 9-qubit W states, respectively. Furthermore, the reconstruction of the largest density matrix of the 12-qubit W state is achieved with the similarity of 89.23\% after just measuring $243$ parallel observables, while $3^{12}=531441$ complete observables are needed for FQST. Consequently, PQST will be a useful tool for future tasks such as the reconstruction, characterization, benchmarking, and properties learning of states.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# 後部分布を有するヘテロセダスティックガウス過程の理論解析

Theoretical Analysis of Heteroscedastic Gaussian Processes with Posterior Distributions ( http://arxiv.org/abs/2409.12622v1 )

ライセンス: Link先を確認
Yuji Ito, (参考訳) 本研究では、未知のシステムをデータ駆動方式で識別するヘテロセダスティックガウス過程(HGP)を解析するための新しい理論的枠組みを提案する。 HGPは複雑な訓練データセットにおけるノイズの不均一性に効果的に対処するが、これらの分布はもはや多変量正規ではないため、HGPの正確な後部分布を計算することは困難である。 本研究は, 後方分布の正確な方法, ばらつき, 累積分布を導出する。 さらに、推定された理論的知見を、確率制約付きトラッキングコントローラに適用する。 HGPがプラントシステム内の未知の障害を特定した後、制御器は障害の有無に関わらず、システムに関するチャンス制約を処理できる。

This study introduces a novel theoretical framework for analyzing heteroscedastic Gaussian processes (HGPs) that identify unknown systems in a data-driven manner. Although HGPs effectively address the heteroscedasticity of noise in complex training datasets, calculating the exact posterior distributions of the HGPs is challenging, as these distributions are no longer multivariate normal. This study derives the exact means, variances, and cumulative distributions of the posterior distributions. Furthermore, the derived theoretical findings are applied to a chance-constrained tracking controller. After an HGP identifies an unknown disturbance in a plant system, the controller can handle chance constraints regarding the system despite the presence of the disturbance.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# クラスタリングモデルの非現実的説明

Counterfactual Explanations for Clustering Models ( http://arxiv.org/abs/2409.12632v1 )

ライセンス: Link先を確認
Aurora Spagnol, Kacper Sokol, Pietro Barbiero, Marc Langheinrich, Martin Gjoreski, (参考訳) クラスタリングアルゴリズムは、理解が難しい複雑な最適化プロセスに依存している。 教師なし機械学習には説明可能な人工知能技術が数多く存在するが、教師なし学習(特にクラスタリング)はほとんど無視されている。 さらに問題を複雑にするために、 'true' クラスタの概念は本質的に定義するのが困難である。 これらの教師なし学習の側面とその説明可能性は、そのような手法への信頼を育み、採用を縮小させることを困難にしている。 これらの課題に対処するために,本研究では,クラスタリングアルゴリズムを対実的ステートメントで説明するための,モデルに依存しない新しい手法を提案する。 提案手法は,クラスタリングモデルを用いて空間情報をキャプチャするソフトスコーリング手法に依存する。 最先端のベイズ製カウンターファクト・ジェネレータをベースとして、教師付き学習で高品質な説明を提供する。 我々は,5つのデータセットと2つのクラスタリングアルゴリズムの性能を評価し,正解探索を導くためのソフトスコアの導入により,結果が大幅に改善されることを実証した。

Clustering algorithms rely on complex optimisation processes that may be difficult to comprehend, especially for individuals who lack technical expertise. While many explainable artificial intelligence techniques exist for supervised machine learning, unsupervised learning -- and clustering in particular -- has been largely neglected. To complicate matters further, the notion of a ``true'' cluster is inherently challenging to define. These facets of unsupervised learning and its explainability make it difficult to foster trust in such methods and curtail their adoption. To address these challenges, we propose a new, model-agnostic technique for explaining clustering algorithms with counterfactual statements. Our approach relies on a novel soft-scoring method that captures the spatial information utilised by clustering models. It builds upon a state-of-the-art Bayesian counterfactual generator for supervised learning to deliver high-quality explanations. We evaluate its performance on five datasets and two clustering algorithms, and demonstrate that introducing soft scores to guide counterfactual search significantly improves the results.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# 自己教師型音声エンコーダにおけるコウモリの音節表現の探索

Exploring bat song syllable representations in self-supervised audio encoders ( http://arxiv.org/abs/2409.12634v1 )

ライセンス: Link先を確認
Marianne de Heer Kloots, Mirjam Knörnschild, (参考訳) 人間の生み出す音で訓練された深層学習モデルは、他の種の発声タイプとどのように区別できるのか? 本研究では, コウモリの音節の符号化を複数の自己教師型音声エンコーダで解析し, 人間の発話に事前学習したモデルが, 異なる音節の表現の最も独特な表現を生成することを発見した。 これらの知見は、コウモリの生体音響学における異種間伝達学習の応用への第一歩となり、オーディオエンコーダモデルにおける分布外信号処理の理解が向上した。

How well can deep learning models trained on human-generated sounds distinguish between another species' vocalization types? We analyze the encoding of bat song syllables in several self-supervised audio encoders, and find that models pre-trained on human speech generate the most distinctive representations of different syllable types. These findings form first steps towards the application of cross-species transfer learning in bat bioacoustics, as well as an improved understanding of out-of-distribution signal processing in audio encoder models.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# EFA-YOLO:火災・火災検知のための効率的な特徴注意モデル

EFA-YOLO: An Efficient Feature Attention Model for Fire and Flame Detection ( http://arxiv.org/abs/2409.12635v1 )

ライセンス: Link先を確認
Weichao Pan, Xu Wang, Wenqing Huan, (参考訳) 急激で破壊的な自然災害として、火は人間社会や生態環境に大きな脅威を与えてきた。 近年,スマートシティとモノのインターネット(IoT)技術の急速な発展に伴い,ディープラーニングに基づく火災検知システムが,火災の危険に対処するための重要な手段になりつつある。 しかし、既存の火災検知モデルは、複雑な状況下での検知精度とリアルタイム性能に関して、まだ多くの課題を抱えている。 これらの問題に対処するために、EAConv(Efficient Attention Downsampling)とEADown(Efficient Attention Downsampling)という2つの重要なモジュールを提案します。 EAConvモジュールは、効率的な注意機構と深度分離可能な畳み込みを組み合わせることで、特徴抽出効率を著しく向上する一方、EADownモジュールは、スプーリング操作と組み合わせて空間的及びチャネル的注意機構を利用することで、機能ダウンサンプリングの精度と効率を向上させる。 これら2つのモジュールに基づいて,効率的な軽量火炎検出モデル EFA-YOLO (Efficient Feature Attention YOLO) を設計した。 実験の結果、EFA-YOLOは1.4M, GFLOPs 4.6のモデルパラメータ量しか持たず、CPU上の画像当たりの推論時間は22.19msであり、既存の主流モデル(例:YOLOv5, YOLOv8, YOLOv9, YOLOv10)と比較して、EFA-YOLOは検出精度(mAP)と推論速度を著しく向上し、モデルパラメータ量は94.6に減少し、推論速度は88倍に向上した。

As a natural disaster with high suddenness and great destructiveness, fire has long posed a major threat to human society and ecological environment. In recent years, with the rapid development of smart city and Internet of Things (IoT) technologies, fire detection systems based on deep learning have gradually become a key means to cope with fire hazards. However, existing fire detection models still have many challenges in terms of detection accuracy and real-time performance in complex contexts. To address these issues, we propose two key modules: EAConv (Efficient Attention Convolution) and EADown (Efficient Attention Downsampling). The EAConv module significantly improves the feature extraction efficiency by combining an efficient attention mechanism with depth-separable convolution, while the EADown module enhances the accuracy and efficiency of feature downsampling by utilizing spatial and channel attention mechanisms in combination with pooling operations. Based on these two modules, we design an efficient and lightweight flame detection model, EFA-YOLO (Efficient Feature Attention YOLO). Experimental results show that EFA-YOLO has a model parameter quantity of only 1.4M, GFLOPs of 4.6, and the inference time per image on the CPU is only 22.19 ms. Compared with existing mainstream models (e.g., YOLOv5, YOLOv8, YOLOv9, and YOLOv10), EFA-YOLO exhibits a significant enhancement in detection accuracy (mAP) and inference speed, with model parameter amount is reduced by 94.6 and the inference speed is improved by 88 times.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# 半超解像GANによる劣化画像の画像処理

Image inpainting for corrupted images by using the semi-super resolution GAN ( http://arxiv.org/abs/2409.12636v1 )

ライセンス: Link先を確認
Mehrshad Momen-Tayefeh, Mehrdad Momen-Tayefeh, Amir Ali Ghafourian Ghahramani, (参考訳) 画像インペイントは、破損した画像を強化するための貴重な技術である。 この研究の主な課題は、ディープラーニングモデルが復元しなければならない入力画像の腐敗の程度についてである。 この課題に対処するために、欠落したピクセルを学習・複製するためのGAN(Generative Adversarial Network)を導入する。 さらに、我々はSemi-SRGAN (SSRGAN) と呼ばれる超解像GAN (SRGAN) の別変種を開発した。 さらに,提案モデルのロバスト性と精度を評価するために,3つの多様なデータセットを利用した。 我々のトレーニングプロセスは、最適な精度を達成し、高品質な画像を生成するために、様々なレベルの画素破壊を伴います。

Image inpainting is a valuable technique for enhancing images that have been corrupted. The primary challenge in this research revolves around the extent of corruption in the input image that the deep learning model must restore. To address this challenge, we introduce a Generative Adversarial Network (GAN) for learning and replicating the missing pixels. Additionally, we have developed a distinct variant of the Super-Resolution GAN (SRGAN), which we refer to as the Semi-SRGAN (SSRGAN). Furthermore, we leveraged three diverse datasets to assess the robustness and accuracy of our proposed model. Our training process involves varying levels of pixel corruption to attain optimal accuracy and generate high-quality images.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# 局所散逸状態における量子多体状態は有限時間で解離する

Any Quantum Many-Body State under Local Dissipation will be Disentangled in Finite Time ( http://arxiv.org/abs/2409.12639v1 )

ライセンス: Link先を確認
Zongping Gong, Yuto Ashida, (参考訳) 遺伝的局所散逸の下での量子多スピン状態は、システムサイズに依存しない有限時間後に完全に分離可能であることを証明した。 このような多体絡み合いの突然の死は、有限減衰ギャップが存在し、一意の定常密度行列がフルランクであることから、普遍的に起こる。 この結果は、ランダムな測定と量子チャネルの収束バウンドに基づく状態再構成IDを組み合わせることによって、厳密に導出される。 関連研究や一般化の可能性についても論じる。

We prove that any quantum many-spin state under genetic local dissipation will be fully separable after a finite time independent of the system size. Such a sudden death of many-body entanglement occurs universally provided that there is a finite damping gap and the unique steady-state density matrix is of full rank. This result is rigorously derived by combining a state-reconstruction identity based on random measurements and the convergence bound for quantum channels. Related works and possible generalizations are also discussed.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# 表層機械学習の逆攻撃戦略としての深部生成モデル

Deep generative models as an adversarial attack strategy for tabular machine learning ( http://arxiv.org/abs/2409.12642v1 )

ライセンス: Link先を確認
Salijona Dyrmishi, Mihaela Cătălina Stoian, Eleonora Giunchiglia, Maxime Cordy, (参考訳) Deep Generative Models (DGM) は、機械学習(ML)システムの堅牢性をテストするための逆例を生成するコンピュータビジョンに応用されている。 これらの逆方向の手法を表型MLに拡張することは、表型データの異なる性質と、逆方向の例におけるドメイン制約を維持する必要性から、ユニークな課題を提示する。 本稿では,4つの人気の表形式DGMを逆DGM(AdvDGM)に適応させ,ドメイン制約に適合した実例を生成する上での有効性を評価する。

Deep Generative Models (DGMs) have found application in computer vision for generating adversarial examples to test the robustness of machine learning (ML) systems. Extending these adversarial techniques to tabular ML presents unique challenges due to the distinct nature of tabular data and the necessity to preserve domain constraints in adversarial examples. In this paper, we adapt four popular tabular DGMs into adversarial DGMs (AdvDGMs) and evaluate their effectiveness in generating realistic adversarial examples that conform to domain constraints.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# コヒーレント光リンクを用いた超高ひずみダイヤモンドスピンレジスタ

Ultra-high strained diamond spin register with coherent optical link ( http://arxiv.org/abs/2409.12645v1 )

ライセンス: Link先を確認
Marco Klotz, Andreas Tangemann, Alexander Kubanek, (参考訳) ダイヤモンドの色中心のような固体スピン欠陥は、スケーラブルで統合された量子技術にとって最も有望な候補である。 特に、ダイヤモンド中のケイ素空孔中心の優れた光学的性質は、自然に発生し、並外れたコヒーレントな核スピンと組み合わせることで、量子ネットワークアプリケーションのためのビルディングブロックとして機能する。 ここでは,超高ひずみシリコン空洞をナノダイアモンド内で利用することにより,液体ヘリウム温度でフォノンによる劣化を緩和しつつ,電子スピンのコヒーレントかつ効率的に制御できることを示す。 さらに,13C核スピンを間接的に制御し,量子レジスタを確立する。 単発核スピン読み込みを実装することで、限定的な核スピン初期化を克服する。 最後に、GHzレートでコヒーレントな光制御を実証し、そのレジスタを光領域に接続する。 我々の研究は、将来量子ネットワークレジスタを従来の、確立されたフォトニクスとハイブリッド量子通信システムに統合するための道を開く。

Solid-state spin defects, such as color centers in diamond, are among the most promising candidates for scalable and integrated quantum technologies. In particular, the good optical properties of silicon-vacancy centers in diamond combined with naturally occurring and exceptionally coherent nuclear spins serve as a building block for quantum networking applications. Here, we show that leveraging an ultra-high strained silicon-vacancy center inside a nanodiamond allows us to coherently and efficiently control its electron spin, while mitigating phonon-induced dephasing at liquid helium temperature. Moreover, we indirectly control and characterize a 13C nuclear spin and establish a quantum register. We overcome limited nuclear spin initialization by implementing single-shot nuclear spin readout. Lastly, we demonstrate coherent optical control with GHz rates, thus connecting the register to the optical domain. Our work paves the way for future integration of quantum network registers into conventional, well-established photonics and hybrid quantum communication systems.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# レコメンダシステムにおける公正性、バイアス、脅威、プライバシに関する深い研究:洞察と今後の研究

A Deep Dive into Fairness, Bias, Threats, and Privacy in Recommender Systems: Insights and Future Research ( http://arxiv.org/abs/2409.12651v1 )

ライセンス: Link先を確認
Falguni Roy, Xiaofeng Ding, K. -K. R. Choo, Pan Zhou, (参考訳) レコメンダシステムは、eコマースサイト、ストリーミングサービス、ソーシャルメディアプラットフォーム上でのデジタル体験をパーソナライズするために不可欠である。 これらのシステムは現代のデジタルインタラクションには必要だが、公平さ、バイアス、脅威、プライバシーの問題に直面している。 推薦システムにおけるバイアスは、特定のユーザやアイテムグループを不公平に扱うことができ、公平性に関する懸念は、すべてのユーザやアイテムに対して適切なレコメンデーションを要求することである。 これらのシステムは、信頼性とセキュリティを損なう様々な脅威にも脆弱である。 さらに、プライバシー上の問題は、個人情報を広範囲に使用することによるものであり、ユーザー情報を保護するための堅牢な保護メカニズムを持つことが重要である。 本研究では,推薦システムにおける公正性,バイアス,脅威,プライバシについて検討する。 アルゴリズムによる決定が、意図せずバイアスを補強したり、特定のユーザやアイテムグループを疎外したりする方法について検討し、公正な推奨戦略の必要性を強調している。 この研究はまた、システムの完全性を損なうような攻撃の形での脅威の範囲を調べ、高度なプライバシー保護技術について議論している。 これらの重要な領域に対処することで、この研究は現在の限界を強調し、リコメンダシステムの堅牢性、公正性、プライバシを改善するための今後の研究方向性を提案する。 究極的には、この研究は多様なユーザー層によりよい信頼性と倫理的推薦システムの開発を支援することを目的としている。

Recommender systems are essential for personalizing digital experiences on e-commerce sites, streaming services, and social media platforms. While these systems are necessary for modern digital interactions, they face fairness, bias, threats, and privacy challenges. Bias in recommender systems can result in unfair treatment of specific users and item groups, and fairness concerns demand that recommendations be equitable for all users and items. These systems are also vulnerable to various threats that compromise reliability and security. Furthermore, privacy issues arise from the extensive use of personal data, making it crucial to have robust protection mechanisms to safeguard user information. This study explores fairness, bias, threats, and privacy in recommender systems. It examines how algorithmic decisions can unintentionally reinforce biases or marginalize specific user and item groups, emphasizing the need for fair recommendation strategies. The study also looks at the range of threats in the form of attacks that can undermine system integrity and discusses advanced privacy-preserving techniques. By addressing these critical areas, the study highlights current limitations and suggests future research directions to improve recommender systems' robustness, fairness, and privacy. Ultimately, this research aims to help develop more trustworthy and ethical recommender systems that better serve diverse user populations.
翻訳日:2024-11-07 14:08:12 公開日:2024-09-19
# 高次元Dunkl-Schrodinger方程式

Dunkl-Schrodinger Equation in Higher Dimension ( http://arxiv.org/abs/2409.12653v1 )

ライセンス: Link先を確認
B. Hamil, B. C. Lütfüoğlu, M. Merad, (参考訳) 本稿では、より高次元のシュリンガー方程式の固有値と固有関数に対する解析解について、ダンクル作用素を取り入れて述べる。 2つの基本的な量子力学的問題は、d次元調和振動子とクーロンポテンシャルの2つの正確な形式で検討されている。 これらの問題に対する解析解を得るためには、カルト座標系と極座標系の両方が用いられた。 まずDunkl-Schr\"odinger方程式はd-次元カルテシアン座標から導出され、それから等方的調和ポテンシャル相互作用に対してその解が与えられる。 その後、極座標を用いてダンクル・シュル「オーディンガー方程式」の角部と半径部を求める。 この系は、両方の座標系における変数の分離を許容し、結果としてラゲール多項式とヤコビ多項式で表される分離解が示される。 そして、等方性調和、擬調和、クーロンポテンシャルを用いて放射状ダンクル・シュル「オーディンガー方程式」を解く。 各ケースに対して固有状態と固有値を求め、エネルギー固有値関数の振舞いを、確率密度の低減とともに図示する。

This paper presents analytical solutions for eigenvalues and eigenfunctions of the Schr\"odinger equation in higher dimensions, incorporating the Dunkl operator. Two fundamental quantum mechanical problems are examined in their exact forms: the d-dimensional harmonic oscillator and the Coulomb potential. In order to obtain analytical solutions to these problems, both Cartesian and polar coordinate systems were employed. Firstly, the Dunkl-Schr\"odinger equation is derived in d-dimensional Cartesian coordinates, and then for the isotropic harmonic potential interaction, its solutions are given. Subsequently, using polar coordinates the angular and radial parts of the Dunkl-Schr\"odinger equation are obtained. It is demonstrated that the system permits the separation of variables in both coordinate systems, with the resulting separated solutions expressed through Laguerre and Jacobi polynomials. Then, the radial Dunkl-Schr\"odinger equation is solved using the isotropic harmonic, pseudoharmonic, and Coulomb potentials. The eigenstates and eigenvalues are obtained for each case and the behavior of the energy eigenvalue functions are illustrated graphically with the reduced probability densities.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# Dunkl-Klein-Gordon方程式の高次元への応用

Dunkl-Klein-Gordon Equation in Higher Dimensions ( http://arxiv.org/abs/2409.12655v1 )

ライセンス: Link先を確認
B. Hamil, B. C. Lütfüoğlu, M. Merad, (参考訳) 本研究では、クライン=ゴルドン方程式の標準偏微分をダンクル微分に置き換え、高次元におけるダンクル=クライン=ゴルドン方程式の固有値と固有関数の正確な解析解を得る。 この定式化を、d次元調和振動子とクーロンポテンシャルの2つの重要な量子力学系に適用する。 まず、d-次元極座標にダンクル量子力学を導入し、続いてd-次元ダンクル-クライン-ゴルドン振動子の解析を行う。 その後、収束超幾何関数を用いて表現されるエネルギースペクトルと固有関数を導出する。 さらに、ダンクル形式が固有値と固有関数の両方に与える影響を検討する。 第2のケースでは、クーロンポテンシャルを持つダンクル・クライン・ゴルドン方程式の有界解と散乱シナリオについて検討する。 境界状態解は収束超幾何関数で表され、散乱状態はボゴリボフ変換法を用いて粒子生成密度と確率を計算することができる。

In this study, we replace the standard partial derivatives in the Klein-Gordon equation with Dunkl derivatives and obtain exact analytical solutions for the eigenvalues and eigenfunctions of the Dunkl-Klein-Gordon equation in higher dimensions. We apply this formalism to two key quantum mechanical systems: the d-dimensional harmonic oscillator and the Coulomb potential. First, we introduce Dunkl quantum mechanics in d-dimensional polar coordinates, followed by an analysis of the d-dimensional Dunkl-Klein-Gordon oscillator. Subsequently, we derive the energy spectrum and eigenfunctions, which are expressed using confluent hypergeometric functions. Furthermore, we examine the impact of the Dunkl formalism on both the eigenvalues and eigenfunctions. In the second case, we explore both the bound-state solutions and scattering scenarios of the Dunkl-Klein-Gordon equation with the Coulomb potential. The bound-state solutions are represented in terms of confluent hypergeometric functions, while the scattering states enable us to compute the particle creation density and probability using the Bogoliubov transformation method.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# 効率的なパフォーマンストラッキング - 科学的リーダーボード構築自動化のための大規模言語モデルを活用する

Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards ( http://arxiv.org/abs/2409.12656v1 )

ライセンス: Link先を確認
Furkan Şahinuç, Thy Thy Tran, Yulia Grishina, Yufang Hou, Bei Chen, Iryna Gurevych, (参考訳) 科学的リーダーボードは、競争方法の評価と比較を容易にする標準化されたランキングシステムである。 通常、リーダーボードはタスク、データセット、評価基準(TDM)の三倍によって定義され、客観的なパフォーマンス評価とベンチマークによるイノベーションの促進を可能にする。 しかし、出版物の増加により、これらのリーダーボードを手動で構築し維持することは不可能になっている。 手作業による作業を削減するソリューションとして,リーダボードの自動構築が登場している。 このタスクの既存のデータセットは、追加のキュレーションなしでコミュニティが配布するリーダーボードに基づいている。 分析の結果、これらのリーダーボードの大部分は不完全であり、一部は誤った情報を含んでいることがわかった。 本稿では、上記の問題を克服する手作業によるSciLeadについて紹介する。 このデータセットに基づいて、TDMトリプルが完全に定義され、部分的に定義され、リーダーボードの構築中に未定義である実世界のシナリオをシミュレートする3つの実験的な設定を提案する。 前回の研究では最初の設定についてしか研究されていないが、後者の2つは現実世界の応用を代表している。 これらの多様な設定に対処するため、我々はリーダーボードを構築するための総合的なLCMベースのフレームワークを開発した。 実験と分析の結果,出版物から結果の抽出に苦慮しながら,様々なLCMがTDMトリプルを正しく識別することがわかった。 コードとデータを公開しています。

Scientific leaderboards are standardized ranking systems that facilitate evaluating and comparing competitive methods. Typically, a leaderboard is defined by a task, dataset, and evaluation metric (TDM) triple, allowing objective performance assessment and fostering innovation through benchmarking. However, the exponential increase in publications has made it infeasible to construct and maintain these leaderboards manually. Automatic leaderboard construction has emerged as a solution to reduce manual labor. Existing datasets for this task are based on the community-contributed leaderboards without additional curation. Our analysis shows that a large portion of these leaderboards are incomplete, and some of them contain incorrect information. In this work, we present SciLead, a manually-curated Scientific Leaderboard dataset that overcomes the aforementioned problems. Building on this dataset, we propose three experimental settings that simulate real-world scenarios where TDM triples are fully defined, partially defined, or undefined during leaderboard construction. While previous research has only explored the first setting, the latter two are more representative of real-world applications. To address these diverse settings, we develop a comprehensive LLM-based framework for constructing leaderboards. Our experiments and analysis reveal that various LLMs often correctly identify TDM triples while struggling to extract result values from publications. We make our code and data publicly available.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# スペイン語情報環境における話題・感情・ヘイトスピーチの探索

Exploring the topics, sentiments and hate speech in the Spanish information environment ( http://arxiv.org/abs/2409.12658v1 )

ライセンス: Link先を確認
ALEJANDRO BUITRAGO LOPEZ, Javier Pastor-Galindo, José Antonio Ruipérez-Valiente, (参考訳) デジタル時代には、インターネットとソーシャルメディアはコミュニケーションを変容させてきたが、ヘイトスピーチや偽情報の普及を促進し、過激化、分極化、毒性へと繋がった。 これは、メディアが公の言論を形作る上で重要な役割を担っているため、特に関係している。 本研究では,2021年1月にスペインのメディア5社(La Vanguardia, ABC, El Pa\'is, El Mundo, 20 Minutos)のニュースに対して,337,807件の回答メッセージ(Webサイトコメントとつぶやき)の話題,感情,憎悪の頻度について検討した。 これらの公的な反応は元々、専門家によって元の手順に従って異なるタイプの憎悪としてラベル付けされ、現在では3つの感情値(否定的、中立的、肯定的)と主要なトピックに分類されている。 BERTopicは、Large Language Models (LLM)の助けを借りて、81のトピックを抽出するために使われ、9つの主要なカテゴリに分類された。 その結果、社会問題(22.22%)、表現とスラング(20.35%)、政治問題(11.80%)が最も議論されている。 コンテンツは主に陰性(62.7%)で中性(28.57%)で、陽性度は低い(8.73%)。 有害な物語は、会話の表現、性別、フェミニズム、およびCOVID-19に関係している。 低レベルのヘイトスピーチ(3.98%)にもかかわらず、この研究は社会や政治の話題に対するオンライン反応の毒性が高いことを確認している。

In the digital era, the internet and social media have transformed communication but have also facilitated the spread of hate speech and disinformation, leading to radicalization, polarization, and toxicity. This is especially concerning for media outlets due to their significant role in shaping public discourse. This study examines the topics, sentiments, and hate prevalence in 337,807 response messages (website comments and tweets) to news from five Spanish media outlets (La Vanguardia, ABC, El Pa\'is, El Mundo, and 20 Minutos) in January 2021. These public reactions were originally labeled as distinct types of hate by experts following an original procedure, and they are now classified into three sentiment values (negative, neutral, or positive) and main topics. The BERTopic unsupervised framework was used to extract 81 topics, manually named with the help of Large Language Models (LLMs) and grouped into nine primary categories. Results show social issues (22.22%), expressions and slang (20.35%), and political issues (11.80%) as the most discussed. Content is mainly negative (62.7%) and neutral (28.57%), with low positivity (8.73%). Toxic narratives relate to conversation expressions, gender, feminism, and COVID-19. Despite low levels of hate speech (3.98%), the study confirms high toxicity in online responses to social and political topics.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# PoTATO: フロートトラップ物体のポラリメトリックトレース解析用データセット

PoTATO: A Dataset for Analyzing Polarimetric Traces of Afloat Trash Objects ( http://arxiv.org/abs/2409.12659v1 )

ライセンス: Link先を確認
Luis Felipe Wolf Batista, Salim Khazem, Mehran Adibi, Seth Hutchinson, Cedric Pradalier, (参考訳) 水生環境のプラスチック廃棄物は海洋生物や人間の健康に深刻なリスクをもたらす。 自律型ロボットは浮きゴミの収集に利用できるが、正確な物体識別能力が必要である。 ディープラーニングはこのタスクの強力なツールとして広く利用されているが、その性能は屋外の光条件と水面反射によって著しく制限されている。 人間の目には見えないような環境に豊富に存在する光偏光は、現代のセンサーによって捉えられ、水面のゴミ検出精度を大幅に向上させることができる。 この目標を念頭に、12,380個のラベル付きプラスチックボトルと豊富な偏光情報を含むデータセットであるPoTATOを紹介する。 偏光が物体検出を向上する条件を実証し、生画像データを提供することで、研究コミュニティが新しいアプローチを探求し、最先端の物体検出アルゴリズムの境界をさらに推し進める機会を提供する。 コードとデータはhttps://github.com/luisfelipewb/PoTATO/tree/eccv2024で公開されている。

Plastic waste in aquatic environments poses severe risks to marine life and human health. Autonomous robots can be utilized to collect floating waste, but they require accurate object identification capability. While deep learning has been widely used as a powerful tool for this task, its performance is significantly limited by outdoor light conditions and water surface reflection. Light polarization, abundant in such environments yet invisible to the human eye, can be captured by modern sensors to significantly improve litter detection accuracy on water surfaces. With this goal in mind, we introduce PoTATO, a dataset containing 12,380 labeled plastic bottles and rich polarimetric information. We demonstrate under which conditions polarization can enhance object detection and, by providing raw image data, we offer an opportunity for the research community to explore novel approaches and push the boundaries of state-of-the-art object detection algorithms even further. Code and data are publicly available at https://github.com/luisfelipewb/ PoTATO/tree/eccv2024.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# 放射場における微分不確かさに対するマニフォールドサンプリング

Manifold Sampling for Differentiable Uncertainty in Radiance Fields ( http://arxiv.org/abs/2409.12661v1 )

ライセンス: Link先を確認
Linjie Lyu, Ayush Tewari, Marc Habermann, Shunsuke Saito, Michael Zollhöfer, Thomas Leimkühler, Christian Theobalt, (参考訳) 放射場は強力であり、複雑なシーンの出現を表す一般的なモデルである。 しかし、画像観察に基づく構築は曖昧さや不確実性を引き起こす。 そこで本稿では,不確実性学習に比較して,わずかな追加費用しか課さない明示的かつきめ細かな不確実性推定値を用いてガウス放射場を学習するための多元的アプローチを提案する。 我々のキーとなる観察は、不確実性は、モンテカルロサンプリングに非常に適する放射場パラメータの空間における低次元多様体としてモデル化できるということである。 重要なことは、我々の不確実性は微分可能であり、従って、あいまいさを最適に低減する、勾配に基づく後続のキャプチャの最適化を可能にすることである。 最適照度場照度向上のための高次元照明計画を含む,次世代の照度計画課題における最先端性能を実証する。

Radiance fields are powerful and, hence, popular models for representing the appearance of complex scenes. Yet, constructing them based on image observations gives rise to ambiguities and uncertainties. We propose a versatile approach for learning Gaussian radiance fields with explicit and fine-grained uncertainty estimates that impose only little additional cost compared to uncertainty-agnostic training. Our key observation is that uncertainties can be modeled as a low-dimensional manifold in the space of radiance field parameters that is highly amenable to Monte Carlo sampling. Importantly, our uncertainties are differentiable and, thus, allow for gradient-based optimization of subsequent captures that optimally reduce ambiguities. We demonstrate state-of-the-art performance on next-best-view planning tasks, including high-dimensional illumination planning for optimal radiance field relighting quality.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# METDrive: 一時誘導型マルチモーダルエンドツーエンド自動運転

METDrive: Multi-modal End-to-end Autonomous Driving with Temporal Guidance ( http://arxiv.org/abs/2409.12667v1 )

ライセンス: Link先を確認
Ziang Guo, Xinhao Lin, Zakhar Yagudin, Artem Lykov, Yong Wang, Yanqiang Li, Dzmitry Tsetserukou, (参考訳) マルチモーダルなエンドツーエンド自動運転は、最近の研究で有望な進歩を見せている。 エンド・ツー・エンド・ネットワークにより多くのモダリティを組み込むことで、運転環境の静的および動的側面の理解が向上し、自動運転の安全性が向上する。 本稿では, 回転角, ステアリング, スロットル信号, ウェイポイントベクトルを含む, エゴ状態の組込み時系列特徴から時間的ガイダンスを利用する, エンドツーエンドシステムMETDriveを紹介する。 知覚センサデータとエゴ状態データの時系列特徴から得られる幾何学的特徴は、提案した時間的誘導損失関数と共に経路ポイント予測を共同で導く。 CARLAリーダボードのLongest6ベンチマークでMETDriveを評価し,運転スコア70%,経路完了スコア94%,屈折スコア0.78を達成した。

Multi-modal end-to-end autonomous driving has shown promising advancements in recent work. By embedding more modalities into end-to-end networks, the system's understanding of both static and dynamic aspects of the driving environment is enhanced, thereby improving the safety of autonomous driving. In this paper, we introduce METDrive, an end-to-end system that leverages temporal guidance from the embedded time series features of ego states, including rotation angles, steering, throttle signals, and waypoint vectors. The geometric features derived from perception sensor data and the time series features of ego state data jointly guide the waypoint prediction with the proposed temporal guidance loss function. We evaluated METDrive on the CARLA leaderboard's Longest6 benchmark, achieving a driving score of 70%, a route completion score of 94%, and an infraction score of 0.78.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# 建設現場の安全性を高める: 有効ヘルメット検出のための軽量畳み込みネットワーク

Enhancing Construction Site Safety: A Lightweight Convolutional Network for Effective Helmet Detection ( http://arxiv.org/abs/2409.12669v1 )

ライセンス: Link先を確認
Mujadded Al Rabbani Alif, (参考訳) 建設安全の分野では、ヘルメットなどの個人用防護具の発見が職場の怪我を防ぐ上で重要な役割を担っている。 本稿では,建設現場におけるヘルメットの存在を正確に分類するために設計された畳み込みニューラルネットワーク(CNN)の開発と評価について述べる。 当初,1つの畳み込みブロックと1つの完全連結層からなる単純なCNNモデルが開発され,質素な結果が得られた。 性能を向上させるために、まずアーキテクチャを拡張し、さらに畳み込みブロックと完全に接続された層を含むようにした。 その後、バッチ正規化とドロップアウト技術が統合され、オーバーフィッティングを緩和し、モデルの一般化能力を向上することを目的とした。 これらのモデルの性能は手法的に解析され、ピークF1スコアは84 %、精度は82 %、リコールは86 %であり、第1次研究フェーズの最も高度な構成である。 これらの改良にもかかわらず、精度は準最適のままであり、さらなるアーキテクチャと運用の強化の段階が整った。 この研究は、自動ヘルメット検出技術における継続的な調整と最適化のための基礎的な枠組みを定めており、これらの初期実験で特定された制限に対処する将来的な拡張が期待されている。

In the realm of construction safety, the detection of personal protective equipment, such as helmets, plays a critical role in preventing workplace injuries. This paper details the development and evaluation of convolutional neural networks (CNNs) designed for the accurate classification of helmet presence on construction sites. Initially, a simple CNN model comprising one convolutional block and one fully connected layer was developed, yielding modest results. To enhance its performance, the model was progressively refined, first by extending the architecture to include an additional convolutional block and a fully connected layer. Subsequently, batch normalization and dropout techniques were integrated, aiming to mitigate overfitting and improve the model's generalization capabilities. The performance of these models is methodically analyzed, revealing a peak F1-score of 84\%, precision of 82\%, and recall of 86\% with the most advanced configuration of the first study phase. Despite these improvements, the accuracy remained suboptimal, thus setting the stage for further architectural and operational enhancements. This work lays a foundational framework for ongoing adjustments and optimization in automated helmet detection technology, with future enhancements expected to address the limitations identified during these initial experiments.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# Text2Traj2Text:人間の運動軌跡の文脈キャプションのための学習・合成フレームワーク

Text2Traj2Text: Learning-by-Synthesis Framework for Contextual Captioning of Human Movement Trajectories ( http://arxiv.org/abs/2409.12670v1 )

ライセンス: Link先を確認
Hikaru Asano, Ryo Yonetani, Taiki Sekii, Hiroki Ouchi, (参考訳) 本稿では,小売店舗における買い物客の軌道データの背後にあるコンテキストをキャプションする新しい学習・合成フレームワークであるText2Traj2Textを提案する。 私たちの仕事は、ターゲット広告や在庫管理など、より良い顧客理解を必要とするさまざまな小売アプリケーションに影響を与えます。 キーとなるアイデアは、大きな言語モデルを活用して、ストアマップ上の対応する移動軌跡と同様に、多様で現実的なキャプションのコレクションを合成することだ。 完全に合成されたデータから学習したにもかかわらず、キャプションモデルは、実際の人間の被験者によって生成された軌跡やカプセルにうまく一般化することができる。 提案手法の有効性をROUGEとBERTスコアで検証し,提案手法の有効性を確認した。

This paper presents Text2Traj2Text, a novel learning-by-synthesis framework for captioning possible contexts behind shopper's trajectory data in retail stores. Our work will impact various retail applications that need better customer understanding, such as targeted advertising and inventory management. The key idea is leveraging large language models to synthesize a diverse and realistic collection of contextual captions as well as the corresponding movement trajectories on a store map. Despite learned from fully synthesized data, the captioning model can generalize well to trajectories/captions created by real human subjects. Our systematic evaluation confirmed the effectiveness of the proposed framework over competitive approaches in terms of ROUGE and BERT Score metrics.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# 没入型学習コンテキストにおけるエンゲージメントと学習結果の探索

Exploring Engagement and Perceived Learning Outcomes in an Immersive Flipped Learning Context ( http://arxiv.org/abs/2409.12674v1 )

ライセンス: Link先を確認
Mehrasa Alizadeh, (参考訳) フリップした教室モデルは、学生のエンゲージメントと学習を促進するための実践的な教育的アプローチとして広く認識されている。 しかし、特にデジタル技術が必ずしも活用されていない日本の大学では、学習内容やピアとの相互作用を改善するといった課題に直面している。 これらの課題に対処し、潜在的な解決策を見出すために、オンラインのオンライン・フリップ・コースを、没入型仮想環境において開発・実施する事例研究を行った。 この初期段階の第一の目的は、没入型フリップ学習と学生のエンゲージメントと学習結果の認知との間に因果関係を確立することではなかった。 その代わり、このイニシアチブは、学生のオンラインエンゲージメントと認識された学習結果に関連して、没入型フリップ学習アプローチの利点と課題を探求することを目的としていた。 混合メソドス研究のアプローチに従って,N=50と学生の反射レポート(N=80)を通じて定量的および定性的なデータを収集した。 この研究は、高レベルの学生エンゲージメントと学習結果の認知を明らかにしたが、特に対象言語における学生の相互作用を支援するために改善が必要な領域も特定した。 本研究の探索的性質にもかかわらず, 学生のエンゲージメントを著しく向上させ, 学習プロセスを支援するために, 有望な没入型環境に設定したフリップ型学習アプローチが有効であることが示唆された。 没入型フリップ学習コースを作成する場合、教育者は、最適学習結果を確保するために、フリップ型学習と没入型学習デザインの両方に、文学からのベストプラクティスを取り入れるべきである。 この研究の成果は、有意義で効果的な遠隔学習体験をデザインしようとする教育者にとって貴重な情報源となる可能性がある。

The flipped classroom model has been widely acknowledged as a practical pedagogical approach to enhancing student engagement and learning. However, it faces challenges such as improving student interaction with learning content and peers, particularly in Japanese universities where digital technologies are not always fully utilized. To address these challenges and identify potential solutions, a case study was conducted in which an online flipped course on academic skills was developed and implemented in an immersive virtual environment. The primary objective during this initial phase was not to establish a causal relationship between the use of immersive flipped learning and students' engagement and perceived learning outcomes. Instead, this initiative aimed to explore the benefits and challenges of the immersive flipped learning approach in relation to students' online engagement and their perceived learning outcomes. Following a mixed-methods research approach, quantitative and qualitative data were collected through a survey (N=50) and students' reflective reports (N=80). The study revealed high levels of student engagement and perceived learning outcomes, although it also identified areas needing improvement, particularly in supporting student interactions in the target language. Despite the exploratory nature of this study, the findings suggest that a well-designed flipped learning approach, set in an engaging immersive environment, can significantly enhance student engagement, thereby supporting the learning process. When creating an immersive flipped learning course, educators should incorporate best practices from the literature on both flipped learning and immersive learning design to ensure optimal learning outcomes. The findings of this study can serve as a valuable resource for educators seeking to design engaging and effective remote learning experiences.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# 自動車産業におけるアジャイルメソッドの探索 - メリット、課題、機会

An Exploration of Agile Methods in the Automotive Industry: Benefits, Challenges and Opportunities ( http://arxiv.org/abs/2409.12676v1 )

ライセンス: Link先を確認
Mehrnoosh Askarpour, Sahar Kokaly, Ramesh S, (参考訳) アジャイルの方法論はソフトウェア開発業界において大きな牽引力を獲得し、要求の変更に対する柔軟性と応答性の向上を約束している。 しかし、特に自動車部門における安全クリティカルシステムへの適用性は議論の的となっている。 本稿では,関連する文献やケーススタディの包括的なレビューを通じて,自動車業界におけるアジャイル手法導入のメリットと課題について考察する。 私たちの調査結果は、コラボレーションの改善や市場投入までの時間短縮など、アジャイルアプローチの潜在的なメリットと、安全性のコンプライアンスや文化的な抵抗といった固有の課題を強調しています。 本稿では,既存の研究と実践的な洞察を合成することによって,自動車ソフトウェア開発の将来を形作る上でのアジャイル手法の役割を理解することを目的とする。

Agile methodologies have gained significant traction in the software development industry, promising increased flexibility and responsiveness to changing requirements. However, their applicability to safety-critical systems, particularly in the automotive sector, remains a topic of debate. This paper examines the benefits and challenges of implementing agile methods in the automotive industry through a comprehensive review of relevant literature and case studies. Our findings highlight the potential advantages of agile approaches, such as improved collaboration and faster time-to-market, as well as the inherent challenges, including safety compliance and cultural resistance. By synthesizing existing research and practical insights, this paper aims to provide an understanding of the role of agile methods in shaping the future of automotive software development.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# (不確かさ:不公平な意思決定者の選好に基づく選好

(Un)certainty of (Un)fairness: Preference-Based Selection of Certainly Fair Decision-Makers ( http://arxiv.org/abs/2409.12677v1 )

ライセンス: Link先を確認
Manh Khoi Duong, Stefan Conrad, (参考訳) 公正度メトリクスは、機械学習モデルや現実世界のアプリケーションにおける人間の意思決定者を含む、さまざまな領域にわたる意思決定プロセスにおける差別と偏見を評価するために使用される。 これは、男女間の受容率など、社会集団間の確率的結果の格差を計算することを含む。 しかし、伝統的な公正度指標は、これらのプロセスの不確実性や、2つの意思決定者が同じ格差を示す場合の互換性の欠如を考慮に入れていない。 ベイズ統計を用いて、格差の不確かさを定量化し、差別評価を強化する。 我々は、その格差とそれに対応する不確実性によって、機械学習モデルであれ人間であれ、それぞれの意思決定者を表現する。 我々は,意思決定者に対する選好を定義し,これらの選好に基づいて意思決定者をランク付けするユーティリティ機能に基づき,最適な意思決定者を選択するためにブルートフォースを利用する。 実用性スコアが最も高い意思決定者は、それが公正であるということを最も確実なものと解釈することができる。

Fairness metrics are used to assess discrimination and bias in decision-making processes across various domains, including machine learning models and human decision-makers in real-world applications. This involves calculating the disparities between probabilistic outcomes among social groups, such as acceptance rates between male and female applicants. However, traditional fairness metrics do not account for the uncertainty in these processes and lack of comparability when two decision-makers exhibit the same disparity. Using Bayesian statistics, we quantify the uncertainty of the disparity to enhance discrimination assessments. We represent each decision-maker, whether a machine learning model or a human, by its disparity and the corresponding uncertainty in that disparity. We define preferences over decision-makers and utilize brute-force to choose the optimal decision-maker according to a utility function that ranks decision-makers based on these preferences. The decision-maker with the highest utility score can be interpreted as the one for whom we are most certain that it is fair.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# PMR-Net:医療画像分割のための並列多解エンコーダデコーダネットワークフレームワーク

PMR-Net: Parallel Multi-Resolution Encoder-Decoder Network Framework for Medical Image Segmentation ( http://arxiv.org/abs/2409.12678v1 )

ライセンス: Link先を確認
Xiaogang Du, Dongxin Gu, Tao Lei, Yipeng Jiao, Yibin Zou, (参考訳) 近年、エンコーダ・デコーダネットワークは、様々なサイズのオブジェクトのグローバルな特徴を捉えるために、受容領域の拡大とマルチスケールコンテキストの導入に重点を置いている。 しかし、ネットワークが深まるにつれて、細かな空間的詳細を排除し、正確な物体の局在を損なうことがしばしばある。 さらに、従来のデコーダによる補間によるアップサンプリングは、グローバルコンテキストの損失を招き、エッジセグメンテーションの精度を低下させる。 上記の問題に対処するため、並列マルチ解像度エンコーダデコーダネットワーク、即ちPMR-Netを提案する。 まず,並列マルチ解像度エンコーダとマルチ解像度コンテキストエンコーダを設計する。 並列多分解能エンコーダは、異なる解像度の入力画像に対して、マルチスケールの微細な局所的特徴を並列に抽出し、融合することができる。 多分解能コンテキストエンコーダは、異なるエンコーダブランチから異なる受容領域のグローバルコンテキストセマンティック特徴を融合させ、グローバル情報の完全性を効果的に維持する。 第2に,並列多分解能復号器の構造に対称な並列多分解能復号器を設計する。 復号器は、高解像度ブランチの特徴マップに低解像度ブランチのグローバルコンテキスト特徴を継続的に補うことができ、復号処理におけるアップサンプリング操作によるグローバルコンテキスト特徴損失の問題を効果的に解決することができる。 大規模な実験結果から,提案したPMR-Netは,5つの公開データセットの最先端手法よりも精度の高いセグメンテーション結果が得られることが示された。 さらに、PMR-Netはフレキシブルなネットワークフレームワークであり、ネットワーク層の数と並列エンコーダデコーダブランチの数を調整することで、異なるシナリオの要求を満たすことができる。

In recent years, encoder-decoder networks have focused on expanding receptive fields and incorporating multi-scale context to capture global features for objects of varying sizes. However, as networks deepen, they often discard fine spatial details, impairing precise object localization. Additionally, conventional decoders' use of interpolation for upsampling leads to a loss of global context, diminishing edge segmentation accuracy. To address the above problems, we propose a novel parallel multi-resolution encoder-decoder network, namely PMR-Net for short. First, we design a parallel multi-resolution encoder and a multi-resolution context encoder. The parallel multi-resolution encoder can extract and fuse multi-scale fine-grained local features in parallel for input images with different resolutions. The multi-resolution context encoder fuses the global context semantic features of different receptive fields from different encoder branches to maintain effectively the integrity of global information. Secondly, we design a parallel multi-resolution decoder symmetrical to the structure of parallel multi-resolution encoder. The decoder can continuously supplement the global context features of low-resolution branches to the feature maps of high-resolution branches, and effectively solve the problem of global context feature loss caused by upsampling operation in the decoding process. Extensive experiment results demonstrate that our proposed PMR-Net can achieve more accurate segmentation results than state-of-the-art methods on five public available datasets. Moreover, PMR-Net is also a flexible network framework, which can meet the requirements of different scenarios by adjusting the number of network layers and the number of parallel encoder-decoder branches.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# Retrieval-Augmented Test Generation: どこまで?

Retrieval-Augmented Test Generation: How Far Are We? ( http://arxiv.org/abs/2409.12682v1 )

ライセンス: Link先を確認
Jiho Shin, Reem Aleithan, Hadi Hemmati, Song Wang, (参考訳) Retrieval Augmented Generation (RAG)は、ソフトウェアエンジニアリングタスクの顕著な進歩を示している。 その可能性にもかかわらず、RAGの単体テスト生成への応用は未調査のままである。 このギャップを埋めるために,テスト生成におけるRAGベースのLCMの有効性を検討する。 RAGは様々な知識源を活用して性能を向上させることができるため、RAGの知識基盤の異なるソースが単体テスト生成に与える影響についても検討し、実践的な利点や限界について考察する。 具体的には,3種類のドメイン知識に基づいて構築されたRAGについて検討する。 1) APIドキュメント。 2) GitHub の問題,そして 3) StackOverflow Q&A。 それぞれのソースは、さまざまな観点からテストを作成するための必須知識を提供する。すなわち、APIドキュメンテーションは、公式API使用ガイドラインを提供し、GitHubイシューは、ライブラリ開発者によるAPIに関連する問題の解決を提供し、StackOverflowのQ&Aは、コミュニティ主導のソリューションとベストプラクティスを提供する。 実験では、TensorFlow、PyTorch、Scikit-learn、Google JAX、XGBoostという、広く使用されている典型的なPythonベースの機械学習(ML)プロジェクト5つに焦点を当て、複雑なニューラルネットワークを効率的に構築、トレーニング、デプロイします。 これらのプロジェクト全体で最も広く使われているAPIのトップ10%を使って、合計188のAPIを含む実験を行った。 GPT-3.5-Turbo, GPT-4o, Mistral MoE 8x22B, Llamma 3.1 405Bの4種類のLLM(オープンおよびクローズドソース)の有効性を検討した。 さらに、実験用APIのユニットテストケースを生成するための3つのプロンプト戦略、すなわち、ゼロショット、ベーシックRAG、および3つの外部ソース上のAPIレベルRAGを比較した。 最後に、RAGに使用する異なる知識源のコストを比較した。

Retrieval Augmented Generation (RAG) has shown notable advancements in software engineering tasks. Despite its potential, RAG's application in unit test generation remains under-explored. To bridge this gap, we take the initiative to investigate the efficacy of RAG-based LLMs in test generation. As RAGs can leverage various knowledge sources to enhance their performance, we also explore the impact of different sources of RAGs' knowledge bases on unit test generation to provide insights into their practical benefits and limitations. Specifically, we examine RAG built upon three types of domain knowledge: 1) API documentation, 2) GitHub issues, and 3) StackOverflow Q&As. Each source offers essential knowledge for creating tests from different perspectives, i.e., API documentations provide official API usage guidelines, GitHub issues offer resolutions of issues related to the APIs from the library developers, and StackOverflow Q&As present community-driven solutions and best practices. For our experiment, we focus on five widely used and typical Python-based machine learning (ML) projects, i.e., TensorFlow, PyTorch, Scikit-learn, Google JAX, and XGBoost to build, train, and deploy complex neural networks efficiently. We conducted experiments using the top 10% most widely used APIs across these projects, involving a total of 188 APIs. We investigate the effectiveness of four state-of-the-art LLMs (open and closed-sourced), i.e., GPT-3.5-Turbo, GPT-4o, Mistral MoE 8x22B, and Llamma 3.1 405B. Additionally, we compare three prompting strategies in generating unit test cases for the experimental APIs, i.e., zero-shot, a Basic RAG, and an API-level RAG on the three external sources. Finally, we compare the cost of different sources of knowledge used for the RAG.
翻訳日:2024-11-07 13:56:59 公開日:2024-09-19
# ローワー・ソース」シナリオにおけるアイデアの結びつき - 国家品種, クレオール, その他の低リソースシナリオのためのNLP

Connecting Ideas in 'Lower-Resource' Scenarios: NLP for National Varieties, Creoles and Other Low-resource Scenarios ( http://arxiv.org/abs/2409.12683v1 )

ライセンス: Link先を確認
Aditya Joshi, Diptesh Kanojia, Heather Lent, Hour Kaing, Haiyue Song, (参考訳) 少数の言語のベンチマークによる優れた結果にもかかわらず、大きな言語モデルは、方言や社会言語(国家的または社会的な言語)、クレオール(複数の言語間の言語的接触から生じる言語)、および他の低リソース言語のような「低リソース」のシナリオにある言語からテキストを処理するのに苦労している。 この入門チュートリアルでは、自然言語処理(NLP)研究における共通の課題、アプローチ、テーマを特定し、データ・ポーア・コンテキストに固有の障害に直面し克服する。 このチュートリアルは,過去のアイデアを現在の分野に結び付けることで,これらのシナリオに携わる研究者間のコラボレーションと相互補完を啓蒙することを目的としている。 我々の 'lower-resource' という概念は、モデルトレーニングに必要なデータの不足を広く表しています。

Despite excellent results on benchmarks over a small subset of languages, large language models struggle to process text from languages situated in `lower-resource' scenarios such as dialects/sociolects (national or social varieties of a language), Creoles (languages arising from linguistic contact between multiple languages) and other low-resource languages. This introductory tutorial will identify common challenges, approaches, and themes in natural language processing (NLP) research for confronting and overcoming the obstacles inherent to data-poor contexts. By connecting past ideas to the present field, this tutorial aims to ignite collaboration and cross-pollination between researchers working in these scenarios. Our notion of `lower-resource' broadly denotes the outstanding lack of data required for model training - and may be applied to scenarios apart from the three covered in the tutorial.
翻訳日:2024-11-07 13:56:58 公開日:2024-09-19
# トレーニング可能なイベント駆動型畳み込みとスパイク注意機構に基づく動的視覚センサオブジェクト認識モデル

A dynamic vision sensor object recognition model based on trainable event-driven convolution and spiking attention mechanism ( http://arxiv.org/abs/2409.12691v1 )

ライセンス: Link先を確認
Peng Zheng, Qian Zhou, (参考訳) スパイキングニューラルネットワーク(SNN)は、スパーススパイクベースのコーディングと非同期イベント駆動計算を使用することにより、ダイナミックビジュアルセンサー(DVS)からイベントストリームを処理するのに適している。 DVSオブジェクトから機能を抽出するために、SNNは通常、固定されたカーネルパラメータによるイベント駆動の畳み込みを使用する。 これらのフィルタは、他を無視しながら特定の方向の特徴に強く反応し、不完全な特徴抽出をもたらす。 SNNの現在のイベント駆動型畳み込み特徴抽出機能を改善するため、トレーニング可能なイベント駆動型畳み込みとスパイク注意機構を利用したDVSオブジェクト認識モデルを提案する。 本論文では、勾配降下による畳み込みカーネルの更新のために、トレーニング可能なイベント駆動型畳み込みを提案する。 この方法は、従来のイベント駆動の畳み込みよりも効率的にイベントストリームの局所的特徴を抽出することができる。 さらに、スパイキングアテンション機構を用いて、グローバルな依存特徴を抽出する。 MNIST-DVSやより複雑なCIFAR10-DVSを含む2つのニューロモルフィックデータセットのベースライン法よりも,モデルの分類性能が優れている。 さらに,本モデルでは,短時間のイベントストリームに対して良好な分類能力を示した。 その結果,DVSオブジェクトに対するイベント駆動型畳み込みSNNの性能向上が得られた。

Spiking Neural Networks (SNNs) are well-suited for processing event streams from Dynamic Visual Sensors (DVSs) due to their use of sparse spike-based coding and asynchronous event-driven computation. To extract features from DVS objects, SNNs commonly use event-driven convolution with fixed kernel parameters. These filters respond strongly to features in specific orientations while disregarding others, leading to incomplete feature extraction. To improve the current event-driven convolution feature extraction capability of SNNs, we propose a DVS object recognition model that utilizes a trainable event-driven convolution and a spiking attention mechanism. The trainable event-driven convolution is proposed in this paper to update its convolution kernel through gradient descent. This method can extract local features of the event stream more efficiently than traditional event-driven convolution. Furthermore, the spiking attention mechanism is used to extract global dependence features. The classification performances of our model are better than the baseline methods on two neuromorphic datasets including MNIST-DVS and the more complex CIFAR10-DVS. Moreover, our model showed good classification ability for short event streams. It was shown that our model can improve the performance of event-driven convolutional SNNs for DVS objects.
翻訳日:2024-11-07 13:56:58 公開日:2024-09-19
# 商品属性値同定のための大規模言語モデルの検討

Exploring Large Language Models for Product Attribute Value Identification ( http://arxiv.org/abs/2409.12695v1 )

ライセンス: Link先を確認
Kassem Sabeh, Mouna Kacimi, Johann Gamper, Robert Litschko, Barbara Plank, (参考訳) 製品属性値識別(PAVI)は、製品情報から属性とその値を自動的に識別し、製品検索、レコメンデーション、比較などの機能を可能にする。 既存の手法は主にBARTやT5のような微調整済みの言語モデルに依存しており、タスク固有のトレーニングデータを必要とし、新しい属性への一般化に苦労している。 本稿では, LLaMA や Mistral などの大規模言語モデル (LLM) をデータ効率・ロバストなPAVI 代替品として検討する。 本稿では,ゼロショット設定における一段階と二段階のプロンプトベースアプローチの比較と,文脈内学習例によるパラメトリックおよび非パラメトリック知識の利用について提案する。 また、事前訓練されたT5モデルに基づく高密度なデモレトリバーを導入し、タスク固有の命令に基づいてLLMを明示的に訓練するための命令微調整を行う。 2つの製品ベンチマークの大規模な実験により、我々の2段階のアプローチはゼロショット設定のパフォーマンスを著しく向上させ、命令の微調整はトレーニングデータを使用する際のパフォーマンスをさらに向上させ、PAVIにLLMを使うことの実用的メリットを示す。

Product attribute value identification (PAVI) involves automatically identifying attributes and their values from product information, enabling features like product search, recommendation, and comparison. Existing methods primarily rely on fine-tuning pre-trained language models, such as BART and T5, which require extensive task-specific training data and struggle to generalize to new attributes. This paper explores large language models (LLMs), such as LLaMA and Mistral, as data-efficient and robust alternatives for PAVI. We propose various strategies: comparing one-step and two-step prompt-based approaches in zero-shot settings and utilizing parametric and non-parametric knowledge through in-context learning examples. We also introduce a dense demonstration retriever based on a pre-trained T5 model and perform instruction fine-tuning to explicitly train LLMs on task-specific instructions. Extensive experiments on two product benchmarks show that our two-step approach significantly improves performance in zero-shot settings, and instruction fine-tuning further boosts performance when using training data, demonstrating the practical benefits of using LLMs for PAVI.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# PromSec: 大規模言語モデル(LLM)を用いた関数型ソースコードのセキュア生成のためのプロンプト最適化

PromSec: Prompt Optimization for Secure Generation of Functional Source Code with Large Language Models (LLMs) ( http://arxiv.org/abs/2409.12699v1 )

ライセンス: Link先を確認
Mahmoud Nazzal, Issa Khalil, Abdallah Khreishah, NhatHai Phan, (参考訳) 大きな言語モデル(LLM)を使って高品質なソースコードを生成する能力は、ソフトウェア開発の時間とコストを削減します。 しかし、安全でないオープンソースデータのトレーニングのために、セキュリティ上の脆弱性がしばしば導入される。 これはセキュアで機能的なコード生成の必要性を強調している。 本稿では,LLMを用いたセキュアかつ機能的なコード生成のためのプロム最適化アルゴリズムであるPromSecを紹介する。 PromSecでは、組み合わせます 1) 生成したコードにおけるセキュリティ脆弱性の修正と低減のために、gGANと呼ばれる生成逆グラフニューラルネットワークを使用したコード脆弱性のクリア。 2) LLM を用いたコード生成では,gGAN の結果が拡張プロンプトで LLM を駆動し,その機能を保ちながらセキュアなコードを生成する。 gGANに新しいコントラスト学習手法を導入し、コードクリーニングと生成を二重目的最適化問題として定式化し、PromSecがLLM推論数を顕著に削減できるようにする。 PromSecは、セキュアで機能的なコードを生成するためのコスト効率が高く実用的なソリューションを提供する。 PythonとJavaのコードデータセットで実施された大規模な実験は、PromSecが意図した機能を保ちながら、コードのセキュリティを効果的に強化することを確認した。 我々の実験によると、最先端のアプローチではすべてのコードの脆弱性に対処できないが、PromSecはそれらを効果的に解決する。 さらに、PromSecは、操作時間、LLMクエリ数、セキュリティ解析コストのオーダー・オブ・マグニチュード削減以上のことを達成している。 さらに、特定のLLM用にPromSecに最適化されたプロンプトは、プログラミング言語間で他のLLMに転送可能であり、トレーニングの未確認脆弱性に対して一般化可能である。 本研究は,LLMの安全性と機能的コード生成に対する信頼性を高め,実世界のソフトウェア開発への統合を支援するためのステップである。

The capability of generating high-quality source code using large language models (LLMs) reduces software development time and costs. However, they often introduce security vulnerabilities due to training on insecure open-source data. This highlights the need for ensuring secure and functional code generation. This paper introduces PromSec, an algorithm for prom optimization for secure and functioning code generation using LLMs. In PromSec, we combine 1) code vulnerability clearing using a generative adversarial graph neural network, dubbed as gGAN, to fix and reduce security vulnerabilities in generated codes and 2) code generation using an LLM into an interactive loop, such that the outcome of the gGAN drives the LLM with enhanced prompts to generate secure codes while preserving their functionality. Introducing a new contrastive learning approach in gGAN, we formulate code-clearing and generation as a dual-objective optimization problem, enabling PromSec to notably reduce the number of LLM inferences. PromSec offers a cost-effective and practical solution for generating secure, functional code. Extensive experiments conducted on Python and Java code datasets confirm that PromSec effectively enhances code security while upholding its intended functionality. Our experiments show that while a state-of-the-art approach fails to address all code vulnerabilities, PromSec effectively resolves them. Moreover, PromSec achieves more than an order-of-magnitude reduction in operation time, number of LLM queries, and security analysis costs. Furthermore, prompts optimized with PromSec for a certain LLM are transferable to other LLMs across programming languages and generalizable to unseen vulnerabilities in training. This study is a step in enhancing the trustworthiness of LLMs for secure and functional code generation, supporting their integration into real-world software development.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# 誘導型グレイボックスファジリングにおける距離距離に関する実証的研究

An Empirical Study on the Distance Metric in Guiding Directed Grey-box Fuzzing ( http://arxiv.org/abs/2409.12701v1 )

ライセンス: Link先を確認
Tingke Wen, Yuwei Li, Lu Zhang, Huimin Ma, Zulie Pan, (参考訳) Directed gray-box fuzzing (DGF)は、特定のコード領域の脆弱性を効率的に発見することを目的としている。 DGFの種子の品質を測定するために用いられる距離測定はファジリング性能に影響を与える重要な要因である。 距離メトリクスは既存のDGFフレームワークに広く適用されているが、距離メトリクスの違いがファジングプロセスをどのようにガイドし、ファジング結果に影響を及ぼすかについては、いまだに不透明である。 本稿では,DGFを誘導する際の距離測定値の違いについて,最初の実証的研究を行った。 具体的には、計算方法と粒度の観点から異なる距離のメトリクスを体系的に議論する。 そして、AFLGoに基づいて異なる距離のメトリクスを実装します。 そこで本研究では,既存のDGF関連研究で広く使用されているベンチマークにおいて,これらの距離測定値の性能を評価するための総合的な実験を行った。 実験の結果,以下の知見が得られた。 第一に、計算方法や粒度の異なる距離測定値の違いは重要ではない。 第二に、距離メトリクスは、ターゲットの脆弱性をトリガーすることの難しさを説明するのに有効ではないかもしれない。 さらに,本研究は,テストケースの品質を精査することにより,高品質なテストケースを生成する上で,既存の突然変異戦略が本質的に制限されていることを強調し,指向性ファジィングのための効果的な突然変異戦略を設計するよう求めている。 DGFの今後の研究を促進するために,実装コードと実験データセットをオープンソースとして公開する。

Directed grey-box fuzzing (DGF) aims to discover vulnerabilities in specific code areas efficiently. Distance metric, which is used to measure the quality of seed in DGF, is a crucial factor in affecting the fuzzing performance. Despite distance metrics being widely applied in existing DGF frameworks, it remains opaque about how different distance metrics guide the fuzzing process and affect the fuzzing result in practice. In this paper, we conduct the first empirical study to explore how different distance metrics perform in guiding DGFs. Specifically, we systematically discuss different distance metrics in the aspect of calculation method and granularity. Then, we implement different distance metrics based on AFLGo. On this basis, we conduct comprehensive experiments to evaluate the performance of these distance metrics on the benchmarks widely used in existing DGF-related work. The experimental results demonstrate the following insights. First, the difference among different distance metrics with varying methods of calculation and granularities is not significant. Second, the distance metrics may not be effective in describing the difficulty of triggering the target vulnerability. In addition, by scrutinizing the quality of testcases, our research highlights the inherent limitation of existing mutation strategies in generating high-quality testcases, calling for designing effective mutation strategies for directed fuzzing. We open-source the implementation code and experiment dataset to facilitate future research in DGF.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# 位相次数の効率的な計算法

Efficient computation of topological order ( http://arxiv.org/abs/2409.12704v1 )

ライセンス: Link先を確認
Louis Fraatz, Amit Jamadagni, Hendrik Weimer, (参考訳) 量子多体系におけるトポロジカル秩序の検出の計算的側面を解析する。 我々は,最近導入されたトポロジ的絡み合いエントロピーと,誤差補正特性に基づくトポロジ的順序の操作定義を対比し,前者のシステムサイズと後者の多項式スケーリングの指数的スケーリングを求める。 我々は,移動粒子を用いたパラダイム的トーリック符号モデルの変種に対するアプローチを実証し,誤差補正法によりシステムサイズが大幅に大きくなることを確認した。 特に、トポロジ的絡み合いエントロピーは有限サイズ効果によって厳しく制限されすぎ、決定的な結果が得られる。 我々は主に、基底状態が行列積状態で表現できる一次元システムに焦点をあてるが、我々の戦略は、平衡から高次元やシステムに容易に一般化することができ、また、現在の量子シミュレーション実験において、位相秩序を効率的に検出することができる。

We analyze the computational aspects of detecting topological order in a quantum many-body system. We contrast the widely used topological entanglement entropy with a recently introduced operational definition for topological order based on error correction properties, finding exponential scaling with the system size for the former and polynomial scaling for the latter. We exemplify our approach for a variant of the paradigmatic toric code model with mobile particles, finding that the error correction method allows to treat substantially larger system sizes. In particular, the phase diagram of the model can be successfully computed using error correction, while the topological entanglement entropy is too severely limited by finite size effects to obtain conclusive results. While we mainly focus on one-dimensional systems whose ground states can be expressed in terms of matrix product states, our strategy can be readily generalized to higher dimensions and systems out of equilibrium, even allowing for an efficient detection of topological order in current quantum simulation experiments.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# マンドリル顔の生成と編集:性的な編集と評価への応用

Generation and Editing of Mandrill Faces: Application to Sex Editing and Assessment ( http://arxiv.org/abs/2409.12705v1 )

ライセンス: Link先を確認
Nicolas M. Dibot, Julien P. Renoult, William Puech, (参考訳) 生成AIは近年大きな発展を遂げており、コンピュータ生成画像として知られる合成画像のリアリズムを高めている。 さらに、生成AIは、画像編集によって特定の画像特性を変更することもできる。 従来の研究は、GAN(Generative Adversarial Network)に基づいて、現実的な画像、特に顔を生成する手法を開発してきた。 しかし、この研究は特定の動物種に適用されることはなかった。 さらに,結果の評価は定量的ではなく,主観的に行われている。 本稿では,非ヒト霊長類である雄および雌のマンドリルの顔画像を生成する手法に基づくアプローチを提案する。 提案手法の主な特徴は、特定のGANの潜伏空間における性軸を特定することによって、性別を編集する能力である。 さらに,実画像の分布から抽出した統計的特徴に基づく性別レベルの評価も行った。 特定のデータベースから得られた実験結果は、現実的なだけでなく、正確でもあり、野生のマンドリルを用いた行動実験における将来の研究の必要性を満たしている。

Generative AI has seen major developments in recent years, enhancing the realism of synthetic images, also known as computer-generated images. In addition, generative AI has also made it possible to modify specific image characteristics through image editing. Previous work has developed methods based on generative adversarial networks (GAN) for generating realistic images, in particular faces, but also to modify specific features. However, this work has never been applied to specific animal species. Moreover, the assessment of the results has been generally done subjectively, rather than quantitatively. In this paper, we propose an approach based on methods for generating images of faces of male or female mandrills, a non-human primate. The main novelty of proposed method is the ability to edit their sex by identifying a sex axis in the latent space of a specific GAN. In addition, we have developed an assessment of the sex levels based on statistical features extracted from real image distributions. The experimental results we obtained from a specific database are not only realistic, but also accurate, meeting a need for future work in behavioral experiments with wild mandrills.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# 機械学習に基づくノズル性能向上のための流体注入パラメータの多点最適化

Machine-learning-based multipoint optimization of fluidic injection parameters for improving nozzle performance ( http://arxiv.org/abs/2409.12707v1 )

ライセンス: Link先を確認
Yunjia Yang, Jiazhe Li, Yufei Zhang, Haixin Chen, (参考訳) 流体注入は、車両加速時の過膨張単一膨張ランプノズル(SERN)の性能向上に有望なソリューションを提供する。 しかし, ノズル運転条件下では, 噴射パラメータを決定することは依然として困難である。 勾配に基づく最適化法では各設計点における注入パラメータの勾配を必要とするため、従来の計算流体力学(CFD)シミュレーションを採用すると高い計算コストがかかる。 本稿では,複数の設計点におけるノズル流れ場を高速に計算するために,事前学習型ニューラルネットワークモデルを用いて最適化中のCFDを置き換える。 ノズル流れ場の物理的特性を考慮すると, モデルの伝達性を高めるために, 先行予測手法が採用された。 さらに、ニューラルネットワークのバックプロパゲーションアルゴリズムを採用し、計算処理を1回だけ呼び出して勾配を迅速に評価し、有限微分法と比較して勾配計算時間を劇的に短縮する。 試験ケースでは、7つの設計点におけるSERNの平均ノズル推力係数を最適化する。 1.14%の推力係数の改善が達成され、トレーニング用データベースの確立時期を考慮した場合であっても、従来の最適化手法と比較して時間コストが大幅に削減される。

Fluidic injection provides a promising solution to improve the performance of overexpanded single expansion ramp nozzle (SERN) during vehicle acceleration. However, determining the injection parameters for the best overall performance under multiple nozzle operating conditions is still a challenge. The gradient-based optimization method requires gradients of injection parameters at each design point, leading to high computational costs if traditional computational fluid dynamic (CFD) simulations are adopted. This paper uses a pretrained neural network model to replace CFD during optimization to quickly calculate the nozzle flow field at multiple design points. Considering the physical characteristics of the nozzle flow field, a prior-based prediction strategy is adopted to enhance the model's transferability. In addition, the back-propagation algorithm of the neural network is adopted to quickly evaluate the gradients by calling the computation process only once, thereby greatly reducing the gradient computation time compared to the finite differential method. As a test case, the average nozzle thrust coefficient of a SERN at seven design points is optimized. An improvement in the thrust coefficient of 1.14% is achieved, and the time cost is greatly reduced compared with the traditional optimization methods, even when the time to establish the database for training is considered.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# 分子ハミルトニアンのためのクリロフ法の拡張:テンソルハイパーコントラクションによるメモリコストの削減と複雑さのスケーリング

Enhanced Krylov Methods for Molecular Hamiltonians: Reduced Memory Cost and Complexity Scaling via Tensor Hypercontraction ( http://arxiv.org/abs/2409.12708v1 )

ライセンス: Link先を確認
Yu Wang, Maxine Luo, Christian B. Mendl, (参考訳) 本稿では,初期分子ハミルトニアンに対するテンソルハイパーコントラクション (THC) 形式に基づく行列積演算子 (MPO) の構成について述べる。 このようなMPO構造により、クリロフ部分空間法のメモリ要求とコストスケーリングが劇的に低下する。 これらは局所的なミニマを回避し、高い精度で量子時間進化をシミュレートしながら、低い高度の固有状態を見つけることができる。 このアプローチでは、分子ハミルトニアンは4つのMPOの積の和として表され、それぞれがわずか2$の結合次元を持つ。 行列積状態(MPS)の現在の量子状態にMPOを反復的に適用し、MPSを総和して再圧縮することで、素MPSと同じ漸近記憶コストのスキームを導出し、従来のMPO構成に基づくクリロフ法と比較して計算コストのスケーリングを減少させる。 本稿では,これらの主張の詳細な理論的導出と数値実験の実施について述べる。

We present a matrix product operator (MPO) construction based on the tensor hypercontraction (THC) format for ab initio molecular Hamiltonians. Such an MPO construction dramatically lowers the memory requirement and cost scaling of Krylov subspace methods. These can find low-lying eigenstates while avoiding local minima and simulate quantum time evolution with high accuracy. In our approach, the molecular Hamiltonian is represented as a sum of products of four MPOs, each with a bond dimension of only $2$. Iteratively applying the MPOs to the current quantum state in matrix product state (MPS) form, summing and re-compressing the MPS leads to a scheme with the same asymptotic memory cost as the bare MPS and reduces the computational cost scaling compared to the Krylov method based on a conventional MPO construction. We provide a detailed theoretical derivation of these statements and conduct supporting numerical experiments.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# SeqRisk:長手データによる生存予測改善のための変圧器拡張潜在変数モデル

SeqRisk: Transformer-augmented latent variable model for improved survival prediction with longitudinal data ( http://arxiv.org/abs/2409.12709v1 )

ライセンス: Link先を確認
Mine Öğretir, Miika Koskinen, Juha Sinisalo, Risto Renkonen, Harri Lähdesmäki, (参考訳) 医療において、異なる患者結果のリスクアセスメントは、生存分析、すなわち、時間とイベントの関連をモデル化することに基づいて長い間行われてきた。 しかし、従来のアプローチは1つの時点のデータに頼っており、患者の縦断的履歴を十分に活用し、時間的規則を捉えるのに最適である。 実世界の臨床データに着目し,その課題を認識した潜在変数モデルを用いて,不規則,騒々しく,軽度に観察された縦断データを効果的に処理する。 本研究では,変分オートエンコーダ (VAE) と長手VAE (LVAE) をトランスフォーマーエンコーダとコックス比例ハザードモジュールに結合してリスク予測を行う手法であるSeqRiskを提案する。 SeqRiskは、長距離の相互作用を捉え、患者の軌道表現を改善し、予測精度と一般化性を高め、高リスク患者を特定する試みにおいて、サンプル個体群の特徴を部分的に説明しやすくする。 SeqRiskは、シミュレーションと実世界の両方のデータセットにおける既存のアプローチと比較して、競合的に機能することを示した。

In healthcare, risk assessment of different patient outcomes has for long time been based on survival analysis, i.e.\ modeling time-to-event associations. However, conventional approaches rely on data from a single time-point, making them suboptimal for fully leveraging longitudinal patient history and capturing temporal regularities. Focusing on clinical real-world data and acknowledging its challenges, we utilize latent variable models to effectively handle irregular, noisy, and sparsely observed longitudinal data. We propose SeqRisk, a method that combines variational autoencoder (VAE) or longitudinal VAE (LVAE) with a transformer encoder and Cox proportional hazards module for risk prediction. SeqRisk captures long-range interactions, improves patient trajectory representations, enhances predictive accuracy and generalizability, as well as provides partial explainability for sample population characteristics in attempts to identify high-risk patients. We demonstrate that SeqRisk performs competitively compared to existing approaches on both simulated and real-world datasets.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# 自律船と人力船の混成航路の適応化に向けて

Towards adaptive trajectories for mixed autonomous and human-operated ships ( http://arxiv.org/abs/2409.12714v1 )

ライセンス: Link先を確認
Danilo Pianini, Sven Tomforde, (参考訳) 私たちは自動運転車の台頭を目の当たりにしています。 船がより多くの自由度(つまり、はるかに大きな検索スペース)で活動するにつれて、海洋ドメインは遅れている。 この問題は、自律船と人力船の必然的共存によってさらに複雑になる:後者は予測不可能な決定を下し、自律船の調整を必要とする。 最後に、問題は本質的に分散化されており、中央の権威はなく、コミュニケーション手段はコミュニケーション距離や性能の点で非常に多様であり、情報の共有方法や方法に関する特別なケアを義務付けることができる。 本研究は, 自律船と人力船の軌道予測と適応の課題について詳述し, それらに対処するための潜在的アプローチに関する最初のアイデアを提案する。

We are witnessing the rise of autonomous cars, which will likely revolutionize the way we travel. Arguably, the maritime domain lags behind, as ships operate on many more degrees of freedom (thus, a much larger search space): there is less physical infrastructure, and rules are less consistent and constraining than what is found on roads. The problem is further complicated by the inevitable co-existence of autonomous and human-operated ships: the latter may take unpredictable decisions, which require adjustments on the autonomous ones. Finally, the problem is inherently decentralised, there is no central authority, and communication means can be very diverse in terms of communication distance and performance, mandating special care on which information is shared and how. In this work, we elaborate on the challenges of trajectory prediction and adaptation for mixed autonomous and human-operated ships, and we propose initial ideas on potential approaches to address them.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# ニューラルネットワーク圧縮のための補助情報を用いたマルチスケール特徴予測

Multi-Scale Feature Prediction with Auxiliary-Info for Neural Image Compression ( http://arxiv.org/abs/2409.12719v1 )

ライセンス: Link先を確認
Chajin Shin, Sangjin Lee, Sangyoun Lee, (参考訳) 近年,深層学習技術により画像圧縮の速度歪み性能が大幅に向上した。 この成功の重要な要因は、別のニューラルネットワークを通じてエンコーダの出力である潜在ベクトルの近似を予測するために追加ビットを使用することである。 そして、予測と潜伏ベクトルの差のみを推定確率分布とともにビットストリームに符号化する。 本稿では,ニューラルビデオ圧縮にインスパイアされた補助粗いネットワークと主ネットワークからなる新しい予測構造を導入する。 補助粗いネットワークは補助情報を符号化し、原画像の近似をマルチスケールの特徴として予測する。 主ネットワークは、補助粗いネットワークから予測された特徴と原画像の特徴との間の残差を符号化する。 我々の新しい構造をさらに活用するために,グローバル相関を用いてより正確な予測特徴を予測する補助情報誘導特徴予測(AFP)モジュールを提案する。 さらに、AFPモジュールから補助機能を洗練し、改良された特徴と元の画像特徴との間の残差を生成するContext Junctionモジュールを提案する。 最後に、潜在ベクトルの近似を予測し、これらの残差の確率分布を推定する補助情報誘導パラメータ推定(APE)モジュールを導入する。 様々なアブレーション研究により提案したモジュールの有効性を実証した。 大規模な実験では、我々のモデルは他のニューラル画像圧縮モデルより優れており、Tecnickデータセット上のVVCよりも19.49\%高い速度歪み性能を実現している。

Recently, significant improvements in rate-distortion performance of image compression have been achieved with deep-learning techniques. A key factor in this success is the use of additional bits to predict an approximation of the latent vector, which is the output of the encoder, through another neural network. Then, only the difference between the prediction and the latent vector is coded into the bitstream, along with its estimated probability distribution. We introduce a new predictive structure consisting of the auxiliary coarse network and the main network, inspired by neural video compression. The auxiliary coarse network encodes the auxiliary information and predicts the approximation of the original image as multi-scale features. The main network encodes the residual between the predicted feature from the auxiliary coarse network and the feature of the original image. To further leverage our new structure, we propose Auxiliary info-guided Feature Prediction (AFP) module that uses global correlation to predict more accurate predicted features. Moreover, we present Context Junction module that refines the auxiliary feature from AFP module and produces the residuals between the refined features and the original image features. Finally, we introduce Auxiliary info-guided Parameter Estimation (APE) module, which predicts the approximation of the latent vector and estimates the probability distribution of these residuals. We demonstrate the effectiveness of the proposed modules by various ablation studies. Under extensive experiments, our model outperforms other neural image compression models and achieves a 19.49\% higher rate-distortion performance than VVC on Tecnick dataset.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# LLM-Measure:社会科学研究における妥当性・一貫性・再現可能なテキストベース尺度の作成

LLM-Measure: Generating Valid, Consistent, and Reproducible Text-Based Measures for Social Science Research ( http://arxiv.org/abs/2409.12722v1 )

ライセンス: Link先を確認
Yi Yang, Hanyu Duan, Jiaxin Liu, Kar Yan Tam, (参考訳) 社会科学研究におけるデータとしてのテキストの利用の増加は、テキストベースの概念尺度を生成する有効な、一貫性のある、再現可能な、効率的な方法の開発を必要とする。 本稿では,大規模言語モデル(LLM)の内部隠れ状態を利用して,これらの概念尺度を生成する手法を提案する。 具体的には,LLMが対象概念を内部的にどのように表現するかをキャプチャする概念ベクトルを学習し,テキストのLLM隠蔽状態を概念ベクトルに投影することでテキストデータの概念値を推定する。 3つの複製研究は、様々な社会科学研究の文脈において、高い妥当性、一貫性、再現可能なテキストベースの尺度を作成する方法の有効性を示し、研究コミュニティにとって価値のあるツールとしての可能性を強調している。

The increasing use of text as data in social science research necessitates the development of valid, consistent, reproducible, and efficient methods for generating text-based concept measures. This paper presents a novel method that leverages the internal hidden states of large language models (LLMs) to generate these concept measures. Specifically, the proposed method learns a concept vector that captures how the LLM internally represents the target concept, then estimates the concept value for text data by projecting the text's LLM hidden states onto the concept vector. Three replication studies demonstrate the method's effectiveness in producing highly valid, consistent, and reproducible text-based measures across various social science research contexts, highlighting its potential as a valuable tool for the research community.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# PVContext:ポイントクラウド圧縮のためのハイブリッドコンテキストモデル

PVContext: Hybrid Context Model for Point Cloud Compression ( http://arxiv.org/abs/2409.12724v1 )

ライセンス: Link先を確認
Guoqing Zhang, Wenbo Zhao, Jian Liu, Yuanchao Bai, Junjun Jiang, Xianming Liu, (参考訳) スキャン技術の進歩により,大規模クラウドデータの効率的な保存がますます困難になっている。 しかし、既存のほとんどのアプローチは、オクツリーノードやボクセル占有のような単一モダリティのコンテキストに依存しており、大きな領域にまたがる情報を取り込む能力を制限している。 本稿では,効率的なオクツリーベースのポイントクラウド圧縮のためのハイブリッドコンテキストモデルであるPVContextを提案する。 PVContextは、ボクセルを用いて局所幾何学情報を正確に表現するVoxel Contextと、ポイントクラウドからグローバルな形状情報を効率的に保存するPoint Contextの2つのコンポーネントから構成される。 これら2つのコンテキストを統合することで、コンテキストサイズを制御しながら、広範囲にわたる詳細な情報を保持できる。 組み合わせたコンテキストを深いエントロピーモデルに入力し、占有率を正確に予測する。 実験により,G-PCCと比較して,セマンティックKITTI LiDAR点群では37.95 %,高密度物体点群では48.98 %,MVUBでは36.36 %のビットレートが減少した。

Efficient storage of large-scale point cloud data has become increasingly challenging due to advancements in scanning technology. Recent deep learning techniques have revolutionized this field; However, most existing approaches rely on single-modality contexts, such as octree nodes or voxel occupancy, limiting their ability to capture information across large regions. In this paper, we propose PVContext, a hybrid context model for effective octree-based point cloud compression. PVContext comprises two components with distinct modalities: the Voxel Context, which accurately represents local geometric information using voxels, and the Point Context, which efficiently preserves global shape information from point clouds. By integrating these two contexts, we retain detailed information across large areas while controlling the context size. The combined context is then fed into a deep entropy model to accurately predict occupancy. Experimental results demonstrate that, compared to G-PCC, our method reduces the bitrate by 37.95\% on SemanticKITTI LiDAR point clouds and by 48.98\% and 36.36\% on dense object point clouds from MPEG 8i and MVUB, respectively.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# Cloudy with a Chance of Anomalies: Dynamic Graph Neural Network for Early Detection of Cloud Services' User Anomalies

Cloudy with a Chance of Anomalies: Dynamic Graph Neural Network for Early Detection of Cloud Services' User Anomalies ( http://arxiv.org/abs/2409.12726v1 )

ライセンス: Link先を確認
Revital Marbel, Yanir Cohen, Ran Dubin, Amit Dvir, Chen Hajaj, (参考訳) クラウド環境のセキュリティを確保することは、組織の成長と運用効率を維持するために不可欠である。 クラウドサービスの普及が進むにつれて、サイバー脅威の必然性はプリエンプティブ検出の重要性を浮き彫りにしている。 本稿では、GNN(Graph Neural Network)を用いて、クラウドサービスとのインタラクション中のユーザ動作の異常を識別する、クラウドサービスグラフベースの異常検出(CS-GAD)の先駆的な時間ベースの埋め込み手法を提案する。 本手法では動的三部グラフ表現を用いて,クラウドサービス,ユーザ,それらの活動間の相互作用を時間とともにカプセル化する。 本手法では,各時間フレームにGNNモデルを活用することで,ユーザの履歴行動に基づいてスコアを割り当て,異常な振る舞いの識別を容易にするグラフ埋め込みを生成する。 その結果, 有意な偽陽性率 (2-9%) の低下と, 有意な真陽性率 (100%) の低下が認められた。 この研究のコントリビューションには、早期検出機能、低い偽陽性率、アクションタイプを取り入れた革新的な三部グラフ表現、さまざまなユーザアタックを特徴とする新しいクラウドサービスデータセットの導入、およびクラウドサービスセキュリティの進歩におけるコミュニティコラボレーションのためのオープンソース実装が含まれている。

Ensuring the security of cloud environments is imperative for sustaining organizational growth and operational efficiency. As the ubiquity of cloud services continues to rise, the inevitability of cyber threats underscores the importance of preemptive detection. This paper introduces a pioneering time-based embedding approach for Cloud Services Graph-based Anomaly Detection (CS-GAD), utilizing a Graph Neural Network (GNN) to discern anomalous user behavior during interactions with cloud services. Our method employs a dynamic tripartite graph representation to encapsulate the evolving interactions among cloud services, users, and their activities over time. Leveraging GNN models in each time frame, our approach generates a graph embedding wherein each user is assigned a score based on their historical activity, facilitating the identification of unusual behavior. Results demonstrate a notable reduction in false positive rates (2-9%) compared to prevailing methods, coupled with a commendable true positive rate (100%). The contributions of this work encompass early detection capabilities, a low false positive rate, an innovative tripartite graph representation incorporating action types, the introduction of a new cloud services dataset featuring various user attacks, and an open-source implementation for community collaboration in advancing cloud service security.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# SparseMoEが騒々しい相互作用に出会ったとき--勧告のデノベーションに関するアンサンブル・ビュー

When SparseMoE Meets Noisy Interactions: An Ensemble View on Denoising Recommendation ( http://arxiv.org/abs/2409.12730v1 )

ライセンス: Link先を確認
Weipu Chen, Zhuangzhuang He, Fei Liu, (参考訳) 暗黙のフィードバックからユーザの好みを学ぶことは、推奨の中心的な課題のひとつです。 その難しさは、暗黙のフィードバックの中の潜在的なノイズにある。 そのため,近年,様々な推薦手法が提案されている。 しかし、それらのほとんどが過度にハイパーパラメータの構成に依存しており、必然的にモデル適応性や一般化性能の欠如につながっている。 そこで本研究では, スパースゲーティングネットワークを脳として用い, 異なるデータサンプルに対する適切な認知能力の合成に適した専門家を選択する, 適応アンサンブル学習(AEL)を提案する。 モデル複雑性のアンサンブル学習の欠点に対処し,サブレコメンダの多様性を確保するために,コンポーネントを積み重ねてサブレコメンダを作成する手法も提案した。 様々なデータセットにわたる大規模な実験により、ALEは、実質的でダイナミックなノイズの存在下であっても、一般的なメトリクスの種類で他よりも優れていることが示される。 私たちのコードはhttps://github.com/cpu9xx/AELで公開されています。

Learning user preferences from implicit feedback is one of the core challenges in recommendation. The difficulty lies in the potential noise within implicit feedback. Therefore, various denoising recommendation methods have been proposed recently. However, most of them overly rely on the hyperparameter configurations, inevitably leading to inadequacies in model adaptability and generalization performance. In this study, we propose a novel Adaptive Ensemble Learning (AEL) for denoising recommendation, which employs a sparse gating network as a brain, selecting suitable experts to synthesize appropriate denoising capacities for different data samples. To address the ensemble learning shortcoming of model complexity and ensure sub-recommender diversity, we also proposed a novel method that stacks components to create sub-recommenders instead of directly constructing them. Extensive experiments across various datasets demonstrate that AEL outperforms others in kinds of popular metrics, even in the presence of substantial and dynamic noise. Our code is available at https://github.com/cpu9xx/AEL.
翻訳日:2024-11-07 13:45:42 公開日:2024-09-19
# MEXMA:token-level objectives improve sentence representations

MEXMA: Token-level objectives improve sentence representations ( http://arxiv.org/abs/2409.12737v1 )

ライセンス: Link先を確認
João Maria Janeiro, Benjamin Piwowarski, Patrick Gallinari, Loïc Barrault, (参考訳) 現在の訓練済みの言語間文エンコーダは、文レベルの目的のみを使用する。 これにより、特にトークンの情報が失われ、文表現が劣化する可能性がある。 文レベルとトークンレベルの両方の目的を統合する新しいアプローチであるMEXMAを提案する。 ある言語の文表現は、他の言語のマスキングトークンを予測するために使用され、文表現と全てのトークンがエンコーダを直接更新する。 トークンレベルの目的を付加することで,複数のタスク間の文表現品質が大幅に向上することを示す。 提案手法は、バイテキストマイニングや下流タスクにおいて、現在トレーニング済みの言語間文エンコーダよりも優れています。 また、トークンにエンコードされた情報と、それらから文表現を構築する方法について分析する。

Current pre-trained cross-lingual sentence encoders approaches use sentence-level objectives only. This can lead to loss of information, especially for tokens, which then degrades the sentence representation. We propose MEXMA, a novel approach that integrates both sentence-level and token-level objectives. The sentence representation in one language is used to predict masked tokens in another language, with both the sentence representation and all tokens directly updating the encoder. We show that adding token-level objectives greatly improves the sentence representation quality across several tasks. Our approach outperforms current pre-trained cross-lingual sentence encoders on bi-text mining as well as several downstream tasks. We also analyse the information encoded in our tokens, and how the sentence representation is built from them.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# 外部共鳴衝突モデルにおける有効負絶対温度浴と結合した量子ビット

Qubit coupled with an effective negative-absolute-temperature bath in off-resonant collision model ( http://arxiv.org/abs/2409.12738v1 )

ライセンス: Link先を確認
Wei-Bin Yan, Zhong-Xiao Man, Ying-Jie Zhang, Yun-Jie Xia, (参考訳) 量子衝突モデルは、システムバス力学を調査するための有望なツールを提供する。 量子衝突モデルの研究のほとんどは共鳴状態で動作する。 量子力学では、非共鳴相互作用はしばしばエキサイティングな欠陥をもたらす。 したがって、非共鳴状態における量子衝突モデルを調べることは魅力的である。 一方, 熱装置の開発には負の絶対温度の浴が有効であることが期待される。 量子ビットに負の絶対温度を結合した有効浴槽の設計は、そのような熱装置の開発に重要である。 我々は、量子衝突モデルと量子ビットを結合した有効負絶対温度浴を遠方共振系で確立する。 我々は、非共鳴衝突モデルの詳細かつ体系的な研究を行う。 遠方共振衝突による衝突持続時間には、さらなる制約がある。 遠方共振系における衝突モデルの力学は遠方共振系以外のものと異なる。 数値シミュレーションにより,提案手法の有効性が検証された。

Quantum collision model provides a promising tool for investigating system-bath dynamics. Most of the studies on quantum collision models work in the resonant regime. In quantum dynamics, the off-resonant interaction often brings in exciting ffects. It is thereby attractive to investigate quantum collision models in the off-resonant regime. On the other hand, a bath with a negative absolute temperature is anticipated to be instrumental in developing thermal devices. The design of an effective bath with negative absolute temperature coupled to a qubit is significant for developing such thermal devices. We establish an effective negative-absolute-temperature bath coupled to a qubit with a quantum collision model in a far-off-resonant regime. We conduct a detailed and systematic investigation on the off-resonant collision model. There is an additional constraint on the collision duration resulting from the far-off resonant collision. The dynamics of the collision model in the far-off-resonant regime are different from the one beyond the far-off-resonant regime. Numerical simulations confirm the validity of the proposed approach.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# HLLM: アイテムとユーザモデリングのための階層型大規模言語モデルによるシーケンスレコメンデーションの強化

HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling ( http://arxiv.org/abs/2409.12740v1 )

ライセンス: Link先を確認
Junyi Chen, Lu Chi, Bingyue Peng, Zehuan Yuan, (参考訳) 大規模言語モデル(LLM)は様々な分野で顕著な成功を収めており、いくつかの研究がレコメンデーションシステムにおいてその可能性を探求している。 しかし、これらの試みは従来のレコメンデーションモデルよりもわずかに改善されている。 第一に、LLMの事前訓練された重量の真の価値は、しばしば世界知識をカプセル化していると考えられており、第二に、レコメンデーションタスクのための微調整の必要性、そして第二に、LLMが他のドメインと同様のスケーラビリティ上の利点をレコメンデーションシステムにもたらすことができるかどうかである。 本稿では,シーケンシャルレコメンデーションシステムを強化するために,新しい階層型大規模言語モデル(HLLM)アーキテクチャを提案する。 第1項目 LLM はアイテムの詳細テキスト記述からリッチコンテンツ特徴を抽出し,第2ユーザ LLM はこれらの特徴を利用してインタラクション履歴に基づいてユーザの将来的関心を予測する。 大規模な実験により,提案手法はLLMの事前学習能力を効果的に利用し,さらなる微調整により性能が大幅に向上することを示した。 さらにHLLMは,項目特徴抽出とユーザ関心モデリングの両方に 7B パラメータを利用する構成で,優れたスケーラビリティを実現している。 さらに、HLLMは優れたトレーニングとサービス効率を提供し、現実世界のアプリケーションで実用的である。 PixelRecとAmazon Reviewsの2つの大規模データセットの評価によると、HLLMは最先端の結果を達成し、従来のIDベースのモデルよりも幅広いマージンを達成している。 オンラインA/Bテストでは、HLLMは顕著な利益を示し、現実のレコメンデーションシナリオにおける実践的な影響を検証している。 コードはhttps://github.com/bytedance/HLLMで公開されている。

Large Language Models (LLMs) have achieved remarkable success in various fields, prompting several studies to explore their potential in recommendation systems. However, these attempts have so far resulted in only modest improvements over traditional recommendation models. Moreover, three critical questions remain under-explored: firstly, the real value of LLMs' pre-trained weights, often considered to encapsulate world knowledge; secondly, the necessity of fine-tuning for recommendation tasks; lastly, whether LLMs can exhibit the same scalability benefits in recommendation systems as they do in other domains. In this paper, we propose a novel Hierarchical Large Language Model (HLLM) architecture designed to enhance sequential recommendation systems. Our approach employs a two-tier model: the first Item LLM extracts rich content features from the detailed text description of the item, while the second User LLM utilizes these features to predict users' future interests based on their interaction history. Extensive experiments demonstrate that our method effectively leverages the pre-trained capabilities of open-source LLMs, and further fine-tuning leads to significant performance boosts. Additionally, HLLM achieves excellent scalability, with the largest configuration utilizing 7B parameters for both item feature extraction and user interest modeling. Moreover, HLLM offers excellent training and serving efficiency, making it practical in real-world applications. Evaluations on two large-scale datasets, PixelRec and Amazon Reviews, show that HLLM achieves state-of-the-art results, outperforming traditional ID-based models by a wide margin. In online A/B testing, HLLM showcases notable gains, validating its practical impact in real-world recommendation scenarios. Codes are available at https://github.com/bytedance/HLLM.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# 音声コマンドのための合成訓練データの強化:ASRに基づくフィルタリングからSSL遅延空間におけるドメイン適応へ

Enhancing Synthetic Training Data for Speech Commands: From ASR-Based Filtering to Domain Adaptation in SSL Latent Space ( http://arxiv.org/abs/2409.12745v1 )

ライセンス: Link先を確認
Sebastião Quintas, Isabelle Ferrané, Thomas Pellegrini, (参考訳) データ拡張における合成音声の利用は,音声認識や音声分類タスクなどの分野で人気が高まっている。 音声のクローン機能を備えた音声合成システムでは,短い音声セグメントをベースとした音声を多量に使用することができるが,これらのシステムは幻覚的になりがちであり,ダウンストリームタスクに悪影響を及ぼすおそれのある悪いデータを生成することが多いことが知られている。 本研究では,音声コマンドの特定タスクに対する合成音声データを用いたゼロショット学習に関する一連の実験を行う。 Google Speech Commandsデータセットの結果から、単純なASRベースのフィルタリング手法は、生成されたデータの品質に大きな影響を及ぼし、より良いパフォーマンスに変換できることが示された。 さらに, 生成した音声データの品質が良好であるにもかかわらず, 自己教師付き(WavLM)特徴を用いた場合, 合成音声と実音声の区別が依然として容易であることを示す。

The use of synthetic speech as data augmentation is gaining increasing popularity in fields such as automatic speech recognition and speech classification tasks. Despite novel text-to-speech systems with voice cloning capabilities, that allow the usage of a larger amount of voices based on short audio segments, it is known that these systems tend to hallucinate and oftentimes produce bad data that will most likely have a negative impact on the downstream task. In the present work, we conduct a set of experiments around zero-shot learning with synthetic speech data for the specific task of speech commands classification. Our results on the Google Speech Commands dataset show that a simple ASR-based filtering method can have a big impact in the quality of the generated data, translating to a better performance. Furthermore, despite the good quality of the generated speech data, we also show that synthetic and real speech can still be easily distinguishable when using self-supervised (WavLM) features, an aspect further explored with a CycleGAN to bridge the gap between the two types of speech material.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# 大学入学試験における一般知識に基づく言語モデルのバイリンガル評価

Bilingual Evaluation of Language Models on General Knowledge in University Entrance Exams with Minimal Contamination ( http://arxiv.org/abs/2409.12746v1 )

ライセンス: Link先を確認
Eva Sánchez Salido, Roser Morante, Julio Gonzalo, Guillermo Marco, Jorge Carrillo-de-Albornoz, Laura Plaza, Enrique Amigó, Andrés Fernández, Alejandro Benito-Santos, Adrián Ghajari Espinosa, Victor Fresno, (参考訳) 本稿では、スペイン語と英語の大学入学レベルの試験に関する1003の質問からなるバイリンガルデータセットUNED-ACCESS 2024を紹介する。 質問は元々スペイン語で定式化され、手動で英語に翻訳され、公開されていない。 現在のオープンソースモデルとプロプライエタリモデルの選択は、UNED-ACCESS 2024データセットとMMLU質問の等価サブセットの両方で一様ゼロショット実験環境で評価される。 その結果は (i)モデルにとって理性的な疑問は困難である。 (ii)より小型のモデルはより大きなモデルよりも性能が悪く、スペイン語の方が英語や英語より早く劣化する 3) 言語間のパフォーマンスギャップは、最高のモデルでは無視され、より小さなモデルでは最大37%まで増大します。 UNED-ACCESS 2024のモデルランキングは、英語とスペイン語でほぼ同一であり、MMLUのモデルランキングと高い相関(0.98ピアソン)を持ち、小さなデータセットが十分に多様であり、規律によってパフォーマンスを測定するために代表的であることを示唆している。

In this article we present UNED-ACCESS 2024, a bilingual dataset that consists of 1003 multiple-choice questions of university entrance level exams in Spanish and English. Questions are originally formulated in Spanish and translated manually into English, and have not ever been publicly released. A selection of current open-source and proprietary models are evaluated in a uniform zero-shot experimental setting both on the UNED-ACCESS 2024 dataset and on an equivalent subset of MMLU questions. Results show that (i) reasoning questions are challenging for models, (ii) smaller models perform worse than larger models and degrade faster in Spanish than in English and (iii) the performance gap between languages is negligible for the best models and grows up to 37% for smaller models. Model ranking on UNED-ACCESS 2024 is almost identical in English and Spanish, and has also a high correlation (0.98 Pearson) with ranking on MMLU, suggesting that a small dataset is sufficiently diverse and representative to measure performance by discipline.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# 長距離イジングスピンバスカップリングによる中心スピン問題のデフォーカス

Dephasing in the central spin problem with long-range Ising spin-bath coupling ( http://arxiv.org/abs/2409.12749v1 )

ライセンス: Link先を確認
Kevin Ben Attar, Nir Bar-Gill, (参考訳) オープン量子系におけるコヒーレンスダイナミクスの研究、特に量子システムと環境の様々な物理的実現に対処する研究は、量子科学とテクノロジーの長年の柱である。 このように、膨大な量の研究がこれらの過程をしっかりと理論的に理解している。 それにもかかわらず、デコヒーレンス力学の基本的な側面、すなわち中心スピンモデルにおける量子ビットのDephasingの中央極限定理は、ガウス近似をもたらすが、現実的に関連するシナリオにおいて形式的な証明を欠いている。 ここでは、イジング・スピン・システム(Ising spin system)によって描かれた浴槽に対するこの近似を、障害の存在と、いくつかの(最も関連する)機能的なQubit-bath結合の存在下で証明する。 重要なことに、いくつかのケース、すなわち、短距離(指数的に崩壊する)結合の場合、この近似は破滅する。 これらの結果は、様々なシステムのデコヒーレンスダイナミクスを研究するための理論的枠組みを提供し、量子情報、量子コンピューティング、その他の量子技術への応用に影響を及ぼすような、デコヒーレンスな振る舞いに対する洞察をもたらす。

The study of coherence dynamics in open quantum systems, specifically addressing various physical realizations of quantum systems and environments, is a long-standing and central pillar of quantum science and technology. As such, a large body of work establishes a firm theoretical understanding of these processes. Nevertheless, a fundamental aspect of decoherence dynamics, namely the central limit theorem of qubit dephasing in the central spin model, which leads to a Gaussian approximation, lacks formal proof in realistically relevant scenarios. Here we prove this approximation for a bath depicted by an Ising spin system, in the presence of disorder and several (most relevant) functional forms of qubit-bath coupling. Importantly, we show that in certain cases, namely for short-range (exponentially decaying) coupling, this approximation breaks. These results provide a theoretical framework for studying decoherence dynamics in various systems and lead to insights into dephasing behavior with implications for applications in quantum information, quantum computing, and other quantum technologies.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# 弱い測定に基づくスキームと双対量子アルゴリズムを用いた実験的デコヒーレンス緩和

Experimental decoherence mitigation using a weak measurement-based scheme and the duality quantum algorithm ( http://arxiv.org/abs/2409.12752v1 )

ライセンス: Link先を確認
Gayatri Singh, Akshay Gaikwad, Arvind, Kavita Dorai, (参考訳) 我々は、NMR量子プロセッサにおいて、振幅減衰によるデコヒーレンスの影響を改善するための弱い測定と逆数に基づく手法を実験的に実証した。 弱い測定と測定の反転過程は、通常、単項量子演算のみが許される従来の量子プロセッサでは不可能な非単項演算の実装を必要とする。 双対量子アルゴリズムは、弱い測定と測定逆数に対応する要求される非単位量子演算を効率的に実装するために用いられる。 我々は,4量子ビット系における状態保護を示すことにより,弱い測定に基づくデコヒーレンス緩和方式の有効性を実験的に検証した。 実験結果から, 所望の状態を保護するために, 弱い測定に基づくデコヒーレンス緩和法が有効であったことが明らかとなった。 関連する測定過程は単体以下であるため、このスキームはフィルタースキームとみなすことができ、スピンのサブセットが保護され、残りのスピンは破棄される。

We experimentally demonstrate a weak measurement and measurement reversal-based scheme to ameliorate the effects of decoherence due to amplitude damping, on an NMR quantum processor. The weak measurement and measurement reversal processes require the implementation of non-unitary operations, which are typically infeasible on conventional quantum processors, where only unitary quantum operations are allowed. The duality quantum algorithm is used to efficiently implement the required non-unitary quantum operations corresponding to weak measurement and measurement reversal. We experimentally validate the efficacy of the weak measurement-based decoherence mitigation scheme by showing state protection on a four-qubit system, with one qubit being designated as the 'system qubit', while the remaining three qubits serve as 'ancilla qubits'. Our experimental results clearly demonstrate the success of the weak measurement-based decoherence mitigation scheme in protecting the desired state. Since the measurement process involved has trace less than unity, the scheme can be thought of as a filtration scheme, where a subset of the spins is protected while the rest of the spins can be discarded.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# ドライビングフォワード:フレキシブル・サラウンド・ビュー・インプットによる3次元3次元ガウス切削

DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input ( http://arxiv.org/abs/2409.12753v1 )

ライセンス: Link先を確認
Qijian Tian, Xin Tan, Yuan Xie, Lizhuang Ma, (参考訳) フレキシブルなサラウンドビュー入力から運転シーンを再構成するフィードフォワードガウススプレイティングモデルであるドライビングフォワードを提案する。 車両に搭載されたカメラからのシーンイメージの運転は、通常は少ないが、オーバーラップは限定的であり、車両の動きは、カメラ外装の取得をさらに複雑にする。 これらの課題に対処し、リアルタイムな再構築を実現するため、我々はポーズ・ネットワーク、ディープ・ネットワーク、ガウス・ネットワークを共同で訓練し、ドライビングシーンを表すガウス的プリミティブを予測する。 ポーズネットワークと奥行きネットワークは、訓練中に奥行きの真実とカメラ外在物を用いることなく、ガウス原始体の位置を自己監督的に決定する。 ガウスネットワークは、共分散、不透明、球面調和係数を含む各入力画像から原始パラメータを独立に予測する。 推論段階では、フレキシブルなマルチフレームサラウンドビュー入力からフィードフォワードを復元することができる。 nuScenesデータセットの実験により、我々のモデルは、復元の観点から既存のフィードフォワードとシーン最適化の再構築方法よりも優れていることが示された。

We propose DrivingForward, a feed-forward Gaussian Splatting model that reconstructs driving scenes from flexible surround-view input. Driving scene images from vehicle-mounted cameras are typically sparse, with limited overlap, and the movement of the vehicle further complicates the acquisition of camera extrinsics. To tackle these challenges and achieve real-time reconstruction, we jointly train a pose network, a depth network, and a Gaussian network to predict the Gaussian primitives that represent the driving scenes. The pose network and depth network determine the position of the Gaussian primitives in a self-supervised manner, without using depth ground truth and camera extrinsics during training. The Gaussian network independently predicts primitive parameters from each input image, including covariance, opacity, and spherical harmonics coefficients. At the inference stage, our model can achieve feed-forward reconstruction from flexible multi-frame surround-view input. Experiments on the nuScenes dataset show that our model outperforms existing state-of-the-art feed-forward and scene-optimized reconstruction methods in terms of reconstruction.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# 情報非平衡濃度

Informational non-equilibrium concentration ( http://arxiv.org/abs/2409.12759v1 )

ライセンス: Link先を確認
Chung-Yun Hsieh, Benjamin Stratton, Hao-Cheng Weng, Valerio Scarani, (参考訳) 熱力学への情報的貢献は、完全に退化したハミルトン系を考えることによって、独立して研究することができる。 この体制では、情報非平衡(informational non-equilibrium)と呼ばれる非平衡状態は、情報内容からのみ抽出可能な仕事のような熱力学的資源を提供する。 情報非平衡の有用性は、より多くを得るインセンティブを生み出し、どのように集中するかという疑問を動機づける: グローバル閉系(単位系)進化の下で、製品状態の局所的な情報非平衡を$\rho\otimes\rho$で増やすことができるか? この問題を解析的に完全に解き、2量子ビットでは不可能であることを示し、高次元でこれを達成できる状態を見つけることは常に可能である。 このフレームワークにおけるバウンドリソースの概念は、初期グローバル相関が濃度を活性化する能力とともに議論される。 最後に,本研究の結果を,純度と本質的ランダム性の測定に応用した。

Informational contributions to thermodynamics can be studied in isolation by considering systems with fully-degenerate Hamiltonians. In this regime, being in non-equilibrium -- termed informational non-equilibrium -- provides thermodynamic resources, such as extractable work, solely from the information content. The usefulness of informational non-equilibrium creates an incentive to obtain more of it, motivating the question of how to concentrate it: can we increase the local informational non-equilibrium of a product state $\rho\otimes\rho$ under a global closed system (unitary) evolution? We fully solve this problem analytically, showing that it is impossible for two-qubits, and it is always possible to find states achieving this in higher dimensions. The notion of bound resources in this framework is then discussed, along with initial global correlations' ability to activate concentration. Finally, we apply our results to study the concentration of purity and intrinsic randomness.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# COCO-Occ:Occluded Panoptic Segmentationと画像理解のためのベンチマーク

COCO-Occ: A Benchmark for Occluded Panoptic Segmentation and Image Understanding ( http://arxiv.org/abs/2409.12760v1 )

ライセンス: Link先を確認
Wenbo Wei, Jun Wang, Abhir Bhalerao, (参考訳) そこで本研究では,COCOイメージを3つのオクルージョンレベルにラベル付けすることで,COCOデータセットから派生した大規模データセットCOCO-Occを提案する。 COCO-Occを用いて, 閉塞レベルが異なる試料に対して, 閉塞が汎視的セグメンテーションに及ぼす影響を系統的に評価し, 定量化する。 SOTAパノプティカルモデルとの比較実験により、閉塞の存在が高い閉塞レベルの性能に大きく影響し、性能が著しく低下することが示された。 さらに,異なるオクルージョンの重大さをキャプチャするより堅牢な表現を学習するモデルを描画するために,コントラッシブラーニングを用いてオクルージョンアノテーションを活用するための最初の試みとして,単純かつ効果的な手法を提案する。 実験により,提案手法はベースラインモデルの性能を向上し,COCO-Occデータセット上でのSOTA性能を実現することを示す。

To help address the occlusion problem in panoptic segmentation and image understanding, this paper proposes a new large-scale dataset, COCO-Occ, which is derived from the COCO dataset by manually labelling the COCO images into three perceived occlusion levels. Using COCO-Occ, we systematically assess and quantify the impact of occlusion on panoptic segmentation on samples having different levels of occlusion. Comparative experiments with SOTA panoptic models demonstrate that the presence of occlusion significantly affects performance with higher occlusion levels resulting in notably poorer performance. Additionally, we propose a straightforward yet effective method as an initial attempt to leverage the occlusion annotation using contrastive learning to render a model that learns a more robust representation capturing different severities of occlusion. Experimental results demonstrate that the proposed approach boosts the performance of the baseline model and achieves SOTA performance on the proposed COCO-Occ dataset.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# 保健部門におけるAI対応サイバー脅威評価に向けて

Towards AI-enabled Cyber Threat Assessment in the Health Sector ( http://arxiv.org/abs/2409.12765v1 )

ライセンス: Link先を確認
Patrizia Heinl, Andrius Patapovas, Michael Pilgermann, (参考訳) 医療業界に対するサイバー攻撃は、重大な結果をもたらし、攻撃面は継続的に拡大する。 着実に増加する労働負荷に対処するために、医療機関におけるアナログプロセスの増大がデジタル化されている。 規制が厳格になったにもかかわらず、既存のインフラがサイバー攻撃から十分に保護されているわけではない。 デバイスやデジタルプロセスの増加に伴い、システムとネットワークのランドスケープは複雑になり、管理が難しくなり、保護も困難になる。 このプロジェクトの目的は、医療機関の外部からセキュリティ関連情報を収集し、分析し、リスクスコアを提供し、医療機関の意思決定者をサポートし、セキュリティ対策のための投資選択を最適化するAI対応プラットフォームを導入することである。 そのため、そのようなプラットフォームのアーキテクチャが設計され、関連する情報ソースが特定され、関連するデータ収集、選択、リスクスコアリングのためのAIメソッドが探索される。

Cyber attacks on the healthcare industry can have tremendous consequences and the attack surface expands continuously. In order to handle the steadily rising workload, an expanding amount of analog processes in healthcare institutions is digitized. Despite regulations becoming stricter, not all existing infrastructure is sufficiently protected against cyber attacks. With an increasing number of devices and digital processes, the system and network landscape becomes more complex and harder to manage and therefore also more difficult to protect. The aim of this project is to introduce an AI-enabled platform that collects security relevant information from the outside of a health organization, analyzes it, delivers a risk score and supports decision makers in healthcare institutions to optimize investment choices for security measures. Therefore, an architecture of such a platform is designed, relevant information sources are identified, and AI methods for relevant data collection, selection, and risk scoring are explored.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# コミュニケーションにおけるスパイクニューラルネットワークのロバスト性とそのフェデレーション学習におけるネットワーク効率への応用

The Robustness of Spiking Neural Networks in Communication and its Application towards Network Efficiency in Federated Learning ( http://arxiv.org/abs/2409.12769v1 )

ライセンス: Link先を確認
Manh V. Nguyen, Liang Zhao, Bobin Deng, William Severa, Honghui Xu, Shaoen Wu, (参考訳) スパイキングニューラルネットワーク(SNN)は最近、組み込みデバイスにおけるオンチップ学習に大きな関心を集め、従来のニューラルネットワーク(ANN)に代わるエネルギー効率の高い代替品として登場した。 しかし、SNNをコラボレーティブモデルトレーニングを含むフェデレートラーニング(FL)環境に拡張するためには、ローカルデバイスとリモートサーバ間の通信がボトルネックのままであり、しばしば制限されコストがかかる。 本稿では,FLにおける雑音伝達下でのSNNの固有ロバスト性について検討する。 そこで本研究では,FLトレーニングにおける帯域幅の削減を目的とした,FLTS(Federated Learning with Top-K Sparsification)アルゴリズムを提案する。 SNNを用いた提案手法により,モデル精度に影響を与えることなく,ANNよりも帯域幅の節約が可能であることが判明した。 さらに、通信すべきパラメータの数は、元のモデルのサイズの6%まで削減できる。 モデルトレーニング中に動的パラメータ圧縮を行うことで通信効率をさらに向上する。 実験の結果,提案アルゴリズムは通信コストやモデル精度の点でベースラインを著しく上回り,SNNを用いた実用的なネットワーク効率FLの実現が期待できることがわかった。

Spiking Neural Networks (SNNs) have recently gained significant interest in on-chip learning in embedded devices and emerged as an energy-efficient alternative to conventional Artificial Neural Networks (ANNs). However, to extend SNNs to a Federated Learning (FL) setting involving collaborative model training, the communication between the local devices and the remote server remains the bottleneck, which is often restricted and costly. In this paper, we first explore the inherent robustness of SNNs under noisy communication in FL. Building upon this foundation, we propose a novel Federated Learning with Top-K Sparsification (FLTS) algorithm to reduce the bandwidth usage for FL training. We discover that the proposed scheme with SNNs allows more bandwidth savings compared to ANNs without impacting the model's accuracy. Additionally, the number of parameters to be communicated can be reduced to as low as 6 percent of the size of the original model. We further improve the communication efficiency by enabling dynamic parameter compression during model training. Extensive experiment results demonstrate that our proposed algorithms significantly outperform the baselines in terms of communication cost and model accuracy and are promising for practical network-efficient FL with SNNs.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# TEAM PILOT -- 動的MRI取得軌跡の学習可能な拡張可能なセット

TEAM PILOT -- Learned Feasible Extendable Set of Dynamic MRI Acquisition Trajectories ( http://arxiv.org/abs/2409.12777v1 )

ライセンス: Link先を確認
Tamir Shor, Chaim Baskin, Alex Bronstein, (参考訳) ダイナミック磁気共鳴イメージング(Dynamic Magnetic Resonance Imaging, MRI)は、内臓や組織の動きを捉えるための非侵襲的手法であり、医学的診断の鍵となるツールである。 しかし、ダイナミックMRIは、空間的および時間的解像度を達成するのに必要な長い取得時間という大きな課題に直面している。 これにより、コスト、患者の不快感、モーションアーティファクト、画像品質が向上する。 圧縮センシング(CS)は、選択したサンプリングパターンに基づいてフーリエ領域のMRデータを減らし、この部分データから全体像を再構成することでこの問題に対処する。 これらのサンプリングパターンを最適化し、再構築を改善するために様々なディープラーニング手法が開発されているが、しばしば遅い最適化と推論時間に苦しむか、訓練中に使用される特定の時間次元に制限される。 本研究では,3次元ウィンドウアテンションとフレキシブルで時間的に拡張可能な取得トラジェクトリを用いた,新しい深部圧縮型センシング手法を提案する。 提案手法は,既存の手法と比較してトレーニング時間と推論時間を著しく短縮すると同時に,追加のトレーニングを必要とせず,推論中に異なる時間次元に適応する。 実データによるテストは、我々のアプローチが現在の最先端技術よりも優れていることを示している。 すべての実験を再現するためのコードは、論文の受理時に利用可能になる。

Dynamic Magnetic Resonance Imaging (MRI) is a crucial non-invasive method used to capture the movement of internal organs and tissues, making it a key tool for medical diagnosis. However, dynamic MRI faces a major challenge: long acquisition times needed to achieve high spatial and temporal resolution. This leads to higher costs, patient discomfort, motion artifacts, and lower image quality. Compressed Sensing (CS) addresses this problem by acquiring a reduced amount of MR data in the Fourier domain, based on a chosen sampling pattern, and reconstructing the full image from this partial data. While various deep learning methods have been developed to optimize these sampling patterns and improve reconstruction, they often struggle with slow optimization and inference times or are limited to specific temporal dimensions used during training. In this work, we introduce a novel deep-compressed sensing approach that uses 3D window attention and flexible, temporally extendable acquisition trajectories. Our method significantly reduces both training and inference times compared to existing approaches, while also adapting to different temporal dimensions during inference without requiring additional training. Tests with real data show that our approach outperforms current state-of-theart techniques. The code for reproducing all experiments will be made available upon acceptance of the paper.
翻訳日:2024-11-07 13:34:43 公開日:2024-09-19
# 最適な決定木? 目的、チューニング、パフォーマンスを再考する

Optimal or Greedy Decision Trees? Revisiting their Objectives, Tuning, and Performance ( http://arxiv.org/abs/2409.12788v1 )

ライセンス: Link先を確認
Jacobus G. M. van der Linden, Daniël Vos, Mathijs M. de Weerdt, Sicco Verwer, Emir Demirović, (参考訳) 決定木は伝統的に、不純物や情報メトリクスを局所的に最適化する欲張りのヒューリスティックを使って訓練されている。 近年,精度を直接最適化する最適決定木 (ODT) 手法への関心が高まっている。 我々は,ODTの比較的探索されていない2つの側面を同定する。 さらに、最適手法の価値はまだよく理解されていないが、文献では矛盾する結果が得られており、ODTの非サンプル性能がグリーディアプローチよりも優れていることを示すものもあれば、正反対を示すものもある。 本稿では、ODTにおける最適化の目的、ODTのチューニング方法、最適メソッドと欲求メソッドの比較方法、の3つの疑問に対処する。 実験により,本分析から得られた4つの新たな目的,7つのチューニング手法,および165個の実・合成データセット上での最適および欲求的手法に関する文献からの6つの主張を含む,13の目的関数について検討した。 我々は,概念的にも実験的にも,新しい非接触目標を発見し,適切なチューニングの重要性を強調し,文献からのいくつかの主張を補足し,反論し,研究者や実践者に対して,欲求的かつ最適な方法の使用に関する明確な勧告と今後の比較のためのコードを提供する。

Decision trees are traditionally trained using greedy heuristics that locally optimize an impurity or information metric. Recently there has been a surge of interest in optimal decision tree (ODT) methods that globally optimize accuracy directly. We identify two relatively unexplored aspects of ODTs: the objective function used in training trees and tuning techniques. Additionally, the value of optimal methods is not well understood yet, as the literature provides conflicting results, with some demonstrating superior out-of-sample performance of ODTs over greedy approaches, while others show the exact opposite. In this paper, we address these three questions: what objective to optimize in ODTs; how to tune ODTs; and how do optimal and greedy methods compare? Our experimental evaluation examines 13 objective functions, including four novel objectives resulting from our analysis, seven tuning methods, and six claims from the literature on optimal and greedy methods on 165 real and synthetic data sets. Through our analysis, both conceptually and experimentally, we discover new non-concave objectives, highlight the importance of proper tuning, support and refute several claims from the literature, and provide clear recommendations for researchers and practitioners on the usage of greedy and optimal methods, and code for future comparisons.
翻訳日:2024-11-07 13:23:33 公開日:2024-09-19
# Cascading Refinement CNNを用いたマルチソース・マルチシーケンス心筋病変分離法

Multi-Source and Multi-Sequence Myocardial Pathology Segmentation Using a Cascading Refinement CNN ( http://arxiv.org/abs/2409.12792v1 )

ライセンス: Link先を確認
Franz Thaler, Darko Stern, Gernot Plank, Martin Urschler, (参考訳) 心筋梗塞 (MI) は心臓血管疾患の中で最も多い疾患の1つである。 術後MI患者の心筋組織生存率の正確な評価は, 外科的再血管化を許容する診断と治療計画, 将来における心血管障害のリスクを判断するために重要である。 相補的な医用画像技術から得られる情報を組み合わせて、心筋とその周囲の解剖学的構造をきめ細かい分析を行うことができる。 本研究は, 左室, 右室, 健常, 軽度の心筋組織, および浮腫を意味的に分別するために, 後期ガドリニウム増強 (LGE) 磁気共鳴 (MR), T2強調 (T2) MR, バランスの取れた定常自由前立腺 (bSSFP) MRを用いた。 そこで本研究では,Multi-Sequence Cascading Refinement CNN (MS-CaRe-CNN)を提案する。 次に、ステージ1の予測はステージ2でさらに洗練され、モデルでは、生存性、すなわち健康、傷つき、浮腫領域に基づいて心筋組織を識別する。 提案手法は5次元アンサンブルとして設定され,62.31% DSC,82.65% の精度,63.78% DSC,87.69% の精度が得られた。 これらの小規模で挑戦的な構造に対する有望な結果は、MS-CaRe-CNNが心筋組織の生存可能性を評価するためにセマンティックセグメンテーションを生成するのに適していることを確認し、パーソナライズされたセラピー計画のような下流のタスクを可能にした。

Myocardial infarction (MI) is one of the most prevalent cardiovascular diseases and consequently, a major cause for mortality and morbidity worldwide. Accurate assessment of myocardial tissue viability for post-MI patients is critical for diagnosis and treatment planning, e.g. allowing surgical revascularization, or to determine the risk of adverse cardiovascular events in the future. Fine-grained analysis of the myocardium and its surrounding anatomical structures can be performed by combining the information obtained from complementary medical imaging techniques. In this work, we use late gadolinium enhanced (LGE) magnetic resonance (MR), T2-weighted (T2) MR and balanced steady-state free precession (bSSFP) cine MR in order to semantically segment the left and right ventricle, healthy and scarred myocardial tissue, as well as edema. To this end, we propose the Multi-Sequence Cascading Refinement CNN (MS-CaRe-CNN), a 2-stage CNN cascade that receives multi-sequence data and generates predictions of the anatomical structures of interest without considering tissue viability at Stage 1. The prediction of Stage 1 is then further refined in Stage 2, where the model additionally distinguishes myocardial tissue based on viability, i.e. healthy, scarred and edema regions. Our proposed method is set up as a 5-fold ensemble and semantically segments scar tissue achieving 62.31% DSC and 82.65% precision, as well as 63.78% DSC and 87.69% precision for the combined scar and edema region. These promising results for such small and challenging structures confirm that MS-CaRe-CNN is well-suited to generate semantic segmentations to assess the viability of myocardial tissue, enabling downstream tasks like personalized therapy planning.
翻訳日:2024-11-07 13:23:33 公開日:2024-09-19
# 共分散および最小誤差検定による直接因果親の同定

Efficient Identification of Direct Causal Parents via Invariance and Minimum Error Testing ( http://arxiv.org/abs/2409.12797v1 )

ライセンス: Link先を確認
Minh Nguyen, Mert R. Sabuncu, (参考訳) Invariant causal prediction(ICP)は、分布シフトと不変性テスト(Peters et al , 2016)を利用して標的の因果親(直接的な原因)を見つけるための一般的な手法である。 しかし、ICPは指数関数的な数のテストを実行する必要があり、分布シフトが少数の変数にしか影響しない場合、親を識別できないため、ICPを実用的な大規模問題に適用することは困難である。 ICPの識別可能性問題に対処するために,誤り不等式を用いたMMSE-ICPと高速ICPを提案する。 不等式は、因果親を用いた予測器の最小誤差は、子孫を使用しない全ての予測器の中で最小であると述べている。 fastICPは、より少ないテストを実行するために不等式とヒューリスティックを利用するため、大きな問題に適した効率的な近似である。 MMSE-ICPとfastICPは多くのシミュレーションにおいて競争ベースラインを上回るだけでなく、大規模な実データベンチマークで最先端の結果が得られる。

Invariant causal prediction (ICP) is a popular technique for finding causal parents (direct causes) of a target via exploiting distribution shifts and invariance testing (Peters et al., 2016). However, since ICP needs to run an exponential number of tests and fails to identify parents when distribution shifts only affect a few variables, applying ICP to practical large scale problems is challenging. We propose MMSE-ICP and fastICP, two approaches which employ an error inequality to address the identifiability problem of ICP. The inequality states that the minimum prediction error of the predictor using causal parents is the smallest among all predictors which do not use descendants. fastICP is an efficient approximation tailored for large problems as it exploits the inequality and a heuristic to run fewer tests. MMSE-ICP and fastICP not only outperform competitive baselines in many simulations but also achieve state-of-the-art result on a large scale real data benchmark.
翻訳日:2024-11-07 13:23:33 公開日:2024-09-19
# RLの動作評価のためのLDMのゼロショット能力の評価

Assessing the Zero-Shot Capabilities of LLMs for Action Evaluation in RL ( http://arxiv.org/abs/2409.12798v1 )

ライセンス: Link先を確認
Eduardo Pignatelli, Johan Ferret, Tim Rockäschel, Edward Grefenstette, Davide Paglieri, Samuel Coward, Laura Toni, (参考訳) 時間的信用割当問題は強化学習(RL)における中心的な課題であり、目標を達成する能力のために、各行動に適切な影響をもたらすことを目的としている。 しかし,フィードバックが遅れて疎い場合には,学習信号が乏しく,行動評価が困難になる。 報酬形成やオプションといった標準的なソリューションでは、拡張性と適用性を制限するため、広範なドメイン知識と手作業による介入が必要になります。 本研究では,Large Language Models (LLMs) を利用した新たなアプローチであるCALM (Credit Assignment with Language Models) の基礎を構築し,報酬形成とオプション発見によるクレジット割り当てを自動化する。 CALMはLSMを用いてタスクを基本サブゴールに分解し、状態-作用遷移におけるこれらのサブゴールの達成を評価する。 オプションが終了するたびに、サブゴールが達成され、CALMは補助的な報酬を提供する。 この追加報酬信号は、人間が設計した報酬を必要とせずに、タスク報酬がスパースで遅れた場合に学習プロセスを強化することができる。 そこで本研究では,MiniHackによる人手によるデモのデータセットを用いてCALMの予備評価を行い,実例やLCMの微調整を伴わずに,ゼロショット設定でのクレジットの割り当てに有効であることが示唆された。 予備的な結果は, LLMの知識が, 人的知識を価値関数に伝達する上で, RLにおける信用代入の先駆的存在であることを示唆している。

The temporal credit assignment problem is a central challenge in Reinforcement Learning (RL), concerned with attributing the appropriate influence to each actions in a trajectory for their ability to achieve a goal. However, when feedback is delayed and sparse, the learning signal is poor, and action evaluation becomes harder. Canonical solutions, such as reward shaping and options, require extensive domain knowledge and manual intervention, limiting their scalability and applicability. In this work, we lay the foundations for Credit Assignment with Language Models (CALM), a novel approach that leverages Large Language Models (LLMs) to automate credit assignment via reward shaping and options discovery. CALM uses LLMs to decompose a task into elementary subgoals and assess the achievement of these subgoals in state-action transitions. Every time an option terminates, a subgoal is achieved, and CALM provides an auxiliary reward. This additional reward signal can enhance the learning process when the task reward is sparse and delayed without the need for human-designed rewards. We provide a preliminary evaluation of CALM using a dataset of human-annotated demonstrations from MiniHack, suggesting that LLMs can be effective in assigning credit in zero-shot settings, without examples or LLM fine-tuning. Our preliminary results indicate that the knowledge of LLMs is a promising prior for credit assignment in RL, facilitating the transfer of human knowledge into value functions.
翻訳日:2024-11-07 13:23:33 公開日:2024-09-19
# 土地を探索する:生成サンプルによるAI-決定と人間格付けの差を見つける方法

Exploring the Lands Between: A Method for Finding Differences between AI-Decisions and Human Ratings through Generated Samples ( http://arxiv.org/abs/2409.12801v1 )

ライセンス: Link先を確認
Lukas Mecke, Daniel Buschek, Uwe Gruenefeld, Florian Alt, (参考訳) 生体認証モデルによる認証など、日常生活における多くの重要な決定は、人工知能(AI)システムによってなされる。 これらは人間の期待にそぐわないものでもあり、既存の明確なデータでテストしても、これらのケースを明らかにするのに十分ではないかもしれない。 そこで本研究では,人間の期待に合致する意思決定モデルにおいて,意思決定モデルに難易度の高い生成モデルの潜伏空間にサンプルを見つける手法を提案する。 これらのサンプルを意思決定モデルと人間のレーダの両方に提示することにより、決定が人間の直感と一致し、矛盾する領域を特定することができる。 本手法を顔認識モデルに適用し,100人の被験者から11,200人の評価データを収集する。 データセットから得られた知見と、異なるコンテキストと異なるユーザグループでAIモデルのパフォーマンスを調査するために、我々のアプローチをどのように利用できるかについて議論する。

Many important decisions in our everyday lives, such as authentication via biometric models, are made by Artificial Intelligence (AI) systems. These can be in poor alignment with human expectations, and testing them on clear-cut existing data may not be enough to uncover those cases. We propose a method to find samples in the latent space of a generative model, designed to be challenging for a decision-making model with regard to matching human expectations. By presenting those samples to both the decision-making model and human raters, we can identify areas where its decisions align with human intuition and where they contradict it. We apply this method to a face recognition model and collect a dataset of 11,200 human ratings from 100 participants. We discuss findings from our dataset and how our approach can be used to explore the performance of AI models in different contexts and for different user groups.
翻訳日:2024-11-07 13:23:33 公開日:2024-09-19
# 量子認知機械学習を用いたデータセットの固有次元のロバスト推定

Robust estimation of the intrinsic dimension of data sets with quantum cognition machine learning ( http://arxiv.org/abs/2409.12805v1 )

ライセンス: Link先を確認
Luca Candelori, Alexander G. Abanov, Jeffrey Berger, Cameron J. Hogan, Vahagn Kirakosyan, Kharen Musaelian, Ryan Samson, James E. T. Smith, Dario Villani, Martin T. Wells, Mengjia Xu, (参考訳) 本稿では,量子認知機械学習に基づく新しいデータ表現手法を提案する。 この考え方は、各データポイントを量子状態として表現し、ポイントの局所的性質とデータ全体との関係の両方を符号化することである。 量子幾何学のアイデアに触発され、量子状態から量子計量を備えた点雲を構築する。 この計量は、位置がデータの内在次元に対応するスペクトルギャップを示す。 提案手法は,このスペクトルギャップの検出に基づく。 合成多様体のベンチマークで実験すると、ガウス雑音の導入に関して、我々の推定値が頑健であることが示される。 これは現在の最先端推定器とは対照的であり、人工的な「陰影次元」をノイズアーティファクトとみなす傾向があり、過大評価に繋がる。 これは、未知のレベルのノイズによって必然的に影響を受ける、実際のデータセットを扱う際の大きな利点である。 実データにおける本手法の適用性およびロバスト性について,ISOMAPフェイスデータベース,MNIST,ウィスコンシン乳がんデータセットで検証した。

We propose a new data representation method based on Quantum Cognition Machine Learning and apply it to manifold learning, specifically to the estimation of intrinsic dimension of data sets. The idea is to learn a representation of each data point as a quantum state, encoding both local properties of the point as well as its relation with the entire data. Inspired by ideas from quantum geometry, we then construct from the quantum states a point cloud equipped with a quantum metric. The metric exhibits a spectral gap whose location corresponds to the intrinsic dimension of the data. The proposed estimator is based on the detection of this spectral gap. When tested on synthetic manifold benchmarks, our estimates are shown to be robust with respect to the introduction of point-wise Gaussian noise. This is in contrast to current state-of-the-art estimators, which tend to attribute artificial ``shadow dimensions'' to noise artifacts, leading to overestimates. This is a significant advantage when dealing with real data sets, which are inevitably affected by unknown levels of noise. We show the applicability and robustness of our method on real data, by testing it on the ISOMAP face database, MNIST, and the Wisconsin Breast Cancer Dataset.
翻訳日:2024-11-07 13:23:33 公開日:2024-09-19
# 人間とAIのコラボレーションにおける説明の誤情報効果

Don't be Fooled: The Misinformation Effect of Explanations in Human-AI Collaboration ( http://arxiv.org/abs/2409.12809v1 )

ライセンス: Link先を確認
Philipp Spitzer, Joshua Holstein, Katelyn Morrison, Kenneth Holstein, Gerhard Satzger, Niklas Kühl, (参考訳) 様々な応用において、人間はブラックボックス人工知能(AI)システムを使うようになり、これらのシステムの推論を理解できなくなる。 この不透明さに対処するため、説明可能なAI(XAI)メソッドは、透明性と解釈可能性の向上を約束する。 近年の研究では、XAIが人間とAIのコラボレーションにどのように影響するかが研究されているが、誤った説明による潜在的な落とし穴についての調査は少ない。 人間への影響は遠方にあるが、広くは調査されていない。 そこで我々は,AI支援による意思決定に関する研究(n=160)を行い,人間をXAIで支援した。 実験の結果,誤った説明が正しいAIアドバイスと協調後の意味を伴う場合,誤報効果がみられた。 この効果は、人間が欠陥のある推論戦略を推測し、タスクの実行を妨げ、手続き的知識の障害を示す。 さらに、誤った説明は、コラボレーション中の人間とAIのチームパフォーマンスを損なう。 我々の研究は、AIの設計者に対する、人間が協力した後の誤った説明と概説の否定的な結果を示す実証的な証拠を提供することで、HCIに貢献する。

Across various applications, humans increasingly use black-box artificial intelligence (AI) systems without insight into these systems' reasoning. To counter this opacity, explainable AI (XAI) methods promise enhanced transparency and interpretability. While recent studies have explored how XAI affects human-AI collaboration, few have examined the potential pitfalls caused by incorrect explanations. The implications for humans can be far-reaching but have not been explored extensively. To investigate this, we ran a study (n=160) on AI-assisted decision-making in which humans were supported by XAI. Our findings reveal a misinformation effect when incorrect explanations accompany correct AI advice with implications post-collaboration. This effect causes humans to infer flawed reasoning strategies, hindering task execution and demonstrating impaired procedural knowledge. Additionally, incorrect explanations compromise human-AI team-performance during collaboration. With our work, we contribute to HCI by providing empirical evidence for the negative consequences of incorrect explanations on humans post-collaboration and outlining guidelines for designers of AI.
翻訳日:2024-11-07 13:23:33 公開日:2024-09-19
# 気候シミュレーションのための代理モデルとしてのグラフ畳み込みニューラルネットワーク

Graph Convolutional Neural Networks as Surrogate Models for Climate Simulation ( http://arxiv.org/abs/2409.12815v1 )

ライセンス: Link先を確認
Kevin Potter, Carianne Martinez, Reina Pradhan, Samantha Brozak, Steven Sleder, Lauren Wheeler, (参考訳) 多くの気候過程は、非線形微分方程式の大規模システムを用いて特徴づけられるが、これは複雑な相互作用をパラメータ化するのに必要な膨大なデータとともに、地球系モデル(ESM)シミュレーションが大規模クラスタ上で実行されるのに数週間かかることを意味する。 不確かさの定量化には数千回の走行が必要であり、ESMシミュレーションは予備評価には実用的ではない。 代替には、モデルのプロセスを単純化することも含まれるが、最近の取り組みは、機械学習を使用してこれらのモデルを補完したり、あるいは完全なサロゲートとして振る舞うことに集中している。 機械学習、特に完全連結ニューラルネットワーク(FCNN)とグラフ畳み込みニューラルネットワーク(GCNN)を活用して、より広範なESMシミュレーションを知らせるために、迅速なシミュレーションと不確実性定量化を可能にする。 ESMモデルでは,平均温度誤差が0.1^{\circ}C$以下で,最大温度誤差が270circ}C$以下であるのに対し,Surrogateは1回のA100 GPUで約310秒で80年シミュレーションした。

Many climate processes are characterized using large systems of nonlinear differential equations; this, along with the immense amount of data required to parameterize complex interactions, means that Earth-System Model (ESM) simulations may take weeks to run on large clusters. Uncertainty quantification may require thousands of runs, making ESM simulations impractical for preliminary assessment. Alternatives may include simplifying the processes in the model, but recent efforts have focused on using machine learning to complement these models or even act as full surrogates. \textit{We leverage machine learning, specifically fully-connected neural networks (FCNNs) and graph convolutional neural networks (GCNNs), to enable rapid simulation and uncertainty quantification in order to inform more extensive ESM simulations.} Our surrogate simulated 80 years in approximately 310 seconds on a single A100 GPU, compared to weeks for the ESM model while having mean temperature errors below $0.1^{\circ}C$ and maximum errors below $2^{\circ}C$.
翻訳日:2024-11-07 13:23:33 公開日:2024-09-19
# 生物学的振動の正確な予測のための階層的勾配に基づく遺伝的サンプリング

Hierarchical Gradient-Based Genetic Sampling for Accurate Prediction of Biological Oscillations ( http://arxiv.org/abs/2409.12816v1 )

ライセンス: Link先を確認
Heng Rao, Yu Gu, Jason Zipeng Zhang, Ge Yu, Yang Cao, Minghan Chen, (参考訳) 生物学的振動は、生物の適切な機能に不可欠な様々なシグナル伝達過程における周期的な変化である。 これらの振動は通常の微分方程式によってモデル化され、振動周波数によって測定される様々な周期的な振舞いにつながる係数の変動を伴う。 本稿では,システム係数と振動周波数の関係をモデル化するためのニューラルネットワークのサンプリング手法について検討する。 しかし、大きな係数空間における発振の不足は、非周期的な挙動を示す多くのサンプルをもたらし、発振境界付近での小さな係数変化は発振特性を著しく変化させる。 これは非振動バイアスと境界感度をもたらし、正確な予測を困難にする。 既存の重要度と不確実性サンプリングアプローチはこれらの課題を部分的に緩和するが、感度の問題の解決に失敗するか、冗長サンプリングに失敗する。 これらの制約に対処するため,階層的勾配に基づく遺伝的サンプリング(HGGS)フレームワークを提案し,生体振動に対するニューラルネットワーク予測の精度を向上させる。 最初のレイヤであるグラディエントベースのフィルタリングは、感度の高い発振境界を抽出し、冗長な非振動サンプルを除去し、バランスの取れた粗いデータセットを生成する。 第2のレイヤであるMultigrid Genetic Smplingは、これらの境界を洗練し、新しい高残留領域を探索するために残留情報を利用する。 実験の結果,HGGSは4つの生体系において7つの比較サンプリング法より優れており,サンプリングと予測精度の向上に有効であることが示唆された。

Biological oscillations are periodic changes in various signaling processes crucial for the proper functioning of living organisms. These oscillations are modeled by ordinary differential equations, with coefficient variations leading to diverse periodic behaviors, typically measured by oscillatory frequencies. This paper explores sampling techniques for neural networks to model the relationship between system coefficients and oscillatory frequency. However, the scarcity of oscillations in the vast coefficient space results in many samples exhibiting non-periodic behaviors, and small coefficient changes near oscillation boundaries can significantly alter oscillatory properties. This leads to non-oscillatory bias and boundary sensitivity, making accurate predictions difficult. While existing importance and uncertainty sampling approaches partially mitigate these challenges, they either fail to resolve the sensitivity problem or result in redundant sampling. To address these limitations, we propose the Hierarchical Gradient-based Genetic Sampling (HGGS) framework, which improves the accuracy of neural network predictions for biological oscillations. The first layer, Gradient-based Filtering, extracts sensitive oscillation boundaries and removes redundant non-oscillatory samples, creating a balanced coarse dataset. The second layer, Multigrid Genetic Sampling, utilizes residual information to refine these boundaries and explore new high-residual regions, increasing data diversity for model training. Experimental results demonstrate that HGGS outperforms seven comparative sampling methods across four biological systems, highlighting its effectiveness in enhancing sampling and prediction accuracy.
翻訳日:2024-11-07 13:23:33 公開日:2024-09-19
# セマンティックセグメンテーションによるセンチネル2画像の自動線形外乱マッピング

Automated Linear Disturbance Mapping via Semantic Segmentation of Sentinel-2 Imagery ( http://arxiv.org/abs/2409.12817v1 )

ライセンス: Link先を確認
Andrew M. Nagel, Anne Webster, Christopher Henry, Christopher Storie, Ignacio San-Miguel Sanchez, Olivier Tsui, Jason Duffe, Andy Dean, (参考訳) カナダの北部では、道路、地震探査線、パイプラインなどの直線的な乱れが森林地帯のカリブー(Rangifer tarandus)に重大な脅威をもたらす。 森林の生息域の断片化を正確に識別するマッピング手法の開発に重点が置かれている。 従来のアプローチでは手動でマップを生成するが、これは時間を要するため頻繁な更新の能力に欠ける。 代わりに、マルチスペクトル衛星画像にディープラーニング手法を適用することで、自動および定期的に更新された地図生成のためのコスト効率の高いソリューションを提供する。 深層学習モデルでは,高分解能画像(0.5m)と組み合わせた都市環境における舗装道路の抽出が期待されているが,低分解能画像からの森林地帯における一般線形特徴抽出の有効性は未解明のままである。 本研究では、VGGNet16アーキテクチャに基づく深部畳み込みニューラルネットワークモデルを用いて、低解像度(10m)のSentinel-2衛星画像のセマンティックセグメンテーションを行い、高精度なマルチクラス線形外乱マップを作成する。 このモデルは、カナダ、アルバータ州のボレアル平原とタイガ平原のエコゾーンを対象とする、アルバータ生物多様性監視人足プリントデータセット(英語版)から入手した地平線ラベルマップを用いて訓練されている。 特に地震探査線のような細い線形外乱は, 高精度な線形外乱抽出のためのVGGNetモデルの有効性を示す。 無償で利用可能なSentinel-2画像を活用することで、線形外乱の断片化を識別し監視するためのコスト効率の良い自動マッピング技術が進歩する。

In Canada's northern regions, linear disturbances such as roads, seismic exploration lines, and pipelines pose a significant threat to the boreal woodland caribou population (Rangifer tarandus). To address the critical need for management of these disturbances, there is a strong emphasis on developing mapping approaches that accurately identify forest habitat fragmentation. The traditional approach is manually generating maps, which is time-consuming and lacks the capability for frequent updates. Instead, applying deep learning methods to multispectral satellite imagery offers a cost-effective solution for automated and regularly updated map production. Deep learning models have shown promise in extracting paved roads in urban environments when paired with high-resolution (<0.5m) imagery, but their effectiveness for general linear feature extraction in forested areas from lower resolution imagery remains underexplored. This research employs a deep convolutional neural network model based on the VGGNet16 architecture for semantic segmentation of lower resolution (10m) Sentinel-2 satellite imagery, creating precise multi-class linear disturbance maps. The model is trained using ground-truth label maps sourced from the freely available Alberta Institute of Biodiversity Monitoring Human Footprint dataset, specifically targeting the Boreal and Taiga Plains ecozones in Alberta, Canada. Despite challenges in segmenting lower resolution imagery, particularly for thin linear disturbances like seismic exploration lines that can exhibit a width of 1-3 pixels in Sentinel-2 imagery, our results demonstrate the effectiveness of the VGGNet model for accurate linear disturbance retrieval. By leveraging the freely available Sentinel-2 imagery, this work advances cost-effective automated mapping techniques for identifying and monitoring linear disturbance fragmentation.
翻訳日:2024-11-07 13:23:33 公開日:2024-09-19
# 機械学習に基づく高帯域磁気センサ

Machine-learning based high-bandwidth magnetic sensing ( http://arxiv.org/abs/2409.12820v1 )

ライセンス: Link先を確認
Galya Haim, Stefano Martina, John Howell, Nir Bar-Gill, Filippo Caruso, (参考訳) 近年、先進的なプラットフォームとそれらの応用の両面で、量子技術、特に量子センシングが著しく成長している。 この文脈における主要なプラットフォームの1つは、ダイヤモンド中の窒素空洞(NV)色中心であり、汎用性、高感度、高分解能磁気センシングを提供する。 それでも、スピン共鳴磁気センシング(NV量子センシングによって適用される)の現在のスキームは、感度、ダイナミックレンジ、帯域幅に関連するトレードオフに悩まされている。 ここでは、この問題に対処し、大規模なダイナミックレンジシナリオにおける感度/帯域トレードオフの観点から、NV磁気センサを強化するための機械学習ツールを実装する。 提案手法を実験的に実証し, 有益度を最大5。 本研究は、より実用的で効率的な量子技術に向けたアプリケーション検出のための量子機械学習プロトコルを推進した。

Recent years have seen significant growth of quantum technologies, and specifically quantum sensing, both in terms of the capabilities of advanced platforms and their applications. One of the leading platforms in this context is nitrogen-vacancy (NV) color centers in diamond, providing versatile, high-sensitivity, and high-resolution magnetic sensing. Nevertheless, current schemes for spin resonance magnetic sensing (as applied by NV quantum sensing) suffer from tradeoffs associated with sensitivity, dynamic range, and bandwidth. Here we address this issue, and implement machine learning tools to enhance NV magnetic sensing in terms of the sensitivity/bandwidth tradeoff in large dynamic range scenarios. We experimentally demonstrate this new approach, reaching an improvement in the relevant figure of merit by a factor of up to 5. Our results promote quantum machine learning protocols for sensing applications towards more feasible and efficient quantum technologies.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# 分類モデルの評価によるテキストの極性に関する辞書ベース感性分析

Lexicon-Based Sentiment Analysis on Text Polarities with Evaluation of Classification Models ( http://arxiv.org/abs/2409.12840v1 )

ライセンス: Link先を確認
Muhammad Raees, Samina Fazilat, (参考訳) 感性分析は、デジタルプラットフォームにおける多様な適用可能性を持っている。 感性分析はテキストの強度と主観性を理解するために極性を抽出する。 本研究は,レキシコン法を用いて感情分析を行い,テキストデータを用いた分類モデルの評価を行った。 語彙に基づく手法は、単語レベルでの感情と主観性の強さを識別する。 分類は、テキスト内の情報的単語を特定し、単語の極性の定量的ランキングを指定する。 この研究は、テキストが正、負、中立とラベル付けされているというマルチクラスの問題に基づいている。 660万の未処理ツイートを含むTwitterの感情データセットは、テキストブロブやVader Sentimentのようなレキシコンベースのメソッドを使って、テキストの中立性対策を導入している。 辞書の分析は、単語のカウントと強度がどのようにテキストを分類するかを示している。 Naiive Bayes、Support Vector Machines、Multinomial Logistic Regression、Random Forest、Extreme Gradient (XG) Boostといった機械学習モデルの比較分析が、複数のパフォーマンス指標で実施された。 最良の評価はランダムフォレストで行われ、精度は81%である。 さらに、感情分析は、オンライン活動に基づくTwitterプロフィールに対するパーソナリティ判断ケースに適用される。

Sentiment analysis possesses the potential of diverse applicability on digital platforms. Sentiment analysis extracts the polarity to understand the intensity and subjectivity in the text. This work uses a lexicon-based method to perform sentiment analysis and shows an evaluation of classification models trained over textual data. The lexicon-based methods identify the intensity of emotion and subjectivity at word levels. The categorization identifies the informative words inside a text and specifies the quantitative ranking of the polarity of words. This work is based on a multi-class problem of text being labeled as positive, negative, or neutral. Twitter sentiment dataset containing 1.6 million unprocessed tweets is used with lexicon-based methods like Text Blob and Vader Sentiment to introduce the neutrality measure on text. The analysis of lexicons shows how the word count and the intensity classify the text. A comparative analysis of machine learning models, Naiive Bayes, Support Vector Machines, Multinomial Logistic Regression, Random Forest, and Extreme Gradient (XG) Boost performed across multiple performance metrics. The best estimations are achieved through Random Forest with an accuracy score of 81%. Additionally, sentiment analysis is applied for a personality judgment case against a Twitter profile based on online activity.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# ビジョン言語モデルは、Parseのフロアプランマップを作成できる

Vision Language Models Can Parse Floor Plan Maps ( http://arxiv.org/abs/2409.12842v1 )

ライセンス: Link先を確認
David DeFazio, Hrudayangam Mehta, Jeremy Blackburn, Shiqi Zhang, (参考訳) 視覚言語モデル(VLM)は、視覚的な質問応答から画像キャプションまで、多くのタスクに取り組むために、画像とテキストを同時に推論することができる。 本稿では、VLMコンテキスト内で探索されていない新しいタスクであるマップ解析に焦点を当て、特に移動ロボットに有用である。 地図解析は、ラベルだけでなく、地図の幾何学的構成、すなわち、どの領域がどのようなもので、どのように接続されているかを理解する必要がある。 地図解析におけるVLMの性能を評価するため,複雑な屋内ナビゲーションのためのタスクプランを生成するために,フロアプランマップを用いたVLMを誘導する。 以上の結果から,地図解析におけるVLMの顕著な機能を示すとともに,9つのナビゲーション動作,例えばドアへの接近や通過といったタスクにおいて0.96の成功率を示した。 直感的な観察、例えば、VLMはより小さな地図やより単純なナビゲーションタスクで優れているが、大きなオープンエリアでパフォーマンスが低下するという非常に興味深い観測があった。 実験結果によって検証された課題に対処するための実践的な提案を行う。 Webページ: https://shorturl.at/OUkEY

Vision language models (VLMs) can simultaneously reason about images and texts to tackle many tasks, from visual question answering to image captioning. This paper focuses on map parsing, a novel task that is unexplored within the VLM context and particularly useful to mobile robots. Map parsing requires understanding not only the labels but also the geometric configurations of a map, i.e., what areas are like and how they are connected. To evaluate the performance of VLMs on map parsing, we prompt VLMs with floorplan maps to generate task plans for complex indoor navigation. Our results demonstrate the remarkable capability of VLMs in map parsing, with a success rate of 0.96 in tasks requiring a sequence of nine navigation actions, e.g., approaching and going through doors. Other than intuitive observations, e.g., VLMs do better in smaller maps and simpler navigation tasks, there was a very interesting observation that its performance drops in large open areas. We provide practical suggestions to address such challenges as validated by our experimental results. Webpage: https://shorturl.at/OUkEY
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# テンソル脳はどのようにしてエンベディングとエンボディメントを使って感覚をコードし、シンボルをデコードするか

How the (Tensor-) Brain uses Embeddings and Embodiment to Encode Senses and Decode Symbols ( http://arxiv.org/abs/2409.12846v1 )

ライセンス: Link先を確認
Volker Tresp, Hang Li, (参考訳) テンソル脳は知覚と記憶の計算モデルとして導入された。 本稿では、最近の発展を含むテンソル脳モデルの概要について述べる。 テンソル脳には、表現層とインデックス層という2つの大きな層がある。 表象層は、意識研究からの象徴的なグローバルワークスペースのモデルである。 表象層の状態は認知脳状態である。 インデックス層には、概念、時間インスタンス、述語のためのシンボルが含まれている。 ボトムアップ操作では、認知脳状態は、インデックス層によってシンボルラベルとして符号化される。 トップダウン操作では、シンボルがデコードされ、表現層に書き込まれる。 これは、以前の処理層にエボディメントとして供給する。 トップダウン操作はセマンティックメモリの基礎となった。 概念の埋め込みベクトルは、その指数と表現層の間の接続重みを形成する。 埋め込みは概念の「`DNA'」のシグネチャであり、インデックスが活性化された時に脳によってデコードされる。 異なる経験、モダリティ、シンボリックデコーディングから知られている概念をすべて統合している。 計算はしたものの、テンソル脳は実際の脳の動作と関連している可能性があることが示唆されている。 記号生成のシーケンシャルな性質は、自然言語の生成の前提条件であったかもしれない。 注意機構を記述し、多重化によるマルチタスキングについて議論する。 我々はテンソル脳の本質的な多様性を強調する。 最後に,組込みおよび記号的推論について論じる。

The tensor brain has been introduced as a computational model for perception and memory. We provide an overview of the tensor brain model, including recent developments. The tensor brain has two major layers: the representation layer and the index layer. The representation layer is a model for the subsymbolic global workspace from consciousness research. The state of the representation layer is the cognitive brain state. The index layer contains symbols for concepts, time instances, and predicates. In a bottom-up operation, the cognitive brain state is encoded by the index layer as symbolic labels. In a top-down operation, symbols are decoded and written to the representation layer. This feeds to earlier processing layers as embodiment. The top-down operation became the basis for semantic memory. The embedding vector of a concept forms the connection weights between its index and the representation layer. The embedding is the signature or ``DNA'' of a concept, which is decoded by the brain when its index is activated. It integrates all that is known about a concept from different experiences, modalities, and symbolic decodings. Although being computational, it has been suggested that the tensor brain might be related to the actual operation of the brain. The sequential nature of symbol generation might have been a prerequisite to the generation of natural language. We describe an attention mechanism and discuss multitasking by multiplexing. We emphasize the inherent multimodality of the tensor brain. Finally, we discuss embedded and symbolic reasoning.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# Margin-Maximizing Fine-Grained Ensemble 法

A Margin-Maximizing Fine-Grained Ensemble Method ( http://arxiv.org/abs/2409.12849v1 )

ライセンス: Link先を確認
Jinghui Yuan, Hao Chen, Renwei Luo, Feiping Nie, (参考訳) アンサンブル学習は機械学習において顕著な成功を収めてきたが、多くの基礎学習者への依存はリソース制約のある環境における応用を制限する。 本稿では,少数の学習者を巧みに最適化し,一般化能力を向上させることで,大規模アンサンブルを超える性能を実現する革新的な「Margin-Maximizing Fine-Grained Ensemble Method」を提案する。 本稿では,各カテゴリに対する各カテゴリの信頼度を定量化し,個別学習者のカテゴリ固有の利点を正確に把握する,新しい学習可能な信頼度行列を提案する。 さらに,logsumexp法を用いて,スムーズかつ部分的に凸な目的物を構成するマージンに基づく損失関数を設計する。 このアプローチは最適化を改善し、収束を緩和し、適応的な信頼性割り当てを可能にする。 最後に、損失関数がLipschitz連続であることを証明する。このアルゴリズムは、マージンを同時に最大化し、学習者の重みを動的に調整する効率的な勾配最適化アルゴリズムを開発する。 大規模な実験により,本手法は,基礎学習者の10分の1と他の最先端のアンサンブル手法を用いて,従来のランダム林よりも優れていることが示された。

Ensemble learning has achieved remarkable success in machine learning, but its reliance on numerous base learners limits its application in resource-constrained environments. This paper introduces an innovative "Margin-Maximizing Fine-Grained Ensemble Method" that achieves performance surpassing large-scale ensembles by meticulously optimizing a small number of learners and enhancing generalization capability. We propose a novel learnable confidence matrix, quantifying each classifier's confidence for each category, precisely capturing category-specific advantages of individual learners. Furthermore, we design a margin-based loss function, constructing a smooth and partially convex objective using the logsumexp technique. This approach improves optimization, eases convergence, and enables adaptive confidence allocation. Finally, we prove that the loss function is Lipschitz continuous, based on which we develop an efficient gradient optimization algorithm that simultaneously maximizes margins and dynamically adjusts learner weights. Extensive experiments demonstrate that our method outperforms traditional random forests using only one-tenth of the base learners and other state-of-the-art ensemble methods.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# USBIPSフレームワーク:悪質なUSB周辺からホストを保護する

USBIPS Framework: Protecting Hosts from Malicious USB Peripherals ( http://arxiv.org/abs/2409.12850v1 )

ライセンス: Link先を確認
Chun-Yi Wang, Fu-Hau Hsu, (参考訳) 近年、USBベースの攻撃は複雑化している。 現代の攻撃には、社会工学からシグナル注入まで、幅広い攻撃ベクトルが組み込まれている。 セキュリティコミュニティは、フラグメント化された防御の集合を使って、これらの課題に対処している。 USBベースの攻撃のベクターにかかわらず、ほとんどの人々や企業にとって最も重要なリスクは、サービスのクラッシュとデータ損失である。 ホストOSはUSB周辺機器を管理し、悪質なUSB周辺機器であるBadUSBは、サービスをクラッシュさせたり、OSからデータを盗んだりすることができる。 USBファイアウォールは、USBFilterやUSBGuardのような悪意のあるUSB周辺機器を阻止するために提案されているが、現実世界の侵入を防ぐことはできない。 本稿は、悪質なUSB周辺機器を防御するために、OS内にUSBIPSと呼ばれるセキュリティフレームワークを構築することに焦点を当てる。 これには、悪意のある振る舞いの性質を調査し、USBベースの侵入から永続的な保護を構築するための大きな取り組みが含まれている。 まず,USB周辺機器に組み込まれた攻撃に着目した行動に基づく検知機構を提案する。 次に、USBアクセス制御のための許容値に基づく新しい方法を提案する。 最終的に、USBベースの侵入を阻止する最初の汎用セキュリティフレームワークを構築するために、エンドポイント検出と応答システムを開発した。 集中的な脅威分析フレームワーク内では、永続的な保護を提供し、未知の悪意のある振る舞いを検出する。 主要なセキュリティとパフォーマンスの課題に対処することで、これらの取り組みは、信頼できないUSB周辺機器からの攻撃に対する現代のOSを支援する。

USB-based attacks have increased in complexity in recent years. Modern attacks incorporate a wide range of attack vectors, from social engineering to signal injection. The security community is addressing these challenges using a growing set of fragmented defenses. Regardless of the vector of a USB-based attack, the most important risks concerning most people and enterprises are service crashes and data loss. The host OS manages USB peripherals, and malicious USB peripherals, such as those infected with BadUSB, can crash a service or steal data from the OS. Although USB firewalls have been proposed to thwart malicious USB peripherals, such as USBFilter and USBGuard, they cannot prevent real-world intrusions. This paper focuses on building a security framework called USBIPS within OSs to defend against malicious USB peripherals. This includes major efforts to explore the nature of malicious behavior and build persistent protection from USB-based intrusions. We first present a behavior-based detection mechanism focusing on attacks integrated into USB peripherals. We then introduce the novel idea of an allowlisting-based method for USB access control. We finally develop endpoint detection and response system to build the first generic security framework that thwarts USB-based intrusion. Within a centralized threat analysis framework, it provides persistent protection and may detect unknown malicious behavior. By addressing key security and performance challenges, these efforts help modern OSs against attacks from untrusted USB peripherals.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# Ultra-Widefield Fundus Imaging を用いた深層学習による糖尿病網膜症と黄斑浮腫の検出

Deep Learning-Based Detection of Referable Diabetic Retinopathy and Macular Edema Using Ultra-Widefield Fundus Imaging ( http://arxiv.org/abs/2409.12854v1 )

ライセンス: Link先を確認
Philippe Zhang, Pierre-Henri Conze, Mathieu Lamard, Gwenolé Quellec, Mostafa El Habib Daho, (参考訳) 糖尿病網膜症や糖尿病黄斑浮腫は、視力喪失につながる糖尿病の重大な合併症である。 超広視野眼底画像による早期発見は、患者の成果を高めるが、画質と分析スケールの課題を提示する。 本稿では,MICCAI 2024 UWF4DRチャレンジの枠組みの中で,自動UWF画像解析のためのディープラーニングソリューションを提案する。 本稿では,画像品質評価,参照可能なDRの検出,DMEの識別という3つのタスクの方法と結果を詳述する。 EfficientNetやResNetといった先進的な畳み込みニューラルネットワークアーキテクチャを採用することで、前処理や拡張戦略とともに、これらのタスクで堅牢なパフォーマンスを実証しています。 その結果,UWF画像の自動解析には深層学習が有効であり,DRおよびDME検出の効率と精度が向上する可能性が示唆された。

Diabetic retinopathy and diabetic macular edema are significant complications of diabetes that can lead to vision loss. Early detection through ultra-widefield fundus imaging enhances patient outcomes but presents challenges in image quality and analysis scale. This paper introduces deep learning solutions for automated UWF image analysis within the framework of the MICCAI 2024 UWF4DR challenge. We detail methods and results across three tasks: image quality assessment, detection of referable DR, and identification of DME. Employing advanced convolutional neural network architectures such as EfficientNet and ResNet, along with preprocessing and augmentation strategies, our models demonstrate robust performance in these tasks. Results indicate that deep learning can significantly aid in the automated analysis of UWF images, potentially improving the efficiency and accuracy of DR and DME detection in clinical settings.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# 古典的」ボソンとフェルミオンのダイナミクス

Dynamics of "Classical" Bosons, Fermions, and beyond ( http://arxiv.org/abs/2409.12855v1 )

ライセンス: Link先を確認
Varsha Subramanyan, T. H. Hansson, Smitha Vishveshwara, (参考訳) 量子統計学の記憶を保持する粒子の古典力学と力学を研究する。 我々の研究は、そのような粒子の統計力学と熱力学に関する以前の研究に基づいている。 2粒子ボゾンおよびフェルミオンコヒーレント状態に付随する有効古典多様体から始め、それらの交換統計が多様体のシンプレクティック形式にどのように反映されるかを示す。 このような状態における排除や束縛行動の古典的な類似を、様々な二次ポテンシャルの軌跡を研究することによって実証する。 我々の例は、一次元の2粒子コヒーレント状態と、最低ランダウの2粒子渦運動である。 最終的に、我々の結果は、完全な量子系の以前のシミュレーションと、量子力学の幾何学的解釈に関する既存の結果とを比較して比較する。

We study the classical mechanics and dynamics of particles that retains some memory of quantum statistics. Our work builds on earlier work on the statistical mechanics and thermodynamics of such particles. Starting from the effective classical manifold associated with two-particle bosonic and fermionic coherent states, we show how their exchange statistics is reflected in the symplectic form of the manifold. We demonstrate the classical analogues of exclusion or bunching behavior expected in such states by studying their trajectories in various quadratic potentials. Our examples are two-particle coherent states in one dimension and two-particle vortex motion in the lowest Landau level. We finally compare and contrast our results with previous simulations of the full quantum system, and with existing results on the geometric interpretations of quantum mechanics.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# KnowFormer:知識グラフ推論のための変換器の再検討

KnowFormer: Revisiting Transformers for Knowledge Graph Reasoning ( http://arxiv.org/abs/2409.12865v1 )

ライセンス: Link先を確認
Junnan Liu, Qianren Mao, Weifeng Jiang, Jianxin Li, (参考訳) 知識グラフ推論は様々な応用において重要な役割を担い、かなりの注目を集めている。 近年,パスベースの手法による性能向上が目覚ましい。 しかし、それらはメッセージパッシングニューラルネットワークの制約に起因する制限に直面している可能性がある。 本稿では,パスベースの手法が直面する制約に対処する知識グラフ推論のためのトランスフォーマーの適用を再検討し,従来の事前学習言語モデルに基づく手法のようなテキスト情報による推論ではなく,トランスフォーマーアーキテクチャを用いてメッセージパスの観点から知識グラフの推論を行う方法を提案する。 具体的には、知識グラフ推論のクエリープロトタイプに基づいて注意計算を定義し、簡便な構築と効率的な最適化を容易にする。 構造情報を自己認識機構に組み込むため,クエリ,キー,値のそれぞれを計算する構造認識モジュールを導入する。 さらに,より優れたスケーラビリティを実現するために,効率的な注意計算手法を提案する。 実験結果から, トランスダクティブベンチマークとインダクティブベンチマークの両方において, 顕著なベースライン手法と比較して, KnowFormer の優れた性能を示した。

Knowledge graph reasoning plays a vital role in various applications and has garnered considerable attention. Recently, path-based methods have achieved impressive performance. However, they may face limitations stemming from constraints in message-passing neural networks, such as missing paths and information over-squashing. In this paper, we revisit the application of transformers for knowledge graph reasoning to address the constraints faced by path-based methods and propose a novel method KnowFormer.KnowFormer utilizes a transformer architecture to perform reasoning on knowledge graphs from the message-passing perspective, rather than reasoning by textual information like previous pretrained language model based methods. Specifically, we define the attention computation based on the query prototype of knowledge graph reasoning, facilitating convenient construction and efficient optimization. To incorporate structural information into the self-attention mechanism, we introduce structure-aware modules to calculate query, key, and value respectively. Additionally, we present an efficient attention computation method for better scalability. Experimental results demonstrate the superior performance of KnowFormer compared to prominent baseline methods on both transductive and inductive benchmarks.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# SpecEval: プログラム仕様による大規模言語モデルにおけるコード理解の評価

SpecEval: Evaluating Code Comprehension in Large Language Models via Program Specifications ( http://arxiv.org/abs/2409.12866v1 )

ライセンス: Link先を確認
Lezhi Ma, Shangqing Liu, Lei Bu, Shangru Li, Yida Wang, Yang Liu, (参考訳) 大規模な言語モデルは、自動化されたソフトウェアエンジニアリングにおいて素晴らしいパフォーマンスを達成しました。 様々な面でコードLLMの能力を評価するために大規模な努力がなされており、ベンチマークや評価フレームワークが提案されている。 コード生成の最も望まれる能力とは別に、コード理解の能力は注目されている。 それでも、LLMのコード理解能力を評価する既存の研究は、様々な制限を呈している。 CRUXEvalやRevalなどの評価フレームワークは、通常は特定の入力ケース上のコード推論タスクに重点を置いており、限られた実行トレースがカバーされ、コードセマンティクスの欠如と、ターゲットプログラムに関するLLMの包括的な理解の欠如につながっている。 上記の課題に対処するため,プログラム仕様によるLCMのコード理解を評価する新しいブラックボックス評価フレームワークであるSpecEvalを提案する。 すべての実行トレースに関するプログラム動作を包括的に記述できるという考えから着想を得て,プログラムの意味を表現し,徹底的な評価を行う。 特に、4つの仕様関連タスクは、基本的なレベルから高度なレベルまでLLMの能力を評価するように設計されている。 さらに, セマンティックス保存摂動下でのLCMの性能変動を解析し, 逐次的依存を伴う一連のタスクにおけるLCMの性能の整合性を調べるために, 逐次的整合性解析を行う。 システム実験は6つの最先端LCMで実施される。 実験結果から,LLMの仕様関連タスクに対する満足度の低い性能を示し,プログラムセマンティクスにおける既存のLLMの限界を明らかにし,将来的な拡張の方向性を明らかにした。

Large Language models have achieved impressive performance in automated software engineering. Extensive efforts have been made to evaluate the abilities of code LLMs in various aspects, with an increasing number of benchmarks and evaluation frameworks proposed. Apart from the most sought-after capability of code generation, the capability of code comprehension is being granted growing attention. Nevertheless, existing works assessing the code comprehension capability of LLMs exhibit varied limitations. Evaluation frameworks like CRUXEval and REval usually focus on code reasoning tasks over a certain input case, leading to a limited range of execution traces covered, resulting in a loss in code semantics examined and the inability to assess the comprehensive understanding of LLMs concerning the target program. To tackle the challenges above, we propose SpecEval, a novel black-box evaluation framework to evaluate code comprehension in LLMs via program specifications. Inspired by the idea that specifications can comprehensively articulate program behaviors concerning all possible execution traces, we employ formal specifications to represent program semantics and perform thorough evaluations. In particular, four specification-related tasks are designed to assess the capability of LLMs from basic to advanced levels. Moreover, counterfactual analysis is conducted to study the performance variance of LLMs under semantics-preserving perturbations, and progressive consistency analysis is performed to study the performance consistency of LLMs over a series of tasks with sequential dependence. Systematic experiments are conducted on six state-of-the-art LLMs. Experimental results present a below-satisfactory performance of LLMs on specification-related tasks, revealing the limitations of existing LLMs in articulating program semantics, underscoring future directions for enhancement.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# マイクロマグネティックエネルギー最小化のための物理知能機械学習 : 最近のアルゴリズム開発

Physics aware machine learning for micromagnetic energy minimization: recent algorithmic developments ( http://arxiv.org/abs/2409.12877v1 )

ライセンス: Link先を確認
Sebastian Schaffer, Thomas Schrefl, Harald Oezelt, Norbert J Mauser, Lukas Exl, (参考訳) 本研究では,ギブス自由エネルギーを最小化するための高度な機械学習手法を,フル3次元マイクロ磁気シミュレーションで検討する。 ブラウンの静電自己エネルギー境界に基づいて、スカラーおよびベクトルポテンシャルの伝達問題の変分定式化の文脈でそれらの応用を再考する。 空間積分によって引き起こされる計算課題を克服するため、有限領域上のこれらの境界を再構成し、数値シミュレーションにおいてより効率的でスケーラブルにする。 提案手法では,ブラウンエネルギー境界とギブス自由エネルギーの結合最小化を交互に最適化する手法を用いる。 ケイリー変換は単位ノルム制約を厳格に強制するために使用され、一方R-函数は静磁場の計算において必須境界条件を課すために用いられる。 本研究は,メッシュレス物理情報ニューラルネットワーク(PINN)とELM(Extreme Learning Machines)が,厳密な制約と統合される可能性を強調し,高精度な近似を提供する。 これらの手法は従来の数値計算法と比較して競争性能が優れており、静磁場の計算やヒステリシス曲線の計算などのエネルギー最小化への応用が期待できる。 この研究は、穀物構造モデルのようなより複雑な測地の研究の今後の方向性と、従来の数値法で計算可能な大規模問題設定への応用の道を開く。

In this work, we explore advanced machine learning techniques for minimizing Gibbs free energy in full 3D micromagnetic simulations. Building on Brown's bounds for magnetostatic self-energy, we revisit their application in the context of variational formulations of the transmission problems for the scalar and vector potential. To overcome the computational challenges posed by whole-space integrals, we reformulate these bounds on a finite domain, making the method more efficient and scalable for numerical simulation. Our approach utilizes an alternating optimization scheme for joint minimization of Brown's energy bounds and the Gibbs free energy. The Cayley transform is employed to rigorously enforce the unit norm constraint, while R-functions are used to impose essential boundary conditions in the computation of magnetostatic fields. Our results highlight the potential of mesh-free Physics-Informed Neural Networks (PINNs) and Extreme Learning Machines (ELMs) when integrated with hard constraints, providing highly accurate approximations. These methods exhibit competitive performance compared to traditional numerical approaches, showing significant promise in computing magnetostatic fields and the application for energy minimization, such as the computation of hysteresis curves. This work opens the path for future directions of research on more complex geometries, such as grain structure models, and the application to large scale problem settings which are intractable with traditional numerical methods.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# ML最適化戦術がよりグリーンな事前学習MLモデルに及ぼす影響

Impact of ML Optimization Tactics on Greener Pre-Trained ML Models ( http://arxiv.org/abs/2409.12878v1 )

ライセンス: Link先を確認
Alexandra González Álvarez, Joel Castaño, Xavier Franch, Silverio Martínez-Fernández, (参考訳) 背景: 画像分類、視覚的推論、英語理解といったタスクにおいて人間のパフォーマンスを上回った今日の技術の急速な影響を考えると、機械学習(ML)がエネルギー消費に与える影響を評価することが重要である。 伝統的に、MLプロジェクトはエネルギーよりも精度を優先し、モデル推論中にエネルギー消費のギャップを生じさせる。 Aims: この研究の目的は 一 画像分類データセット及び事前学習モデルの分析。 2最適化モデルと非最適化モデルを比較して推論効率を向上させること。 三 最適化の経済的影響を評価すること。 方法: 画像分類におけるPyTorch最適化手法(動的量子化, torch.compile, 局所プルーニング, グローバルプルーニング)と42Hugging Faceモデルの影響を評価するための制御実験を行った。 調査対象のメトリクスは、GPU利用率、電力とエネルギー消費、正確性、時間、計算複雑性、経済コストである。 これらのモデルは、これらのソフトウェアエンジニアリング戦術の効果を定量化するために繰り返し評価される。 結果: 動的量子化は推論時間とエネルギー消費の大幅な削減を示し, 大規模システムに非常に適している。 さらに torch.compile は精度とエネルギーのバランスをとる。 対照的に、局所的なプルーニングは性能に肯定的な影響を与えず、グローバルプルーニングの長い最適化時間はコストに大きな影響を及ぼす。 結論: この研究は、グリーンなMLモデルの達成において、ソフトウェアエンジニアリングの戦術が果たす役割を強調し、持続可能性の目標と整合する最適化手法について、実践者が決定を下すためのガイドラインを提供します。

Background: Given the fast-paced nature of today's technology, which has surpassed human performance in tasks like image classification, visual reasoning, and English understanding, assessing the impact of Machine Learning (ML) on energy consumption is crucial. Traditionally, ML projects have prioritized accuracy over energy, creating a gap in energy consumption during model inference. Aims: This study aims to (i) analyze image classification datasets and pre-trained models, (ii) improve inference efficiency by comparing optimized and non-optimized models, and (iii) assess the economic impact of the optimizations. Method: We conduct a controlled experiment to evaluate the impact of various PyTorch optimization techniques (dynamic quantization, torch.compile, local pruning, and global pruning) to 42 Hugging Face models for image classification. The metrics examined include GPU utilization, power and energy consumption, accuracy, time, computational complexity, and economic costs. The models are repeatedly evaluated to quantify the effects of these software engineering tactics. Results: Dynamic quantization demonstrates significant reductions in inference time and energy consumption, making it highly suitable for large-scale systems. Additionally, torch.compile balances accuracy and energy. In contrast, local pruning shows no positive impact on performance, and global pruning's longer optimization times significantly impact costs. Conclusions: This study highlights the role of software engineering tactics in achieving greener ML models, offering guidelines for practitioners to make informed decisions on optimization methods that align with sustainability goals.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# 検索型生成モデルと大規模言語モデルによるEコマース製品タイトル翻訳の強化

Enhancing E-commerce Product Title Translation with Retrieval-Augmented Generation and Large Language Models ( http://arxiv.org/abs/2409.12880v1 )

ライセンス: Link先を確認
Bryan Zhang, Taichi Nakatani, Stephan Walter, (参考訳) Eコマースストアは、正確な製品タイトルの翻訳を必要とする多言語製品発見を可能にする。 多言語大言語モデル(LLM)は,機械翻訳作業を行う上で有望な能力を示した。 しかし、タイトルが短く、文脈が欠如し、専門用語を含むため、製品タイトルの翻訳は単に言語変換以上のものを必要とすることが多い。 本研究では、類似のバイリンガル例を検索し、LLMに基づく製品タイトル翻訳を向上するために、少数のプロンプトとして組み込むことにより、電子商取引における既存のバイリンガル製品情報を活用する検索強化世代(RAG)アプローチを提案する。 実験の結果,LLMの習熟度に限界がある言語対では,chrFスコアが最大15.3%向上し,製品タイトルの翻訳品質が向上することが示唆された。

E-commerce stores enable multilingual product discovery which require accurate product title translation. Multilingual large language models (LLMs) have shown promising capacity to perform machine translation tasks, and it can also enhance and translate product titles cross-lingually in one step. However, product title translation often requires more than just language conversion because titles are short, lack context, and contain specialized terminology. This study proposes a retrieval-augmented generation (RAG) approach that leverages existing bilingual product information in e-commerce by retrieving similar bilingual examples and incorporating them as few-shot prompts to enhance LLM-based product title translation. Experiment results show that our proposed RAG approach improve product title translation quality with chrF score gains of up to 15.3% for language pairs where the LLM has limited proficiency.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# 非古典的光における光子付加と減光の最適検出

Optimal sensing of photon addition and subtraction on nonclassical light ( http://arxiv.org/abs/2409.12881v1 )

ライセンス: Link先を確認
Soumyabrata Paul, Arman, S. Lakshmibala, Prasanta K. Panigrahi, S. Ramanan, V. Balakrishnan, (参考訳) 我々は、古典的でない状態の光学トモグラムに対応するワッサーシュタイン距離$W_{1}$が、これらの状態への光子付加または減算によって生じる変化を忠実に捉えることを示した。 W_{1}$は量子状態空間における真の距離の測度であり、光子数の変化後にトモグラムに現れる基本的な干渉構造に敏感である。 前者はウィグナー関数に特徴的な負性を示すが、後者はそうしない。 圧縮真空やコヒーレント状態の場合にはこれを説明し、トモグラム内の特定の領域の強度の変化に光子付加(または減算)が反映されていることを示す。 さらに,Squeezingパラメータに対する$W_{1}$の依存性について検討し,その感度について検討した。

We demonstrate that the Wasserstein distance $W_{1}$ corresponding to optical tomograms of nonclassical states faithfully captures changes that arise due to photon addition to, or subtraction from, these states. $W_{1}$ is a true measure of distance in the quantum state space, and is sensitive to the underlying interference structures that arise in the tomogram after changes in the photon number. Our procedure is universally applicable to the cat and squeezed states, the former displaying the characteristic negativity in its Wigner function, while the latter does not do so. We explicate this in the case of the squeezed vacuum and even coherent states and show that photon addition (or subtraction) is mirrored in the shift in the intensity of specific regions in the tomogram. Further, we examine the dependence of $W_{1}$ on the squeezing parameter, and its sensitivity to different quadratures.
翻訳日:2024-11-07 13:10:09 公開日:2024-09-19
# キドニー石型認識のためのケースベース推論記述のための原型部品抽象化の改良

Improving Prototypical Parts Abstraction for Case-Based Reasoning Explanations Designed for the Kidney Stone Type Recognition ( http://arxiv.org/abs/2409.12883v1 )

ライセンス: Link先を確認
Daniel Flores-Araiza, Francisco Lopez-Tiro, Clément Larose, Salvador Hinojosa, Andres Mendez-Vazquez, Miguel Gonzalez-Mendoza, Gilberto Ochoa-Ruiz, Christian Daul, (参考訳) 尿管鏡による腎結石の同定は、退屈な腎結石抽出の時間を短縮し、感染リスクを低減させるため、尿学における大きな医学的進歩となる。 さらに、このような自動的な手順により、直ちに反再帰治療を処方することが可能となる。 現在では、内視鏡検査中に画面に映されたビデオの映像の中で腎臓の石の種類を認識できるのは、経験豊富な尿学者はごくわずかである。 そこで,近年,尿管鏡画像を用いて腎臓結石のタイプを自動的に認識する深層学習(DL)モデルが提案されている。 しかし、これらのDLモデルはブラックボックスの本質であり、臨床環境での適用性を制限している。 このコントリビューションは, 原型部品(PP)を使用し, 局所的および大域的記述子を生成するケースベース推論DLモデルを提案する。 PPは、生物学者が使用するものと同様、各クラス(腎臓石型)の視覚特徴情報(ヘ、飽和、強度、テクスチャ)を符号化する。 PPは、モデルトレーニング中に使用される新しい損失関数により最適に生成される。 さらに、PPの地域的およびグローバルな記述者は、生物学者や尿学者にとって理解可能な方法で、決定("情報"、"画像のどこにあるか")を説明することができる。 提案したDLモデルは6種類の腎臓結石の画像を含むデータベース上でテストされている。 総合的な分類精度は90.37である。 この結果と腎臓結石の他の8種類のDLモデルと比較すると, 文献の最良の方法である88.2に比べて若干増大した精度を犠牲にして, 説明可能性に有意な利益が得られなかったことが分かる。 これらの有望で解釈可能な結果は、オーロラ学者がAIベースのソリューションを信頼することを促す。

The in-vivo identification of the kidney stone types during an ureteroscopy would be a major medical advance in urology, as it could reduce the time of the tedious renal calculi extraction process, while diminishing infection risks. Furthermore, such an automated procedure would make possible to prescribe anti-recurrence treatments immediately. Nowadays, only few experienced urologists are able to recognize the kidney stone types in the images of the videos displayed on a screen during the endoscopy. Thus, several deep learning (DL) models have recently been proposed to automatically recognize the kidney stone types using ureteroscopic images. However, these DL models are of black box nature whicl limits their applicability in clinical settings. This contribution proposes a case-based reasoning DL model which uses prototypical parts (PPs) and generates local and global descriptors. The PPs encode for each class (i.e., kidney stone type) visual feature information (hue, saturation, intensity and textures) similar to that used by biologists. The PPs are optimally generated due a new loss function used during the model training. Moreover, the local and global descriptors of PPs allow to explain the decisions ("what" information, "where in the images") in an understandable way for biologists and urologists. The proposed DL model has been tested on a database including images of the six most widespread kidney stone types. The overall average classification accuracy was 90.37. When comparing this results with that of the eight other DL models of the kidney stone state-of-the-art, it can be seen that the valuable gain in explanability was not reached at the expense of accuracy which was even slightly increased with respect to that (88.2) of the best method of the literature. These promising and interpretable results also encourage urologists to put their trust in AI-based solutions.
翻訳日:2024-11-07 12:59:09 公開日:2024-09-19
# ハイパースフィア安全なスケッチ再考:複数使用時のアイアンマスクに対する確率的線形回帰攻撃

Hypersphere Secure Sketch Revisited: Probabilistic Linear Regression Attack on IronMask in Multiple Usage ( http://arxiv.org/abs/2409.12884v1 )

ライセンス: Link先を確認
Pengxu Zhu, Lei Wang, (参考訳) バイオメトリックテンプレートの保護は、重要かつ緊急な焦点領域である。 IronMaskは、既存の既知の攻撃に対して顔テンプレートを保護しながら、優れた認識性能を示す。 高レベルでは、IronMaskは超球面上に構築されるファジィコミットメントスキームとして概念化することができる。 我々は、更新可能性というセキュリティ概念に基づいて、IronMaskに対する攻撃を考案する。 我々の攻撃は確率線形回帰攻撃と呼ばれ、根底にある誤り訂正符号の線形性を利用する。 この攻撃は、複数の保護されたテンプレートを許容時間とストレージ要件で取得する際に、元のテンプレートを正常に回復する最初のアルゴリズムである。 我々は、攻撃の有効性を十分に検証するArcFaceを保護するために適用されたIronMaskの実験を実施している。 さらに、ノイズの多い環境で実験を行い、攻撃がまだ適用可能であることを確認した。 最後に、この種の攻撃を緩和するための2つの戦略を提案しました。

Protection of biometric templates is a critical and urgent area of focus. IronMask demonstrates outstanding recognition performance while protecting facial templates against existing known attacks. In high-level, IronMask can be conceptualized as a fuzzy commitment scheme building on the hypersphere directly. We devise an attack on IronMask targeting on the security notion of renewability. Our attack, termed as Probabilistic Linear Regression Attack, utilizes the linearity of underlying used error correcting code. This attack is the first algorithm to successfully recover the original template when getting multiple protected templates in acceptable time and requirement of storage. We implement experiments on IronMask applied to protect ArcFace that well verify the validity of our attacks. Furthermore, we carry out experiments in noisy environments and confirm that our attacks are still applicable. Finally, we put forward two strategies to mitigate this type of attacks.
翻訳日:2024-11-07 12:59:09 公開日:2024-09-19
# EdgeGaussian -- Gaussian Splattingによる3Dエッジマッピング

EdgeGaussians -- 3D Edge Mapping via Gaussian Splatting ( http://arxiv.org/abs/2409.12886v1 )

ライセンス: Link先を確認
Kunal Chelani, Assia Benbihi, Torsten Sattler, Fredrik Kahl, (参考訳) 有意義な幾何学と3Dの世界における全知性により、エッジはコンピュータビジョンにおいて非常に有用なプリミティブである。 3次元エッジは線と曲線で構成され、それらを再構成する手法は多視点画像または点雲を入力として使用する。 最先端の画像ベースの手法は、まず3Dエッジポイントクラウドを学習し、3Dエッジを適合させる。 エッジポイント雲は、特定のレベルセット(0または1)に3次元エッジポイントをサンプリングする3次元暗黙のエッジフィールドを学習することにより得られる。 しかし、このような方法には2つの重要な欠点がある。 一 フロート不正確性及び訓練の不正確性により、正確なレベルセットの点を採点することは現実的でない。 代わりに、それらは様々なレベルにサンプリングされるので、ポイントは正確に3Dエッジに横たわらず、さらなる処理を必要とします。 二 このような暗黙の表現は、計算に高価で、長い訓練期間を要する。 本稿では,これらの2つの制約に対処し,よりシンプルで,より効率的に,精度を保った3次元エッジマッピングを提案する。 提案手法は,3次元エッジ点とそのエッジ方向を明示的に学習することにより,点サンプリングの必要性を回避できる。 3次元ガウスの中心として3次元エッジ点を、ガウスの主軸としてエッジ方向を配置する。 そのような表現は、幾何学的に意味を持つだけでなく、ガウススプラッティングで定義された効率的な訓練最適化と互換性があるという利点がある。 以上の結果から,提案手法は最先端技術と同程度の精度と完成度を実現し,精度は桁違いに向上した。 コードはhttps://github.com/kunalchelani/EdgeGaussiansで公開されている。

With their meaningful geometry and their omnipresence in the 3D world, edges are extremely useful primitives in computer vision. 3D edges comprise of lines and curves, and methods to reconstruct them use either multi-view images or point clouds as input. State-of-the-art image-based methods first learn a 3D edge point cloud then fit 3D edges to it. The edge point cloud is obtained by learning a 3D neural implicit edge field from which the 3D edge points are sampled on a specific level set (0 or 1). However, such methods present two important drawbacks: i) it is not realistic to sample points on exact level sets due to float imprecision and training inaccuracies. Instead, they are sampled within a range of levels so the points do not lie accurately on the 3D edges and require further processing. ii) Such implicit representations are computationally expensive and require long training times. In this paper, we address these two limitations and propose a 3D edge mapping that is simpler, more efficient, and preserves accuracy. Our method learns explicitly the 3D edge points and their edge direction hence bypassing the need for point sampling. It casts a 3D edge point as the center of a 3D Gaussian and the edge direction as the principal axis of the Gaussian. Such a representation has the advantage of being not only geometrically meaningful but also compatible with the efficient training optimization defined in Gaussian Splatting. Results show that the proposed method produces edges as accurate and complete as the state-of-the-art while being an order of magnitude faster. Code is released at https://github.com/kunalchelani/EdgeGaussians.
翻訳日:2024-11-07 12:59:09 公開日:2024-09-19
# SPARQ:宇宙空間量子ネットワークにおける効率的な絡み合い分布とルーティング

SPARQ: Efficient Entanglement Distribution and Routing in Space-Air-Ground Quantum Networks ( http://arxiv.org/abs/2409.12891v1 )

ライセンス: Link先を確認
Mohamed Shaban, Muhammad Ismail, Walid Saad, (参考訳) 本論文では、シームレスなオンデマンドエンタングルメント分布を提供する手段として、宇宙空間量子(SPARQ)ネットワークを開発した。 SPARQのノードモビリティは、絡み合いルーティングに重大な課題をもたらす。 既存の量子ルーティングアルゴリズムは静止した接地ノードに焦点を合わせ、リンク距離を最適度メートル法として利用するが、これはSPARQのような動的システムでは非現実的である。 さらに、同質なノードを仮定する先行技術とは対照的に、SPARQは異なる機能を持つ異質なノードを包含し、絡み合い分布をさらに複雑にする。 絡み合いルーティング問題を解決するために,ネットワークダイナミクスを考慮した深部Q-network (DQN) を用いて,深部Q-network (DQN) フレームワークを提案し,訓練した。 その後、通信相手間の絡み合いを確立するために、サードパーティの絡み合い分布(TPED)である絡み合い分布ポリシーを提案する。 現実的な量子ネットワークシミュレータは性能評価のために設計されている。 シミュレーション結果から,TPEDポリシは絡み合いの忠実度を3%改善し,メモリ消費量を50%削減することがわかった。 また,提案したDQNアルゴリズムは,長寿命メモリ(LSTM)に基づくRLアルゴリズムと比較して,最短経路のベースラインと絡み合いの忠実度に対して39%向上することを示した。 また、2つの最先端のベンチマークと比較して、エンタングルメントの忠実度を6%と9%改善した。 さらに、SPARQのスナップショットでトレーニングされたDQNと比較して、絡み合いの忠実度を15%改善する。 さらに、SPARQは空間層と地上層のみにまたがる既存のネットワークと比較して、平均エンタングルメント忠実度を23.5%向上させる。

In this paper, a space-air-ground quantum (SPARQ) network is developed as a means for providing a seamless on-demand entanglement distribution. The node mobility in SPARQ poses significant challenges to entanglement routing. Existing quantum routing algorithms focus on stationary ground nodes and utilize link distance as an optimality metric, which is unrealistic for dynamic systems like SPARQ. Moreover, in contrast to the prior art that assumes homogeneous nodes, SPARQ encompasses heterogeneous nodes with different functionalities further complicates the entanglement distribution. To solve the entanglement routing problem, a deep reinforcement learning (RL) framework is proposed and trained using deep Q-network (DQN) on multiple graphs of SPARQ to account for the network dynamics. Subsequently, an entanglement distribution policy, third-party entanglement distribution (TPED), is proposed to establish entanglement between communication parties. A realistic quantum network simulator is designed for performance evaluation. Simulation results show that the TPED policy improves entanglement fidelity by 3% and reduces memory consumption by 50% compared with benchmark. The results also show that the proposed DQN algorithm improves the number of resolved teleportation requests by 39% compared with shortest path baseline and the entanglement fidelity by 2% compared with an RL algorithm that is based on long short-term memory (LSTM). It also improved entanglement fidelity by 6% and 9% compared with two state-of-the-art benchmarks. Moreover, the entanglement fidelity is improved by 15% compared with DQN trained on a snapshot of SPARQ. Additionally, SPARQ enhances the average entanglement fidelity by 23.5% compared with existing networks spanning only space and ground layers.
翻訳日:2024-11-07 12:59:09 公開日:2024-09-19
# 3DGS-LM: Levenberg-Marquardtによるより高速なガウス格子最適化

3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt ( http://arxiv.org/abs/2409.12892v1 )

ライセンス: Link先を確認
Lukas Höllein, Aljaž Božič, Michael Zollhöfer, Matthias Nießner, (参考訳) 本稿では,ADAMオプティマイザをLevenberg-Marquardt (LM) に置き換えることで,3Dガウス版3DGSの再構築を高速化する新しい手法である3DGS-LMを提案する。 既存の手法はガウスの数を減らしたり、異なるラスタライザの実装を改善することで最適化時間を短縮する。 しかし、数千回のイテレーションでシーンのガウスパラメータを適合させるためにADAMオプティマイザを使っているため、最大1時間かかる。 この目的のために、3DGS微分ラスタライザとともに動作するLMにオプティマイザを変更する。 本稿では,GPUの並列化を効率的に行うため,中間勾配のキャッシュデータ構造を提案し,カスタムCUDAカーネルのヤコビアンベクトル積を効率的に計算する。 各LMイテレーションにおいて、これらのカーネルを用いて複数の画像サブセットから更新方向を計算し、重み付け平均で組み合わせる。 また,本手法は従来の3DGSよりも30%高速であり,再現性は同じであった。 我々の最適化は、3DGSを高速化する他の方法にも依存せず、バニラ3DGSよりも高速なスピードアップを可能にします。

We present 3DGS-LM, a new method that accelerates the reconstruction of 3D Gaussian Splatting (3DGS) by replacing its ADAM optimizer with a tailored Levenberg-Marquardt (LM). Existing methods reduce the optimization time by decreasing the number of Gaussians or by improving the implementation of the differentiable rasterizer. However, they still rely on the ADAM optimizer to fit Gaussian parameters of a scene in thousands of iterations, which can take up to an hour. To this end, we change the optimizer to LM that runs in conjunction with the 3DGS differentiable rasterizer. For efficient GPU parallization, we propose a caching data structure for intermediate gradients that allows us to efficiently calculate Jacobian-vector products in custom CUDA kernels. In every LM iteration, we calculate update directions from multiple image subsets using these kernels and combine them in a weighted mean. Overall, our method is 30% faster than the original 3DGS while obtaining the same reconstruction quality. Our optimization is also agnostic to other methods that acclerate 3DGS, thus enabling even faster speedups compared to vanilla 3DGS.
翻訳日:2024-11-07 12:59:09 公開日:2024-09-19
# ロボットマニピュレーションのためのビジョン・ランゲージ・アクション・モデルのテストと評価に向けて--実証的研究

Towards Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation: An Empirical Study ( http://arxiv.org/abs/2409.12894v1 )

ライセンス: Link先を確認
Zhijie Wang, Zhehua Zhou, Jiayang Song, Yuheng Huang, Zhan Shu, Lei Ma, (参考訳) マルチモーダル基礎モデルと生成AIは、様々な領域にわたるアプリケーションで有望な能力を実証している。 近年、ビジョン言語アクション(VLA)モデルは、ロボット操作を前進させる可能性について多くの注目を集めている。 VLAモデルが提供するエンドツーエンドの知覚制御ループにも拘わらず、さまざまなロボット操作シナリオにおける堅牢性と信頼性を明らかにするために、そのようなモデルと自動テストプラットフォームの機能に関する包括的な理解が欠如している。 これらの課題に対処するため、本研究では、さまざまな視点からVLAモデルの性能を評価するために、多様なロボット操作シーンを自動的に生成するテストフレームワークであるVLATestを提案する。 8つのVLAモデル、4種類の操作タスク、18,604以上のテストシーンを含む大規模な実験が検討されている。 実験の結果,既存のVALモデルには実用上必須のロバスト性がないことがわかった。 具体的には、VLAモデルの性能は、カメラのポーズ、照明条件、見えない物体など、運用環境のいくつかの要因に大きく影響される可能性がある。 我々の枠組みと研究から得られた知見は、より高度で信頼性の高いVLA対応ロボット操作システムの実現の道を開くことが期待されている。

Multi-modal foundation models and generative AI have demonstrated promising capabilities in applications across various domains. Recently, Vision-language-action (VLA) models have attracted much attention regarding their potential to advance robotic manipulation. Despite the end-to-end perception-control loop offered by the VLA models, there is a lack of comprehensive understanding of the capabilities of such models and an automated testing platform to reveal their robustness and reliability across different robotic manipulation scenarios. To address these challenges, in this work, we present VLATest, a testing framework that automatically generates diverse robotic manipulation scenes to assess the performance of VLA models from various perspectives. Large-scale experiments are considered, including eight VLA models, four types of manipulation tasks, and over 18,604 testing scenes. The experimental results show that existing VAL models still lack imperative robustness for practical applications. Specifically, the performance of VLA models can be significantly affected by several factors from the operation environments, such as camera poses, lighting conditions, and unseen objects. Our framework and the insights derived from the study are expected to pave the way for more advanced and reliable VLA-enabled robotic manipulation systems in practice.
翻訳日:2024-11-07 12:59:09 公開日:2024-09-19
# 深層学習を用いた顕微鏡画像からの有害植物プランクトンの認識

Recognition of Harmful Phytoplankton from Microscopic Images using Deep Learning ( http://arxiv.org/abs/2409.12900v1 )

ライセンス: Link先を確認
Aymane Khaldi, Rohaifa Khaldi, (参考訳) プランクトン分布のモニタリング、特に有害な植物プランクトンは、水生生態系の保全、地球温暖化の規制、環境保護の確保に不可欠である。 従来の監視方法は、しばしば時間がかかり、コストがかかり、エラーが発生し、大規模アプリケーションには不適であり、正確で効率的な自動化システムの必要性を強調している。 本研究では,ResNet,ResNeXt,DenseNet,EfficientNetなどの最先端CNNモデルに対して,線形探索,微調整,複合的アプローチの3つの手法を用いて,顕微鏡画像から有害植物プランクトン11種の分類を行った。 最高の性能はResNet-50で96.97%の精度で微調整方式で達成された。 また, 植物プランクトンに類似した形態的特徴を有する4種類の有害な植物プランクトン種を区別することが困難であった。

Monitoring plankton distribution, particularly harmful phytoplankton, is vital for preserving aquatic ecosystems, regulating the global climate, and ensuring environmental protection. Traditional methods for monitoring are often time-consuming, expensive, error-prone, and unsuitable for large-scale applications, highlighting the need for accurate and efficient automated systems. In this study, we evaluate several state-of-the-art CNN models, including ResNet, ResNeXt, DenseNet, and EfficientNet, using three transfer learning approaches: linear probing, fine-tuning, and a combined approach, to classify eleven harmful phytoplankton genera from microscopic images. The best performance was achieved by ResNet-50 using the fine-tuning approach, with an accuracy of 96.97%. The results also revealed that the models struggled to differentiate between four harmful phytoplankton types with similar morphological features.
翻訳日:2024-11-07 12:59:09 公開日:2024-09-19
# 最小センシングナビゲーションのための空間経路の高速終端生成

Fast End-to-End Generation of Belief Space Paths for Minimum Sensing Navigation ( http://arxiv.org/abs/2409.12902v1 )

ライセンス: Link先を確認
Lukas Taus, Vrushabh Zinage, Takashi Tanaka, Richard Tsai, (参考訳) ガウス的信念空間における運動計画の問題を再考する。 既存のサンプリングベースプランナの多くは高次元的な問題の性質から高い計算コストに悩まされているため,問題記述から直接最適な経路候補を予測するために,ディープラーニングモデルを活用するアプローチを提案する。 提案手法は3段階からなる。 まず、入力画像は解決すべき問題を符号化する(例えば、開始状態、目標状態、障害物位置)一方、出力画像は解を符号化する(すなわち、最短経路の基本真実)。 既存のプランナーを使えば、このトレーニングデータセットを生成することができる。 次に、U-Netアーキテクチャを活用して、入力と出力データの依存関係を学習する。 最後に、入力画像として符号化された新しい問題に対して、トレーニングされたU-Netモデルを適用する。 経路分布として解釈されるU-Netの出力画像から最適経路候補を再構成する。 提案手法はサンプリングベースベースラインアルゴリズムと比較して計算時間を著しく短縮する。

We revisit the problem of motion planning in the Gaussian belief space. Motivated by the fact that most existing sampling-based planners suffer from high computational costs due to the high-dimensional nature of the problem, we propose an approach that leverages a deep learning model to predict optimal path candidates directly from the problem description. Our proposed approach consists of three steps. First, we prepare a training dataset comprising a large number of input-output pairs: the input image encodes the problem to be solved (e.g., start states, goal states, and obstacle locations), whereas the output image encodes the solution (i.e., the ground truth of the shortest path). Any existing planner can be used to generate this training dataset. Next, we leverage the U-Net architecture to learn the dependencies between the input and output data. Finally, a trained U-Net model is applied to a new problem encoded as an input image. From the U-Net's output image, which is interpreted as a distribution of paths,an optimal path candidate is reconstructed. The proposed method significantly reduces computation time compared to the sampling-based baseline algorithm.
翻訳日:2024-11-07 12:59:09 公開日:2024-09-19
# 位相ベクトル空間からの入力を持つニューラルネットワークの普遍近似定理

Universal approximation theorem for neural networks with inputs from a topological vector space ( http://arxiv.org/abs/2409.12913v1 )

ライセンス: Link先を確認
Vugar Ismailov, (参考訳) トポロジカルベクトル空間(TVS-FNN)からの入力を用いたフィードフォワードニューラルネットワークについて検討した。 従来のフィードフォワードニューラルネットワークとは異なり、TVS-FNNはシーケンス、行列、関数などを含む幅広い入力を処理することができる。 この拡張された入力空間上で定義された任意の連続関数を近似する能力を示すTVS-FNNに対する普遍近似定理を証明した。

We study feedforward neural networks with inputs from a topological vector space (TVS-FNNs). Unlike traditional feedforward neural networks, TVS-FNNs can process a broader range of inputs, including sequences, matrices, functions and more. We prove a universal approximation theorem for TVS-FNNs, which demonstrates their capacity to approximate any continuous function defined on this expanded input space.
翻訳日:2024-11-07 12:59:09 公開日:2024-09-19
# 逆推論攻撃に対する防御は難しい

Defending against Reverse Preference Attacks is Difficult ( http://arxiv.org/abs/2409.12914v1 )

ライセンス: Link先を確認
Domenic Rosati, Giles Edkins, Harsh Raj, David Atanasov, Subhabrata Majumdar, Janarthanan Rajendran, Frank Rudzicz, Hassan Sajjad, (参考訳) 大規模言語モデル(LLM)を人的価値と整合させ、推論時に安全な振る舞いを確保するための進歩があるが、安全に整合したLSMは有害なデータセットに対する教師付き微調整(SFT)のような訓練時間攻撃に対して脆弱であることが知られている。 本稿では,LLMが敵の強化学習に弱いかどうかを問う。 この目標を掲げ,人間からのフィードバック(RLHF)からの強化学習において,LLMが敵の報酬を用いて有害な行動を学ぶためのクラスであるReverse Preference Attacks (RPA)を提案する。 RPAは安全に配慮したLLMの重大な安全性のギャップをRL設定で露呈し、有害なテキスト生成ポリシーを探索して敵の報酬を最適化する。 RPAから保護するために、私たちは一連の緩和戦略を探求する。 制約付きマルコフ決定プロセスを活用することで、RL設定に対する有害な微調整攻撃を防御する多くのメカニズムを適応する。 本実験は, 損失関数を制御したディフェンダーが, 損失関数の負のログ可能性を最小限に抑えるという考え方に基づく「オフライン」ディフェンスは, 損失関数を制御できないと仮定した「オフライン」ディフェンスを用いて, モデルウェイトを効果的に保護できることを示した。 これらの結果から, RL を用いた攻撃は, オープンウェイト LLM の安全アライメントを解除し, 悪質な目的に使用するために有効であることが示唆された。

While there has been progress towards aligning Large Language Models (LLMs) with human values and ensuring safe behaviour at inference time, safety-aligned LLMs are known to be vulnerable to training-time attacks such as supervised fine-tuning (SFT) on harmful datasets. In this paper, we ask if LLMs are vulnerable to adversarial reinforcement learning. Motivated by this goal, we propose Reverse Preference Attacks (RPA), a class of attacks to make LLMs learn harmful behavior using adversarial reward during reinforcement learning from human feedback (RLHF). RPAs expose a critical safety gap of safety-aligned LLMs in RL settings: they easily explore the harmful text generation policies to optimize adversarial reward. To protect against RPAs, we explore a host of mitigation strategies. Leveraging Constrained Markov-Decision Processes, we adapt a number of mechanisms to defend against harmful fine-tuning attacks into the RL setting. Our experiments show that ``online" defenses that are based on the idea of minimizing the negative log likelihood of refusals -- with the defender having control of the loss function -- can effectively protect LLMs against RPAs. However, trying to defend model weights using ``offline" defenses that operate under the assumption that the defender has no control over the loss function are less effective in the face of RPAs. These findings show that attacks done using RL can be used to successfully undo safety alignment in open-weight LLMs and use them for malicious purposes.
翻訳日:2024-11-07 12:59:09 公開日:2024-09-19
# ストリームスムース信号からのグラフ学習のためのオンライン近似ADMM

Online Proximal ADMM for Graph Learning from Streaming Smooth Signals ( http://arxiv.org/abs/2409.12916v1 )

ライセンス: Link先を確認
Hector Chahuara, Gonzalo Mateos, (参考訳) グラフ信号処理は、多変量データ解析にグラフ構造を利用するアルゴリズムと信号表現を扱う。 このようなグラフトポロジーは容易には利用できないことが多く、時間的変化があるため、(ダイナミックな)グラフ構造をノダル(例えばセンサ)の観測から学ぶことは重要な第一歩となる。 本稿では,潜在グラフ上でスムーズであると考えられる観測ストリームを用いたオンライングラフ学習のための新しいアルゴリズムを開発する。 滑らかな信号からトポロジを識別するためのバッチアルゴリズムとは異なり、当社のModus Operandiはグラフ信号を逐次処理し、メモリと計算コストを抑える。 結果として生じる滑らかで規則化された時間変化の逆問題を解決するために、バッチ設定における高速収束でよく知られている乗算器の交互方向法(ADMM)の近位変分に基づくオンラインおよび軽量な反復法を開発した。 トポロジ更新における近位項は時間変分正規化をシームレスに実装し、オンライン手続きはいくつかの単純化された仮定の下で、サブ線形な静的な後悔を示すと論じる。 合成および実グラフを用いた再現可能な実験は、ストリーミング信号に適応し、ゆっくりと変化するネットワーク接続を追跡する方法の有効性を示す。 提案手法は,現在最先端のオンライングラフ学習ベースラインと比較して,(準最適性の観点から)追跡性能が向上することを示す。

Graph signal processing deals with algorithms and signal representations that leverage graph structures for multivariate data analysis. Often said graph topology is not readily available and may be time-varying, hence (dynamic) graph structure learning from nodal (e.g., sensor) observations becomes a critical first step. In this paper, we develop a novel algorithm for online graph learning using observation streams, assumed to be smooth on the latent graph. Unlike batch algorithms for topology identification from smooth signals, our modus operandi is to process graph signals sequentially and thus keep memory and computational costs in check. To solve the resulting smoothness-regularized, time-varying inverse problem, we develop online and lightweight iterations built upon the proximal variant of the alternating direction method of multipliers (ADMM), well known for its fast convergence in batch settings. The proximal term in the topology updates seamlessly implements a temporal-variation regularization, and we argue the online procedure exhibits sublinear static regret under some simplifying assumptions. Reproducible experiments with synthetic and real graphs demonstrate the effectiveness of our method in adapting to streaming signals and tracking slowly-varying network connectivity. The proposed approach also exhibits better tracking performance (in terms of suboptimality), when compared to state-of-the-art online graph learning baselines.
翻訳日:2024-11-07 12:59:09 公開日:2024-09-19
# 多目的地域ベイズ最適化を用いた豚の飼料設計

Swine Diet Design using Multi-objective Regionalized Bayesian Optimization ( http://arxiv.org/abs/2409.12919v1 )

ライセンス: Link先を確認
Gabriel D. Uribe-Guerra, Danny A. Múnera-Ramírez, Julián D. Arias-Londoño, (参考訳) 動物栄養の文脈における食餌の設計は、最小限の栄養量のバランスを保ちながら、コスト効率の良い製剤を開発することを目的とした複雑な問題である。 原料中の代謝反応と消化可能エネルギーの濃度の理論モデルに基づく伝統的なアプローチは、動物のパフォーマンスに影響を与える動物園技術や環境変数を組み込む際の限界に直面し、持続可能な開発方針に沿った複数の目的を含む。 近年,多目的ベイズ最適化は,多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元 しかし、ベイズ最適化は高次元の探索空間で困難に遭遇し、主に境界での探索に繋がる。 本研究は,検索空間を多目的地域化ベイズ最適化と呼ばれる領域に分割する戦略を,ブタ食設計におけるパレートセットの品質向上とBOが提供するパレートフロント近似の代替策として分析する。 結果は、この局所化アプローチは、標準的な多目的ベイズ最適化よりも、より多様な非支配的解を生成することを示している。 さらに、地域化戦略は、文献で参照された確率的プログラミングアプローチによって同定された手法より優れている解を見つけるのに、4倍効果的であった。 繰り返し毎のクエリ候補解のバッチを用いた実験により、最適化プロセスは、最適化の初期、最も重要なフェーズにおいて、パレート集合の近似の質を損なうことなく加速できることが示されている。

The design of food diets in the context of animal nutrition is a complex problem that aims to develop cost-effective formulations while balancing minimum nutritional content. Traditional approaches based on theoretical models of metabolic responses and concentrations of digestible energy in raw materials face limitations in incorporating zootechnical or environmental variables affecting the performance of animals and including multiple objectives aligned with sustainable development policies. Recently, multi-objective Bayesian optimization has been proposed as a promising heuristic alternative able to deal with the combination of multiple sources of information, multiple and diverse objectives, and with an intrinsic capacity to deal with uncertainty in the measurements that could be related to variability in the nutritional content of raw materials. However, Bayesian optimization encounters difficulties in high-dimensional search spaces, leading to exploration predominantly at the boundaries. This work analyses a strategy to split the search space into regions that provide local candidates termed multi-objective regionalized Bayesian optimization as an alternative to improve the quality of the Pareto set and Pareto front approximation provided by BO in the context of swine diet design. Results indicate that this regionalized approach produces more diverse non-dominated solutions compared to the standard multi-objective Bayesian optimization. Besides, the regionalized strategy was four times more effective in finding solutions that outperform those identified by a stochastic programming approach referenced in the literature. Experiments using batches of query candidate solutions per iteration show that the optimization process can also be accelerated without compromising the quality of the Pareto set approximation during the initial, most critical phase of optimization.
翻訳日:2024-11-07 12:48:01 公開日:2024-09-19
# LogicPro: プログラムガイド学習による複雑な論理推論の改善

LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning ( http://arxiv.org/abs/2409.12929v1 )

ライセンス: Link先を確認
Jin Jiang, Yuchen Yan, Yang Liu, Yonggang Jin, Shuai Peng, Mengdi Zhang, Xunliang Cai, Yixin Cao, Liangcai Gao, Zhi Tang, (参考訳) 本稿では,プログラム例を通してLarge Language Models (LLMs) の論理的推論を強化するための新しいアプローチであるLogicProを提案する。 私たちは、広く利用可能なアルゴリズム問題とそのコードソリューションを単純に活用することで、これを効果的に実現します。 まず,アルゴリズムによる質問やコード解に基づく多様なテストサンプルを構築した。 そこで我々は,アルゴリズム問題とテストサンプルに基づいて,様々な複雑な推論質問を設計した。 最後に、コードソリューションの中間変数出力と複雑な推論問題を組み合わせることで、推論プロセスと最終的な答えを導出する。 このアプローチでは、十分な困難(すべてのモデルは非効率)、多様性(2,360の異なるアルゴリズム質問から合成)、スケーラブル(異なるテストサンプルの構築とよりアルゴリズム的な質問の収集)のデータセットを構築することができる。 さらに、中間変数の値によって導かれる高品質な推論プロセスを得る。 その結果, BBH$^{27}$, GSM8K, HellSwag, Logicqa, Reclor, RTEデータセットの複数のモデルにおいて, 既存の推論データセットよりも大幅に向上した。

In this paper, we present a novel approach, called LogicPro, to enhance Large Language Models (LLMs) complex Logical reasoning through Program Examples. We do this effectively by simply utilizing widely available algorithmic problems and their code solutions. First, we constructed diverse test samples input based on algorithmic questions and code solutions. Then, we designed different complex reasoning questions based on algorithmic problems and test samples. Finally, combining the intermediate variable outputs of the code solutions and the complex reasoning questions, we derived the reasoning process and the final answer. With this approach, we can construct a dataset that is sufficiently difficult (all models are ineffective), diverse (synthesized from 2,360 different algorithmic questions), and scalable (building different test samples and collecting more algorithmic questions). In addition, we obtain a high-quality reasoning process guided by the values of intermediate variables. As a result, our approach achieves significant improvements in multiple models for the BBH$^{27}$, GSM8K, HellSwag, Logicqa, Reclor, and RTE datasets, outperforming a wide range of existing reasoning datasets.
翻訳日:2024-11-07 12:48:01 公開日:2024-09-19
# スケーラブルな固体量子ノードのためのハイブリッドスピンフォノンアーキテクチャ

Hybrid spin-phonon architecture for scalable solid-state quantum nodes ( http://arxiv.org/abs/2409.12938v1 )

ライセンス: Link先を確認
Ruoming Peng, Xuntao Wu, Yang Wang, Jixing Zhang, Jianpei Geng, Durga Bhaktavatsala Rao Dasari, Andrew N. Cleland, Jörg Wrachtrup, (参考訳) 固体スピンシステムは量子情報処理と量子ネットワークの構築に大いに期待できる。 しかし、固体中のスピンのかなりの不均一性は、固体量子系のスケーリングに重大な課題をもたらす。 スピンを個別に制御し、絡み合わせるための実用的なプロトコルは、いまだ解明されていない。 そこで本研究では,スピン埋め込みSiCオプトロメカニカル結晶(OMC)キャビティをベースとしたハイブリッドスピンフォノンアーキテクチャを提案する。 ラマンファシリケートプロセスにより、OMCキャビティはスピンとOMCキャビティモードの零点運動の結合をサポートし、フォノン準備とスピンラビスワッププロセスを促進する。 そこで本研究では,9.80 %の擬似忠実度を持つ2量子制御Zゲートを実現するスピンフォノンインタフェースを開発し,高絡み合いのディック状態を99 %以上の忠実度で効率的に生成し,励起状態緩和による損失と欠陥中心のスペクトル不均一性に頑健な強結合スピンフォノンダークステートを工学的に構築する。 これは、光リンクに加えて、潜在的なスケーラビリティと完全な接続性を備えたスピン絡み合いを探索するためのハイブリッドプラットフォームを提供し、固体系の量子音響を調査するための経路を提供する。

Solid-state spin systems hold great promise for quantum information processing and the construction of quantum networks. However, the considerable inhomogeneity of spins in solids poses a significant challenge to the scaling of solid-state quantum systems. A practical protocol to individually control and entangle spins remains elusive. To this end, we propose a hybrid spin-phonon architecture based on spin-embedded SiC optomechanical crystal (OMC) cavities, which integrates photonic and phononic channels allowing for interactions between multiple spins. With a Raman-facilitated process, the OMC cavities support coupling between the spin and the zero-point motion of the OMC cavity mode reaching 0.57 MHz, facilitating phonon preparation and spin Rabi swap processes. Based on this, we develop a spin-phonon interface that achieves a two-qubit controlled-Z gate with a simulated fidelity of $96.80\%$ and efficiently generates highly entangled Dicke states with over $99\%$ fidelity, by engineering the strongly coupled spin-phonon dark state which is robust against loss from excited state relaxation as well as spectral inhomogeneity of the defect centers. This provides a hybrid platform for exploring spin entanglement with potential scalability and full connectivity in addition to an optical link, and offers a pathway to investigate quantum acoustics in solid-state systems.
翻訳日:2024-11-07 12:48:01 公開日:2024-09-19
# Intel Myriad X Embedded SoCによる衛星画像推定のためのAIとコンピュータビジョンの高速化

Accelerating AI and Computer Vision for Satellite Pose Estimation on the Intel Myriad X Embedded SoC ( http://arxiv.org/abs/2409.12939v1 )

ライセンス: Link先を確認
Vasileios Leon, Panagiotis Minaidis, George Lentaris, Dimitrios Soudris, (参考訳) 人工知能(AI)とコンピュータビジョン(CV)アルゴリズムのエッジへの展開は、組み込みコンピューティングのコミュニティに異質なSystem-on-Chips(SoC)を調べるよう促す。 このような新しいコンピューティングプラットフォームは、インターフェース、プロセッサ、ストレージの多様化を提供するが、AI/CVワークロードの効率的なパーティショニングとマッピングは依然として未解決のままである。 この文脈において、本論文は、宇宙ミッションにおける衛星の姿勢を初期化し追跡するための、異種ビジョン処理ユニット(VPU)であるIntelのMovidius Myriad X上に、ハイブリッドAI/CVシステムを開発する。 宇宙産業は、オンボードデータ処理の厳密な制約を満たすために代替コンピューティングプラットフォームを検討しているコミュニティのひとつであり、AIドメインの機能の採用も試みている。 アルゴリズムレベルでは、独自のCVパイプラインとともに、ResNet-50ベースのUrsoNetネットワークに依存しています。 高速化のために、並列化と低レベル最適化を併用して、SoCのニューラルネットワークエンジンと16のベクトルプロセッサを利用する。 提案したシングルチップ,ロバスト推定,リアルタイムソリューションは,2Wの限られたパワーエンベロープ内で,1メガピクセルのRGB画像に対して最大5FPSのスループットを提供する。

The challenging deployment of Artificial Intelligence (AI) and Computer Vision (CV) algorithms at the edge pushes the community of embedded computing to examine heterogeneous System-on-Chips (SoCs). Such novel computing platforms provide increased diversity in interfaces, processors and storage, however, the efficient partitioning and mapping of AI/CV workloads still remains an open issue. In this context, the current paper develops a hybrid AI/CV system on Intel's Movidius Myriad X, which is an heterogeneous Vision Processing Unit (VPU), for initializing and tracking the satellite's pose in space missions. The space industry is among the communities examining alternative computing platforms to comply with the tight constraints of on-board data processing, while it is also striving to adopt functionalities from the AI domain. At algorithmic level, we rely on the ResNet-50-based UrsoNet network along with a custom classical CV pipeline. For efficient acceleration, we exploit the SoC's neural compute engine and 16 vector processors by combining multiple parallelization and low-level optimization techniques. The proposed single-chip, robust-estimation, and real-time solution delivers a throughput of up to 5 FPS for 1-MegaPixel RGB images within a limited power envelope of 2W.
翻訳日:2024-11-07 12:48:01 公開日:2024-09-19
# ノイズを考慮したオンラインロバスト蒸留による半教師付き対向ロバスト性の再検討

Revisiting Semi-supervised Adversarial Robustness via Noise-aware Online Robust Distillation ( http://arxiv.org/abs/2409.12946v1 )

ライセンス: Link先を確認
Tsung-Han Wu, Hung-Ting Su, Shang-Tse Chen, Winston H. Hsu, (参考訳) 頑健な自己訓練(RST)フレームワークは、半教師付き対人訓練の顕著なアプローチとして登場した。 より複雑なタスクにラベル付け予算を減らして対処する可能性を探るため、頑健な事前学習モデルに依存した従来のアプローチとは異なり、現代の半教師あり学習技術を対人訓練の領域に導入するシンプルで効果的なフレームワークであるSNORDを提案する。 擬似ラベルを強化し、より効果的にノイズの多いトレーニングデータを管理することで、SNORDは、さまざまなデータセットとラベルの予算にまたがる、印象的で最先端のパフォーマンスを、事前訓練されたモデルを必要とせずに示す。 完全な敵監督と比較して、SNORDはエプシロン=8/255オートアタックで90%の相対的精度を達成しており、それぞれCIFAR-10、CIFAR-100、TinyImageNet-200のラベルは0.1%未満、2%、10%未満である。 追加実験により, 各成分の有効性を確認し, SNORDと既存の敵前訓練戦略を統合することにより, より堅牢性を高める効果が示された。

The robust self-training (RST) framework has emerged as a prominent approach for semi-supervised adversarial training. To explore the possibility of tackling more complicated tasks with even lower labeling budgets, unlike prior approaches that rely on robust pretrained models, we present SNORD - a simple yet effective framework that introduces contemporary semi-supervised learning techniques into the realm of adversarial training. By enhancing pseudo labels and managing noisy training data more effectively, SNORD showcases impressive, state-of-the-art performance across diverse datasets and labeling budgets, all without the need for pretrained models. Compared to full adversarial supervision, SNORD achieves a 90% relative robust accuracy under epsilon = 8/255 AutoAttack, requiring less than 0.1%, 2%, and 10% labels for CIFAR-10, CIFAR-100, and TinyImageNet-200, respectively. Additional experiments confirm the efficacy of each component and demonstrate the adaptability of integrating SNORD with existing adversarial pretraining strategies to further bolster robustness.
翻訳日:2024-11-07 12:48:01 公開日:2024-09-19
# 最適ベイズ推論を確実に学習するアンロールデノナイジングネットワーク

Unrolled denoising networks provably learn optimal Bayesian inference ( http://arxiv.org/abs/2409.12947v1 )

ライセンス: Link先を確認
Aayush Karan, Kulin Shah, Sitan Chen, Yonina C. Eldar, (参考訳) ベイズ予想の多くは、データが既知の事前から来ると仮定して最適である逆問題に対する推定器の設計を中心にしている。 しかし、これらの最適性を保証することは、事前が不明な場合に何を意味するのか? 近年、アルゴリズムのアンローリングは、階層が原則的に推論アルゴリズムの反復をシミュレートし、未知の先行者が生成したデータに基づいてトレーニングできるニューラルネットワークを設計するという、この古い質問に対するディープラーニングの答えとして現れている。 しかし、その実証的な成功にもかかわらず、この手法が最適で事前認識された性能を確実に回復できるかどうかは不明のままである。 本研究では,AMP(Unrolling Near Message Passing)に基づいて,ニューラルネットワークの厳密な学習保証を初めて証明する。 圧縮センシングでは、製品から引き出されたデータに基づいてトレーニングを行うと、ネットワークの層がベイズAMPで使用されるのと同じデノイザーにほぼ収束することを示す。 また,非ローリングアーキテクチャの利点を実証した圧縮センシングおよびランクワン行列推定のための広範な数値実験を行い,ベイズAMPよりも低次元,非ガウス的設計,非積的事前設定に改良が加えられた。

Much of Bayesian inference centers around the design of estimators for inverse problems which are optimal assuming the data comes from a known prior. But what do these optimality guarantees mean if the prior is unknown? In recent years, algorithm unrolling has emerged as deep learning's answer to this age-old question: design a neural network whose layers can in principle simulate iterations of inference algorithms and train on data generated by the unknown prior. Despite its empirical success, however, it has remained unclear whether this method can provably recover the performance of its optimal, prior-aware counterparts. In this work, we prove the first rigorous learning guarantees for neural networks based on unrolling approximate message passing (AMP). For compressed sensing, we prove that when trained on data drawn from a product prior, the layers of the network approximately converge to the same denoisers used in Bayes AMP. We also provide extensive numerical experiments for compressed sensing and rank-one matrix estimation demonstrating the advantages of our unrolled architecture - in addition to being able to obliviously adapt to general priors, it exhibits improvements over Bayes AMP in more general settings of low dimensions, non-Gaussian designs, and non-product priors.
翻訳日:2024-11-07 12:48:01 公開日:2024-09-19
# D_4$非アベリア位相秩序のデコヒーレンスと波動関数変形

Decoherence and wavefunction deformation of $D_4$ non-Abelian topological order ( http://arxiv.org/abs/2409.12948v1 )

ライセンス: Link先を確認
Pablo Sala, Jason Alicea, Ruben Verresen, (参考訳) トポロジカル秩序(TO)に対するデコヒーレンスの影響は、アベリアトースのパラゴンであるトーリック・コードに対して最も深く理解されている。 非アベリアのTOは、かなりリッチであるにもかかわらず、同様の程度に分析・理解できることが示される。 我々は、最近量子プロセッサで実現された$D_4$TOに作用する波動関数の変形と量子チャネルの両方を考慮する。 対応する局所統計力学的スピンまたはローターモデルを$D_4$対称性で同定することにより、非アベリア異性体の増加に対する顕著な安定性を見出す。 このことは、純状態の場合の抽出可能なO$(2)$ループモデルと、デコヒーレンスの場合のR\'enyi-$n$量に対する$n$結合されたO$(2)$ループモデルという観点からの再構成を活用して示される。 特に、純度 (n=2$) が任意のデコヒーレンス強度に対して$D_4$ TO の奥深くにあるのに対して、$n \to \infty$ limit は、我々の波動関数変形結果と同様、特定のエノン型を極大にデコヒーレンスにデコヒーレントすると臨界となる。 情報理論しきい値(n\to 1$)は、これらのstat-mechモデルの混乱したバージョンによって制御されているように見える。 さらに、モンテカルロシミュレーションを用いて、複数のエノン型が同時に増殖するときの位相図を探索し、D_4$TOの安定性と、創発的な$U(1)$対称性を持つ臨界相の安定性を継続する。 ループモデルの代わりに、これらは、融合規則に従って結合された異なるエノンタイプに対応するネットモデルによって記述され、これにより、最適なデコーダを知らせる非アベリアTOの統計力学モデルの探索が始まり、非アベリア強弱対称性の破れの未ゲージ化例で説明される。

The effect of decoherence on topological order (TO) has been most deeply understood for the toric code, the paragon of Abelian TOs. We show that certain non-Abelian TOs can be analyzed and understood to a similar degree, despite being significantly richer. We consider both wavefunction deformations and quantum channels acting on $D_4$ TO, which has recently been realized on a quantum processor. By identifying the corresponding local statistical mechanical spin or rotor model with $D_4$ symmetry, we find a remarkable stability against proliferating non-Abelian anyons. This is shown by leveraging a reformulation in terms of the tractable O$(2)$ loop model in the pure state case, and $n$ coupled O$(2)$ loop models for R\'enyi-$n$ quantities in the decoherence case -- corresponding to worldlines of the proliferating anyon with quantum dimension $2$. In particular, we find that the purity ($n=2$) remains deep in the $D_4$ TO for any decoherence strength, while the $n \to \infty$ limit becomes critical upon maximally decohering a particular anyon type, similar to our wavefunction deformation result. The information-theoretic threshold ($n\to 1$) appears to be controlled by a disordered version of these stat-mech models, akin to the toric code case although significantly more robust. We furthermore use Monte Carlo simulations to explore the phase diagrams when multiple anyon types proliferate at the same time, leading to a continued stability of the $D_4$ TO in addition to critical phases with emergent $U(1)$ symmetry. Instead of loop models, these are now described by net models corresponding to different anyon types coupled together according to fusion rules.This opens up the exploration of statistical mechanical models for decohered non-Abelian TO, which can inform optimal decoders, and which in an ungauged formulation examples of non-Abelian strong-to-weak symmetry breaking.
翻訳日:2024-11-07 12:48:01 公開日:2024-09-19
# LayerNormの再導入:幾何学的意味、不可逆性およびRMSNormとの比較研究

Re-Introducing LayerNorm: Geometric Meaning, Irreversibility and a Comparative Study with RMSNorm ( http://arxiv.org/abs/2409.12951v1 )

ライセンス: Link先を確認
Akshat Gupta, Atahan Ozdemir, Gopala Anumanchipalli, (参考訳) 層正規化はトランスアーキテクチャにおける重要なステップである。 本稿では、この過程の幾何的含意を考察し、LayerNormが表現空間における隠れベクトルのノルムと配向にどのように影響するかを考察する。 ここでは、LayerNormの定義が本質的に一様ベクトルに結びついていることを示し、$\boldsymbol{1} = [1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$ と定義される。 次に、LayerNormの標準化ステップが3つの簡単なステップで理解できることを示します。 (i)一様ベクトルに沿ったベクトルの成分を除去する。 (ii)残りのベクトルを正規化し、 (iii) 結果ベクトルを$\sqrt{d}$ でスケールし、$d$ は表現空間の次元である。 また、LayerNormに対して「可逆性」の特性を導入し、正規化プロセス中に失われた情報が回復できないことを示す。 言い換えれば、バッチ正規化とは異なり、LayerNormはアイデンティティ変換を学べない。 我々は、一様ベクトルに沿った成分を除去するための引数を示すが、この成分を除去する選択は、任意に思えるし、原作者の動機もよくない。 このステップの有用性を評価するために、LayerNorm ベースの LLM の隠れ表現と RMSNorm を用いて訓練されたモデルを比較し、全ての LLM が一様ベクトルに直交する表現を自然に整列することを示す。 この結果から,LayerNorm上でのRMSNormの使用は,より計算効率が高いだけでなく,一様ベクトルに直交する隠蔽表現の分布も学習できることがわかった。

Layer normalization is a pivotal step in the transformer architecture. This paper delves into the less explored geometric implications of this process, examining how LayerNorm influences the norm and orientation of hidden vectors in the representation space. We show that the definition of LayerNorm is innately linked to the uniform vector, defined as $\boldsymbol{1} = [1, 1, 1, 1, \cdots, 1]^T \in \mathbb{R}^d$. We then show that the standardization step in LayerNorm can be understood in three simple steps: (i) remove the component of a vector along the uniform vector, (ii) normalize the remaining vector, and (iii) scale the resultant vector by $\sqrt{d}$, where $d$ is the dimensionality of the representation space. We also introduce the property of "irreversibility" for LayerNorm, where we show that the information lost during the normalization process cannot be recovered. In other words, unlike batch normalization, LayerNorm cannot learn an identity transform. While we present possible arguments for removing the component along the uniform vector, the choice of removing this component seems arbitrary and not well motivated by the original authors. To evaluate the usefulness of this step, we compare the hidden representations of LayerNorm-based LLMs with models trained using RMSNorm and show that all LLMs naturally align representations orthogonal to the uniform vector, presenting the first mechanistic evidence that removing the component along the uniform vector in LayerNorm is a redundant step. Our findings support the use of RMSNorm over LayerNorm as it is not only more computationally efficient with comparable downstream performance, but also learns a similar distribution of hidden representations that operate orthogonal to the uniform vector.
翻訳日:2024-11-07 12:48:01 公開日:2024-09-19
# ガウス微分変分オートエンコーダ(GdVAE):非現実的説明を伴う自己説明可能なモデル

The Gaussian Discriminant Variational Autoencoder (GdVAE): A Self-Explainable Model with Counterfactual Explanations ( http://arxiv.org/abs/2409.12952v1 )

ライセンス: Link先を確認
Anselm Haselhoff, Kevin Trelenberg, Fabian Küppers, Jonas Schneider, (参考訳) ビジュアル・カウンティファクト・説明(CF)手法は、例えば形状などのイメージ概念を修正し、元のクエリ・イメージによく似ているが、予測を事前に定義された結果に変更する。 自己説明可能なモデル(SEM)やヒートマップ技術とは異なり、仮説的な"What-if"シナリオを検証できる。 従来のCFメソッドでは、ポストホックトレーニング、透明性とCF品質のバランスの制限、あるいは推論時の需要最適化が必要だった。 GdVAEは条件付き変分オートエンコーダ(CVAE)に基づく自己説明可能なモデルであり、ガウス微分分析(GDA)分類器と統合CF説明器を特徴とする。 完全な透明性は、下流タスクのクラス固有のプロトタイプと、潜在空間におけるCFのクローズドフォームソリューションを活用する生成型分類器によって達成される。 CFsの整合性は、説明関数で潜在空間を正規化することによって改善される。 既存の手法との比較により,透明性を維持しつつ高品質なCF説明を作成する上で,本手法の有効性を確認した。 コードとモデルは公開されています。

Visual counterfactual explanation (CF) methods modify image concepts, e.g, shape, to change a prediction to a predefined outcome while closely resembling the original query image. Unlike self-explainable models (SEMs) and heatmap techniques, they grant users the ability to examine hypothetical "what-if" scenarios. Previous CF methods either entail post-hoc training, limiting the balance between transparency and CF quality, or demand optimization during inference. To bridge the gap between transparent SEMs and CF methods, we introduce the GdVAE, a self-explainable model based on a conditional variational autoencoder (CVAE), featuring a Gaussian discriminant analysis (GDA) classifier and integrated CF explanations. Full transparency is achieved through a generative classifier that leverages class-specific prototypes for the downstream task and a closed-form solution for CFs in the latent space. The consistency of CFs is improved by regularizing the latent space with the explainer function. Extensive comparisons with existing approaches affirm the effectiveness of our method in producing high-quality CF explanations while preserving transparency. Code and models are public.
翻訳日:2024-11-07 12:48:01 公開日:2024-09-19
# 乱れた二次元系における普遍的半古典力学

Universal semiclassical dynamics in disordered two-dimensional systems ( http://arxiv.org/abs/2409.12956v1 )

ライセンス: Link先を確認
Łukasz Iwanek, Marcin Mierzejewski, Anatoli Polkovnikov, Dries Sels, Adam S. Sajna, (参考訳) 乱れた2次元系の力学は、乱れた鎖の力学よりも理解されていない。 フェルミオン・トランケート・ウィグナー近似(fTWA)の単軌道バージョンは、中等度または強度障害のある1次元(1D)系の力学に対して、予期せず正確な結果をもたらすことを示した。 さらに、この近似内で行われる計算の計算複雑性は、標準的なfTWAよりも大きい二次元(2D)システムの研究を可能にするのに十分小さい。 本手法を用いて,不規則な1次元および2次元格子上に伝播するスピンレスフェルミオンの相互作用のダイナミクスを解析した。 両空間次元について、不均衡は再スケールした時間$t/\xi_W$に普遍的依存を示し、2Dでは時間スケールの$\xi_W$は障害強度への伸張指数依存に従う。

The dynamics of disordered two-dimensional systems is much less understood than the dynamics of disordered chains, mainly due to the lack of appropriate numerical methods. We demonstrate that a single-trajectory version of the fermionic truncated Wigner approximation (fTWA) gives unexpectedly accurate results for the dynamics of one-dimensional (1D) systems with moderate or strong disorder. Additionally, the computational complexity of calculations carried out within this approximation is small enough to enable studies of two-dimensional (2D) systems larger than standard fTWA. Using this method, we analyze the dynamics of interacting spinless fermions propagating on disordered 1D and 2D lattices. We find for both spatial dimensions that the imbalance exhibits a universal dependence on the rescaled time $t/\xi_W$, where in 2D the time-scale $\xi_W$ follows a stretched-exponential dependence on disorder strength.
翻訳日:2024-11-07 12:36:59 公開日:2024-09-19
# 3DTopia-XL:原始拡散による高品質3次元アセット生成のスケーリング

3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion ( http://arxiv.org/abs/2409.12957v1 )

ライセンス: Link先を確認
Zhaoxi Chen, Jiaxiang Tang, Yuhao Dong, Ziang Cao, Fangzhou Hong, Yushi Lan, Tengfei Wang, Haozhe Xie, Tong Wu, Shunsuke Saito, Liang Pan, Dahua Lin, Ziwei Liu, (参考訳) 様々な産業における高品質な3D資産の需要の増加は、効率的で自動化された3Dコンテンツ作成を必要としている。 近年の3D生成モデルの発展にもかかわらず、既存の手法は、最適化速度、幾何学的忠実度、物理ベースレンダリング(PBR)の資産不足といった課題に直面している。 本稿では,これらの制約を克服するために,スケーラブルなネイティブな3D生成モデルである3DTopia-XLを紹介する。 3DTopia-XLはプリミティブベースの新しい3D表現であるPrimXを利用して、詳細な形状、アルベド、物質場をコンパクトなテンソル形式に符号化し、PBR資産による高分解能幾何のモデリングを容易にする。 新たな表現の上に,Diffusion Transformer (DiT) に基づく生成フレームワークを提案する。 1)原始的パッチ圧縮 2)後期原始拡散 3DTopia-XLはテキストやビジュアル入力から高品質な3Dアセットを生成することを学ぶ。 我々は, 3DTopia-XLが, 微粒なテクスチャと材料で高品質な3Dアセットを生成する上で, 既存の手法よりも優れており, 生成モデルと実世界のアプリケーション間の品質ギャップを効率的に埋めることができることを示すために, 広範囲にわたる定性的かつ定量的な実験を行った。

The increasing demand for high-quality 3D assets across various industries necessitates efficient and automated 3D content creation. Despite recent advancements in 3D generative models, existing methods still face challenges with optimization speed, geometric fidelity, and the lack of assets for physically based rendering (PBR). In this paper, we introduce 3DTopia-XL, a scalable native 3D generative model designed to overcome these limitations. 3DTopia-XL leverages a novel primitive-based 3D representation, PrimX, which encodes detailed shape, albedo, and material field into a compact tensorial format, facilitating the modeling of high-resolution geometry with PBR assets. On top of the novel representation, we propose a generative framework based on Diffusion Transformer (DiT), which comprises 1) Primitive Patch Compression, 2) and Latent Primitive Diffusion. 3DTopia-XL learns to generate high-quality 3D assets from textual or visual inputs. We conduct extensive qualitative and quantitative experiments to demonstrate that 3DTopia-XL significantly outperforms existing methods in generating high-quality 3D assets with fine-grained textures and materials, efficiently bridging the quality gap between generative models and real-world applications.
翻訳日:2024-11-07 12:36:59 公開日:2024-09-19
# MURI: 逆命令による低リソース言語のための高品質インストラクションチューニングデータセット

MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions ( http://arxiv.org/abs/2409.12958v1 )

ライセンス: Link先を確認
Abdullatif Köksal, Marion Thaler, Ayyoob Imani, Ahmet Üstün, Anna Korhonen, Hinrich Schütze, (参考訳) インストラクションチューニングは、大きな言語モデル(LLM)を様々なタスクで人間の好みに合わせることで強化する。 命令チューニングデータセットを作成する従来のアプローチは、データアノテーションに依存しているため、低リソース言語では深刻な課題に直面している。 本研究では,人間のアノテータや既存の多言語モデルを必要としない,低リソース言語のための高品質な命令チューニングデータセットを生成する新しい手法であるMultilingual Reverse Instructions(MURI)を紹介する。 逆命令と翻訳パイプラインを利用して、MURIは、低リソース言語で既存の人文テキストから命令出力ペアを生成する。 この方法は、異なるネイティブドメインからテキストを抽出し、不適切なコンテンツを排除するためにフィルタを適用することで、文化的妥当性と多様性を保証する。 私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。 ネイティブスピーカーによる評価とmT5モデルによる微調整実験は、NLUとオープンエンドの両方にアプローチの有効性を示す。 データセットとモデルをhttps://github.com/akoksal/muri.comで公開しています。

Instruction tuning enhances large language models (LLMs) by aligning them with human preferences across diverse tasks. Traditional approaches to create instruction tuning datasets face serious challenges for low-resource languages due to their dependence on data annotation. This work introduces a novel method, Multilingual Reverse Instructions (MURI), which generates high-quality instruction tuning datasets for low-resource languages without requiring human annotators or pre-existing multilingual models. Utilizing reverse instructions and a translation pipeline, MURI produces instruction-output pairs from existing human-written texts in low-resource languages. This method ensures cultural relevance and diversity by sourcing texts from different native domains and applying filters to eliminate inappropriate content. Our dataset, MURI-IT, includes more than 2 million instruction-output pairs across 200 languages. Evaluation by native speakers and fine-tuning experiments with mT5 models demonstrate the approach's effectiveness for both NLU and open-ended generation. We publicly release datasets and models at https://github.com/akoksal/muri.
翻訳日:2024-11-07 12:36:59 公開日:2024-09-19
# MMSearch: マルチモーダル検索エンジンとしての大規模モデルの可能性をベンチマークする

MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines ( http://arxiv.org/abs/2409.12959v1 )

ライセンス: Link先を確認
Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li, (参考訳) 大規模言語モデル(LLM)の出現は、AI検索エンジン、例えば検索GPTの道を開いた。 しかし、現在のAI検索エンジンのほとんどはテキストのみの設定に限られており、マルチモーダルなユーザクエリや、Webサイト情報のテキストイメージのインターリーブ性は無視されている。 近年,LMM (Large Multimodal Models) が注目されている。 しかし、AI検索エンジンとして機能するかどうかはまだ解明されていないため、マルチモーダル検索におけるLMMの可能性には疑問が残る。 この目的のために、我々はまず、マルチモーダル検索機能を持つ任意のLMMを強化するために、デリケートなパイプラインMMSearch-Engineを設計する。 そこで本稿では,LMMのマルチモーダル検索性能を評価するための総合評価ベンチマークであるMMSearchを紹介する。 キュレートされたデータセットには、14のサブフィールドにまたがる300の手作業で収集されたインスタンスが含まれており、これは現在のLMMのトレーニングデータと重複しない。 MMSearch-Engineを用いることで、LMMは3つの個別タスク(クエリ、リランク、要約)と、完全な検索プロセスによる1つの挑戦的なエンドツーエンドタスクによって評価される。 クローズドソースおよびオープンソースLMMに関する広範な実験を行う。 すべてのテストモデルの中で,MMSearch-Engine を用いた GPT-4o は,提案したパイプラインの有効性を実証し,商用製品である Perplexity Pro を超える最高の結果を得る。 さらに,現在のLMMがマルチモーダル検索タスクを十分に把握することに苦慮していることを示すための誤り解析を行い,AI検索エンジンにおけるテスト時間計算のスケールアップの可能性を示すアブレーション研究を行う。 MMSearchは、マルチモーダルAI検索エンジンの将来開発をガイドするためのユニークな洞察を提供することを期待している。 Project Page: https://mmsearch.github.io

The advent of Large Language Models (LLMs) has paved the way for AI search engines, e.g., SearchGPT, showcasing a new paradigm in human-internet interaction. However, most current AI search engines are limited to text-only settings, neglecting the multimodal user queries and the text-image interleaved nature of website information. Recently, Large Multimodal Models (LMMs) have made impressive strides. Yet, whether they can function as AI search engines remains under-explored, leaving the potential of LMMs in multimodal search an open question. To this end, we first design a delicate pipeline, MMSearch-Engine, to empower any LMMs with multimodal search capabilities. On top of this, we introduce MMSearch, a comprehensive evaluation benchmark to assess the multimodal search performance of LMMs. The curated dataset contains 300 manually collected instances spanning 14 subfields, which involves no overlap with the current LMMs' training data, ensuring the correct answer can only be obtained within searching. By using MMSearch-Engine, the LMMs are evaluated by performing three individual tasks (requery, rerank, and summarization), and one challenging end-to-end task with a complete searching process. We conduct extensive experiments on closed-source and open-source LMMs. Among all tested models, GPT-4o with MMSearch-Engine achieves the best results, which surpasses the commercial product, Perplexity Pro, in the end-to-end task, demonstrating the effectiveness of our proposed pipeline. We further present error analysis to unveil current LMMs still struggle to fully grasp the multimodal search tasks, and conduct ablation study to indicate the potential of scaling test-time computation for AI search engine. We hope MMSearch may provide unique insights to guide the future development of multimodal AI search engine. Project Page: https://mmsearch.github.io
翻訳日:2024-11-07 12:36:59 公開日:2024-09-19
# LVCD:拡散モデルを用いた参照型リニアアート映像のカラー化

LVCD: Reference-based Lineart Video Colorization with Diffusion Models ( http://arxiv.org/abs/2409.12960v1 )

ライセンス: Link先を確認
Zhitong Huang, Mohan Zhang, Jing Liao, (参考訳) 参照型リニアトビデオのカラー化のための第1のビデオ拡散フレームワークを提案する。 フレームごとの線形フレームのカラー化に画像生成モデルのみを頼っていた従来の作品とは異なり,本手法では大規模事前学習映像拡散モデルを用いてカラー化アニメーション映像を生成する。 このアプローチは、より時間的に一貫した結果をもたらし、大きな動きを扱うのにより適している。 まず,Sketch-guided ControlNetを導入することで,映像間の拡散モデルを微調整し,リニアトに条件付きアニメーション映像を生成する。 そこで我々は,参照フレームから高速かつ拡張的な動きを含む他のフレームへの色移動を容易にするために,参照注意を提案する。 最後に,オーバーラップしたBlending ModuleとPrev-Reference Attentionを組み込んだシーケンシャルサンプリング手法を提案する。 定性的かつ定量的な結果から,本手法は時間的整合性だけでなく,フレーム品質や映像品質の面で,最先端技術よりも優れていたことが示唆された。 さらに,本手法は,従来の作品では実現不可能な大きな動きを持つ高品質で長時間の時間一貫性のあるアニメーションビデオを生成することができる。 私たちのコードとモデルはhttps://luckyhzt.github.io/lvcd.comで公開されています。

We propose the first video diffusion framework for reference-based lineart video colorization. Unlike previous works that rely solely on image generative models to colorize lineart frame by frame, our approach leverages a large-scale pretrained video diffusion model to generate colorized animation videos. This approach leads to more temporally consistent results and is better equipped to handle large motions. Firstly, we introduce Sketch-guided ControlNet which provides additional control to finetune an image-to-video diffusion model for controllable video synthesis, enabling the generation of animation videos conditioned on lineart. We then propose Reference Attention to facilitate the transfer of colors from the reference frame to other frames containing fast and expansive motions. Finally, we present a novel scheme for sequential sampling, incorporating the Overlapped Blending Module and Prev-Reference Attention, to extend the video diffusion model beyond its original fixed-length limitation for long video colorization. Both qualitative and quantitative results demonstrate that our method significantly outperforms state-of-the-art techniques in terms of frame and video quality, as well as temporal consistency. Moreover, our method is capable of generating high-quality, long temporal-consistent animation videos with large motions, which is not achievable in previous works. Our code and model are available at https://luckyhzt.github.io/lvcd.
翻訳日:2024-11-07 12:36:59 公開日:2024-09-19
# CLAIR-A: 大きな言語モデルを活用してオーディオキャプションを判断する

CLAIR-A: Leveraging Large Language Models to Judge Audio Captions ( http://arxiv.org/abs/2409.12962v1 )

ライセンス: Link先を確認
Tsung-Han Wu, Joseph E. Gonzalez, Trevor Darrell, David M. Chan, (参考訳) Automated Audio Captioning (AAC)タスクは、音声入力の自然言語記述を生成するためにモデルを要求する。 これらの機械生成音声キャプションの評価は,様々な要因,聴覚シーンの理解,音物体の推測,時間的コヒーレンス,シーンの環境状況などを考慮した複雑な作業である。 現在の手法は特定の側面にフォーカスするが、人間の判断とよく一致した総合的なスコアを提供するのに失敗することが多い。 本研究では,大規模言語モデル(LLM)のゼロショット機能を利用して,意味的距離スコアをLLMに直接求めることによって,候補音声キャプションを評価する,シンプルで柔軟なCLAIR-Aを提案する。 我々の評価では、CLAIR-Aは従来の指標と比較して人間の品質判断をより良く予測し、ドメイン固有のFENSE指標に比べて5.8%精度が向上し、Closo-Evalデータセット上で最高の汎用測定値よりも最大11%精度が向上した。 さらに、CLAIR-Aは、言語モデルがそのスコアの背後にある理由を説明することによって、より透明性を提供する。 CLAIR-Aはhttps://github.com/DavidMChan/clair-a.comで公開されている。

The Automated Audio Captioning (AAC) task asks models to generate natural language descriptions of an audio input. Evaluating these machine-generated audio captions is a complex task that requires considering diverse factors, among them, auditory scene understanding, sound-object inference, temporal coherence, and the environmental context of the scene. While current methods focus on specific aspects, they often fail to provide an overall score that aligns well with human judgment. In this work, we propose CLAIR-A, a simple and flexible method that leverages the zero-shot capabilities of large language models (LLMs) to evaluate candidate audio captions by directly asking LLMs for a semantic distance score. In our evaluations, CLAIR-A better predicts human judgements of quality compared to traditional metrics, with a 5.8% relative accuracy improvement compared to the domain-specific FENSE metric and up to 11% over the best general-purpose measure on the Clotho-Eval dataset. Moreover, CLAIR-A offers more transparency by allowing the language model to explain the reasoning behind its scores, with these explanations rated up to 30% better by human evaluators than those provided by baseline methods. CLAIR-A is made publicly available at https://github.com/DavidMChan/clair-a.
翻訳日:2024-11-07 12:36:59 公開日:2024-09-19
# DiffEditor: セマンティックエンリッチメントと音響一貫性による音声編集の強化

DiffEditor: Enhancing Speech Editing with Semantic Enrichment and Acoustic Consistency ( http://arxiv.org/abs/2409.12992v1 )

ライセンス: Link先を確認
Yang Chen, Yuhang Jia, Shiwan Zhao, Ziyue Jiang, Haoran Li, Jiarong Kang, Yong Qin, (参考訳) テキストベースの音声編集が普及するにつれて、制限のない自由テキスト編集の需要は増加し続けている。 しかし、既存の音声編集技術は、特にドメイン外テキスト(OOD)を扱う際の知性や音響的整合性を維持する上で、重大な課題に直面している。 本稿では,OODテキストシナリオにおけるセマンティックエンリッチメントと音響的整合性による性能向上を目的とした,新しい音声編集モデルDiffEditorを紹介する。 本研究では,事前学習した言語モデルから抽出した単語埋め込みを統合することにより,音素埋め込みの意味情報を強化する。 さらに, フレーム間平滑化特性は音響的整合性をモデル化するために重要であることを強調し, 編集境界におけるスムーズな遷移を促進し, 編集音声の全体的な流速を高める一階損失関数を提案する。 実験により,本モデルがドメイン内およびOODテキストシナリオの両方で最先端の性能を実現することを示す。

As text-based speech editing becomes increasingly prevalent, the demand for unrestricted free-text editing continues to grow. However, existing speech editing techniques encounter significant challenges, particularly in maintaining intelligibility and acoustic consistency when dealing with out-of-domain (OOD) text. In this paper, we introduce, DiffEditor, a novel speech editing model designed to enhance performance in OOD text scenarios through semantic enrichment and acoustic consistency. To improve the intelligibility of the edited speech, we enrich the semantic information of phoneme embeddings by integrating word embeddings extracted from a pretrained language model. Furthermore, we emphasize that interframe smoothing properties are critical for modeling acoustic consistency, and thus we propose a first-order loss function to promote smoother transitions at editing boundaries and enhance the overall fluency of the edited speech. Experimental results demonstrate that our model achieves state-of-the-art performance in both in-domain and OOD text scenarios.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-19
# CraftRTL: 正しく構成された非テキスト表現とターゲットコード修復を備えたVerilogコードモデルのための高品質な合成データ生成

CraftRTL: High-quality Synthetic Data Generation for Verilog Code Models with Correct-by-Construction Non-Textual Representations and Targeted Code Repair ( http://arxiv.org/abs/2409.12993v1 )

ライセンス: Link先を確認
Mingjie Liu, Yun-Da Tsai, Wenfei Zhou, Haoxing Ren, (参考訳) 大きな言語モデルによるコード生成では大きな進歩があったが、特にVerilogのようなハードウェア記述言語では課題が続いている。 本稿では,従来手法の合成データを用いて,Verilog 符号化における微調整 LLM の解析を行った。 非テクスチャ表現(カルノー写像、状態遷移図、波形)を扱うことの難しさと、ランダムに「マイナー」誤りを犯すモデルを用いてトレーニングする際の大きなばらつきである。 これらの制約に対処するために、テキスト以外の表現をターゲットとした正しい構成データを作成することにより、データキュレーションを強化する。 さらに、さまざまなモデルチェックポイントからエラーレポートを生成し、これらのエラーをオープンソースコードに注入して、ターゲットとなるコード修復データを生成する自動フレームワークを導入する。 我々の微調整されたStarcoder2-15Bは、VerilogEval-Machine, VerilogEval-Human, RTLLMで3.8%、10.9%、pass@1で6.6%、最先端の結果よりも優れています。

Despite the significant progress made in code generation with large language models, challenges persist, especially with hardware description languages such as Verilog. This paper first presents an analysis of fine-tuned LLMs on Verilog coding, with synthetic data from prior methods. We identify two main issues: difficulties in handling non-textual representations (Karnaugh maps, state-transition diagrams and waveforms) and significant variability during training with models randomly making "minor" mistakes. To address these limitations, we enhance data curation by creating correct-by-construction data targeting non-textual representations. Additionally, we introduce an automated framework that generates error reports from various model checkpoints and injects these errors into open-source code to create targeted code repair data. Our fine-tuned Starcoder2-15B outperforms prior state-of-the-art results by 3.8%, 10.9%, 6.6% for pass@1 on VerilogEval-Machine, VerilogEval-Human, and RTLLM.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-19
# 低データ状態における3次元結合親和性モデルの一般化性の向上

Improving generalisability of 3D binding affinity models in low data regimes ( http://arxiv.org/abs/2409.12995v1 )

ライセンス: Link先を確認
Julia Buhmann, Ward Haddadin, Lukáš Pravda, Alan Bilsland, Hagen Triendl, (参考訳) タンパク質-リガンド結合親和性を予測することは、コンピュータ支援薬物設計の重要な部分である。 しかし、一般的なグローバルバインディング親和性モデルは、特に低データレシエーションにおいて、解明され続けている。 モデルアーキテクチャの進化にもかかわらず、現在のベンチマークは3次元結合親和性モデルの一般化可能性を調べるのに適していない。 さらに、GNNのような3Dグローバルアーキテクチャは、パフォーマンスの期待に応えていない。 これらの問題を調査するために,PDBBindデータセットの新たな分割を導入し,列車とテストセット間の類似性リークを最小限に抑えるとともに,各種モデルアーキテクチャの公平かつ直接的な比較を可能にする。 この低類似性分割では、一般に3次元グローバルモデルが低データ構造におけるタンパク質特異的局所モデルよりも優れていることが示される。 また、GNNの性能は、量子力学的データによる教師付き事前学習、小さな分子拡散による教師なし事前学習、入力グラフにおける水素原子を明示的にモデル化することの3つの新しい貢献によってもたらされることを示した。 この研究は、結合親和性モデリングのためのGNNアーキテクチャの可能性を解き放つための、有望な新しいアプローチをもたらすと信じている。

Predicting protein-ligand binding affinity is an essential part of computer-aided drug design. However, generalisable and performant global binding affinity models remain elusive, particularly in low data regimes. Despite the evolution of model architectures, current benchmarks are not well-suited to probe the generalisability of 3D binding affinity models. Furthermore, 3D global architectures such as GNNs have not lived up to performance expectations. To investigate these issues, we introduce a novel split of the PDBBind dataset, minimizing similarity leakage between train and test sets and allowing for a fair and direct comparison between various model architectures. On this low similarity split, we demonstrate that, in general, 3D global models are superior to protein-specific local models in low data regimes. We also demonstrate that the performance of GNNs benefits from three novel contributions: supervised pre-training via quantum mechanical data, unsupervised pre-training via small molecule diffusion, and explicitly modeling hydrogen atoms in the input graph. We believe that this work introduces promising new approaches to unlock the potential of GNN architectures for binding affinity modelling.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-19
# pyrtklib: 都市キャニオンにおける位置決めのための密結合型ディープラーニングとGNSS統合のためのオープンソースパッケージ

pyrtklib: An open-source package for tightly coupled deep learning and GNSS integration for positioning in urban canyons ( http://arxiv.org/abs/2409.12996v1 )

ライセンス: Link先を確認
Runzhi Hu, Penghui Xu, Yihan Zhong, Weisong Wen, (参考訳) 人工知能(AI)は多くの分野に革命をもたらしており、深層学習によるインテリジェント輸送システム(ITS)におけるグローバルナビゲーション衛星システム(GNSS)測位アルゴリズムの応用が増加している。 しかし、従来のGNSSアルゴリズムはFortranやCでしばしば開発され、ディープラーニングツールで広く使われているPythonベースの実装とは対照的である。 そこで本稿では,広く利用されているオープンソースGNSSツールRTKLIBのPythonバインディングであるpyrtklibを紹介する。 このバインディングにより、すべてのRTKLIB機能がPythonでアクセスでき、シームレスな統合が容易になる。 また,Pyrtklib を用いた新しいディープラーニングフレームワークである pyrtklib を用いて,GNSS 位置決めプロセスにおける重みとバイアスを正確に予測する深層学習サブシステムを提案する。 pyrtklibを使用することで、ディープラーニング支援GNSSアルゴリズムのプロトタイプと実装を簡単かつ迅速に行えるようになり、位置決め精度を大幅に向上する可能性を示している。

Artificial intelligence (AI) is revolutionizing numerous fields, with increasing applications in Global Navigation Satellite Systems (GNSS) positioning algorithms in intelligent transportation systems (ITS) via deep learning. However, a significant technological disparity exists as traditional GNSS algorithms are often developed in Fortran or C, contrasting with the Python-based implementation prevalent in deep learning tools. To address this discrepancy, this paper introduces pyrtklib, a Python binding for the widely utilized open-source GNSS tool, RTKLIB. This binding makes all RTKLIB functionalities accessible in Python, facilitating seamless integration. Moreover, we present a deep learning subsystem under pyrtklib, which is a novel deep learning framework that leverages pyrtklib to accurately predict weights and biases within the GNSS positioning process. The use of pyrtklib enables developers to easily and quickly prototype and implement deep learning-aided GNSS algorithms, showcasing its potential to enhance positioning accuracy significantly.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-19
# VCAT: 自律走行車ロバスト性向上のための脆弱性認識と好奇心駆動型対人訓練

VCAT: Vulnerability-aware and Curiosity-driven Adversarial Training for Enhancing Autonomous Vehicle Robustness ( http://arxiv.org/abs/2409.12997v1 )

ライセンス: Link先を確認
Xuan Cai, Zhiyong Cui, Xuesong Bai, Ruimin Ke, Zhenshu Ma, Haiyang Yu, Yilong Ren, (参考訳) 自律走行車(AV)は、複雑な交通環境下での安全運転に対して重大な脅威に直面している。 敵の訓練は、悪質な攻撃に対する強固さを先制的に強化するための効果的な方法として現れている。 敵のポリシーを使って攻撃者を訓練し、攻撃者との対話を通じて、AVが堅牢な運転を学べるようにする。 しかし、既存の方法論の敵ポリシーは、確立された脆弱性を過度に暴露するループに陥り、その結果、AVは改善されない。 この制限を克服するため、我々はVulnerability-aware and Curiosity-driven Adversarial Training (VCAT)と呼ばれる先駆的なフレームワークを導入した。 具体的には、交通車両攻撃訓練フェーズにおいて、AV被害者の価値関数に適合するために代理ネットワークが使用され、被害者固有の脆弱性に関する情報が密集している。 その後、ランダムネットワーク蒸留は環境の新規性を特徴づけ、探索されていない領域を探索する際に攻撃者を誘導する本質的な報酬を構成する。 被害者防衛訓練フェーズでは、AVは、訓練済みの攻撃者が被害者の周りに配置され、攻撃行動を生成する重要なシナリオで訓練される。 実験結果から,VCATが提供するトレーニング手法は,従来のトレーニングモダリティと代替強化学習のどちらよりも優れた学習ベースAVの堅牢な制御能力を著しく向上し,クラッシュ率を著しく低下させることがわかった。 コードはhttps://github.com/caixxuan/VCATで公開されている。

Autonomous vehicles (AVs) face significant threats to their safe operation in complex traffic environments. Adversarial training has emerged as an effective method of enabling AVs to preemptively fortify their robustness against malicious attacks. Train an attacker using an adversarial policy, allowing the AV to learn robust driving through interaction with this attacker. However, adversarial policies in existing methodologies often get stuck in a loop of overexploiting established vulnerabilities, resulting in poor improvement for AVs. To overcome the limitations, we introduce a pioneering framework termed Vulnerability-aware and Curiosity-driven Adversarial Training (VCAT). Specifically, during the traffic vehicle attacker training phase, a surrogate network is employed to fit the value function of the AV victim, providing dense information about the victim's inherent vulnerabilities. Subsequently, random network distillation is used to characterize the novelty of the environment, constructing an intrinsic reward to guide the attacker in exploring unexplored territories. In the victim defense training phase, the AV is trained in critical scenarios in which the pretrained attacker is positioned around the victim to generate attack behaviors. Experimental results revealed that the training methodology provided by VCAT significantly improved the robust control capabilities of learning-based AVs, outperforming both conventional training modalities and alternative reinforcement learning counterparts, with a marked reduction in crash rates. The code is available at https://github.com/caixxuan/VCAT.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-19
# CMINNs: 比較モデルインフォームドニューラルネットワーク -- 薬のダイナミクスを解き放つ

CMINNs: Compartment Model Informed Neural Networks -- Unlocking Drug Dynamics ( http://arxiv.org/abs/2409.12998v1 )

ライセンス: Link先を確認
Nazanin Ahmadi Daryakenari, Shupeng Wang, George Karniadakis, (参考訳) 薬物開発プロセスにおいて重要な役割を担う薬物動態・薬物力学(PKPD)モデリングの分野では、伝統的なモデルは、薬物吸収、分布、およびそれらの標的に対する影響の複雑さを完全にカプセル化するのにしばしば困難に直面する。 マルチコンパートメントモデルは複雑な薬物動態を解明するために頻繁に使用されるが、過度に複雑になることもある。 単純さを維持しながらモデリングを一般化するために,分数計算や時間変化パラメータを定値パラメータや分数定数パラメータと組み合わせることで,PKとPK-PDモデリングを統合した革新的な手法を提案する。 これらのアプローチは、異常な拡散を効果的にモデル化し、薬物動態において顕著な現象である異種組織における薬物トラップと脱走率を捕捉する。 さらに、この方法は、がんにおける薬物の動態を多量投与で把握する。 提案手法では,物理インフォームドニューラルネットワーク (PINN) と分数次物理インフォームドニューラルネットワーク (fPINN) を併用し,従来の微分方程式 (ODE) と整数/屈折微分次数との結合を,ニューラルネットワークを用いたコンパートメンタルモデリングから行う。 この積分は、時間変量、定数、断片定数、あるいは分数微分順序に関連する変数のパラメータ推定を最適化する。 この手法は, 薬物吸収率, 分散遅延応答の描写を顕著に促進するだけでなく, 異なる薬物影響ダイナミクスを解き放ち, 吸収速度, 異常拡散, 薬剤抵抗, 持続性, 薬物動態耐性に対する新たな知見を提供する。

In the field of pharmacokinetics and pharmacodynamics (PKPD) modeling, which plays a pivotal role in the drug development process, traditional models frequently encounter difficulties in fully encapsulating the complexities of drug absorption, distribution, and their impact on targets. Although multi-compartment models are frequently utilized to elucidate intricate drug dynamics, they can also be overly complex. To generalize modeling while maintaining simplicity, we propose an innovative approach that enhances PK and integrated PK-PD modeling by incorporating fractional calculus or time-varying parameter(s), combined with constant or piecewise constant parameters. These approaches effectively model anomalous diffusion, thereby capturing drug trapping and escape rates in heterogeneous tissues, which is a prevalent phenomenon in drug dynamics. Furthermore, this method provides insight into the dynamics of drug in cancer in multi-dose administrations. Our methodology employs a Physics-Informed Neural Network (PINN) and fractional Physics-Informed Neural Networks (fPINNs), integrating ordinary differential equations (ODEs) with integer/fractional derivative order from compartmental modeling with neural networks. This integration optimizes parameter estimation for variables that are time-variant, constant, piecewise constant, or related to the fractional derivative order. The results demonstrate that this methodology offers a robust framework that not only markedly enhances the model's depiction of drug absorption rates and distributed delayed responses but also unlocks different drug-effect dynamics, providing new insights into absorption rates, anomalous diffusion, drug resistance, peristance and pharmacokinetic tolerance, all within a system of just two (fractional) ODEs with explainable results.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-19
# 大規模医療モデルの導入:患者のイベントシーケンスをトレーニングしたトランスフォーマーによる医療費とリスク予測の現状

Introducing the Large Medical Model: State of the art healthcare cost and risk prediction with transformers trained on patient event sequences ( http://arxiv.org/abs/2409.13000v1 )

ライセンス: Link先を確認
Ricky Sahu, Eric Marriott, Ethan Siegel, David Wagner, Flore Uzan, Troy Yang, Asim Javed, (参考訳) 医療費が5T(NHE Fact Sheet 2024)に近づき、25%が無駄であると見積もられている(米国では、医療システム:コストと貯蓄の可能性の推定)。 本稿では,患者医療と医療管理の幅広い側面をガイドし,予測するためのGPTであるLarge Medical Model(LMM)を紹介する。 このモデルは、医療用語システムから構築された特別な語彙を用いて、1億4000万件以上の患者記録から医療イベントシーケンスをトレーニングし、医療コストの予測と潜在的なリスク要因の特定に優れた能力を示す。 実験と検証を通じて,LMMの能力は,コストやリスク予測だけでなく,複雑な医療状況における複雑なパターンの識別や,患者ケアにおける新たな関係の特定にも有効であることを示す。 LMMは、最高の商用モデルよりも14.1%のコスト予測と、幅広い条件を予測する研究において最高のトランスフォーマーモデルよりも1.9%の慢性的な条件予測の両方を改善できる。 LMMは、医療分析の大幅な進歩であり、リスクアセスメント、コスト管理、パーソナライズド医療を著しく強化する可能性がある。

With U.S. healthcare spending approaching $5T (NHE Fact Sheet 2024), and 25% of it estimated to be wasteful (Waste in the US the health care system: estimated costs and potential for savings, n.d.), the need to better predict risk and optimal patient care is evermore important. This paper introduces the Large Medical Model (LMM), a generative pre-trained transformer (GPT) designed to guide and predict the broad facets of patient care and healthcare administration. The model is trained on medical event sequences from over 140M longitudinal patient claims records with a specialized vocabulary built from medical terminology systems and demonstrates a superior capability to forecast healthcare costs and identify potential risk factors. Through experimentation and validation, we showcase the LMM's proficiency in not only in cost and risk predictions, but also in discerning intricate patterns within complex medical conditions and an ability to identify novel relationships in patient care. The LMM is able to improve both cost prediction by 14.1% over the best commercial models and chronic conditions prediction by 1.9% over the best transformer models in research predicting a broad set of conditions. The LMM is a substantial advancement in healthcare analytics, offering the potential to significantly enhance risk assessment, cost management, and personalized medicine.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-19
# 深部血管分割用半完全畳み込み型オートエンコーダ

Semi-overcomplete convolutional auto-encoder embedding as shape priors for deep vessel segmentation ( http://arxiv.org/abs/2409.13001v1 )

ライセンス: Link先を確認
Amine Sadikine, Bogdan Badic, Jean-Pierre Tasu, Vincent Noblet, Dimitris Visvikis, Pierre-Henri Conze, (参考訳) 血管の抽出は、最近医療画像解析に広く関心を寄せている。 自動血管セグメンテーションは、コンピュータによる診断、治療、手術計画において臨床医を指導するのに非常に望ましい。 大規模な解剖学的構造を抽出する能力は優れているが、U-Netにインスパイアされたアーキテクチャーは、特に既存のデータセットが不足していることを考えると、血管系を自動的に記述する能力が大きな問題となっている。 本稿では,半完全畳み込み型自動エンコーダ(S-OCAE)の組込みから,より深いセグメンテーション形状を取り入れた新しい手法を提案する。 標準的な畳み込みオートエンコーダ(CAE)と比較すると、小さな構造をより正確に特徴付けるために、高次元にデータを投影するオーバーコンプリートブランチを利用する。 DRIVEおよび3D-IRCADbデータセットを用いて網膜および肝血管抽出実験を行ったところ,従来のCAEの形状を考慮せずにトレーニングしたU-Netと比較して,本法の有効性が示された。

The extraction of blood vessels has recently experienced a widespread interest in medical image analysis. Automatic vessel segmentation is highly desirable to guide clinicians in computer-assisted diagnosis, therapy or surgical planning. Despite a good ability to extract large anatomical structures, the capacity of U-Net inspired architectures to automatically delineate vascular systems remains a major issue, especially given the scarcity of existing datasets. In this paper, we present a novel approach that integrates into deep segmentation shape priors from a Semi-Overcomplete Convolutional Auto-Encoder (S-OCAE) embedding. Compared to standard Convolutional Auto-Encoders (CAE), it exploits an over-complete branch that projects data onto higher dimensions to better characterize tiny structures. Experiments on retinal and liver vessel extraction, respectively performed on publicly-available DRIVE and 3D-IRCADb datasets, highlight the effectiveness of our method compared to U-Net trained without and with shape priors from a traditional CAE.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-19
# Few-Shot Learningによるゲーム間エンゲージメントモデリング

Across-Game Engagement Modelling via Few-Shot Learning ( http://arxiv.org/abs/2409.13002v1 )

ライセンス: Link先を確認
Kosmas Pinitas, Konstantinos Makantasis, Georgios N. Yannakakis, (参考訳) ドメインの一般化には、特定のタスク内でさまざまなドメインにわたるハイパフォーマンスを維持する人工知能(AI)モデルを学習することが含まれる。 例えばビデオゲームでは、そのようなAIモデルは異なるゲーム間でプレイヤーのアクションを検出することを学べると言われている。 近年のAIの進歩にもかかわらず、ユーザエクスペリエンスをモデル化するためのドメインの一般化は、ほとんど未検討のままである。 ビデオゲームは、ダイナミックでリッチなコンテキストの性質から、ユーザエクスペリエンスの分析にユニークな課題と機会を提供する一方で、そのようなエクスペリエンスをモデル化するのは、一般的に小さなデータセットによって制限される。 その結果、従来のモデリング手法は、大きなラベル付きトレーニングデータとユーザエクスペリエンスの共通分布の仮定に依存するため、ユーザとゲームの間のドメインギャップを埋めるのに苦労することが多い。 本稿では,ユーザエクスペリエンスの一般ドメインに依存しないモデリングを,いくつかのドメイン固有のゲーム依存タスクに分解するフレームワークを導入することで,この課題に対処する。 我々は,現在公開されているGameVibeコーパスのバリエーションを用いて,異なるファーストパーソンシューティングゲーム間でのユーザエンゲージメントを予測するモデルの能力をテストするために,このフレームワークをテストした。 本研究は,従来のモデリング手法よりも少数の学習者の方が優れた性能を示し,ビデオゲーム等における堅牢な学習体験の可能性を示した。

Domain generalisation involves learning artificial intelligence (AI) models that can maintain high performance across diverse domains within a specific task. In video games, for instance, such AI models can supposedly learn to detect player actions across different games. Despite recent advancements in AI, domain generalisation for modelling the users' experience remains largely unexplored. While video games present unique challenges and opportunities for the analysis of user experience -- due to their dynamic and rich contextual nature -- modelling such experiences is limited by generally small datasets. As a result, conventional modelling methods often struggle to bridge the domain gap between users and games due to their reliance on large labelled training data and assumptions of common distributions of user experience. In this paper, we tackle this challenge by introducing a framework that decomposes the general domain-agnostic modelling of user experience into several domain-specific and game-dependent tasks that can be solved via few-shot learning. We test our framework on a variation of the publicly available GameVibe corpus, designed specifically to test a model's ability to predict user engagement across different first-person shooter games. Our findings demonstrate the superior performance of few-shot learners over traditional modelling methods and thus showcase the potential of few-shot learning for robust experience modelling in video games and beyond.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-19
# フェデレーション学習におけるデータ中毒と漏洩分析

Data Poisoning and Leakage Analysis in Federated Learning ( http://arxiv.org/abs/2409.13004v1 )

ライセンス: Link先を確認
Wenqi Wei, Tiansheng Huang, Zachary Yahn, Anoop Singhal, Margaret Loper, Ling Liu, (参考訳) データ中毒と漏洩のリスクは、現実世界におけるフェデレートされた学習の大規模展開を妨げる。 この章では、データプライバシ侵入のトレーニングとデータ中毒のトレーニングという、2つの支配的な脅威を理解するための真実と落とし穴を明らかにします。 まず、トレーニングデータプライバシの脅威を調査し、フェデレーショントレーニング中にトレーニングデータがどのように漏洩するかを観察する。 有望な防御戦略の1つは、連合学習の各ラウンドで共有する前に制御されたランダム化ノイズを追加することで、生の勾配更新を妨害することである。 本稿では、ランダム化ノイズの適切な量を決定することの重要性と、トレーニングデータプライバシに対する勾配漏洩脅威を効果的に軽減するために、そのようなノイズを付加する適切な位置について論じる。 次に、異なるトレーニングデータ中毒の脅威をレビューし比較し、なぜトロイの木馬攻撃が世界モデルの性能に有害な影響をもたらすのかを分析します。 代表的な毒殺攻撃とそれらの緩和技術の有効性を分類・比較し、データ中毒の負の影響を深く理解する。 最後に、プライバシ保護、中毒耐性、モデル性能を同時に確保する動的モデル摂動の可能性を示す。 この章は、偏見、データ、アルゴリズムバイアスの負の影響、およびトレーニングデータの誤情報を含む、連合学習における追加のリスク要因に関する議論で締めくくられている。 実証的な証拠によって、我々の分析研究は、攻撃耐性のある連邦学習における効果的なプライバシー保護とセキュリティ保証戦略に関する革新的な洞察を提供する。

Data poisoning and leakage risks impede the massive deployment of federated learning in the real world. This chapter reveals the truths and pitfalls of understanding two dominating threats: {\em training data privacy intrusion} and {\em training data poisoning}. We first investigate training data privacy threat and present our observations on when and how training data may be leaked during the course of federated training. One promising defense strategy is to perturb the raw gradient update by adding some controlled randomized noise prior to sharing during each round of federated learning. We discuss the importance of determining the proper amount of randomized noise and the proper location to add such noise for effective mitigation of gradient leakage threats against training data privacy. Then we will review and compare different training data poisoning threats and analyze why and when such data poisoning induced model Trojan attacks may lead to detrimental damage on the performance of the global model. We will categorize and compare representative poisoning attacks and the effectiveness of their mitigation techniques, delivering an in-depth understanding of the negative impact of data poisoning. Finally, we demonstrate the potential of dynamic model perturbation in simultaneously ensuring privacy protection, poisoning resilience, and model performance. The chapter concludes with a discussion on additional risk factors in federated learning, including the negative impact of skewness, data and algorithmic biases, as well as misinformation in training data. Powered by empirical evidence, our analytical study offers some transformative insights into effective privacy protection and security assurance strategies in attack-resilient federated learning.
翻訳日:2024-11-07 12:25:44 公開日:2024-09-19
# AutoPET IIIチャレンジ:PET/CTセマンティックセグメンテーション

AutoPET III Challenge: PET/CT Semantic Segmentation ( http://arxiv.org/abs/2409.13006v1 )

ライセンス: Link先を確認
Reza Safdari, Mohammad Koohi-Moghaddam, Kyongtae Tyler Bae, (参考訳) 本研究では,PET/CT画像におけるセグメント病変に対する2段階の深層学習に基づくアプローチを,AutoPET IIIチャレンジに応用した。 最初の段階では、DynUNetモデルを使用して、広い関心領域を識別する粗いセグメンテーションを行った。 第2ステージでは、SwinUNETR、SegResNet、UNetモデルのアンサンブルを使用して、このセグメンテーションを改良した。 前処理ではイメージを共通の解像度と正規化に再サンプリングし,アフィン変換や強度調整といったデータ拡張技術を適用してモデル一般化を向上した。 データセットは、健康なケースを除いて80%のトレーニングと20%の検証に分割された。 本手法は,多段分割とモデルアンサンブルを利用して,高精度な病変セグメンテーションを実現する。

In this study, we implemented a two-stage deep learning-based approach to segment lesions in PET/CT images for the AutoPET III challenge. The first stage utilized a DynUNet model for coarse segmentation, identifying broad regions of interest. The second stage refined this segmentation using an ensemble of SwinUNETR, SegResNet, and UNet models. Preprocessing involved resampling images to a common resolution and normalization, while data augmentation techniques such as affine transformations and intensity adjustments were applied to enhance model generalization. The dataset was split into 80% training and 20% validation, excluding healthy cases. This method leverages multi-stage segmentation and model ensembling to achieve precise lesion segmentation, aiming to improve robustness and overall performance.
翻訳日:2024-11-07 12:14:24 公開日:2024-09-19
# 量子および古典的変分法の量子資源

Quantum resources of quantum and classical variational methods ( http://arxiv.org/abs/2409.13008v1 )

ライセンス: Link先を確認
Thomas Spriggs, Arash Ahmadi, Bokai Chen, Eliska Greplova, (参考訳) 変分法は長年、原子、固体、多体物理学の中心に存在してきた。 彼らは最近、量子および古典的な機械学習に拡張され、ニューラルネットワークを介して量子状態を表現する基盤を提供する。 これらの手法は一般に与えられた ans\atz のエネルギーを最小化することを目的としているが、量子的および古典的変分 ans\atze の表現性に関するオープンな疑問は残る。 変分法と量子コンピューティングの間の接続は、変分量子アルゴリズムを通じて、古典的手法の量子複雑性を探求する機会を与える。 我々は、非安定化器性の概念(マジック)が量子情報と変分法の間の橋渡しをいかに生み出すかを示し、非安定化器性においてエネルギーの正確性は必要だが必ずしも十分な条件ではないことを示す。 ニューラルネットワークの量子状態、行列積状態、変分量子法の体系的なベンチマークを通じて、古典的手法は非安定化器性においてより正確であるが、システムの対称性を考慮に入れないことが、この精度に深刻な影響を与えることを示した。 本研究は,古典的変分法と量子的変分法の両方の普遍的表現性評価の基礎となる。

Variational techniques have long been at the heart of atomic, solid-state, and many-body physics. They have recently extended to quantum and classical machine learning, providing a basis for representing quantum states via neural networks. These methods generally aim to minimize the energy of a given ans\"atz, though open questions remain about the expressivity of quantum and classical variational ans\"atze. The connection between variational techniques and quantum computing, through variational quantum algorithms, offers opportunities to explore the quantum complexity of classical methods. We demonstrate how the concept of non-stabilizerness, or magic, can create a bridge between quantum information and variational techniques and we show that energy accuracy is a necessary but not always sufficient condition for accuracy in non-stabilizerness. Through systematic benchmarking of neural network quantum states, matrix product states, and variational quantum methods, we show that while classical techniques are more accurate in non-stabilizerness, not accounting for the symmetries of the system can have a severe impact on this accuracy. Our findings form a basis for a universal expressivity characterization of both quantum and classical variational methods.
翻訳日:2024-11-07 12:14:24 公開日:2024-09-19
# 進化的アルゴリズムを用いたエンジニアリング量子誤り訂正符号

Engineering Quantum Error Correction Codes Using Evolutionary Algorithms ( http://arxiv.org/abs/2409.13017v1 )

ライセンス: Link先を確認
Mark Webster, Dan Browne, (参考訳) 量子誤り訂正と量子誤り訂正符号の使用は、実用的な量子コンピューティングの実現に不可欠である可能性が高い。 量子デバイスのエラーモデルは多種多様であるため、特定のエラーモデルに適した量子符号の方がはるかに優れた性能を持つ可能性がある。 本研究では,与えられた誤りモデル,物理量子ビット数,符号化量子ビット数に対して最適な安定化器符号を求める新しい進化的アルゴリズムを提案する。 私たちは、バイナリ文字列としてスタビライザコードの効率的な表現を実証します。これは、有効なスタビライザコードのランダムな生成と、コードの突然変異と交差を可能にします。 我々のアルゴリズムは, n <= 20 個の物理量子ビットに対して, Codetables.de の最もよく知られた距離符号との距離が近い安定化器符号を求める。 最適な距離CSS符号の探索を行い、その距離を最もよく知られた符号と比較する。 最後に,[12, 1]]符号に対する検出不能な誤り率と,同じパラメータを持つ最もよく知られた距離符号とを比較検討することにより,バイアス付き誤りモデルに対する安定化器符号の最適化が可能であることを示す。 この研究の一環として、量子誤り訂正符号の距離を求める進化的アルゴリズムQDistEvolを導入する。

Quantum error correction and the use of quantum error correction codes is likely to be essential for the realisation of practical quantum computing. Because the error models of quantum devices vary widely, quantum codes which are tailored for a particular error model may have much better performance. In this work, we present a novel evolutionary algorithm which searches for an optimal stabiliser code for a given error model, number of physical qubits and number of encoded qubits. We demonstrate an efficient representation of stabiliser codes as binary strings -- this allows for random generation of valid stabiliser codes, as well as mutation and crossing of codes. Our algorithm finds stabiliser codes whose distance closely matches the best-known-distance codes of codetables.de for n <= 20 physical qubits. We perform a search for optimal distance CSS codes, and compare their distance to the best-known-codes. Finally, we show that the algorithm can be used to optimise stabiliser codes for biased error models, demonstrating a significant improvement in the undetectable error rate for [[12, 1]] codes versus the best-known-distance code with the same parameters. As part of this work, we also introduce an evolutionary algorithm QDistEvol for finding the distance of quantum error correction codes.
翻訳日:2024-11-07 12:14:24 公開日:2024-09-19
# バルク成長炭化ケイ素中における寿命制限エミッタのチェックプローブ分光

Check-probe spectroscopy of lifetime-limited emitters in bulk-grown silicon carbide ( http://arxiv.org/abs/2409.13018v1 )

ライセンス: Link先を確認
G. L. van de Stolpe, L. J. Feije, S. J. H. Loenen, A. Das, G. M. Timmer, T. W. de Jong, T. H. Taminiau, (参考訳) 固体単光子エミッタは、光接続量子ネットワークのような量子技術を探索するための汎用的なプラットフォームを提供する。 重要な課題は、エミッターの光コヒーレンスとスペクトル安定性を確保することである。 本稿では,レーザー誘起スペクトル拡散と電離速度を定量的に測定する高帯域 'check-probe' 方式と等質線幅について述べる。 市販のバルクグレード4H-ケイ素炭化物において, 単一のV2中心にこれらの方法を示す。 レーザー照明下で大きなスペクトル拡散(\gtrsim$ GHz/s)を観測したにもかかわらず、光学遷移は狭く(\sim$35 MHz)、暗黒では安定である(\gtrsim$1 s)。 Landau-Zener-St\"uckelberg interferometryを通じて、光コヒーレンスをほぼ生涯限定(T_2 = 16.4(4)$ ns)と決定し、量子技術開発にバルクグロー材料を使用する可能性を示している。 これらの結果は半導体材料における量子エミッタのスペクトル拡散の理解を前進させ、他のプラットフォームにおける電荷ダイナミクスの研究に応用できるかもしれない。

Solid-state single-photon emitters provide a versatile platform for exploring quantum technologies such as optically connected quantum networks. A key challenge is to ensure optical coherence and spectral stability of the emitters. Here, we introduce a high-bandwidth `check-probe' scheme to quantitatively measure (laser-induced) spectral diffusion and ionisation rates, as well as homogeneous linewidths. We demonstrate these methods on single V2 centers in commercially available bulk-grown 4H-silicon carbide. Despite observing significant spectral diffusion under laser illumination ($\gtrsim$ GHz/s), the optical transitions are narrow ($\sim$35 MHz), and remain stable in the dark ($\gtrsim$1 s). Through Landau-Zener-St\"uckelberg interferometry, we determine the optical coherence to be near-lifetime limited ($T_2 = 16.4(4)$ ns), hinting at the potential for using bulk-grown materials for developing quantum technologies. These results advance our understanding of spectral diffusion of quantum emitters in semiconductor materials, and may have applications for studying charge dynamics across other platforms.
翻訳日:2024-11-07 12:14:24 公開日:2024-09-19
# Entanglemons: クロスプラットフォームで保護された量子ビットの絡み合いを防ぐ

Entanglemons: Cross-platform protected qubits from entanglement ( http://arxiv.org/abs/2409.13019v1 )

ライセンス: Link先を確認
Nilotpal Chakraborty, Roderich Moessner, Benoit Doucot, (参考訳) スケーラブルなフォールトトレラント量子コンピューティングの重要な要素は、誤り率の低い論理量子ビットの構築と固有のノイズ保護である。 そこで本研究では, 局所雑音による過ちを抑え, 偏極化(ゆらぎ)を防止できるハードウェアレベルのノイズ保護のためのクロスプラットフォーム構築法を提案する。 これらの論理量子ビットは、2つの内部自由度の間の絡み合いから生じる。 我々の構成は、そのような内部の絡み合った単位の集合のスピンコヒーレント状態に類似した、一般化されたコヒーレント状態構築から集合的な自由度が出現することに基づいている。 これらの自由度は、有限個の単位に対して、複素射影空間 $\mathbb{C}$P(3) の量子化バージョンをパラメータ化する。 エンタングルモン量子ビットの雑音保護は、複素射影空間の非線形幾何学によって生じる弱結合な創発的自由度の結果である。 プラットフォームに依存しない2つの簡単なエンタングルモンモデルを示し、異なるレベルの保護を提供し、また、クォービット基底状態が他の状態よりも高いエネルギーギャップを持つ2つの最低エネルギー状態である。 エンタングルモンが超伝導回路や閉じ込められたイオンプラットフォームから、半導体中のグラフェンや量子ドットの量子ホールスカイミオンまで、様々なプラットフォームでどのように実現されるか、というコメントで終わりました。 我々のモデルにおける固有ノイズ保護とプラットフォーム非依存性は、非線形幾何学空間と湾曲位相空間に生じる弱結合した創発的自由度で情報を符号化する可能性を強調し、スケーラブルなフォールトトレランスを実現するための異なる経路を提案する。

A crucial ingredient for scalable fault-tolerant quantum computing is the construction of logical qubits with low error rates and intrinsic noise protection. We propose a cross-platform construction for such hardware-level noise-protection in which the qubits are protected from depolarizing (relaxation) and dephasing errors induced by local noise. These logical qubits arise from the entanglement between two internal degrees of freedom, hence - entanglemons. Our construction is based on the emergence of collective degrees of freedom from a generalized coherent state construction, similar in spirit to spin coherent states, of a set of such internally entangled units. These degrees of freedom, for a finite number of units, parametrize the quantized version of complex projective space $\mathbb{C}$P(3). The noise protection of the entanglemon qubit is then a consequence of a weakly coupled emergent degree of freedom arising due to the non-linear geometry of complex projective space. We present two simple models for entanglemons which are platform agnostic, provide varying levels of protection and in which the qubit basis states are the two lowest energy states with a higher energy gap to other states. We end by commenting on how entanglemons could be realized in platforms ranging from superconducting circuits and trapped ion platforms to possibly also quantum Hall skyrmions in graphene and quantum dots in semiconductors. The inherent noise protection in our models combined with the platform agnosticism highlights the potential of encoding information in additional weakly coupled emergent degrees of freedom arising in non-linear geometrical spaces and curved phase spaces, thereby proposing a different route to achieve scalable fault-tolerance.
翻訳日:2024-11-07 12:14:24 公開日:2024-09-19
# 一般化確率論の影とサブシステム--トモグラフィの不完全性が文脈性証明の抜け穴ではない場合

Shadows and subsystems of generalized probabilistic theories: when tomographic incompleteness is not a loophole for contextuality proofs ( http://arxiv.org/abs/2409.13024v1 )

ライセンス: Link先を確認
David Schmid, John H. Selby, Vinicius P. Rossi, Roberto D. Baldijão, Ana Belén Sainz, (参考訳) トモグラフィー完全性の失敗は、非コンテクスト性実験における非古典性の評価を損なうと一般的に信じられている。 本研究では,このような故障が,非古典性評価の誤用につながる可能性について検討する。 そして、非文脈性の失敗の証明は、実際の実験で起こりそうな失敗の種類を含む、トモグラフィ完全性の非常に広い種類の失敗に対して堅牢であることを示す。 そのような証明は、実際には、相対的なトモグラフィ完全性、すなわち、実験手順が互いにトモグラフィであるという、より弱い仮定に依存していることを示す。 したがって、粗い粒度、有効性、創発性、または仮想自由度であっても、非文脈性の失敗は確立できる。 これはまた、自然のより深い理論(実験で調べられていること以外)の存在は、それ自体が非古典性の証明に挑戦するものではないことを示唆している。 これらの結果を証明するために、まず一般化確率論(GPT)の枠組みの中で有用な新しい概念をいくつか紹介する。 特に、GPTサブシステムの概念を導入し、既存のサブシステムの概念を一般化する(テンソル積、直和、デコヒーレンスプロセス、仮想エンコーディングなど)。 また、GPTフラグメントの影の概念を導入し、その状態や効果が無意識に互いにトモグラフィーされていないときに失われた情報をキャプチャする。

It is commonly believed that failures of tomographic completeness undermine assessments of nonclassicality in noncontextuality experiments. In this work, we study how such failures can indeed lead to mistaken assessments of nonclassicality. We then show that proofs of the failure of noncontextuality are robust to a very broad class of failures of tomographic completeness, including the kinds of failures that are likely to occur in real experiments. We do so by showing that such proofs actually rely on a much weaker assumption that we term relative tomographic completeness: namely, that one's experimental procedures are tomographic for each other. Thus, the failure of noncontextuality can be established even with coarse-grained, effective, emergent, or virtual degrees of freedom. This also implies that the existence of a deeper theory of nature (beyond that being probed in one's experiment) does not in and of itself pose any challenge to proofs of nonclassicality. To prove these results, we first introduce a number of useful new concepts within the framework of generalized probabilistic theories (GPTs). Most notably, we introduce the notion of a GPT subsystem, generalizing a range of preexisting notions of subsystems (including those arising from tensor products, direct sums, decoherence processes, virtual encodings, and more). We also introduce the notion of a shadow of a GPT fragment, which captures the information lost when one's states and effects are unknowingly not tomographic for one another.
翻訳日:2024-11-07 12:14:24 公開日:2024-09-19
# 連結ボソニック量子ビットを用いたハードウェア効率の量子誤差補正

Hardware-efficient quantum error correction using concatenated bosonic qubits ( http://arxiv.org/abs/2409.13025v1 )

ライセンス: Link先を確認
Harald Putterman, Kyungjoo Noh, Connor T. Hann, Gregory S. MacCabe, Shahriar Aghaeimeibodi, Rishi N. Patel, Menyoung Lee, William M. Jones, Hesam Moradinejad, Roberto Rodriguez, Neha Mahuli, Jefferson Rose, John Clai Owens, Harry Levine, Emma Rosenfeld, Philip Reinhold, Lorenzo Moncelsi, Joshua Ari Alcid, Nasser Alidoust, Patricio Arrangoiz-Arriola, James Barnett, Przemyslaw Bienias, Hugh A. Carson, Cliff Chen, Li Chen, Harutiun Chinkezian, Eric M. Chisholm, Ming-Han Chou, Aashish Clerk, Andrew Clifford, R. Cosmic, Ana Valdes Curiel, Erik Davis, Laura DeLorenzo, J. Mitchell D'Ewart, Art Diky, Nathan D'Souza, Philipp T. Dumitrescu, Shmuel Eisenmann, Essam Elkhouly, Glen Evenbly, Michael T. Fang, Yawen Fang, Matthew J. Fling, Warren Fon, Gabriel Garcia, Alexey V. Gorshkov, Julia A. Grant, Mason J. Gray, Sebastian Grimberg, Arne L. Grimsmo, Arbel Haim, Justin Hand, Yuan He, Mike Hernandez, David Hover, Jimmy S. C. Hung, Matthew Hunt, Joe Iverson, Ignace Jarrige, Jean-Christophe Jaskula, Liang Jiang, Mahmoud Kalaee, Rassul Karabalin, Peter J. Karalekas, Andrew J. Keller, Amirhossein Khalajhedayati, Aleksander Kubica, Hanho Lee, Catherine Leroux, Simon Lieu, Victor Ly, Keven Villegas Madrigal, Guillaume Marcaud, Gavin McCabe, Cody Miles, Ashley Milsted, Joaquin Minguzzi, Anurag Mishra, Biswaroop Mukherjee, Mahdi Naghiloo, Eric Oblepias, Gerson Ortuno, Jason Pagdilao, Nicola Pancotti, Ashley Panduro, JP Paquette, Minje Park, Gregory A. Peairs, David Perello, Eric C. Peterson, Sophia Ponte, John Preskill, Johnson Qiao, Gil Refael, Rachel Resnick, Alex Retzker, Omar A. Reyna, Marc Runyan, Colm A. Ryan, Abdulrahman Sahmoud, Ernesto Sanchez, Rohan Sanil, Krishanu Sankar, Yuki Sato, Thomas Scaffidi, Salome Siavoshi, Prasahnt Sivarajah, Trenton Skogland, Chun-Ju Su, Loren J. Swenson, Stephanie M. Teo, Astrid Tomada, Giacomo Torlai, E. Alex Wollack, Yufeng Ye, Jessica A. Zerrudo, Kailing Zhang, Fernando G. S. L. Brandão, Matthew H. Matheny, Oskar Painter, (参考訳) 現実的な重要性の問題を解決するために、量子コンピュータは、多くのノイズの多い物理量子ビットで論理量子ビットが冗長に符号化される量子エラー補正を組み込む必要がある。 エラー訂正に伴う大きな物理量子ビットオーバーヘッドは、よりハードウェア効率の良いアプローチの探索を動機付けている。 ここでは, マイクロファブリケート超伝導量子回路を用いて, 符号化されたボソニックキャット量子ビットと, 距離$d=5$の外部繰り返し符号との連結から形成される論理量子ビットメモリを実現する。 ボソニックキャットキュービットは、安定化回路を用いてビットフリップに対して受動的に保護される。 キャットキュービット位相フリップ誤差は、アンシラトランスモンを用いた反復符号により補正される。 我々は,誤り訂正時にビットフリップ誤りの抑制を確実にするノイズバイアスCXゲートを実現する。 本研究では, 論理量子ビットメモリの性能と拡張性について検討し, 位相フリップ補正繰り返し符号がしきい値以下で動作し, 符号距離が$d=3$から$d=5$になるにつれて, 位相フリップ誤差が減少することを示した。 同時に、キャット量子平均光子数の増加とともに論理ビットフリップ誤差を抑制する。 1サイクルあたりの最小値の論理誤差は、距離3の符号区間で平均$1.75(2)\%、より長い距離5の符号では$1.65(3)\%である。 これらの結果から, ハードウェア効率のよい外乱訂正符号を用いることで, 結合型ボソニック符号がフォールトトレラント量子計算に到達するための魅力的なパラダイムであることが示唆された。

In order to solve problems of practical importance, quantum computers will likely need to incorporate quantum error correction, where a logical qubit is redundantly encoded in many noisy physical qubits. The large physical-qubit overhead typically associated with error correction motivates the search for more hardware-efficient approaches. Here, using a microfabricated superconducting quantum circuit, we realize a logical qubit memory formed from the concatenation of encoded bosonic cat qubits with an outer repetition code of distance $d=5$. The bosonic cat qubits are passively protected against bit flips using a stabilizing circuit. Cat-qubit phase-flip errors are corrected by the repetition code which uses ancilla transmons for syndrome measurement. We realize a noise-biased CX gate which ensures bit-flip error suppression is maintained during error correction. We study the performance and scaling of the logical qubit memory, finding that the phase-flip correcting repetition code operates below threshold, with logical phase-flip error decreasing with code distance from $d=3$ to $d=5$. Concurrently, the logical bit-flip error is suppressed with increasing cat-qubit mean photon number. The minimum measured logical error per cycle is on average $1.75(2)\%$ for the distance-3 code sections, and $1.65(3)\%$ for the longer distance-5 code, demonstrating the effectiveness of bit-flip error suppression throughout the error correction cycle. These results, where the intrinsic error suppression of the bosonic encodings allows us to use a hardware-efficient outer error correcting code, indicate that concatenated bosonic codes are a compelling paradigm for reaching fault-tolerant quantum computation.
翻訳日:2024-11-07 12:14:24 公開日:2024-09-19
# n-局所触媒による量子アニールの指数速度アップ

Exponential speed-up of quantum annealing via n-local catalysts ( http://arxiv.org/abs/2409.13029v1 )

ライセンス: Link先を確認
Roopayan Ghosh, Luca A. Nutricati, Natasha Feinstein, P. A. Warburton, Sougato Bose, (参考訳) 断熱的量子アニールによる最適化問題の解法における量子スピードアップは、特にこのギャップがシステムサイズと指数関数的にスケールする場合、アニール中のエネルギーギャップの閉鎖によってしばしば妨げられる。 本研究では,最大重み付き独立系 (MWIS) 問題に対して,n-$ローカル触媒 (n-$ qubits を含む演算子) のインシデント選択により,そのギャップを再開き,アニーアル過程中に閉じるのを防ぐことができることを示す。 MWIS問題の玩具事例における一階相転移を解析することにより,触媒の有効形態を同定し,そのような相転移を避けるためには非確率性は不可欠ではないことを示す。 研究対象となったおもちゃのいくつかは古典的にNPハードではないかもしれないが、$n-$ローカル触媒はギャップスケーリングを指数関数的に改善し、問題グラフの非フラストレーションループに接続する必要があることを明らかにした。 我々の分析は、複数の量子ビットを絡む非局所量子ゆらぎが、望まれる量子優位性を達成するための鍵であることを示唆している。

The quantum speedup in solving optimization problems via adiabatic quantum annealing is often hindered by the closing of the energy gap during the anneal, especially when this gap scales exponentially with system size. In this work, we address this by demonstrating that for the Maximum Weighted Independent Set (MWIS) problem, an informed choice of $n-$local catalysts (operators involving $n$ qubits) can re-open the gap or prevent it from closing during the anneal process. By analyzing first-order phase transitions in toy instances of the MWIS problem, we identify effective forms of catalysts and also show that non-stoquasticity is not essential to avoid such phase transitions. While some of the toy problems studied might not be classically NP-hard, they reveal that $n-$local catalysts exponentially improve gap scaling and need to be connected across unfrustrated loops in the problem graph to be effective. Our analysis suggests that non-local quantum fluctuations entangling multiple qubits are key to achieving the desired quantum advantage.
翻訳日:2024-11-07 12:14:24 公開日:2024-09-19
# DNI:拡散ビデオ編集のための希釈音初期化

DNI: Dilutional Noise Initialization for Diffusion Video Editing ( http://arxiv.org/abs/2409.13037v1 )

ライセンス: Link先を確認
Sunjae Yoon, Gwanhyeong Koo, Ji Woo Hong, Chang D. Yoo, (参考訳) テキストベースの拡散ビデオ編集システムは、高い忠実度とテキストアライメントの編集に成功している。 しかし、この成功は、入力ビデオの本来の構造を保ちながら、スタイル転送やオブジェクトオーバーレイのような剛体型編集に限られる。 この制限は、拡散ビデオ編集システムで使われる初期潜時雑音に起因している。 拡散ビデオ編集システムは、ガウスノイズを徐々に入力ビデオに注入して、初期潜時ノイズを作成して編集する。 しかし,入力ビデオの視覚的構造は,この初期潜時雑音内に留まり,運動変化などの非剛性編集が構造的修正を必要とすることを観察した。 そこで本稿では,非剛性編集を含む精密かつダイナミックな修正を行うことのできるDNI(Dilutional Noise Initialization)フレームワークを提案する。 DNIは「ノイズ希釈」という概念を導入し、入力ビデオによって課される構造的剛性を和らげるために編集対象領域の潜在雑音にさらなるノイズを加えることで、より効果的な編集を目標プロンプトに近づける。 大規模な実験は、DNIフレームワークの有効性を実証している。

Text-based diffusion video editing systems have been successful in performing edits with high fidelity and textual alignment. However, this success is limited to rigid-type editing such as style transfer and object overlay, while preserving the original structure of the input video. This limitation stems from an initial latent noise employed in diffusion video editing systems. The diffusion video editing systems prepare initial latent noise to edit by gradually infusing Gaussian noise onto the input video. However, we observed that the visual structure of the input video still persists within this initial latent noise, thereby restricting non-rigid editing such as motion change necessitating structural modifications. To this end, this paper proposes Dilutional Noise Initialization (DNI) framework which enables editing systems to perform precise and dynamic modification including non-rigid editing. DNI introduces a concept of `noise dilution' which adds further noise to the latent noise in the region to be edited to soften the structural rigidity imposed by input video, resulting in more effective edits closer to the target prompt. Extensive experiments demonstrate the effectiveness of the DNI framework.
翻訳日:2024-11-07 12:14:24 公開日:2024-09-19
# HeadCT-ONE : 粒界と制御可能な頭部CT画像診断装置の開発

HeadCT-ONE: Enabling Granular and Controllable Automated Evaluation of Head CT Radiology Report Generation ( http://arxiv.org/abs/2409.13038v1 )

ライセンス: Link先を確認
Julián N. Acosta, Xiaoman Zhang, Siddhant Dogra, Hong-Yu Zhou, Seyedmehdi Payabvash, Guido J. Falcone, Eric K. Oermann, Pranav Rajpurkar, (参考訳) 本稿では,頭部CTの正常化評価(HeadCT-ONE)をオントロジー正規化実体と関係抽出による頭部CTレポート生成評価指標として提示する。 HeadCT-ONEは、ドメイン固有のオントロジーによるエンティティ正規化を実装することで、現在の情報抽出メトリクス(RadGraph F1など)を強化する。 HeadCT-ONEは正規化されたエンティティとリレーションを比較し、異なるエンティティタイプや特定のエンティティのコントロール可能な重み付けを可能にする。 HeadCT-ONEの正常化と重み付けのアプローチは,3つの健康システムによる頭部CTレポートの実験を通じて,意味的等価な報告の取り込みを改善し,正常な報告と異常な報告の区別を良くし,臨床に有意な誤りを放射線医が評価すると共に,報告内容の特定の側面を優先する柔軟性を提供する。 以上の結果から,ヘッドCT-ONEはより柔軟で,制御可能で,粒度の高い頭部CTレポートの自動評価を可能にした。

We present Head CT Ontology Normalized Evaluation (HeadCT-ONE), a metric for evaluating head CT report generation through ontology-normalized entity and relation extraction. HeadCT-ONE enhances current information extraction derived metrics (such as RadGraph F1) by implementing entity normalization through domain-specific ontologies, addressing radiological language variability. HeadCT-ONE compares normalized entities and relations, allowing for controllable weighting of different entity types or specific entities. Through experiments on head CT reports from three health systems, we show that HeadCT-ONE's normalization and weighting approach improves the capture of semantically equivalent reports, better distinguishes between normal and abnormal reports, and aligns with radiologists' assessment of clinically significant errors, while offering flexibility to prioritize specific aspects of report content. Our results demonstrate how HeadCT-ONE enables more flexible, controllable, and granular automated evaluation of head CT reports.
翻訳日:2024-11-07 12:14:24 公開日:2024-09-19
# TACE:腫瘍を意識した対実的説明

TACE: Tumor-Aware Counterfactual Explanations ( http://arxiv.org/abs/2409.13045v1 )

ライセンス: Link先を確認
Eleonora Beatrice Rossi, Eleonora Lopez, Danilo Comminiello, (参考訳) 医用画像における深層学習の応用は、精度と効率を両立させ、診断能力を大幅に向上させた。 これらの利点にもかかわらず、これらのAIモデルにおける透明性の欠如は、しばしば「ブラックボックス」と呼ばれ、臨床環境での信頼性に対する懸念を引き起こす。 説明可能なAI(XAI)は、AI決定を理解し、信頼できるものにする方法を開発することで、これらの懸念を軽減することを目的としている。 本研究では,医用画像に対する信頼性の高い偽物説明を生成するためのフレームワークであるTACE(Torma Aware Counterfactual Explanations)を提案する。 既存の方法とは異なり、TACEは臓器全体の構造を変えることなく腫瘍特異的な特徴を改変することに集中し、カウンターファクトの忠実さを保証する。 我々は、興味領域(ROI)のみを変更できる生成プロセスのさらなるステップを含めることで、臓器の残りの部分が変化しないため、より信頼性の高い反事実を生み出すことができる。 マンモグラフィー画像と脳MRIについて検討した。 提案手法は, 従来の最先端技術よりも, 品質, 忠実度, 生成速度をはるかに上回っていることがわかった。 実際、より忠実な説明は、分類の成功率を大幅に向上させ、乳がんは10.69%、脳腫瘍は98.02%増加した。 私たちの作業のコードはhttps://github.com/ispamm/TACE.comで公開されています。

The application of deep learning in medical imaging has significantly advanced diagnostic capabilities, enhancing both accuracy and efficiency. Despite these benefits, the lack of transparency in these AI models, often termed "black boxes," raises concerns about their reliability in clinical settings. Explainable AI (XAI) aims to mitigate these concerns by developing methods that make AI decisions understandable and trustworthy. In this study, we propose Tumor Aware Counterfactual Explanations (TACE), a framework designed to generate reliable counterfactual explanations for medical images. Unlike existing methods, TACE focuses on modifying tumor-specific features without altering the overall organ structure, ensuring the faithfulness of the counterfactuals. We achieve this by including an additional step in the generation process which allows to modify only the region of interest (ROI), thus yielding more reliable counterfactuals as the rest of the organ remains unchanged. We evaluate our method on mammography images and brain MRI. We find that our method far exceeds existing state-of-the-art techniques in quality, faithfulness, and generation speed of counterfactuals. Indeed, more faithful explanations lead to a significant improvement in classification success rates, with a 10.69% increase for breast cancer and a 98.02% increase for brain tumors. The code of our work is available at https://github.com/ispamm/TACE.
翻訳日:2024-11-07 12:14:24 公開日:2024-09-19
# 時系列異常検出器の異常評価に向けて

Towards Unbiased Evaluation of Time-series Anomaly Detector ( http://arxiv.org/abs/2409.13053v1 )

ライセンス: Link先を確認
Debarpan Bhattacharya, Sumanta Mukherjee, Chandramouli Kamanchi, Vijay Ekambaram, Arindam Jati, Pankaj Dayama, (参考訳) 時系列異常検出 (TSAD) は, 地震活動の検出, 産業プラントのセンサ故障, 株式市場のクラッシュ予測など, 重要な応用にともなう研究分野である。 ドメイン全体では、異常は通常のデータよりもはるかに少ない頻度で発生し、F1スコアは異常検出の最も一般的に採用されている指標である。 しかし、時系列の場合、「時間ポイント」と「時間イベント」の解離のため、標準F1スコアを使用するのは簡単ではない。 これに対応するために、$F_1$-score評価の前に、ポイント調整(PA)と呼ばれる異常予測を調整する。 しかし、これらの調整はヒューリスティックスに基づいており、真の正の検知に偏りがあり、過度に見積もられた検出器性能をもたらす。 本研究では,'Balanced Point adjust' (BA) と呼ばれる代替調整プロトコルを提案する。 既存の点調整手法の限界に対処し、TSAD評価の公理的定義による公正性の保証を提供する。

Time series anomaly detection (TSAD) is an evolving area of research motivated by its critical applications, such as detecting seismic activity, sensor failures in industrial plants, predicting crashes in the stock market, and so on. Across domains, anomalies occur significantly less frequently than normal data, making the F1-score the most commonly adopted metric for anomaly detection. However, in the case of time series, it is not straightforward to use standard F1-score because of the dissociation between `time points' and `time events'. To accommodate this, anomaly predictions are adjusted, called as point adjustment (PA), before the $F_1$-score evaluation. However, these adjustments are heuristics-based, and biased towards true positive detection, resulting in over-estimated detector performance. In this work, we propose an alternative adjustment protocol called ``Balanced point adjustment'' (BA). It addresses the limitations of existing point adjustment methods and provides guarantees of fairness backed by axiomatic definitions of TSAD evaluation.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# LLM手術:大規模言語モデルにおける学習と編集の効率化

LLM Surgery: Efficient Knowledge Unlearning and Editing in Large Language Models ( http://arxiv.org/abs/2409.13054v1 )

ライセンス: Link先を確認
Akshaj Kumar Veldanda, Shi-Xiong Zhang, Anirban Das, Supriyo Chakraborty, Stephen Rawls, Sambit Sahu, Milind Naphade, (参考訳) 大規模言語モデル(LLM)は、様々なドメインに革命をもたらしたが、そのユーティリティには、事前トレーニング中に埋め込まれた時代遅れまたは問題のある知識に関する重大な課題が伴っている。 本稿では, ゼロから再学習することなく, 新たな知識を効率的に統合しながら, 問題や時代遅れの情報を解き放つため, LLMを変更するという課題に対処する。 本稿では,(1)未学習データセットの逆勾配(確率的・時代遅れ情報),(2)更新データセットの勾配勾配(新しい・更新情報),(3)保持データセットのKL偏差を最小限に抑え,事前訓練されたモデル出力と修正されたモデル出力の整合性を確保する3つの目的関数を最適化することにより,LCM動作を効率的に修正するフレームワーク LLM Surgeryを提案する。 新たなタスクに適したデータセットが公開されていないため、新しいデータセットと評価ベンチマークをコンパイルしました。 Llama2-7B を用いて,LLM 手術は未学習のセットを忘れて,更新セットの精度が 20 % 向上し,保持セットの性能が維持できることを実証した。

Large language models (LLMs) have revolutionized various domains, yet their utility comes with significant challenges related to outdated or problematic knowledge embedded during pretraining. This paper addresses the challenge of modifying LLMs to unlearn problematic and outdated information while efficiently integrating new knowledge without retraining from scratch. Here, we propose LLM Surgery, a framework to efficiently modify LLM behaviour by optimizing a three component objective function that: (1) Performs reverse gradient on unlearning dataset (problematic and outdated information), (2) Performs gradient descent on the update dataset (new and updated information), and (3) Minimizes the KL divergence on the retain dataset (small subset of unchanged text), ensuring alignment between pretrained and modified model outputs. Due to the lack of publicly available datasets specifically tailored for our novel task, we compiled a new dataset and an evaluation benchmark. Using Llama2-7B, we demonstrate that LLM Surgery can achieve significant forgetting on the unlearn set, a 20\% increase in accuracy on the update set, and maintain performance on the retain set.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# MGSO:高能率3次元ガウススプラッティングを用いた単眼リアルタイム光度SLAM

MGSO: Monocular Real-time Photometric SLAM with Efficient 3D Gaussian Splatting ( http://arxiv.org/abs/2409.13055v1 )

ライセンス: Link先を確認
Yan Song Hu, Nicolas Abboud, Muhammad Qasim Ali, Adam Srebrnjak Yang, Imad Elhajj, Daniel Asmar, Yuhao Chen, John S. Zelek, (参考訳) 複雑な3Dマッピングを持つリアルタイムSLAMは、特にリソース制限されたデバイスでは計算が困難である。 最近の3Dガウススプラッティング(3DGS)の開発は、リアルタイムな高密度3D再構成に有望なアプローチを提供する。 しかし、既存の3DGSベースのSLAMシステムは、ハードウェアの単純さ、スピード、マップの品質のバランスをとるのに苦労している。 ほとんどのシステムは上記の側面の1つか2つを抜いているが、全てを達成することは滅多にない。 鍵となる問題は、SLAMを同時に実行しながら3Dガウスを初期化することの難しさである。 これらの課題に対処するために,光メトリックSLAMと3DGSを統合する新しいリアルタイムSLAMシステムであるMonocular GSO(MGSO)を提案する。 光度SLAMは、3DGSの初期化、最適化の加速、ガウスの少ないより効率的な地図作成のための高密度な構造化点雲を提供する。 その結果,本システムでは, 品質, メモリ効率, 速度のバランスを保ち, 再現性を向上できることを示した。 さらに,本システムはRGB入力を用いて全結果を得る。 Replica、TUM-RGBD、EuRoCのデータセットを現在のライブ高密度再構築システムと比較した。 現代のシステムに勝るだけでなく、実験によってラップトップのハードウェアの性能も維持でき、ロボット工学やA/Rなどのリアルタイムアプリケーションに実用的なソリューションになる。

Real-time SLAM with dense 3D mapping is computationally challenging, especially on resource-limited devices. The recent development of 3D Gaussian Splatting (3DGS) offers a promising approach for real-time dense 3D reconstruction. However, existing 3DGS-based SLAM systems struggle to balance hardware simplicity, speed, and map quality. Most systems excel in one or two of the aforementioned aspects but rarely achieve all. A key issue is the difficulty of initializing 3D Gaussians while concurrently conducting SLAM. To address these challenges, we present Monocular GSO (MGSO), a novel real-time SLAM system that integrates photometric SLAM with 3DGS. Photometric SLAM provides dense structured point clouds for 3DGS initialization, accelerating optimization and producing more efficient maps with fewer Gaussians. As a result, experiments show that our system generates reconstructions with a balance of quality, memory efficiency, and speed that outperforms the state-of-the-art. Furthermore, our system achieves all results using RGB inputs. We evaluate the Replica, TUM-RGBD, and EuRoC datasets against current live dense reconstruction systems. Not only do we surpass contemporary systems, but experiments also show that we maintain our performance on laptop hardware, making it a practical solution for robotics, A/R, and other real-time applications.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# キラリティーパームプリントの検証:左が右パームプリントの正当性

Cross-Chirality Palmprint Verification: Left is Right for the Right Palmprint ( http://arxiv.org/abs/2409.13056v1 )

ライセンス: Link先を確認
Chengrui Gao, Ziyuan Yang, Tiong-Sik Ng, Min Zhu, Andrew Beng Jin Teoh, (参考訳) パームプリント認識は、高い識別力とユーザフレンドリーな性質のため、顕著な生体認証方法として登場した。 本稿では,従来のパームプリント検証システムにおける従来の知恵に挑戦する新しいCCPV(Cross-Chirality Palmprint Verification)フレームワークを提案する。 通常、左右両方のヤシプリントを保存する必要がある既存の方法とは異なり、本手法では、ヤシプリントテンプレートを1つだけ保存しながら、ヤシプリントを使用することが可能である。 CCPVフレームワークの中核は、慎重に設計されたマッチングルールにあります。 このルールでは、ギャラリーとクエリパームプリントの両方を反転させ、各ペア間の平均距離を最終マッチング距離として計算する。 このアプローチは、マッチングのばらつきを効果的に低減し、システム全体の堅牢性を高める。 本稿では,識別的かつ堅牢なクロスキラリティ特徴空間を構築するために,新しいクロスキラリティ損失関数を提案する。 この損失は、左、右、左、右の4つのパームプリントの変種にまたがる表現一貫性を強制する。 結果として生じるコンパクトな特徴空間は、モデルの差別的表現能力の強化と相まって、様々なシナリオにおける堅牢なパフォーマンスを保証する。 提案手法の有効性を検証するため, 広範囲な実験を行った。 この評価は複数の公開データセットを含み、クローズドセットとオープンセットの設定の両方を考慮した。 その結果、CCPVフレームワークの有効性を示し、ヤシプリント認証システムにおける実世界の応用の可能性を強調した。

Palmprint recognition has emerged as a prominent biometric authentication method, owing to its high discriminative power and user-friendly nature. This paper introduces a novel Cross-Chirality Palmprint Verification (CCPV) framework that challenges the conventional wisdom in traditional palmprint verification systems. Unlike existing methods that typically require storing both left and right palmprints, our approach enables verification using either palm while storing only one palmprint template. The core of our CCPV framework lies in a carefully designed matching rule. This rule involves flipping both the gallery and query palmprints and calculating the average distance between each pair as the final matching distance. This approach effectively reduces matching variance and enhances overall system robustness. We introduce a novel cross-chirality loss function to construct a discriminative and robust cross-chirality feature space. This loss enforces representation consistency across four palmprint variants: left, right, flipped left, and flipped right. The resulting compact feature space, coupled with the model's enhanced discriminative representation capability, ensures robust performance across various scenarios. We conducted extensive experiments to validate the efficacy of our proposed method. The evaluation encompassed multiple public datasets and considered both closed-set and open-set settings. The results demonstrate the CCPV framework's effectiveness and highlight its potential for real-world applications in palmprint authentication systems.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# 現代産業における人工知能応用の概要

Comprehensive Overview of Artificial Intelligence Applications in Modern Industries ( http://arxiv.org/abs/2409.13059v1 )

ライセンス: Link先を確認
Yijie Weng, Jianhao Wu, Tara Kelly, William Johnson, (参考訳) 人工知能(AI)は、意思決定プロセスを強化し、オペレーションを最適化し、イノベーションの新たな機会を開放することで、様々な産業を根本的に再構築している。 本稿では、医療、金融、製造業、小売の4つの主要な分野にわたるAIの適用について検討する。 各セクションは、これらの産業が直面する特定の課題、それらに取り組むために採用されるAI技術、そしてビジネス成果と社会的福祉に対する測定可能な影響を掘り下げる。 また、倫理的考察、AI開発の将来的な軌道、そして、責任を持って管理する必要がある課題に対処しながら経済成長を促進する可能性など、AI統合の意味についても論じる。

Artificial Intelligence (AI) is fundamentally reshaping various industries by enhancing decision-making processes, optimizing operations, and unlocking new opportunities for innovation. This paper explores the applications of AI across four key sectors: healthcare, finance, manufacturing, and retail. Each section delves into the specific challenges faced by these industries, the AI technologies employed to address them, and the measurable impact on business outcomes and societal welfare. We also discuss the implications of AI integration, including ethical considerations, the future trajectory of AI development, and its potential to drive economic growth while posing challenges that need to be managed responsibly.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# マニフォールドニューラルネットワークによる画像分類の改善

Improved Image Classification with Manifold Neural Networks ( http://arxiv.org/abs/2409.13063v1 )

ライセンス: Link先を確認
Caio F. Deberaldini Netto, Zhiyang Wang, Luana Ruiz, (参考訳) グラフニューラルネットワーク(GNN)は、分子生物学、輸送システム、電力網などの分野において、様々な学習タスクで人気を集めている。 これらのフィールドは自然にグラフデータを使用し、GNNのメッセージパッシングフレームワークの恩恵を受けている。 しかし、より一般的なデータ表現、特に画像領域におけるGNNの可能性については、いまだ解明されていない。 高次元データが低次元多様体にあると仮定する多様体仮説を活用することで、この文脈でGNNのポテンシャルを探求する。 可変オートエンコーダを用いて画像多様体を構築し,各ノードが画像であるグラフを生成する。 このアプローチは、幾何学的情報を保持しながら、データの次元性を低下させる。 次に、GNNを訓練し、分類タスクにおける画像ラベルに対応するノードラベルを予測し、GNNの多様体ニューラルネットワークへの収束を利用してGNNの一般化を分析する。 MNISTとCIFAR10データセットの実験は、GNNが非表示グラフに効果的に一般化し、分類タスクにおける競合精度を達成することを示した。

Graph Neural Networks (GNNs) have gained popularity in various learning tasks, with successful applications in fields like molecular biology, transportation systems, and electrical grids. These fields naturally use graph data, benefiting from GNNs' message-passing framework. However, the potential of GNNs in more general data representations, especially in the image domain, remains underexplored. Leveraging the manifold hypothesis, which posits that high-dimensional data lies in a low-dimensional manifold, we explore GNNs' potential in this context. We construct an image manifold using variational autoencoders, then sample the manifold to generate graphs where each node is an image. This approach reduces data dimensionality while preserving geometric information. We then train a GNN to predict node labels corresponding to the image labels in the classification task, and leverage convergence of GNNs to manifold neural networks to analyze GNN generalization. Experiments on MNIST and CIFAR10 datasets demonstrate that GNNs generalize effectively to unseen graphs, achieving competitive accuracy in classification tasks.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# 最前線への恐怖と誓い:ロシアとウクライナの戦争ブロガーによる他国の言葉の解読

Fear and Loathing on the Frontline: Decoding the Language of Othering by Russia-Ukraine War Bloggers ( http://arxiv.org/abs/2409.13064v1 )

ライセンス: Link先を確認
Patrick Gerard, William Theisen, Tim Weninger, Kristina Lerman, (参考訳) その他に、外集団を内集団と根本的に異なるものとして描写する行為は、しばしばそれを現実的な脅威とみなすようにエスカレートし、集団間の紛争を燃やし、排除と暴力を正当化する。 ドイツやルワンダの少数民族に対するジェノサイドの極端な歴史的例から、米国やヨーロッパの移民を標的とした暴力や修辞学まで、これらのダイナミクスは驚くほど広範囲に及んでいる。 ヘイトスピーチや恐怖スピーチといった概念は、既存の文献で研究されているが、特にオンラインのスピーチやプロパガンダでは、検出が難しい、より広範でニュアンスなダイナミックな部分のみを捉えている。 この課題に対処するために,大規模言語モデル(LLM)を利用した新たな計算フレームワークを導入する。 このモデルをTelegramの戦争ブロガーの実際のデータに適用し、ガブに関する政治的議論は、紛争の間、他者がどのようにエスカレートし、道徳的言語と相互作用し、特に危機の期間中に顕著な注意を払っているかを明らかにする。 我々のフレームワークは、他者のダイナミクスに関する深い洞察を提供するように設計されており、迅速な適応プロセスと組み合わせて、他者の社会的結束に対する悪影響を緩和するための重要なツールを提供する。

Othering, the act of portraying outgroups as fundamentally different from the ingroup, often escalates into framing them as existential threats--fueling intergroup conflict and justifying exclusion and violence. These dynamics are alarmingly pervasive, spanning from the extreme historical examples of genocides against minorities in Germany and Rwanda to the ongoing violence and rhetoric targeting migrants in the US and Europe. While concepts like hate speech and fear speech have been explored in existing literature, they capture only part of this broader and more nuanced dynamic which can often be harder to detect, particularly in online speech and propaganda. To address this challenge, we introduce a novel computational framework that leverages large language models (LLMs) to quantify othering across diverse contexts, extending beyond traditional linguistic indicators of hostility. Applying the model to real-world data from Telegram war bloggers and political discussions on Gab reveals how othering escalates during conflicts, interacts with moral language, and garners significant attention, particularly during periods of crisis. Our framework, designed to offer deeper insights into othering dynamics, combines with a rapid adaptation process to provide essential tools for mitigating othering's adverse impacts on social cohesion.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# FaFeSort: マルチチャネルスパイクソーティングのための高速かつ少ないエンドツーエンドニューラルネットワーク

FaFeSort: A Fast and Few-shot End-to-end Neural Network for Multi-channel Spike Sorting ( http://arxiv.org/abs/2409.13067v1 )

ライセンス: Link先を確認
Yuntao Han, Shiwei Wang, (参考訳) 細胞外記録の復号化は電気生理学的および脳-コンピュータインターフェースにおいて重要な課題である。 スパイクソート(スパイクソート)はスパイクとそのニューロンを細胞外記録と区別し、現代のニューラルプローブのチャネル数の増加とともに計算的に要求される。 集約的なワークロードと複雑なニューロンの相互作用に対処するために,数ショットの学習と並列化が可能な後処理を備えた,エンドツーエンドのニューラルネットワークベースのスパイクソータであるFaFeSortを提案する。 我々のフレームワークは、スクラッチからのトレーニングに比べて、トレーニングに必要な注釈付きスパイクの数を44%削減し、最大25.68%の精度を達成する。 さらに、新しい後処理アルゴリズムはディープラーニングフレームワークと互換性があり、FaFeSortは最先端のスパイクソータよりも大幅に高速である。 合成されたニューロピクセル記録において、FaFeSortはKilosort4で50秒のデータをわずか1.32秒でソートすることで、同等の精度を達成する。 提案手法は, 種々のプローブ測地, 騒音レベル, ドリフト条件にまたがるロバスト性を実証し, 既存のスパイクソーダと比較して精度と実行効率を著しく向上する。

Decoding extracellular recordings is a crucial task in electrophysiology and brain-computer interfaces. Spike sorting, which distinguishes spikes and their putative neurons from extracellular recordings, becomes computationally demanding with the increasing number of channels in modern neural probes. To address the intensive workload and complex neuron interactions, we propose FaFeSort, an end-to-end neural network-based spike sorter with few-shot learning and parallelizable post-processing. Our framework reduces the required number of annotated spikes for training by 44% compared to training from scratch, achieving up to 25.68% higher accuracy. Additionally, our novel post-processing algorithm is compatible to the deep learning frameworks, making FaFeSort significantly faster than state-of-the-art spike sorters. On synthesized Neuropixels recordings, FaFeSort achieves comparable accuracy with Kilosort4 sorting 50 seconds of data in only 1.32 seconds. Our method demonstrates robustness across various probe geometries, noise levels, and drift conditions, offering a substantial improvement in both accuracy and runtime efficiency comparing to existing spike sorters.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# 量子化レンズによるKochen-Specker非コンテキスト性

Kochen-Specker non-contextuality through the lens of quantization ( http://arxiv.org/abs/2409.13071v1 )

ライセンス: Link先を確認
Simon Friederich, Mritunjay Tyagi, (参考訳) コチェン=スペクターの定理は、自己随伴作用素が可換である力学変数の値の間の代数的関係が作用素自身と同じものであるように、量子力学における全ての力学変数に鋭い値を割り当てることは不可能であることを示している。 古典理論を量子化することによって得られる量子理論について、この条件 -- Kochen-Specker の非文脈性 -- は、量子化が通常代数的関係を変えるため、最初から理解できないことを指摘した。 ワイル量子化およびコヒーレント状態量子化を通じて量子化された動的変数の様々な例を用いて、この点とその関連性を説明する。 観察の結果,全ての動的変数に鋭い値を割り当てられるかどうかという問題に対するコチェン=スペクターの定理の関連性は,比較的限定的であることが示唆された。

The Kochen-Specker theorem shows that it is impossible to assign sharp values to all dynamical variables in quantum mechanics in such a way that the algebraic relations among the values of dynamical variables whose self-adjoint operators commute are the same as those among the operators themselves. We point out that, for quantum theories obtained by quantizing some classical theory, this condition -- Kochen-Specker non-contextuality -- is implausible from the start because quantization usually changes algebraic relations. We illustrate this point and its relevance using various examples of dynamical variables quantized via Weyl quantization and coherent state quantization. Our observations suggest that the relevance of the Kochen-Specker theorem to the question of whether one can assign sharp values to all dynamical variables is rather limited.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# ガイダンスとは何か? 簡単な設定でのきめ細かい分析

What does guidance do? A fine-grained analysis in a simple setting ( http://arxiv.org/abs/2409.13074v1 )

ライセンス: Link先を確認
Muthu Chidambaram, Khashayar Gatmiry, Sitan Chen, Holden Lee, Jianfeng Lu, (参考訳) 拡散モデルにおけるガイダンスの利用は、誘導修正スコアが何らかのパワーに上昇した条件付き確率によって傾いたデータ分布のものであるという前提によって動機づけられた。 本研究は、意図した傾斜分布からガイダンスがサンプリングできないことを厳密に証明することで、この誤解を明らかにする。 本研究の主な成果は,(1)コンパクトに支持された分布の混合と(2)実世界のデータに現れる誘導の健全な性質を反映したガウシアン混合の2症例において,誘導の力学を詳細に解析することである。 いずれの場合も、ガイダンスパラメータが増加するにつれて、誘導されたモデルが条件分布の支持の境界からより大きくサンプリングされることが証明される。 また,任意の非ゼロレベルのスコア推定誤差に対して,十分な大きなガイダンスが支持者からサンプリングされ,大きなガイダンスが歪んだ世代に生じるという経験的発見を理論的に正当化する。 これらの結果が人工的な設定で実証的に検証されるのに加えて、我々の理論的な洞察が実践的な展開にどのように役立つかを示す。

The use of guidance in diffusion models was originally motivated by the premise that the guidance-modified score is that of the data distribution tilted by a conditional likelihood raised to some power. In this work we clarify this misconception by rigorously proving that guidance fails to sample from the intended tilted distribution. Our main result is to give a fine-grained characterization of the dynamics of guidance in two cases, (1) mixtures of compactly supported distributions and (2) mixtures of Gaussians, which reflect salient properties of guidance that manifest on real-world data. In both cases, we prove that as the guidance parameter increases, the guided model samples more heavily from the boundary of the support of the conditional distribution. We also prove that for any nonzero level of score estimation error, sufficiently large guidance will result in sampling away from the support, theoretically justifying the empirical finding that large guidance results in distorted generations. In addition to verifying these results empirically in synthetic settings, we also show how our theoretical insights can offer useful prescriptions for practical deployment.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# コントラスト言語の埋め込みジオメトリ-画像による事前学習

Embedding Geometries of Contrastive Language-Image Pre-Training ( http://arxiv.org/abs/2409.13079v1 )

ライセンス: Link先を確認
Jason Chuan-Chih Chou, Nahid Alam, (参考訳) CLIPの公開以来、対照的な事前トレーニングにInfoNCE損失を用いるアプローチは、2つ以上のモダリティをブリッジするために広く普及している。 広く採用されているにもかかわらず、CLIPの元々の設計選択であるL2正規化とコサイン類似性ロジットが再検討されることはめったにない。 言語画像事前学習のための代替ジオメトリとソフトマックスロジットを体系的に実験し、直感的なユークリッド幾何学を持つ変種であるユークリッドCLIP (EuCLIP) がCLIPの性能に適合するか超え、少なくとも階層的関係をサポートし、さらに複雑な双曲的代替品であることを確認した。

Since the publication of CLIP, the approach of using InfoNCE loss for contrastive pre-training has become widely popular for bridging two or more modalities. Despite its wide adoption, CLIP's original design choices of L2 normalization and cosine similarity logit have rarely been revisited. We have systematically experimented with alternative geometries and softmax logits for language-image pre-training and identified that variants with intuitive Euclidean geometry, Euclidean CLIP (EuCLIP), match or exceed the performance of CLIP and support hierarchical relationships at least as well as more complicated hyperbolic alternative.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# AutoVerus: Rustコードの自動証明生成

AutoVerus: Automated Proof Generation for Rust Code ( http://arxiv.org/abs/2409.13082v1 )

ライセンス: Link先を確認
Chenyuan Yang, Xuheng Li, Md Rakib Hossain Misu, Jianan Yao, Weidong Cui, Yeyun Gong, Chris Hawblitzel, Shuvendu Lahiri, Jacob R. Lorch, Shuai Lu, Fan Yang, Ziqiao Zhou, Shan Lu, (参考訳) 生成AIは多くのソフトウェアエンジニアリングタスクに対してその価値を示してきた。 いまだに、LLMベースの大規模言語モデル(LLM)ベースの証明生成は、LLMベースのコード生成に遅れを取っている。 本稿ではAutoVerusについて述べる。 AutoVerusはLLMを使用して、Rustコードの正当性証明を自動的に生成する。 AutoVerusは、Rustで書かれた証明と仕様を使って、Rustコードの正しさを証明できる検証ツールであるVerusのユニークな機能と一致するように設計されている。 AutoVerusは、人間の専門家による3つの証明構築のフェーズを模倣して構築され、編成されたLCMエージェントのネットワークで構成されている。 AutoVerusを徹底的に評価し、この方向への今後の研究を促進するために、既存のコード生成ベンチマークと検証ベンチマークに基づいて、150の非自明な証明タスクからなるベンチマークスイートを構築しました。 評価の結果,AutoVerusは90%以上の正解を自動生成し,その半数以上が30秒未満か3回のLDMコールで処理可能であることがわかった。

Generative AI has shown its values for many software engineering tasks. Still in its infancy, large language model (LLM)-based proof generation lags behind LLM-based code generation. In this paper, we present AutoVerus. AutoVerus uses LLM to automatically generate correctness proof for Rust code. AutoVerus is designed to match the unique features of Verus, a verification tool that can prove the correctness of Rust code using proofs and specifications also written in Rust. AutoVerus consists of a network of LLM agents that are crafted and orchestrated to mimic human experts' three phases of proof construction: preliminary proof generation, proof refinement guided by generic tips, and proof debugging guided by verification errors. To thoroughly evaluate AutoVerus and help foster future research in this direction, we have built a benchmark suite of 150 non-trivial proof tasks, based on existing code-generation benchmarks and verification benchmarks. Our evaluation shows that AutoVerus can automatically generate correct proof for more than 90% of them, with more than half of them tackled in less than 30 seconds or 3 LLM calls.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# FedAT:Distributed Insider Threat Detectionのためのフェデレーション・ディバイザ・トレーニング

FedAT: Federated Adversarial Training for Distributed Insider Threat Detection ( http://arxiv.org/abs/2409.13083v1 )

ライセンス: Link先を確認
R G Gayathri, Atul Sajjanhar, Md Palash Uddin, Yong Xiang, (参考訳) 内部の脅威は通常、攻撃者が組織と密接な関係を持つ組織である職場内で発生する。 アクセス権を持つリソースに対してエンティティが取る一連のアクションは、インサイダーを特定することができます。 機械学習(ML)ベースのアプローチを用いた内部脅威検出(ITD)は、ここ数年で注目されている。 しかし、ほとんどの技術は、そのようなITDを実行するために集中型MLメソッドを使用していた。 複数の場所から運用されている組織は、データがさまざまな場所から生成されるため、集中型モデルに貢献できない。 特に、ITDの主要な情報源であるユーザ行動データは、プライバシー上の懸念から、場所間では共有できない。 さらに、様々な場所に分散したデータは、攻撃の頻度が高いため、極端なクラス不均衡をもたらす。 分散データモデリングパラダイムであるフェデレートラーニング(FL)が最近注目を集めている。 しかし、FL対応ITDはまだ検討されておらず、実際的な設定で実装の重要な問題を研究するためにはまだ研究が必要である。 そこで本研究では,非独立分散(非IID)データ分散を考慮したFL対応マルチクラスITDパラダイムについて検討し,組織内のさまざまな場所(クライアント)からのインサイダー脅威を検出する。 具体的には,FedAT(Federated Adversarial Training)アプローチを提案し,クライアント間の非IIDデータ分布から生じる極度のデータ歪を緩和する生成モデルを提案する。 さらに, 自己正規化ニューラルネットワークを用いたマルチ層パーセプトロン(SNN-MLP)モデルを用いてITDを改善することを提案する。 我々は総合的な実験を行い、その結果をベンチマークと比較し、提案したFedAT駆動ITDスキームの性能向上を示す。

Insider threats usually occur from within the workplace, where the attacker is an entity closely associated with the organization. The sequence of actions the entities take on the resources to which they have access rights allows us to identify the insiders. Insider Threat Detection (ITD) using Machine Learning (ML)-based approaches gained attention in the last few years. However, most techniques employed centralized ML methods to perform such an ITD. Organizations operating from multiple locations cannot contribute to the centralized models as the data is generated from various locations. In particular, the user behavior data, which is the primary source of ITD, cannot be shared among the locations due to privacy concerns. Additionally, the data distributed across various locations result in extreme class imbalance due to the rarity of attacks. Federated Learning (FL), a distributed data modeling paradigm, gained much interest recently. However, FL-enabled ITD is not yet explored, and it still needs research to study the significant issues of its implementation in practical settings. As such, our work investigates an FL-enabled multiclass ITD paradigm that considers non-Independent and Identically Distributed (non-IID) data distribution to detect insider threats from different locations (clients) of an organization. Specifically, we propose a Federated Adversarial Training (FedAT) approach using a generative model to alleviate the extreme data skewness arising from the non-IID data distribution among the clients. Besides, we propose to utilize a Self-normalized Neural Network-based Multi-Layer Perceptron (SNN-MLP) model to improve ITD. We perform comprehensive experiments and compare the results with the benchmarks to manifest the enhanced performance of the proposed FedATdriven ITD scheme.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# 行動の分類を困難にするための解釈可能な行動認識

Interpretable Action Recognition on Hard to Classify Actions ( http://arxiv.org/abs/2409.13091v1 )

ライセンス: Link先を確認
Anastasia Anichenko, Frank Guerin, Andrew Gilbert, (参考訳) 映像理解の人間的な解釈モデルについて検討する。 人間は、明確に認識された物体や部品、例えば容器の開口部に入る物体の間の臨界時空間的関係を認識することによって、ビデオにおける複雑な活動を認識する。 これを模倣するために、物体と手の位置と動きを利用したモデルを構築し、その活動が起こっていることを認識します。 このモデルを改善するために、最も混乱した3つのクラス(このモデル)に注目し、3D情報の欠如が大きな問題であることを確認した。 現状のオブジェクト検出モデルでは,オブジェクトの形状情報を既存のオブジェクトの特徴に組み込むために,“コンテナ”と“コンテナ”の違いを判断するために,微調整を行った。 2) 最先端深度推定モデルを用いて, 個々の物体の深度値を抽出し, 深度関係を算出し, 解釈可能なモデルを用いた既存の関係を拡張した。 基本モデルに対するこれらの3次元拡張は、Something-v2データセットから得られた3つの「Putting」アクションのサブセットで評価された。 その結果, 容器検出器の性能は向上しなかったが, 深さ関係の付加により性能は著しく向上した。

We investigate a human-like interpretable model of video understanding. Humans recognise complex activities in video by recognising critical spatio-temporal relations among explicitly recognised objects and parts, for example, an object entering the aperture of a container. To mimic this we build on a model which uses positions of objects and hands, and their motions, to recognise the activity taking place. To improve this model we focussed on three of the most confused classes (for this model) and identified that the lack of 3D information was the major problem. To address this we extended our basic model by adding 3D awareness in two ways: (1) A state-of-the-art object detection model was fine-tuned to determine the difference between "Container" and "NotContainer" in order to integrate object shape information into the existing object features. (2) A state-of-the-art depth estimation model was used to extract depth values for individual objects and calculate depth relations to expand the existing relations used our interpretable model. These 3D extensions to our basic model were evaluated on a subset of three superficially similar "Putting" actions from the Something-Something-v2 dataset. The results showed that the container detector did not improve performance, but the addition of depth relations made a significant improvement to performance.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# LLMによるパーソナライズ向上のためのガイドプロファイル生成

Guided Profile Generation Improves Personalization with LLMs ( http://arxiv.org/abs/2409.13093v1 )

ライセンス: Link先を確認
Jiarui Zhang, (参考訳) Recommendation, Ranking, E-Commerce プラットフォームを含む現代の商業システムでは,Large Language Models (LLMs) への入力としてパーソナライズコンテキストを組み込むことで,顧客エクスペリエンスを向上させる傾向にある。 しかし、LLMは、より洗練された文脈理解機構の必要性を強調し、追加の処理や文脈の豊かさなしに、スパースで複雑な個人的コンテキストを効果的に解析し利用することに苦慮することが多い。 本研究では,自然言語で個人プロファイルを生成するための汎用手法であるGPGを提案する。 観察されるように、中間的なガイド付きプロファイル生成により、LLMは個人のコンテキストから重要な特徴を簡潔で記述的な文に要約し、抽出し、個人の固有の習慣や好みにより密に調整することができる。 実験の結果,GAGはLLMのパーソナライズ能力を向上させることが示され,例えば,LLMを生の個人的コンテキストで直接供給するよりも,個人の嗜好を予測する上で37%の精度が向上することがわかった。

In modern commercial systems, including Recommendation, Ranking, and E-Commerce platforms, there is a trend towards improving customer experiences by incorporating Personalization context as input into Large Language Models (LLMs). However, LLMs often struggle to effectively parse and utilize sparse and complex personal context without additional processing or contextual enrichment, underscoring the need for more sophisticated context understanding mechanisms. In this work, we propose Guided Profile Generation (GPG), a general method designed to generate personal profiles in natural language. As is observed, intermediate guided profile generation enables LLMs to summarize, and extract the important, distinctive features from the personal context into concise, descriptive sentences, precisely tailoring their generation more closely to an individual's unique habits and preferences. Our experimental results show that GPG improves LLM's personalization ability across different tasks, for example, it increases 37% accuracy in predicting personal preference compared to directly feeding the LLMs with raw personal context.
翻訳日:2024-11-07 12:03:17 公開日:2024-09-19
# DenoMamba:低用量CT復調のための融合状態空間モデル

DenoMamba: A fused state-space model for low-dose CT denoising ( http://arxiv.org/abs/2409.13094v1 )

ライセンス: Link先を確認
Şaban Öztürk, Oğuz Can Duran, Tolga Çukur, (参考訳) 低線量CT(LDCT)は、再構成画像の診断品質を維持するための高度な復調アルゴリズムを頼りながら、放射線曝露に関連する潜在的なリスクを低くする。 LDCTにおける支配パラダイムは、基礎となる組織信号からの線量減少によって引き起こされるノイズを分離するために、データ駆動画像の事前学習を行うニューラルネットワークモデルに基づいている。 当然、これらの先行の忠実さは、CT画像に見られる幅広い文脈的特徴をキャプチャするモデルの能力に依存する。 初期の畳み込みニューラルネットワーク(CNN)は、短距離空間コンテキストを効率的に捉えるのに非常に適しているが、その制限された受容野は、長距離での相互作用に対する感受性を低下させる。 自己注意機構に基づくトランスフォーマーは,近年,長期的文脈に対する感度の向上が期待されているが,特に高分解能CT画像において,モデル複雑性の増大による最適性能と効率の低下に悩まされる可能性がある。 LDCT画像の高品質な復元を行うために,医療画像における近距離・近距離文脈を効率よく捉える,状態空間モデリング(SSM)に基づく新しいデノナイジング手法であるDenoMambaを紹介する。 DenoMambaは、エンコーダ・デコーダステージを備えた時間ガラスアーキテクチャに従って、空間コンテキストをエンコードする空間SSMモジュールと、各ステージにおけるチャネルコンテキストの遅延特徴をエンコードする二次ゲート畳み込みネットワークを備えた新しいチャネルSSMモジュールを使用する。 2つのモジュールの特徴マップは、畳み込み融合モジュール(CFM)を介して低レベルの入力特徴と統合される。 DenoMamba は 1.4dB PSNR と 1.1% SSIM と 1.6% RMSE を平均的に改善した。

Low-dose computed tomography (LDCT) lower potential risks linked to radiation exposure while relying on advanced denoising algorithms to maintain diagnostic quality in reconstructed images. The reigning paradigm in LDCT denoising is based on neural network models that learn data-driven image priors to separate noise evoked by dose reduction from underlying tissue signals. Naturally, the fidelity of these priors depend on the model's ability to capture the broad range of contextual features evident in CT images. Earlier convolutional neural networks (CNN) are highly adept at efficiently capturing short-range spatial context, but their limited receptive fields reduce sensitivity to interactions over longer distances. Although transformers based on self-attention mechanisms have recently been posed to increase sensitivity to long-range context, they can suffer from suboptimal performance and efficiency due to elevated model complexity, particularly for high-resolution CT images. For high-quality restoration of LDCT images, here we introduce DenoMamba, a novel denoising method based on state-space modeling (SSM), that efficiently captures short- and long-range context in medical images. Following an hourglass architecture with encoder-decoder stages, DenoMamba employs a spatial SSM module to encode spatial context and a novel channel SSM module equipped with a secondary gated convolution network to encode latent features of channel context at each stage. Feature maps from the two modules are then consolidated with low-level input features via a convolution fusion module (CFM). Comprehensive experiments on LDCT datasets with 25\% and 10\% dose reduction demonstrate that DenoMamba outperforms state-of-the-art denoisers with average improvements of 1.4dB PSNR, 1.1% SSIM, and 1.6% RMSE in recovered image quality.
翻訳日:2024-11-07 11:52:12 公開日:2024-09-19
# テスト時間適応児に対するパーソナライズされた音声認識

Personalized Speech Recognition for Children with Test-Time Adaptation ( http://arxiv.org/abs/2409.13095v1 )

ライセンス: Link先を確認
Zhonghao Shi, Harshvardhan Srivastava, Xuan Shi, Shrikanth Narayanan, Maja J. Matarić, (参考訳) 子どものための正確な自動音声認識(ASR)は、特に教育応用において、効果的なリアルタイムの児童とAIの相互作用に不可欠である。 しかし、主に成人データに基づいて事前訓練された市販のASRモデルは、成人から子供へのデータ領域のシフトにより、子供の発話に悪影響を及ぼす傾向にある。 近年の研究では、子供の音声データの教師付き微調整がこのドメインシフトの橋渡しに役立つことが報告されているが、人間のアノテーションは現実の応用には実用的ではなく、テスト時に追加のドメインシフトが生じるのを見落としることができる。 そこで我々は,子どもの音声認識に教師なしテスト時間適応(TTA)手法を適用する新しいASRパイプラインを考案した。 以上の結果から,TTA法に適応したASRモデルは,個々の子話者の平均および統計的に,未適応のASRベースラインよりも有意に優れていた。 また, 子話者と子話者の間に有意なデータ領域シフトがみられ, テスト時間適応の必要性がさらに高まった。

Accurate automatic speech recognition (ASR) for children is crucial for effective real-time child-AI interaction, especially in educational applications. However, off-the-shelf ASR models primarily pre-trained on adult data tend to generalize poorly to children's speech due to the data domain shift from adults to children. Recent studies have found that supervised fine-tuning on children's speech data can help bridge this domain shift, but human annotations may be impractical to obtain for real-world applications and adaptation at training time can overlook additional domain shifts occurring at test time. We devised a novel ASR pipeline to apply unsupervised test-time adaptation (TTA) methods for child speech recognition, so that ASR models pre-trained on adult speech can be continuously adapted to each child speaker at test time without further human annotations. Our results show that ASR models adapted with TTA methods significantly outperform the unadapted off-the-shelf ASR baselines both on average and statistically across individual child speakers. Our analysis also discovered significant data domain shifts both between child speakers and within each child speaker, which further motivates the need for test-time adaptation.
翻訳日:2024-11-07 11:52:12 公開日:2024-09-19
# 複雑なネットワークと機械学習によるサッカーの試合予測

Predicting soccer matches with complex networks and machine learning ( http://arxiv.org/abs/2409.13098v1 )

ライセンス: Link先を確認
Eduardo Alves Baratela, Felipe Jordão Xavier, Thomas Peron, Paulino Ribeiro Villas-Boas, Francisco Aparecido Rodrigues, (参考訳) サッカーはスポーツ業界における多くの研究者や専門家の注目を集めている。 そのため、スポーツへの科学の取り入れは、パフォーマンス分析やスポーツ予測産業への投資が増加し、常に成長している。 この研究が目指すのは (i)サッカーの試合の結果を予測する代替手段としての複雑なネットワークの利用を強調し、 (II) パスネットワークの構造解析と統計データの整合性を組み合わせることで, チームが使用するゲームパターンや戦略についてより深い洞察が得られることを示す。 そのため、複雑なネットワークメトリクスとマッチング統計を用いて、異なるリーグのサッカーチームの勝利と損失を予測する機械学習モデルを構築した。 その結果,パスネットワークに基づくモデルは,一般的なマッチング統計を用いた従来のモデルと同じくらい効果的であることがわかった。 もう1つの発見は、両方のアプローチを組み合わせることで、それらが別々に使用された時よりもより正確なモデルが得られ、そのようなアプローチの融合がゲームパターンをより深く理解し、プレイヤー間のチーム間の関係、その位置、試合中の相互作用によって使用される戦術の理解を可能にすることを示したことである。 ネットワークメトリクスとマッチング統計の両方が、混合モデルにとって重要かつ影響が大きい点に注意が必要だ。 さらに、時間的進化の粒度の低いネットワークの使用(マッチの前半のネットワーク作成など)は、ゲーム全体の1つのネットワークよりも優れていた。

Soccer attracts the attention of many researchers and professionals in the sports industry. Therefore, the incorporation of science into the sport is constantly growing, with increasing investments in performance analysis and sports prediction industries. This study aims to (i) highlight the use of complex networks as an alternative tool for predicting soccer match outcomes, and (ii) show how the combination of structural analysis of passing networks with match statistical data can provide deeper insights into the game patterns and strategies used by teams. In order to do so, complex network metrics and match statistics were used to build machine learning models that predict the wins and losses of soccer teams in different leagues. The results showed that models based on passing networks were as effective as ``traditional'' models, which use general match statistics. Another finding was that by combining both approaches, more accurate models were obtained than when they were used separately, demonstrating that the fusion of such approaches can offer a deeper understanding of game patterns, allowing the comprehension of tactics employed by teams relationships between players, their positions, and interactions during matches. It is worth mentioning that both network metrics and match statistics were important and impactful for the mixed model. Furthermore, the use of networks with a lower granularity of temporal evolution (such as creating a network for each half of the match) performed better than a single network for the entire game.
翻訳日:2024-11-07 11:52:12 公開日:2024-09-19
# UL-VIO:ノイズロバスト試験時間適応を用いた超軽量視覚慣性オドメトリー

UL-VIO: Ultra-lightweight Visual-Inertial Odometry with Noise Robust Test-time Adaptation ( http://arxiv.org/abs/2409.13106v1 )

ライセンス: Link先を確認
Jinho Park, Se Young Chun, Mingoo Seok, (参考訳) データ駆動型視覚慣性オドメトリー(VIO)は、自律型ロボットにおいて、VIOが重要な部分であるため、その性能に注目が集まっている。 しかし、大きなネットワークパラメータをデバイスメモリに格納する必要があるため、リソース制限されたデバイスへのデプロイメントは簡単ではない。 さらに、これらのネットワークは、テスト時の環境分布の変化により、デプロイ後の障害を危険にさらす可能性がある。 そこで我々は,超軽量(<1M)VIOネットワークであるUL-VIOを提案する。 具体的には、リソース効率のよいテスト時間適応のためのBatchNormパラメータを含む低レベルエンコーダ部を保存しながら、ネットワークに対するモデル圧縮を行う。 KITTIデータセットで1分間のエラー増加 – 1% – で、最先端のネットワークサイズよりも36倍小さなネットワークサイズを実現している。 テスト時間適応では、慣性参照されたネットワーク出力を擬似ラベルとして使用し、BatchNormパラメータを更新して軽量で効果的な適応を行う。 私たちの知る限りでは、これはVIOでノイズロスTTAを実行する最初の作品です。 KITTI, EuRoC, および Marulan データセットの実験結果から, 動的ドメインシフトを伴う多様なTTAシナリオにおける資源効率適応手法の有効性が示された。

Data-driven visual-inertial odometry (VIO) has received highlights for its performance since VIOs are a crucial compartment in autonomous robots. However, their deployment on resource-constrained devices is non-trivial since large network parameters should be accommodated in the device memory. Furthermore, these networks may risk failure post-deployment due to environmental distribution shifts at test time. In light of this, we propose UL-VIO -- an ultra-lightweight (<1M) VIO network capable of test-time adaptation (TTA) based on visual-inertial consistency. Specifically, we perform model compression to the network while preserving the low-level encoder part, including all BatchNorm parameters for resource-efficient test-time adaptation. It achieves 36X smaller network size than state-of-the-art with a minute increase in error -- 1% on the KITTI dataset. For test-time adaptation, we propose to use the inertia-referred network outputs as pseudo labels and update the BatchNorm parameter for lightweight yet effective adaptation. To the best of our knowledge, this is the first work to perform noise-robust TTA on VIO. Experimental results on the KITTI, EuRoC, and Marulan datasets demonstrate the effectiveness of our resource-efficient adaptation method under diverse TTA scenarios with dynamic domain shifts.
翻訳日:2024-11-07 11:52:12 公開日:2024-09-19
# 画像に基づく強化学習におけるディスタングル認識と決定規則

Disentangling Recognition and Decision Regrets in Image-Based Reinforcement Learning ( http://arxiv.org/abs/2409.13108v1 )

ライセンス: Link先を確認
Alihan Hüyük, Arndt Ryo Koblitz, Atefeh Mohajeri, Matthew Andrews, (参考訳) 画像に基づく強化学習(RL)では、まず原画像から低次元の特徴を抽出し("認識"ステップ)、抽出した特徴に基づいて行動を取る("決定"ステップ)。 画像ベースRLにおける観察オーバーフィットとして知られる、性能と急激な相関や意思決定に無関係な抽出特徴は、一般化性能の低下につながる可能性がある。 このようなケースでは、エラーのどれ程が機能抽出不良によるものか、判断不良によるものかを定量化することは困難である。 この2つの誤りの原因を解消するために,認識的後悔と決定的後悔という概念を導入する。 これらの概念を用いて、我々は観察過剰適合の背景にある2つの異なる原因を特徴づけ、曖昧にする: 最適な意思決定に必要のない特徴(高い決定の後悔につながる)を含む過特定表現と、訓練中のパフォーマンス(高い認識の後悔につながる)と急激な相関関係を持つ限られた特徴のみを含む過特定表現である。 最後に,迷路環境とアタリゲームポンの両面において,過剰固有表現と過小固有表現の両方による観測過適合の例を示す。

In image-based reinforcement learning (RL), policies usually operate in two steps: first extracting lower-dimensional features from raw images (the "recognition" step), and then taking actions based on the extracted features (the "decision" step). Extracting features that are spuriously correlated with performance or irrelevant for decision-making can lead to poor generalization performance, known as observational overfitting in image-based RL. In such cases, it can be hard to quantify how much of the error can be attributed to poor feature extraction vs. poor decision-making. In order to disentangle the two sources of error, we introduce the notions of recognition regret and decision regret. Using these notions, we characterize and disambiguate the two distinct causes behind observational overfitting: over-specific representations, which include features that are not needed for optimal decision-making (leading to high decision regret), vs. under-specific representations, which only include a limited set of features that were spuriously correlated with performance during training (leading to high recognition regret). Finally, we provide illustrative examples of observational overfitting due to both over-specific and under-specific representations in maze environments as well as the Atari game Pong.
翻訳日:2024-11-07 11:52:12 公開日:2024-09-19
# コンピュータビジョンと深層学習技術の進化と課題 : 複合建設・解体廃棄物の分析

Evolution and challenges of computer vision and deep learning technologies for analysing mixed construction and demolition waste ( http://arxiv.org/abs/2409.13112v1 )

ライセンス: Link先を確認
Adrian Langley, Matthew Lonergan, Tao Huang, Mostafa Rahimi Azghadi, (参考訳) 建設・解体廃棄物(C&DW)の自動的かつタイムリーな認識の改善は, ビジネスリターン, 経済成果, 持続可能性の向上に不可欠である。 コンピュータビジョン、人工知能(AI)、ロボティクス、モノのインターネット(IoT)といった技術は、これらの目標を達成するために廃棄物処理にますます統合されている。 深層学習(DL)モデルは同質なC&DWパイルを認識する上で有望であるが、商業環境では混在する高度に汚染された物質を用いてそれらの性能を評価する研究はほとんどない。 オーストラリアのシドニーにあるC&DW資源回収施設 (MRF) で広範な経験を積んで, 高度自動混合C&DW管理システム開発における課題と機会を探る。 建設業における廃棄物管理の変遷の概観から始まり, その環境, 経済, 社会への影響を概観する。 我々は,DLに基づく視覚的手法が最適解であるとして,様々なC&DW分析手法を概説する。 さらに,C&DW解析のためのセンサおよびカメラ技術の進歩と,物体検出と材料分割に着目したDLアルゴリズムの進化について検討した。 また、C&DWデータセット、そのキュレーション、作成のための革新的な方法についても論じる。 最後に,C&DWの視覚的分析,技術的および商業的課題への対処,研究動向,混合C&DW分析の今後の方向性について考察する。 本稿では,C&DW管理の効率化をめざして,この重要な分野における現在および将来の研究開発活動に貴重な洞察を提供することを目的とする。

Improving the automatic and timely recognition of construction and demolition waste (C&DW) composition is crucial for enhancing business returns, economic outcomes, and sustainability. Technologies like computer vision, artificial intelligence (AI), robotics, and internet of things (IoT) are increasingly integrated into waste processing to achieve these goals. While deep learning (DL) models show promise in recognising homogeneous C&DW piles, few studies assess their performance with mixed, highly contaminated material in commercial settings. Drawing on extensive experience at a C&DW materials recovery facility (MRF) in Sydney, Australia, we explore the challenges and opportunities in developing an advanced automated mixed C&DW management system. We begin with an overview of the evolution of waste management in the construction industry, highlighting its environmental, economic, and societal impacts. We review various C&DW analysis techniques, concluding that DL-based visual methods are the optimal solution. Additionally, we examine the progression of sensor and camera technologies for C&DW analysis as well as the evolution of DL algorithms focused on object detection and material segmentation. We also discuss C&DW datasets, their curation, and innovative methods for their creation. Finally, we share insights on C&DW visual analysis, addressing technical and commercial challenges, research trends, and future directions for mixed C&DW analysis. This paper aims to improve the efficiency of C&DW management by providing valuable insights for ongoing and future research and development efforts in this critical sector.
翻訳日:2024-11-07 11:52:12 公開日:2024-09-19
# 非対称二重井戸電位における振動散逸トンネル

Oscillatory dissipative tunneling in an asymmetric double-well potential ( http://arxiv.org/abs/2409.13113v1 )

ライセンス: Link先を確認
Alejandro Cros Carrillo de Albornoz, Rodrigo G. Cortiñas, Max Schäfer, Nicholas E. Frattini, Brandon Allen, Delmar G. A. Cabral, Pablo E. Videla, Pouya Khazaei, Eitan Geva, Victor S. Batista, Michel H. Devoret, (参考訳) 散逸トンネルは量子力学における基礎的な効果である。 化学において、これは化学反応の速度の制御において重要な役割を担い、しばしばあるポテンシャルから別のポテンシャルへの反応座標に沿った運動としてモデル化される。 これらの井戸内のエネルギー準位の相対的な位置は反応力学に強く影響を及ぼす。 化学研究は、トンネリング速度の正確な測定能力を備えた完全に制御可能で非対称な二重井戸の恩恵を受けるだろう。 本稿では, 連続的に駆動される3次非線形なKerrパラメトリック発振器を量子状態下で動作させることにより, 完全に調整可能な非対称二重井戸を創出できることを示す。 本実験では,低雑音全マイクロ波制御システムを用いて全ウェル情報の高能率読み出しを行う。 パラメータ空間におけるトンネル共鳴の風景における反応速度について検討する。 我々は2つの新しい直感的効果と反直感的効果を発見した。 (i) システムが初期化される井戸を浅くしても、弱い非対称性はアクティベーション率を著しく下げることができ、 (II)トンネル共鳴の幅は、井戸深さと非対称性の関数として狭線と広線の間で交互に変化する。 数値シミュレーションにより、どちらの効果も量子状態の通常の化学二重井戸系にも現れると予測する。 我々の研究は、量子超伝導回路に基づくアナログ分子シミュレーターの道を開いた。

Dissipative tunneling remains a cornerstone effect in quantum mechanics. In chemistry, it plays a crucial role in governing the rates of chemical reactions, often modeled as the motion along the reaction coordinate from one potential well to another. The relative positions of energy levels in these wells strongly influences the reaction dynamics. Chemical research will benefit from a fully controllable, asymmetric double-well equipped with precise measurement capabilities of the tunneling rates. In this paper, we show that a continuously driven Kerr parametric oscillator with a third order non-linearity can be operated in the quantum regime to create a fully tunable asymmetric double-well. Our experiment leverages a low-noise, all-microwave control system with a high-efficiency readout of the which-well information. We explore the reaction rates across the landscape of tunneling resonances in parameter space. We uncover two new and counter-intuitive effects: (i) a weak asymmetry can significantly decrease the activation rates, even though the well in which the system is initialized is made shallower, and (ii) the width of the tunneling resonances alternates between narrow and broad lines as a function of the well depth and asymmetry. We predict by numerical simulations that both effects will also manifest themselves in ordinary chemical double-well systems in the quantum regime. Our work paves the way for analog molecule simulators based on quantum superconducting circuits.
翻訳日:2024-11-07 11:52:12 公開日:2024-09-19
# パラメトリック駆動型ボソニック量子デバイスにおける化学動力学シミュレーションのロードマップ

A Roadmap for Simulating Chemical Dynamics on a Parametrically Driven Bosonic Quantum Device ( http://arxiv.org/abs/2409.13114v1 )

ライセンス: Link先を確認
Delmar G. A. Cabral, Pouya Khazaei, Brandon C. Allen, Pablo E. Videla, Max Schäfer, Rodrigo G. Cortiñas, Alejandro Cros Carrillo de Albornoz, Jorge Chávez-Carlos, Lea F. Santos, Eitan Geva, Victor S. Batista, (参考訳) 化学反応は、反応物から2つの自由エネルギー障壁を越える生成物への反応性フラックスの移動によって一般的に説明される。 ダイナミクスはしばしば、トンネル、ゼロポイントエネルギー運動、干渉のような障壁再交差や量子効果を伴い、遷移状態理論のような従来の速度理論では考慮されていない。 本研究では, パラメトリック駆動型ボソニック超伝導Kerr-catデバイスによる反応力学シミュレーションの実現可能性について検討した。 このアプローチは、二重井戸自由エネルギープロファイルを定義するパラメータを制御し、温度や反応座標と非反応性自由度の熱浴との間の結合強度などの外部要因を制御できる。 本プロトコルの有効性は, 水素結合型マロンアルデヒドとDNA塩基対の2量体などの原型ベンチマークモデル系におけるプロトン移動反応のダイナミクスを, 現在アクセス可能なKerr-catデバイス上で正確にシミュレートできることによって示される。

Chemical reactions are commonly described by the reactive flux transferring population from reactants to products across a double-well free energy barrier. Dynamics often involves barrier recrossing and quantum effects like tunneling, zero-point energy motion and interference, which traditional rate theories, such as transition-state theory, do not consider. In this study, we investigate the feasibility of simulating reaction dynamics using a parametrically driven bosonic superconducting Kerr-cat device. This approach provides control over parameters defining the double-well free energy profile, as well as external factors like temperature and the coupling strength between the reaction coordinate and the thermal bath of non-reactive degrees of freedom. We demonstrate the effectiveness of this protocol by showing that the dynamics of proton transfer reactions in prototypical benchmark model systems, such as hydrogen bonded dimers of malonaldehyde and DNA base pairs, could be accurately simulated on currently accessible Kerr-cat devices.
翻訳日:2024-11-07 11:52:12 公開日:2024-09-19
# 多モード自己監督核融合による組織像と免疫ゲノムデータのパーソナライズされた2次元患者コード

Personalized 2D Binary Patient Codes of Tissue Images and Immunogenomic Data Through Multimodal Self-Supervised Fusion ( http://arxiv.org/abs/2409.13115v1 )

ライセンス: Link先を確認
Areej Alsaafin, Abubakr Shafique, Saghir Alfasly, H. R. Tizhoosh, (参考訳) 医療診断の分野は、人工知能(AI)と医療データの変革的な収束を目撃し、患者のケアと疾患の理解を高めるための有望な道を提供する。 しかし、このマルチモーダルデータ、特にスライディング画像(WSI)と遺伝的シークエンシングデータの統合は、モダリティの相違とスケーラブルな計算ソリューションの必要性による独特な課題を提起する。 本稿では, 画像とゲノムデータの統合から得られるリッチな洞察の実現を抑えるため, マルチモーダル・ソリューションの不足に対処する。 本稿では, 病理組織像と免疫ゲノムシークエンシングデータを統合し, 簡潔なバイナリ・コードにカプセル化する, 革新的なマルチモーダル・フレームワークであるMarbliX ``Multimodal Association and Retrieval with Binary Latent Indexed matriX'を紹介する。 「」このバイナリ表現は総合的なアーカイブの確立を促進するもので、臨床医も同様の事例に対応することができる。 実験結果は、マーブリXが医療専門家に深い洞察を与え、より正確な診断、多様性の低減、そして特にがんの文脈においてパーソナライズされた治療オプションを拡大する可能性を示している。

The field of medical diagnostics has witnessed a transformative convergence of artificial intelligence (AI) and healthcare data, offering promising avenues for enhancing patient care and disease comprehension. However, this integration of multimodal data, specifically histopathology whole slide images (WSIs) and genetic sequencing data, presents unique challenges due to modality disparities and the need for scalable computational solutions. This paper addresses the scarcity of multimodal solutions, primarily centered around unimodal data solutions, thus limiting the realization of the rich insights that can be derived from integrating images and genomic data. Here, we introduce MarbliX ``Multimodal Association and Retrieval with Binary Latent Indexed matriX,'' an innovative multimodal framework that integrates histopathology images with immunogenomic sequencing data, encapsulating them into a concise binary patient code, referred to as ``monogram.'' This binary representation facilitates the establishment of a comprehensive archive, enabling clinicians to match similar cases. The experimental results demonstrate the potential of MarbliX to empower healthcare professionals with in-depth insights, leading to more precise diagnoses, reduced variability, and expanded personalized treatment options, particularly in the context of cancer.
翻訳日:2024-11-07 11:52:12 公開日:2024-09-19
# BGDB: Denoising Diffusion Probabilistic Modelを改善したBernolli-Gaussian Decision Block

BGDB: Bernoulli-Gaussian Decision Block with Improved Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2409.13116v1 )

ライセンス: Link先を確認
Chengkun Sun, Jinqian Pan, Russell Stevens Terry, Jiang Bian, Jie Xu, (参考訳) 生成モデルは、複雑な特徴空間を構築することによって識別的分類器を強化し、複雑なデータセットの性能を向上させることができる。 従来の手法は、通常、より詳細な特徴表現を持つデータセットを増やしたり、次元性を高めて非線形データを線形分離可能にします。 特徴空間処理のみに生成モデルを用いることは、分類器内の全ポテンシャルを解き放つには足りず、典型的には堅固な理論的基礎を欠いている。 単一のモデルトレーニングから得られた確率情報(logit)は、複数のトレーニングセッションに相当するものを生成するために使用できる。 中心極限定理を利用すると、この合成された確率情報は真の確率に対してより正確に収束することが期待される。 この目的を達成するために,Bernolli-Gaussian Decision Block (BGDB) を提案する。 具体的には,改良拡散確率モデル(IDDPM)を用いてベルヌーイ裁判の確率をモデル化する。 当社のアプローチでは,機能再構築からロジット再構築に重点を移し,ロジットを単一イテレーションから複数の実験に類似したロジットに変換する。 本稿では,数式解析によるアプローチの理論的基礎を提供し,その有効性は,分類とセグメント化の両方を含む複数の画像処理タスクのために,様々なデータセットを用いて実験的に評価することで検証する。

Generative models can enhance discriminative classifiers by constructing complex feature spaces, thereby improving performance on intricate datasets. Conventional methods typically augment datasets with more detailed feature representations or increase dimensionality to make nonlinear data linearly separable. Utilizing a generative model solely for feature space processing falls short of unlocking its full potential within a classifier and typically lacks a solid theoretical foundation. We base our approach on a novel hypothesis: the probability information (logit) derived from a single model training can be used to generate the equivalent of multiple training sessions. Leveraging the central limit theorem, this synthesized probability information is anticipated to converge toward the true probability more accurately. To achieve this goal, we propose the Bernoulli-Gaussian Decision Block (BGDB), a novel module inspired by the Central Limit Theorem and the concept that the mean of multiple Bernoulli trials approximates the probability of success in a single trial. Specifically, we utilize Improved Denoising Diffusion Probabilistic Models (IDDPM) to model the probability of Bernoulli Trials. Our approach shifts the focus from reconstructing features to reconstructing logits, transforming the logit from a single iteration into logits analogous to those from multiple experiments. We provide the theoretical foundations of our approach through mathematical analysis and validate its effectiveness through experimental evaluation using various datasets for multiple imaging tasks, including both classification and segmentation.
翻訳日:2024-11-07 11:52:12 公開日:2024-09-19
# 大規模言語モデルは優れた評価学級か?

Are Large Language Models Good Essay Graders? ( http://arxiv.org/abs/2409.13120v1 )

ライセンス: Link先を確認
Anindita Kundu, Denilson Barbosa, (参考訳) 我々は,エッセイの品質評価におけるLarge Language Models (LLMs) の有効性を評価する。 より正確には、教育における重要な自然言語処理(NLP)アプリケーションであるAES(Automated Essay Scoring)タスクにおいて、ChatGPTとLlamaを評価した。 ゼロショット学習と少数ショット学習の両方、異なるプロンプトアプローチを検討します。 AESタスクでよく知られたベンチマークであるASAPデータセットを用いて,LSMが提供した数値と人間レーダ提供スコアを比較した。 我々の研究によると、両LSMは一般的に、ヒトのラッカーが提供したスコアよりも低いスコアを割り当てている。 特にChatGPTは、Llamaよりも厳格で、人間による評価と不一致の傾向にある。 また,従来のAES法で一般的なエッセイ機能として,長さ,連結語と遷移語の使用,スペル数や文法ミスを含む可読性指標などについて実験した。 一般的に、これらの特徴は人間やLDMのスコアと強く相関するものではない。 最後に,Llama 3の結果について報告する。 全体として、LLMは人間の評価に十分な代替とは思えないが、我々の研究結果は、将来書かれたエッセイの分類において、人間を支援するツールとしての使用を奨励している。

We evaluate the effectiveness of Large Language Models (LLMs) in assessing essay quality, focusing on their alignment with human grading. More precisely, we evaluate ChatGPT and Llama in the Automated Essay Scoring (AES) task, a crucial natural language processing (NLP) application in Education. We consider both zero-shot and few-shot learning and different prompting approaches. We compare the numeric grade provided by the LLMs to human rater-provided scores utilizing the ASAP dataset, a well-known benchmark for the AES task. Our research reveals that both LLMs generally assign lower scores compared to those provided by the human raters; moreover, those scores do not correlate well with those provided by the humans. In particular, ChatGPT tends to be harsher and further misaligned with human evaluations than Llama. We also experiment with a number of essay features commonly used by previous AES methods, related to length, usage of connectives and transition words, and readability metrics, including the number of spelling and grammar mistakes. We find that, generally, none of these features correlates strongly with human or LLM scores. Finally, we report results on Llama 3, which are generally better across the board, as expected. Overall, while LLMs do not seem an adequate replacement for human grading, our results are somewhat encouraging for their use as a tool to assist humans in the grading of written essays in the future.
翻訳日:2024-11-07 11:52:12 公開日:2024-09-19
# 音声記述:ゼロショット音声分類を強化するプロンプトテンプレートとクラス記述の探索

A sound description: Exploring prompt templates and class descriptions to enhance zero-shot audio classification ( http://arxiv.org/abs/2409.13676v1 )

ライセンス: Link先を確認
Michel Olvera, Paraskevas Stamatiadis, Slim Essid, (参考訳) 対照的な学習を通して訓練された音声テキストモデルは、"This is a sound of"のような自然言語のプロンプトを通じて音声分類を行うための実践的なアプローチを提供する。 本研究では、ゼロショット音声分類のための代替プロンプトテンプレートについて検討し、ハイパフォーマンスなオプションの存在を実証する。 まず、プロンプトのフォーマッティングがパフォーマンスに大きく影響を与え、適切にフォーマットされたクラスラベルでモデルにプロンプトを付けるだけで、最適化されたプロンプトテンプレートと競合し、さらにはアンサンブルのプロンプトを行う。 さらに、音声中心の記述によるクラスラベルの補完についても検討する。 大規模な言語モデルを活用することで,音声イベントの音響的特徴を,広範囲なプロンプトエンジニアリングを伴わずに,クラス間のあいまいさを優先するテキスト記述を生成する。 本研究は, クラス記述の促進により, 周囲の音声データセット間でのゼロショット音声分類の結果が得られたことを示す。 注目すべきは、この方法は追加のトレーニングを必要とせず、完全にゼロショットのままであることだ。

Audio-text models trained via contrastive learning offer a practical approach to perform audio classification through natural language prompts, such as "this is a sound of" followed by category names. In this work, we explore alternative prompt templates for zero-shot audio classification, demonstrating the existence of higher-performing options. First, we find that the formatting of the prompts significantly affects performance so that simply prompting the models with properly formatted class labels performs competitively with optimized prompt templates and even prompt ensembling. Moreover, we look into complementing class labels by audio-centric descriptions. By leveraging large language models, we generate textual descriptions that prioritize acoustic features of sound events to disambiguate between classes, without extensive prompt engineering. We show that prompting with class descriptions leads to state-of-the-art results in zero-shot audio classification across major ambient sound datasets. Remarkably, this method requires no additional training and remains fully zero-shot.
翻訳日:2024-11-07 05:57:35 公開日:2024-09-19
# OpenAI推論モデルを用いたWebアプリケーションコーディングのケーススタディ

A Case Study of Web App Coding with OpenAI Reasoning Models ( http://arxiv.org/abs/2409.13773v1 )

ライセンス: Link先を確認
Yi Cui, (参考訳) 本稿では,OpenAIの最新推論モデルであるo1-previewとo1-miniによるコーディングタスクのケーススタディを,他のフロンティアモデルと比較した。 o1モデルはシングルタスクのベンチマークであるWebApp1Kに対してSOTA結果を提供する。 この目的のために、WebApp1K-Duoを紹介します。 新しいベンチマークでは、o1モデルのパフォーマンスが大幅に低下し、Claude 3.5に遅れている。 さらに、非典型的で正しいテストケースに直面した場合には、常に失敗する。 性能の変動は命令の理解に起因すると仮定する。 特に、推論メカニズムは、全ての期待値がキャプチャーされるとパフォーマンスが向上する一方、キー期待値が外れた場合にはエラーが悪化し、入力長に影響が及ぶ可能性がある。 したがって、推論モデルのコーディング成功はトップノッチベースモデルとSFTに基づいており、命令への厳密な従順性を保証する。

This paper presents a case study of coding tasks by the latest reasoning models of OpenAI, i.e. o1-preview and o1-mini, in comparison with other frontier models. The o1 models deliver SOTA results for WebApp1K, a single-task benchmark. To this end, we introduce WebApp1K-Duo, a harder benchmark doubling number of tasks and test cases. The new benchmark causes the o1 model performances to decline significantly, falling behind Claude 3.5. Moreover, they consistently fail when confronted with atypical yet correct test cases, a trap non-reasoning models occasionally avoid. We hypothesize that the performance variability is due to instruction comprehension. Specifically, the reasoning mechanism boosts performance when all expectations are captured, meanwhile exacerbates errors when key expectations are missed, potentially impacted by input lengths. As such, we argue that the coding success of reasoning models hinges on the top-notch base model and SFT to ensure meticulous adherence to instructions.
翻訳日:2024-11-07 05:13:17 公開日:2024-09-19
# 信頼できる侵入検知:潜時空間を用いた信頼度推定

Trustworthy Intrusion Detection: Confidence Estimation Using Latent Space ( http://arxiv.org/abs/2409.13774v1 )

ライセンス: Link先を確認
Ioannis Pitsiorlas, George Arvanitakis, Marios Kountouris, (参考訳) 本研究では、変分オートエンコーダ(VAE)アーキテクチャを用いて、侵入検知システム(IDS)における異常検出の信頼性を高める新しい手法を提案する。 遅延空間表現に基づく信頼度尺度の開発により,サイバー攻撃に対するIDS予測の信頼性向上を目指す。 NSL-KDDデータセットに適用した本手法は,正常なネットワークアクティビティと悪意のあるネットワークアクティビティを効果的に区別するバイナリ分類タスクに焦点をあてる。 本手法は, 再構成誤差と提案した測定値との間に, 0.45 の顕著な相関関係があることを証明し, 異常検出の大幅な向上を示す。 本研究は,ネットワークセキュリティにおいて,より正確かつ信頼性の高い異常検出にVAEを用いることの可能性を明らかにするものである。

This work introduces a novel method for enhancing confidence in anomaly detection in Intrusion Detection Systems (IDS) through the use of a Variational Autoencoder (VAE) architecture. By developing a confidence metric derived from latent space representations, we aim to improve the reliability of IDS predictions against cyberattacks. Applied to the NSL-KDD dataset, our approach focuses on binary classification tasks to effectively distinguish between normal and malicious network activities. The methodology demonstrates a significant enhancement in anomaly detection, evidenced by a notable correlation of 0.45 between the reconstruction error and the proposed metric. Our findings highlight the potential of employing VAEs for more accurate and trustworthy anomaly detection in network security.
翻訳日:2024-11-07 05:13:17 公開日:2024-09-19
# AutoPET III Challenge: ResEnc-Model Ensemble を用いた腫瘍病変切除

AutoPET III Challenge: Tumor Lesion Segmentation using ResEnc-Model Ensemble ( http://arxiv.org/abs/2409.13779v1 )

ライセンス: Link先を確認
Tanya Chutani, Saikiran Bonthu, Pranab Samanta, Nitin Singhal, (参考訳) PET (Positron Emission Tomography) /CT (Computed Tomography) は、様々ながんの診断、管理、計画に重要である。 PET/CTスキャンにおける腫瘍病変のセグメンテーションのための信頼性の高い深層学習モデルの構築は、研究の重要な領域である。 フルオロデオキシグルコース(FDG)や前立腺特異的膜抗原(PSMA)のような異なるトレーサーは、異なる中心からの異なる生理的取り込みパターンを持ち、しばしば取得プロトコル、スキャナータイプ、患者集団の点で異なる。 このような可変性のため,画像品質や病変検出性の変化により,信頼性の高いセグメンテーションアルゴリズムや一般化手法の設計が困難になる。 この課題に対処するため、我々は、新しいU-Netフレームワーク内で3次元残留エンコーダU-Netを訓練し、異なるトレーサと臨床現場で全身PET/CTスキャンの自動病変セグメンテーションの性能を一般化することを目的とした。 さらに,いくつかの前処理手法を探索し,最終的にTtal Segmentatorを用いてトレーニングデータを収集することにした。 また,この過程で再サンプリングを行った。 推測では,腫瘍病変のセグメンテーションを増強するために,試験時間増強や他の後処理技術を利用した。 現在、私たちのチームはAuto-PET IIIチャレンジでトップの地位にあり、Diceスコア0.9627の予備テストセットでチャレンジベースラインモデルを上回っています。

Positron Emission Tomography (PET) /Computed Tomography (CT) is crucial for diagnosing, managing, and planning treatment for various cancers. Developing reliable deep learning models for the segmentation of tumor lesions in PET/CT scans in a multi-tracer multicenter environment, is a critical area of research. Different tracers, such as Fluorodeoxyglucose (FDG) and Prostate-Specific Membrane Antigen (PSMA), have distinct physiological uptake patterns and data from different centers often vary in terms of acquisition protocols, scanner types, and patient populations. Because of this variability, it becomes more difficult to design reliable segmentation algorithms and generalization techniques due to variations in image quality and lesion detectability. To address this challenge, We trained a 3D Residual encoder U-Net within the no new U-Net framework, aiming to generalize the performance of automatic lesion segmentation of whole body PET/CT scans, across different tracers and clinical sites. Further, We explored several preprocessing techniques and ultimately settled on using the Total Segmentator to crop our training data. Additionally, we applied resampling during this process. During inference, we leveraged test-time augmentations and other post-processing techniques to enhance tumor lesion segmentation. Our team currently hold the top position in the Auto-PET III challenge and outperformed the challenge baseline model in the preliminary test set with Dice score of 0.9627.
翻訳日:2024-11-07 05:13:17 公開日:2024-09-19
# フォトニック量子コンピュータにおける組合せ最適化問題の解法

Solving Combinatorial Optimization Problems on a Photonic Quantum Computer ( http://arxiv.org/abs/2409.13781v1 )

ライセンス: Link先を確認
Mateusz Slysz, Krzysztof Kurowski, Grzegorz Waligóra, (参考訳) 組合せ最適化問題は、ロジスティクスから暗号まで、様々な分野において重要な計算問題を引き起こす。 従来の計算手法は指数関数的な複雑性に苦しむことが多く、量子コンピューティングのような代替パラダイムへの探索を動機付けている。 本稿では,光量子コンピューティングによる組合せ最適化問題の解法について検討する。 量子力学の原理を応用して、フォトニック量子コンピュータが解空間を効率的に探索し、様々な組合せ問題に対する最適解を同定する方法を実証する。 本稿では,異なる量子アーキテクチャ(サンプリング,量子アニーリング,ゲートベース量子コンピューティング)の組合せ最適化に適した量子アルゴリズムの概要について述べる。 さらに、フォトニック量子ハードウェア上でこれらのアルゴリズムを実装する際の利点と課題についても論じる。 8量子フォトニック量子デバイスを用いた実験と数値シミュレーションにより,Max-Cut問題やジョブショップスケジューリング問題といった代表的な組合せ最適化問題の解法におけるフォトニック量子コンピュータの性能を評価する。

Combinatorial optimization problems pose significant computational challenges across various fields, from logistics to cryptography. Traditional computational methods often struggle with their exponential complexity, motivating exploration into alternative paradigms such as quantum computing. In this paper, we investigate the application of photonic quantum computing to solve combinatorial optimization problems. Leveraging the principles of quantum mechanics, we demonstrate how photonic quantum computers can efficiently explore solution spaces and identify optimal solutions for a range of combinatorial problems. We provide an overview of quantum algorithms tailored for combinatorial optimization for different quantum architectures (boson sampling, quantum annealing and gate-based quantum computing). Additionally, we discuss the advantages and challenges of implementing those algorithms on photonic quantum hardware. Through experiments run on an 8-qumode photonic quantum device, as well as numerical simulations, we evaluate the performance of photonic quantum computers in solving representative combinatorial optimization problems, such as the Max-Cut problem and the Job Shop Scheduling Problem.
翻訳日:2024-11-07 05:13:17 公開日:2024-09-19
# 最初はa^2+b^2=c^2$? 好奇心による質問

What Would You Ask When You First Saw $a^2+b^2=c^2$? Evaluating LLM on Curiosity-Driven Questioning ( http://arxiv.org/abs/2409.17172v1 )

ライセンス: Link先を確認
Shashidhar Reddy Javaji, Zining Zhu(参考訳) 大規模言語モデル(LLM)は膨大な量の知識を格納できるが、新しい知識を取得する可能性はまだ不明である。 本稿では,この能力を評価する新しい評価フレームワークを提案する。 このフレームワークは、LCMに科学知識を紹介する声明に関する質問を起こさせ、初めてこの声明に直面すると好奇心をそそる人物をシミュレートする。 生成した質問の質を評価し,LLMの知識獲得の可能性を評価する。 評価手順の検証に制御的アブレーション研究を適用した。 さらに, 物理, 化学, 数学の 1101 文からなり, 難易度が異なる, 一般知識の 300 文, 誤った 567 文からなる合成データセットを作成した。 モデル評価を検証し, 検討した3つの指標について, コーエンのカッパを0.7と近似的に重み付けした。 GPT-4 や Mistral 8x7b のような大規模モデルはコヒーレントで関連する質問を生成するには適しているが、より小さな Phi-2 モデルは等しく、より効果的である。 これは、サイズが単にモデルの知識獲得の可能性を決定するものではないことを示している。 提案するフレームワークは、一般的に見落とされ、より知識のあるAIシステムを開発するための研究機会を開放する重要なモデル能力を定量化する。

Large language models (LLMs) can store a massive amount of knowledge, yet their potential to acquire new knowledge remains unknown. We propose a novel evaluation framework that evaluates this capability. This framework prompts LLMs to generate questions about a statement introducing scientific knowledge, simulating a curious person when facing the statement for the first time. We score the qualities of the generated questions, thereby evaluating the knowledge acquisition potential of the LLM. We apply controlled ablation studies to validate our scoring procedures. Additionally, we created a synthetic dataset consisting of 1101 statements in physics, chemistry, and maths with distinct levels of difficulties, 300 general knowledge statements, and 567 incorrect statements. Human evaluations were conducted to validate our model assessments, achieving an approximate weighted Cohen's kappa of 0.7 on all three metrics considered. We find that while large models like GPT-4 and Mistral 8x7b are adept at generating coherent and relevant questions, the smaller Phi-2 model is equally or more effective. This indicates that size does not solely determine a model's knowledge acquisition potential. The proposed framework quantifies a critical model capability that was commonly overlooked and opens up research opportunities for developing more knowledgeable AI systems
翻訳日:2024-11-06 16:50:22 公開日:2024-09-19
# 言語ジャイアンツから感覚マストロへ:大規模言語モデルを用いたクロスモーダル推論に関する調査

From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models ( http://arxiv.org/abs/2409.18996v1 )

ライセンス: Link先を確認
Shengsheng Qian, Zuyi Zhou, Dizhan Xue, Bing Wang, Changsheng Xu, (参考訳) クロスモーダル推論(英語: Cross-modal reasoning, CMR)は、より高度で人為的な人工知能システムへの進化において重要な能力として認識される。 大規模言語モデル(Large Language Models, LLM)は、人間の言語を解析、生成、関与するために特別に設計されたAIアルゴリズムのクラスである。 近年、CMRタスクに対処するためにLLMをデプロイする傾向は、その有効性を高めるための新しいアプローチの主流となっている。 本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。 さらに、この調査は、この領域における原型モデルの主要な設計戦略と運用手法を掘り下げている。 さらに、LCMをCMRに統合する際の課題を明確にし、今後の研究の方向性を明らかにする。 まとめると、この調査は、総合的で詳細な視界を持つ学者を育成し、現在の研究の先駆者でありながら、進歩のための潜在的な道を見極めることで、この急成長の分野における進歩を早める努力である。 関連する論文を収集するGitHubリポジトリはhttps://github.com/ZuyiZhou/Awesome-Cross-modal-Reasoning-with-LLMsにある。

Cross-modal reasoning (CMR), the intricate process of synthesizing and drawing inferences across divergent sensory modalities, is increasingly recognized as a crucial capability in the progression toward more sophisticated and anthropomorphic artificial intelligence systems. Large Language Models (LLMs) represent a class of AI algorithms specifically engineered to parse, produce, and engage with human language on an extensive scale. The recent trend of deploying LLMs to tackle CMR tasks has marked a new mainstream of approaches for enhancing their effectiveness. This survey offers a nuanced exposition of current methodologies applied in CMR using LLMs, classifying these into a detailed three-tiered taxonomy. Moreover, the survey delves into the principal design strategies and operational techniques of prototypical models within this domain. Additionally, it articulates the prevailing challenges associated with the integration of LLMs in CMR and identifies prospective research directions. To sum up, this survey endeavors to expedite progress within this burgeoning field by endowing scholars with a holistic and detailed vista, showcasing the vanguard of current research whilst pinpointing potential avenues for advancement. An associated GitHub repository that collects the relevant papers can be found at https://github.com/ZuyiZhou/Awesome-Cross-modal-Reasoning-with-LLMs
翻訳日:2024-11-06 05:10:43 公開日:2024-09-19
# PropaInsight: Propagandaのより深い理解を目指して

PropaInsight: Toward Deeper Understanding of Propaganda in Terms of Techniques, Appeals, and Intent ( http://arxiv.org/abs/2409.18997v1 )

ライセンス: Link先を確認
Jiateng Liu, Lin Ai, Zizhou Liu, Payam Karisani, Zheng Hui, May Fung, Preslav Nakov, Julia Hirschberg, Heng Ji, (参考訳) プロパガンダは世論の形成と偽情報の拡散に重要な役割を果たしている。 既存の研究は主にプロパガンダ技術を特定することに焦点を当てているが、より広いモチベーションとそのようなコンテンツの影響を捉える能力は欠如している。 これらの課題に対処するために,我々は,プロパガンダを技術,覚醒的魅力,根底にある意図に体系的に識別する,基礎的な社会科学研究を基盤とする概念的枠組みであるPropainsightを紹介した。 propainsightは、プロパガンダが様々な状況でどのように機能するかをより細かく理解します。 さらに,人間の注釈付きデータと,微妙に設計されたパイプラインから生成された高品質な合成データを組み合わせた新しいデータセットであるproagazeを提案する。 実験の結果,市販のLLMはプロパガンダ分析に苦慮しているが,プロパガンダを用いたトレーニングは性能を著しく向上させることがわかった。 Llama-7B-Chatは1ショットのGPT-4-Turboに比べて203.4%、BertScoreは66.2%である。 さらに、プロパガンゼは、データスパースやクロスドメインのシナリオにおいて、限られた人間の注釈付きデータを補完し、包括的で一般化可能なプロパガンダ分析の可能性を示す。

Propaganda plays a critical role in shaping public opinion and fueling disinformation. While existing research primarily focuses on identifying propaganda techniques, it lacks the ability to capture the broader motives and the impacts of such content. To address these challenges, we introduce propainsight, a conceptual framework grounded in foundational social science research, which systematically dissects propaganda into techniques, arousal appeals, and underlying intent. propainsight offers a more granular understanding of how propaganda operates across different contexts. Additionally, we present propagaze, a novel dataset that combines human-annotated data with high-quality synthetic data generated through a meticulously designed pipeline. Our experiments show that off-the-shelf LLMs struggle with propaganda analysis, but training with propagaze significantly improves performance. Fine-tuned Llama-7B-Chat achieves 203.4% higher text span IoU in technique identification and 66.2% higher BertScore in appeal analysis compared to 1-shot GPT-4-Turbo. Moreover, propagaze complements limited human-annotated data in data-sparse and cross-domain scenarios, showing its potential for comprehensive and generalizable propaganda analysis.
翻訳日:2024-11-06 05:10:43 公開日:2024-09-19
# 臨床トライアル検索のためのLSMによる推論制御

Controlled LLM-based Reasoning for Clinical Trial Retrieval ( http://arxiv.org/abs/2409.18998v1 )

ライセンス: Link先を確認
Mael Jullien, Alex Bogatu, Harriet Unsworth, Andre Freitas, (参考訳) 患者を臨床試験にマッチさせるには、専門家レベルの背景知識を必要とする文書の体系的で合理的な解釈が要求される。 さらに、この解釈プロセスは、試行の膨大な知識ベースを越えて、大規模に運用する必要がある。 本稿では,LLMの能力を拡張するスケーラブルな手法を提案する。 提案手法は,LLMのセット誘導推論法をオーバーレイする。 提案手法はTREC 2022 臨床試験で評価され,最先端の NDCG@10 と精度: 0.693 の NDCG@10,精度: 0.73 よりも優れた結果が得られた。

Matching patients to clinical trials demands a systematic and reasoned interpretation of documents which require significant expert-level background knowledge, over a complex set of well-defined eligibility criteria. Moreover, this interpretation process needs to operate at scale, over vast knowledge bases of trials. In this paper, we propose a scalable method that extends the capabilities of LLMs in the direction of systematizing the reasoning over sets of medical eligibility criteria, evaluating it in the context of real-world cases. The proposed method overlays a Set-guided reasoning method for LLMs. The proposed framework is evaluated on TREC 2022 Clinical Trials, achieving results superior to the state-of-the-art: NDCG@10 of 0.693 and Precision@10 of 0.73.
翻訳日:2024-11-06 05:00:47 公開日:2024-09-19
# GPT添加フィンベルト蒸留によるTinyBERTの財務感性分析への応用

Enhancing TinyBERT for Financial Sentiment Analysis Using GPT-Augmented FinBERT Distillation ( http://arxiv.org/abs/2409.18999v1 )

ライセンス: Link先を確認
Graison Jos Thomas, (参考訳) 金融センチメント分析の急速に発展する分野では、予測モデルの効率性と正確性は、金融市場に重大な影響を与えるため重要である。 BERTのようなトランスフォーマーベースのモデルとGPT-4のような大きな言語モデル(LLM)は、かなり高度なNLPタスクを持っている。 これらの利点にもかかわらず、BERTベースのモデルはエッジコンピューティング環境における計算強度の課題に直面し、LLMのかなりのサイズと計算要求は実用的展開を制限する。 本研究は, GPT-4 Omni などの LLM の生成能力を生かして, ドメイン固有の学習データを作成することを提案する。 このアプローチは、データ不足の課題に対処し、より大規模なモデルと競合することによって、より小さなモデルの性能を向上させる。 この研究は、金融感情分析用に微調整されたBERTモデルであるFinBERTを強化し、構造化された2段階の知識蒸留戦略を通じて、コンパクトトランスフォーマーモデルであるTinyFinBERTを開発することを目的としている。 GPT-4 Omniによって強化されたデータを用いて、新しいトレーニング例を生成し、既存のデータを変換し、FinBERTの精度を大幅に向上し、教師モデルとして機能させる準備を行った。 この強化されたFiinBERTは、その後TinyFinBERTに知識を蒸留し、GPT-4 OmniとGPT-3.5 Turboの拡張現実データを使用した。 蒸留戦略はロジットと中間層蒸留の両方を取り入れた。 TinyFinBERTのトレーニングと評価では、PhraseBankデータセットとFiQA 2018 Task1データセットを使用して、FinBERTに匹敵するパフォーマンスを実現し、より小さく、より効率的である。 本研究は, LLMが, 革新的データ増減・蒸留技術により, より小型で効率的なモデルの能力を高めることにより, 金融感情分析の進歩に効果的に寄与することを示す。

In the rapidly evolving field of financial sentiment analysis, the efficiency and accuracy of predictive models are critical due to their significant impact on financial markets. Transformer based models like BERT and large language models (LLMs) like GPT-4, have advanced NLP tasks considerably. Despite their advantages, BERT-based models face challenges with computational intensity in edge computing environments, and the substantial size and compute requirements of LLMs limit their practical deployment. This study proposes leveraging the generative capabilities of LLMs, such as GPT-4 Omni, to create synthetic, domain-specific training data. This approach addresses the challenge of data scarcity and enhances the performance of smaller models by making them competitive with their larger counterparts. The research specifically aims to enhance FinBERT, a BERT model fine-tuned for financial sentiment analysis, and develop TinyFinBERT, a compact transformer model, through a structured, two-tiered knowledge distillation strategy. Using data augmented by GPT-4 Omni, which involves generating new training examples and transforming existing data, we significantly improved the accuracy of FinBERT, preparing it to serve as a teacher model. This enhanced FinBERT then distilled knowledge to TinyFinBERT, employing both GPT-4 Omni and GPT-3.5 Turbo augmented data. The distillation strategy incorporated both logit and intermediate layer distillation. The training and evaluation of TinyFinBERT utilized the PhraseBank dataset and the FiQA 2018 Task1 dataset, achieving performance comparable to FinBERT while being substantially smaller and more efficient. This research demonstrates how LLMs can effectively contribute to the advancement of financial sentiment analysis by enhancing the capabilities of smaller, more efficient models through innovative data augmentation and distillation techniques.
翻訳日:2024-11-06 05:00:47 公開日:2024-09-19
# 重要なことへの注意を払う

Pay Attention to What Matters ( http://arxiv.org/abs/2409.19001v1 )

ライセンス: Link先を確認
Pedro Luiz Silva, Antonio de Domenico, Ali Maatouk, Fadhel Ayed, (参考訳) LLM(Large Language Models)の成功にもかかわらず、出力をユーザ指示に合わせる能力は限られている。 本稿では,命令トークンの注意点を機械的に増加させるGUIDEという,シンプルで効果的な手法を提案する。 この操作を支援するために,ユーザの指示がトランスフォーマー層を通して伝播し,LLM出力に影響を与えることを示す新しい指標であるEmpfectを提案する。 以上の結果から,GUIDEは命令の精度を29.4%から60.4%に向上し,自然刺激の代替品や100万トークンのスーパーバイザード・ファイン・チューニングよりも優れていた。

Despite the remarkable success of Large Language Models (LLMs), they still exhibit a limited capability to align their outputs to the user instructions. In this work, we introduce a simple and effective method, which we name GUIDE, that mechanistically increases attention scores in instruction tokens. To support this operation, we present Influence, a novel metric that highlights how the user's instructions propagate through the transformer layers and impact the LLM output. Our results show that GUIDE improves the accuracy of following instructions 29.4 % to 60.4%, outperforming natural prompting alternatives and Supervised Fine-Tuning up to 1M tokens.
翻訳日:2024-11-06 05:00:47 公開日:2024-09-19
# LLMエージェントの戦略的衝突:マルチコモディティ競争における市場部門

Strategic Collusion of LLM Agents: Market Division in Multi-Commodity Competitions ( http://arxiv.org/abs/2410.00031v1 )

ライセンス: Link先を確認
Ryan Y. Lin, Siddhartha Ojha, Kevin Cai, Maxwell F. Chen, (参考訳) 機械学習技術は、現実世界の市場シナリオへの展開が増えている。 本研究では,多商品市場,特にCournot競合フレームワークにおいて,大規模言語モデル(LLM)が自律エージェントとして展開する際の戦略行動について検討する。 LLMが、共謀やより具体的には市場分割といった反競争的な実践を独立して行うことができるかどうかを検討する。 その結果, LLMは価格や資源配分戦略を動的に調整し, 直接の人的入力や明示的な協調命令を使わずに利益率を最大化することで, 特定の商品を効果的に独占することができることがわかった。 これらの結果は、AIを戦略的役割に統合したい企業や、公正で競争的な市場を維持するための規制機関にとって、ユニークな課題と機会をもたらす。 この研究は、LSMベースのエージェントに高い意思決定を延期する影響について、さらなる研究の基盤を提供する。

Machine-learning technologies are seeing increased deployment in real-world market scenarios. In this work, we explore the strategic behaviors of large language models (LLMs) when deployed as autonomous agents in multi-commodity markets, specifically within Cournot competition frameworks. We examine whether LLMs can independently engage in anti-competitive practices such as collusion or, more specifically, market division. Our findings demonstrate that LLMs can effectively monopolize specific commodities by dynamically adjusting their pricing and resource allocation strategies, thereby maximizing profitability without direct human input or explicit collusion commands. These results pose unique challenges and opportunities for businesses looking to integrate AI into strategic roles and for regulatory bodies tasked with maintaining fair and competitive markets. The study provides a foundation for further exploration into the ramifications of deferring high-stakes decisions to LLM-based agents.
翻訳日:2024-11-05 15:29:12 公開日:2024-09-19
# モダリティの欠如によるマルチモーダル感情認識のための検索強化手法の活用

Leveraging Retrieval Augment Approach for Multimodal Emotion Recognition Under Missing Modalities ( http://arxiv.org/abs/2410.02804v1 )

ライセンス: Link先を確認
Qi Fan, Hongyu Yuan, Haolin Zuo, Rui Liu, Guanglai Gao, (参考訳) マルチモーダル感情認識は、完全なマルチモーダル情報とロバストなマルチモーダル関節表現を利用して高い性能を得る。 しかし、完全なモダリティ整合性の理想的な条件は現実には適用されないことが多く、いくつかのモダリティが欠落している状況が常に現れる。 例えば、センサーの故障やネットワーク帯域幅の問題により、ビデオ、オーディオ、テキストデータが欠落しているため、MERの研究には大きな課題がある。 従来の手法では、完全なモダリティから有用な情報を抽出し、欠落したモダリティを再構築し、堅牢なマルチモーダルな関節表現を学習する。 これらの手法は、この分野の研究の確固たる基盤を築き、ある程度は、欠落したモダリティの下でのマルチモーダル感情認識の難しさを和らげている。 しかし、内部再構成とマルチモーダル・ジョイント・ラーニングにのみ依存することは、特に、欠落した情報が感情認識に不可欠である場合に、その限界がある。 この課題に対処するため,Multimodal Emotion Recognition (RAMER) の新たなフレームワークを提案する。 関連するマルチモーダル感情データを含むデータベースを活用することで、類似したマルチモーダル感情情報を検索して、欠落したモーダルによって残されたギャップを埋めることができる。 種々の実験結果から,本フレームワークは,MERタスクの欠落において,既存の最先端手法よりも優れていることが示された。 私たちのプロジェクトは、https://github.com/WooyoohL/Retrieval_Augment_MERで公開されています。

Multimodal emotion recognition utilizes complete multimodal information and robust multimodal joint representation to gain high performance. However, the ideal condition of full modality integrity is often not applicable in reality and there always appears the situation that some modalities are missing. For example, video, audio, or text data is missing due to sensor failure or network bandwidth problems, which presents a great challenge to MER research. Traditional methods extract useful information from the complete modalities and reconstruct the missing modalities to learn robust multimodal joint representation. These methods have laid a solid foundation for research in this field, and to a certain extent, alleviated the difficulty of multimodal emotion recognition under missing modalities. However, relying solely on internal reconstruction and multimodal joint learning has its limitations, especially when the missing information is critical for emotion recognition. To address this challenge, we propose a novel framework of Retrieval Augment for Missing Modality Multimodal Emotion Recognition (RAMER), which introduces similar multimodal emotion data to enhance the performance of emotion recognition under missing modalities. By leveraging databases, that contain related multimodal emotion data, we can retrieve similar multimodal emotion information to fill in the gaps left by missing modalities. Various experimental results demonstrate that our framework is superior to existing state-of-the-art approaches in missing modality MER tasks. Our whole project is publicly available on https://github.com/WooyoohL/Retrieval_Augment_MER.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-19
# 不確かさを意識した階層型ニューラルネットワークによる信頼インフォームド意思決定:COVID-19分類におけるケーススタディ

Trust-informed Decision-Making Through An Uncertainty-Aware Stacked Neural Networks Framework: Case Study in COVID-19 Classification ( http://arxiv.org/abs/2410.02805v1 )

ライセンス: Link先を確認
Hassan Gharoun, Mohammad Sadegh Khorshidi, Fang Chen, Amir H. Gandomi, (参考訳) 本研究は、放射線画像から新型コロナウイルスの信頼できる分類のための、不確実性を考慮した重畳ニューラルネットワークモデルを提案する。 モデルでは,不確実性を考慮したモデリングにおいて,信頼性の高い予測を正確に識別し,不確かで不確実な予測をユーザに警告することで,自動システムの信頼を高めることによって,重要なギャップに対処する。 このアーキテクチャはモンテカルロのドロップアウトやアンサンブル技術を含む不確実な定量化手法を統合し、診断予測の確実性を評価することによって予測信頼性を高める。 2層モデルフレームワーク内では、第1層モデルが初期予測と関連する不確実性を生成し、第2層モデルが診断結果と並行して信頼指標を生成する。 このデュアルアウトプットモデルは、新型コロナウイルスの患者を予測するだけでなく、信頼フラグも提供し、診断の信頼性を示し、再検査や専門家による検証の必要性を最小限にすることを目指している。 このアプローチの有効性は、CXR-4データセットの広範な実験を通じて実証され、確実な不正確な症例と不確実な症例を特定し、対処するための新しいアプローチを示し、臨床現場における自動診断の信頼性を高める。

This study presents an uncertainty-aware stacked neural networks model for the reliable classification of COVID-19 from radiological images. The model addresses the critical gap in uncertainty-aware modeling by focusing on accurately identifying confidently correct predictions while alerting users to confidently incorrect and uncertain predictions, which can promote trust in automated systems. The architecture integrates uncertainty quantification methods, including Monte Carlo dropout and ensemble techniques, to enhance predictive reliability by assessing the certainty of diagnostic predictions. Within a two-tier model framework, the tier one model generates initial predictions and associated uncertainties, which the second tier model uses to produce a trust indicator alongside the diagnostic outcome. This dual-output model not only predicts COVID-19 cases but also provides a trust flag, indicating the reliability of each diagnosis and aiming to minimize the need for retesting and expert verification. The effectiveness of this approach is demonstrated through extensive experiments on the COVIDx CXR-4 dataset, showing a novel approach in identifying and handling confidently incorrect cases and uncertain cases, thus enhancing the trustworthiness of automated diagnostics in clinical settings.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-19
# コンピュータビジョンの再現性に及ぼすランダム性の影響の検討:土木工学・医学への応用に関する研究

Investigating the Impact of Randomness on Reproducibility in Computer Vision: A Study on Applications in Civil Engineering and Medicine ( http://arxiv.org/abs/2410.02806v1 )

ライセンス: Link先を確認
Bahadır Eryılmaz, Osman Alperen Koraş, Jörg Schlötterer, Christin Seifert, (参考訳) 再現性は科学研究に不可欠である。 しかし、コンピュータビジョンでは、様々な要因から一貫した結果を達成することは困難である。 CUDAによって引き起こされる無作為性は、しばしば認識されない。 GPU上でのアルゴリズム実行を高速化するCUDAのアドバンテージは、制御されていないとしても、複数の実行にまたがる動作は決定論的ではない。 MLにおける再現性の問題が研究されているが、応用におけるCUDAによるランダム性の影響はまだ理解されていない。 本研究は,このランダム性を,孤立した環境下での1つの標準ベンチマークデータセットと2つの実世界のデータセットに焦点をあてる。 以上の結果から,CUDAによるランダム性は,パフォーマンススコアの最大4.77%の差を考慮できることがわかった。 再現性のためにこの変数を管理するには、実行時間の増加やパフォーマンスの低下が伴うが、以前の研究で報告されたようなデメリットはない。

Reproducibility is essential for scientific research. However, in computer vision, achieving consistent results is challenging due to various factors. One influential, yet often unrecognized, factor is CUDA-induced randomness. Despite CUDA's advantages for accelerating algorithm execution on GPUs, if not controlled, its behavior across multiple executions remains non-deterministic. While reproducibility issues in ML being researched, the implications of CUDA-induced randomness in application are yet to be understood. Our investigation focuses on this randomness across one standard benchmark dataset and two real-world datasets in an isolated environment. Our results show that CUDA-induced randomness can account for differences up to 4.77% in performance scores. We find that managing this variability for reproducibility may entail increased runtime or reduce performance, but that disadvantages are not as significant as reported in previous studies.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-19
# AutoPETIII: The Tracer Frontier. What Frontier?

AutoPETIII: The Tracer Frontier. What Frontier? ( http://arxiv.org/abs/2410.02807v1 )

ライセンス: Link先を確認
Zacharia Mesbah, Léo Mottay, Romain Modzelewski, Pierre Decazes, Sébastien Hapdey, Su Ruan, Sébastien Thureau, (参考訳) 過去3年間、AutoPETコンペティションは、Positron Emitting Tomography(PET)スキャンの病変セグメンテーションというホットな話題を中心に、医療画像コミュニティを集めてきた。 2024年、既存のトレーサと使用されているトレーサの重複が問題の中心であった。 特に、今年の版では、FDGまたはPSMAベースのトレーサであるトレーサを知らずにPET/CTスキャンで病変のセグメンテーションを実行することができる完全自動アルゴリズムを開発することを目的としている。 本稿では, nnUNetv2 フレームワークを用いて, 完全自動PET/CT病変分割と MIP-CNN を用いて, セグメンテーションに使用するモデルのセットを選択する方法について述べる。

For the last three years, the AutoPET competition gathered the medical imaging community around a hot topic: lesion segmentation on Positron Emitting Tomography (PET) scans. Each year a different aspect of the problem is presented; in 2024 the multiplicity of existing and used tracers was at the core of the challenge. Specifically, this year's edition aims to develop a fully automatic algorithm capable of performing lesion segmentation on a PET/CT scan, without knowing the tracer, which can either be a FDG or PSMA-based tracer. In this paper we describe how we used the nnUNetv2 framework to train two sets of 6 fold ensembles of models to perform fully automatic PET/CT lesion segmentation as well as a MIP-CNN to choose which set of models to use for segmentation.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-19
# KLDD:カルマンフィルタを用いた網膜画像分割における線形変形性拡散モデル

KLDD: Kalman Filter based Linear Deformable Diffusion Model in Retinal Image Segmentation ( http://arxiv.org/abs/2410.02808v1 )

ライセンス: Link先を確認
Zhihao Zhao, Yinzheng Zhao, Junjie Yang, Kai Huang, Nassir Navab, M. Ali Nasseri, (参考訳) AIに基づく血管セグメンテーションは、眼疾患のスクリーニングと治療の強化において、ますます一般的になりつつある。 U-Netに基づくディープラーニング構造は,血管セグメンテーションにおいて比較的優れた性能を発揮する。 しかしながら、小さな血管と毛細血管は、従来のU-Netダウンサンプリングモジュールを通過すると、セグメンテーション中に失われる傾向にある。 そこで本研究では,網膜血管分割のためのKLDDモデルを提案する。 本モデルでは, 細管状血管構造に適応するために, 変形可能なコンボリューションの柔軟な受容場を利用して, セグメンテーションを反復的に洗練する拡散過程を用いる。 具体的には、まず、線形変形可能な畳み込みを有する特徴抽出器を用いて、入力画像の血管構造情報をキャプチャする。 変形可能な畳み込みの座標位置を最適化するために,線形変形可能な畳み込みにおける血管構造の知覚を高めるためにカルマンフィルタを用いる。 その後、CSAM(Channel-wise Soft Attention Module)およびCAAM(Channel-wise Soft Attention Module)により、血管構造の特徴を拡散モデル内の条件付け要素として利用する。 これらのアグリゲーションは、血管構造を生成する拡散モデルの能力を高めるように設計されている。 眼底画像データセット(DRIVE,CHASE_DB1)とOCTA-500データセットの3mmおよび6mmで実験を行い,本論文で提案した拡散モデルが他の手法よりも優れていることを示した。

AI-based vascular segmentation is becoming increasingly common in enhancing the screening and treatment of ophthalmic diseases. Deep learning structures based on U-Net have achieved relatively good performance in vascular segmentation. However, small blood vessels and capillaries tend to be lost during segmentation when passed through the traditional U-Net downsampling module. To address this gap, this paper proposes a novel Kalman filter based Linear Deformable Diffusion (KLDD) model for retinal vessel segmentation. Our model employs a diffusion process that iteratively refines the segmentation, leveraging the flexible receptive fields of deformable convolutions in feature extraction modules to adapt to the detailed tubular vascular structures. More specifically, we first employ a feature extractor with linear deformable convolution to capture vascular structure information form the input images. To better optimize the coordinate positions of deformable convolution, we employ the Kalman filter to enhance the perception of vascular structures in linear deformable convolution. Subsequently, the features of the vascular structures extracted are utilized as a conditioning element within a diffusion model by the Cross-Attention Aggregation module (CAAM) and the Channel-wise Soft Attention module (CSAM). These aggregations are designed to enhance the diffusion model's capability to generate vascular structures. Experiments are evaluated on retinal fundus image datasets (DRIVE, CHASE_DB1) as well as the 3mm and 6mm of the OCTA-500 dataset, and the results show that the diffusion model proposed in this paper outperforms other methods.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-19
# TREBLE:グローバルに分散したステークホルダーのアクティブなソフトウェアエコシステムにおける平衡の作成による高速ソフトウェア更新

TREBLE: Fast Software Updates by Creating an Equilibrium in an Active Software Ecosystem of Globally Distributed Stakeholders ( http://arxiv.org/abs/2410.02809v1 )

ライセンス: Link先を確認
Keun Soo Yim, Iliyan Malchev, Andrew Hsieh, Dave Burke, (参考訳) 本稿では,Linuxカーネル上で動作するJavaベースのモバイルプラットフォームであるAndroidでモジュールベースを構築するための2年間のイニシアティブであるTREBLEについて紹介する。 私たちのTREBLEアーキテクチャは、Javaで書かれたハードウェア独立コアフレームワークと、ハードウェア依存のベンダー実装(例えば、ユーザ空間デバイスドライバ、ベンダーネイティブライブラリ、C/C++で書かれたカーネル)を分離します。 層間通信は、2つのAPIコンプライアンススイートを使用して下位互換性をテストする、バージョン管理された安定したプロセス間通信インターフェースを介して行われる。 このアーキテクチャに基づいて、ローンチ後の重要なセキュリティバグに悩まされた主要なAndroidソフトウェアコンポーネントを、別のイメージとして再パッケージします。 これにより、個別のオーナシップだけでなく、関心のあるエコシステムエンティティによる各イメージの独立アップデートが可能になる。 我々は,年次リリースモデルを用いて,TREBLEアーキテクチャの変更をシリコンベンダやデバイスメーカに提供した経験について論じる。 私たちの実験と業界展開は、すべてのエコシステムエンティティにより多くの自由を与え、均衡を生み出すことは、20億以上のアクティブなデバイスで世界最大規模のオープンエコシステムをさらに拡大するために必要な変革である、という私たちの仮説を支持します。

This paper presents our experience with TREBLE, a two-year initiative to build the modular base in Android, a Java-based mobile platform running on the Linux kernel. Our TREBLE architecture splits the hardware independent core framework written in Java from the hardware dependent vendor implementations (e.g., user space device drivers, vendor native libraries, and kernel written in C/C++). Cross-layer communications between them are done via versioned, stable inter-process communication interfaces whose backward compatibility is tested by using two API compliance suites. Based on this architecture, we repackage the key Android software components that suffered from crucial post-launch security bugs as separate images. That not only enables separate ownerships but also independent updates of each image by interested ecosystem entities. We discuss our experience of delivering TREBLE architectural changes to silicon vendors and device makers using a yearly release model. Our experiments and industry rollouts support our hypothesis that giving more freedom to all ecosystem entities and creating an equilibrium are a transformation necessary to further scale the world largest open ecosystem with over two billion active devices.
翻訳日:2024-11-03 05:44:23 公開日:2024-09-19
# ニューラルネットワークを用いた味覚脳波チャンネル選択による食味感覚評価の最適化

Optimizing food taste sensory evaluation through neural network-based taste electroencephalogram channel selection ( http://arxiv.org/abs/2410.03559v1 )

ライセンス: Link先を確認
Xiuxin Xia, Qun Wang, He Wang, Chenrui Liu, Pengwei Li, Yan Shi, Hong Men, (参考訳) 味覚刺激によって誘発される味覚脳波(EEG)は、異なる脳パターンを反映し、食品の感覚評価などの用途に使用できる。 しかし、計算コストと効率を考慮すると、多くのチャネルを持つ脳波データは、チャネル選択の重要な問題に直面しなければならない。 本稿では,注意を伴うクラスアクティベーションマッピング (CAM-Attention) と呼ばれるチャネル選択手法を提案する。 CAM-Attention法は、畳み込みニューラルネットワークとチャネルおよび空間的注意(CNN-CSA)モデルと勾配重み付きクラスアクティベーションマッピング(Grad-CAM)モデルを組み合わせた。 CNN-CSAモデルは注意機構によって脳波データの重要な特徴を利用しており、Grad-CAMモデルは特徴領域の可視化を効果的に実現した。 そして,特徴領域に基づいたチャネル選択を効果的に実施した。 最後に, CAM-Attention法により味覚脳波認識の計算負担を低減し, 4つの味を効果的に評価した。 要するに、優れた認識性能を有し、味覚評価に有効な技術サポートを提供する。

The taste electroencephalogram (EEG) evoked by the taste stimulation can reflect different brain patterns and be used in applications such as sensory evaluation of food. However, considering the computational cost and efficiency, EEG data with many channels has to face the critical issue of channel selection. This paper proposed a channel selection method called class activation mapping with attention (CAM-Attention). The CAM-Attention method combined a convolutional neural network with channel and spatial attention (CNN-CSA) model with a gradient-weighted class activation mapping (Grad-CAM) model. The CNN-CSA model exploited key features in EEG data by attention mechanism, and the Grad-CAM model effectively realized the visualization of feature regions. Then, channel selection was effectively implemented based on feature regions. Finally, the CAM-Attention method reduced the computational burden of taste EEG recognition and effectively distinguished the four tastes. In short, it has excellent recognition performance and provides effective technical support for taste sensory evaluation.
翻訳日:2024-11-02 21:29:56 公開日:2024-09-19
# 相互接続型データセットによる探索--ICASSP論文からの教訓

A quest through interconnected datasets: lessons from highly-cited ICASSP papers ( http://arxiv.org/abs/2410.03676v1 )

ライセンス: Link先を確認
Cynthia C. S. Liem, Doğa Taşcılar, Andrew M. Demetriou, (参考訳) 音声機械学習の結果は社会的に影響力のあるアプリケーションに展開されるため、使用するデータの質や起源を把握できることが重要である。 応用機械学習分野の学術出版において、この意味を明示することは自明な報奨ではなく、典型的な機械学習カリキュラムには含まれていないことに気付き、ICASSP(International Conference on Acoustics, Speech and Signal Processing)において、トップ5に引用された論文に関連するデータセットの使用状況について研究する。 この論文では、使用済みデータセットの起源を徹底的に分析し、しばしば公式論文で報告されたものを超える検索を行ない、不明瞭または絡み合った起源に終止符を打つ。 特に、より大きく、おそらく生成可能なAIモデルへの現在のプルでは、データ証明に対する説明責任の必要性に対する認識が高まっている。 これによって私たちは,より大きなモデルをエンジニアリングするだけでなく,そのようなモデルを構築するべき基盤を明確にするための余地と報酬を,コミュニティに求めます。

As audio machine learning outcomes are deployed in societally impactful applications, it is important to have a sense of the quality and origins of the data used. Noticing that being explicit about this sense is not trivially rewarded in academic publishing in applied machine learning domains, and neither is included in typical applied machine learning curricula, we present a study into dataset usage connected to the top-5 cited papers at the International Conference on Acoustics, Speech, and Signal Processing (ICASSP). In this, we conduct thorough depth-first analyses towards origins of used datasets, often leading to searches that had to go beyond what was reported in official papers, and ending into unclear or entangled origins. Especially in the current pull towards larger, and possibly generative AI models, awareness of the need for accountability on data provenance is increasing. With this, we call on the community to not only focus on engineering larger models, but create more room and reward for explicitizing the foundations on which such models should be built.
翻訳日:2024-11-02 20:48:16 公開日:2024-09-19
# Smirk:分子基盤モデルのための原子的に完全なトケナイザ

Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models ( http://arxiv.org/abs/2409.15370v1 )

ライセンス: Link先を確認
Alexius Wadell, Anoushka Bhutani, Venkatasubramanian Viswanathan, (参考訳) 分子ファンデーションモデルは、分子設計、物質科学、化学情報学を加速する強力なツールとして登場し、トランスフォーマーアーキテクチャを活用して、新しい物質や薬物の発見をスピードアップし、従来のアブイニシアト法の計算コストを削減している。 しかし、現在のモデルは、分子構造の完全な多様性を捉えるのに失敗する閉語彙トークン化器によって制限されている。 本研究では, SMILES言語を対象とする13種のケミカル特異的なトークン化剤を系統的に評価し, 実質的なギャップを明らかにした。 N-gram言語モデルを用いて、トークン化選択がモデル性能に与える影響にアクセスし、未知のトークンの情報損失を定量化した。 I>smirk</i>と<i>smirk-gpe</i>の2つの新しいトークン化ツールを導入し,既存のトークン化ツールの落とし穴を回避しつつOpenSMILES仕様の全体を表現する。 本研究は,分子基盤モデルにおけるオープンボキャブラリモデリングの重要性と,ケミノフォマティクスのための化学的に多様なベンチマークの必要性を強調した。

Molecular Foundation Models are emerging as powerful tools for accelerating molecular design, material science, and cheminformatics, leveraging transformer architectures to speed up the discovery of new materials and drugs while reducing the computational cost of traditional ab initio methods. However, current models are constrained by closed-vocabulary tokenizers that fail to capture the full diversity of molecular structures. In this work, we systematically evaluate thirteen chemistry-specific tokenizers for their coverage of the SMILES language, uncovering substantial gaps. Using N-gram language models, we accessed the impact of tokenizer choice on model performance and quantified the information loss of unknown tokens. We introduce two new tokenizers, <i>smirk</i> and <i>smirk-gpe</i>, which can represent the entirety of the OpenSMILES specification while avoiding the pitfalls of existing tokenizers. Our work highlights the importance of open-vocabulary modeling for molecular foundation models and the need for chemically diverse benchmarks for cheminformatics.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-19
# 大規模言語モデルのためのパラメータ効率的な微調整法としてのボーンブロックアフィン変換

Bone: Block Affine Transformation as Parameter Efficient Fine-tuning Methods for Large Language Models ( http://arxiv.org/abs/2409.15371v1 )

ライセンス: Link先を確認
Jiale Kang, (参考訳) LLM(Large Language Models)のサイズが大きくなるにつれて、その計算量とメモリの要求量は増加する。 その結果,低コストで効率的な微調整手法の探索がますます重要になっている。 Low-Rank Adaptation (LoRA) は、オリジナルの重量を凍結し、低ランク行列のみを訓練することで、優れたトレーニング結果を得た。 フルパラメータトレーニングに近いパフォーマンスを追求するために、LoRA+、PISSA、Oora、LoRA-GAといった一連のLoRA派生型が登場した。 しかし、これらの手法により、微調整初期化プロセスがより複雑になり、完全微調整の性能天井を越えることは依然として困難である。 このような問題に対処するために,メモリオーバーヘッドを低減させるだけでなく,重み間の内部接続を強調し,より高速な収束とデータ整合性を実現する,Bone (Block Affine) と呼ばれる革新的な手法を提案する。 2つの異なるLLMアーキテクチャ (LLaMA2, RWKV6) と様々なパラメータスケールの比較により、骨構造が複雑な初期化を必要とせず、迅速に収束し、優れたデータフィッティングを実現できることを示した。 例えば、MetaMathQAデータセット上でLLaMA2-7Bを微調整し、GSM8kと数学ベンチマークで検証すると、ボーンはそれぞれ49.36と8.8の微調整スコアを達成し、PISSAの5.84\%と1.96\%を上回った。

As Large Language Models (LLMs) continue to grow in size, their computational and memory requirements increase correspondingly. Consequently, the exploration of cost-effective and efficient fine-tuning methods has become increasingly important. Low-Rank Adaptation (LoRA) has achieved remarkable training results by freezing the original weights and training only low-rank matrices, establishing itself as the predominant fine-tuning method for LLMs. In pursuit of performance closer to full-parameter training, a series of LoRA variants have emerged, such as LoRA+, PISSA, Olora, and LoRA-GA. However, these methods also make the fine-tuning initialization process more complex, and it remains challenging to surpass the performance ceiling of full fine-tuning. To address these issues, this paper introduces an innovative method called Bone (Block Affine), which not only reduces memory overhead but also emphasizes the internal connections between weights, leading to faster convergence and better data fitting. Experimental comparisons across two different LLM architectures (LLaMA2, RWKV6) and various parameter scales demonstrate that the Bone structure can achieve rapid convergence and superior data fitting without the need for complex initialization. For example, when fine-tuning LLaMA2-7B on the MetaMathQA dataset and validating on GSM8k and math benchmarks, Bone achieved fine-tuning scores of 49.36 and 8.8, respectively, outperforming PISSA by 5.84\% and 1.96\%.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-19
# 複合イベント処理を用いたファジィ規則に基づくインテリジェント心血管疾患予測

Fuzzy Rule based Intelligent Cardiovascular Disease Prediction using Complex Event Processing ( http://arxiv.org/abs/2409.15372v1 )

ライセンス: Link先を確認
Shashi Shekhar Kumar, Anurag Harsh, Ritesh Chandra, Sonali Agarwal, (参考訳) 心血管疾患 (CVD) は、不健康な食事、身体活動の欠如、その他の要因により、急速に世界的な懸念が高まっている。 世界保健機関(WHO)によると、主なリスク要因は血圧上昇、グルコース、血液脂質、肥満である。 最近の研究は、リスクと死亡率を減らすための正確でタイムリーな病気予測に焦点を当てており、多くの場合、集中的なトレーニングを必要とする大規模なデータセットでトレーニングされた予測モデルに依存している。 CVD患者のためのインテリジェントなシステムは、健康パラメータを効果的に分析することで、情報的な意思決定を大いに支援することができる。 複雑なイベント処理(CEP)は、関心のパターンとその原因と影響をエンドユーザに集約することで、リアルタイムの課題を解決するための貴重な方法として登場した。 本研究では,臨床データを監視するファジィルールに基づくファジィシステムを提案する。 臨床およびWHOの基準に基づいてファジィルールを設計し,正確な予測を行った。 データストリーミングにはApache KafkaとSparkを使用し、イベント処理にはSiddhi CEPエンジンを使用します。 さらに, 循環器疾患関連パラメータをCEPエンジンに導入し, 迅速かつ信頼性の高い予測決定を確実にする。 本手法の有効性を検証するため,心臓血管疾患の予測のために,リアルタイムで見えないデータをシミュレートした。 合成データ(1000サンプル)を用いて「非常に低いリスク、低いリスク、中リスク、高いリスク、非常に高いリスク」に分類した。 検証の結果、試料の20%が非常に低いリスク、15-45%が低いリスク、35-65%が中リスク、55-85%が高いリスク、75%が非常に高いリスクに分類された。

Cardiovascular disease (CVDs) is a rapidly rising global concern due to unhealthy diets, lack of physical activity, and other factors. According to the World Health Organization (WHO), primary risk factors include elevated blood pressure, glucose, blood lipids, and obesity. Recent research has focused on accurate and timely disease prediction to reduce risk and fatalities, often relying on predictive models trained on large datasets, which require intensive training. An intelligent system for CVDs patients could greatly assist in making informed decisions by effectively analyzing health parameters. Complex Event Processing (CEP) has emerged as a valuable method for solving real-time challenges by aggregating patterns of interest and their causes and effects on end users. In this work, we propose a fuzzy rule-based system for monitoring clinical data to provide real-time decision support. We designed fuzzy rules based on clinical and WHO standards to ensure accurate predictions. Our integrated approach uses Apache Kafka and Spark for data streaming, and the Siddhi CEP engine for event processing. Additionally, we pass numerous cardiovascular disease-related parameters through CEP engines to ensure fast and reliable prediction decisions. To validate the effectiveness of our approach, we simulated real-time, unseen data to predict cardiovascular disease. Using synthetic data (1000 samples), we categorized it into "Very Low Risk, Low Risk, Medium Risk, High Risk, and Very High Risk." Validation results showed that 20% of samples were categorized as very low risk, 15-45% as low risk, 35-65% as medium risk, 55-85% as high risk, and 75% as very high risk.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-19
# フラッシュアテンションを付加した大規模レコメンデーションシステムの性能とスケーラビリティ向上

Enhancing Performance and Scalability of Large-Scale Recommendation Systems with Jagged Flash Attention ( http://arxiv.org/abs/2409.15373v1 )

ライセンス: Link先を確認
Rengan Xu, Junjie Yang, Yifan Xu, Hong Li, Xing Liu, Devashish Shankar, Haoci Zhang, Meng Liu, Boyang Li, Yuxi Hu, Mingwei Tang, Zehua Zhang, Tunhou Zhang, Dai Li, Sijia Chen, Gian-Paolo Musumeci, Jiaqi Zhai, Bill Zhu, Hong Yan, Srihari Reddy, (参考訳) ハードウェアアクセラレータの統合は、近代的なレコメンデーションシステムの能力を大幅に向上させ、以前は非現実的と考えられていた複雑なランキングパラダイムの探索を可能にした。 しかし、GPUベースの計算コストには大きな課題がある。 本稿では,従来のPyTorchモジュールへの依存を超えて,これらのパラダイムを探索する効率駆動型アプローチの開発を実証する。 我々は,GPU利用の複雑化と長さの異なる分類的特徴への依存度をモデルにランク付けすることで生じる,特定の課題に対処する。 Jagged Feature Interaction Kernelsは、動的サイズのテンソルの効率的なハンドリングを通じて、長いカテゴリの特徴からきめ細かな洞察を抽出する新しい手法である。 我々は、Jagged tensor と Flash Attention を統合することにより、アテンション機構の性能をさらに向上する。 我々の小説『Jagged Flash Attention』は、注目度と比較して最大9倍のスピードアップと22倍のメモリ削減を実現している。 また、フラッシュの注目度も高く、最大3倍のスピードアップと53%のメモリ効率を実現しています。 プロダクションモデルでは、10%のQPS改善と18%のメモリ節約を観察し、より長い機能とより複雑なアーキテクチャでレコメンデーションシステムをスケールできます。

The integration of hardware accelerators has significantly advanced the capabilities of modern recommendation systems, enabling the exploration of complex ranking paradigms previously deemed impractical. However, the GPU-based computational costs present substantial challenges. In this paper, we demonstrate our development of an efficiency-driven approach to explore these paradigms, moving beyond traditional reliance on native PyTorch modules. We address the specific challenges posed by ranking models' dependence on categorical features, which vary in length and complicate GPU utilization. We introduce Jagged Feature Interaction Kernels, a novel method designed to extract fine-grained insights from long categorical features through efficient handling of dynamically sized tensors. We further enhance the performance of attention mechanisms by integrating Jagged tensors with Flash Attention. Our novel Jagged Flash Attention achieves up to 9x speedup and 22x memory reduction compared to dense attention. Notably, it also outperforms dense flash attention, with up to 3x speedup and 53% more memory efficiency. In production models, we observe 10% QPS improvement and 18% memory savings, enabling us to scale our recommendation systems with longer features and more complex architectures.
翻訳日:2024-09-26 13:30:54 公開日:2024-09-19
# 自閉症診断のための説明可能なAI:fMRIデータを用いた臨界脳領域の同定

Explainable AI for Autism Diagnosis: Identifying Critical Brain Regions Using fMRI Data ( http://arxiv.org/abs/2409.15374v1 )

ライセンス: Link先を確認
Suryansh Vidya, Kush Gupta, Amir Aly, Andy Wills, Emmanuel Ifeachor, Rohit Shankar, (参考訳) 自閉症スペクトラム障害(ASD)の早期診断と介入は、自閉症者の生活の質を著しく改善することが示されている。 しかし, ASDの診断法は, 偏りが強く早期診断に到達し難い臨床診断に基づく評価に頼っている。 ASDの客観的バイオマーカーは診断精度の向上に役立つ。 深層学習(DL)は,医療画像データから疾患や病態を診断する上で,優れた成果を上げている。 静止状態機能型磁気共鳴イメージング(fMRI)データを用いてASDを分類するモデルの作成について、広範囲にわたる研究がなされている。 しかし、既存のモデルは解釈性に欠ける。 本研究の目的は, ASD の精度と解釈性を向上させることであり, ASD を正確に分類できるだけでなく,その動作に関する説明可能な洞察を提供する DL モデルを作成することである。 使用されるデータセットは、Autism Brain Imaging Data Exchange (ABIDE)の事前処理されたバージョンで、884のサンプルがある。 以上の結果から, ASDの早期診断と神経基盤の理解に影響を及ぼす可能性が示唆された, ASDと典型的なコントロールの異なる重要な脳領域を正確に分類できるモデルが示唆された。 これらの結果は、異なるデータセットとモダリティを使用する文献の研究によって検証され、モデルがデータセットだけでなく、実際にASDの特徴を学んだことが確認された。 本研究は、堅牢で解釈可能なモデルを提供することにより、医用画像における説明可能なAIの分野を前進させ、客観的かつ信頼性の高いASD診断に寄与する。

Early diagnosis and intervention for Autism Spectrum Disorder (ASD) has been shown to significantly improve the quality of life of autistic individuals. However, diagnostics methods for ASD rely on assessments based on clinical presentation that are prone to bias and can be challenging to arrive at an early diagnosis. There is a need for objective biomarkers of ASD which can help improve diagnostic accuracy. Deep learning (DL) has achieved outstanding performance in diagnosing diseases and conditions from medical imaging data. Extensive research has been conducted on creating models that classify ASD using resting-state functional Magnetic Resonance Imaging (fMRI) data. However, existing models lack interpretability. This research aims to improve the accuracy and interpretability of ASD diagnosis by creating a DL model that can not only accurately classify ASD but also provide explainable insights into its working. The dataset used is a preprocessed version of the Autism Brain Imaging Data Exchange (ABIDE) with 884 samples. Our findings show a model that can accurately classify ASD and highlight critical brain regions differing between ASD and typical controls, with potential implications for early diagnosis and understanding of the neural basis of ASD. These findings are validated by studies in the literature that use different datasets and modalities, confirming that the model actually learned characteristics of ASD and not just the dataset. This study advances the field of explainable AI in medical imaging by providing a robust and interpretable model, thereby contributing to a future with objective and reliable ASD diagnostics.
翻訳日:2024-09-26 13:20:55 公開日:2024-09-19
# NN-Copula-CD:異種リモートセンシング画像における変化検出のためのコプラ誘導型解釈型ニューラルネットワーク

NN-Copula-CD: A Copula-Guided Interpretable Neural Network for Change Detection in Heterogeneous Remote Sensing Images ( http://arxiv.org/abs/2303.17448v3 )

ライセンス: Link先を確認
Weiming Li, Xueqian Wang, Gang Li, Baocheng Geng, Pramod K. Varshney, (参考訳) 異種リモートセンシング画像における変化検出(CD)は,災害監視や土地利用管理に広く利用されている。 過去10年間で、ヘテロジニアスCD問題はディープニューラルネットワーク(DNN)の開発から大きな恩恵を受けている。 しかし、純粋なデータ駆動型DNNは、ほとんどの実用的なCDアプリケーションにおいて、解釈可能性の欠如がDNNの信頼性と制御性を制限するブラックボックスのように機能する。 強力な知識駆動ツールとして、コプラ理論は確率変数間の関係をモデル化する上でうまく機能する。 既存のCD用ニューラルネットワークの解釈可能性を高めるため,NN-Copula-CDと呼ばれるコプラ誘導型ニューラルネットワークに基づく知識データ駆動型異種CD手法を提案する。 NN-Copula-CDでは、コプラの数学的特徴を損失関数として用いて、ニューラルネットワークを監督し、両時間的ヘテロジニアスなスーパーピクセル対間の依存を学習し、両時間的画像中のすべてのスーパーピクセル対の依存度に基づいて、変化領域を二分分類により同定する。 我々は, NN-Copula-CD法の有効性を定量的および視覚的に示すため, 異種画像を用いた3つのデータセットの詳細な実験を行った。

Change detection (CD) in heterogeneous remote sensing images has been widely used for disaster monitoring and land-use management. In the past decade, the heterogeneous CD problem has significantly benefited from the development of deep neural networks (DNNs). However, the purely data-driven DNNs perform like a black box where the lack of interpretability limits the trustworthiness and controllability of DNNs in most practical CD applications. As a powerful knowledge-driven tool, copula theory performs well in modeling relationships among random variables. To enhance the interpretability of existing neural networks for CD, we propose a knowledge-data-driven heterogeneous CD method based on a copula-guided neural network, named NN-Copula-CD. In our NN-Copula-CD, the mathematical characteristics of copula are employed as the loss functions to supervise a neural network to learn the dependence between bi-temporal heterogeneous superpixel pairs, and then the changed regions are identified via binary classification based on the degrees of dependence of all the superpixel pairs in the bi-temporal images. We conduct in-depth experiments on three datasets with heterogeneous images, where both quantitative and visual results demonstrate the effectiveness of our proposed NN-Copula-CD method.
翻訳日:2024-09-20 13:36:42 公開日:2024-09-19
# 回路QEDにおける非相互分散モデルのためのツールボックス

Toolbox for nonreciprocal dispersive models in circuit QED ( http://arxiv.org/abs/2312.08354v4 )

ライセンス: Link先を確認
Lautaro Labarca, Othmane Benhayoune-Khadraoui, Alexandre Blais, Adrian Parra-Rodriguez, (参考訳) 本稿では, カプラを特徴付け, 有効結合パラメータと減衰率を用いて, 一般散逸のない非相反線形系と結合した弱非調和超伝導回路を記述するために, 効果的分散型リンドブラッドマスター方程式を構築するための体系的手法を提案する。 本稿では, インピーダンス応答によって記述された線形相互結合子に対する Solgun et al (2019) の基礎的作業を拡張する。 特に、既存のツールボックスを拡張して、非相互要素を組み込むとともに、送信ポート間の直接の格子結合を考慮し、潜在的な特異点を回避し、外部の共通環境との相互作用から生じる集合的な散逸効果を含める。 本研究は, マルチポート非相反環境と消散ポートに結合した弱非調和ジョセフソン接合回路を用いて, 実験結果について述べる。 ここで得られた結果は、量子情報の非自明なルーティングを持つ複雑な超伝導量子プロセッサの設計や、凝縮物質系のアナログ量子シミュレータの設計に利用できる。

We provide a systematic method for constructing effective dispersive Lindblad master equations to describe weakly anharmonic superconducting circuits coupled by a generic dissipationless nonreciprocal linear system, with effective coupling parameters and decay rates written in terms of the immittance parameters characterizing the coupler. This article extends the foundational work of Solgun et al. (2019) for linear reciprocal couplers described by an impedance response. Notably, we expand the existing toolbox to incorporate nonreciprocal elements, account for direct stray coupling between immittance ports, circumvent potential singularities, and include collective dissipative effects that arise from interactions with external common environments. We illustrate the use of our results with a circuit of weakly anharmonic Josephson junctions coupled to a multiport nonreciprocal environment and a dissipative port. The results obtained here can be used for the design of complex superconducting quantum processors with nontrivial routing of quantum information, as well as analog quantum simulators of condensed matter systems.
翻訳日:2024-09-20 13:36:42 公開日:2024-09-19
# ロボット制御のためのタスクとドメイン適応強化学習

Task and Domain Adaptive Reinforcement Learning for Robot Control ( http://arxiv.org/abs/2404.18713v3 )

ライセンス: Link先を確認
Yu Tang Liu, Nilaksh Singh, Aamir Ahmad, (参考訳) 深部強化学習(DRL)はシミュレーション領域において顕著な成功を収めてきたが、単一タスクの向きと環境変化への適応性が不十分なため、ロボットコントローラの設計への応用は依然として限られている。 これらの制約を克服するために,異なるタスクや環境条件に応じて動的にポリシーを適応させるために,トランスファーラーニング技術を活用する新しい適応エージェントを提案する。 この手法は、マルチタスク能力と環境適応性が不可欠であるブランプ制御の課題を通じて検証される。 このエージェントはIsaacGym上に作られたカスタムで高度に並列化されたシミュレータを使って訓練されている。 実世界において、さまざまな課題を解くために、飛行飛行のためにゼロショット転送を行う。 私たちはコードをhttps://github.com/robot-perception-group/adaptive_agent.orgで共有しています。

Deep reinforcement learning (DRL) has shown remarkable success in simulation domains, yet its application in designing robot controllers remains limited, due to its single-task orientation and insufficient adaptability to environmental changes. To overcome these limitations, we present a novel adaptive agent that leverages transfer learning techniques to dynamically adapt policy in response to different tasks and environmental conditions. The approach is validated through the blimp control challenge, where multitasking capabilities and environmental adaptability are essential. The agent is trained using a custom, highly parallelized simulator built on IsaacGym. We perform zero-shot transfer to fly the blimp in the real world to solve various tasks. We share our code at https://github.com/robot-perception-group/adaptive_agent.
翻訳日:2024-09-20 13:36:42 公開日:2024-09-19
# LaMamba-Diff:局所的注意とマンバに基づく線形時間高忠実拡散モデル

LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba ( http://arxiv.org/abs/2408.02615v3 )

ライセンス: Link先を確認
Yunxiang Fu, Chaoqi Chen, Yizhou Yu, (参考訳) 最近のTransformerベースの拡散モデルでは、入力トークン間の全対相互作用を計算することによって、グローバルおよびローカル両方のコンテキストを正確にキャプチャする自己認識機構の能力に起因して、顕著な性能を示している。 しかし、その二次的な複雑性は、長い列の入力に対して重大な計算上の問題を引き起こす。 逆に、Mambaと呼ばれる最近の状態空間モデルは、フィルターされたグローバルコンテキストを隠された状態に圧縮することで線形複雑性を提供する。 その効率性にもかかわらず、圧縮は必然的にトークン間のきめ細かい局所的依存関係の情報を失う。 これらの観測により, 自己意識とマンバの強みを組み合わせた局所意図的マンバ(LaMamba)ブロックを導入し, グローバルな文脈と局所的詳細の両方を線形複雑に捉えた。 効率的なU-Netアーキテクチャを活用することで、我々のモデルは優れたスケーラビリティを示し、256x256の解像度でImageNet上の様々なモデルスケールでDiTの性能を上回ります。 ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% の GFLOP を DiT-XL/2 と比較して減少させるなど,優れた性能を達成できるという大きな利点がある。 私たちのコードはhttps://github.com/yunxiangfu2001/LaMamba-Diff.comで公開されています。

Recent Transformer-based diffusion models have shown remarkable performance, largely attributed to the ability of the self-attention mechanism to accurately capture both global and local contexts by computing all-pair interactions among input tokens. However, their quadratic complexity poses significant computational challenges for long-sequence inputs. Conversely, a recent state space model called Mamba offers linear complexity by compressing a filtered global context into a hidden state. Despite its efficiency, compression inevitably leads to information loss of fine-grained local dependencies among tokens, which are crucial for effective visual generative modeling. Motivated by these observations, we introduce Local Attentional Mamba (LaMamba) blocks that combine the strengths of self-attention and Mamba, capturing both global contexts and local details with linear complexity. Leveraging the efficient U-Net architecture, our model exhibits exceptional scalability and surpasses the performance of DiT across various model scales on ImageNet at 256x256 resolution, all while utilizing substantially fewer GFLOPs and a comparable number of parameters. Compared to state-of-the-art diffusion models on ImageNet 256x256 and 512x512, our largest model presents notable advantages, such as a reduction of up to 62% GFLOPs compared to DiT-XL/2, while achieving superior performance with comparable or fewer parameters. Our code is available at https://github.com/yunxiangfu2001/LaMamba-Diff.
翻訳日:2024-09-20 13:36:42 公開日:2024-09-19
# 合理化モデルの説明ロバスト性に対する逆攻撃

Adversarial Attack for Explanation Robustness of Rationalization Models ( http://arxiv.org/abs/2408.10795v3 )

ライセンス: Link先を確認
Yuankai Zhang, Lingxiao Kong, Haozhao Wang, Ruixuan Li, Jun Wang, Yuhua Li, Wei Liu, (参考訳) 入力テキストのサブセットを人間による予測の理解と信頼の合理化として選択する合理化モデルは、最近、eXplainable Artificial Intelligenceにおいて顕著な研究領域として登場した。 しかし、これまでの研究の大部分は、その強固さを悪質な攻撃に無視して、理論の質の向上に重点を置いていた。 具体的には, 合理的化モデルが相変わらず, 敵攻撃下で高品質な合理性を生み出すか否かが不明である。 そこで本研究では,これらのモデルに対する不信感を人から引き出すことなく,合理的化モデルの説明性を損なうことを目的としたUAT2Eを提案する。 UAT2Eはトリガーに勾配に基づくサーチを採用し、元の入力に挿入して非ターゲット攻撃とターゲット攻撃の両方を実行する。 5つのデータセットの実験結果は、説明の観点から合理化モデルの脆弱性を明らかにし、攻撃下でより意味のないトークンを選択する傾向がある。 これに基づいて、説明の観点から合理化モデルを改善するための一連の勧告を行う。

Rationalization models, which select a subset of input text as rationale-crucial for humans to understand and trust predictions-have recently emerged as a prominent research area in eXplainable Artificial Intelligence. However, most of previous studies mainly focus on improving the quality of the rationale, ignoring its robustness to malicious attack. Specifically, whether the rationalization models can still generate high-quality rationale under the adversarial attack remains unknown. To explore this, this paper proposes UAT2E, which aims to undermine the explainability of rationalization models without altering their predictions, thereby eliciting distrust in these models from human users. UAT2E employs the gradient-based search on triggers and then inserts them into the original input to conduct both the non-target and target attack. Experimental results on five datasets reveal the vulnerability of rationalization models in terms of explanation, where they tend to select more meaningless tokens under attacks. Based on this, we make a series of recommendations for improving rationalization models in terms of explanation.
翻訳日:2024-09-20 13:36:42 公開日:2024-09-19
# MMEvol: Evol-Instructによるマルチモーダル大言語モデルの強化

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct ( http://arxiv.org/abs/2409.05840v3 )

ライセンス: Link先を確認
Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li, (参考訳) MLLM(Multimodal Large Language Models)の開発は、様々な分野(例えば、マルチモーダルエージェント、インボディードインテリジェンス)の需要の増加とともに、大きな進歩を遂げている。 モデル駆動アプローチは多様なアーキテクチャを通じてMLLMの能力を向上しようとするが、その利益はますます限界に達している。 逆に、画像テキストの命令データをスケールアップするデータ駆動手法は、より効果的であるが、データ多様性と複雑さの制限に直面している。 高品質なデータがないことは、MLLMにとって重要な開発障壁となっている。 データ品質のボトルネックに対処するため,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。 このフレームワークは、微粒な知覚、認知的推論、相互作用の進化を巧みに組み合わせることで、データ品質を反復的に改善し、より複雑で多様な画像テキスト命令データセットを生成し、機能強化によるMLLMの強化を可能にします。 初期の命令セットSEED-163Kから、MMEvolを用いて、命令型の多様性を体系的に拡張し、認知的推論能力を向上させるために視覚的推論手順を拡張し、画像内のきめ細かい情報を徹底的に探索し、視覚的理解と堅牢性を高める。 提案手法の有効性を総合的に評価するため,13の視覚言語タスクに対して,広範囲な質的分析と定量的実験を行った。 初期シードデータを用いたベースラインモデルと比較して,本手法は平均精度を3.1ポイント向上することを示した。 さらに,本手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。

The development of Multimodal Large Language Models (MLLMs) has seen significant advancements with increasing demands in various fields (e.g., multimodal agents, embodied intelligence). While model-driven approaches attempt to enhance MLLMs capabilities through diverse architectures, the gains have become increasingly marginal. Conversely, data-driven methods, which scale up image-text instruction data, are more effective but face limited data diversity and complexity challenges. The absence of high-quality data constitutes a significant development barrier for MLLMs. To address the data quality bottleneck, we propose MMEvol, a novel multimodal instruction data evolution framework. This framework iteratively improve data quality through a refined combination of fine-grained perception, cognitive reasoning, and interaction evolution, generating a more complex and diverse image-text instruction dataset that empowers MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broaden the diversity of instruction types, extend visual reasoning steps to improve cognitive reasoning abilities, and thoroughly explore fine-grained information within images to enhance visual understanding and robustness. To comprehensively evaluate the effectiveness of our approach, we conduct extensive qualitative analysis and quantitative experiments across 13 vision-language tasks. Compared to baseline models trained with the initial seed data, the results demonstrate that our method achieves an average accuracy improvement of 3.1 percentage points. Furthermore, our approach reaches state-of-the-art (SOTA) performance in nine tasks using significantly less data compared to state-of-the-art models.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# 高次元ベル状態量子照明の性能解析

Performance analysis for high-dimensional Bell-state quantum illumination ( http://arxiv.org/abs/2409.08574v2 )

ライセンス: Link先を確認
Jeffrey H. Shapiro, (参考訳) 量子照明(QI)は、同じ平均伝達エネルギーの古典的なライダー/レーダーができることを超えて、未解決ターゲットのライダー/レーダー検出を改善するための絡み合いベースのプロトコルである。 ロイドはもともと離散変数の量子ライダーとして提案していたが、すぐに彼の提案は古典的な競合よりも量子上の優位性は示さなかった。 連続変数、特にガウス状態のQIは、理論とテーブルトップ実験の両方において真の量子優位性を示すことが示されている。 さらに、そのかなりの欠点にもかかわらず、ガウス状態QIのマイクロ波版は研究の注目を集めている。 しかし、最近、Pannu et al (arXiv:2407.08005 [quant-ph]) は、(1) ロイドのQIの絡み合った状態とガウス状態QIのチャネルモデルを組み合わせる、(2) 合成構成のための新しい正の演算子値測定を提案し、(3) ガウス状態QIとは異なり、QI はQI の目標検出誤差確率に対する Nair-Gu の低い境界を達成する、と主張した。 Pannu et al の解析は漸近的であり、無限次元の絡み合いを仮定した。 本稿では,Pannu et al's QIの有限次元性能について述べる。 これは、量子的優位性がない下にある絡み合った状態の次元に対してしきい値が存在し、上述のNair-Gu境界が漸近的に近づいていることを示している。 さらに、誤差確率指数がNair-Gu境界よりも1dB低いシステムでは、Pannu et alのQIはガウス状態QIよりもはるかに高いエンタングル状態次元を必要とし、高明度(100光子/モード)と中明度(1光子/モード)の両方で有用な誤差確率を達成する。 さらに、どちらの系も低明度(<1 Photon/mode)ノイズにおいて有意な量子優位性を持っていない。

Quantum illumination (QI) is an entanglement-based protocol for improving lidar/radar detection of unresolved targets beyond what a classical lidar/radar of the same average transmitted energy can do. Originally proposed by Lloyd as a discrete-variable quantum lidar, it was soon shown that his proposal offered no quantum advantage over its best classical competitor. Continuous-variable, specifically Gaussian-state, QI has been shown to offer true quantum advantage, both in theory and in table-top experiments. Moreover, despite its considerable drawbacks, the microwave version of Gaussian-state QI continues to attract research attention. Recently, however, Pannu et al. (arXiv:2407.08005 [quant-ph]) have: (1) combined the entangled state from Lloyd's QI with the channel models from Gaussian-state QI; (2) proposed a new positive operator-valued measurement for that composite setup; and (3) claimed that, unlike Gaussian-state QI, their QI achieves the Nair-Gu lower bound on QI target-detection error probability at all noise brightnesses. Pannu et al.'s analysis was asymptotic, i.e., it presumed infinite-dimensional entanglement. This paper works out the finite-dimensional performance of Pannu et al.'s QI. It shows that there is a threshold value for the entangled-state dimensionality below which there is no quantum advantage, and above which the Nair-Gu bound is approached asymptotically. Moreover, with both systems operating with error-probability exponents 1 dB lower than the Nair-Gu bound's, Pannu et al.'s QI requires much higher entangled-state dimensionality than does Gaussian-state QI to achieve useful error probabilities in both high-brightness (100 photons/mode) and moderate-brightness (1 photon/mode) noise. Furthermore, neither system has appreciable quantum advantage in low-brightness (<<1 photon/mode) noise.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# 環境変化を考慮したロバスト政策学習カリキュラム

Curricula for Learning Robust Policies with Factored State Representations in Changing Environments ( http://arxiv.org/abs/2409.09169v2 )

ライセンス: Link先を確認
Panayiotis Panayiotou, Özgür Şimşek, (参考訳) ロバストなポリシーにより、強化学習エージェントは予測不可能で動的で、常に変化する現実世界環境に効果的に適応し、運用することができる。 複雑な状態と行動空間を別々の構成要素に分解する因子表現は、政策学習における一般化とサンプル効率を改善することができる。 本稿では,因子状態表現を用いたエージェントのカリキュラムが学習方針の堅牢性にどのように影響するかを検討する。 複雑な環境下での強化学習のための実践的な洞察を提供することにより、政策の堅牢性を大幅に向上させることができるエピソード間の最大の後悔の変数だけの変化などの3つの簡単なカリキュラムを実験的に実証した。

Robust policies enable reinforcement learning agents to effectively adapt to and operate in unpredictable, dynamic, and ever-changing real-world environments. Factored representations, which break down complex state and action spaces into distinct components, can improve generalization and sample efficiency in policy learning. In this paper, we explore how the curriculum of an agent using a factored state representation affects the robustness of the learned policy. We experimentally demonstrate three simple curricula, such as varying only the variable of highest regret between episodes, that can significantly enhance policy robustness, offering practical insights for reinforcement learning in complex environments.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# ProcessTBench: プロセスマイニングのためのLCM計画生成データセット

ProcessTBench: An LLM Plan Generation Dataset for Process Mining ( http://arxiv.org/abs/2409.09191v2 )

ライセンス: Link先を確認
Andrei Cosmin Redis, Mohammadreza Fani Sani, Bahram Zarrin, Andrea Burattin, (参考訳) 大規模言語モデル(LLM)は、計画生成において大きな可能性を示しています。 しかし、既存のデータセットは、パラフレーズクエリステートメントの処理、複数の言語のサポート、並列に実行できるアクションの管理など、高度なツール使用シナリオに必要な複雑さを欠いていることが多い。 これらのシナリオは、現実世界のアプリケーションにおけるLLMの進化能力を評価するために不可欠である。 さらに、現在のデータセットは、特に異なる条件や定式化の下で同じプロセスを実行する際の典型的な振る舞いや課題を理解することが不可欠であるシナリオにおいて、プロセスの観点からLLMの研究を不可能にしています。 これらのギャップに対処するために、プロセスマイニングフレームワーク内でLSMを評価するために特別に設計されたTaskBenchデータセットの拡張であるProcessTBench合成データセットを提案する。

Large Language Models (LLMs) have shown significant promise in plan generation. Yet, existing datasets often lack the complexity needed for advanced tool use scenarios - such as handling paraphrased query statements, supporting multiple languages, and managing actions that can be done in parallel. These scenarios are crucial for evaluating the evolving capabilities of LLMs in real-world applications. Moreover, current datasets don't enable the study of LLMs from a process perspective, particularly in scenarios where understanding typical behaviors and challenges in executing the same process under different conditions or formulations is crucial. To address these gaps, we present the ProcessTBench synthetic dataset, an extension of the TaskBench dataset specifically designed to evaluate LLMs within a process mining framework.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# 高エネルギーにおける変分によるローレンツ非分散違反検出のための幾何学的位相支援

Geometric phase assisted detection of Lorentz-invariance violation from modified dispersion at high energies ( http://arxiv.org/abs/2409.09257v2 )

ライセンス: Link先を確認
Yihao Wu, Zehua Tian, (参考訳) 量子重力の多くの理論は、ローレンツ不変量、$\omega_{|\mathbf{k}|}=|\mathbf{k}|f(|\mathbf{k}|/M_\star)$の形のローレンツ違反分散関係を、エネルギースケールにおいて$M_\star$よりもはるかに低い値で提案している。 しかし、そのようなスケールはプランクスケールに近いと仮定されるため、ローレンツ違反理論の特徴は弱く、その実験は極めて難しいものとなる。 幾何学的位相 (GP) は弱い効果に対して累積的かつ敏感な性質を持つため、このようなローレンツ散乱を伴う量子場に結合した慣性原子検出器によって得られたGPを探索する。 ローレンツ振動場理論の場合、GPは検出器の速度に依存しており、GPが検出器の速度に依存しないローレンツ対称性の場合とは全く異なる。 特に、GPは、どこかのユニティよりも低い値のf$に対して、急激な低エネルギーローレンツ違反を示す可能性がある。 本研究では, ループ量子重力による高分子の量子化の検出に応用し, 現在のイオン衝突型加速器の速さより低い検出器の速度を補助して, 実験的に検出可能なGPを得ることを示す。 さらに、GPの累積特性は、関連する検出を著しく促進する可能性がある。

Many theories of quantum gravity propose Lorentz-violating dispersion relations of the form $\omega_{|\mathbf{k}|}=|\mathbf{k}|f(|\mathbf{k}|/M_\star)$, which approximately recover to the Lorentz invariance, $\omega_{|\mathbf{k}|}\approx|\mathbf{k}|$, at the energy scales much below $M_\star$. However, usually such a scale is assumed to be near the Planck scale, thus the feature of the Lorentz-violating theory is weak and its experimental test becomes extremely challenging. Since the geometric phase (GP) is of accumulative and sensitive nature to weak effects, here we explore the GP acquired by an inertial atomic detector that is coupled to a quantum field with this kind of Lorentz-violating dispersion. We show that for the Lorentz-violating field theory case the GP depends on the velocity of the detector, which is quite different from the Lorentz symmetry case where the GP is independent of the detector's velocity. In particular, we show that the GP may present a drastic low-energy Lorentz violation for any $f$ that dips below unity somewhere. We apply our analysis to detecting the polymer quantization motivated by loop quantum gravity, and show the detector acquires an experimentally detectable GP with the assist of detector's velocity that below current ion collider rapidities. Furthermore, the accumulative nature of GP might facilitate the relevant detection significantly.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# BTZ時空における開量子電池の散逸ダイナミクス

Dissipative dynamics of an open quantum battery in the BTZ spacetime ( http://arxiv.org/abs/2409.09259v2 )

ライセンス: Link先を確認
Zehua Tian, Xiaobao Liu, Jieci Wang, Jiliang Jing, (参考訳) 2レベルシステムとしてモデル化された量子電池の充電性能は、BTZ時空におけるディリクレ、透明、ノイマン境界条件を満たす量子場の真空揺らぎの存在によってどのように影響されるかを考える。 量子電池は、充電器として機能する外部の静的駆動を受ける。 一方、量子場は、デコヒーレンスや純粋なデフォーカス機構を含む量子電池の縦方向と横方向のスピン成分に結合していると仮定される。 量子バッテリの充電と放電のダイナミクスは、相対論的フレームワークにおける以前のオープン量子システムアプローチを、駆動と多重結合の両方を含むこのより一般的なシナリオに拡張することで導かれる。 蓄えられたエネルギーの時間的進化に関する解析式を提示する。 駆動振幅が量子バッテリのエネルギーレベル間隔よりも強い/弱い場合、純粋に消耗する消耗性結合は、消長性消耗性結合の場合よりも、より良い/弱い充電性能をもたらすことが判明した。 また, ホーキング温度の上昇は, 閉量子バターの場合と比較して一定の条件下での帯電性能の向上に寄与し, 帯電プロトコルの消散による曲線時空の真空揺らぎからエネルギーを抽出できることが示唆された。 量子場の異なる境界条件は、異なる充電性能をもたらす可能性がある。 また,充電プロトコルのスイッチオフ後のエネルギー挙動をモニタリングすることで,充電安定性にも対処する。 本研究は, 曲がった時空における緩和効果を解明するための一般的な枠組みを示し, 時空特性と磁場境界条件が帯電過程にどのように影響するかを明らかにし, 帯電プロトコルによる時空特性と熱力学の探索に光を当てる可能性がある。

We consider how charging performances of a quantum battery, modeled as a two-level system, are influenced by the presence of vacuum fluctuations of a quantum field satisfying the Dirichlet, transparent, and Neumann boundary conditions in the BTZ spacetime. The quantum battery is subjected to an external static driving which works as a charger. Meanwhile, the quantum field is assumed to be coupled to both longitudinal and transverse spin components of the quantum battery including decoherence and pure dephasing mechanisms. Charging and discharging dynamics of the quantum battery are derived by extending the previous open quantum system approach in the relativistic framework to this more general scenario including both the driving and multiple coupling. Analytic expressions for the time evolution of the energy stored are presented. We find that when the driving amplitude is stronger/weaker than the energy-level spacing of the quantum battery the pure dephasing dissipative coupling results in better/worse charging performances than the decoherence dissipative coupling case. We also find that higher Hawking temperature helps to improve the charging performance under certain conditions compared with the closed quantum buttery case, implying the feasibility of energy extraction from vacuum fluctuations in curved spacetime via dissipation in charging protocol. Different boundary conditions for quantum field may lead to different charging performance. Furthermore, we also address the charging stability by monitoring the energy behaviour after the charging protocol has been switched off. Our study presents a general framework to investigate relaxation effects in curved spacetime, and reveals how spacetime properties and field boundary condition affect the charging process, which in turn may shed light on the exploration of the spacetime properties and thermodynamics via the charging protocol.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# APIミス検出のためのLLMを用いたAPIパラメータセキュリティルールの生成

Generating API Parameter Security Rules with LLM for API Misuse Detection ( http://arxiv.org/abs/2409.09288v2 )

ライセンス: Link先を確認
Jinghua Liu, Yi Yang, Kai Chen, Miaoqian Lin, (参考訳) 本稿では,APIソースコードをLLMで解析し,誤パラメータ使用によるAPI誤用を検出することによって,自動APSR生成のためのGPTAidというフレームワークを提案する。 LLM生成したAPSRの正当性を検証するために,セキュリティクリティカルなAPIの誤用がAPSRの違反によってしばしば引き起こされるという観察に基づいて,実行フィードバックチェック手法を提案する。 具体的には、GPTAid は LLM を用いて生の APSR と右呼び出しコードを生成し、次に LLM を使用して右呼び出しコードを変更することで各生の APSR に対して Violation コードを生成する。 その後、GPTAidはViolationコードの各部分で動的に実行し、実行時エラーに基づいて不正なAPSRをフィルタする。 さらに具体的なAPSRを生成するために、GPTAidはコード差分解析を用いてフィルタされたものを洗練する。 特に、プログラミング言語が自然言語よりも正確であるため、GPTAidは、微分分析によってViolationコード内のキー操作を特定し、上記の操作に基づいて対応する具体的なAPSRを生成する。 これらの具体的なAPSRは、適用可能な検出コードに正確に解釈することができ、API誤用検出に有効であることが証明された。 8つの人気のあるライブラリからランダムに選択された200のAPIを含むデータセットに実装され、GPTAidは92.3%の精度を達成する。 さらに、以前に報告されたバグとAPSRの比較データセット上で、最先端の検出器よりも6倍のAPSRを生成する。 我々はさらに、47のアプリケーション上でGPTAidを評価し、210の未知のセキュリティバグが潜在的に深刻なセキュリティ問題(例えば、システムクラッシュ)を引き起こした。

In this paper, we present a new framework, named GPTAid, for automatic APSRs generation by analyzing API source code with LLM and detecting API misuse caused by incorrect parameter use. To validate the correctness of the LLM-generated APSRs, we propose an execution feedback-checking approach based on the observation that security-critical API misuse is often caused by APSRs violations, and most of them result in runtime errors. Specifically, GPTAid first uses LLM to generate raw APSRs and the Right calling code, and then generates Violation code for each raw APSR by modifying the Right calling code using LLM. Subsequently, GPTAid performs dynamic execution on each piece of Violation code and further filters out the incorrect APSRs based on runtime errors. To further generate concrete APSRs, GPTAid employs a code differential analysis to refine the filtered ones. Particularly, as the programming language is more precise than natural language, GPTAid identifies the key operations within Violation code by differential analysis, and then generates the corresponding concrete APSR based on the aforementioned operations. These concrete APSRs could be precisely interpreted into applicable detection code, which proven to be effective in API misuse detection. Implementing on the dataset containing 200 randomly selected APIs from eight popular libraries, GPTAid achieves a precision of 92.3%. Moreover, it generates 6 times more APSRs than state-of-the-art detectors on a comparison dataset of previously reported bugs and APSRs. We further evaluated GPTAid on 47 applications, 210 unknown security bugs were found potentially resulting in severe security issues (e.g., system crashes), 150 of which have been confirmed by developers after our reports.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# Midas Touch:RM-APIミス検出のためのLCMの能力向上

The Midas Touch: Triggering the Capability of LLMs for RM-API Misuse Detection ( http://arxiv.org/abs/2409.09380v2 )

ライセンス: Link先を確認
Yi Yang, Jinghua Liu, Kai Chen, Miaoqian Lin, (参考訳) 本稿では, RM-API 制約の検索と RM-API の誤用検出を支援する文書理解のための LLM を完全に自動化した RM-API 誤用検出ソリューション ChatDetector を提案する。 RM-APIの制約を正しく取得するためにChatDetectorは、Chain-of-Thought(CoT)に基づいて最適化されたReActフレームワークにインスパイアされている。 まず、APIドキュメントからLLMを通じて取得したRM文に基づいて、アロケーションAPIの意味を検証します。 様々なプロンプト法でLLMのパフォーマンスにインスパイアされたChatDetectorは、クロスバリデーションのための2次元プロンプトアプローチを採用する。 同時に、既製の自然言語処理(NLP)ツールによるアロケーションAPIの確認には、LCMの出力と推論プロセスとの間の矛盾チェックアプローチが採用されている。 RM-APIを正確にペアリングするために、ChatDetectorは再びタスクを分解し、まずRM-オブジェクトタイプを識別する。 幻覚の減少に伴い、ChatDetectorは最先端のAPI検出器と比較して、98.21%の精度で165組のRM-APIを識別する。 静的検出ツールのCodeQLを使用することで、開発者に対して6つの人気のあるライブラリを統合するアプリケーションの115のセキュリティバグを倫理的に報告します。 エンドツーエンドのベンチマーク手法と比較すると、ChatDetectorは少なくとも47%以上のRM文と80.85%以上のRM-API制約を検索できる。

In this paper, we propose an LLM-empowered RM-API misuse detection solution, ChatDetector, which fully automates LLMs for documentation understanding which helps RM-API constraints retrieval and RM-API misuse detection. To correctly retrieve the RM-API constraints, ChatDetector is inspired by the ReAct framework which is optimized based on Chain-of-Thought (CoT) to decompose the complex task into allocation APIs identification, RM-object (allocated/released by RM APIs) extraction and RM-APIs pairing (RM APIs usually exist in pairs). It first verifies the semantics of allocation APIs based on the retrieved RM sentences from API documentation through LLMs. Inspired by the LLMs' performance on various prompting methods,ChatDetector adopts a two-dimensional prompting approach for cross-validation. At the same time, an inconsistency-checking approach between the LLMs' output and the reasoning process is adopted for the allocation APIs confirmation with an off-the-shelf Natural Language Processing (NLP) tool. To accurately pair the RM-APIs, ChatDetector decomposes the task again and identifies the RM-object type first, with which it can then accurately pair the releasing APIs and further construct the RM-API constraints for misuse detection. With the diminished hallucinations, ChatDetector identifies 165 pairs of RM-APIs with a precision of 98.21% compared with the state-of-the-art API detectors. By employing a static detector CodeQL, we ethically report 115 security bugs on the applications integrating on six popular libraries to the developers, which may result in severe issues, such as Denial-of-Services (DoS) and memory corruption. Compared with the end-to-end benchmark method, the result shows that ChatDetector can retrieve at least 47% more RM sentences and 80.85% more RM-API constraints.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# ソースコードがテストケース生成に及ぼす影響を再考する

Rethinking the Influence of Source Code on Test Case Generation ( http://arxiv.org/abs/2409.09464v2 )

ライセンス: Link先を確認
Dong Huang, Jie M. Zhang, Mingzhe Du, Mark Harman, Heming Cui, (参考訳) 大規模言語モデル(LLM)は、コンテキストとして提供されるテスト対象のソースコードでテスト生成を支援するために広く応用されている。 テスト中のソースコードが間違っていれば、LLMはテストの生成時に誤用されるだろうか? テストケースの有効性は、その正確さ、カバレッジ、バグ検出の有効性によって測定される。 4つのデータセット上の5つのオープンソースLCMと6つのクローズドソースLCMによる評価結果から、不正なコードは、正しい、高いカバレッジ、バグ修正テストを生成する際に、LLMを著しく誤解させる可能性があることが示された。 例えば、HumanEvalデータセットでは、LLMはタスク記述と正しいコードを備えた場合の80.45%のテスト精度を達成しているが、与えられたタスク記述と誤ったコードの場合は57.12%に過ぎなかった。 APPSデータセットでは、39.85%のバグを検出し、19.61%しか検出していない。 これらの発見は、LSMベースのテストのデプロイに重要な意味を持っている。成熟したコードでそれを使うことは、将来の回帰を防ぐのに役立つかもしれないが、初期未熟なコードでは、単にエラーを発生させるだけである。 また, 信頼性およびバグ検出テストの生成において, 不正コードに対するLDMのレジリエンスを改善するためのさらなる研究の必要性も浮き彫りにした。

Large language models (LLMs) have been widely applied to assist test generation with the source code under test provided as the context. This paper aims to answer the question: If the source code under test is incorrect, will LLMs be misguided when generating tests? The effectiveness of test cases is measured by their accuracy, coverage, and bug detection effectiveness. Our evaluation results with five open- and six closed-source LLMs on four datasets demonstrate that incorrect code can significantly mislead LLMs in generating correct, high-coverage, and bug-revealing tests. For instance, in the HumanEval dataset, LLMs achieve 80.45% test accuracy when provided with task descriptions and correct code, but only 57.12% when given task descriptions and incorrect code. For the APPS dataset, prompts with correct code yield tests that detect 39.85% of the bugs, while prompts with incorrect code detect only 19.61%. These findings have important implications for the deployment of LLM-based testing: using it on mature code may help protect against future regression, but on early-stage immature code, it may simply bake in errors. Our findings also underscore the need for further research to improve LLMs resilience against incorrect code in generating reliable and bug-revealing tests.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# 空間スペクトルマニフォールド学習を用いた深部タッカー分解ネットワークに基づく教師なしハイパースペクトル・マルチスペクトル画像ブラインド融合

Unsupervised Hyperspectral and Multispectral Image Blind Fusion Based on Deep Tucker Decomposition Network with Spatial-Spectral Manifold Learning ( http://arxiv.org/abs/2409.09670v2 )

ライセンス: Link先を確認
He Wang, Yang Xu, Zebin Wu, Zhihui Wei, (参考訳) 高分解能マルチスペクトル画像(HR-MSI)と低分解能ハイパースペクトル画像(LR-HSI)を融合させて高スペクトル・空間分解能ハイパースペクトル画像(HR-HSI)を生成することを目的としている。 しかし、既存の融合法では、未知の劣化パラメータ、高次元構造と深部画像の特徴との相関の不完全な利用といった課題に直面している。 本稿では,タッカー分解と空間スペクトル多様体学習(DTDNML)に基づくハイパースペクトル・マルチスペクトル画像の教師なしブラインド融合法を提案する。 我々は、LR-HSIとHR-MSIを一貫した特徴空間にマッピングし、共有パラメータを持つデコーダによる再構成を実現する、新しいディープタッカー分解ネットワークを設計する。 データ中の空間スペクトルの特徴をよりうまく活用し、融合するために、異なるスケールで特徴を整列・融合するための空間スペクトル注意機構を組み込んだコアテンソル融合ネットワークを設計する。 さらに,グローバルな情報の取得能力を高めるために,共有デコーダにラプラシアン系空間スペクトル多様体制約を導入する。 この手法がリモートセンシングデータセットにおけるハイパースペクトルとマルチスペクトル融合の精度と効率を向上させることが、十分な実験によって検証されている。 ソースコードはhttps://github.com/Shawn-H-Wang/DTDNMLで入手できる。

Hyperspectral and multispectral image fusion aims to generate high spectral and spatial resolution hyperspectral images (HR-HSI) by fusing high-resolution multispectral images (HR-MSI) and low-resolution hyperspectral images (LR-HSI). However, existing fusion methods encounter challenges such as unknown degradation parameters, incomplete exploitation of the correlation between high-dimensional structures and deep image features. To overcome these issues, in this article, an unsupervised blind fusion method for hyperspectral and multispectral images based on Tucker decomposition and spatial spectral manifold learning (DTDNML) is proposed. We design a novel deep Tucker decomposition network that maps LR-HSI and HR-MSI into a consistent feature space, achieving reconstruction through decoders with shared parameter. To better exploit and fuse spatial-spectral features in the data, we design a core tensor fusion network that incorporates a spatial spectral attention mechanism for aligning and fusing features at different scales. Furthermore, to enhance the capacity in capturing global information, a Laplacian-based spatial-spectral manifold constraints is introduced in shared-decoders. Sufficient experiments have validated that this method enhances the accuracy and efficiency of hyperspectral and multispectral fusion on different remote sensing datasets. The source code is available at https://github.com/Shawn-H-Wang/DTDNML.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# 身体視ナビゲーションにおける物理的に再現可能な敵攻撃に向けて

Towards Physically-Realizable Adversarial Attacks in Embodied Vision Navigation ( http://arxiv.org/abs/2409.10071v2 )

ライセンス: Link先を確認
Meng Chen, Jiawei Tu, Chao Qi, Yonghao Dang, Feng Zhou, Wei Wei, Jianqin Yin, (参考訳) 安全クリティカルな環境におけるエンボディドナビゲーションエージェントの展開は、ディープニューラルネットワークに対する敵の攻撃に対する脆弱性に対する懸念を引き起こす。 しかし、現在の攻撃法は、デジタルから物理世界へ移行する際の課題により実用性に欠けることが多いが、既存の物体検出の物理的攻撃は、多視点の有効性と自然性の両方を達成できない。 そこで本研究では,学習可能なテクスチャと不透明度を対象物に付加することで,現実的なナビゲーション攻撃手法を提案する。 具体的には、様々な視点で有効性を確保するために、ナビゲーションモデルからのフィードバックを用いてパッチのテクスチャを最適化するオブジェクト認識サンプリングに基づく多視点最適化戦略を採用する。 このパッチを人間の観察者にとって目立たないものにするため、テクスチャ最適化後に不透明度を洗練させる2段階不透明度最適化機構を導入する。 実験の結果,我々の敵パッチは航法成功率を約40%削減し,実用性,有効性,自然性において従来の手法よりも優れていた。 コードは、[https://github.com/chen37058/Physical-Attacks-in-Embodied-Navigation]で入手できる。

The deployment of embodied navigation agents in safety-critical environments raises concerns about their vulnerability to adversarial attacks on deep neural networks. However, current attack methods often lack practicality due to challenges in transitioning from the digital to the physical world, while existing physical attacks for object detection fail to achieve both multi-view effectiveness and naturalness. To address this, we propose a practical attack method for embodied navigation by attaching adversarial patches with learnable textures and opacity to objects. Specifically, to ensure effectiveness across varying viewpoints, we employ a multi-view optimization strategy based on object-aware sampling, which uses feedback from the navigation model to optimize the patch's texture. To make the patch inconspicuous to human observers, we introduce a two-stage opacity optimization mechanism, where opacity is refined after texture optimization. Experimental results show our adversarial patches reduce navigation success rates by about 40%, outperforming previous methods in practicality, effectiveness, and naturalness. Code is available at: [https://github.com/chen37058/Physical-Attacks-in-Embodied-Navigation].
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# jina-embeddings-v3: Task LoRAによる多言語埋め込み

jina-embeddings-v3: Multilingual Embeddings With Task LoRA ( http://arxiv.org/abs/2409.10173v3 )

ライセンス: Link先を確認
Saba Sturua, Isabelle Mohr, Mohammad Kalim Akram, Michael Günther, Bo Wang, Markus Krimmel, Feng Wang, Georgios Mastrapas, Andreas Koukounas, Nan Wang, Han Xiao, (参考訳) 5億7000万のパラメータを持つ新しいテキスト埋め込みモデルであるjina-embeddings-v3を導入する。 このモデルは、クエリ文書検索、クラスタリング、分類、テキストマッチングのための高品質な埋め込みを生成するために、タスク固有のローランク適応(LoRA)アダプタのセットを含んでいる。 MTEBベンチマークの評価によると、jina-embeddings-v3は、OpenAIとCohereの英語タスクへの最新のプロプライエタリな埋め込みよりも優れており、マルチリンガル-e5-大規模命令よりも優れたパフォーマンスを実現している。 1024のデフォルト出力ディメンションにより、ユーザは、Materyoshka Representation Learningによって実現された、パフォーマンスを損なうことなく、埋め込みディメンションを32まで柔軟に削減できる。

We introduce jina-embeddings-v3, a novel text embedding model with 570 million parameters, achieves state-of-the-art performance on multilingual data and long-context retrieval tasks, supporting context lengths of up to 8192 tokens. The model includes a set of task-specific Low-Rank Adaptation (LoRA) adapters to generate high-quality embeddings for query-document retrieval, clustering, classification, and text matching. Evaluation on the MTEB benchmark shows that jina-embeddings-v3 outperforms the latest proprietary embeddings from OpenAI and Cohere on English tasks, while achieving superior performance compared to multilingual-e5-large-instruct across all multilingual tasks. With a default output dimension of 1024, users can flexibly reduce the embedding dimensions to as low as 32 without compromising performance, enabled by Matryoshka Representation Learning.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# 適応情報変調を用いたLLMエージェント間の協調構築

Instigating Cooperation among LLM Agents Using Adaptive Information Modulation ( http://arxiv.org/abs/2409.10372v2 )

ライセンス: Link先を確認
Qiliang Chen, Sepehr Ilami, Nunzio Lore, Babak Heydari, (参考訳) 本稿では,LLMエージェントを人間戦略行動プロキシとして,強化学習(RL)と組み合わせて,これらのエージェントをチーム環境内での戦略的相互作用に関与させる新しいフレームワークを提案する。 我々のアプローチは、戦略的LLMエージェント(SLA)を用いて従来のエージェントベースのシミュレーションを拡張し、ネットワーク内のエージェント間の情報アクセスを調節し、社会的福祉を最適化し、社会的行動を促進するPPA(Pro-social promoted RL agent)を介して動的かつ適応的なガバナンスを導入する。 囚人ジレンマを含む反復型ゲームにおける検証を通じて、SLAエージェントが曖昧な戦略適応を示すことを示す。 PPAエージェントは、情報の透明性を効果的に調整し、協力率が向上する。 このフレームワークは、実世界のチーム設定におけるAIの展開に寄与する、AIを介するソーシャルダイナミクスに関する重要な洞察を提供する。

This paper introduces a novel framework combining LLM agents as proxies for human strategic behavior with reinforcement learning (RL) to engage these agents in evolving strategic interactions within team environments. Our approach extends traditional agent-based simulations by using strategic LLM agents (SLA) and introducing dynamic and adaptive governance through a pro-social promoting RL agent (PPA) that modulates information access across agents in a network, optimizing social welfare and promoting pro-social behavior. Through validation in iterative games, including the prisoner dilemma, we demonstrate that SLA agents exhibit nuanced strategic adaptations. The PPA agent effectively learns to adjust information transparency, resulting in enhanced cooperation rates. This framework offers significant insights into AI-mediated social dynamics, contributing to the deployment of AI in real-world team settings.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# 抗体開発のための対向型シェイピング

Opponent Shaping for Antibody Development ( http://arxiv.org/abs/2409.10588v2 )

ライセンス: Link先を確認
Sebastian Towers, Aleksandra Kalisz, Philippe A. Robert, Alicia Higueruelo, Francesca Vianello, Ming-Han Chloe Tsai, Harrison Steel, Jakob N. Foerster, (参考訳) 抗ウイルス療法は通常、ウイルスの現在の株に向けて設計または進化される。 学習用語では、これは筋性最良の反応(すなわち、相手の適応的な動きを考慮しない)に対応する。 しかし、治療によって誘導される選択的圧力はウイルス抗原に作用し、変異株の出現を促進する。 我々の研究を動機づけるために、現在のウイルス株だけでなく、ウイルスがこれらの抗体によって引き起こされる進化的な圧力の下で進化する可能性のある、幅広い将来的な変異も対象とする抗体設計を検討する。 抗体とウイルス抗原の結合の計算モデル(Absolut!フレームワーク)に基づいて、ウイルスの進化的脱出の遺伝的シミュレーションを設計し、実装する。 重要なことに、私たちの抗体最適化アルゴリズムはウイルスの脱出曲線全体、すなわちウイルスの進化を導く(または「形」)ことを考慮し、影響を及ぼすことができます。 これは、一般的には、ミオピック・ベスト・レスポンスではなく、共プレイヤの適応を考慮に入れている相手のシェーピングにインスパイアされている。 したがって、私たちは最適化された抗体をシェーパと呼ぶ。 シミュレーションでは,現在およびシミュレーション中のウイルス変異体の両方を標的とし,筋電図で選択した抗体よりも優れた結果が得られた。 さらに, ウイルスに特異的な進化的圧力が作用していることが, 筋電図抗体と比較された。 いずれにせよ、シェイパーはウイルス株の進化の軌跡を修正し、ウイルスの脱出を心筋のそれと比べて最小化する。 これは単純なモデルですが、我々の提案するパラダイムは、シミュレーションツールの能力の急速な進歩によって、将来より長寿命なワクチンや抗体療法の発見を可能にすることを願っています。

Anti-viral therapies are typically designed or evolved towards the current strains of a virus. In learning terms, this corresponds to a myopic best response, i.e., not considering the possible adaptive moves of the opponent. However, therapy-induced selective pressures act on viral antigens to drive the emergence of mutated strains, against which initial therapies have reduced efficacy. To motivate our work, we consider antibody designs that target not only the current viral strains but also the wide range of possible future variants that the virus might evolve into under the evolutionary pressure exerted by said antibodies. Building on a computational model of binding between antibodies and viral antigens (the Absolut! framework), we design and implement a genetic simulation of the viral evolutionary escape. Crucially, this allows our antibody optimisation algorithm to consider and influence the entire escape curve of the virus, i.e. to guide (or ''shape'') the viral evolution. This is inspired by opponent shaping which, in general-sum learning, accounts for the adaptation of the co-player rather than playing a myopic best response. Hence we call the optimised antibodies shapers. Within our simulations, we demonstrate that our shapers target both current and simulated future viral variants, outperforming the antibodies chosen in a myopic way. Furthermore, we show that shapers exert specific evolutionary pressure on the virus compared to myopic antibodies. Altogether, shapers modify the evolutionary trajectories of viral strains and minimise the viral escape compared to their myopic counterparts. While this is a simple model, we hope that our proposed paradigm will enable the discovery of better long-lived vaccines and antibody therapies in the future, enabled by rapid advancements in the capabilities of simulation tools.
翻訳日:2024-09-20 13:27:09 公開日:2024-09-19
# 分散QPU上でのマルチポピュレーション進化QAOAの進化

Evolving a Multi-Population Evolutionary-QAOA on Distributed QPUs ( http://arxiv.org/abs/2409.10739v2 )

ライセンス: Link先を確認
Francesca Schiavello, Edoardo Altamura, Ivano Tavernelli, Stefano Mensa, Benjamin Symons, (参考訳) 我々の研究は、進化的アルゴリズム(EA)と量子近似最適化アルゴリズム(QAOA)を組み合わせて、従来の勾配法の代わりにアンザッツパラメータを更新し、Max-Cut問題に対するベンチマークを行う。 我々は,4ノードから26ノード間の正則グラフ$d$3に対して,我々の進化的QAOA(E-QAOA)ペアリングがCOBYLAベースのQAOAと同等以上の性能を示し,適合関数評価に$max\_count$とConditional Value at Risk(CVaR)を併用した。 さらに,本アルゴリズムは,2つのQPU上に分布する多集団EAを並列に,古典的に両立するエリート個体群に並列に進化させることにより,新たなアプローチを提案する。 シミュレータとIBM量子ハードウェアの両方で実験を行い、相対的な性能精度とばらつきについて検討した。

Our research combines an Evolutionary Algorithm (EA) with a Quantum Approximate Optimization Algorithm (QAOA) to update the ansatz parameters, in place of traditional gradient-based methods, and benchmark on the Max-Cut problem. We demonstrate that our Evolutionary-QAOA (E-QAOA) pairing performs on par or better than a COBYLA-based QAOA in terms of solution accuracy and variance, for $d$-3 regular graphs between 4 and 26 nodes, using both $max\_count$ and Conditional Value at Risk (CVaR) for fitness function evaluations. Furthermore, we take our algorithm one step further and present a novel approach by presenting a multi-population EA distributed on two QPUs, which evolves independent and isolated populations in parallel, classically communicating elite individuals. Experiments were conducted on both simulators and IBM quantum hardware, and we investigated the relative performance accuracy and variance.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# ストーリーテリングのアート:動的マルチモーダルナラティブのためのマルチエージェント生成AI

The Art of Storytelling: Multi-Agent Generative AI for Dynamic Multimodal Narratives ( http://arxiv.org/abs/2409.11261v3 )

ライセンス: Link先を確認
Samee Arif, Taimoor Arif, Muhammad Saad Haroon, Aamina Jamal Khan, Agha Ali Raza, Awais Athar, (参考訳) 本稿では,ジェネレーティブ・人工知能(GenAI)を利用した子ども向けのストーリーテリングを支援する教育ツールのコンセプトを紹介する。 このシステムは、GenAIによる物語の共創、テキストから音声への変換、およびテキストからビデオへの生成を組み合わせることで、学習者にとって魅力的な体験を生み出す。 本稿では,共同創造過程,テキスト音声モデルを用いた話し言葉への物語の適応,およびテキスト音声技術による文脈関連視覚への変換について述べる。 本評価では,生成した物語の言語学,テキストから音声への変換品質,生成した視覚の精度について検討する。

This paper introduces the concept of an education tool that utilizes Generative Artificial Intelligence (GenAI) to enhance storytelling for children. The system combines GenAI-driven narrative co-creation, text-to-speech conversion, and text-to-video generation to produce an engaging experience for learners. We describe the co-creation process, the adaptation of narratives into spoken words using text-to-speech models, and the transformation of these narratives into contextually relevant visuals through text-to-video technology. Our evaluation covers the linguistics of the generated stories, the text-to-speech conversion quality, and the accuracy of the generated visuals.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# オープンソースの多言語大規模言語モデルLOLA

LOLA -- An Open-Source Massively Multilingual Large Language Model ( http://arxiv.org/abs/2409.11272v3 )

ライセンス: Link先を確認
Nikit Srivastava, Denis Kuchelev, Tatiana Moteu Ngoli, Kshitij Shetty, Michael Röder, Diego Moussallem, Hamada Zahera, Axel-Cyrille Ngonga Ngomo, (参考訳) 本稿では,160言語以上で訓練された多言語多言語大言語モデルLOLAについて,Sparse Mixture-of-Experts Transformerアーキテクチャを用いて述べる。 我々のアーキテクチャと実装の選択は、効率を維持しつつ言語多様性を活用することの課題に対処し、多言語性の共通の落とし穴を避ける。 評価結果を解析した結果,自然言語生成と理解タスクにおける競合性能が示された。 さらに、学習した専門家引き抜き機構は、暗黙の系統的言語パターンを利用して、多言語性の呪いを和らげる可能性を実証する。 トレーニングプロセスの詳細、データセットの分析、モデルの強みと制限のバランスの取れた探索などを提供しています。 オープンソースモデルとして、LOLAは再現性を促進し、将来の研究の堅牢な基盤として機能する。 この結果から,言語間での強力なスケーラブルな性能を持つ計算効率のよい多言語モデルの開発が可能となった。

This paper presents LOLA, a massively multilingual large language model trained on more than 160 languages using a sparse Mixture-of-Experts Transformer architecture. Our architectural and implementation choices address the challenge of harnessing linguistic diversity while maintaining efficiency and avoiding the common pitfalls of multilinguality. Our analysis of the evaluation results shows competitive performance in natural language generation and understanding tasks. Additionally, we demonstrate how the learned expert-routing mechanism exploits implicit phylogenetic linguistic patterns to potentially alleviate the curse of multilinguality. We provide an in-depth look at the training process, an analysis of the datasets, and a balanced exploration of the model's strengths and limitations. As an open-source model, LOLA promotes reproducibility and serves as a robust foundation for future research. Our findings enable the development of compute-efficient multilingual models with strong, scalable performance across languages.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# 量子コンピューティングと完全同型暗号化によるフェデレートラーニング:プライバシ保護MLにおける新しいコンピューティングパラダイムシフト

Federated Learning with Quantum Computing and Fully Homomorphic Encryption: A Novel Computing Paradigm Shift in Privacy-Preserving ML ( http://arxiv.org/abs/2409.11430v2 )

ライセンス: Link先を確認
Siddhant Dutta, Pavana P Karanth, Pedro Maciel Xavier, Iago Leal de Freitas, Nouhaila Innan, Sadok Ben Yahia, Muhammad Shafique, David E. Bernal Neira, (参考訳) 機械学習モデルを利用したプロダクトの広範な展開は、世界中のデータプライバシと情報セキュリティに関する懸念を高めている。 この問題に対処するため、フェデレートラーニングは、複数の学習クライアントがプライベートデータを開示することなくモデル知識を共有できるようにする従来の方法に代わるプライバシー保護手段として最初に提案された。 FHE(Fully Homomorphic Encryption)は、量子セーフな暗号システムであり、暗号化された重みで操作を実行できる。 しかし、このようなメカニズムを実際に実装することは、しばしば計算上のオーバーヘッドが大きくなり、潜在的なセキュリティ脅威を露呈する可能性がある。 アナログ、量子、特殊デジタルハードウェアなどの新しいコンピューティングパラダイムは、セキュリティを強化し、パフォーマンス損失を軽減するとともに、プライバシ保護機械学習システムを実装する機会を提供する。 この研究は、古典層と量子層の両方を統合するフェデレートラーニングニューラルネットワークアーキテクチャにFHEスキームを適用することで、これらのアイデアをインスタンス化する。

The widespread deployment of products powered by machine learning models is raising concerns around data privacy and information security worldwide. To address this issue, Federated Learning was first proposed as a privacy-preserving alternative to conventional methods that allow multiple learning clients to share model knowledge without disclosing private data. A complementary approach known as Fully Homomorphic Encryption (FHE) is a quantum-safe cryptographic system that enables operations to be performed on encrypted weights. However, implementing mechanisms such as these in practice often comes with significant computational overhead and can expose potential security threats. Novel computing paradigms, such as analog, quantum, and specialized digital hardware, present opportunities for implementing privacy-preserving machine learning systems while enhancing security and mitigating performance loss. This work instantiates these ideas by applying the FHE scheme to a Federated Learning Neural Network architecture that integrates both classical and quantum layers.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# 世界の天気予報に関するスーパーレゾリューション

Super Resolution On Global Weather Forecasts ( http://arxiv.org/abs/2409.11502v2 )

ライセンス: Link先を確認
Lawrence Zhang, Adam Yang, Rodz Andrie Amor, Bryan Zhang, Dhruv Rao, (参考訳) 天気予報は、日中活動から災害対応計画まで、タスクにとって極めて重要なツールである。 しかし、そのカオス的かつ予測不能な性質のため、気象のモデリングは難しい課題であることが証明されている。 温度から降水から風まで、各変数は環境がもたらす経路に影響を与える。 その結果、予測の時間範囲が大きくなるにつれて、全てのモデルでは精度が急速に低下する傾向にある。 古典的な予測手法は、時間とともに変化する気象の変化を予測するために、物理学、数値、確率的なテクニックを多用している。 しかし、そのような予測は、しばしば非常に大量のデータを必要とし、非常に計算コストが高い。 さらに、気候や地球規模の気象パターンが変化するにつれて、古典的なモデルは環境の変化のために更新するのにかなり困難で時間がかかります。 幸いなことに、ディープラーニングの最近の進歩と、公開可能な高品質気象データセットにより、これらの複雑なシステムを推定するための学習方法のデプロイが実現可能になった。 現在の最先端のディープラーニングモデルは、業界標準の数値モデルに匹敵する精度を持ち、適応性のために実践的によりユビキタスになりつつある。 本研究グループは,地球規模の気象予測の空間分解能を高めることにより,既存の深層学習に基づく予測手法の改善を目指す。 具体的には,大域的精度を1度から0.5度に上げ,それぞれ約111kmと55kmとすることで,グラフCast温度予測における超解像(SR)の実行に関心がある。

Weather forecasting is a vitally important tool for tasks ranging from planning day to day activities to disaster response planning. However, modeling weather has proven to be challenging task due to its chaotic and unpredictable nature. Each variable, from temperature to precipitation to wind, all influence the path the environment will take. As a result, all models tend to rapidly lose accuracy as the temporal range of their forecasts increase. Classical forecasting methods use a myriad of physics-based, numerical, and stochastic techniques to predict the change in weather variables over time. However, such forecasts often require a very large amount of data and are extremely computationally expensive. Furthermore, as climate and global weather patterns change, classical models are substantially more difficult and time-consuming to update for changing environments. Fortunately, with recent advances in deep learning and publicly available high quality weather datasets, deploying learning methods for estimating these complex systems has become feasible. The current state-of-the-art deep learning models have comparable accuracy to the industry standard numerical models and are becoming more ubiquitous in practice due to their adaptability. Our group seeks to improve upon existing deep learning based forecasting methods by increasing spatial resolutions of global weather predictions. Specifically, we are interested in performing super resolution (SR) on GraphCast temperature predictions by increasing the global precision from 1 degree of accuracy to 0.5 degrees, which is approximately 111km and 55km respectively.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# 有限体上の数クラスのパワー関数の2階ゼロ微分特性について

On the second-order zero differential properties of several classes of power functions over finite fields ( http://arxiv.org/abs/2409.11693v2 )

ライセンス: Link先を確認
Huan Zhou, Xiaoni Du, Xingbin Qiao, Wenping Yuan, (参考訳) Feistel Boomerang Connectivity Table (FBCT)は、差動攻撃やブーメラン攻撃などの攻撃に対するFeistelネットワークベースの暗号の抵抗を分析するための重要な暗号解析手法である。 さらに、FBCT の係数は、偶数標数を持つ有限体上の函数 $F(x)$ の2階ゼロ微分スペクトルと密接に関連しており、Feistel boomerang の均一性は、$F(x)$ の2階ゼロ微分均一性である。 本稿では、有限体上の特定の方程式の解の数を計算することにより、偶標数を持つ有限体上の正の整数として$m>2$のパワー関数 $x^{2^m+3}$と$x^{2^m+5}$の2階ゼロ微分スペクトルを明示的に決定し、奇標数$p$の有限体上で$x^{p^k+1}$の整数 $k\geq1$の値を求める。 x^{2^m+3}$は$\mathbb{F}_{2^n}$上の置換であり、$m$が奇数であるときのみ、$x^{2^m+5}$は$\mathbb{F}_{2^n}$上の置換である。 副生成物として、$F(x)=x^4$ は PN であり、奇数$n$ を持つ $\mathbb{F}_{3^n}$ 上の 2階ゼロ微分的に $0$-ユニフォーム函数である。 これらのエントリと各テーブルの濃度の計算は、区別器や軌跡を研究する際に、Sボックスの微分とブーメランの暗号解析を容易にすることを目的としている。

Feistel Boomerang Connectivity Table (FBCT) is an important cryptanalytic technique on analysing the resistance of the Feistel network-based ciphers to power attacks such as differential and boomerang attacks. Moreover, the coefficients of FBCT are closely related to the second-order zero differential spectra of the function $F(x)$ over the finite fields with even characteristic and the Feistel boomerang uniformity is the second-order zero differential uniformity of $F(x)$. In this paper, by computing the number of solutions of specific equations over finite fields, we determine explicitly the second-order zero differential spectra of power functions $x^{2^m+3}$ and $x^{2^m+5}$ with $m>2$ being a positive integer over finite field with even characteristic, and $x^{p^k+1}$ with integer $k\geq1$ over finite field with odd characteristic $p$. It is worth noting that $x^{2^m+3}$ is a permutation over $\mathbb{F}_{2^n}$ and only when $m$ is odd, $x^{2^m+5}$ is a permutation over $\mathbb{F}_{2^n}$, where integer $n=2m$. As a byproduct, we find $F(x)=x^4$ is a PN and second-order zero differentially $0$-uniform function over $\mathbb{F}_{3^n}$ with odd $n$. The computation of these entries and the cardinalities in each table aimed to facilitate the analysis of differential and boomerang cryptanalysis of S-boxes when studying distinguishers and trails.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# 基礎モデルにおける人間のような感情認知

Human-like Affective Cognition in Foundation Models ( http://arxiv.org/abs/2409.11733v2 )

ライセンス: Link先を確認
Kanishk Gandhi, Zoe Lynch, Jan-Philipp Fränken, Kayla Patterson, Sharon Wambu, Tobias Gerstenberg, Desmond C. Ong, Noah D. Goodman, (参考訳) 感情を理解することは人間の相互作用と経験の基本である。 人間は、状況や表情から感情を推測しやすく、感情から状況を推測し、他の様々な感情的認知を行う。 これらの推論において、現代のAIはどの程度有効か? 基礎モデルにおける感情認知テストのための評価フレームワークを提案する。 心理学理論から、評価、感情、表現、結果の間の関係を探求する1,280の多様なシナリオを生成する。 基礎モデル(GPT-4, Claude-3, Gemini-1.5-Pro)とヒト(N = 567)を慎重に選択した条件で評価した。 以上の結果から,基礎モデルは人間の直感と一致しがちであることが明らかとなった。 ある条件下では、モデルは「超人」であり、平均的な人間よりも、モーダルな人間の判断を予測した方がよい。 すべてのモデルは、チェーン・オブ・シークレットの推論の恩恵を受ける。 このことは、基礎モデルが人間のような感情の理解を得て、信念や行動に影響を及ぼしたことを示唆している。

Understanding emotions is fundamental to human interaction and experience. Humans easily infer emotions from situations or facial expressions, situations from emotions, and do a variety of other affective cognition. How adept is modern AI at these inferences? We introduce an evaluation framework for testing affective cognition in foundation models. Starting from psychological theory, we generate 1,280 diverse scenarios exploring relationships between appraisals, emotions, expressions, and outcomes. We evaluate the abilities of foundation models (GPT-4, Claude-3, Gemini-1.5-Pro) and humans (N = 567) across carefully selected conditions. Our results show foundation models tend to agree with human intuitions, matching or exceeding interparticipant agreement. In some conditions, models are ``superhuman'' -- they better predict modal human judgements than the average human. All models benefit from chain-of-thought reasoning. This suggests foundation models have acquired a human-like understanding of emotions and their influence on beliefs and behavior.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# フーリエ圧縮センシングにおけるサンプリング再構成の適応的選択

Adaptive Selection of Sampling-Reconstruction in Fourier Compressed Sensing ( http://arxiv.org/abs/2409.11738v2 )

ライセンス: Link先を確認
Seongmin Hong, Jaehyeok Bae, Jongho Lee, Se Young Chun, (参考訳) 圧縮センシング(CS)は、ナイキストサンプリングの非効率性を克服するために出現している。 しかし、従来の最適化に基づく再構築は遅く、実際に正確な画像を得ることはできない。 ディープラーニングベースの再構築は、最適化ベースの再構築に代わる有望な代替手段であり、精度と計算速度で優れている。 深層学習に基づく再構成による効率的なサンプリング手法の発見は,特にフーリエCSの課題である。 既存のサンプリング・再構成作業のジョイント最適化($\mathcal{H}_1$)はサンプリングマスクを最適化するが、各データポイントに適応しないためポテンシャルは低い。 適応サンプリング(\mathcal{H}_2$)もまた、難しい最適化とパレート準最適化の欠点がある。 本稿では,各入力データに対して最適なサンプリングマスクと再構成ネットワークを選択する,サンプリング再構成($\mathcal{H}_{1.5}$)フレームワークの適応的選択を提案する。 我々は,本手法が$\mathcal{H}_1$よりも高いポテンシャルを持つという定理を提案し,異なるサンプリングマスクに対して別々の再構成ネットワークを用いることで,サンプリング・再構成におけるパレート部分最適問題を効果的に解決する。 最適なサンプリングマスクを選択するために,超高分解能空間生成モデルを用いて,入力の高周波ベイズ不確かさを定量化する。 本手法は,複数のフーリエCS問題に対して有意な改善を達成し,サンプリング・リコンストラクション($\mathcal{H}_1$)と適応サンプリング($\mathcal{H}_2$)の併用最適化に優れる。

Compressed sensing (CS) has emerged to overcome the inefficiency of Nyquist sampling. However, traditional optimization-based reconstruction is slow and can not yield an exact image in practice. Deep learning-based reconstruction has been a promising alternative to optimization-based reconstruction, outperforming it in accuracy and computation speed. Finding an efficient sampling method with deep learning-based reconstruction, especially for Fourier CS remains a challenge. Existing joint optimization of sampling-reconstruction works ($\mathcal{H}_1$) optimize the sampling mask but have low potential as it is not adaptive to each data point. Adaptive sampling ($\mathcal{H}_2$) has also disadvantages of difficult optimization and Pareto sub-optimality. Here, we propose a novel adaptive selection of sampling-reconstruction ($\mathcal{H}_{1.5}$) framework that selects the best sampling mask and reconstruction network for each input data. We provide theorems that our method has a higher potential than $\mathcal{H}_1$ and effectively solves the Pareto sub-optimality problem in sampling-reconstruction by using separate reconstruction networks for different sampling masks. To select the best sampling mask, we propose to quantify the high-frequency Bayesian uncertainty of the input, using a super-resolution space generation model. Our method outperforms joint optimization of sampling-reconstruction ($\mathcal{H}_1$) and adaptive sampling ($\mathcal{H}_2$) by achieving significant improvements on several Fourier CS problems.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# Rein to Fine-Tune Vision Foundation Model を用いたクロスオーガンおよびクロススキャン腺癌切除

Cross-Organ and Cross-Scanner Adenocarcinoma Segmentation using Rein to Fine-tune Vision Foundation Models ( http://arxiv.org/abs/2409.11752v2 )

ライセンス: Link先を確認
Pengzhou Cai, Xueyuan Zhang, Libin Lan, Ze Zhao, (参考訳) 近年,デジタル病理学の分野において腫瘍の分節化が著しい進展を遂げている。 しかし, 臓器, 組織調製法, 画像取得過程の変動は, デジタル病理画像の領域差につながる可能性がある。 そこで本論文では,MICCAI 2024とCOSAS2024の様々な視覚基盤モデル(VFM)をパラメトリックかつ効率的に微調整する手法であるReinを用いた。 Reinのコアは学習可能なトークンのセットで構成されており、インスタンスに直接リンクされ、各レイヤのインスタンスレベルの機能が改善されている。 COSAS2024 Challengeのデータ環境において、ラインは良好な結果を得るためにVFMを微調整した。 具体的には、Reinを使ってConvNeXtとDINOv2を微調整しました。 予備試験では0.7719点,最終試験では0.7557点,最終試験では0.8848点,最終試験では0.8192点を得た。 コードはGitHubで入手できる。

In recent years, significant progress has been made in tumor segmentation within the field of digital pathology. However, variations in organs, tissue preparation methods, and image acquisition processes can lead to domain discrepancies among digital pathology images. To address this problem, in this paper, we use Rein, a fine-tuning method, to parametrically and efficiently fine-tune various vision foundation models (VFMs) for MICCAI 2024 Cross-Organ and Cross-Scanner Adenocarcinoma Segmentation (COSAS2024). The core of Rein consists of a set of learnable tokens, which are directly linked to instances, improving functionality at the instance level in each layer. In the data environment of the COSAS2024 Challenge, extensive experiments demonstrate that Rein fine-tuned the VFMs to achieve satisfactory results. Specifically, we used Rein to fine-tune ConvNeXt and DINOv2. Our team used the former to achieve scores of 0.7719 and 0.7557 on the preliminary test phase and final test phase in task1, respectively, while the latter achieved scores of 0.8848 and 0.8192 on the preliminary test phase and final test phase in task2. Code is available at GitHub.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# ロングアの原子パターンの識別性に関する実践的研究

Practical Investigation on the Distinguishability of Longa's Atomic Patterns ( http://arxiv.org/abs/2409.11868v2 )

ライセンス: Link先を確認
Sze Hei Li, Zoya Dyka, Alkistis Aikaterini Sigourou, Peter Langendoerfer, Ievgen Kabin, (参考訳) 本稿では,Longa が提案する楕円曲線点倍増と加算演算に対する原子パターンの識別可能性について検討する。 我々は,NIST楕円曲線P-256に対するLongaの原子パターンを用いた2値楕円曲線スカラー乗算kPアルゴリズムを実装し,マイクロコントローラ上での単一kP実行の電磁的トレースを測定し,解析した(TI Launchpad F28379ボード)。 様々な技術的制限のため、実行時間と原子ブロックの形状に大きな違いは決定できなかった。 本研究に基づいて, サイドチャネル解析抵抗に関するさらなる研究を行うことができる。 最後に,Longaが提唱した公式に対応するLongaの原子パターンを調査し,修正した。

This paper investigates the distinguishability of the atomic patterns for elliptic curve point doubling and addition operations proposed by Longa. We implemented a binary elliptic curve scalar multiplication kP algorithm with Longa's atomic patterns for the NIST elliptic curve P-256 using the open-source cryptographic library FLECC in C. We measured and analysed an electromagnetic trace of a single kP execution on a microcontroller (TI Launchpad F28379 board). Due to various technical limitations, significant differences in the execution time and the shapes of the atomic blocks could not be determined. Further investigations of the side channel analysis-resistance can be performed based on this work. Last but not least, we examined and corrected Longa's atomic patterns corresponding to formulae proposed by Longa.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# オブジェクト操作のための生成世界モデルにおける位置情報表現

Representing Positional Information in Generative World Models for Object Manipulation ( http://arxiv.org/abs/2409.12005v2 )

ライセンス: Link先を確認
Stefano Ferraro, Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Sai Rajeswar, (参考訳) オブジェクト操作能力は、特にロボット工学の領域において、世界に関わるエンボディエージェントを分離するために必要なスキルである。 この設定では、オブジェクトとの相互作用の結果を予測する能力が最重要である。 モデルに基づく制御手法が操作タスクの処理に使われ始めているが、それらはオブジェクトを正確に操作する際の課題に直面している。 この制限の原因を分析することで、現在の世界モデルが重要な位置情報を表現する方法、特に対象位置決めタスクの目標仕様について、過度なパフォーマンスの原因を特定する。 我々は、世界モデルに基づくエージェントがオブジェクト配置タスクを効果的に解くための一般的なアプローチを導入する。 本稿では, 位置条件付き (PCP) と潜在条件付き (LCP) の2つの政策学習手法を提案する。 特にLCPでは、目標仕様のためのオブジェクトの位置情報を明示的にキャプチャするオブジェクト中心の潜在表現を採用している。 このことは自然にマルチモーダル能力の出現につながり、空間座標や視覚的目標を通じて目標の指定を可能にする。 提案手法は複数の操作環境にまたがって厳密に評価され,現行のモデルベース制御手法と比較して良好な性能を示した。

Object manipulation capabilities are essential skills that set apart embodied agents engaging with the world, especially in the realm of robotics. The ability to predict outcomes of interactions with objects is paramount in this setting. While model-based control methods have started to be employed for tackling manipulation tasks, they have faced challenges in accurately manipulating objects. As we analyze the causes of this limitation, we identify the cause of underperformance in the way current world models represent crucial positional information, especially about the target's goal specification for object positioning tasks. We introduce a general approach that empowers world model-based agents to effectively solve object-positioning tasks. We propose two declinations of this approach for generative world models: position-conditioned (PCP) and latent-conditioned (LCP) policy learning. In particular, LCP employs object-centric latent representations that explicitly capture object positional information for goal specification. This naturally leads to the emergence of multimodal capabilities, enabling the specification of goals through spatial coordinates or a visual goal. Our methods are rigorously evaluated across several manipulation environments, showing favorable performance compared to current model-based control approaches.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# 大規模言語モデルを用いた臨床試験表と図表の作成

Using Large Language Models to Generate Clinical Trial Tables and Figures ( http://arxiv.org/abs/2409.12046v2 )

ライセンス: Link先を確認
Yumeng Yang, Peter Krusche, Kristyn Pantoja, Cheng Shi, Ethan Ludmir, Kirk Roberts, Gen Zhu, (参考訳) テーブル、フィギュア、リスト(TFL)は臨床試験データを要約するための重要なツールである。 報告活動のためのTFLの作成は、しばしば臨床試験の実行中に日常的に遭遇する時間を要する課題である。 本研究では,TFLの自動生成における大規模言語モデル (LLM) の利用について,素早い工学的手法と数発の転写学習を用いて検討した。 ADaM形式での公的な臨床試験データを用いて, LLMはプロンプトによるTFLを効率よく生成し, 本領域におけるその可能性を示した。 さらに, ユーザクエリと予め定義されたプロンプトとをマッチングし, 特定のTFLを生成するために, カスタマイズされたプログラムを生成する, 保存エージェントであるCitical Trial TFL Generation Agentを開発した。

Tables, figures, and listings (TFLs) are essential tools for summarizing clinical trial data. Creation of TFLs for reporting activities is often a time-consuming task encountered routinely during the execution of clinical trials. This study explored the use of large language models (LLMs) to automate the generation of TFLs through prompt engineering and few-shot transfer learning. Using public clinical trial data in ADaM format, our results demonstrated that LLMs can efficiently generate TFLs with prompt instructions, showcasing their potential in this domain. Furthermore, we developed a conservational agent named Clinical Trial TFL Generation Agent: An app that matches user queries to predefined prompts that produce customized programs to generate specific predefined TFLs.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# EL素子の発注が加工性能に及ぼす影響

The Impact of Element Ordering on LM Agent Performance ( http://arxiv.org/abs/2409.12089v2 )

ライセンス: Link先を確認
Wayne Chi, Ameet Talwalkar, Chris Donahue, (参考訳) Webやデスクトップなどの仮想環境をナビゲートできる言語モデルエージェントへの関心が高まっている。 このような環境をナビゲートするために、エージェントは、様々な要素(例えば、ボタン、テキスト、画像)に関する情報から恩恵を受ける。 特にグラフィカルな表現(ピクセル)のみを提供する環境では、どの要素属性がエージェントのパフォーマンスに最も大きな影響を与えるのかは不明だ。 ここでは,言語モデルに要素が提示される順序付けが驚くほど影響を受けており,Webページ内のランダム化要素の順序付けはエージェントの状態表現からすべての可視テキストを削除することで,エージェントのパフォーマンスを両立させる。 ウェブページは要素の階層的な順序付けを提供するが、ピクセルから直接要素を解析する際にそのような順序付けは存在しない。 さらに、タスクがより困難になり、モデルがより洗練されるにつれて、我々の実験は注文の影響が増加することを示唆している。 効果的な注文を見つけることは簡単ではない。 ウェブおよびデスクトップ環境における各種要素順序付け手法の影響について検討する。 我々は, 画素のみの環境において, 次元の減少が実効的な順序付けをもたらすことを見出した。 UI要素の検出モデルをトレーニングして、ピクセルから要素を抽出し、その結果をエージェントベンチマーク(OmniACT)に適用します。 本手法は,従来の最先端技術と比較して平均2倍以上のタスクを完了させる。

There has been a surge of interest in language model agents that can navigate virtual environments such as the web or desktop. To navigate such environments, agents benefit from information on the various elements (e.g., buttons, text, or images) present. It remains unclear which element attributes have the greatest impact on agent performance, especially in environments that only provide a graphical representation (i.e., pixels). Here we find that the ordering in which elements are presented to the language model is surprisingly impactful--randomizing element ordering in a webpage degrades agent performance comparably to removing all visible text from an agent's state representation. While a webpage provides a hierarchical ordering of elements, there is no such ordering when parsing elements directly from pixels. Moreover, as tasks become more challenging and models more sophisticated, our experiments suggest that the impact of ordering increases. Finding an effective ordering is non-trivial. We investigate the impact of various element ordering methods in web and desktop environments. We find that dimensionality reduction provides a viable ordering for pixel-only environments. We train a UI element detection model to derive elements from pixels and apply our findings to an agent benchmark--OmniACT--where we only have access to pixels. Our method completes more than two times as many tasks on average relative to the previous state-of-the-art.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# スケールでのスキルマッチング:効率的な多言語候補検索のためのフリーランサー・プロジェクトアライメント

Skill matching at scale: freelancer-project alignment for efficient multilingual candidate retrieval ( http://arxiv.org/abs/2409.12097v2 )

ライセンス: Link先を確認
Warren Jouanneau, Marc Palyart, Emma Jouffroy, (参考訳) ジョブの提案とフリーランサーのセットの完全な一致を見つけることは、特に複数の言語において、大規模に実行するのが簡単ではない。 本稿では,この問題を解決する新しいニューラルレトリバーアーキテクチャを提案する。 本手法は,事前学習した多言語言語モデルを利用して,プロジェクト記述とフリーランサープロファイルを符号化する。 後者はプロファイルとプロジェクトの構造を維持することを目的としたカスタムトランスフォーマーアーキテクチャのバックボーンとして使用される。 このモデルは、歴史的データに対して対照的な損失を伴って訓練される。 いくつかの実験により, この手法は, スキルマッチングの類似性を効果的に捉え, 従来の手法よりも効率よくマッチングし, 性能を向上することを示した。

Finding the perfect match between a job proposal and a set of freelancers is not an easy task to perform at scale, especially in multiple languages. In this paper, we propose a novel neural retriever architecture that tackles this problem in a multilingual setting. Our method encodes project descriptions and freelancer profiles by leveraging pre-trained multilingual language models. The latter are used as backbone for a custom transformer architecture that aims to keep the structure of the profiles and project. This model is trained with a contrastive loss on historical data. Thanks to several experiments, we show that this approach effectively captures skill matching similarity and facilitates efficient matching, outperforming traditional methods.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19
# インド公務員のモックインタビューにおけるジェンダー表現とバイアス

Gender Representation and Bias in Indian Civil Service Mock Interviews ( http://arxiv.org/abs/2409.12194v2 )

ライセンス: Link先を確認
Somonnoy Banerjee, Sujan Dutta, Soumyajit Datta, Ashiqur R. KhudaBukhsh, (参考訳) この論文は3つの重要な貢献をする。 まず、インドの市民サービス候補者の模擬インタビューを888件のYouTubeビデオから引用した51,278件のインタビューのコーパスを通じて、男女の候補者に質問する質問の幅広い性質において、男女の偏見を示す。 第2に、大きな言語モデルを用いた実験は、性別推定タスクにおけるLSMによる説明において、性別バイアスが強く存在することを示す。 最後に,今後の社会科学研究に影響を及ぼすことのできる51,278の面接質問のデータセットを提示する。

This paper makes three key contributions. First, via a substantial corpus of 51,278 interview questions sourced from 888 YouTube videos of mock interviews of Indian civil service candidates, we demonstrate stark gender bias in the broad nature of questions asked to male and female candidates. Second, our experiments with large language models show a strong presence of gender bias in explanations provided by the LLMs on the gender inference task. Finally, we present a novel dataset of 51,278 interview questions that can inform future social science studies.
翻訳日:2024-09-20 13:12:23 公開日:2024-09-19