このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240907となっている論文です。

PDF登録状況(公開日: 20240907)

TitleAuthorsAbstract論文公表日・翻訳日
# 良いアイデアか、そうでないか、LLMの表現はわかるかもしれない

Good Idea or Not, Representation of LLM Could Tell ( http://arxiv.org/abs/2409.13712v1 )

ライセンス: Link先を確認
Yi Xu, Bo Xue, Shuqian Sheng, Cheng Deng, Jiaxin Ding, Zanwei Shen, Luoyi Fu, Xinbing Wang, Chenghu Zhou, (参考訳) 学術研究の分野では、アイデアの拡散は研究者にとって重要な課題である。 これらのアイデアの可能性を効果的に評価する能力は、科学や論文のレビューの進展に不可欠である。 本研究では,大規模言語モデルの知識を活用し,科学的思考のメリットを評価することを目的としたアイデアアセスメントに焦点を当てる。 まず,既存のテキスト評価研究を調査し,アイデアの量的評価の問題を定義する。 第2に、このタスクに対する様々なアプローチのパフォーマンスを正確にトレーニングし評価するために設計された、フルテキストの400近い原稿からベンチマークデータセットをキュレートし、リリースする。 第3に,大規模言語モデルの特定の層に表現を用いることで,アイデアの価値を定量化する枠組みを確立する。 実験結果から,本手法で予測したスコアはヒトと比較的一致していることがわかった。 その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高く, アイデアアセスメントプロセスの自動化に期待できる道筋であることが示唆された。

In the ever-expanding landscape of academic research, the proliferation of ideas presents a significant challenge for researchers: discerning valuable ideas from the less impactful ones. The ability to efficiently evaluate the potential of these ideas is crucial for the advancement of science and paper review. In this work, we focus on idea assessment, which aims to leverage the knowledge of large language models to assess the merit of scientific ideas. First, we investigate existing text evaluation research and define the problem of quantitative evaluation of ideas. Second, we curate and release a benchmark dataset from nearly four thousand manuscript papers with full texts, meticulously designed to train and evaluate the performance of different approaches to this task. Third, we establish a framework for quantifying the value of ideas by employing representations in a specific layer of large language models. Experimental results show that the scores predicted by our method are relatively consistent with those of humans. Our findings suggest that the representations of large language models hold more potential in quantifying the value of ideas than their generative outputs, demonstrating a promising avenue for automating the idea assessment process.
翻訳日:2024-11-07 05:46:28 公開日:2024-09-07
# 抑うつ検出のための感性情報文BERTアンサンブルアルゴリズム

Sentiment Informed Sentence BERT-Ensemble Algorithm for Depression Detection ( http://arxiv.org/abs/2409.13713v1 )

ライセンス: Link先を確認
Bayode Ogunleye, Hemlata Sharma, Olamilekan Shobayo, (参考訳) 世界保健機関(WHO)は、世界の約2億8000万人がうつ病に苦しんでいることを明らかにした。 しかし、機械学習(ML)技術を用いた早期うつ病検出に関する既存の研究は限られている。 従来の研究では、データの複雑さに対処できず、過度に適合する傾向があり、一般化に制限のある単一のスタンドアローンアルゴリズムが適用されていた。 そこで本稿では,2つのベンチマークソーシャルメディアデータセット(D1,D2)を用いた早期抑うつ検出のためのMLアルゴリズムの性能について検討した。 具体的には、モデルパフォーマンスを改善するために、感情指標を取り入れました。 実験の結果,変換器 (SBERT) の数値ベクトルを用いた文の双方向エンコーダ表現は,データセット (D1) で69%,データセット (D2) で76%のスコアを得た。 本研究は,抑うつ検出のための追加機能として感情指標を活用することにより,モデル性能が向上することが示唆され,今後の開発に向けた抑うつ的用語コーパスの開発が推奨される。

The World Health Organisation (WHO) revealed approximately 280 million people in the world suffer from depression. Yet, existing studies on early-stage depression detection using machine learning (ML) techniques are limited. Prior studies have applied a single stand-alone algorithm, which is unable to deal with data complexities, prone to overfitting, and limited in generalization. To this end, our paper examined the performance of several ML algorithms for early-stage depression detection using two benchmark social media datasets (D1 and D2). More specifically, we incorporated sentiment indicators to improve our model performance. Our experimental results showed that sentence bidirectional encoder representations from transformers (SBERT) numerical vectors fitted into the stacking ensemble model achieved comparable F1 scores of 69% in the dataset (D1) and 76% in the dataset (D2). Our findings suggest that utilizing sentiment indicators as an additional feature for depression detection yields an improved model performance, and thus, we recommend the development of a depressive term corpus for future work.
翻訳日:2024-11-07 05:46:28 公開日:2024-09-07
# TracrBench: 大きな言語モデルで解釈可能性テストベッドを生成する

TracrBench: Generating Interpretability Testbeds with Large Language Models ( http://arxiv.org/abs/2409.13714v1 )

ライセンス: Link先を確認
Hannes Thurnherr, Jérémy Scheurer, (参考訳) トランスフォーマーに基づく言語モデルの機械的理解を得ることは、特に多数のパラメータのために、オープンな課題である。 さらに,モデル重みと機能的役割間の基底的真理マッピングの欠如は,解釈可能性手法の効果的な評価を妨げ,全体的な進歩を妨げる。 RASPに固有の基底真理写像を持つコンパイル変換器を生成するTracrが,この問題に対処するために提案されている。 しかし、解釈可能性の検証に必要な多数のモデルを手動で作成することは、労働集約的で時間を要する。 本研究では,大規模な言語モデル (LLM) を用いて解釈可能性テストベッドを生成するための新しい手法を提案し,手書き121文字とLLM生成された人間検証RASPプログラムとそれに対応するトランスフォーマー重みからなる新しいデータセットであるTrcrBenchを紹介する。 この過程で、我々は、フロンティアLSMがRASPプログラムを自律的に生成する能力を評価し、このタスクが大きな課題となることを発見した。 GPT-4-turboは20発のプロンプトとベスト・オブ・5サンプリングを備え、101のテストプログラムのうち57発のみを正しく実装し、残りのプログラムのマニュアル実装を必要とする。 TracrBenchは121のサンプルを使って、解釈可能性の評価と比較のための貴重なテストベッドを目指している。

Achieving a mechanistic understanding of transformer-based language models is an open challenge, especially due to their large number of parameters. Moreover, the lack of ground truth mappings between model weights and their functional roles hinders the effective evaluation of interpretability methods, impeding overall progress. Tracr, a method for generating compiled transformers with inherent ground truth mappings in RASP, has been proposed to address this issue. However, manually creating a large number of models needed for verifying interpretability methods is labour-intensive and time-consuming. In this work, we present a novel approach for generating interpretability test beds using large language models (LLMs) and introduce TracrBench, a novel dataset consisting of 121 manually written and LLM-generated, human-validated RASP programs and their corresponding transformer weights. During this process, we evaluate the ability of frontier LLMs to autonomously generate RASP programs and find that this task poses significant challenges. GPT-4-turbo, with a 20-shot prompt and best-of-5 sampling, correctly implements only 57 out of 101 test programs, necessitating the manual implementation of the remaining programs. With its 121 samples, TracrBench aims to serve as a valuable testbed for evaluating and comparing interpretability methods.
翻訳日:2024-11-07 05:46:28 公開日:2024-09-07
# 意図的談話関係認識のための制約付き多層コントラスト学習

Constrained Multi-Layer Contrastive Learning for Implicit Discourse Relationship Recognition ( http://arxiv.org/abs/2409.13716v1 )

ライセンス: Link先を確認
Yiheng Wu, Junhui Li, Muhua Zhu, (参考訳) 暗黙的談話関係認識(IDRR)の課題に対する従来のアプローチは、一般にそれを分類タスクとみなしている。 BERTやRoBERTaのような事前訓練された言語モデルであっても、IDRRは2つの談話ユニット間の相互作用を適切に捉えるために、複数の中間層を持つ複雑なニューラルネットワークに依存している。 その結果、これらの中間層の出力は、異なるクラスのインスタンスを識別する能力が異なる可能性がある。 そこで本研究では,教師付きコントラスト学習(CL)手法,ラベルとインスタンス中心のCLを適応させ,表現学習を強化することを提案する。 さらに,低層に比べて高層の相対損失が小さくなければならないという制約を適切に課すために,新しい制約付き多層CL手法を提案する。 PDTB 2.0 と PDTB 3.0 の実験結果から,本手法は多クラス分類とバイナリ分類の両方において,性能を著しく向上させることができることがわかった。

Previous approaches to the task of implicit discourse relation recognition (IDRR) generally view it as a classification task. Even with pre-trained language models, like BERT and RoBERTa, IDRR still relies on complicated neural networks with multiple intermediate layers to proper capture the interaction between two discourse units. As a result, the outputs of these intermediate layers may have different capability in discriminating instances of different classes. To this end, we propose to adapt a supervised contrastive learning (CL) method, label- and instance-centered CL, to enhance representation learning. Moreover, we propose a novel constrained multi-layer CL approach to properly impose a constraint that the contrastive loss of higher layers should be smaller than that of lower layers. Experimental results on PDTB 2.0 and PDTB 3.0 show that our approach can significantly improve the performance on both multi-class classification and binary classification.
翻訳日:2024-11-07 05:46:28 公開日:2024-09-07
# DiVA-DocRE:文書レベル関係抽出のための識別・音声認識パラダイム

DiVA-DocRE: A Discriminative and Voice-Aware Paradigm for Document-Level Relation Extraction ( http://arxiv.org/abs/2409.13717v1 )

ライセンス: Link先を確認
Yiheng Wu, Roman Yangarber, Xian Mao, (参考訳) テキスト理解と生成におけるLLM(Large Language Models)の顕著な能力は、情報抽出(IE)に革命をもたらした。 ドキュメントレベルの関係トリプルト抽出(DocRTE)は、エンティティとそれらの意味的関係を文書から抽出することを目的とした情報システムにおいて重要なタスクである。 しかし、既存の手法は主に文レベルの関係トリプルト抽出(SentRTE)のために設計されている。 さらに、いくつかのアプローチでは、関係をプロンプトテンプレートに統合した候補選択として扱い、結果として、三重項の関係要素を決定する際に、非効率な処理と準最適性能をもたらす。 これらの制約に対処するために、識別・音声認識パラダイム DiVA を導入する。 DiVAは文書レベルの関係抽出(DocRE)を行い、その関係に基づいて対象のオブジェクトを識別する。 三つ子を直接取得するためには、ドキュメントを単に入力する余分な処理は必要ない。 この合理化プロセスは三重項抽出の現実のシナリオをより正確に反映している。 私たちの革新はDocREを差別的なタスクに転換することにあります。 Re-DocREDおよびDocREDデータセットの実験では、DocRTEタスクの最先端の結果が示されている。

The remarkable capabilities of Large Language Models (LLMs) in text comprehension and generation have revolutionized Information Extraction (IE). One such advancement is in Document-level Relation Triplet Extraction (DocRTE), a critical task in information systems that aims to extract entities and their semantic relationships from documents. However, existing methods are primarily designed for Sentence level Relation Triplet Extraction (SentRTE), which typically handles a limited set of relations and triplet facts within a single sentence. Additionally, some approaches treat relations as candidate choices integrated into prompt templates, resulting in inefficient processing and suboptimal performance when determining the relation elements in triplets. To address these limitations, we introduce a Discriminative and Voice Aware Paradigm DiVA. DiVA involves only two steps: performing document-level relation extraction (DocRE) and then identifying the subject object entities based on the relation. No additional processing is required simply input the document to directly obtain the triplets. This streamlined process more accurately reflects real-world scenarios for triplet extraction. Our innovation lies in transforming DocRE into a discriminative task, where the model pays attention to each relation and to the often overlooked issue of active vs. passive voice within the triplet. Our experiments on the Re-DocRED and DocRED datasets demonstrate state-of-the-art results for the DocRTE task.
翻訳日:2024-11-07 05:46:28 公開日:2024-09-07
# 共同コミュニケーションとセンシングのための因果性駆動型強化学習

Causality-Driven Reinforcement Learning for Joint Communication and Sensing ( http://arxiv.org/abs/2409.15329v1 )

ライセンス: Link先を確認
Anik Roy, Serene Banerjee, Jishnu Sadasivan, Arnab Sarkar, Soumyajit Dey, (参考訳) 次世代無線ネットワークである6Gは、通信とセンシングを統合して干渉を克服し、スペクトル効率を向上し、ハードウェアと電力消費を減らすことを目標としている。 MMIMO (Massive Multiple-Input Multiple Output) ベースのJCAS (Joint Communication and Sensing) システムは、周囲の車両との正確な環境検知と時間クリティカル通信を必要とするため、自律運転のような6Gアプリケーションにこの統合を実現する。 既存の文献では、mMIMOアンテナビームフォーミングには強化学習(RL)が用いられている。 しかし、アンテナビーム形成に関連する動作の巨大な探索空間は、高いビームトレーニングオーバーヘッドのため、RLエージェントの学習プロセスが非効率になる。 学習過程は、行動空間と報酬の間の因果関係を考慮せず、全ての行動が平等に重要である。 そこで本研究では,mMIMOベースのJCAS環境における因果関係を介入し,発見できる因果的認識型RLエージェントについて検討する。 我々は、RLに基づくJCASの因果発見を実現するために、状態依存行動次元選択戦略を用いる。 異なるJCASシナリオにおける因果認識RLフレームワークの評価は、ビームフォーミングゲインの観点からベースライン法よりも、提案フレームワークの利点を示している。

The next-generation wireless network, 6G and beyond, envisions to integrate communication and sensing to overcome interference, improve spectrum efficiency, and reduce hardware and power consumption. Massive Multiple-Input Multiple Output (mMIMO)-based Joint Communication and Sensing (JCAS) systems realize this integration for 6G applications such as autonomous driving, as it requires accurate environmental sensing and time-critical communication with neighboring vehicles. Reinforcement Learning (RL) is used for mMIMO antenna beamforming in the existing literature. However, the huge search space for actions associated with antenna beamforming causes the learning process for the RL agent to be inefficient due to high beam training overhead. The learning process does not consider the causal relationship between action space and the reward, and gives all actions equal importance. In this work, we explore a causally-aware RL agent which can intervene and discover causal relationships for mMIMO-based JCAS environments, during the training phase. We use a state dependent action dimension selection strategy to realize causal discovery for RL-based JCAS. Evaluation of the causally-aware RL framework in different JCAS scenarios shows the benefit of our proposed framework over baseline methods in terms of the beamforming gain.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-07
# 生成逆ネットワークを用いたSAR画像からの電気光学画像合成

Electrooptical Image Synthesis from SAR Imagery Using Generative Adversarial Networks ( http://arxiv.org/abs/2409.15331v1 )

ライセンス: Link先を確認
Grant Rosario, David Noever, (参考訳) リモートセンシングおよび衛星画像解析における合成開口レーダ(SAR)画像の有用性はよく確立されており、様々な気象条件や照明条件下で頑健である。 しかし、SAR画像は、その独特の構造的特徴とテクスチャ的特徴を特徴としており、しばしば電気光学(EO)画像に慣れたアナリストに解釈可能性の問題を引き起こす。 このアプリケーションは、Pix2Pix、CycleGan、S-CycleGan、および新しい双対を含む最先端のジェネレーターネットワーク(GAN)と比較する。 部分的畳み込みを利用したジェネレータGANとトランスフォーマーを利用した新しいデュアルジェネレータアーキテクチャ これらのモデルは、変換された光学画像のリアリズムを段階的に洗練し、SARデータの視覚的解釈性を高めるように設計されている。 得られたEO画像と実際のEO画像とを,視覚的忠実度と特徴保存の観点から比較し,質的,定量的な評価によるアプローチの有効性を実証した。 その結果,解釈可能性が大きく向上し,EO画像に精通したアナリストがSARデータにアクセスしやすくなった。 さらに, 環境モニタリング, 都市計画, 軍事偵察など, SARデータの迅速かつ正確な解釈が不可欠である様々な分野で, この技術の可能性を探る。 本研究は,SAR画像とEO画像のギャップを埋めることによってリモートセンシングの分野に寄与する。

The utility of Synthetic Aperture Radar (SAR) imagery in remote sensing and satellite image analysis is well established, offering robustness under various weather and lighting conditions. However, SAR images, characterized by their unique structural and texture characteristics, often pose interpretability challenges for analysts accustomed to electrooptical (EO) imagery. This application compares state-of-the-art Generative Adversarial Networks (GANs) including Pix2Pix, CycleGan, S-CycleGan, and a novel dual?generator GAN utilizing partial convolutions and a novel dual-generator architecture utilizing transformers. These models are designed to progressively refine the realism in the translated optical images, thereby enhancing the visual interpretability of SAR data. We demonstrate the efficacy of our approach through qualitative and quantitative evaluations, comparing the synthesized EO images with actual EO images in terms of visual fidelity and feature preservation. The results show significant improvements in interpretability, making SAR data more accessible for analysts familiar with EO imagery. Furthermore, we explore the potential of this technology in various applications, including environmental monitoring, urban planning, and military reconnaissance, where rapid, accurate interpretation of SAR data is crucial. Our research contributes to the field of remote sensing by bridging the gap between SAR and EO imagery, offering a novel tool for enhanced data interpretation and broader application of SAR technology in various domains.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-07
# 可視・赤外画像のための軽量GAN画像融合アルゴリズム

A Lightweight GAN-Based Image Fusion Algorithm for Visible and Infrared Images ( http://arxiv.org/abs/2409.15332v1 )

ライセンス: Link先を確認
Zhizhong Wu, Hao Gong, Jiajing Chen, Zhou Yuru, LiangHao Tan, Ge Shi, (参考訳) 本稿では,可視光と赤外画像の融合に特化して設計された軽量画像融合アルゴリズムを提案する。 提案手法は,GAN(Generative Adversarial Network)のジェネレータをCBAM(Convolutional Block Attention Module)と統合して機能フォーカスを改善し,より効率的な計算にDSConv(Depthwise Separable Convolution)を利用する。 これらの革新は、パラメータの数や推論遅延を含むモデルの計算コストを大幅に削減し、融合した画像の品質を維持または強化する。 M3FDデータセットを用いた比較実験により、提案アルゴリズムは、融合品質の観点から類似した画像融合法より優れているだけでなく、組み込みデバイスへの展開に適したリソース効率の高いソリューションを提供することを示した。 軽量設計の有効性は広範囲にわたるアブレーション研究を通じて検証され、複雑な環境におけるリアルタイムアプリケーションの可能性を確認する。

This paper presents a lightweight image fusion algorithm specifically designed for merging visible light and infrared images, with an emphasis on balancing performance and efficiency. The proposed method enhances the generator in a Generative Adversarial Network (GAN) by integrating the Convolutional Block Attention Module (CBAM) to improve feature focus and utilizing Depthwise Separable Convolution (DSConv) for more efficient computations. These innovations significantly reduce the model's computational cost, including the number of parameters and inference latency, while maintaining or even enhancing the quality of the fused images. Comparative experiments using the M3FD dataset demonstrate that the proposed algorithm not only outperforms similar image fusion methods in terms of fusion quality but also offers a more resource-efficient solution suitable for deployment on embedded devices. The effectiveness of the lightweight design is validated through extensive ablation studies, confirming its potential for real-time applications in complex environments.
翻訳日:2024-11-06 19:54:40 公開日:2024-09-07
# Peer-Customers を実践する学生チーム

Using Peer-Customers to Scalably Pair Student Teams with Customers for Hands-on Curriculum Final Projects ( http://arxiv.org/abs/2409.08299v1 )

ライセンス: Link先を確認
Edward Jay Wang, (参考訳) Peer-customerは、学生チームが実践コースで顧客とペアリングするためのメカニズムである。 各生徒は、クラス内の他の誰かが解決したい問題を投げます。 ピア・カストマーの使用は、学生が最終プロジェクトに必要な現実的なニーズで顧客と一緒に働くための実用的でスケーラブルなアクセスを提供する。 クラスの学生であるにもかかわらず、ピアカストマーはチームと一緒にプロジェクトに取り組んでいます。 この解離によって、学生チームは、キャップストーンコースのような外部顧客をキュレートするリソースを持たない、自己理想的な最終プロジェクトに欠けている顧客ニーズの評価、テスト、調査を実践せざるを得なくなる。 基礎的な組込みシステム設計とピソンプログラミングに焦点を当てた入門的な物理プロトタイピングコースにおけるピア・カストマーの使用を試作した。 本稿では,N=64の学生(N=29 Y1)とN=35 Y2)の2つの講座で行なわれた重要な観察によって支援されたピア・カストマーの使い勝手に関する実践的ガイドを示す。

Peer-customer is a mechanism to pair student teams with customers in hands-on curriculum courses. Each student pitches a problem they want someone else in the class to solve for them. The use of peer-customers provides practical and scalable access for students to work with a customer on a real-world need for their final project. The peer-customer, despite being a student in the class, do not work on the project with the team. This dissociation forces a student team to practice customer needs assessment, testing, and surveying that can often be lacking in self-ideated final projects that do not have resources to curate external customers like in capstone courses. We prototyped the use of peer-customers in an introductory physical prototyping course focused on basic embedded systems design and python programming. In this paper, we present a practical guide on how best to use peer-customers, supported by key observations made during two separate offerings of the course with a total of N=64 students (N=29 Y1 and N=35 Y2).
翻訳日:2024-09-22 21:50:24 公開日:2024-09-07
# 先進的脅威属性の包括的調査--分類学,方法,課題,オープンリサーチ問題

A Comprehensive Survey of Advanced Persistent Threat Attribution: Taxonomy, Methods, Challenges and Open Research Problems ( http://arxiv.org/abs/2409.11415v1 )

ライセンス: Link先を確認
Nanda Rani, Bikash Saha, Sandeep Kumar Shukla, (参考訳) Advanced Persistent Threat (APT) アトリビューションはサイバーセキュリティにおいて重要な課題であり、高度なサイバー攻撃の背後にある犯人を正確に識別するプロセスを示している。 防衛機構を大幅に強化し、戦略的な対応を通知することができる。 人工知能(AI)と機械学習(ML)技術の普及に伴い、研究者たちは、サイバー脅威を責任あるアクターにリンクする自動化ソリューションの開発に注力し、従来の手作業の手法から遠ざかっている。 自動帰属に関する以前の文献では、自動帰属プロセスに役立つ自動化された方法と関連するアーティファクトの体系的なレビューが欠けている。 これらのギャップに対処し、脅威属性の現在の状況についてコンテキストを提供するため、自動化APT属性の総合的な調査を行う。 この調査は、分散したアーティファクトの理解から始まり、貢献に役立つアーティファクトの包括的分類を提供する。 我々は、利用可能な属性データセットと現在の自動化APT属性の分類を包括的にレビューし、提示する。 さらに,現状の文献手法について批判的なコメントを出し,自動帰属の課題を議論し,オープンな研究課題へ向けた。 この調査は、現在のギャップと課題に対処するため、今後のAPT貢献研究の機会を明らかにします。 この調査は、現在の実践における強みと限界を特定することによって、自動化され、信頼性があり、実行可能なAPT帰属法における将来の研究と開発の基礎を提供する。

Advanced Persistent Threat (APT) attribution is a critical challenge in cybersecurity and implies the process of accurately identifying the perpetrators behind sophisticated cyber attacks. It can significantly enhance defense mechanisms and inform strategic responses. With the growing prominence of artificial intelligence (AI) and machine learning (ML) techniques, researchers are increasingly focused on developing automated solutions to link cyber threats to responsible actors, moving away from traditional manual methods. Previous literature on automated threat attribution lacks a systematic review of automated methods and relevant artifacts that can aid in the attribution process. To address these gaps and provide context on the current state of threat attribution, we present a comprehensive survey of automated APT attribution. The presented survey starts with understanding the dispersed artifacts and provides a comprehensive taxonomy of the artifacts that aid in attribution. We comprehensively review and present the classification of the available attribution datasets and current automated APT attribution methods. Further, we raise critical comments on current literature methods, discuss challenges in automated attribution, and direct toward open research problems. This survey reveals significant opportunities for future research in APT attribution to address current gaps and challenges. By identifying strengths and limitations in current practices, this survey provides a foundation for future research and development in automated, reliable, and actionable APT attribution methods.
翻訳日:2024-09-22 21:12:27 公開日:2024-09-07
# テンソルトロッタライゼーションと変分モンテカルロを含む絡み合い再正規化アルゴリズムの収縮コストのスケーリング

Scaling of contraction costs for entanglement renormalization algorithms including tensor Trotterization and variational Monte Carlo ( http://arxiv.org/abs/2407.21006v2 )

ライセンス: Link先を確認
Thomas Barthel, Qiang Miao, (参考訳) マルチスケールエンタングルメント再正規化アンサッツ(英: multi-scale entanglement renormalization ansatz、MERA)は、実空間再正規化群によって動機付けられたテンソルネットワーク状態の階層クラスである。 強い相関の量子多体系をシミュレートするために用いられる。 1次元と2次元の顕著なMERA構造に対して、縮尺コストの最適スケーリングと対応する縮尺シーケンスとアルゴリズム的位相図を決定する。 これは、MERAテンソルがトロッター化され、すなわち量子ゲートの回路として選択され、観測可能なだけでなく、エネルギー勾配が因果錐状態のサンプリングによって評価される、ハイブリッド量子古典アルゴリズムにMERAを採用する最近の取り組みによって動機づけられている。 テンソルトロッター化および/または変分モンテカルロ(VMC)サンプリングが、エネルギー勾配の正確な評価に基づいて、従来の完全なMERAの最適化よりも優れた量子インスパイアされた古典的MERAアルゴリズムを実現するかを検討する。 アルゴリズム位相図は、エネルギー精度のスケーリングと結合次元のトロッターステップの数に依存する最良のMERA法を示す。 その結果,2次元システムにおけるVMCによる大幅な向上が示唆された。

The multi-scale entanglement renormalization ansatz (MERA) is a hierarchical class of tensor network states motivated by the real-space renormalization group. It is used to simulate strongly correlated quantum many-body systems. For prominent MERA structures in one and two spatial dimensions, we determine the optimal scaling of contraction costs as well as corresponding contraction sequences and algorithmic phase diagrams. This is motivated by recent efforts to employ MERA in hybrid quantum-classical algorithms, where the MERA tensors are Trotterized, i.e., chosen as circuits of quantum gates, and observables as well as energy gradients are evaluated by sampling causal-cone states. We investigate whether tensor Trotterization and/or variational Monte Carlo (VMC) sampling can lead to quantum-inspired classical MERA algorithms that perform better than the traditional optimization of full MERA based on the exact evaluation of energy gradients. Algorithmic phase diagrams indicate the best MERA method depending on the scaling of the energy accuracy and the number of Trotter steps with the bond dimension. The results suggest substantial gains due to VMC for two-dimensional systems.
翻訳日:2024-09-12 20:22:30 公開日:2024-09-07
# EarthGen:トップダウンビューから世界を生成する

EarthGen: Generating the World from Top-Down Views ( http://arxiv.org/abs/2409.01491v2 )

ライセンス: Link先を確認
Ansh Sharma, Albert Xiao, Praneet Rathi, Rohit Kundu, Albert Zhai, Yuan Shen, Shenlong Wang, (参考訳) そこで本研究では,広域地形モデリングのための新しい手法を提案する。 我々のモデルの中核は超解像拡散モデルのカスケードであり、複数の解像度で一貫した画像を生成するために組み合わせることができる。 この概念をタイル状生成法で適用することで、数千平方kmのリアルな地球表面を高解像度で生成できるスケーラブルなシステムが得られる。 提案手法は,Bing Mapsから収集したデータセット上で評価し,超高解像度の1024倍ズーム処理において,超高解像度のベースラインよりも優れていることを示す。 また,対話型ギガピクセルスケール生成マップを用いて,多様でコヒーレントなシーンを作成できることを示す。 最後に、制御可能なワールドジェネレーションや3Dシーン生成を含む新しいコンテンツ作成アプリケーションを実現するために、我々のシステムをいかに拡張できるかを実証する。

In this work, we present a novel method for extensive multi-scale generative terrain modeling. At the core of our model is a cascade of superresolution diffusion models that can be combined to produce consistent images across multiple resolutions. Pairing this concept with a tiled generation method yields a scalable system that can generate thousands of square kilometers of realistic Earth surfaces at high resolution. We evaluate our method on a dataset collected from Bing Maps and show that it outperforms super-resolution baselines on the extreme super-resolution task of 1024x zoom. We also demonstrate its ability to create diverse and coherent scenes via an interactive gigapixel-scale generated map. Finally, we demonstrate how our system can be extended to enable novel content creation applications including controllable world generation and 3D scene generation.
翻訳日:2024-09-12 19:48:16 公開日:2024-09-07
# 自己監督型音声変換器における特性ニューロン

Property Neurons in Self-Supervised Speech Transformers ( http://arxiv.org/abs/2409.05910v1 )

ライセンス: Link先を確認
Tzu-Quan Lin, Guan-Ting Lin, Hung-yi Lee, Hao Tang, (参考訳) 自己教師型音声変換器,特にレイヤワイド分析の分野では,多くの研究がなされている。 しかしながら、特定の言語特性に責任を持つニューロンのサブセットを正確に特定し、プルーニングやモデル編集をモデル化できるアプローチが望ましい。 本研究では,トランスフォーマーのフィードフォワード層における特性ニューロンの集合を同定し,携帯電話,ジェンダー,ピッチなどの音声関連特性がどのように記憶されているかを検討する。 特定の特性のニューロンを除去する(モデル編集の簡単な形式)と、各下流性能は著しく低下し、特性ニューロンの重要性が示される。 モデルパラメータのほとんどが存在するトランスフォーマーでフィードフォワード層をプルーニングするために、このアプローチを適用します。 刈り込み時の特性ニューロンの保護は,通常の刈り込みよりも有意に効果的であることを示す。

There have been many studies on analyzing self-supervised speech Transformers, in particular, with layer-wise analysis. It is, however, desirable to have an approach that can pinpoint exactly a subset of neurons that is responsible for a particular property of speech, being amenable to model pruning and model editing. In this work, we identify a set of property neurons in the feedforward layers of Transformers to study how speech-related properties, such as phones, gender, and pitch, are stored. When removing neurons of a particular property (a simple form of model editing), the respective downstream performance significantly degrades, showing the importance of the property neurons. We apply this approach to pruning the feedforward layers in Transformers, where most of the model parameters are. We show that protecting property neurons during pruning is significantly more effective than norm-based pruning.
翻訳日:2024-09-11 22:10:02 公開日:2024-09-07
# アンロック電位バインダー:DNAエンコードライブラリーのマルチモーダルプレトレーニングDELフュージョン

Unlocking Potential Binders: Multimodal Pretraining DEL-Fusion for Denoising DNA-Encoded Libraries ( http://arxiv.org/abs/2409.05916v1 )

ライセンス: Link先を確認
Chunbin Gu, Mutian He, Hanqun Cao, Guangyong Chen, Chang-yu Hsieh, Pheng Ann Heng, (参考訳) 薬物発見の領域では、DNAエンコードライブラリー(DEL)スクリーニング技術が高親和性化合物を同定するための効率的な方法として登場した。 しかし、DELスクリーニングは、複雑な生物学的システム内の非特異的相互作用から生じるノイズという大きな課題に直面している。 DELライブラリーでトレーニングされたニューラルネットワークは、複合的な特徴を抽出するために使われ、データをノイズ化し、望まれる治療対象に対する潜在的なバインダーを明らかにすることを目的としている。 それでも、ブロックの多様性に制約されたDELの固有の構造は、複合エンコーダの性能に影響を及ぼす。 さらに,既存手法は複合的特徴を単一レベルでのみ捕捉し,デノナイジング戦略の有効性を制限している。 これらの問題を緩和するために,多モード事前学習型DEL-Fusionモデル (MPDF) を提案する。 本研究では,異なる複合表現とそれらのテキスト記述の対比対象を適用した事前学習タスクを開発し,複合エンコーダの汎用的特徴獲得能力を向上させる。 さらに, 種々の化合物エンコーダによって捕捉される原子, 分子, 分子レベルでの複合情報をアマルガメートする新しいDEL融合フレームワークを提案する。 これらのイノベーションの相乗効果は、リッチでマルチスケールな機能を備えたMDPを装備し、包括的な下流のデノーミングを可能にしている。 3つのDELデータセットに基づいて評価し、MDPは検証タスクのデータ処理および分析において優れた性能を示す。 特に、MDPは高親和性分子の同定に関する新しい知見を提供し、薬物発見におけるDELの有用性を改善する道を開く。

In the realm of drug discovery, DNA-encoded library (DEL) screening technology has emerged as an efficient method for identifying high-affinity compounds. However, DEL screening faces a significant challenge: noise arising from nonspecific interactions within complex biological systems. Neural networks trained on DEL libraries have been employed to extract compound features, aiming to denoise the data and uncover potential binders to the desired therapeutic target. Nevertheless, the inherent structure of DEL, constrained by the limited diversity of building blocks, impacts the performance of compound encoders. Moreover, existing methods only capture compound features at a single level, further limiting the effectiveness of the denoising strategy. To mitigate these issues, we propose a Multimodal Pretraining DEL-Fusion model (MPDF) that enhances encoder capabilities through pretraining and integrates compound features across various scales. We develop pretraining tasks applying contrastive objectives between different compound representations and their text descriptions, enhancing the compound encoders' ability to acquire generic features. Furthermore, we propose a novel DEL-fusion framework that amalgamates compound information at the atomic, submolecular, and molecular levels, as captured by various compound encoders. The synergy of these innovations equips MPDF with enriched, multi-scale features, enabling comprehensive downstream denoising. Evaluated on three DEL datasets, MPDF demonstrates superior performance in data processing and analysis for validation tasks. Notably, MPDF offers novel insights into identifying high-affinity molecules, paving the way for improved DEL utility in drug discovery.
翻訳日:2024-09-11 22:10:02 公開日:2024-09-07
# 確率的誤差モデルに基づくグラフ畳み込みニューラルネットワークの感度

Graph Convolutional Neural Networks Sensitivity under Probabilistic Error Model ( http://arxiv.org/abs/2203.07831v5 )

ライセンス: Link先を確認
Xinjue Wang, Esa Ollila, Sergiy A. Vorobyov, (参考訳) グラフニューラルネットワーク(GNN)、特にグラフ畳み込みニューラルネットワーク(GCNN)は、グラフ構造化データを処理するための機械学習と信号処理において重要な手段として登場した。 本稿では,GCNNの確率的グラフ摂動に対する感度を解析し,グラフシフト演算子(GSO)に直接影響する分析フレームワークを提案する。 本研究は,GCNNの各層におけるGSO摂動と結果の出力差との線形関係を明らかにする。 この線形性は、単一層GCNNがグラフエッジの摂動の下で安定性を維持し、GSO誤差が摂動スケールによらず有界であることを示す。 多層GCNNの場合、GSO摂動に対するシステムの出力差の依存性は線形性の再帰であることが示されている。 最後に、GIN(Graph Isomorphism Network)とSGCN(Simple Graph Convolution Network)でフレームワークを実証する。 実験は、我々の理論的導出とアプローチの有効性を検証する。

Graph Neural Networks (GNNs), particularly Graph Convolutional Neural Networks (GCNNs), have emerged as pivotal instruments in machine learning and signal processing for processing graph-structured data. This paper proposes an analysis framework to investigate the sensitivity of GCNNs to probabilistic graph perturbations, directly impacting the graph shift operator (GSO). Our study establishes tight expected GSO error bounds, which are explicitly linked to the error model parameters, and reveals a linear relationship between GSO perturbations and the resulting output differences at each layer of GCNNs. This linearity demonstrates that a single-layer GCNN maintains stability under graph edge perturbations, provided that the GSO errors remain bounded, regardless of the perturbation scale. For multilayer GCNNs, the dependency of system's output difference on GSO perturbations is shown to be a recursion of linearity. Finally, we exemplify the framework with the Graph Isomorphism Network (GIN) and Simple Graph Convolution Network (SGCN). Experiments validate our theoretical derivations and the effectiveness of our approach.
翻訳日:2024-09-11 06:18:42 公開日:2024-09-07
# バースト伝搬を用いたマルチモーダル音声強調

Multimodal Speech Enhancement Using Burst Propagation ( http://arxiv.org/abs/2209.03275v3 )

ライセンス: Link先を確認
Mohsin Raza, Leandro A. Passos, Ahmed Khubaib, Ahsan Adeel, (参考訳) 本稿では,前頭前皮質および他の脳領域の錐体細胞に関する最新の神経学的発見を考察した,音声・視覚音声強調のための新しいマルチモーダルソリューションMBURSTを提案する。 いわゆるバースト伝搬は、フィードバックによる可塑性のサインと大きさの操り、異なる重み接続による層間のフィードバックとフィードフォワード情報の多重化、フィードバックとフィードフォワード接続の近似、フィードバック信号の線形化など、より生物学的に妥当な方法で信用割当問題に取り組むためのいくつかの基準を実装している。 MBURSTは、雑音信号と視覚刺激の相関関係を学習する能力の恩恵を受け、関連する情報を増幅し、雑音を抑制することによって、音声に意味をもたらす。 Grid Corpus と CHiME3 をベースとしたデータセットを用いて行った実験では、MBURST はマルチモーダルバックプロパゲーションベースのベースラインに類似したマスク再構成を再現でき、エネルギー効率の優れた管理を証明し、ニューロンの発火速度を \textbf{$70\%$} 以下の値に下げることができた。 このような機能は、より持続可能な実装であり、補聴器や他の類似の組込みシステムに適していることを意味する。

This paper proposes the MBURST, a novel multimodal solution for audio-visual speech enhancements that consider the most recent neurological discoveries regarding pyramidal cells of the prefrontal cortex and other brain regions. The so-called burst propagation implements several criteria to address the credit assignment problem in a more biologically plausible manner: steering the sign and magnitude of plasticity through feedback, multiplexing the feedback and feedforward information across layers through different weight connections, approximating feedback and feedforward connections, and linearizing the feedback signals. MBURST benefits from such capabilities to learn correlations between the noisy signal and the visual stimuli, thus attributing meaning to the speech by amplifying relevant information and suppressing noise. Experiments conducted over a Grid Corpus and CHiME3-based dataset show that MBURST can reproduce similar mask reconstructions to the multimodal backpropagation-based baseline while demonstrating outstanding energy efficiency management, reducing the neuron firing rates to values up to \textbf{$70\%$} lower. Such a feature implies more sustainable implementations, suitable and desirable for hearing aids or any other similar embedded systems.
翻訳日:2024-09-11 06:18:42 公開日:2024-09-07
# ネット価値のノウハウ、成長、保護:オーバードラフトの防止によるアセット保護にMLを使用する

Know, Grow, and Protect Net Worth: Using ML for Asset Protection by Preventing Overdraft Fees ( http://arxiv.org/abs/2302.02455v2 )

ライセンス: Link先を確認
Avishek Kumar, Tyson Silver, (参考訳) 顧客が銀行口座をオーバーロードし、その残高が負の場合には、オーバードラフト手数料が評価される。 アメリカ人は年間約1500億ドル(約1兆5500億円)の不要なオーバードラフト手数料を支払っており、しばしば35ドル(約3億5000万円)のインクリメントで支払い、Mintの個人金融アプリのユーザーは年間約250万ドル(約2億5000万円)の手数料を支払う。 これらのオーバードラフト手数料は、過剰な財政負担であり、顧客を金融難に陥れるようなオーバードラフト手数料に繋がる。 この問題に対処するため、私たちはML駆動の早期警告システム(ODEWS)を作成しました。 リスクの高い顧客にはアラートが送られ、料金を回避するためのステップを踏むことができ、最終的に行動や金融の習慣を変えることができる。 このシステムはMintの顧客に対して、コントロールグループに比べて300万ドルを節約した。 さらに、ここで概説する方法論は、ML主導のパーソナライズされた金融アドバイスを提供することによって、メンバーが自分たちの純価値を知り、成長し、保護し、最終的には財務目標を達成するのに役立つ、という大きな取り組みの一部です。

When a customer overdraws their bank account and their balance is negative they are assessed an overdraft fee. Americans pay approximately \$15 billion in unnecessary overdraft fees a year, often in \$35 increments; users of the Mint personal finance app pay approximately \$250 million in fees a year in particular. These overdraft fees are an excessive financial burden and lead to cascading overdraft fees trapping customers in financial hardship. To address this problem, we have created an ML-driven overdraft early warning system (ODEWS) that assesses a customer's risk of overdrafting within the next week using their banking and transaction data in the Mint app. At-risk customers are sent an alert so they can take steps to avoid the fee, ultimately changing their behavior and financial habits. The system deployed resulted in a \$3 million savings in overdraft fees for Mint customers compared to a control group. Moreover, the methodology outlined here is part of a greater effort to provide ML-driven personalized financial advice to help our members know, grow, and protect their net worth, ultimately, achieving their financial goals.
翻訳日:2024-09-11 06:18:42 公開日:2024-09-07
# GP-PCS:リーマン多様体上のガウス過程によるワンショット特徴保存点雲の単純化

GP-PCS: One-shot Feature-Preserving Point Cloud Simplification with Gaussian Processes on Riemannian Manifolds ( http://arxiv.org/abs/2303.15225v4 )

ライセンス: Link先を確認
Stuti Pathak, Thomas M. McDonald, Seppe Sels, Rudi Penne, (参考訳) 大規模なポイントクラウドの処理、ストレージ、送信は、コンピュータビジョンコミュニティにおいて進行中の課題であり、自律運転、バーチャルリアリティ、リモートセンシングといった現実の環境への3Dモデルの適用の進歩を妨げる。 本研究では,従来の表面再構成工程を使わずに,点雲の健全な構造的特徴と全体形状の両方を保存できる新しい一発点雲簡易化法を提案する。 この手法はリーマン多様体上で定義される関数に適したガウス過程を用いており、任意の点群をまたいだ曲面変動関数をモデル化することができる。 グリーディスペーシフィケーションスキームを用いて点を順次選択し、原雲の簡易版を得る。 このスキームで使用される選択基準は、単純化された雲が元の点雲の表面の変化を最もよく表すことを保証している。 提案手法は,複数のベンチマークおよび自己取得点クラウド上で評価し,既存の手法と比較し,登録および表面再構成の下流タスクにおける適用を実証し,実験性能と計算効率の両面で競合することを示す。 コードは \href{https://github.com/stutipathak5/gps-for-point-clouds}{https://github.com/stutipathak5/gps-for-point-clouds} で公開されている。

The processing, storage and transmission of large-scale point clouds is an ongoing challenge in the computer vision community which hinders progress in the application of 3D models to real-world settings, such as autonomous driving, virtual reality and remote sensing. We propose a novel, one-shot point cloud simplification method which preserves both the salient structural features and the overall shape of a point cloud without any prior surface reconstruction step. Our method employs Gaussian processes suitable for functions defined on Riemannian manifolds, allowing us to model the surface variation function across any given point cloud. A simplified version of the original cloud is obtained by sequentially selecting points using a greedy sparsification scheme. The selection criterion used for this scheme ensures that the simplified cloud best represents the surface variation of the original point cloud. We evaluate our method on several benchmark and self-acquired point clouds, compare it to a range of existing methods, demonstrate its application in downstream tasks of registration and surface reconstruction, and show that our method is competitive both in terms of empirical performance and computational efficiency. The code is available at \href{https://github.com/stutipathak5/gps-for-point-clouds}{https://github.com/stutipathak5/gps-for-point-clouds}.
翻訳日:2024-09-11 06:18:42 公開日:2024-09-07
# 時間的グループ化と空間的グラウンド化による構造化ビデオ言語モデリング

Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding ( http://arxiv.org/abs/2303.16341v3 )

ライセンス: Link先を確認
Yuanhao Xiong, Long Zhao, Boqing Gong, Ming-Hsuan Yang, Florian Schroff, Ting Liu, Cho-Jui Hsieh, Liangzhe Yuan, (参考訳) 既存のビデオ言語事前学習手法は主に、ビデオクリップとキャプション間のインスタンスレベルのアライメントをグローバルなコントラスト学習を通じて重視するが、ビデオとテキストの双方において、豊富なきめ細かい局所情報を無視する。 映像クリップ中の領域オブジェクトの対応を捉え,空間的および時間的粒度を反映したシーン変化を認識できる強力なモデルが期待されている。 そこで本研究では,これらの2つのモードの内在的構造を利用して,モデル理解をより詳細なものにするために,シンプルで効果的なビデオ言語モデリングフレームワークであるS-ViLMを提案する。 同時に、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリック間空間接地とクリック内時間グループ化という2つの新しい設計が含まれている。 包括的評価により、S-ViLMはより表現力のある表現を学習する既存のアプローチに対して好適に機能することが示された。 具体的には、S-ViLMは、テキストビデオ検索、ビデオ質問応答、ビデオ行動認識、時間的行動ローカライゼーションの4つのタスクにおいて、最先端の手法を大幅に超えている。

Existing video-language pre-training methods primarily focus on instance-level alignment between video clips and captions via global contrastive learning but neglect rich fine-grained local information in both videos and text, which is of importance to downstream tasks requiring temporal localization and semantic reasoning. A powerful model is expected to be capable of capturing region-object correspondences and recognizing scene changes in a video clip, reflecting spatial and temporal granularity, respectively. To strengthen model's understanding into such fine-grained details, we propose a simple yet effective video-language modeling framework, S-ViLM, by exploiting the intrinsic structures of these two modalities. It includes two novel designs, inter-clip spatial grounding and intra-clip temporal grouping, to promote learning region-object alignment and temporal-aware features, simultaneously. Comprehensive evaluations demonstrate that S-ViLM performs favorably against existing approaches in learning more expressive representations. Specifically, S-ViLM surpasses the state-of-the-art methods substantially on four representative downstream tasks, covering text-video retrieval, video question answering, video action recognition, and temporal action localization.
翻訳日:2024-09-11 04:24:51 公開日:2024-09-07
# Pythonのためのスケーラブルで高精度なアプリケーション中心のコールグラフ構築

Scalable and Precise Application-Centered Call Graph Construction for Python ( http://arxiv.org/abs/2305.05949v4 )

ライセンス: Link先を確認
Kaifeng Huang, Yixuan Yan, Bihuan Chen, Zixin Tao, Yulei Sui, Xin Peng, (参考訳) コールグラフ構築は、手続き間静的解析の基礎である。 PYCGはPythonプログラムのコールグラフを構築するための最先端のアプローチである。 残念ながら、PyCGは、アプリケーションと依存ライブラリの両方が解析されるプログラム全体の解析に適応する場合、大規模プログラムにはスケールしない。 さらに、PyCGはフローに敏感であり、Pythonの機能を完全にサポートしていないため、その正確さを妨げている。 このような欠点を克服するために,Pythonプログラム用のアプリケーション中心のコールグラフを構築するためのスケーラブルで正確なアプローチを提案し,プロトタイプツールであるJARVISとして実装する。 JARVISは、型推論を可能にするプログラムの各関数の型グラフ(すなわち、プログラム識別子の型関係)を保持する。 1つの関数を入力として、JARVISはオンザフライでコールグラフを生成し、フローセンシティブなイントラプロデューラル解析とイントラプロデューラル解析を交互に行い、強力な更新を行う。 135個のPythonプログラムのマイクロベンチマークと6個の実世界のPythonアプリケーションのマクロベンチマークによる評価は、JARVISがPYCGを少なくとも67%高速化し、精度が84%向上し、リコール時に少なくとも20%向上できることを示した。

Call graph construction is the foundation of inter-procedural static analysis. PYCG is the state-of-the-art approach for constructing call graphs for Python programs. Unfortunately, PyCG does not scale to large programs when adapted to whole-program analysis where application and dependent libraries are both analyzed. Moreover, PyCG is flow-insensitive and does not fully support Python's features, hindering its accuracy. To overcome these drawbacks, we propose a scalable and precise approach for constructing application-centered call graphs for Python programs, and implement it as a prototype tool JARVIS. JARVIS maintains a type graph (i.e., type relations of program identifiers) for each function in a program to allow type inference. Taking one function as an input, JARVIS generates the call graph on-the-fly, where flow-sensitive intra-procedural analysis and inter-procedural analysis are conducted in turn and strong updates are conducted. Our evaluation on a micro-benchmark of 135 small Python programs and a macro-benchmark of 6 real-world Python applications has demonstrated that JARVIS can significantly improve PYCG by at least 67% faster in time, 84% higher in precision, and at least 20% higher in recall.
翻訳日:2024-09-11 04:24:51 公開日:2024-09-07
# Naeural AI OS -- 分散ユビキタスコンピューティングMLOps実行エンジン

Naeural AI OS -- Decentralized ubiquitous computing MLOps execution engine ( http://arxiv.org/abs/2306.08708v4 )

ライセンス: Link先を確認
Beatrice Milik, Stefan Saraev, Cristian Bleotiu, Radu Lupaescu, Bogdan Hobeanu, Andrei Ionut Damian, (参考訳) 過去数年間、ユビキタス、あるいは広く普及したコンピューティングは、エンタープライズグレードシステム、コンシューマアプリケーション、ゲームシステムなど、幅広いアプリケーションの主要なアプローチとして人気を集めてきた。 ユビキタスコンピューティング(ユビキタスコンピューティング、Ubiquitous Computing)とは、コンピュータ技術を日常のオブジェクトや環境に統合し、相互や人間と通信可能な相互接続されたデバイスのネットワークを構築することを指す。 ユビキタスコンピューティング技術を使用することで、コミュニティはよりつながりやすく、効率的になり、メンバーはコミュニケーションやコラボレーションがより容易になる。 これによって相互接続性とコラボレーションが,より成功し,持続可能なコミュニティに結びつくのです。 しかし、ユビキタスコンピューティングの普及は、自動化学習とスマートアプリケーション全般の重要性を強調している。 人工知能とディープラーニングには大きな進歩があったが、高価で複雑なクラウド数値計算インフラに圧力がかかるため、大規模な採用が妨げられている。 実践的な機械学習システムの採用や開発には、複雑なインフラストラクチャだけでなく、データサイエンスや機械学習の専門知識の面でも、禁止的なコストが伴う。 本稿では、エンド・ツー・エンドのAI協調アプリケーションパイプラインのローコード開発と展開のための革新的なアプローチを提案する。 我々は、トークン化経済に基づいて、完全に分散したグローバルな協力コミュニティにおけるインフラ割り当て、コスト、および安全な雇用分配について論じる。

Over the past few years, ubiquitous, or pervasive computing has gained popularity as the primary approach for a wide range of applications, including enterprise-grade systems, consumer applications, and gaming systems. Ubiquitous computing refers to the integration of computing technologies into everyday objects and environments, creating a network of interconnected devices that can communicate with each other and with humans. By using ubiquitous computing technologies, communities can become more connected and efficient, with members able to communicate and collaborate more easily. This enabled interconnectedness and collaboration can lead to a more successful and sustainable community. The spread of ubiquitous computing, however, has emphasized the importance of automated learning and smart applications in general. Even though there have been significant strides in Artificial Intelligence and Deep Learning, large scale adoption has been hesitant due to mounting pressure on expensive and highly complex cloud numerical-compute infrastructures. Adopting, and even developing, practical machine learning systems can come with prohibitive costs, not only in terms of complex infrastructures but also of solid expertise in Data Science and Machine Learning. In this paper we present an innovative approach for low-code development and deployment of end-to-end AI cooperative application pipelines. We address infrastructure allocation, costs, and secure job distribution in a fully decentralized global cooperative community based on tokenized economics.
翻訳日:2024-09-11 04:13:49 公開日:2024-09-07
# 自然言語推論のための複合構成知識評価のための合成データセット

Synthetic Dataset for Evaluating Complex Compositional Knowledge for Natural Language Inference ( http://arxiv.org/abs/2307.05034v3 )

ライセンス: Link先を確認
Sushma Anand Akoju, Robert Vacareanu, Haris Riaz, Eduardo Blanco, Mihai Surdeanu, (参考訳) 本稿では,SICCK(Sentences Involving Complex Compositional Knowledge)と呼ばれる合成データセットと,自然言語推論(NLI)モデルの性能を解析して,論理学における構成性を理解する新しい分析手法を提案する。 SICKデータセット(Marelli et al , 2014)から15個の例を修正して1,304個の文対を生成する。 そこで我々は,NL(Natural Logic, MacCartney, 2009)における普遍的量化子, 存在量化子, 否定, その他の概念修飾子に対応する修飾子, 句の集合を用いて原文を修正した。 我々はこれらのフレーズを用いて、前提と仮説の主題、動詞、および対象部分を変更する。 最後に、これらの修正テキストに、NLルールに従って対応するエンテーメントラベルをアノテートする。 我々は、ゼロショットと微調整の両方のシナリオにおいて、ニューラルネットワークNLIモデルによって構造的および意味的構成の変化がどの程度うまく捉えられるかを予備検証する。 ゼロショット条件下でのNLIモデルの性能は,特に否定と存在量化を伴う修正文では不十分であることがわかった。 このデータセットを微調整した後、モデルが否定、存在的、普遍的な修飾子よりも性能が低いことを観察する。

We introduce a synthetic dataset called Sentences Involving Complex Compositional Knowledge (SICCK) and a novel analysis that investigates the performance of Natural Language Inference (NLI) models to understand compositionality in logic. We produce 1,304 sentence pairs by modifying 15 examples from the SICK dataset (Marelli et al., 2014). To this end, we modify the original texts using a set of phrases - modifiers that correspond to universal quantifiers, existential quantifiers, negation, and other concept modifiers in Natural Logic (NL) (MacCartney, 2009). We use these phrases to modify the subject, verb, and object parts of the premise and hypothesis. Lastly, we annotate these modified texts with the corresponding entailment labels following NL rules. We conduct a preliminary verification of how well the change in the structural and semantic composition is captured by neural NLI models, in both zero-shot and fine-tuned scenarios. We found that the performance of NLI models under the zero-shot setting is poor, especially for modified sentences with negation and existential quantifiers. After fine-tuning this dataset, we observe that models continue to perform poorly over negation, existential and universal modifiers.
翻訳日:2024-09-11 04:13:49 公開日:2024-09-07
# 自己監督型埋め込みと拡張トラクト変数による音声インバージョンの改善

Improving Speech Inversion Through Self-Supervised Embeddings and Enhanced Tract Variables ( http://arxiv.org/abs/2309.09220v2 )

ライセンス: Link先を確認
Ahmed Adel Attia, Yashish M. Siriwardena, Carol Espy-Wilson, (参考訳) ディープラーニングモデルの性能は、入力機能を効率的にエンコードし、それらを意味のある出力にデコードする能力に大きく依存する。 より優れた入力および出力表現は、モデルの性能と一般化を促進する可能性がある。 本稿では,従来の音響特性と比較して,HuBERTのような自己教師付き学習(SSL)モデルを用いて得られた音声表現を活用することの影響について検討する。 さらに, 改良された幾何学的変換モデルを用いて, 新規なトラクション変数(TV)の組込みについて検討する。 これら2つのアプローチを組み合わせることで、PSMC(Pearson Product-Moment correlation)スコアを改善し、SIシステムのTV推定精度を0.7452から0.8141へと6.9%向上させた。 本研究は、SSLモデルによるリッチな特徴表現の深い影響と、SIシステムの強化機能に対するターゲットテレビによる幾何学的変換の改善を裏付けるものである。

The performance of deep learning models depends significantly on their capacity to encode input features efficiently and decode them into meaningful outputs. Better input and output representation has the potential to boost models' performance and generalization. In the context of acoustic-to-articulatory speech inversion (SI) systems, we study the impact of utilizing speech representations acquired via self-supervised learning (SSL) models, such as HuBERT compared to conventional acoustic features. Additionally, we investigate the incorporation of novel tract variables (TVs) through an improved geometric transformation model. By combining these two approaches, we improve the Pearson product-moment correlation (PPMC) scores which evaluate the accuracy of TV estimation of the SI system from 0.7452 to 0.8141, a 6.9% increase. Our findings underscore the profound influence of rich feature representations from SSL models and improved geometric transformations with target TVs on the enhanced functionality of SI systems.
翻訳日:2024-09-11 04:03:29 公開日:2024-09-07
# HowToCaption: LLMを使ってビデオアノテーションを大規模に変換する

HowToCaption: Prompting LLMs to Transform Video Annotations at Scale ( http://arxiv.org/abs/2310.04900v2 )

ライセンス: Link先を確認
Nina Shvetsova, Anna Kukleva, Xudong Hong, Christian Rupprecht, Bernt Schiele, Hilde Kuehne, (参考訳) インストラクショナルビデオは、ビデオ中の音声信号から自動音声認識システム(ASR)で抽出された字幕を活用することで、テキストビデオやマルチモーダル表現を学ぶための共通の情報源である。 しかし、人間の注釈付きキャプションとは対照的に、音声と字幕はビデオの視覚的内容と自然に異なり、ノイズの多い監督しか提供しない。 その結果、大規模なアノテーションなしWebビデオトレーニングデータは、テキストビデオモデルのトレーニングに最適である。 本研究では,大規模言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。 具体的には、命令ビデオのASR字幕に基づいて、LCMにプラウシブルな動画キャプションを作成するよう促す。 この目的のために,より長い字幕テキストを考慮に入れたプロンプト方式を導入し,一つの文以上の文脈情報をキャプチャする。 さらに,各字幕のタイムスタンプに基づいて各字幕のタイムスタンプを生成し,生成した字幕を時間的にビデオに合わせるように促す。 このようにして、人間の監督なしに、大規模に人間のスタイルの動画キャプションを得る。 我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。 評価の結果, テキスト・ビデオ検索やビデオ・キャプションのための多くのベンチマーク・データセットと比較して, 得られたキャプションの性能が著しく向上しただけでなく, 音声からテキスト・ナレーションが切り離され, テキスト・ビデオ・オーディオタスクのパフォーマンスが向上した。

Instructional videos are a common source for learning text-video or even multimodal representations by leveraging subtitles extracted with automatic speech recognition systems (ASR) from the audio signal in the videos. However, in contrast to human-annotated captions, both speech and subtitles naturally differ from the visual content of the videos and thus provide only noisy supervision. As a result, large-scale annotation-free web video training data remains sub-optimal for training text-video models. In this work, we propose to leverage the capabilities of large language models (LLMs) to obtain high-quality video descriptions aligned with videos at scale. Specifically, we prompt an LLM to create plausible video captions based on ASR subtitles of instructional videos. To this end, we introduce a prompting method that is able to take into account a longer text of subtitles, allowing us to capture the contextual information beyond one single sentence. We further prompt the LLM to generate timestamps for each produced caption based on the timestamps of the subtitles and finally align the generated captions to the video temporally. In this way, we obtain human-style video captions at scale without human supervision. We apply our method to the subtitles of the HowTo100M dataset, creating a new large-scale dataset, HowToCaption. Our evaluation shows that the resulting captions not only significantly improve the performance over many different benchmark datasets for zero-shot text-video retrieval and video captioning, but also lead to a disentangling of textual narration from the audio, boosting the performance in text-video-audio tasks.
翻訳日:2024-09-11 04:03:29 公開日:2024-09-07
# 大規模言語モデルの時代におけるソフトウェア工学の感性分析の再検討

Revisiting Sentiment Analysis for Software Engineering in the Era of Large Language Models ( http://arxiv.org/abs/2310.11113v3 )

ライセンス: Link先を確認
Ting Zhang, Ivana Clairine Irsan, Ferdian Thung, David Lo, (参考訳) ソフトウェア開発は、様々なプラットフォームで利害関係者が意見を述べるような協調的な相互作用を伴う。 これらの相互作用で伝達される感情を認識することは、ソフトウェアシステムの効果的な開発と継続的なメンテナンスに不可欠です。 ソフトウェア製品では、ユーザからのフィードバック、レビュー、コメント、フォーラム投稿の感情を分析することで、ユーザの満足度や改善すべき領域に関する貴重な洞察を得ることができる。 これは将来のアップデートと機能の開発を導くことができる。 しかし、ソフトウェアエンジニアリングデータセットの感情を正確に識別することは依然として難しい。 本研究では,ソフトウェア工学のタスクにおいて,小さな言語モデル (sLLM) を微調整したラベル付きデータ不足に対処する際の大規模言語モデル (bLLM) について検討する。 5つの確立されたデータセットを用いて、ゼロショットと少数ショットのシナリオで3つのオープンソースのbLLMを評価する。 さらに,ソフトウェアプラットフォームからテキストのコンテキスト埋め込みを学習するために,sLLMを用いて微調整したsLLMと比較した。 実験により,bLLMsは訓練データと不均衡分布に制限されたデータセットに対して最先端の性能を示すことが示された。 bLLMはゼロショット設定でも優れた性能が得られる。 しかし、十分なトレーニングデータやデータセットがよりバランスの取れた分布を示す場合、微調整されたsLLMは依然として優れた結果が得られる。

Software development involves collaborative interactions where stakeholders express opinions across various platforms. Recognizing the sentiments conveyed in these interactions is crucial for the effective development and ongoing maintenance of software systems. For software products, analyzing the sentiment of user feedback, e.g., reviews, comments, and forum posts can provide valuable insights into user satisfaction and areas for improvement. This can guide the development of future updates and features. However, accurately identifying sentiments in software engineering datasets remains challenging. This study investigates bigger large language models (bLLMs) in addressing the labeled data shortage that hampers fine-tuned smaller large language models (sLLMs) in software engineering tasks. We conduct a comprehensive empirical study using five established datasets to assess three open-source bLLMs in zero-shot and few-shot scenarios. Additionally, we compare them with fine-tuned sLLMs, using sLLMs to learn contextual embeddings of text from software platforms. Our experimental findings demonstrate that bLLMs exhibit state-of-the-art performance on datasets marked by limited training data and imbalanced distributions. bLLMs can also achieve excellent performance under a zero-shot setting. However, when ample training data is available or the dataset exhibits a more balanced distribution, fine-tuned sLLMs can still achieve superior results.
翻訳日:2024-09-11 03:52:53 公開日:2024-09-07
# ニューラルネットワークによる階層型車両ルーティング問題の解法

Genetic Algorithms with Neural Cost Predictor for Solving Hierarchical Vehicle Routing Problems ( http://arxiv.org/abs/2310.14157v4 )

ライセンス: Link先を確認
Abhay Sobhanan, Junyoung Park, Jinkyoo Park, Changhyun Kwon, (参考訳) 車両の経路決定が高次決定と連動する場合、結果の最適化問題は計算に重大な課題をもたらす。 例えば、顧客が配送前にデポに割り当てられるマルチデポの車両ルーティング問題(MDVRP)や、最初にデポの位置を決定するキャパシタイトされた位置ルーティング問題(CLRP)などがある。 このような階層的な問題に対する単純で簡単なアプローチは、高レベルの決定を複雑な車両のルーティング決定から分離することである。 各上位決定候補について、その候補を評価するために、基礎となる車両経路問題を評価することができる。 このアプローチでは、車両ルーティングの問題を複数回解決する必要があるため、ほとんどの場合、非現実的とみなされている。 本稿では,遺伝的アルゴリズムとニューラルコスト予測器(GANCP)を併用した新しいディープラーニング手法を提案する。 各上位決定候補に対して,事前学習したグラフニューラルネットワークを用いて,実際のルーティング問題を解くことなく,基礎となる車両ルーティング問題の目的関数値を予測する。 特に,提案するニューラルネットワークは,静電容量化車両ルーティング問題を解決するHGS-CVRPオープンソースパッケージの目的値について学習する。 この単純化手法はMDVRPとCLRPの両方の高品質な解を生成する上で効果的であり,複雑な階層問題に対するアルゴリズム開発を高速化する可能性が示唆された。 文献で使用される標準ベンチマークインスタンスで評価された計算結果を提供する。

When vehicle routing decisions are intertwined with higher-level decisions, the resulting optimization problems pose significant challenges for computation. Examples are the multi-depot vehicle routing problem (MDVRP), where customers are assigned to depots before delivery, and the capacitated location routing problem (CLRP), where the locations of depots should be determined first. A simple and straightforward approach for such hierarchical problems would be to separate the higher-level decisions from the complicated vehicle routing decisions. For each higher-level decision candidate, we may evaluate the underlying vehicle routing problems to assess the candidate. As this approach requires solving vehicle routing problems multiple times, it has been regarded as impractical in most cases. We propose a novel deep-learning-based approach called Genetic Algorithm with Neural Cost Predictor (GANCP) to tackle the challenge and simplify algorithm developments. For each higher-level decision candidate, we predict the objective function values of the underlying vehicle routing problems using a pre-trained graph neural network without actually solving the routing problems. In particular, our proposed neural network learns the objective values of the HGS-CVRP open-source package that solves capacitated vehicle routing problems. Our numerical experiments show that this simplified approach is effective and efficient in generating high-quality solutions for both MDVRP and CLRP and has the potential to expedite algorithm developments for complicated hierarchical problems. We provide computational results evaluated in the standard benchmark instances used in the literature.
翻訳日:2024-09-11 03:52:53 公開日:2024-09-07
# プラジアリズム検出のための高精度かつ効率的な近接探索のための群検定

Group Testing for Accurate and Efficient Range-Based Near Neighbor Search for Plagiarism Detection ( http://arxiv.org/abs/2311.02573v2 )

ライセンス: Link先を確認
Harsh Shah, Kashish Mittal, Ajit Rajwade, (参考訳) 本研究は, 近接探索問題に対する適応型群検定フレームワークを提案する。 本研究では,データベース内の各項目を問合せ点の隣人あるいは非隣人として,余剰距離閾値に基づいて効率よくマークする。 大規模検索の他の方法と同様に、我々の手法は、データベース内のほとんどの項目がクエリと無関係であるという仮定を利用する。 しかし、クエリベクトルのコサイン類似性は、最も関係の低い隣人と、非隣人でない隣人との間に大きな違いは生じない。 バイナリ分割に基づく多段階適応型グループテストアルゴリズムに従い、各ステップで検索対象の項目の集合を半分に分割し、より小さなサブセットでドット製品テストを行う。 本手法は,ソフトマックスに基づく特徴量を用いて,様々な大規模データセットを用いて,完全探索よりも10倍以上の高速化を実現していることを示す。 実験により検証されたコサイン距離分布モデルに基づいて,クエリ毎の距離計算の期待数と,プールが刈り取られる確率を理論的に解析する。 我々の手法には以下の特徴がある。 (i)他の方法と異なり、コサイン距離の有用な分布特性を暗黙的に活用する。 (ii) 必要なデータ構造はすべて、純粋にオフラインで作成されます。 三 隣人の実数について強い前提を課さないこと。 (iv)データベースに新しいベクターを動的に追加するストリーミング設定に適応し、 (v)パラメータチューニングは一切必要ありません。 この手法は,クエリと十分に類似した全てのデータベース項目を報告することが重要となる,盗作検出シナリオに特に適している。

This work presents an adaptive group testing framework for the range-based high dimensional near neighbor search problem. Our method efficiently marks each item in a database as neighbor or non-neighbor of a query point, based on a cosine distance threshold without exhaustive search. Like other methods for large scale retrieval, our approach exploits the assumption that most of the items in the database are unrelated to the query. However, it does not assume a large difference between the cosine similarity of the query vector with the least related neighbor and that with the least unrelated non-neighbor. Following a multi-stage adaptive group testing algorithm based on binary splitting, we divide the set of items to be searched into half at each step, and perform dot product tests on smaller and smaller subsets, many of which we are able to prune away. We show that, using softmax-based features, our method achieves a more than ten-fold speed-up over exhaustive search with no loss of accuracy, on a variety of large datasets. Based on empirically verified models for the distribution of cosine distances, we present a theoretical analysis of the expected number of distance computations per query and the probability that a pool will be pruned. Our method has the following features: (i) It implicitly exploits useful distributional properties of cosine distances unlike other methods; (ii) All required data structures are created purely offline; (iii) It does not impose any strong assumptions on the number of true near neighbors; (iv) It is adaptable to streaming settings where new vectors are dynamically added to the database; and (v) It does not require any parameter tuning. The high recall of our technique makes it particularly suited to plagiarism detection scenarios where it is important to report every database item that is sufficiently similar item to the query.
翻訳日:2024-09-11 03:52:53 公開日:2024-09-07
# PSST: 評価駆動型テキスト公開発話スタイル転送のためのベンチマーク

PSST: A Benchmark for Evaluation-driven Text Public-Speaking Style Transfer ( http://arxiv.org/abs/2311.08389v2 )

ライセンス: Link先を確認
Huashan Sun, Yixiao Wu, Yuhao Ye, Yizhe Yang, Yinghao Li, Jiawei Li, Yang Gao, (参考訳) 言語スタイルは、AIシステムが多様な人間の言語を正確に理解し、生成するために必要である。 しかし、従来のテキストスタイルの転送は、主に文レベルのデータ駆動アプローチ、大きな言語モデル(LLM)の潜在的な問題の調査、複雑なアプリケーションのニーズを満たす能力に重点を置いていた。 これらの制約を克服するために,公共講演スタイル転送(PSST)と呼ばれる新しいタスクを導入する。 言語の観点からの実世界のデータ分析を基礎として,公用語のスタイルを重要なサブスタイルに分解し,課題に対処し,LLMのスタイルモデリング能力を定量化する。 このような複雑なテキストスタイルの転送のために、我々はさらに、その特徴を分析し、スタイリングされたテキストの問題を識別するためのきめ細かい評価フレームワークを提案する。 総合的な実験から、現在のLLMは、過度なスタイリゼーションと意味情報の喪失により、人間の嗜好に沿った公用語のテキストを生成するのに苦労していることが示唆されている。

Language style is necessary for AI systems to understand and generate diverse human language accurately. However, previous text style transfer primarily focused on sentence-level data-driven approaches, limiting exploration of potential problems in large language models (LLMs) and the ability to meet complex application needs. To overcome these limitations, we introduce a novel task called Public-Speaking Style Transfer (PSST), which aims to simulate humans to transform passage-level, official texts into a public-speaking style. Grounded in the analysis of real-world data from a linguistic perspective, we decompose public-speaking style into key sub-styles to pose challenges and quantify the style modeling capability of LLMs. For such intricate text style transfer, we further propose a fine-grained evaluation framework to analyze the characteristics and identify the problems of stylized texts. Comprehensive experiments suggest that current LLMs struggle to generate public speaking texts that align with human preferences, primarily due to excessive stylization and loss of semantic information.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-07
# コンテンツ強化グラフニューラルネットワーク

Content Augmented Graph Neural Networks ( http://arxiv.org/abs/2311.12741v2 )

ライセンス: Link先を確認
Fatemeh Gholamzadeh Nasrabadi, AmirHossein Kashani, Pegah Zahedi, Mostafa Haghir Chehreghani, (参考訳) 近年,グラフニューラルネットワーク(GNN)は,グラフ上のさまざまな問題を解決するツールとして人気が高まっている。 これらのモデルでは、グラフのリンク構造が一般的に利用され、隣接ノードに基づいてノードの埋め込みが反復的に更新される。 ノードの内容は機能ベクトルの形でのみ使用され、ノードの第一層埋め込みとして機能する。 しかしながら、これらの初期埋め込みに繰り返し/層に適用されるフィルタや畳み込みは、それらの影響を減少させ、最終的な埋め込みに無意味に寄与する。 この問題に対処するために,本論文では,コンテンツから生成された埋め込みを高層GNN層に埋め込むことにより,ノードの埋め込みを増大させる手法を提案する。 より正確には、GNNとコンテンツ埋め込みを用いた構造埋め込みを各ノードに対して計算するモデルを提案する。 これら2つの組み合わせは、結合層を使用して、所定の層層にノードの埋め込みを形成する。 自動エンコーダやコンテンツグラフの構築など,コンテンツ埋め込みを生成する手法を提案する。 最終的に、複数の実世界のデータセット上で実験を行うことで、モデルの精度と性能を実証する。

In recent years, graph neural networks (GNNs) have become a popular tool for solving various problems over graphs. In these models, the link structure of the graph is typically exploited and nodes' embeddings are iteratively updated based on adjacent nodes. Nodes' contents are used solely in the form of feature vectors, served as nodes' first-layer embeddings. However, the filters or convolutions, applied during iterations/layers to these initial embeddings lead to their impact diminish and contribute insignificantly to the final embeddings. In order to address this issue, in this paper we propose augmenting nodes' embeddings by embeddings generated from their content, at higher GNN layers. More precisely, we propose models wherein a structural embedding using a GNN and a content embedding are computed for each node. These two are combined using a combination layer to form the embedding of a node at a given layer layer. We suggest methods such as using an auto-encoder or building a content graph, to generate content embeddings. In the end, by conducting experiments over several real-world datasets, we demonstrate the high accuracy and performance of our models.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-07
# ハンドポーズとアクションモデリングのための階層型時間変換器

Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling ( http://arxiv.org/abs/2311.17366v3 )

ライセンス: Link先を確認
Yilin Wen, Hao Pan, Takehiko Ohkawa, Lei Yang, Jia Pan, Yoichi Sato, Taku Komura, Wenping Wang, (参考訳) 本稿では,人間の手ポーズとアクションモデリングの認識と将来の予測を同時に扱う,新しい統合フレームワークを提案する。 従来の研究は一般的に、認識または予測のいずれに対しても独立したソリューションを提供しており、実際的なアプリケーションにおける統合の複雑さを増大させるだけでなく、より重要なことは、双方のシナジーを活用できず、それぞれのドメインで最適以下のパフォーマンスを損なうことができないことである。 本稿では,手ポーズと動作をモデル化するための生成型トランスフォーマーVAEアーキテクチャを提案する。このアーキテクチャでは,エンコーダとデコーダがそれぞれ認識と予測を行い,それらの接続は,過去から未来への一貫した手の動きの学習を義務付けている。 さらに,手ポーズと動作のセマンティック依存性と時間的粒度を忠実にモデル化するため,第1ブロックと第2ブロックはそれぞれ短距離ポーズと長周期動作をモデル化し,第2次手ポーズのサブ秒列を表す中間レベル特徴によって接続する。 このブロックカスケードへの分解は、ポーズおよびアクションモデリングにおける短期的および長期的時間的規則性の両方をキャプチャし、異なる時間的粒度のアノテーションでデータセットを完全に活用する2つのブロックを個別に訓練することを可能にする。 我々は、複数のデータセットでフレームワークをトレーニングし、評価し、その結果、認識と予測の協調モデリングは、孤立したソリューションよりも改善され、セマンティックな階層と時間的階層が、長期的なポーズとアクションモデリングを促進することを示した。

We present a novel unified framework that concurrently tackles recognition and future prediction for human hand pose and action modeling. Previous works generally provide isolated solutions for either recognition or prediction, which not only increases the complexity of integration in practical applications, but more importantly, cannot exploit the synergy of both sides and suffer suboptimal performances in their respective domains. To address this problem, we propose a generative Transformer VAE architecture to model hand pose and action, where the encoder and decoder capture recognition and prediction respectively, and their connection through the VAE bottleneck mandates the learning of consistent hand motion from the past to the future and vice versa. Furthermore, to faithfully model the semantic dependency and different temporal granularity of hand pose and action, we decompose the framework into two cascaded VAE blocks: the first and latter blocks respectively model the short-span poses and long-span action, and are connected by a mid-level feature representing a sub-second series of hand poses. This decomposition into block cascades facilitates capturing both short-term and long-term temporal regularity in pose and action modeling, and enables training two blocks separately to fully utilize datasets with annotations of different temporal granularities. We train and evaluate our framework across multiple datasets; results show that our joint modeling of recognition and prediction improves over isolated solutions, and that our semantic and temporal hierarchy facilitates long-term pose and action modeling.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-07
# 静的から動的へ:映像における表情認識のためのランドマーク対応画像モデル

From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos ( http://arxiv.org/abs/2312.05447v2 )

ライセンス: Link先を確認
Yin Chen, Jia Li, Shiguang Shan, Meng Wang, Richang Hong, (参考訳) 野生の動的表情認識(DFER)は、例えば、ポーズの量や多様性の不足、排他的、照明といったデータ制限や、表情の本来のあいまいさによって、いまだに妨げられている。 対照的に、静的表情認識(SFER)は、現在、はるかに高いパフォーマンスを示し、より豊富な高品質のトレーニングデータから恩恵を受けることができる。 さらに、DFERの外観の特徴と動的依存関係は、まだほとんど解明されていない。 これらの課題に対処するために,既存のSFER知識と,抽出した顔のランドマーク認識機能に暗黙的に符号化された動的情報を活用して,DFER性能を大幅に向上する新しい静的・動的モデル(S2D)を提案する。 まず、標準ビジョントランスフォーマ(ViT)とマルチビュー補完プロンプタ(MCP)のみを組み込んだSFERの画像モデルを構築し、訓練する。 そして,画像モデルにテンポラル・モデリング・アダプタ(TMA)を挿入することにより,DFERのためのビデオモデル(S2D)を得る。 MCPは、市販の顔ランドマーク検出器によって推測されるランドマークを意識した表情特徴を増強する。 そして、TMAは表情の動的変化の関係を捉え、モデル化し、ビデオの事前学習画像モデルを効果的に拡張する。 特に、MPPとTMAは、トレーニング可能なパラメータのごく一部(+10\%未満)を元の画像モデルにのみ増加させる。 さらに,無曖昧な感情ラベルの有害な影響を低減し,さらにS2Dを向上させるために,新たな感情アンカー(感情カテゴリ毎の参照サンプル)ベースの自己蒸留損失を提案する。 一般的なSFERデータセットとDFERデータセットで実施された実験では、最先端の達成が示されている。

Dynamic facial expression recognition (DFER) in the wild is still hindered by data limitations, e.g., insufficient quantity and diversity of pose, occlusion and illumination, as well as the inherent ambiguity of facial expressions. In contrast, static facial expression recognition (SFER) currently shows much higher performance and can benefit from more abundant high-quality training data. Moreover, the appearance features and dynamic dependencies of DFER remain largely unexplored. To tackle these challenges, we introduce a novel Static-to-Dynamic model (S2D) that leverages existing SFER knowledge and dynamic information implicitly encoded in extracted facial landmark-aware features, thereby significantly improving DFER performance. Firstly, we build and train an image model for SFER, which incorporates a standard Vision Transformer (ViT) and Multi-View Complementary Prompters (MCPs) only. Then, we obtain our video model (i.e., S2D), for DFER, by inserting Temporal-Modeling Adapters (TMAs) into the image model. MCPs enhance facial expression features with landmark-aware features inferred by an off-the-shelf facial landmark detector. And the TMAs capture and model the relationships of dynamic changes in facial expressions, effectively extending the pre-trained image model for videos. Notably, MCPs and TMAs only increase a fraction of trainable parameters (less than +10\%) to the original image model. Moreover, we present a novel Emotion-Anchors (i.e., reference samples for each emotion category) based Self-Distillation Loss to reduce the detrimental influence of ambiguous emotion labels, further enhancing our S2D. Experiments conducted on popular SFER and DFER datasets show that we achieve the state of the art.
翻訳日:2024-09-11 03:42:43 公開日:2024-09-07
# 脆弱性の詳細:グラフベースの検出器で識別された脆弱性コードのきめ細かい情報を見つける

The Vulnerability Is in the Details: Locating Fine-grained Information of Vulnerable Code Identified by Graph-based Detectors ( http://arxiv.org/abs/2401.02737v3 )

ライセンス: Link先を確認
Baijun Cheng, Kailong Wang, Cuiyun Gao, Xiapu Luo, Li Li, Yao Guo, Xiangqun Chen, Haoyu Wang, (参考訳) 脆弱性検出はソフトウェア開発ライフサイクルにおいて重要なコンポーネントです。 既存の脆弱性検出装置、特にディープラーニング(DL)モデルに基づく検出は、高い有効性を実現している。 本稿では,DLベースの検出装置によって報告された粗いレベルの脆弱なコードスニペットから脆弱性クリティカルなコードスニペットを自動的に検出するツールであるVULEXPLAINERを提案する。 具体的には、プログラムスライシングを利用して、脆弱性のトリガと脆弱性に依存したステートメントを含む重要なプログラムパスのセットを取得し、それらをランク付けして、脆弱性に関連するデータフローとして最も重要なもの(サブグラフ)を特定します。 我々は、VULEXPLAINERが4つの最先端グラフ表現(GP)ベースの脆弱性検出器で一貫して正常に動作していることを実証した。 VULEXPLAINERは,プログラムスライシングと深層学習を統合し,脆弱なコード断片の解釈を行う。

Vulnerability detection is a crucial component in the software development lifecycle. Existing vulnerability detectors, especially those based on deep learning (DL) models, have achieved high effectiveness. Despite their capability of detecting vulnerable code snippets from given code fragments, the detectors are typically unable to further locate the fine-grained information pertaining to the vulnerability, such as the precise vulnerability triggering locations.In this paper, we propose VULEXPLAINER, a tool for automatically locating vulnerability-critical code lines from coarse-level vulnerable code snippets reported by DL-based detectors.Our approach takes advantage of the code structure and the semantics of the vulnerabilities. Specifically, we leverage program slicing to get a set of critical program paths containing vulnerability-triggering and vulnerability-dependent statements and rank them to pinpoint the most important one (i.e., sub-graph) as the data flow associated with the vulnerability. We demonstrate that VULEXPLAINER performs consistently well on four state-of-the-art graph-representation(GP)-based vulnerability detectors, i.e., it can flag the vulnerability-triggering code statements with an accuracy of around 90% against eight common C/C++ vulnerabilities, outperforming five widely used GNN-based explanation approaches. The experimental results demonstrate the effectiveness of VULEXPLAINER, which provides insights into a promising research line: integrating program slicing and deep learning for the interpretation of vulnerable code fragments.
翻訳日:2024-09-11 03:32:49 公開日:2024-09-07
# 医療レポート作成のための動的トレースバック学習

Dynamic Traceback Learning for Medical Report Generation ( http://arxiv.org/abs/2401.13267v3 )

ライセンス: Link先を確認
Shuchang Ye, Mingyuan Meng, Mingjian Li, Dagan Feng, Usman Naseem, Jinman Kim, (参考訳) 医療報告の自動作成は、医療報告の時間的消費プロセスに関連する負担を大幅に削減する可能性がある。 最近の生成的表現学習法は、医療報告生成のためのビジョンと言語モダリティの統合を約束している。 しかし、エンド・ツー・エンドを訓練し、医用画像・テキスト生成に直接適用した場合、彼らは2つの大きな課題に直面している。 一 微妙で重要な病理的詳細を正確に把握することの難しさ及び 二 推論中の視覚的入力及びテキスト入力の双方に依存し、画像のみが利用可能である場合のゼロショット推論の性能低下。 これらの課題に対処するため,本研究では,新しいマルチモーダル動的トレースバック学習フレームワーク(DTrace)を提案する。 具体的には、生成したコンテンツのセマンティックな妥当性を監督するトレースバック機構と、画像とテキストの入力の様々な割合に適応するための動的学習戦略を導入し、推論中の両方のモダリティからの入力に強く依存せずにテキスト生成を可能にする。 モデルを監督し、補完的なモデルからマスキングされた意味情報を復元することにより、クロスモーダルな知識の学習が促進される。 2つのベンチマークデータセット(IU-XrayとMIMIC-CXR)で実施された大規模な実験により、提案したDTraceフレームワークが医療報告生成の最先端手法より優れていることが示された。

Automated medical report generation has the potential to significantly reduce the workload associated with the time-consuming process of medical reporting. Recent generative representation learning methods have shown promise in integrating vision and language modalities for medical report generation. However, when trained end-to-end and applied directly to medical image-to-text generation, they face two significant challenges: i) difficulty in accurately capturing subtle yet crucial pathological details, and ii) reliance on both visual and textual inputs during inference, leading to performance degradation in zero-shot inference when only images are available. To address these challenges, this study proposes a novel multi-modal dynamic traceback learning framework (DTrace). Specifically, we introduce a traceback mechanism to supervise the semantic validity of generated content and a dynamic learning strategy to adapt to various proportions of image and text input, enabling text generation without strong reliance on the input from both modalities during inference. The learning of cross-modal knowledge is enhanced by supervising the model to recover masked semantic information from a complementary counterpart. Extensive experiments conducted on two benchmark datasets, IU-Xray and MIMIC-CXR, demonstrate that the proposed DTrace framework outperforms state-of-the-art methods for medical report generation.
翻訳日:2024-09-11 03:32:49 公開日:2024-09-07
# AI生成テキストに対する確率的ロバストなマルチビット透かし

Provably Robust Multi-bit Watermarking for AI-generated Text ( http://arxiv.org/abs/2401.16820v3 )

ライセンス: Link先を確認
Wenjie Qu, Wengrui Zheng, Tianyang Tao, Dong Yin, Yanze Jiang, Zhihua Tian, Wei Zou, Jinyuan Jia, Jiaheng Zhang, (参考訳) 大規模言語モデル(LLM)は、人間の言語に似たテキストを生成する顕著な能力を示した。 しかし、犯罪者によって偽ニュースやフィッシングメールなどの偽装コンテンツを作成するために誤用され、倫理的懸念を引き起こすことがある。 ウォーターマーキングはこれらの問題に対処するための重要なテクニックであり、メッセージ(例えば、ビット文字列)をLLMが生成したテキストに埋め込む。 ユーザID(ビット文字列として表現される)を生成されたテキストに埋め込むことで、生成されたテキストをユーザへトレースすることができる。 既存の透かし技術の主な制限は、実世界のシナリオにおけるコンテンツソーストレースの準最適性能を実現することである。 その理由は、生成されたテキストから長いメッセージを正確に効率よく抽出できないからである。 私たちはその制限に対処することを目指している。 本研究では,疑似ランダムセグメント代入に基づくLLM生成テキストの新しい透かし手法を提案する。 また,透かしアルゴリズムの堅牢性を高めるために,複数の手法を提案する。 提案手法を評価するため,広範囲な実験を行った。 提案手法は,ベンチマークデータセットの精度とロバスト性の両方において,既存のベースラインを大幅に上回ることを示す。 例えば、長さ20のメッセージを200トンのテキストに埋め込むと、マッチングレートは9,7.6\%、最先端のYoo et alは49.2\%である。 さらに,各段落の平均編集距離17の範囲内で同じ設定で編集を許容できることを示す。

Large Language Models (LLMs) have demonstrated remarkable capabilities of generating texts resembling human language. However, they can be misused by criminals to create deceptive content, such as fake news and phishing emails, which raises ethical concerns. Watermarking is a key technique to address these concerns, which embeds a message (e.g., a bit string) into a text generated by an LLM. By embedding the user ID (represented as a bit string) into generated texts, we can trace generated texts to the user, known as content source tracing. The major limitation of existing watermarking techniques is that they achieve sub-optimal performance for content source tracing in real-world scenarios. The reason is that they cannot accurately or efficiently extract a long message from a generated text. We aim to address the limitations. In this work, we introduce a new watermarking method for LLM-generated text grounded in pseudo-random segment assignment. We also propose multiple techniques to further enhance the robustness of our watermarking algorithm. We conduct extensive experiments to evaluate our method. Our experimental results show that our method substantially outperforms existing baselines in both accuracy and robustness on benchmark datasets. For instance, when embedding a message of length 20 into a 200-token generated text, our method achieves a match rate of $97.6\%$, while the state-of-the-art work Yoo et al. only achieves $49.2\%$. Additionally, we prove that our watermark can tolerate edits within an edit distance of 17 on average for each paragraph under the same setting.
翻訳日:2024-09-11 03:32:49 公開日:2024-09-07
# Beyond Control: Linuxシステムにおけるデータオンリーアタックのための新しいファイルシステムオブジェクトの探索

Beyond Control: Exploring Novel File System Objects for Data-Only Attacks on Linux Systems ( http://arxiv.org/abs/2401.17618v2 )

ライセンス: Link先を確認
Jinmeng Zhou, Jiayi Hu, Ziyue Pan, Jiaxun Zhu, Wenbo Shen, Guoren Li, Zhiyun Qian, (参考訳) 制御フローの整合性の広範な展開は、制御不能なデータ攻撃を主流に押し込んだ。 OSカーネルのドメインでは、重要な非制御データを破損させることで、ローカルアタッカーは制御フローをハイジャックすることなく、直接ルートアクセスまたは特権エスカレーションを得ることができる。 結果として、OSカーネルはそのような非制御データの利用を制限してきた。 これにより、攻撃者はOSカーネル内でより悪用可能な非制御データを探し続けることを余儀なくされる。 しかし、未知の非制御データの発見は、しばしば意味論に強く結びついており、普遍的なパターンが欠如しているため、非常に困難である。 本稿では,(1)ファイルサブシステムにおける重要な非制御オブジェクトの発見と,(2)攻撃性の分析を行う。 この研究は、最小限のドメイン知識を持つ最初の研究であり、Linuxカーネルのファイルサブシステム内で、利用可能な非制御データを半自動で発見し、評価する。 我々のソリューションは、将来有望な候補オブジェクトを静的かつ動的に識別するカスタム分析およびテストフレームワークを利用する。 さらに,これらの発見対象を,これらの対象の多くを隔離する防衛を克服するために必要な新しい戦略を含む,様々な攻撃戦略に適したタイプに分類する。 これらのオブジェクトは KASLR を必要とせずに利用することができるという利点があるため、エクスプロイトはよりシンプルで信頼性が高い。 我々は18の現実世界のCVEを用いて、様々なエクスプロイト戦略を用いてファイルシステムオブジェクトのエクスプロイラビリティを評価する。 我々はカーネルに対してCVEのサブセットを使用して10のエンドツーエンドエクスプロイトを開発する。

The widespread deployment of control-flow integrity has propelled non-control data attacks into the mainstream. In the domain of OS kernel exploits, by corrupting critical non-control data, local attackers can directly gain root access or privilege escalation without hijacking the control flow. As a result, OS kernels have been restricting the availability of such non-control data. This forces attackers to continue to search for more exploitable non-control data in OS kernels. However, discovering unknown non-control data can be daunting because they are often tied heavily to semantics and lack universal patterns. We make two contributions in this paper: (1) discover critical non-control objects in the file subsystem and (2) analyze their exploitability. This work represents the first study, with minimal domain knowledge, to semi-automatically discover and evaluate exploitable non-control data within the file subsystem of the Linux kernel. Our solution utilizes a custom analysis and testing framework that statically and dynamically identifies promising candidate objects. Furthermore, we categorize these discovered objects into types that are suitable for various exploit strategies, including a novel strategy necessary to overcome the defense that isolates many of these objects. These objects have the advantage of being exploitable without requiring KASLR, thus making the exploits simpler and more reliable. We use 18 real-world CVEs to evaluate the exploitability of the file system objects using various exploit strategies. We develop 10 end-to-end exploits using a subset of CVEs against the kernel with all state-of-the-art mitigations enabled.
翻訳日:2024-09-11 03:22:55 公開日:2024-09-07
# MixedNUTS:非線形混合分類器による学習不要の精度・ロバスト性バランス

MixedNUTS: Training-Free Accuracy-Robustness Balance via Nonlinearly Mixed Classifiers ( http://arxiv.org/abs/2402.02263v4 )

ライセンス: Link先を確認
Yatong Bai, Mo Zhou, Vishal M. Patel, Somayeh Sojoudi, (参考訳) 逆のロバスト性は、しばしば劣化した精度の犠牲を伴い、ロバスト分類モデルの現実の応用を妨げる。 より良いトレードオフのためのトレーニングベースのソリューションは、すでに訓練済みの高性能な大規模モデルとの非互換性によって制限されており、訓練不要のアンサンブルアプローチの探索が必要である。 頑健なモデルが、清潔で敵対的なデータ上の誤ったモデルよりも正確な予測に自信があることを観察し、この「良質な信頼性特性」を増幅することで、アンサンブル設定における精度と頑健さを再現できると推測する。 そこで本研究では,ロバスト分類器と標準非ロバスト分類器の出力ロジットを3つのパラメータのみを効率よく最適化した非線形変換で処理する「MixedNUTS」を提案する。 MixedNUTSは変換されたロジットを確率に変換し、それらを全体の出力として混合する。 CIFAR-10、CIFAR-100、ImageNetデータセットでは、MixedNUTSの大幅な精度向上とほぼSOTAロバスト性を示すカスタムの強力なアダプティブアタックによる実験結果が示されており、CIFAR-100のクリーン精度を7.86ポイント向上させ、ロバストな精度でわずか0.87ポイントを犠牲にしている。

Adversarial robustness often comes at the cost of degraded accuracy, impeding real-life applications of robust classification models. Training-based solutions for better trade-offs are limited by incompatibilities with already-trained high-performance large models, necessitating the exploration of training-free ensemble approaches. Observing that robust models are more confident in correct predictions than in incorrect ones on clean and adversarial data alike, we speculate amplifying this "benign confidence property" can reconcile accuracy and robustness in an ensemble setting. To achieve so, we propose "MixedNUTS", a training-free method where the output logits of a robust classifier and a standard non-robust classifier are processed by nonlinear transformations with only three parameters, which are optimized through an efficient algorithm. MixedNUTS then converts the transformed logits into probabilities and mixes them as the overall output. On CIFAR-10, CIFAR-100, and ImageNet datasets, experimental results with custom strong adaptive attacks demonstrate MixedNUTS's vastly improved accuracy and near-SOTA robustness -- it boosts CIFAR-100 clean accuracy by 7.86 points, sacrificing merely 0.87 points in robust accuracy.
翻訳日:2024-09-11 03:22:55 公開日:2024-09-07
# ビデオ検索のためのビデオ編集

Video Editing for Video Retrieval ( http://arxiv.org/abs/2402.02335v2 )

ライセンス: Link先を確認
Bin Zhu, Kevin Flanagan, Adriano Fragomeni, Michael Wray, Dima Damen, (参考訳) 事前学習された視覚言語モデルは、大規模なWebビデオからビデオテキスト検索のパフォーマンスを向上する上で大きなメリットを示しているが、細調整は、開始時と終了時に手動で注釈付けされたクリップで重要な役割を果たす。 この問題に対処するために、ビデオテキスト検索のためのより安価なアノテーションソースであるシングルタイムスタンプを探索する。 タイムスタンプからのクリップをヒューリスティックな方法で初期化し、検索モデルをウォームアップする。 そこで, ビデオクリップ編集手法を提案し, 初期粗境界を改良し, 検索性能を向上させる。 ビデオクリップ編集のための学生-教師ネットワークを導入する。 教師モデルはトレーニングセットのクリップを編集するために使用され、学生モデルは編集されたクリップを訓練する。 教師の体重は、生徒のパフォーマンスが向上した後、生徒から更新される。 本手法はモデル非依存であり,任意の検索モデルに適用可能である。 我々は3つの最先端検索モデル(COOT, VideoCLIP, CLIP4Clip)に基づいて実験を行った。 3つのビデオ検索データセット、YouCook2、DiDeMo、ActivityNet-Captionsで行った実験では、編集済みクリップは3つの検索モデルすべてにわたって、初期クリップよりも検索性能を一貫して改善している。

Though pre-training vision-language models have demonstrated significant benefits in boosting video-text retrieval performance from large-scale web videos, fine-tuning still plays a critical role with manually annotated clips with start and end times, which requires considerable human effort. To address this issue, we explore an alternative cheaper source of annotations, single timestamps, for video-text retrieval. We initialise clips from timestamps in a heuristic way to warm up a retrieval model. Then a video clip editing method is proposed to refine the initial rough boundaries to improve retrieval performance. A student-teacher network is introduced for video clip editing. The teacher model is employed to edit the clips in the training set whereas the student model trains on the edited clips. The teacher weights are updated from the student's after the student's performance increases. Our method is model agnostic and applicable to any retrieval models. We conduct experiments based on three state-of-the-art retrieval models, COOT, VideoCLIP and CLIP4Clip. Experiments conducted on three video retrieval datasets, YouCook2, DiDeMo and ActivityNet-Captions show that our edited clips consistently improve retrieval performance over initial clips across all the three retrieval models.
翻訳日:2024-09-11 03:22:55 公開日:2024-09-07
# 階層的木構造知識グラフによる学術的洞察調査

Hierarchical Tree-structured Knowledge Graph For Academic Insight Survey ( http://arxiv.org/abs/2402.04854v6 )

ライセンス: Link先を確認
Jinghong Li, Huy Phan, Wen Gu, Koichi Ota, Shinobu Hasegawa, (参考訳) 調査は、研究トレーニングが不足している初心者研究者にとって、常に課題となっている。 これらの研究者は、研究トピックの方向性や、新しい研究結果の発見を短期間で理解するのに苦労しています。 初心者研究者に直感的な支援を提供する一つの方法は、関連する知識グラフ(KG)を提供し、関連する学術論文を推薦することである。 しかし、既存のナビゲーション知識グラフは主に研究分野のキーワードに依存しており、複数の関連論文の論理的階層をはっきりと示さないことが多い。 さらに、学術論文の推薦システムの多くは、単に高いテキスト類似性に依存しており、研究者は、ある記事が推奨されている理由について混乱させる可能性がある。 また, 「Issue Solution」 と 「Issue Find」 の間に得られる洞察の関連性について, 重要な情報が欠如している可能性がある。 これらの課題に対処するために,本研究では,研究トピックの継承洞察と学術論文の関連洞察を反映した階層的木構造知識グラフを確立することにより,初心者研究者を対象とした研究洞察調査を支援することを目的とする。

Research surveys have always posed a challenge for beginner researchers who lack of research training. These researchers struggle to understand the directions within their research topic, and the discovery of new research findings within a short time. One way to provide intuitive assistance to beginner researchers is by offering relevant knowledge graphs(KG) and recommending related academic papers. However, existing navigation knowledge graphs primarily rely on keywords in the research field and often fail to present the logical hierarchy among multiple related papers clearly. Moreover, most recommendation systems for academic papers simply rely on high text similarity, which can leave researchers confused as to why a particular article is being recommended. They may lack of grasp important information about the insight connection between "Issue resolved" and "Issue finding" that they hope to obtain. To address these issues, this study aims to support research insight surveys for beginner researchers by establishing a hierarchical tree-structured knowledge graph that reflects the inheritance insight of research topics and the relevance insight among the academic papers.
翻訳日:2024-09-11 03:22:55 公開日:2024-09-07
# 順序保存機構を用いた効果的なメッセージハイディング

Effective Message Hiding with Order-Preserving Mechanisms ( http://arxiv.org/abs/2402.19160v3 )

ライセンス: Link先を確認
Gao Yu, Qiu Xuchong, Ye Zihan, (参考訳) シークレットメッセージビットをカバーイメージ内に隠蔽する技術であるメッセージ隠蔽は、メッセージキャパシティ、リカバリ精度、非受容性の間の最適なバランスを達成することを目的としている。 畳み込みニューラルネットワークは、メッセージのキャパシティと非受容性を著しく改善しているが、高いリカバリ精度を達成することは依然として困難である。 この課題は、畳み込み操作がメッセージビットのシーケンシャルな順序を維持するのに苦労し、これらの2つのモードの相違に効果的に対処するためである。 そこで本研究では,ビット順序を保存し,モダリティ間のグローバルな融合を可能にする,革新的なMLPベースのフレームワークであるStegaFormerを提案する。 具体的には、StegaFormerには、順序保存メッセージエンコーダ(OPME)、デコーダ(OPMD)、グローバルメッセージイメージフュージョン(GMIF)の3つの重要なコンポーネントが含まれている。 OPMEとOPMDは、全シーケンスを等長セグメントに分割し、エンコーディングと復号中にシーケンシャル情報を組み込むことによって、メッセージビットの順序を保つことを目的としている。 一方、GMIFは2つの非相関なモダリティから機能を効果的に融合させるために、相互モダリティ融合機構を採用している。 COCOとDIV2Kデータセットの実験結果から、StegaFormerは、回復精度、メッセージキャパシティ、不可避性の点で、既存の最先端の手法を超越していることが示された。 コードを公開します。

Message hiding, a technique that conceals secret message bits within a cover image, aims to achieve an optimal balance among message capacity, recovery accuracy, and imperceptibility. While convolutional neural networks have notably improved message capacity and imperceptibility, achieving high recovery accuracy remains challenging. This challenge arises because convolutional operations struggle to preserve the sequential order of message bits and effectively address the discrepancy between these two modalities. To address this, we propose StegaFormer, an innovative MLP-based framework designed to preserve bit order and enable global fusion between modalities. Specifically, StegaFormer incorporates three crucial components: Order-Preserving Message Encoder (OPME), Decoder (OPMD) and Global Message-Image Fusion (GMIF). OPME and OPMD aim to preserve the order of message bits by segmenting the entire sequence into equal-length segments and incorporating sequential information during encoding and decoding. Meanwhile, GMIF employs a cross-modality fusion mechanism to effectively fuse the features from the two uncorrelated modalities. Experimental results on the COCO and DIV2K datasets demonstrate that StegaFormer surpasses existing state-of-the-art methods in terms of recovery accuracy, message capacity, and imperceptibility. We will make our code publicly available.
翻訳日:2024-09-11 03:12:39 公開日:2024-09-07
# 異方性によるスピンパリティ効果

Anisotropy-induced spin parity effects ( http://arxiv.org/abs/2402.19311v5 )

ライセンス: Link先を確認
Shuntaro Sumita, Akihiro Tanaka, Yusuke Kato, (参考訳) スピンパリティ効果(スピンパリティえき、英: Spin parity effect)とは、系の物理的挙動における二分法が生じる特別な状況を指し、関連するスピン量子数が積分であるか半負積分であるかに依存する。 反強磁性スピン鎖におけるハルダン予想と同様に、それらの追求はしばしば深い洞察を導き、量子凝縮物質物理学の新しい発展を呼び起こす。 ここでは、異方性相互作用を用いて、任意の空間次元におけるそのような効果を生成するための単純で一般的なスキームと、最先端のコールド原子実装の妥当な到達範囲に設定する。 本研究では, 特定の一次元スピン鎖モデルの磁化挙動, 横磁場中の異方性反強磁性体を詳細に解析し, 従来注目されてきたが明確には理解されていない磁化曲線で観測された有限サイズの効果の量子的起源を解明する。

Spin parity effects refer to those special situations where a dichotomy in the physical behavior of a system arises, solely depending on whether the relevant spin quantum number is integral or half-odd integral. As is the case with the Haldane conjecture in antiferromagnetic spin chains, their pursuit often derives deep insights and invokes new developments in quantum condensed matter physics. Here, we put forth a simple and general scheme for generating such effects in any spatial dimension through the use of anisotropic interactions, and a setup within reasonable reach of state-of-the-art cold-atom implementations. We demonstrate its utility through a detailed analysis of the magnetization behavior of a specific one-dimensional spin chain model, an anisotropic antiferromagnet in a transverse magnetic field, unraveling along the way the quantum origin of finite-size effects observed in the magnetization curve that had previously been noted but not clearly understood.
翻訳日:2024-09-11 03:12:39 公開日:2024-09-07
# DEEP-IoT: ダウンリンク強化された効率的なモノのインターネット

DEEP-IoT: Downlink-Enhanced Efficient-Power Internet of Things ( http://arxiv.org/abs/2403.00321v2 )

ライセンス: Link先を確認
Yulin Shao, (参考訳) 爆発的な成長を目撃する領域であるIoT(Internet of Things)の中心では、エネルギー効率とデバイス寿命の延長が重要視されている。 本稿では,IoTデバイスの通信方法を再定義する,革新的な通信パラダイムであるDEEP-IoTを提案する。 先駆的なフィードバックチャネルコーディング戦略を通じて、DEEP-IoTは従来の送信機(IoTデバイス)中心の通信モデルに挑戦し、レシーバ(アクセスポイント)が重要な役割を果たすものに変換することで、エネルギー使用の削減とデバイスの長寿命化を実現している。 私たちはDEEP-IoTを概念化するだけでなく、学習の強化したフィードバックチャネルコードを狭帯域システムに統合することで実現します。 シミュレーションの結果、IoTセルの運用寿命は、TurboとPolarのコードを使用した従来のシステムよりも52.71%も大きく向上している。 この飛躍は、IoT通信におけるパラダイムシフトを意味し、IoTデバイスが前例のない効率性と耐久性を誇示する未来へのステージを設定している。

At the heart of the Internet of Things (IoT) -- a domain witnessing explosive growth -- the imperative for energy efficiency and the extension of device lifespans has never been more pressing. This paper presents DEEP-IoT, an innovative communication paradigm poised to redefine how IoT devices communicate. Through a pioneering feedback channel coding strategy, DEEP-IoT challenges and transforms the traditional transmitter (IoT devices)-centric communication model to one where the receiver (the access point) play a pivotal role, thereby cutting down energy use and boosting device longevity. We not only conceptualize DEEP-IoT but also actualize it by integrating deep learning-enhanced feedback channel codes within a narrow-band system. Simulation results show a significant enhancement in the operational lifespan of IoT cells -- surpassing traditional systems using Turbo and Polar codes by up to 52.71%. This leap signifies a paradigm shift in IoT communications, setting the stage for a future where IoT devices boast unprecedented efficiency and durability.
翻訳日:2024-09-11 03:12:39 公開日:2024-09-07
# 軽量クロスモーダル表現学習

Lightweight Cross-Modal Representation Learning ( http://arxiv.org/abs/2403.04650v3 )

ライセンス: Link先を確認
Bilal Faye, Hanane Azzag, Mustapha Lebbah, Djamel Bouchaffra, (参考訳) 低コストなクロスモーダル表現学習は、テキスト、オーディオ、画像、ビデオなどの様々なモダリティにまたがる意味表現の導出に不可欠である。 従来のアプローチは、スクラッチからトレーニングされた大規模な特殊なモデルに依存し、広範なデータセットを必要とし、結果としてリソースと時間コストが高くなる。 これらの課題を克服するために,光CRL (Lightweight Cross-Modal Representation Learning) という新しいアプローチを導入する。 この方法では、DFE(Deep Fusion Encoder)と呼ばれる単一のニューラルネットワークを使用し、複数のモードから共有潜在表現空間にデータを投影する。 これにより、より複雑なシステムに匹敵する堅牢なパフォーマンスを保ちながら、全体的なパラメータ数を削減できる。

Low-cost cross-modal representation learning is crucial for deriving semantic representations across diverse modalities such as text, audio, images, and video. Traditional approaches typically depend on large specialized models trained from scratch, requiring extensive datasets and resulting in high resource and time costs. To overcome these challenges, we introduce a novel approach named Lightweight Cross-Modal Representation Learning (LightCRL). This method uses a single neural network titled Deep Fusion Encoder (DFE), which projects data from multiple modalities into a shared latent representation space. This reduces the overall parameter count while still delivering robust performance comparable to more complex systems.
翻訳日:2024-09-11 03:12:39 公開日:2024-09-07
# LeTac-MPC:Tactile-reactive Graspingのための学習モデル予測制御

LeTac-MPC: Learning Model Predictive Control for Tactile-reactive Grasping ( http://arxiv.org/abs/2403.04934v2 )

ライセンス: Link先を確認
Zhengtong Xu, Yu She, (参考訳) グラスピングはロボット工学において重要な課題であり、様々な条件下で物体をしっかりとつかむために触覚フィードバックと反応的な把握調整を必要とする。 本稿では,触覚反応性把握のための学習ベースモデル予測制御(MPC)LeTac-MPCを紹介する。 提案手法により,動的および力動的タスクにおいて,物体の物理的特性が異なる物体を把握できる。 我々は,物体の物理的特性や状態に関する情報を含む高分解能触覚フィードバックを知覚できる視覚ベースの触覚センサGelSightを利用する。 LeTac-MPCには、触覚フィードバックからニューラルネットワーク(NN)によって抽出された埋め込みをモデル化する、微分可能なMPC層が組み込まれている。 この設計は25Hzの周波数で収束性と頑健な把握制御を容易にする。 我々は、完全に自動化されたデータ収集パイプラインを提案し、物理特性の異なる標準化されたブロックのみを使用してデータセットを収集する。 しかし、我々の訓練されたコントローラーは、大きさ、形状、材料、テクスチャの異なる日々の物体に一般化することができる。 実験の結果,提案手法の有効性とロバスト性を示した。 我々はLeTac-MPCを2つの純粋モデルベースの触覚反応制御装置(MPCとPD)とオープンループグルーピングと比較した。 この結果から,LeTac-MPCは動的および力的相互作用タスクと最適一般化性において最適性能を有することがわかった。 コードとデータセットはhttps://github.com/ZhengtongXu/LeTac-MPCで公開しています。

Grasping is a crucial task in robotics, necessitating tactile feedback and reactive grasping adjustments for robust grasping of objects under various conditions and with differing physical properties. In this paper, we introduce LeTac-MPC, a learning-based model predictive control (MPC) for tactile-reactive grasping. Our approach enables the gripper to grasp objects with different physical properties on dynamic and force-interactive tasks. We utilize a vision-based tactile sensor, GelSight, which is capable of perceiving high-resolution tactile feedback that contains information on the physical properties and states of the grasped object. LeTac-MPC incorporates a differentiable MPC layer designed to model the embeddings extracted by a neural network (NN) from tactile feedback. This design facilitates convergent and robust grasping control at a frequency of 25 Hz. We propose a fully automated data collection pipeline and collect a dataset only using standardized blocks with different physical properties. However, our trained controller can generalize to daily objects with different sizes, shapes, materials, and textures. The experimental results demonstrate the effectiveness and robustness of the proposed approach. We compare LeTac-MPC with two purely model-based tactile-reactive controllers (MPC and PD) and open-loop grasping. Our results show that LeTac-MPC has optimal performance in dynamic and force-interactive tasks and optimal generalizability. We release our code and dataset at https://github.com/ZhengtongXu/LeTac-MPC.
翻訳日:2024-09-11 03:12:39 公開日:2024-09-07
# OmniJet-$α$:粒子物理学のための最初のクロスタスク基礎モデル

OmniJet-$α$: The first cross-task foundation model for particle physics ( http://arxiv.org/abs/2403.05618v2 )

ライセンス: Link先を確認
Joschka Birk, Anna Hallin, Gregor Kasieczka, (参考訳) ファンデーションモデルはマルチデータセットとマルチタスクの機械学習の手法で、一度トレーニングされた後、様々な下流アプリケーション向けに微調整できる。 このような物理データのための汎用モデルの開発が成功すれば、達成可能な物理性能を向上させると同時に、必要なトレーニング時間とデータを大幅に削減できるため、大きなブレークスルーとなるだろう。 いくつかの面でこの課題について大きな進展を報告します。 まず、物理データからの符号化の質を、トランスフォーマー構造を持つ粒子ジェットの自己回帰生成に適した表現(基礎モデルの共通バックボーン)に変換するための総合的な評価手法を提案する。 これらの尺度は、以前の作品と比較して高忠実度トークン化の選択を動機付けている。 最後に,新しいOmniJet-$\alpha$モデルを用いて,教師なし問題(ジェット生成)と教師なしタスク(ジェットタグ付け)の移行学習を実演する。 これは2つの異なる、そして活発に研究されたタスクのクラス間での移動が成功し、粒子物理学の基礎モデルの構築において大きなステップとなる。

Foundation models are multi-dataset and multi-task machine learning methods that once pre-trained can be fine-tuned for a large variety of downstream applications. The successful development of such general-purpose models for physics data would be a major breakthrough as they could improve the achievable physics performance while at the same time drastically reduce the required amount of training time and data. We report significant progress on this challenge on several fronts. First, a comprehensive set of evaluation methods is introduced to judge the quality of an encoding from physics data into a representation suitable for the autoregressive generation of particle jets with transformer architectures (the common backbone of foundation models). These measures motivate the choice of a higher-fidelity tokenization compared to previous works. Finally, we demonstrate transfer learning between an unsupervised problem (jet generation) and a classic supervised task (jet tagging) with our new OmniJet-$\alpha$ model. This is the first successful transfer between two different and actively studied classes of tasks and constitutes a major step in the building of foundation models for particle physics.
翻訳日:2024-09-11 03:12:39 公開日:2024-09-07
# 数学的推論のためのインフルエンシャルデータの謎を探る

Exploring the Mystery of Influential Data for Mathematical Reasoning ( http://arxiv.org/abs/2404.01067v2 )

ライセンス: Link先を確認
Xinzhe Ni, Yeyun Gong, Zhibin Gou, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen, (参考訳) 下流タスクの微調整に有効なデータを選択することは、パフォーマンスと計算効率の両方にとって重要な要素である。 近年の研究では、限られたデータのみによるトレーニングは、一般的なタスクにおいて優れたパフォーマンスを示すことが示されている。 しかし、数学的推論タスクの実現性は検証されていない。 さらに、数学的推論には2つのオープンな質問がある: 影響のあるデータをどのように選択するかと、影響のあるデータ構成は何か。 前者に対しては,数学的推論に適応したQaDS(Quality-Aware Diverse Selection)戦略を提案する。 他の選択戦略との比較は、QaDSの優位性を検証する。 後者については、まず設定を拡大し、影響力のあるデータ構成を探索する。 推論データのスケールアップと,QaDSが選択した一般データによるトレーニングが有用である。 そこで,我々は,QaDS が選択したオープンソースデータと有意なデータ混合である OpenMathMix を最適混合として定義する。 OpenMathMixでは、7Bベースモデルを用いたMATHで最先端の48.8%の精度を実現している。 さらに,様々な選択比を持つ効率的な微調整混合物の創出にQaDSを用い,様々なオープンソースデータセットの品質を解析し,今後の数学的推論タスクの参考として機能することを示す。

Selecting influential data for fine-tuning on downstream tasks is a key factor for both performance and computation efficiency. Recent works have shown that training with only limited data can show a superior performance on general tasks. However, the feasibility on mathematical reasoning tasks has not been validated. To go further, there exist two open questions for mathematical reasoning: how to select influential data and what is an influential data composition. For the former one, we propose a Quality-aware Diverse Selection (QaDS) strategy adaptable for mathematical reasoning. A comparison with other selection strategies validates the superiority of QaDS. For the latter one, we first enlarge our setting and explore the influential data composition. We conduct a series of experiments and highlight: scaling up reasoning data, and training with general data selected by QaDS is helpful. Then, we define our optimal mixture as OpenMathMix, an influential data mixture with open-source data selected by QaDS. With OpenMathMix, we achieve a state-of-the-art 48.8% accuracy on MATH with 7B base model. Additionally, we showcase the use of QaDS in creating efficient fine-tuning mixtures with various selection ratios, and analyze the quality of a wide range of open-source datasets, which can perform as a reference for future works on mathematical reasoning tasks.
翻訳日:2024-09-11 03:02:27 公開日:2024-09-07
# DQ-DETR: ティニーオブジェクト検出のための動的クエリ付きDTR

DQ-DETR: DETR with Dynamic Query for Tiny Object Detection ( http://arxiv.org/abs/2404.03507v4 )

ライセンス: Link先を確認
Yi-Xin Huang, Hou-I Liu, Hong-Han Shuai, Wen-Huang Cheng, (参考訳) 従来のDETRのような手法がジェネリックオブジェクト検出に成功しているにも関わらず、オブジェクトクエリの位置情報は、通常オブジェクトよりもスケールが極端に小さい小さなオブジェクトを検出するためにカスタマイズされていないため、小さなオブジェクト検出は依然として難しい課題である。 また、一定の数のクエリを使用したDETRライクなメソッドは、小さなオブジェクトのみを含む空中データセットには適せず、インスタンスの数は異なるイメージ間で不均衡である。 そこで本稿では,DQ-DETRという,分類的カウントモジュール,カウント誘導機能拡張,動的クエリ選択という,3つのコンポーネントから構成されるシンプルなモデルを提案する。 DQ-DETRは、カテゴリカウントモジュールからの予測と密度マップを使用して、オブジェクトクエリの数を動的に調整し、クエリの位置情報を改善する。 我々のモデルDQ-DETRは従来のCNNやDETRのような手法より優れており、AI-TOD-V2データセット上で最先端のmAPを30.2%達成している。 私たちのコードは \url{https://github.com/Katie0723/DQ-DETR} で利用可能です。

Despite previous DETR-like methods having performed successfully in generic object detection, tiny object detection is still a challenging task for them since the positional information of object queries is not customized for detecting tiny objects, whose scale is extraordinarily smaller than general objects. Also, DETR-like methods using a fixed number of queries make them unsuitable for aerial datasets, which only contain tiny objects, and the numbers of instances are imbalanced between different images. Thus, we present a simple yet effective model, named DQ-DETR, which consists of three different components: categorical counting module, counting-guided feature enhancement, and dynamic query selection to solve the above-mentioned problems. DQ-DETR uses the prediction and density maps from the categorical counting module to dynamically adjust the number of object queries and improve the positional information of queries. Our model DQ-DETR outperforms previous CNN-based and DETR-like methods, achieving state-of-the-art mAP 30.2% on the AI-TOD-V2 dataset, which mostly consists of tiny objects. Our code will be available at \url{https://github.com/Katie0723/DQ-DETR}.
翻訳日:2024-09-11 03:02:27 公開日:2024-09-07
# 大規模言語モデルに対するゴール誘導型ジェネレータインジェクションインジェクションアタック

Goal-guided Generative Prompt Injection Attack on Large Language Models ( http://arxiv.org/abs/2404.07234v2 )

ライセンス: Link先を確認
Chong Zhang, Mingyu Jin, Qinkai Yu, Chengzhi Liu, Haochen Xue, Xiaobo Jin, (参考訳) 現在の大規模言語モデル(LLM)は、大規模ユーザ指向自然言語タスクの強力な基盤を提供する。 多数のユーザがユーザインターフェースを通じて逆テキストや命令を簡単にインジェクトできるため、LLMはセキュリティ上の課題をモデル化する。 現在、プロンプト・インジェクション・アタックに関する研究は多いが、ブラックボックス・アタックのほとんどはヒューリスティック・ストラテジーを使用している。 これらのヒューリスティック戦略が攻撃の成功率とどのように関係し、モデルロバストネスを効果的に改善するかは不明である。 この問題を解決するために、クリーンテキストと逆テキストの条件付き確率のKL差を最大化するという攻撃の目標を再定義する。 さらに、KLの発散を最大化することは、条件確率がガウス分布であるとき、クリーンテキストの埋め込み表現である$x$と$x’$の間のマハラノビス距離を最大化し、$x$と$x’$の量的関係を与えることと同値であることを示す。 そこで我々は,目標誘導型ジェネレーション・インジェクション・ストラテジー(G2PIA)を設計し,最適攻撃効果を概ね達成するために,特定の制約を満たすインジェクション・テキストを求める。 特に,我々の攻撃法は,計算コストの低いクエリフリーなブラックボックス攻撃法である。 7つのLLMモデルと4つのデータセットの実験結果から,攻撃手法の有効性が示された。

Current large language models (LLMs) provide a strong foundation for large-scale user-oriented natural language tasks. A large number of users can easily inject adversarial text or instructions through the user interface, thus causing LLMs model security challenges. Although there is currently a large amount of research on prompt injection attacks, most of these black-box attacks use heuristic strategies. It is unclear how these heuristic strategies relate to the success rate of attacks and thus effectively improve model robustness. To solve this problem, we redefine the goal of the attack: to maximize the KL divergence between the conditional probabilities of the clean text and the adversarial text. Furthermore, we prove that maximizing the KL divergence is equivalent to maximizing the Mahalanobis distance between the embedded representation $x$ and $x'$ of the clean text and the adversarial text when the conditional probability is a Gaussian distribution and gives a quantitative relationship on $x$ and $x'$. Then we designed a simple and effective goal-guided generative prompt injection strategy (G2PIA) to find an injection text that satisfies specific constraints to achieve the optimal attack effect approximately. It is particularly noteworthy that our attack method is a query-free black-box attack method with low computational cost. Experimental results on seven LLM models and four datasets show the effectiveness of our attack method.
翻訳日:2024-09-11 02:52:35 公開日:2024-09-07
# LLMを活用した教育質問応答システムのためのクロスデータ知識グラフ構築:HCMUTを事例として

Cross-Data Knowledge Graph Construction for LLM-enabled Educational Question-Answering System: A Case Study at HCMUT ( http://arxiv.org/abs/2404.09296v2 )

ライセンス: Link先を確認
Tuan Bui, Oanh Tran, Phuong Nguyen, Bao Ho, Long Nguyen, Thang Bui, Tho Quan, (参考訳) 今日の人工知能の急速な発展の中で、大きな言語モデル(LLM)は活気ある研究トピックとして現れている。 LLMは様々な分野の応用を見つけ、大きく貢献する。 事前訓練された言語モデル(PLM)と同様、強力な言語機能にもかかわらず、LLMはイベントの記憶、新しい情報の導入、ドメイン固有の問題や幻覚への対処といった課題に直面している。 これらの制限を克服するため、研究者はRAG(Retrieval-Augmented Generation)技術を提案し、また、実際のコンテキストを提供するためにLLMとKG(Knowledge Graphs)の統合を提案し、それによってパフォーマンスを改善し、ユーザクエリにより正確なフィードバックを提供する。 教育は人間の発達と進歩において重要な役割を担っている。 技術革新により、伝統的な教育はデジタルまたはブレンド教育に置き換えられている。 そのため,デジタル環境における教育データは日々増加傾向にある。 高等教育機関のデータは多様で、構造化されていない/構造化されたテキスト、リレーショナルデータベース、Web/アプリベースのAPIアクセスなど、さまざまなソースで構成されています。 これらのデータソースから知識グラフを構築するのは簡単な作業ではありません。 本稿では,複数のデータソースから知識グラフを自動的に構築する手法を提案する。

In today's rapidly evolving landscape of Artificial Intelligence, large language models (LLMs) have emerged as a vibrant research topic. LLMs find applications in various fields and contribute significantly. Despite their powerful language capabilities, similar to pre-trained language models (PLMs), LLMs still face challenges in remembering events, incorporating new information, and addressing domain-specific issues or hallucinations. To overcome these limitations, researchers have proposed Retrieval-Augmented Generation (RAG) techniques, some others have proposed the integration of LLMs with Knowledge Graphs (KGs) to provide factual context, thereby improving performance and delivering more accurate feedback to user queries. Education plays a crucial role in human development and progress. With the technology transformation, traditional education is being replaced by digital or blended education. Therefore, educational data in the digital environment is increasing day by day. Data in higher education institutions are diverse, comprising various sources such as unstructured/structured text, relational databases, web/app-based API access, etc. Constructing a Knowledge Graph from these cross-data sources is not a simple task. This article proposes a method for automatically constructing a Knowledge Graph from multiple data sources and discusses some initial applications (experimental trials) of KG in conjunction with LLMs for question-answering tasks.
翻訳日:2024-09-11 02:52:35 公開日:2024-09-07
# OneActor: クラスタ駆動誘導による一貫性キャラクタ生成

OneActor: Consistent Character Generation via Cluster-Conditioned Guidance ( http://arxiv.org/abs/2404.10267v3 )

ライセンス: Link先を確認
Jiahao Wang, Caixia Yan, Haonan Lin, Weizhan Zhang, Mengmeng Wang, Tieliang Gong, Guang Dai, Hao Sun, (参考訳) テキストから画像への拡散モデルは、高品質な画像生成でアーティストに恩恵を与える。 しかし、彼らの確率的な性質は、アーティストが同じ主題の一貫性のあるイメージを作成するのを妨げる。 既存の手法はこの課題に取り組み、様々な方法で一貫性のあるコンテンツを生成する。 しかし、それらは外部の制限されたデータに依存するか、拡散モデルの高価なチューニングを必要とする。 本稿では,OneActorと呼ばれる新しいワンショットチューニングパラダイムを提案する。 学習したセマンティックガイダンスを通じてのみプロンプトによって駆動される一貫した主題生成を効率よく実行し、面倒なバックボーンチューニングを回避します。 我々は、クラスタリングの観点から一貫した主題生成の目的を定式化し、クラスタ条件モデルの設計を導く。 ワンショットチューニングパイプラインが共有するオーバーフィッティングの課題を軽減するため、補助的なサンプルによるチューニングを強化し、セマンティック補間とクラスタガイダンスという2つの推論戦略を考案する。 これらの技術は後に、生成品質を著しく向上させるために検証される。 包括的実験により,本手法は,良好な主観的整合性,即時整合性,高画質で,様々なベースラインに優れることが示された。 提案手法は多目的生成が可能であり, 一般的な拡散拡張と互換性がある。 さらに、チューニングベースのベースラインよりも4倍高速なチューニング速度を実現し、望めば推論時間の増加を回避できる。 さらに、我々の知る限り、拡散モデルの意味空間が潜在空間と同じ補間性を持っていることを初めて証明する。 この特性は、ファインジェネレーション制御のためのもう1つの有望なツールとして機能する。

Text-to-image diffusion models benefit artists with high-quality image generation. Yet their stochastic nature hinders artists from creating consistent images of the same subject. Existing methods try to tackle this challenge and generate consistent content in various ways. However, they either depend on external restricted data or require expensive tuning of the diffusion model. For this issue, we propose a novel one-shot tuning paradigm, termed as OneActor. It efficiently performs consistent subject generation solely driven by prompts via a learned semantic guidance to bypass the laborious backbone tuning. We lead the way to formalize the objective of consistent subject generation from a clustering perspective, and thus design a cluster-conditioned model. To mitigate the overfitting challenge shared by one-shot tuning pipelines, we augment the tuning with auxiliary samples and devise two inference strategies: semantic interpolation and cluster guidance. These techniques are later verified to significantly enhance the generation quality. Comprehensive experiments show that our method outperforms a variety of baselines with satisfactory subject consistency, superior prompt conformity as well as high image quality. Our method is capable of multi-subject generation and compatible with popular diffusion extensions. Besides, we achieve a 4 times faster tuning speed than tuning-based baselines and, if desired, avoid increasing inference time. Furthermore, to our best knowledge, we are the first to prove that the semantic space of the diffusion model has the same interpolation property as the latent space does. This property can serve as another promising tool for fine generation control.
翻訳日:2024-09-11 02:52:35 公開日:2024-09-07
# あなたのニューラルコード補完モデルは私のコードを使うか? : メンバーシップ推論アプローチ

Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach ( http://arxiv.org/abs/2404.14296v2 )

ライセンス: Link先を確認
Yao Wan, Guanghua Wan, Shijie Zhang, Hongyu Zhang, Pan Zhou, Hai Jin, Lichao Sun, (参考訳) 近年、自動コード補完のためのディープラーニングベースのモデルの開発が著しい進展を見せている。 GitHubでのソースコードの使用は、コード補完のためにディープラーニングベースのモデルをトレーニングする一般的な慣行であるが、著作権侵害のような法的および倫理的な問題を誘発する可能性がある。 本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について,次のような質問に答える。 私のコードは,あなたのニューラルコード補完モデルのトレーニングに使用されているか? この目的のために、私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を、コード補完のより難しいタスクに調整します。 特に、対象のコード補完モデルは不透明なブラックボックスとして機能し、トレーニングデータやパラメータへのアクセスを防止するため、動作を模倣するために複数のシャドウモデルをトレーニングする。 これらのシャドウモデルから取得した後部はその後、メンバーシップ分類器を訓練するために使用される。 その後、会員分類器を有効活用して、対象コード完了モデルの出力に基づいて、所定のコードサンプルの会員ステータスを推定することができる。 我々は、多種多様なニューラルネットワーク補完モデル(LSTMベース、CodeGPT、CodeGen、StarCoder)において、この適応されたアプローチの有効性を包括的に評価する。 実験の結果,LSTMモデルとCodeGPTモデルは,それぞれ0.842,0.730の精度で,提案したメンバシップ推論手法により容易に検出できる,メンバシップリーク問題に悩まされていることが明らかとなった。 興味深いことに、我々の実験は、現在の大規模言語モデルであるCodeGenやStarCoderのデータメンバシップを検出するのが難しく、さらに改善するためにアンプスペースを残していることも示しています。 最後に,モデル記憶の観点から,その知見を説明する。

Recent years have witnessed significant progress in developing deep learning-based models for automated code completion. Although using source code in GitHub has been a common practice for training deep-learning-based models for code completion, it may induce some legal and ethical issues such as copyright infringement. In this paper, we investigate the legal and ethical issues of current neural code completion models by answering the following question: Is my code used to train your neural code completion model? To this end, we tailor a membership inference approach (termed CodeMI) that was originally crafted for classification tasks to a more challenging task of code completion. In particular, since the target code completion models perform as opaque black boxes, preventing access to their training data and parameters, we opt to train multiple shadow models to mimic their behavior. The acquired posteriors from these shadow models are subsequently employed to train a membership classifier. Subsequently, the membership classifier can be effectively employed to deduce the membership status of a given code sample based on the output of a target code completion model. We comprehensively evaluate the effectiveness of this adapted approach across a diverse array of neural code completion models, (i.e., LSTM-based, CodeGPT, CodeGen, and StarCoder). Experimental results reveal that the LSTM-based and CodeGPT models suffer the membership leakage issue, which can be easily detected by our proposed membership inference approach with an accuracy of 0.842, and 0.730, respectively. Interestingly, our experiments also show that the data membership of current large language models of code, e.g., CodeGen and StarCoder, is difficult to detect, leaving ampler space for further improvement. Finally, we also try to explain the findings from the perspective of model memorization.
翻訳日:2024-09-11 02:52:35 公開日:2024-09-07
# 画像と予測:気象画像解析と予測通信におけるGPT-4Vの可能性

Pixels and Predictions: Potential of GPT-4V in Meteorological Imagery Analysis and Forecast Communication ( http://arxiv.org/abs/2404.15166v2 )

ライセンス: Link先を確認
John R. Lawson, Joseph E. Trujillo-Falcón, David M. Schultz, Montgomery L. Flora, Kevin H. Goebbert, Seth N. Lyman, Corey K. Potvin, Adam J. Stepanek, (参考訳) OpenAIのGPT-4V大規模言語モデルのような生成AIは、急速に主流の話題になってきた。 画像処理と自然言語通信の新しい機能により、既存の予測手法が強化される可能性がある。 大規模言語モデルは、様々なコミュニティや異なる言語に向けられたスタイルで、より良い気象リスクを伝える可能性も示している。 本研究は,GPT-4Vが気象図を解釈し,気象の危険性を利用者に適切に伝える能力を評価するものである。 1)気象チャートから厳しい天気予報を発生させ,自己評価を行い,ストーム予測センターの人為予測とよく一致する見通しを明らかにすること,2)気象チャートからスペイン語と英語の危険要約を生成すること,である。 しかし、スペイン語の応答は、英語からスペイン語への直接の(慣用的ではない)翻訳に似ているため、最適なコミュニケーションに必要な重要な慣用的精度を失うような、翻訳の少ない要約をもたらす。 我々の発見は、気象学におけるGPT-4Vのようなツールの慎重な統合を提唱し、人間の監視の必要性と信頼できる説明可能なAIの開発を裏付けるものである。

Generative AI, such as OpenAI's GPT-4V large-language model, has rapidly entered mainstream discourse. Novel capabilities in image processing and natural-language communication may augment existing forecasting methods. Large language models further display potential to better communicate weather hazards in a style honed for diverse communities and different languages. This study evaluates GPT-4V's ability to interpret meteorological charts and communicate weather hazards appropriately to the user, despite challenges of hallucinations, where generative AI delivers coherent, confident, but incorrect responses. We assess GPT-4V's competence via its web interface ChatGPT in two tasks: (1) generating a severe-weather outlook from weather-chart analysis and conducting self-evaluation, revealing an outlook that corresponds well with a Storm Prediction Center human-issued forecast; and (2) producing hazard summaries in Spanish and English from weather charts. Responses in Spanish, however, resemble direct (not idiomatic) translations from English to Spanish, yielding poorly translated summaries that lose critical idiomatic precision required for optimal communication. Our findings advocate for cautious integration of tools like GPT-4V in meteorology, underscoring the necessity of human oversight and development of trustworthy, explainable AI.
翻訳日:2024-09-11 02:42:12 公開日:2024-09-07
# 水中可変ズーム:水中画像強調のための深さ誘導知覚ネットワーク

Underwater Variable Zoom: Depth-Guided Perception Network for Underwater Image Enhancement ( http://arxiv.org/abs/2404.17883v4 )

ライセンス: Link先を確認
Zhixiong Huang, Xinying Wang, Chengpei Xu, Jinjiang Li, Lin Feng, (参考訳) 水中のシーンは、不均一な海洋要素による劣化問題に本質的に関係している。 水中画像強調法(UIE)は、単純な特徴モデリングによってマッピング関数を学習し、より明確な物理的手がかり(例えば深度)が欠如しているため、視力の上昇が制限される。 そこで本研究では,より精密なシーン強調機能を実現するために,より深いUIEモデルに先行して深度を注入することを検討した。 この目的のために,水中可変ズーム (UVZ) と呼ばれる新しい深度誘導型知覚UIEフレームワークを提案する。 具体的には、UVZは2段階のパイプラインを利用する。 第一に、深度推定ネットワークは、訓練中の推定差を抑えるために導入された補助的な監視ネットワークと組み合わせて、臨界深度マップを生成するように設計されている。 第二に、UVZは予測された深度マップを利用することで、近距離シナリオを解析し、異なる領域における局所的および非局所的知覚を可能にする。 5つのベンチマークデータセットに対する大規模な実験は、UVZが優れた視覚的ゲインを達成し、有望な定量的指標を提供することを示す。 さらに、UVZは視覚的なタスク、特に異常な照明条件において、優れた一般化を示すことが確認されている。 コード、モデル、および結果は、https://github.com/WindySprint/UVZ.comで公開されている。

Underwater scenes intrinsically involve degradation problems owing to heterogeneous ocean elements. Prevailing underwater image enhancement (UIE) methods stick to straightforward feature modeling to learn the mapping function, which leads to limited vision gain as it lacks more explicit physical cues (e.g., depth). In this work, we investigate injecting the depth prior into the deep UIE model for more precise scene enhancement capability. To this end, we present a novel depth-guided perception UIE framework, dubbed underwater variable zoom (UVZ). Specifically, UVZ resorts to a two-stage pipeline. First, a depth estimation network is designed to generate critical depth maps, combined with an auxiliary supervision network introduced to suppress estimation differences during training. Second, UVZ parses near-far scenarios by harnessing the predicted depth maps, enabling local and non-local perceiving in different regions. Extensive experiments on five benchmark datasets demonstrate that UVZ achieves superior visual gain and delivers promising quantitative metrics. Besides, UVZ is confirmed to exhibit good generalization in some visual tasks, especially in unusual lighting conditions. The code, models and results are available at: https://github.com/WindySprint/UVZ.
翻訳日:2024-09-11 02:42:12 公開日:2024-09-07
# 雑音量子コンピュータ上での量子シミュレーションのための最適順序トロッタースズキ分解

Optimal-order Trotter-Suzuki decomposition for quantum simulation on noisy quantum computers ( http://arxiv.org/abs/2405.01131v2 )

ライセンス: Link先を確認
A. A. Avtandilyan, W. V. Pogosov, (参考訳) 雑音量子コンピュータ上での量子システムのより効率的なシミュレーションのために、進化演算子のトロッター・鈴木分解の高次化を利用する可能性を探る。 横フィールドイジングモデルとXYモデルを調べることにより、ゲート誤差が典型的な現代値と比較して約1桁減少すると、高次トロッター化が有利になることを示した。 この形式のトロッタライゼーションは、トロッタライゼーションの数学的誤差とゲート実行による物理誤差の両方を含む、全体的なシミュレーションエラーの世界的な最小値が得られる。

The potential of employing higher orders of the Trotter-Suzuki decomposition of the evolution operator for more effective simulations of quantum systems on a noisy quantum computer is explored. By examining the transverse-field Ising model and the XY model, it is demonstrated that when the gate error is decreased by approximately an order of magnitude relative to typical modern values, higher-order Trotterization becomes advantageous. This form of Trotterization yields a global minimum of the overall simulation error, comprising both the mathematical error of Trotterization and the physical error arising from gate execution.
翻訳日:2024-09-11 02:42:12 公開日:2024-09-07
# 1次元マニフォールド学習のためのメートル法に基づく主曲線法

A Metric-based Principal Curve Approach for Learning One-dimensional Manifold ( http://arxiv.org/abs/2405.12390v3 )

ライセンス: Link先を確認
Elvis Han Cui, Sisi Shao, (参考訳) 主曲線(英: principal curve)は、微分幾何学の概念を用いた多様体学習を指向したよく知られた統計手法である。 本稿では,空間データの1次元多様体を学習する新しい計量ベース主曲線(MPC)法を提案する。 合成データセット MNISTデータセットを用いた実応用により,本手法は形状の観点から一次元多様体をよく学習できることを示す。

Principal curve is a well-known statistical method oriented in manifold learning using concepts from differential geometry. In this paper, we propose a novel metric-based principal curve (MPC) method that learns one-dimensional manifold of spatial data. Synthetic datasets Real applications using MNIST dataset show that our method can learn the one-dimensional manifold well in terms of the shape.
翻訳日:2024-09-11 02:31:55 公開日:2024-09-07
# MiniCache: 大規模言語モデルの深さ次元におけるKVキャッシュ圧縮

MiniCache: KV Cache Compression in Depth Dimension for Large Language Models ( http://arxiv.org/abs/2405.14366v2 )

ライセンス: Link先を確認
Akide Liu, Jing Liu, Zizheng Pan, Yefei He, Gholamreza Haffari, Bohan Zhuang, (参考訳) 計算的に要求される大規模言語モデル(LLM)を効率的にデプロイするための重要なアプローチは、キーバリュー(KV)キャッシングである。 KVキャッシュは、以前に生成されたトークンのキー値状態を格納し、繰り返し計算の必要性を大幅に低減し、自動回帰生成のレイテンシを低下させる。 しかし、KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションにとって課題となる。 本稿では,新しい深度の観点からKVキャッシュを圧縮し,LCM推論におけるメモリフットプリントを大幅に削減する,MiniCacheというシンプルな手法を提案する。 提案手法は,KVキャッシュ状態がLLMの中深部における隣接層間に高い類似性を示すことを示すことに基づく。 マージを容易にするため,状態ベクトルの方向を補間し,長さを一定に保ったまま状態ベクトルの方向を補間し,状態成分を大きさと方向成分に分解する手法を提案する。 さらに、高度に異なる状態ペアをアンマージするトークン保持戦略を導入し、最小限のストレージオーバーヘッドで情報を保存する。 私たちのMiniCacheはトレーニングフリーで一般的なもので、量子化やスパシティといった既存のKVキャッシュ圧縮戦略を補完します。 複数のベンチマークでLLaMA-2, LLaMA-3, Phi-3, Mistral, Mixtralなどのモデルを用いてMiniCacheの総合評価を行い, 優れた圧縮比と高いスループットを実現した。 ShareGPTデータセットでは、4ビットのMiniCacheを持つLLaMA-2-7Bが最大5.02倍の圧縮比を実現し、推論スループットを約5倍向上し、FP16のフルキャッシュベースラインと比較してメモリフットプリントを41%削減する。

A critical approach for efficiently deploying computationally demanding large language models (LLMs) is Key-Value (KV) caching. The KV cache stores key-value states of previously generated tokens, significantly reducing the need for repetitive computations and thereby lowering latency in autoregressive generation. However, the size of the KV cache grows linearly with sequence length, posing challenges for applications requiring long context input and extensive sequence generation. In this paper, we present a simple yet effective approach, called MiniCache, to compress the KV cache across layers from a novel depth perspective, significantly reducing the memory footprint for LLM inference. Our approach is based on the observation that KV cache states exhibit high similarity between the adjacent layers in the middle-to-deep portion of LLMs. To facilitate merging, we propose disentangling the states into the magnitude and direction components, interpolating the directions of the state vectors while preserving their lengths unchanged. Furthermore, we introduce a token retention strategy to keep highly distinct state pairs unmerged, thus preserving the information with minimal additional storage overhead. Our MiniCache is training-free and general, complementing existing KV cache compression strategies, such as quantization and sparsity. We conduct a comprehensive evaluation of MiniCache utilizing various models including LLaMA-2, LLaMA-3, Phi-3, Mistral, and Mixtral across multiple benchmarks, demonstrating its exceptional performance in achieving superior compression ratios and high throughput. On the ShareGPT dataset, LLaMA-2-7B with 4-bit MiniCache achieves a remarkable compression ratio of up to 5.02x, enhances inference throughput by approximately 5x, and reduces the memory footprint by 41% compared to the FP16 full cache baseline, all while maintaining near-lossless performance.
翻訳日:2024-09-11 02:21:54 公開日:2024-09-07
# 雑音の向こう側:最適近傍同定による固有次元推定

Beyond the noise: intrinsic dimension estimation with optimal neighbourhood identification ( http://arxiv.org/abs/2405.15132v2 )

ライセンス: Link先を確認
Antonio Di Noia, Iuri Macocco, Aldo Glielmo, Alessandro Laio, Antonietta Mira, (参考訳) 固有次元(Intrinsic Dimension、ID)は、教師なし学習と特徴選択において重要な概念であり、システムを記述するのに必要な変数の数に対する低い境界である。 しかし、ほとんどの実世界のデータセットでは、IDはデータが分析されるスケールに依存する。 通常、小さなスケールでは、データは測定エラーによって影響を受けるため、IDは非常に大きい。 大規模では、そのデータを含む多様体の曲率と位相のために、IDが誤って大きいこともある。 そこで本研究では,提案するスイーツスポットを選択するための自動プロトコル,すなわち,IDが有意義で有用なスケールの範囲を自動で選択する手法を提案する。 このプロトコルは、正しいスケールよりも小さい距離に対して、データの密度が一定であることを示すものである。 提示された枠組みでは、IDを知るために必要な密度を推定するため、この条件は自己整合的に課される。 人工および実世界のデータセットのベンチマークにより、理論的保証を導き、この手順の有用性とロバスト性を示す。

The Intrinsic Dimension (ID) is a key concept in unsupervised learning and feature selection, as it is a lower bound to the number of variables which are necessary to describe a system. However, in almost any real-world dataset the ID depends on the scale at which the data are analysed. Quite typically at a small scale, the ID is very large, as the data are affected by measurement errors. At large scale, the ID can also be erroneously large, due to the curvature and the topology of the manifold containing the data. In this work, we introduce an automatic protocol to select the sweet spot, namely the correct range of scales in which the ID is meaningful and useful. This protocol is based on imposing that for distances smaller than the correct scale the density of the data is constant. In the presented framework, to estimate the density it is necessary to know the ID, therefore, this condition is imposed self-consistently. We derive theoretical guarantees and illustrate the usefulness and robustness of this procedure by benchmarks on artificial and real-world datasets.
翻訳日:2024-09-11 02:21:54 公開日:2024-09-07
# NeB-SLAM:未知シーンのためのニューラルブロックをベースとしたSalable RGB-D SLAM

NeB-SLAM: Neural Blocks-based Salable RGB-D SLAM for Unknown Scenes ( http://arxiv.org/abs/2405.15151v2 )

ライセンス: Link先を確認
Lizhi Bai, Chunqi Tian, Jun Yang, Siyu Zhang, Weijian Liang, (参考訳) ニューラルな暗黙の表現は、視覚的同時局在とマッピング(SLAM)の分野で大きな可能性を最近示している。 これは、ストレージオーバーヘッドの低さや表現の連続性など、その固有のアドバンテージのためである。 しかし、これらの手法はシーンの大きさを入力として必要としており、未知のシーンでは現実的ではない。 そこで我々は,ニューラルネットワークを用いたスケーラブルなRGB-D SLAMであるNeB-SLAMを提案する。 具体的には,まず,未知のシーン全体をサブマップの集合として表現する分割・コンカレントマッピング戦略を提案する。 これらのサブマップは、固定サイズのニューラルネットワークブロックの集合である。 そこで我々は,カメラトラッキング中のニューラルブロックのアダプティブアロケーションを実現するための適応地図成長戦略を導入し,未知のシーン全体を徐々にカバーする。 最後に、様々なデータセットに対する広範囲な評価により、未知の環境をターゲットとする際のマッピングと追跡の両方において、我々の手法が競合することを示した。

Neural implicit representations have recently demonstrated considerable potential in the field of visual simultaneous localization and mapping (SLAM). This is due to their inherent advantages, including low storage overhead and representation continuity. However, these methods necessitate the size of the scene as input, which is impractical for unknown scenes. Consequently, we propose NeB-SLAM, a neural block-based scalable RGB-D SLAM for unknown scenes. Specifically, we first propose a divide-and-conquer mapping strategy that represents the entire unknown scene as a set of sub-maps. These sub-maps are a set of neural blocks of fixed size. Then, we introduce an adaptive map growth strategy to achieve adaptive allocation of neural blocks during camera tracking and gradually cover the whole unknown scene. Finally, extensive evaluations on various datasets demonstrate that our method is competitive in both mapping and tracking when targeting unknown environments.
翻訳日:2024-09-11 02:21:54 公開日:2024-09-07
# 空間自己回帰モデルの移動学習と米国大統領選挙予測への応用

Transfer Learning for Spatial Autoregressive Models with Application to U.S. Presidential Election Prediction ( http://arxiv.org/abs/2405.15600v2 )

ライセンス: Link先を確認
Hao Zeng, Wei Zhong, Xingbai Xu, (参考訳) 空間的な地理情報を米国大統領選挙の分析、特にスイング州に組み込むことが重要である。 状態レベルの分析も、空間データの可用性が制限されるという大きな課題に直面している。 空間依存データを用いたアメリカ合衆国大統領選挙結果の予測における空間依存と小サンプルサイズの問題に対処するため, tranSARと呼ばれるSARモデルにおける新しい移動学習フレームワークを提案する。 古典的なSARモデル推定は、小さなターゲットデータサンプルでしばしば精度が低下する。 我々のフレームワークは、類似した情報源データからの情報を活用することにより、予測と予測を強化する。 本稿では、パラメータを推定し、推定器の理論的収束率を確立するために、転送段階とデバイアス段階からなる2段階のアルゴリズムを提案する。 さらに,情報ソースデータが不明な場合,空間的残留ブートストラップを用いて空間的依存を保ち,その検出一貫性を導出するトランスファー可能なソース検出アルゴリズムを提案する。 シミュレーション研究により,従来の2段最小二乗推定器を大幅に改善した。 本手法は, 従来の手法よりも優れており, アメリカ合衆国大統領選挙の結果を予測する上での有効性を実証する。 さらに、われわれのTransSARモデルは、民主党が2024年のアメリカ合衆国大統領選挙に勝つと予測している。

It is important to incorporate spatial geographic information into U.S. presidential election analysis, especially for swing states. The state-level analysis also faces significant challenges of limited spatial data availability. To address the challenges of spatial dependence and small sample sizes in predicting U.S. presidential election results using spatially dependent data, we propose a novel transfer learning framework within the SAR model, called as tranSAR. Classical SAR model estimation often loses accuracy with small target data samples. Our framework enhances estimation and prediction by leveraging information from similar source data. We introduce a two-stage algorithm, consisting of a transferring stage and a debiasing stage, to estimate parameters and establish theoretical convergence rates for the estimators. Additionally, if the informative source data are unknown, we propose a transferable source detection algorithm using spatial residual bootstrap to maintain spatial dependence and derive its detection consistency. Simulation studies show our algorithm substantially improves the classical two-stage least squares estimator. We demonstrate our method's effectiveness in predicting outcomes in U.S. presidential swing states, where it outperforms traditional methods. In addition, our tranSAR model predicts that the Democratic party will win the 2024 U.S. presidential election.
翻訳日:2024-09-11 02:21:54 公開日:2024-09-07
# Comet: プライベートトランスフォーマー推論のための通信効率と性能の近似

Comet: A Communication-efficient and Performant Approximation for Private Transformer Inference ( http://arxiv.org/abs/2405.17485v2 )

ライセンス: Link先を確認
Xiangrui Xu, Qiao Zhang, Rui Ning, Chunsheng Xin, Hongyi Wu, (参考訳) 現代の言語処理アプリケーションでChatGPTによって実証されたTransformerライクなモデルの一般的な使用は、そのようなモデルに依存した多くのクラウドベースのサービスに不可欠なプライベート推論を実現するための重要な必要性を浮き彫りにしている。 しかしながら、現在のプライバシ保護フレームワークは、特にTransformerモデルにおける非線形計算において、通信負担を著しく軽減している。 本稿では,推論性能を損なうことなく,通信コストを効果的に削減する新しいプラグイン方式Cometを提案する。 第2に,優れた初期近似を求める際の通信量を削減するための効率的な近似手法を提案する。 我々は、GLUEベンチマークデータセットを用いて、Comet on BertとRoBERTaモデルを評価し、通信の少ない3.9$\times$と3.5$\times$のスピードアップを示しながら、以前の技術と比較して競争力のあるモデルパフォーマンスを維持している。

The prevalent use of Transformer-like models, exemplified by ChatGPT in modern language processing applications, underscores the critical need for enabling private inference essential for many cloud-based services reliant on such models. However, current privacy-preserving frameworks impose significant communication burden, especially for non-linear computation in Transformer model. In this paper, we introduce a novel plug-in method Comet to effectively reduce the communication cost without compromising the inference performance. We second introduce an efficient approximation method to eliminate the heavy communication in finding good initial approximation. We evaluate our Comet on Bert and RoBERTa models with GLUE benchmark datasets, showing up to 3.9$\times$ less communication and 3.5$\times$ speedups while keep competitive model performance compared to the prior art.
翻訳日:2024-09-11 02:21:54 公開日:2024-09-07
# Wannier-Stark ladder を用いた非エルミート自由フェルミオンの研究

Fate of non-Hermitian free fermions with Wannier-Stark ladder ( http://arxiv.org/abs/2405.19155v4 )

ライセンス: Link先を確認
Han-Ze Li, Minhui Wan, Jian-Xin Zhong, (参考訳) ワニエ・スタークの局在は非エルミート自由フェルミオンの絡み合い挙動を動的に変化させる。 単一粒子相関行列法を用いて,これらのフェルミオンの有効ハミルトニアンをワニエ・スターク・はしごを用いて解析する。 開境界条件下では、定常状態半鎖絡みのエントロピーを観察し、2つの異なる領域法則領域と代数的スケーリング領域を同定する。 有限サイズスケーリング解析は、半鎖絡みエントロピーの臨界スケーリング挙動を明らかにする。 特に、このシステムは周期的境界条件下での特異な絡み合い特性を示し、アンダーソン局所化のための (1+1)d 共形場理論の予測から分岐する。 本研究は,非エルミート皮膚効果と無障害局所化との相互作用から出現する新規な絡み合い相について考察した。

The Wannier-Stark localization dynamically alters the entanglement behavior of non-Hermitian free fermions. Utilizing the single-particle correlation matrix technique, we analyze the effective Hamiltonian of these fermions with a Wannier-Stark ladder. Under open boundary conditions, we observe the steady state half-chain entanglement entropy and identify two distinct area law regions and an algebraic scaling region. Finite-size scaling analysis reveals critical scaling behavior of the half-chain entanglement entropy. Notably, the system demonstrates unique entanglement characteristics under periodic boundary conditions, which diverge from the (1+1)d conformal field theory predictions for Anderson localization. Our findings highlight novel entanglement phases emerging from the interplay between the non-Hermitian skin effect and disorder-free localization.
翻訳日:2024-09-11 02:21:54 公開日:2024-09-07
# 物質のk局所量子相の安定性について

On stability of k-local quantum phases of matter ( http://arxiv.org/abs/2405.19412v2 )

ライセンス: Link先を確認
Ali Lavasani, Michael J. Gullans, Victor V. Albert, Maissam Barkeshli, (参考訳) 現在のトポロジカル位相の理論の枠組みは、幾何学的に局所的な相互作用を持つ系の熱力学的極限に基づいている。 自然な疑問は、幾何学的局所性の制約を緩和し、それをより弱いグラフ理論の$k$-局所性の概念に置き換えるならば、物質相の概念がどの程度明確に定義されているかである。 この問題に対処するためのステップとして、一般的な量子的低密度パリティチェック符号に対応するハミルトンの摂動に対するエネルギーギャップの安定性を分析し、Bravyi と Hastings [Commun. Math. Phys. 307, 609 (2011)] の仕事を延長する。 主な結果のまとめとして、もしある定数 $\varepsilon_1,\varepsilon_2>0$ が存在して、相互作用グラフ上の半径 $r の球の大きさ $\Gamma(r)$ が$\Gamma(r) = O(\exp(r^{1-\varepsilon_1}))$ を満たすと、半径 $r\le\rho^\ast = O(\log(n)^{1+\varepsilon_2})$ の局所基底状態は局所的な摂動に対して安定となる。 これは、$D$-次元ユークリッドの場合よりもほぼ指数関数的に改善され、$\Gamma(r) = O(r^D)$ と $\rho^\ast = O(n^\alpha)$ は、ある$\alpha > 0$ である。 従うアプローチは、$\varepsilon_1 = 0$を持つ有限レートqLDPC符号の安定性を証明できない。 局所ハミルトニアンは広い零温度エントロピーを持つことができるので、熱力学の第3法則の意味を論じる。

The current theoretical framework for topological phases of matter is based on the thermodynamic limit of a system with geometrically local interactions. A natural question is to what extent the notion of a phase of matter remains well-defined if we relax the constraint of geometric locality, and replace it with a weaker graph-theoretic notion of $k$-locality. As a step towards answering this question, we analyze the stability of the energy gap to perturbations for Hamiltonians corresponding to general quantum low-density parity-check codes, extending work of Bravyi and Hastings [Commun. Math. Phys. 307, 609 (2011)]. A corollary of our main result is that if there exist constants $\varepsilon_1,\varepsilon_2>0$ such that the size $\Gamma(r)$ of balls of radius $r$ on the interaction graph satisfy $\Gamma(r) = O(\exp(r^{1-\varepsilon_1}))$ and the local ground states of balls of radius $r\le\rho^\ast = O(\log(n)^{1+\varepsilon_2})$ are locally indistinguishable, then the energy gap of the associated Hamiltonian is stable against local perturbations. This gives an almost exponential improvement over the $D$-dimensional Euclidean case, which requires $\Gamma(r) = O(r^D)$ and $\rho^\ast = O(n^\alpha)$ for some $\alpha > 0$. The approach we follow falls just short of proving stability of finite-rate qLDPC codes, which have $\varepsilon_1 = 0$; we discuss some strategies to extend the result to these cases. We discuss implications for the third law of thermodynamics, as $k$-local Hamiltonians can have extensive zero-temperature entropy.
翻訳日:2024-09-11 02:21:54 公開日:2024-09-07
# ハイゼンベルク反強磁性モデルを用いた三角形リング内における'mathrm{Cu}_{3}-like compoundsを用いた量子機械

Quantum machines using \mathrm{Cu}_{3}-like compounds modeled by Heisenberg antiferromagnetic in a triangular ring ( http://arxiv.org/abs/2406.01340v2 )

ライセンス: Link先を確認
Onofre Rojas, Moises Rojas, (参考訳) 本稿では、反強磁性結合スピン系の理論的研究、具体的には、わずかに歪んだ等方三角形構成によって特徴づけられる、反強磁性結合スピン系、特に 'ensuremath{\text{Cu}_{3}-\text{X}}(\ensuremath{\text{X=As, Sb}})について述べる。 交換・ジアロシンスキー・モリヤ相互作用,g因子,外部磁場を用いたハイゼンベルクモデルを用いて,可逆過程を前提とした3つの量子マシンについて検討した。 磁気カロリック効果(MCE)は、垂直磁場(\sim5T)の下で低温(約1K)で顕著である。 我々は、MCEが外部磁場の変化時に熱エンジンや冷蔵庫として動作するCarnotマシンにどのように影響するかを分析する。 対照的に、オットーとスターリングの機械は磁場の強度に応じて、熱エンジン、冷蔵庫、ヒーター、または熱加速器として動作することができる。 以上の結果から,MCEの強化によりこれらのマシンの動作領域が拡大し,Otto と Stirling が主に冷凍機やアクセラレータとして機能することが示唆された。 対応する熱効率も全ての動作モードで議論される。

We present a theoretical study of an antiferromagnetically coupled spin system, specifically \ensuremath{\text{Cu}_{3}-\text{X}}(\ensuremath{\text{X=As, Sb}}), characterized by a slightly distorted equilateral triangle configuration. Using the Heisenberg model with exchange and Dzyaloshinskii-Moriya interactions, g-factors, and an external magnetic field, we investigate three quantum machines using this system as the working substance, assuming reversible processes. The magnetocaloric effect (MCE) is significant at low temperatures (around 1K) under a perpendicular magnetic field (\sim5T). We analyze how MCE influences the Carnot machine, which operates as a heat engine or refrigerator when varying the external magnetic field. In contrast, the Otto and Stirling machines can operate as heat engines, refrigerators, heaters, or thermal accelerators, depending on the magnetic field intensity. Our results indicate that enhanced MCE broadens the operating regions for these machines, with the Otto and Stirling machines primarily functioning as refrigerators and accelerators. The corresponding thermal efficiencies are also discussed for all operating modes.
翻訳日:2024-09-11 02:11:38 公開日:2024-09-07
# インセプションV1の欠損曲線検出器:インセプションV1早期ビジョンへのスパースオートエンコーダの適用

The Missing Curve Detectors of InceptionV1: Applying Sparse Autoencoders to InceptionV1 Early Vision ( http://arxiv.org/abs/2406.03662v3 )

ライセンス: Link先を確認
Liv Gorton, (参考訳) スパースオートエンコーダ(SAE)に関する最近の研究は、ニューラルネットワークから解釈可能な特徴を抽出し、重ね合わせによって引き起こされる多節性ニューロンの課題に対処することを約束している。 本稿では、よく研究された畳み込みニューラルネットワークであるInceptionV1の初期の視覚層にSAEを適用し、曲線検出器に焦点をあてる。 以上の結果から、SAEは個々のニューロンから明らかでない新しい解釈可能な特徴を発見できることが示された。 また、SAEはいくつかの多節性ニューロンをより単節性成分に分解することができる。 これらの結果は、SAEはインセプションV1や畳み込みニューラルネットワークをより一般的に理解するための貴重なツールであることを示している。

Recent work on sparse autoencoders (SAEs) has shown promise in extracting interpretable features from neural networks and addressing challenges with polysemantic neurons caused by superposition. In this paper, we apply SAEs to the early vision layers of InceptionV1, a well-studied convolutional neural network, with a focus on curve detectors. Our results demonstrate that SAEs can uncover new interpretable features not apparent from examining individual neurons, including additional curve detectors that fill in previous gaps. We also find that SAEs can decompose some polysemantic neurons into more monosemantic constituent features. These findings suggest SAEs are a valuable tool for understanding InceptionV1, and convolutional neural networks more generally.
翻訳日:2024-09-11 02:11:38 公開日:2024-09-07
# エージェント間のミス・アライメントの定量化--アライメントの社会技術的理解に向けて

Quantifying Misalignment Between Agents: Towards a Sociotechnical Understanding of Alignment ( http://arxiv.org/abs/2406.04231v2 )

ライセンス: Link先を確認
Aidan Kierans, Avijit Ghosh, Hananel Hazan, Shiri Dori-Hacohen, (参考訳) アライメント問題に関する既存の研究は,(1)アライメント問題の質的な記述,(2)バリュー仕様と学習に焦点をあてて,AI行動と人間の利害関係の整合を図ること,(3)単一エージェントやモノリスとしての人間性に焦点を当てることに集中している。 最近の社会技術的アプローチは、複数の人間とAIエージェント間の複雑なミスアライメントを理解する必要性を強調している。 我々は、人間の競合の計算社会科学モデルをアライメント問題に適応させることにより、このギャップに対処する。 本モデルでは,様々な問題領域にまたがる潜在的に相反する目標を持つ多種多様なエージェント群におけるミスアライメントの定量化を行う。 我々の枠組みにおけるミスアライメントスコアは、観察されたエージェントの人口、問題領域、およびエージェントの重み付けされた嗜好の対立に依存する。 シミュレーションを通じて、我々のモデルは、異なるシナリオをまたいで、直感的な調整の側面を捉えているかを実証する。 そして、私たちのモデルを、自動運転車の設定を含む2つのケーススタディに適用し、その実用性を示します。 我々のアプローチは、複雑な社会技術環境に対する説明力を高め、現実世界のアプリケーションにおいてより整合したAIシステムの設計を通知する。

Existing work on the alignment problem has focused mainly on (1) qualitative descriptions of the alignment problem; (2) attempting to align AI actions with human interests by focusing on value specification and learning; and/or (3) focusing on a single agent or on humanity as a monolith. Recent sociotechnical approaches highlight the need to understand complex misalignment among multiple human and AI agents. We address this gap by adapting a computational social science model of human contention to the alignment problem. Our model quantifies misalignment in large, diverse agent groups with potentially conflicting goals across various problem areas. Misalignment scores in our framework depend on the observed agent population, the domain in question, and conflict between agents' weighted preferences. Through simulations, we demonstrate how our model captures intuitive aspects of misalignment across different scenarios. We then apply our model to two case studies, including an autonomous vehicle setting, showcasing its practical utility. Our approach offers enhanced explanatory power for complex sociotechnical environments and could inform the design of more aligned AI systems in real-world applications.
翻訳日:2024-09-11 02:11:38 公開日:2024-09-07
# 難読ニューラルネットワークと言語モデルに検出不能なバックドアを注入する

Injecting Undetectable Backdoors in Obfuscated Neural Networks and Language Models ( http://arxiv.org/abs/2406.05660v2 )

ライセンス: Link先を確認
Alkis Kalavasis, Amin Karbasi, Argyris Oikonomou, Katerina Sotiraki, Grigoris Velegkas, Manolis Zampetakis, (参考訳) MLモデルはますます複雑になり、金融や医療といった高額な領域に不可欠なものになりつつあり、また、高度な敵の攻撃を受けやすいものになっている。 我々は、悪質な外部の専門家企業によって開発されたモデルにおいて、検出不能なバックドアによる脅威について、Goldwasser et al (FOCS '22)で定義されている。 このようなバックドアが存在する場合、モデルの設計者はモデルの結果を変えるために入力をわずかに摂動する方法に関する情報を販売できる。 我々は,難読性難読化の概念のセキュリティ性を満足する,難読化ニューラルネットワークにバックドアを植える一般的な戦略を開発する。 ニューラルネットワークをリリースする前に難読化を適用することは、外部の専門家企業の機密情報を保護するための、十分に動機付けられた戦略です。 バックドアを植える手法は, 難読化モデルの重量や構造がアクセス可能である場合でも, バックドアの存在が検出できないことを保証している。 最後に、検出不能なバックドアの概念を言語モデルに導入し、ステガノグラフ関数の存在に基づいてニューラルネットワークのバックドア攻撃をそのようなモデルに拡張する。

As ML models become increasingly complex and integral to high-stakes domains such as finance and healthcare, they also become more susceptible to sophisticated adversarial attacks. We investigate the threat posed by undetectable backdoors, as defined in Goldwasser et al. (FOCS '22), in models developed by insidious external expert firms. When such backdoors exist, they allow the designer of the model to sell information on how to slightly perturb their input to change the outcome of the model. We develop a general strategy to plant backdoors to obfuscated neural networks, that satisfy the security properties of the celebrated notion of indistinguishability obfuscation. Applying obfuscation before releasing neural networks is a strategy that is well motivated to protect sensitive information of the external expert firm. Our method to plant backdoors ensures that even if the weights and architecture of the obfuscated model are accessible, the existence of the backdoor is still undetectable. Finally, we introduce the notion of undetectable backdoors to language models and extend our neural network backdoor attacks to such models based on the existence of steganographic functions.
翻訳日:2024-09-11 02:11:38 公開日:2024-09-07
# HAIChart: 人間とAIがペアリングした可視化システム

HAIChart: Human and AI Paired Visualization System ( http://arxiv.org/abs/2406.11033v2 )

ライセンス: Link先を確認
Yupeng Xie, Yuyu Luo, Guoliang Li, Nan Tang, (参考訳) ビジネスインテリジェンスとデータサイエンスにおけるデータ視覚化の重要性の高まりは、大規模なデータセットから意味のある視覚化を効率的に生成できるツールの必要性を強調している。 既存のツールは、専門家の集中的な関与を必要とする人力ツール(TableauやPowerBIなど)と、AIによる自動化ツール(DracoやTable2Chartsなど)の2つのカテゴリに分類される。 本稿では,両世界を最大限に活用することを目的とする。 私たちのキーとなるアイデアは、最初は手作業を最小限に抑えるために高品質な視覚化セットを自動生成し、ユーザからのフィードバックでプロセスを反復的に洗練して、彼らのニーズをより緊密に整合させることです。 この目的のために,ユーザのフィードバックを取り入れることで,与えられたデータセットに対する優れた視覚化を反復的に推奨するように設計された強化学習ベースのフレームワークであるHAIChartを提案する。 具体的には,モンテカルログラフ検索に基づくビジュアライゼーション生成アルゴリズムを合成報酬関数と組み合わせて,ビジュアライゼーション空間を効率的に探索し,良質なビジュアライゼーションを自動的に生成する手法を提案する。 ユーザフィードバックを積極的に取り入れる可視化ヒント機構を考案し,可視化生成モジュールを段階的に改良する。 さらに、トップk可視化ヒント選択問題はNPハードであり、効率的なアルゴリズムを設計することを証明する。 我々は定量的評価とユーザスタディの両方を行い、HAIChartは最先端の人力ツール(リコールでは21%、CPUでは1.8倍)とAIによる自動ツール(Hit@3とR10@30では25.1%、それぞれ14.9%)を大きく上回っていることを示した。

The growing importance of data visualization in business intelligence and data science emphasizes the need for tools that can efficiently generate meaningful visualizations from large datasets. Existing tools fall into two main categories: human-powered tools (e.g., Tableau and PowerBI), which require intensive expert involvement, and AI-powered automated tools (e.g., Draco and Table2Charts), which often fall short of guessing specific user needs. In this paper, we aim to achieve the best of both worlds. Our key idea is to initially auto-generate a set of high-quality visualizations to minimize manual effort, then refine this process iteratively with user feedback to more closely align with their needs. To this end, we present HAIChart, a reinforcement learning-based framework designed to iteratively recommend good visualizations for a given dataset by incorporating user feedback. Specifically, we propose a Monte Carlo Graph Search-based visualization generation algorithm paired with a composite reward function to efficiently explore the visualization space and automatically generate good visualizations. We devise a visualization hints mechanism to actively incorporate user feedback, thus progressively refining the visualization generation module. We further prove that the top-k visualization hints selection problem is NP-hard and design an efficient algorithm. We conduct both quantitative evaluations and user studies, showing that HAIChart significantly outperforms state-of-the-art human-powered tools (21% better at Recall and 1.8 times faster) and AI-powered automatic tools (25.1% and 14.9% better in terms of Hit@3 and R10@30, respectively).
翻訳日:2024-09-11 02:01:46 公開日:2024-09-07
# PhyBench: テキストから画像へのモデル評価のための物理コモンセンスベンチマーク

PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models ( http://arxiv.org/abs/2406.11802v2 )

ライセンス: Link先を確認
Fanqing Meng, Wenqi Shao, Lixin Luo, Yahong Wang, Yiran Chen, Quanfeng Lu, Yue Yang, Tianshuo Yang, Kaipeng Zhang, Yu Qiao, Ping Luo, (参考訳) テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトから画像を生成するのに大きく進歩している。 しかし、彼らはしばしば、世界シミュレーションや日々のタスクにおけるアプリケーションにとって重要な機能である物理コモンセンスと整合したイメージを作成することに失敗する。 現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当てており、モデルの内部知識、特に物理コモンセンスの評価を無視している。 この問題に対処するために、機械、光学、熱力学、材料特性の4つの主要なカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介し、31の異なる物理シナリオを包含する。 プロプライエタリなモデルDALLE3やGeminiを含む6つの著名なT2Iモデルを評価し、物理原理をプロンプトに組み込むことで、物理的に正確な画像を生成する能力を向上させることを実証する。 その結果,(1)光学以外の様々な物理的シナリオにおいて,高度なモデルであっても頻繁に現れること,(2)GPT-4oはアイテム固有のスコアリング命令とともに,人間の評価と密接に一致して,物理的コモンセンスの理解を効果的に評価すること,(3)現在のT2Iモデルはテキストから画像への翻訳に重点を置いており,物理的コモンセンスに関する深い推論が欠如していること,などが判明した。 我々は、単なる画像生成ツールとしての有用性を超えて、T2Iモデル内の本質的な知識に注意を向けることを提唱する。 コードとデータはhttps://github.com/OpenGVLab/PhyBench.comで公開されている。

Text-to-image (T2I) models have made substantial progress in generating images from textual prompts. However, they frequently fail to produce images consistent with physical commonsense, a vital capability for applications in world simulation and everyday tasks. Current T2I evaluation benchmarks focus on metrics such as accuracy, bias, and safety, neglecting the evaluation of models' internal knowledge, particularly physical commonsense. To address this issue, we introduce PhyBench, a comprehensive T2I evaluation dataset comprising 700 prompts across 4 primary categories: mechanics, optics, thermodynamics, and material properties, encompassing 31 distinct physical scenarios. We assess 6 prominent T2I models, including proprietary models DALLE3 and Gemini, and demonstrate that incorporating physical principles into prompts enhances the models' ability to generate physically accurate images. Our findings reveal that: (1) even advanced models frequently err in various physical scenarios, except for optics; (2) GPT-4o, with item-specific scoring instructions, effectively evaluates the models' understanding of physical commonsense, closely aligning with human assessments; and (3) current T2I models are primarily focused on text-to-image translation, lacking profound reasoning regarding physical commonsense. We advocate for increased attention to the inherent knowledge within T2I models, beyond their utility as mere image generation tools. The code and data are available at https://github.com/OpenGVLab/PhyBench.
翻訳日:2024-09-11 02:01:46 公開日:2024-09-07
# $^{229\mathrm{m}}$Th核異性体遷移と$^{87}$Sr原子時計の周波数比

Frequency ratio of the $^{229\mathrm{m}}$Th nuclear isomeric transition and the $^{87}$Sr atomic clock ( http://arxiv.org/abs/2406.18719v2 )

ライセンス: Link先を確認
Chuankun Zhang, Tian Ooi, Jacob S. Higgins, Jack F. Doyle, Lars von der Wense, Kjeld Beeks, Adrian Leitner, Georgy Kazakov, Peng Li, Peter G. Thirolf, Thorsten Schumm, Jun Ye, (参考訳) 光原子時計$^{1,2}$ 時間を正確に追跡するために電子エネルギーレベルを使用する。 核エネルギーレベルに基づく時計は、精密気象学と基礎物理学研究のための次世代プラットフォームを約束する。 トリウム229核は、最先端真空紫外(VUV)レーザー光源の届く範囲内で、一意に低エネルギーの核遷移を示すため、最初の原子時計(英語版)の建設が提案されている。 しかし、$^{229m}$Th異性体の量子状態分解分光により核構造が決定され、既存の原子時計との直接周波数接続が確立されていない。 ここでは、VUV周波数コムを用いて、固体CaF$_2$ホスト材料中の狭い$^{229}$Th核時計遷移を直接励起し、絶対遷移周波数を決定する。 我々は、基本周波数コムをJILA $^{87}$Srクロック$^2$に安定化し、フェムト秒拡張キャビティを用いて、VUVの7番目の高調波にコヒーレントに変換する。 このVUVコムは、核エネルギーレベルと電子エネルギーレベルの周波数リンクを確立し、$^{229}$Th核時計遷移と$^{87}$Sr原子時計の周波数比を直接測定することができる。 また、核四極子分裂を正確に測定し、異性体の固有の性質を抽出する。 これらの結果は核ベースの固体光時計の始まりであり、基礎物理学研究のための原子時計と原子時計の初めての比較を実証している。 この研究は、精密気象学、超高速強磁場物理学、核物理学、基礎物理学の融合を表している。

Optical atomic clocks$^{1,2}$ use electronic energy levels to precisely keep track of time. A clock based on nuclear energy levels promises a next-generation platform for precision metrology and fundamental physics studies. Thorium-229 nuclei exhibit a uniquely low energy nuclear transition within reach of state-of-the-art vacuum ultraviolet (VUV) laser light sources and have therefore been proposed for construction of the first nuclear clock$^{3,4}$. However, quantum state-resolved spectroscopy of the $^{229m}$Th isomer to determine the underlying nuclear structure and establish a direct frequency connection with existing atomic clocks has yet to be performed. Here, we use a VUV frequency comb to directly excite the narrow $^{229}$Th nuclear clock transition in a solid-state CaF$_2$ host material and determine the absolute transition frequency. We stabilize the fundamental frequency comb to the JILA $^{87}$Sr clock$^2$ and coherently upconvert the fundamental to its 7th harmonic in the VUV range using a femtosecond enhancement cavity. This VUV comb establishes a frequency link between nuclear and electronic energy levels and allows us to directly measure the frequency ratio of the $^{229}$Th nuclear clock transition and the $^{87}$Sr atomic clock. We also precisely measure the nuclear quadrupole splittings and extract intrinsic properties of the isomer. These results mark the start of nuclear-based solid-state optical clock and demonstrate the first comparison of nuclear and atomic clocks for fundamental physics studies. This work represents a confluence of precision metrology, ultrafast strong field physics, nuclear physics, and fundamental physics.
翻訳日:2024-09-11 02:01:46 公開日:2024-09-07
# マルチモーダルAIにおける公正性とバイアス

Fairness and Bias in Multimodal AI: A Survey ( http://arxiv.org/abs/2406.19097v2 )

ライセンス: Link先を確認
Tosin Adewumi, Lama Alkhaled, Namrata Gurung, Goya van Boven, Irene Pagliai, (参考訳) 人工知能(AI)システムにおける公平性とバイアスに対処することの重要性は、過度に強調できない。 近年, 主流メディアは, ステレオタイプやその他多くのシステムにおいて, 偏見にまつわるインシデントで目覚めている。 本稿では,Large Language Models (LLMs) と比較して,Large Multimodal Models (LMMs) の公平性とバイアスについて,比較的最小限の研究のギャップを埋める。 我々は、緩和バイアス、前処理(特に前処理と呼ばれる最初の部分に注意を払って)の最小限のカテゴリーについて論じる。 本手法は本研究でよく知られる2つの方法(本質的・外生的緩和法)に比べ,少ない。 我々は、研究者がこれらの課題に対処する様々な方法について批判的に議論する。 提案手法では,Google ScholarとWeb of Science (WoS) の2つの検索クエリを比較検討した結果,WoSの場合,Scholarでは'Fairness and bias in Large Multimodal Models','Fairness and bias in Large Language Models',33,400,538,000リンクがそれぞれ最初の結果であり,WoSでは4,50リンクが最初の結果であることがわかった。 再現性と検証のために、最終レビュー論文の検索結果と引用へのリンクを提供する。 この研究は、このギャップを埋め、マルチモーダルAIと言語AIにおける公平性とバイアスの課題に対処する方法について、研究者や他のステークホルダーに洞察を与えるのに役立つと信じています。

The importance of addressing fairness and bias in artificial intelligence (AI) systems cannot be over-emphasized. Mainstream media has been awashed with news of incidents around stereotypes and other types of bias in many of these systems in recent years. In this survey, we fill a gap with regards to the relatively minimal study of fairness and bias in Large Multimodal Models (LMMs) compared to Large Language Models (LLMs), providing 50 examples of datasets and models related to both types of AI along with the challenges of bias affecting them. We discuss the less-mentioned category of mitigating bias, preprocessing (with particular attention on the first part of it, which we call preuse). The method is less-mentioned compared to the two well-known ones in the literature: intrinsic and extrinsic mitigation methods. We critically discuss the various ways researchers are addressing these challenges. Our method involved two slightly different search queries on two reputable search engines, Google Scholar and Web of Science (WoS), which revealed that for the queries 'Fairness and bias in Large Multimodal Models' and 'Fairness and bias in Large Language Models', 33,400 and 538,000 links are the initial results, respectively, for Scholar while 4 and 50 links are the initial results, respectively, for WoS. For reproducibility and verification, we provide links to the search results and the citations to all the final reviewed papers. We believe this work contributes to filling this gap and providing insight to researchers and other stakeholders on ways to address the challenges of fairness and bias in multimodal and language AI.
翻訳日:2024-09-11 02:01:46 公開日:2024-09-07
# eMoE-Tracker:ロバストイベント誘導オブジェクト追跡のための環境MoEベースのトランス

eMoE-Tracker: Environmental MoE-based Transformer for Robust Event-guided Object Tracking ( http://arxiv.org/abs/2406.20024v2 )

ライセンス: Link先を確認
Yucheng Chen, Lin Wang, (参考訳) 高フレームレートオブジェクト追跡のためのフレームベースおよびイベントカメラの特異な相補性は、最近、マルチモーダル融合手法の開発にいくつかの研究を刺激している。 しかし、これらの手法は両モードを直接融合させ、例えば、動きのぼやけ、照明のばらつき、閉塞、スケールのばらつきなどの環境特性を無視する。 一方、検索機能とテンプレート機能との相互作用がないため、対象オブジェクトと背景の区別が難しい。 その結果、特に挑戦的な条件下では、性能劣化が引き起こされる。 本稿では,トランスフォーマーを用いたイベント誘導トラッキングフレームワークeMoE-Trackerを提案する。 私たちのキーとなるアイデアは、環境をいくつかの学習可能な属性に分解し、属性固有の特徴を動的に学習し、より優れたインタラクションと、ターゲット情報とバックグラウンド間の識別性を実現することです。 この目的を達成するために,まず,環境属性と環境属性を動的に組み立てるために,環境属性と環境属性を動的に学習するために,環境属性と環境属性とを関連づける環境ミックス・オブ・エグゼクティブ(eMoE)モジュールを提案する。 eMoEモジュールは、トランスのバックボーンをより効率的に微調整できる微妙なルーターだ。 次に、ターゲット情報と背景間の相互作用と識別性を改善するために、コントラッシブ・リレーション・モデリング(CRM)モジュールを導入する。 さまざまなイベントベースのベンチマークデータセットに関する大規模な実験は、従来の技術と比較して、eMoE-Trackerの優れたパフォーマンスを示しています。

The unique complementarity of frame-based and event cameras for high frame rate object tracking has recently inspired some research attempts to develop multi-modal fusion approaches. However, these methods directly fuse both modalities and thus ignore the environmental attributes, e.g., motion blur, illumination variance, occlusion, scale variation, etc. Meanwhile, no interaction between search and template features makes distinguishing target objects and backgrounds difficult. As a result, performance degradation is induced especially in challenging conditions. This paper proposes a novel and effective Transformer-based event-guided tracking framework, called eMoE-Tracker, which achieves new SOTA performance under various conditions. Our key idea is to disentangle the environment into several learnable attributes to dynamically learn the attribute-specific features for better interaction and discriminability between the target information and background. To achieve the goal, we first propose an environmental Mix-of-Experts (eMoE) module that is built upon the environmental Attributes Disentanglement to learn attribute-specific features and environmental Attributes Gating to assemble the attribute-specific features by the learnable attribute scores dynamically. The eMoE module is a subtle router that fine-tunes the transformer backbone more efficiently. We then introduce a contrastive relation modeling (CRM) module to improve interaction and discriminability between the target information and background. Extensive experiments on diverse event-based benchmark datasets showcase the superior performance of our eMoE-Tracker compared to the prior arts.
翻訳日:2024-09-11 02:01:46 公開日:2024-09-07
# Narrow Transformer: StarCoderベースのデスクトップ用Java-LM

Narrow Transformer: StarCoder-Based Java-LM For Desktop ( http://arxiv.org/abs/2407.03941v2 )

ライセンス: Link先を確認
Kamalkumar Rathinasamy, Balaji A J, Ankush Kumar, Gagan Gayari, Harshini K, Rajab Ali Mondal, Sreenivasa Raghavan K S, Swayam Singh, Mohammed Rafee Tarafdar, (参考訳) 本稿では,StarCoderBase-1.1B上に構築されたオープンソースの特殊言語モデルNT-Java-1.1Bについて述べる。 NT-Java-1.1Bは、MultiPL-EのJavaコードベンチマークで、ベースモデルと同様のサイズのモデルの大半を上回り、最先端のパフォーマンスを達成する。 Pythonのような特定のプログラミング言語の習熟性を改善するために、大規模で汎用的な事前訓練モデルを拡張する研究があるが、他のプログラミング言語の小さなコードモデルに関する同様の調査は不十分である。 大規模なコードモデルは推論のためにGPUのような特別なハードウェアを必要としており、開発者デスクトップにデプロイ可能な小さなコードモデルを構築する研究の必要性を強調している。 本稿では, NT-Java-1.1B という小型 Java コードモデルとその量子化バージョンの開発に焦点をあて, マルチPL-E の Java コードベンチマーク上で 1.1B 前後のオープンモデルに対してコンパティブルに動作させることで, デスクトップのデプロイに最適であることを示す。 本稿では,NTモデルファミリーの言語やサイズにまたがる特化モデルの基盤を確立する。

This paper presents NT-Java-1.1B, an open-source specialized code language model built on StarCoderBase-1.1B, designed for coding tasks in Java programming. NT-Java-1.1B achieves state-of-the-art performance, surpassing its base model and majority of other models of similar size on MultiPL-E Java code benchmark. While there have been studies on extending large, generic pre-trained models to improve proficiency in specific programming languages like Python, similar investigations on small code models for other programming languages are lacking. Large code models require specialized hardware like GPUs for inference, highlighting the need for research into building small code models that can be deployed on developer desktops. This paper addresses this research gap by focusing on the development of a small Java code model, NT-Java-1.1B, and its quantized versions, which performs comparably to open models around 1.1B on MultiPL-E Java code benchmarks, making them ideal for desktop deployment. This paper establishes the foundation for specialized models across languages and sizes for a family of NT Models.
翻訳日:2024-09-11 01:51:43 公開日:2024-09-07
# Generalists vs. Specialists: Urduの大規模言語モデルの評価

Generalists vs. Specialists: Evaluating Large Language Models for Urdu ( http://arxiv.org/abs/2407.04459v2 )

ライセンス: Link先を確認
Samee Arif, Abdul Hameed Azeemi, Agha Ali Raza, Awais Athar, (参考訳) 本稿では,汎用事前学習モデルであるGPT-4-TurboとLlama-3-8b-Instructを,XLM-Roberta-large,mT5-large,Llama-3-8b-Instructといった特殊目的モデルと比較する。 我々は、これらのモデルの性能をウルドゥー語で評価するために、7つの分類と6つの世代タスクに焦点を当てる。 Urduには7000万人のネイティブスピーカーがあるが、Natural Language Processing(NLP)では表現されていない。 LLM(Large Language Models)の頻繁な進歩にもかかわらず、Urduを含む低リソース言語のパフォーマンスを調査する必要がある。 また, GPT-4-Turbo と Llama-3-8b-Instruct による評価結果と比較した。 特殊目的モデルは、様々なタスクにおいて汎用モデルより一貫して優れていることが判明した。 また,生成タスクに対する GPT-4-Turbo による評価は,Llama-3-8b-Instruct による評価に比べ,人間による評価と密接に一致していることがわかった。 本稿では,低リソース言語に対する汎用LLMの有効性に関する知見を提供することで,NLPコミュニティに貢献する。

In this paper, we compare general-purpose pretrained models, GPT-4-Turbo and Llama-3-8b-Instruct with special-purpose models fine-tuned on specific tasks, XLM-Roberta-large, mT5-large, and Llama-3-8b-Instruct. We focus on seven classification and six generation tasks to evaluate the performance of these models on Urdu language. Urdu has 70 million native speakers, yet it remains underrepresented in Natural Language Processing (NLP). Despite the frequent advancements in Large Language Models (LLMs), their performance in low-resource languages, including Urdu, still needs to be explored. We also conduct a human evaluation for the generation tasks and compare the results with the evaluations performed by GPT-4-Turbo and Llama-3-8b-Instruct. We find that special-purpose models consistently outperform general-purpose models across various tasks. We also find that the evaluation done by GPT-4-Turbo for generation tasks aligns more closely with human evaluation compared to the evaluation by Llama-3-8b-Instruct. This paper contributes to the NLP community by providing insights into the effectiveness of general and specific-purpose LLMs for low-resource languages.
翻訳日:2024-09-11 01:51:43 公開日:2024-09-07
# Emilia:大規模音声生成のための多言語・多言語・多言語音声データセット

Emilia: An Extensive, Multilingual, and Diverse Speech Dataset for Large-Scale Speech Generation ( http://arxiv.org/abs/2407.05361v3 )

ライセンス: Link先を確認
Haorui He, Zengqiang Shang, Chaoren Wang, Xuyuan Li, Yicheng Gu, Hua Hua, Liwei Liu, Chen Yang, Jiaqi Li, Peiyang Shi, Yuancheng Wang, Kai Chen, Pengyuan Zhang, Zhizheng Wu, (参考訳) 近年の音声生成モデルの進歩は,大規模学習データの利用によって著しく促進されている。 しかし、大きな、多種多様な、自発的な音声データセットが不足しているため、非常に自発的で人間らしい音声を生成することは依然として課題である。 これに対し、Emiliaは、最初の大規模、多言語、多様な音声生成データセットである。 Emiliaは、6つの言語にまたがる101k時間以上のスピーチから始まり、より自然で自発的な音声生成を可能にする幅広い話し方をカバーする。 また,Emilia-Pipeというオープンソースの前処理パイプラインも提案する。 EmiliaとEmilia-Pipeの効果が実験的に示された。 デモは、https://emilia-dataset.github.io/Emilia-Demo-Page/.comで公開されている。

Recent advancements in speech generation models have been significantly driven by the use of large-scale training data. However, producing highly spontaneous, human-like speech remains a challenge due to the scarcity of large, diverse, and spontaneous speech datasets. In response, we introduce Emilia, the first large-scale, multilingual, and diverse speech generation dataset. Emilia starts with over 101k hours of speech across six languages, covering a wide range of speaking styles to enable more natural and spontaneous speech generation. To facilitate the scale-up of Emilia, we also present Emilia-Pipe, the first open-source preprocessing pipeline designed to efficiently transform raw, in-the-wild speech data into high-quality training data with speech annotations. Experimental results demonstrate the effectiveness of both Emilia and Emilia-Pipe. Demos are available at: https://emilia-dataset.github.io/Emilia-Demo-Page/.
翻訳日:2024-09-11 01:51:43 公開日:2024-09-07
# IOVS4NeRF:大規模NeRFの最適視点選択

IOVS4NeRF:Incremental Optimal View Selection for Large-Scale NeRFs ( http://arxiv.org/abs/2407.18611v2 )

ライセンス: Link先を確認
Jingpeng Xie, Shiyu Tan, Yuanlei Wang, Yizhen Lao, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は,最近,3次元シーンの再構成と,限られた2次元画像からの新規視点の合成において,大きな効率性を示した。 しかし、NeRFを用いた大規模な再構成は、訓練のためにかなりの量の航空画像を必要とするため、資源制約のある環境では実用的ではない。 本稿では,制限された入力予算内での3Dシーンのモデル化を目的とした,革新的なインクリメンタル・インクリメンタルなビュー選択フレームワークIOVS4NeRFを提案する。 具体的には,既存のトレーニングセットを新たに取得したサンプルに追加し,レンダリングの不確かさと位置の不確実性を統合した,計算された新しいハイブリッドな候補ビューの不確実性によってガイドする。 最高の情報ゲインを提供するビューを選択することで、新規ビュー合成の品質を最小限の追加リソースで向上させることができる。 総合的な実験は、特にスパーストレーニングデータの条件下で、現実的なシーンにおけるモデルの有効性、ベースラインや類似の先行作品の効率を実証する。

Neural Radiance Fields (NeRF) have recently demonstrated significant efficiency in the reconstruction of three-dimensional scenes and the synthesis of novel perspectives from a limited set of two-dimensional images. However, large-scale reconstruction using NeRF requires a substantial amount of aerial imagery for training, making it impractical in resource-constrained environments. This paper introduces an innovative incremental optimal view selection framework, IOVS4NeRF, designed to model a 3D scene within a restricted input budget. Specifically, our approach involves adding the existing training set with newly acquired samples, guided by a computed novel hybrid uncertainty of candidate views, which integrates rendering uncertainty and positional uncertainty. By selecting views that offer the highest information gain, the quality of novel view synthesis can be enhanced with minimal additional resources. Comprehensive experiments substantiate the efficiency of our model in realistic scenes, outperforming baselines and similar prior works, particularly under conditions of sparse training data.
翻訳日:2024-09-11 01:25:35 公開日:2024-09-07
# ストリームアルゴリズムとk平均クラスタをRAGに実装する

Implementing Streaming algorithm and k-means clusters to RAG ( http://arxiv.org/abs/2407.21300v3 )

ライセンス: Link先を確認
Haoyu Kang, Yuzhou Zhu, Yukun Zhong, Ke Wang, (参考訳) Retrieval-augmented Generation (RAG)は、外部知識データベースを構築するため、大規模言語モデルLLMを支援するために、情報検索において大きな成功を収めている。 しかし、多くの問題があり、巨大なデータベースのために大量のメモリを消費し、巨大なストリーミングデータに直面すると、確立したインデックスデータベースを更新できない。 データベース構築に必要なメモリを削減し、精度を同時に維持するために、ストリーミングアルゴリズムとk-meansクラスタリングをRAGに統合する新しいアプローチを提案する。 提案手法では,動的にインデックスを更新し,メモリ消費を削減するためにストリーミングアルゴリズムを適用した。 さらに、k-meansアルゴリズムは、非常に類似したドキュメントをクラスタリングし、クエリ時間を短縮する。 その結果,ストリーミングアルゴリズムとk平均クラスタを用いたRAGは,特に大規模ストリーミングデータを扱う場合,従来のRAGよりも精度とメモリが優れていた。

Retrieval-augmented generation (RAG) has achieved significant success in information retrieval to assist large language models LLMs because it builds an external knowledge database. However, it also has many problems, it consumes a lot of memory because of the enormous database, and it cannot update the established index database in time when confronted with massive streaming data. To reduce the memory required for building the database and maintain accuracy simultaneously, we proposed a new approach integrating a streaming algorithm with k-means clustering into RAG. Our approach applied a streaming algorithm to update the index dynamically and reduce memory consumption. Additionally, the k-means algorithm clusters highly similar documents, and the query time would be shortened. We conducted comparative experiments on four methods, and the results indicated that RAG with streaming algorithm and k-means clusters outperforms traditional RAG in accuracy and memory, particularly when dealing with large-scale streaming data.
翻訳日:2024-09-11 01:25:35 公開日:2024-09-07
# 医用画像セグメンテーションにおけるアウト・オブ・ディストリビューション検出のための次元低減と最近近傍

Dimensionality Reduction and Nearest Neighbors for Improving Out-of-Distribution Detection in Medical Image Segmentation ( http://arxiv.org/abs/2408.02761v2 )

ライセンス: Link先を確認
McKell Woodland, Nihil Patel, Austin Castelo, Mais Al Taie, Mohamed Eltaher, Joshua P. Yung, Tucker J. Netherton, Tiffany L. Calderone, Jessica I. Sanchez, Darrel W. Cleere, Ahmed Elsaiey, Nakul Gupta, David Victor, Laura Beretta, Ankit B. Patel, Kristy K. Brock, (参考訳) 臨床的にデプロイされたディープラーニングベースのセグメンテーションモデルは、トレーニングディストリビューション外のデータで失敗することが知られている。 臨床医はセグメンテーションをレビューするが、ほとんどの場合、これらのモデルはうまく機能する傾向にあり、自動化バイアスが悪化する可能性がある。 したがって、推測による分布外画像の検出は、このモデルが失敗する可能性があると臨床医に警告することが重要である。 この研究は、T1強調MRIとCTで肝臓を分画した4つのSwin UNETRとnnU-netモデルのボトルネック特性にMahalanobis(MD)ポストホックを適用した。 主成分分析または一様多様体近似および投影によりボトルネック特性の次元を小さくすることで、モデルが失敗した画像は高い性能と最小の計算負荷で検出された。 さらに、この研究は、近距離KNN(K-th Nears distance)であるMDの非パラメトリックな代替品を探索した。 KNNは、生のボトルネック機能と平均的なボトルネック機能の両方に適用されたとき、MDよりもスケーラビリティとパフォーマンスを大幅に改善した。

Clinically deployed deep learning-based segmentation models are known to fail on data outside of their training distributions. While clinicians review the segmentations, these models tend to perform well in most instances, which could exacerbate automation bias. Therefore, detecting out-of-distribution images at inference is critical to warn the clinicians that the model likely failed. This work applied the Mahalanobis distance (MD) post hoc to the bottleneck features of four Swin UNETR and nnU-net models that segmented the liver on T1-weighted magnetic resonance imaging and computed tomography. By reducing the dimensions of the bottleneck features with either principal component analysis or uniform manifold approximation and projection, images the models failed on were detected with high performance and minimal computational load. In addition, this work explored a non-parametric alternative to the MD, a k-th nearest neighbors distance (KNN). KNN drastically improved scalability and performance over MD when both were applied to raw and average-pooled bottleneck features.
翻訳日:2024-09-11 01:15:13 公開日:2024-09-07
# ニューラルアーキテクチャ検索に基づくパームベイン認識のためのグローバルローカルビジョンマンバ

Neural Architecture Search based Global-local Vision Mamba for Palm-Vein Recognition ( http://arxiv.org/abs/2408.05743v3 )

ライセンス: Link先を確認
Huafeng Qin, Yuming Fu, Jing Chen, Mounim A. El-Yacoubi, Xinbo Gao, Jun Wang, (参考訳) 高セキュリティ,高プライバシ,活力認識などの利点により,近年は静脈認識がますます注目されている。 近年のディープラーニングモデル,例えば,Mambaは線形計算複雑性を持つ頑健な特徴表現を示し,視覚タスクにうまく適用されている。 しかし、Vision Manbaは長距離機能依存関係をキャプチャできるが、残念ながらローカル機能の詳細は劣化している。 加えて、人間の事前知識に基づくMambaアーキテクチャを手動で設計することは、非常に時間がかかり、エラーが発生しやすい。 本稿ではまず,画像の局所的相関と静脈特徴表現のためのトークン間のグローバルな依存関係を明示的に学習するための,GLVM(Global-local Vision Mamba)というハイブリッドネットワーク構造を提案する。 第2に,視覚的マンバの特徴表現能力を向上させるために,異なる方向に沿った依存関係を学習するためのマルチヘッドマンバを設計する。 第3に,MHM(Multi-head Mamba branch),FIU(Feature Iteration Unit branch),CNN(Convolutional Neural Network)という3つのブランチからなるConvMambaブロックを提案する。 最後に,Global Local Alternate Neural Architecture Search (GLNAS)法を提案し,GLVMの最適アーキテクチャを進化的アルゴリズムと交互に探索し,静脈認識タスクの認識性能を向上させる。 我々は3つの公開パームベインデータベース上で厳密な実験を行い、その性能を推定する。 実験の結果,提案手法は代表的手法よりも優れ,最先端の認識精度が得られた。

Due to the advantages such as high security, high privacy, and liveness recognition, vein recognition has been received more and more attention in past years. Recently, deep learning models, e.g., Mamba has shown robust feature representation with linear computational complexity and successfully applied for visual tasks. However, vision Manba can capture long-distance feature dependencies but unfortunately deteriorate local feature details. Besides, manually designing a Mamba architecture based on human priori knowledge is very time-consuming and error-prone. In this paper, first, we propose a hybrid network structure named Global-local Vision Mamba (GLVM), to learn the local correlations in images explicitly and global dependencies among tokens for vein feature representation. Secondly, we design a Multi-head Mamba to learn the dependencies along different directions, so as to improve the feature representation ability of vision Mamba. Thirdly, to learn the complementary features, we propose a ConvMamba block consisting of three branches, named Multi-head Mamba branch (MHMamba), Feature Iteration Unit branch (FIU), and Convolutional Neural Network (CNN) branch, where the Feature Iteration Unit branch aims to fuse convolutional local features with Mamba-based global representations. Finally, a Globallocal Alternate Neural Architecture Search (GLNAS) method is proposed to search the optimal architecture of GLVM alternately with the evolutionary algorithm, thereby improving the recognition performance for vein recognition tasks. We conduct rigorous experiments on three public palm-vein databases to estimate the performance. The experimental results demonstrate that the proposed method outperforms the representative approaches and achieves state-of-the-art recognition accuracy.
翻訳日:2024-09-11 01:15:13 公開日:2024-09-07
# Polyp SAM 2: 大腸癌検出におけるゼロショットポリープセグメンテーションの促進

Polyp SAM 2: Advancing Zero shot Polyp Segmentation in Colorectal Cancer Detection ( http://arxiv.org/abs/2408.05892v4 )

ライセンス: Link先を確認
Mobina Mansoori, Sajjad Shahabodini, Jamshid Abouei, Konstantinos N. Plataniotis, Arash Mohammadi, (参考訳) ポリープ分画は大腸癌の早期発見と診断において重要な役割を担っている。 しかし、正確なセグメンテーションを得るには、しばしば労働集約的なアノテーションと専門的なモデルが必要である。 最近、Meta AI Researchは、いくつかのセグメンテーションタスクで有望なパフォーマンスを示す一般的なセグメンテーションモデル2(SAM2)をリリースした。 そこで本論文では,各種刺激条件下でのセグメンテーションポリプにおけるSAM2の性能評価を行った。 このレポートは,ポリプセグメンテーションの分野を前進させ,将来より興味深い研究を促進するための洞察を提供することを期待している。 このプロジェクトはhttps://github.com/sajjad-sh33/Polyp-SAM-2で公開されている。

Polyp segmentation plays a crucial role in the early detection and diagnosis of colorectal cancer. However, obtaining accurate segmentations often requires labor-intensive annotations and specialized models. Recently, Meta AI Research released a general Segment Anything Model 2 (SAM 2), which has demonstrated promising performance in several segmentation tasks. In this manuscript, we evaluate the performance of SAM 2 in segmenting polyps under various prompted settings. We hope this report will provide insights to advance the field of polyp segmentation and promote more interesting work in the future. This project is publicly available at https://github.com/ sajjad-sh33/Polyp-SAM-2.
翻訳日:2024-09-11 01:15:13 公開日:2024-09-07
# LLMのフェローシップ:合成選好最適化データセット生成のためのマルチエージェントワークフロー

The Fellowship of the LLMs: Multi-Agent Workflows for Synthetic Preference Optimization Dataset Generation ( http://arxiv.org/abs/2408.08688v3 )

ライセンス: Link先を確認
Samee Arif, Sualeha Farid, Abdul Hameed Azeemi, Awais Athar, Agha Ali Raza, (参考訳) 本稿では、マルチエージェントワークフローを用いて生成した合成優先度最適化(PO)データセットについて、データセット生成プロセスにおけるこれらのワークフローの有効性とポテンシャルを評価する。 POデータセット生成には,(1)応答評価,(2)応答生成という2つのモジュールが必要である。 応答評価モジュールでは,Lumge Language Models (LLMs) からの応答を評価し,評価する。 反応評価モジュールを2段階のプロセスで評価する。 ステップ1では,LLMを3つの異なるプロンプト戦略を用いて評価する。 ステップ2では, LLM-as-a-Judge, LLMs-as-a-Jury, LLM Debateの性能の比較を行う。 それぞれのステップで、人間のアノテーションとLDM間のCohen's Kappaを用いたラスタ間合意を用いる。 応答生成モジュールについて、LLM評価器の設定を用いて、LLMフィードバックループの異なる構成を比較する。 我々は、勝利率(LLM評価器によって生成フレームワークがベストに選択される回数)を用いて、生成のための最適なマルチエージェント構成を決定する。 両方のモジュールで最適な設定を特定した後、GPT、Gemma、Llamaファミリーのモデルを使用して、上記のパイプラインを使用してPOデータセットを生成します。 我々は2種類のPOデータセットを生成し、1つは個々のLLMの生成能力を向上し、もう1つはマルチエージェントワークフローを改善する。 GPT4o-as-a-Judgeは,GPTファミリーからの応答を含まない場合,データセット間でより一貫性があることが評価された。 さらに、Llamaをジェネレータとし、GemmaをレビュアーとするLLMフィードバックループは、LlamaとGemmaをそれぞれ71.8%、73.8%の勝利率を達成した。

This paper presents synthetic Preference Optimization (PO) datasets generated using multi-agent workflows and evaluates the effectiveness and potential of these workflows in the dataset generation process. PO dataset generation requires two modules: (1) response evaluation, and (2) response generation. In the response evaluation module, the responses from Large Language Models (LLMs) are evaluated and ranked - a task typically carried out by human annotators that we automate using LLMs. We assess the response evaluation module in a 2 step process. In step 1, we assess LLMs as evaluators using three distinct prompting strategies. In step 2, we apply the winning prompting strategy to compare the performance of LLM-as-a-Judge, LLMs-as-a-Jury, and LLM Debate. In each step, we use inter-rater agreement using Cohen's Kappa between human annotators and LLMs. For the response generation module, we compare different configurations for the LLM Feedback Loop using the identified LLM evaluator configuration. We use the win rate (the fraction of times a generation framework is selected as the best by an LLM evaluator) to determine the best multi-agent configuration for generation. After identifying the best configurations for both modules, we use models from the GPT, Gemma, and Llama families to generate our PO datasets using the above pipeline. We generate two types of PO datasets, one to improve the generation capabilities of individual LLM and the other to improve the multi-agent workflow. Our evaluation shows that GPT-4o-as-a-Judge is more consistent across datasets when the candidate responses do not include responses from the GPT family. Additionally, we find that the LLM Feedback Loop, with Llama as the generator and Gemma as the reviewer, achieves a notable 71.8% and 73.8% win rate over single-agent Llama and Gemma, respectively.
翻訳日:2024-09-11 01:15:13 公開日:2024-09-07
# MegaFusion: さらなるチューニングを伴わない高解像度画像生成に向けた拡散モデルの拡張

MegaFusion: Extend Diffusion Models towards Higher-resolution Image Generation without Further Tuning ( http://arxiv.org/abs/2408.11001v2 )

ライセンス: Link先を確認
Haoning Wu, Shaocheng Shen, Qiang Hu, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang, (参考訳) 拡散モデルはテキスト・画像生成において最前線として現れてきたが、トレーニング中の固定画像解像度は、セマンティックな偏差やオブジェクトの複製といった高解像度画像生成の課題につながることが多い。 本稿では,既存の拡散型テキスト・画像生成モデルを拡張したMegaFusionを提案する。 具体的には、様々な解像度でデノナイズ処理をブリッジするために、革新的なトランケートとリレー戦略を採用し、粗大な方法で高解像度の画像生成を可能にする。 さらに、拡張畳み込みとノイズ再スケジューリングを統合することで、モデルの事前値をより高分解能に適応させる。 MegaFusionの汎用性と有効性は、他の微分モデルとともに、潜在空間と画素空間の拡散モデルの両方に普遍的に適用することができる。 大規模な実験により、メガフュージョンは既存のモデルでメガピクセルの画像と様々なアスペクト比を生成する能力を大幅に向上させ、元の計算コストの約40%しか必要としないことを確認した。

Diffusion models have emerged as frontrunners in text-to-image generation, however, their fixed image resolution during training often leads to challenges in high-resolution image generation, such as semantic deviations and object replication. This paper introduces MegaFusion, a novel approach that extends existing diffusion-based text-to-image generation models towards efficient higher-resolution generation without additional fine-tuning or extra adaptation. Specifically, we employ an innovative truncate and relay strategy to bridge the denoising processes across different resolutions, allowing for high-resolution image generation in a coarse-to-fine manner. Moreover, by integrating dilated convolutions and noise re-scheduling, we further adapt the model's priors for higher resolution. The versatility and efficacy of MegaFusion make it universally applicable to both latent-space and pixel-space diffusion models, along with other derivative models. Extensive experiments confirm that MegaFusion significantly boosts the capability of existing models to produce images of megapixels and various aspect ratios, while only requiring about 40% of the original computational cost.
翻訳日:2024-09-11 01:05:18 公開日:2024-09-07
# HMT-UNet:医療画像分割のためのHybird Mamba-Transformer Vision UNet

HMT-UNet: A hybird Mamba-Transformer Vision UNet for Medical Image Segmentation ( http://arxiv.org/abs/2408.11289v2 )

ライセンス: Link先を確認
Mingya Zhang, Zhihao Chen, Yiyuan Ge, Xianping Tao, (参考訳) 医用画像セグメンテーションの分野では、CNNとTransformerの両方に基づくモデルが徹底的に研究されている。 しかし、CNNは長距離依存のモデリング機能に制限があるため、画像内のセマンティック情報を完全に活用することは困難である。 一方、二次計算の複雑さはトランスフォーマーにとって課題となる。 Mambaのような状態空間モデル(SSM)は有望な方法として認識されている。 長距離相互作用のモデリングにおいて優れた性能を示すだけでなく、線形計算の複雑さを保っている。 SSM(State Space Model)とTransformerのハイブリッド機構は、微妙な設計を経て、視覚的特徴の効率的なモデリング能力を高めることができる。 大規模な実験により、マンバのアーキテクチャの裏側にあるハイブリッド部分に自己保持機構を組み込むことで、長距離空間依存を捉えるためのモデリング能力が大幅に向上することが示された。 本稿では,SSMのハイブリッド機構を活用し,Hybird Transformer Vision Mamba UNet (HTM-UNet) という医用画像セグメンテーションのためのU字型アーキテクチャモデルを提案する。 我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB、ETIS-Larib PolypDBパブリックデータセット、ZD-LCI-GIMプライベートデータセットに関する包括的な実験を行う。 以上の結果から,HTM-UNetは医用画像分割作業において競争力を発揮することが示された。 私たちのコードはhttps://github.com/simzhangbest/HMT-Unet.comで利用可能です。

In the field of medical image segmentation, models based on both CNN and Transformer have been thoroughly investigated. However, CNNs have limited modeling capabilities for long-range dependencies, making it challenging to exploit the semantic information within images fully. On the other hand, the quadratic computational complexity poses a challenge for Transformers. State Space Models (SSMs), such as Mamba, have been recognized as a promising method. They not only demonstrate superior performance in modeling long-range interactions, but also preserve a linear computational complexity. The hybrid mechanism of SSM (State Space Model) and Transformer, after meticulous design, can enhance its capability for efficient modeling of visual features. Extensive experiments have demonstrated that integrating the self-attention mechanism into the hybrid part behind the layers of Mamba's architecture can greatly improve the modeling capacity to capture long-range spatial dependencies. In this paper, leveraging the hybrid mechanism of SSM, we propose a U-shape architecture model for medical image segmentation, named Hybird Transformer vision Mamba UNet (HTM-UNet). We conduct comprehensive experiments on the ISIC17, ISIC18, CVC-300, CVC-ClinicDB, Kvasir, CVC-ColonDB, ETIS-Larib PolypDB public datasets and ZD-LCI-GIM private dataset. The results indicate that HTM-UNet exhibits competitive performance in medical image segmentation tasks. Our code is available at https://github.com/simzhangbest/HMT-Unet.
翻訳日:2024-09-11 01:05:18 公開日:2024-09-07
# 量子ガウス状態間のトレースノーム距離の推定について

On estimates of trace-norm distance between quantum Gaussian states ( http://arxiv.org/abs/2408.11400v2 )

ライセンス: Link先を確認
A. S. Holevo, (参考訳) F.A. Mele, A.A. Mele, L. Bittel, J. Eisert, V. Giovannetti, L. Lami, L. Leone, S.F.E. Oliviero, ArXiv:2405.01431 の論文では、平均ベクトルと共分散行列を用いて2つの量子ガウス状態間のトレースノーム距離を推定し、エネルギー制約されたガウス状態の集合における$\varepsilon -$netの要素数の評価に使用した。 本論文では, 重なり合う状態と呼ばれる忠実度のような量に基づいて, 特に純粋あるいはゲージ不変状態の場合において, より直接的な推定結果を得る。 それらはモードの数に依存しないので、無限のモードを持つボゾン場にまで拡張することができる。 これらの導出は、ArXiv:2405.01431から有用な不等式を置き換えることを目的としていない。 本稿では,古典的確率論におけるガウス確率分布間の全分散距離の推定の非可換的類似として考察する。

In the paper of F.A. Mele, A.A. Mele, L. Bittel, J. Eisert, V. Giovannetti, L. Lami, L. Leone, S.F.E. Oliviero, ArXiv:2405.01431, estimates for the trace-norm distance between two quantum Gaussian states in terms of the mean vectors and covariance matrices were derived and used to evaluate the number of elements in the $\varepsilon -$net in the set of energy-constrained Gaussian states. In the present paper we obtain different estimates; our proof is based on a fidelity-like quantity which we call states overlap, and is more straightforward leading to estimates which are sometimes even more stringent, especially in the cases of pure or gauge-invariant states. They do not depend on number of modes and hence can be extended to the case of bosonic field with infinite number of modes. These derivations are not aimed to replace the useful inequalities from ArXiv:2405.01431; they just show an alternative approach to the problem leading to different results. The problem studied in this paper can be considered as a noncommutative analog of estimation of the total variance distance between Gaussian probability distributions in the classical probability theory.
翻訳日:2024-09-11 01:05:18 公開日:2024-09-07
# 創発のパーコレーションモデル:形式言語で訓練された変圧器の解析

A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language ( http://arxiv.org/abs/2408.12578v2 )

ライセンス: Link先を確認
Ekdeep Singh Lubana, Kyogo Kawaguchi, Robert P. Dick, Hidenori Tanaka, (参考訳) データ、サイズ、計算量の増加は、ニューラルネットワークによる特定の能力の急激な学習につながる可能性がある。 科学的理解の他に、このような創発的能力の根底にある因果的要因を確立することは、AIのリスク規制フレームワークを有効にするために重要である。 本研究では、他の分野における創発的特性の研究からインスピレーションを求め、ニューラルネットワークの文脈における概念の現象論的定義を提案する。 我々の定義は、特定の、より狭いタスクに対する突然のパフォーマンス向上の要因として、データ生成プロセスの基盤となる一般的な構造の獲得を示唆している。 我々は、文脈に敏感な形式言語を基礎とした実験システムを提案し、この言語から文字列上でタスクを実行するように訓練されたトランスフォーマーが、実際に創発的な能力を示すことを発見した。 具体的には、言語の基本となる文法と文脈に敏感な構造がモデルによって学習されると、より狭いタスクのパフォーマンスが突然改善され始めることを示す。 次に、ネットワークの学習力学を二部グラフ上のパーコレーションの過程と類似させ、データ構造を変更する際に観測された出現点の変化を予測する形式的な位相遷移モデルを確立する。 全体として、我々の実験的および理論的フレームワークは、ニューラルネットワークの出現をよりよく定義し、特徴付けし、予測するための一歩となる。

Increase in data, size, or compute can lead to sudden learning of specific capabilities by a neural network -- a phenomenon often called "emergence''. Beyond scientific understanding, establishing the causal factors underlying such emergent capabilities is crucial to enable risk regulation frameworks for AI. In this work, we seek inspiration from study of emergent properties in other fields and propose a phenomenological definition for the concept in the context of neural networks. Our definition implicates the acquisition of general structures underlying the data-generating process as a cause of sudden performance growth for specific, narrower tasks. We empirically investigate this definition by proposing an experimental system grounded in a context-sensitive formal language and find that Transformers trained to perform tasks on top of strings from this language indeed exhibit emergent capabilities. Specifically, we show that once the language's underlying grammar and context-sensitivity inducing structures are learned by the model, performance on narrower tasks suddenly begins to improve. We then analogize our network's learning dynamics with the process of percolation on a bipartite graph, establishing a formal phase transition model that predicts the shift in the point of emergence observed in our experiments when changing the data structure. Overall, our experimental and theoretical frameworks yield a step towards better defining, characterizing, and predicting emergence in neural networks.
翻訳日:2024-09-11 01:05:18 公開日:2024-09-07
# DOCE:実行ベースのコード生成のためのスイートスポットを見つける

DOCE: Finding the Sweet Spot for Execution-Based Code Generation ( http://arxiv.org/abs/2408.13745v2 )

ライセンス: Link先を確認
Haau-Sing Li, Patrick Fernandes, Iryna Gurevych, André F. T. Martins, (参考訳) 近年,LLMベースのコード生成において,多種多様な復号化処理と復号化処理が有効であることが示されている。 しかし、これらの手法をリンクし、実験的に比較する包括的なフレームワークは欠落している。 私たちは、Decoding Objectives for Code Executionを提案しています。これは、候補生成、$n$-bestリグレード、最小ベイズリスク(MBR)デコーディング、コアコンポーネントとしての自己デバッグを含む包括的なフレームワークです。 次に、これらのコンポーネントのコントリビューションを、実行ベースの評価指標を通して調査する。 本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。 さらに,従来の研究では見過ごされがちな,シンプルかつ効果的な手法である試行単体テストに基づくフィルタリングの効果を評価する。 また,複数候補に対する自己デバッグを提案する。 私たちのフレームワークは、コード生成に関する将来の研究のための確かなガイドラインを提供することを期待しています。

Recently, a diverse set of decoding and reranking procedures have been shown effective for LLM-based code generation. However, a comprehensive framework that links and experimentally compares these methods is missing. We address this by proposing Decoding Objectives for Code Execution, a comprehensive framework that includes candidate generation, $n$-best reranking, minimum Bayes risk (MBR) decoding, and self-debugging as the core components. We then study the contributions of these components through execution-based evaluation metrics. Our findings highlight the importance of execution-based methods and the difference gap between execution-based and execution-free methods. Furthermore, we assess the impact of filtering based on trial unit tests, a simple and effective strategy that has been often overlooked in prior works. We also propose self-debugging on multiple candidates, obtaining state-of-the-art performance on reranking for code generation. We expect our framework to provide a solid guideline for future research on code generation.
翻訳日:2024-09-10 23:12:22 公開日:2024-09-07
# GPUによる反ファクトレグレスト最小化

GPU-Accelerated Counterfactual Regret Minimization ( http://arxiv.org/abs/2408.14778v2 )

ライセンス: Link先を確認
Juho Kim, (参考訳) 反実的後悔の最小化(英: Counterfactual regret minimization)は、大規模な不完全な情報ゲームを解くことができる非回帰学習力学のアルゴリズム群である。 そこで我々は,このアルゴリズムを,高メモリ使用量でグラフィカル処理ユニットに対して高い並列化を実現するために,高密度でスパースな行列およびベクトル演算系として実装することを提案する。 実験の結果、我々の実装はOpenSpielのPython実装よりも352.5倍高速で、OpenSpielのC++実装より22.2倍高速で、解決されるゲームのサイズが大きくなるにつれてスピードアップがより顕著になることがわかった。

Counterfactual regret minimization is a family of algorithms of no-regret learning dynamics capable of solving large-scale imperfect information games. We propose implementing this algorithm as a series of dense and sparse matrix and vector operations, thereby making it highly parallelizable for a graphical processing unit, at a cost of higher memory usages. Our experiments show that our implementation performs up to about 352.5 times faster than OpenSpiel's Python implementation and up to about 22.2 times faster than OpenSpiel's C++ implementation and the speedup becomes more pronounced as the size of the game being solved grows.
翻訳日:2024-09-10 23:12:22 公開日:2024-09-07
# 5ビット原子レジスタのサイト選択性キャビティ読み出しと古典的誤り訂正

Site-selective cavity readout and classical error correction of a 5-bit atomic register ( http://arxiv.org/abs/2408.15329v2 )

ライセンス: Link先を確認
Beili Hu, Josiah Sinclair, Edita Bytyqi, Michelle Chong, Alyssa Rudelis, Joshua Ramette, Zachary Vendeiro, Vladan Vuletić, (参考訳) 光学キャビティは個々の原子量子ビットを高速かつ非破壊的に読み取ることができるが、多くの量子ビットにスケールアップすることは依然として困難である。 局所的に対応した励起状態のスタークシフトを用いて原子を共鳴から調整し、サイト選択型超微粒状態キャビティの読み出しを実現した。 状態の識別忠実度は1つの原子に対して0.994(1)であり、0.989(2)は生存確率が0.975(1)である。 配列読み出しを高速化するため,グローバル/サブセットチェックを用いた適応探索手法を実証した。 最後に,古典的誤り訂正を繰り返し,論理的誤りの指数的抑制を示し,論理的記憶を1ビットのアイドリング寿命を超えて5倍に拡張した。

Optical cavities can provide fast and non-destructive readout of individual atomic qubits; however, scaling up to many qubits remains a challenge. Using locally addressed excited-state Stark shifts to tune atoms out of resonance, we realize site-selective hyperfine-state cavity readout across a 10-site array. The state discrimination fidelity is 0.994(1) for one atom and 0.989(2) averaged over the entire array at a survival probability of 0.975(1). To further speed up array readout, we demonstrate adaptive search strategies utilizing global/subset checks. Finally, we demonstrate repeated rounds of classical error correction, showing exponential suppression of logical error and extending logical memory fivefold beyond the single-bit idling lifetime.
翻訳日:2024-09-10 23:12:22 公開日:2024-09-07
# 大規模言語モデルにおけるタスクエキスパート向上のためのオープン知識の活用

Leveraging Open Knowledge for Advancing Task Expertise in Large Language Models ( http://arxiv.org/abs/2408.15915v2 )

ライセンス: Link先を確認
Yuncheng Yang, Yulei Qin, Tong Wu, Zihan Xu, Gang Li, Pengcheng Guo, Hang Shao, Yuchen Shi, Ke Li, Xing Sun, Jie Yang, Yun Gu, (参考訳) 特定の分野のタスクを解くために,大規模言語モデル (LLM) の専門知識の育成には,期待される安定な出力に対する校正動作を伴う特別な目的のチューニングが必要となることが多い。 命令データセットとトレーニングリソースを数百時間まで手作業で準備することで生じる膨大なコストを回避するため、ローランク適応(LoRA)モデルや命令データセットを含むオープン知識の活用が良い出発点となる。 しかし、モデルとデータ選択に関する既存の手法は、ドメイン固有のデプロイメントで露出する知識ギャップを無視しながら、汎用機能の性能に重点を置いている。 本研究では,LLMの課題専門知識をオープンな知識で向上させるため,人手によるサンプル(Kショット)を少なく導入することで,このようなギャップを埋めることを提案する。 具体的には、Kショットデータが最も有望な専門家候補とタスク関連命令を選択する際に介入するタスクエキスパートをコスト効率よく生成する、効率的でスケーラブルなパイプラインを開発する。 複数の専門家の間で個別のyet-complementaryな知識を最大限に活用するために、Mixix-of-expert (MoE)システムを構築している。 われわれは、MoEシステムの成功のための2つの鍵を公表する。 1)Kショットによる禁止,及び 2【多様性の主張】 前者にとって、Kショットに真に問題解決能力を持つモデルが、盲目な推測者よりも選択されることを保証する。 さらに、データ選択の際には、タスク関連コンテキストをKショットと共有する命令が優先される。 後者では, モデルおよびデータ選択プロセス全体を通して, 構成専門家の多様性と微調整指導の多様性を強調した。 各種タスクにおけるオープン知識の活用に関する既存手法に対するアプローチの優位性を確認した。 私たちのコードはhttps://github.com/Yaphabates/Rocket.comで公開されます。

The cultivation of expertise for large language models (LLMs) to solve tasks of specific areas often requires special-purpose tuning with calibrated behaviors on the expected stable outputs. To avoid huge cost brought by manual preparation of instruction datasets and training resources up to hundreds of hours, the exploitation of open knowledge including a wealth of low rank adaptation (LoRA) models and instruction datasets serves as a good starting point. However, existing methods on model and data selection focus on the performance of general-purpose capabilities while neglecting the knowledge gap exposed in domain-specific deployment. In the present study, we propose to bridge such gap by introducing few human-annotated samples (i.e., K-shot) for advancing task expertise of LLMs with open knowledge. Specifically, we develop an efficient and scalable pipeline to cost-efficiently produce task experts where K-shot data intervene in selecting the most promising expert candidates and the task-relevant instructions. A mixture-of-expert (MoE) system is built to make the best use of individual-yet-complementary knowledge between multiple experts. We unveil the two keys to the success of a MoE system, 1) the abidance by K-shot, and 2) the insistence on diversity. For the former, we ensure that models that truly possess problem-solving abilities on K-shot are selected rather than those blind guessers. Besides, during data selection, instructions that share task-relevant contexts with K-shot are prioritized. For the latter, we highlight the diversity of constituting experts and that of the fine-tuning instructions throughout the model and data selection process. Extensive experimental results confirm the superiority of our approach over existing methods on utilization of open knowledge across various tasks. Our codes will be available at https://github.com/Yaphabates/Rocket.
翻訳日:2024-09-10 23:12:22 公開日:2024-09-07
# Latent-EnSF:スパース観測データと高次元データ同化のための潜時アンサンブルスコアフィルタ

Latent-EnSF: A Latent Ensemble Score Filter for High-Dimensional Data Assimilation with Sparse Observation Data ( http://arxiv.org/abs/2409.00127v2 )

ライセンス: Link先を確認
Phillip Si, Peng Chen, (参考訳) 複雑な物理系の正確なモデリングと予測は、しばしばモデルシミュレーションに固有の誤りを修正するためにデータ同化技術に依存する。 Ensemble Kalman Filter (EnKF) のような従来の手法や、最近開発されたEnsemble Score Filters (EnSF) のような手法は、高次元および非線形ベイズフィルタ問題とスパース・オブザーバで扱う場合、現実のアプリケーションでユビキタスである。 本稿では,EnSFを有効かつ一貫した全状態の潜在表現とスパース観測で活用し,非線形ベイズフィルタの観測における高次元と高空間の連成課題に対処する新しいデータ同化手法であるLatent-EnSFを提案する。 本研究では,2つのエンコーダを結合した変分オートエンコーダ(VAE)を導入し,定常分布マッチングと正規化,および一貫した状態再構成によって保証される一貫した方法で全状態を符号化し,観察を疎結合にする。 いくつかの手法と比較して,浅海波伝搬と中距離気象予報の複雑なモデルを用いた2つの挑戦的応用に対して,Latent-EnSFの高精度,高速収束,高効率性を実証した。

Accurate modeling and prediction of complex physical systems often rely on data assimilation techniques to correct errors inherent in model simulations. Traditional methods like the Ensemble Kalman Filter (EnKF) and its variants as well as the recently developed Ensemble Score Filters (EnSF) face significant challenges when dealing with high-dimensional and nonlinear Bayesian filtering problems with sparse observations, which are ubiquitous in real-world applications. In this paper, we propose a novel data assimilation method, Latent-EnSF, which leverages EnSF with efficient and consistent latent representations of the full states and sparse observations to address the joint challenges of high dimensionlity in states and high sparsity in observations for nonlinear Bayesian filtering. We introduce a coupled Variational Autoencoder (VAE) with two encoders to encode the full states and sparse observations in a consistent way guaranteed by a latent distribution matching and regularization as well as a consistent state reconstruction. With comparison to several methods, we demonstrate the higher accuracy, faster convergence, and higher efficiency of Latent-EnSF for two challenging applications with complex models in shallow water wave propagation and medium-range weather forecasting, for highly sparse observations in both space and time.
翻訳日:2024-09-10 22:55:38 公開日:2024-09-07
# 雑音チャネル上の通信におけるロバスト表現の学習

Learning Robust Representations for Communications over Noisy Channels ( http://arxiv.org/abs/2409.01129v2 )

ライセンス: Link先を確認
Sudharsan Senthil, Shubham Paul, Nambi Seshadri, R. David Koilpillai, (参考訳) 既存の古典的通信モデルやエラー制御符号からインスピレーションを受けずに、エンドツーエンドの通信システムを設計するためのFCNN(Fully Connected Neural Networks)の利用について検討する。 この研究は情報理論と機械学習のツールにのみ依存している。 本研究は,厳密な電力制約下での送信のためのロバスト表現を生成するために,コードワード間の相互情報とペア距離に基づいて,様々なコスト関数を用いることによる影響について検討する。 さらに,Barlow Twinsフレームワークにインスパイアされた新しいエンコーダ構造を導入する。 その結果,ブロック誤り率を最小限に抑えつつ,ランダムに選択した雑音パワーレベルを反復的に学習することで,最高のエラー性能が得られることがわかった。

We explore the use of FCNNs (Fully Connected Neural Networks) for designing end-to-end communication systems without taking any inspiration from existing classical communications models or error control coding. This work relies solely on the tools of information theory and machine learning. We investigate the impact of using various cost functions based on mutual information and pairwise distances between codewords to generate robust representations for transmission under strict power constraints. Additionally, we introduce a novel encoder structure inspired by the Barlow Twins framework. Our results show that iterative training with randomly chosen noise power levels while minimizing block error rate provides the best error performance.
翻訳日:2024-09-10 22:55:38 公開日:2024-09-07
# 拡散モデルと近似政策最適化の統合による強化学習におけるサンプル効率の向上と探索

Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization ( http://arxiv.org/abs/2409.01427v2 )

ライセンス: Link先を確認
Gao Tianci, Dmitriev D. Dmitry, Konstantin A. Neusypin, Yang Bo, Rao Shengren, (参考訳) 強化学習(RL)の最近の進歩は、特に高次元および複雑なタスクにおいて、大規模データとディープニューラルネットワークによって加速されている。 PPO(Proximal Policy Optimization)のようなオンラインRL手法は動的シナリオでは有効であるが、かなりのリアルタイムデータを必要とする。 Offline RLは、大規模なデータセットからの事前学習ポリシーによってこの問題に対処するが、その成功はデータの品質と多様性に依存している。 本研究では,オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを組み込むことにより,PPOアルゴリズムを強化するフレームワークを提案する。 このアプローチは探索とサンプル効率を改善し、複雑なタスクにおける累積報酬、収束速度、戦略安定性を大きく向上させる。 RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。 これらの知見は、RLを高次元の複雑なタスクに適用するための新しい洞察と方法を提供する。 最後に、私たちはコードをhttps://github.com/TianciGao/DiffPPOでオープンソース化しました。

Recent advancements in reinforcement learning (RL) have been fueled by large-scale data and deep neural networks, particularly for high-dimensional and complex tasks. Online RL methods like Proximal Policy Optimization (PPO) are effective in dynamic scenarios but require substantial real-time data, posing challenges in resource-constrained or slow simulation environments. Offline RL addresses this by pre-learning policies from large datasets, though its success depends on the quality and diversity of the data. This work proposes a framework that enhances PPO algorithms by incorporating a diffusion model to generate high-quality virtual trajectories for offline datasets. This approach improves exploration and sample efficiency, leading to significant gains in cumulative rewards, convergence speed, and strategy stability in complex tasks. Our contributions are threefold: we explore the potential of diffusion models in RL, particularly for offline datasets, extend the application of online RL to offline environments, and experimentally validate the performance improvements of PPO with diffusion models. These findings provide new insights and methods for applying RL to high-dimensional, complex tasks. Finally, we open-source our code at https://github.com/TianciGao/DiffPPO
翻訳日:2024-09-10 22:55:38 公開日:2024-09-07
# きめ細かい視覚認識のための生成型クラスプロンプト学習に向けて

Towards Generative Class Prompt Learning for Fine-grained Visual Recognition ( http://arxiv.org/abs/2409.01835v2 )

ライセンス: Link先を確認
Soumitri Chattopadhyay, Sanket Biswas, Emanuele Vivoli, Josep Lladós, (参考訳) 基本的な視覚言語モデル(VLM)は、様々な意味的識別タスクにおいて非常に成功したことが証明されているが、細かな分類のために忠実に実行するのに苦慮している。 さらに、ある領域で訓練された基礎モデルは、微調整なしでは別の領域でうまく一般化しない。 我々はこれらがVLMのセマンティック表現の限界に起因し、生成モデルを用いて細粒度の視覚的認識を改善する試みを行っている。 具体的には,ジェネレーティブ・クラス・プロンプト・ラーニング(GCPL)とコントラシティブ・マルチクラス・プロンプト・ラーニング(CoMPLe)の2つの新しい手法を提案する。 テキストと画像の拡散モデルを利用することで、GCPLは学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗効果を著しく改善する。 CoMPLeはこの基盤の上に構築されており、生成最適化プロセス中にクラス間の分離を促進する対照的な学習コンポーネントを導入している。 実験結果から、このような生成的クラスプロンプト学習アプローチが既存の手法を大幅に上回っていることが示され、ショット画像認識の課題に対するより良い代替手段が提供される。 ソースコードは、https://github.com/soumitri2001/GCPL.comで入手できる。

Although foundational vision-language models (VLMs) have proven to be very successful for various semantic discrimination tasks, they still struggle to perform faithfully for fine-grained categorization. Moreover, foundational models trained on one domain do not generalize well on a different domain without fine-tuning. We attribute these to the limitations of the VLM's semantic representations and attempt to improve their fine-grained visual awareness using generative modeling. Specifically, we propose two novel methods: Generative Class Prompt Learning (GCPL) and Contrastive Multi-class Prompt Learning (CoMPLe). Utilizing text-to-image diffusion models, GCPL significantly improves the visio-linguistic synergy in class embeddings by conditioning on few-shot exemplars with learnable class prompts. CoMPLe builds on this foundation by introducing a contrastive learning component that encourages inter-class separation during the generative optimization process. Our empirical results demonstrate that such a generative class prompt learning approach substantially outperform existing methods, offering a better alternative to few shot image recognition challenges. The source code will be made available at: https://github.com/soumitri2001/GCPL.
翻訳日:2024-09-10 22:55:38 公開日:2024-09-07
# IIFE:インタラクション情報に基づく自動特徴工学

IIFE: Interaction Information Based Automated Feature Engineering ( http://arxiv.org/abs/2409.04665v1 )

ライセンス: Link先を確認
Tom Overman, Diego Klabjan, Jean Utke, (参考訳) AutoFE(Automated Feature Engineering)は、ダウンストリーム予測のパフォーマンス向上に役立つ新機能を自動構築し、選択するプロセスである。 従来の機能エンジニアリングはドメインの専門知識と時間を要する反復テストを必要とするが、AutoFEは機能エンジニアリングを簡単にし、すべてのデータサイエンス実践者にアクセスできるようにする。 我々は,対話情報と呼ばれる情報理論の観点から,どの特徴対が相乗効果を持つかを決定するために,新しいAutoFEアルゴリズム,IIFEを導入する。 既存のアルゴリズムよりも優れたIIFE性能を示す。 また、既存のAutoFEアルゴリズムを改善するために、インタラクション情報をどのように利用できるかを示す。 最後に、既存のAutoFE文献におけるいくつかの重要な実験的な設定問題と、それらのパフォーマンスへの影響を強調します。

Automated feature engineering (AutoFE) is the process of automatically building and selecting new features that help improve downstream predictive performance. While traditional feature engineering requires significant domain expertise and time-consuming iterative testing, AutoFE strives to make feature engineering easy and accessible to all data science practitioners. We introduce a new AutoFE algorithm, IIFE, based on determining which feature pairs synergize well through an information-theoretic perspective called interaction information. We demonstrate the superior performance of IIFE over existing algorithms. We also show how interaction information can be used to improve existing AutoFE algorithms. Finally, we highlight several critical experimental setup issues in the existing AutoFE literature and their effects on performance.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-07
# QueryBuilder: 情報検索のためのHuman-in-the-Loopクエリ開発

QueryBuilder: Human-in-the-Loop Query Development for Information Retrieval ( http://arxiv.org/abs/2409.04667v1 )

ライセンス: Link先を確認
Hemanth Kandula, Damianos Karakos, Haoling Qiu, Benjamin Rozonoyer, Ian Soboroff, Lee Tarlin, Bonan Min, (参考訳) しばしば、IR(Information Retrieval)システムのユーザは、情報要求(すなわち、分析タスク)をまとめて開始し、その分析タスクの様々な重要な側面(すなわち、サブトピック)をカバーするよりきめ細かいクエリを定義する。 我々は、初心者の英語を話すユーザが、英語開発コーパスを効率的に探索することで、ユーザの情報要求に応じた言語間情報検索クエリを迅速に開発し、少ない労力でクエリを作成できる「$\textit{QueryBuilder}$」という対話型システムを提案する。 QueryBuilderは、ユーザが入力した検索語に基づいてドキュメントをほぼリアルタイムで検索する。 クエリ用語(およびオプションでイベント特徴、イベント$'triggers'$(インデックス用語)とエージェント/患者ロールをキャプチャする)は適切に重み付けされ、テキストの意味をよりよくキャプチャし、他の関連するコンテンツを検索するニューラルネットワークシステムである。 検索とマーキングのプロセスは、必要に応じて何度も繰り返され、各イテレーションでより洗練されたクエリが生まれます。 最後の製品は、CLIR(Cross-Lingual Information Retrieval)で使用されるきめ細かいクエリである。 分析タスクとIARPA BETTER IRデータセットからの要求を用いた実験では、わずかな労力(サブトピックあたり10分以上)で、初心者ユーザは理解できない言語を含む詳細なクエリを$\textit{useful}$で作成できることがわかった。 QueryBuilderはまた、従来のコーパス探索とクエリ生成プロセスに有益な機能を提供する。 デモビデオはhttps://vimeo.com/734795835で公開されている。

Frequently, users of an Information Retrieval (IR) system start with an overarching information need (a.k.a., an analytic task) and proceed to define finer-grained queries covering various important aspects (i.e., sub-topics) of that analytic task. We present a novel, interactive system called $\textit{QueryBuilder}$, which allows a novice, English-speaking user to create queries with a small amount of effort, through efficient exploration of an English development corpus in order to rapidly develop cross-lingual information retrieval queries corresponding to the user's information needs. QueryBuilder performs near real-time retrieval of documents based on user-entered search terms; the user looks through the retrieved documents and marks sentences as relevant to the information needed. The marked sentences are used by the system as additional information in query formation and refinement: query terms (and, optionally, event features, which capture event $'triggers'$ (indicator terms) and agent/patient roles) are appropriately weighted, and a neural-based system, which better captures textual meaning, retrieves other relevant content. The process of retrieval and marking is repeated as many times as desired, giving rise to increasingly refined queries in each iteration. The final product is a fine-grained query used in Cross-Lingual Information Retrieval (CLIR). Our experiments using analytic tasks and requests from the IARPA BETTER IR datasets show that with a small amount of effort (at most 10 minutes per sub-topic), novice users can form $\textit{useful}$ fine-grained queries including in languages they don't understand. QueryBuilder also provides beneficial capabilities to the traditional corpus exploration and query formation process. A demonstration video is released at https://vimeo.com/734795835
翻訳日:2024-09-10 21:14:48 公開日:2024-09-07
# 医用画像合成のためのマルチコンディションデノイング拡散確率モデル(mDDPM)

Multi-Conditioned Denoising Diffusion Probabilistic Model (mDDPM) for Medical Image Synthesis ( http://arxiv.org/abs/2409.04670v1 )

ライセンス: Link先を確認
Arjun Krishna, Ge Wang, Klaus Mueller, (参考訳) 医療画像の応用は、ヒトの解剖学、病理学、画像の領域において非常に専門的である。 したがって、医用画像の深層学習応用を訓練するための注釈付きトレーニングデータセットは、高度に正確であるだけでなく、それらの仕様に関してほぼすべての妥当な例を網羅できるほど、多様で大きなものも必要である。 我々は,この目標を達成するために,アノテーションを付加した合成画像の制御生成フレームワークを設計し,複数の条件仕様を入力として要求する。 我々は,肺CT領域における大規模生成モデルの訓練にDDPM(Denoising Diffusion Probabilistic Model)を用いており,その1つの生成フレームワークを示すために,分類子フリーサンプリング戦略を拡張した。 われわれは,解剖学を忠実に表現できる注釈付き肺CT画像を作成し,専門家を説得力なく騙して本物と認識させることを実証した。 我々の実験は、この性質の制御された生成フレームワークが、ほぼすべての最先端の画像生成モデルを超え、同等の大きな医療データセットでトレーニングされた時に生成された医療画像の解剖学的整合性を達成することができることを示した。

Medical imaging applications are highly specialized in terms of human anatomy, pathology, and imaging domains. Therefore, annotated training datasets for training deep learning applications in medical imaging not only need to be highly accurate but also diverse and large enough to encompass almost all plausible examples with respect to those specifications. We argue that achieving this goal can be facilitated through a controlled generation framework for synthetic images with annotations, requiring multiple conditional specifications as input to provide control. We employ a Denoising Diffusion Probabilistic Model (DDPM) to train a large-scale generative model in the lung CT domain and expand upon a classifier-free sampling strategy to showcase one such generation framework. We show that our approach can produce annotated lung CT images that can faithfully represent anatomy, convincingly fooling experts into perceiving them as real. Our experiments demonstrate that controlled generative frameworks of this nature can surpass nearly every state-of-the-art image generative model in achieving anatomical consistency in generated medical images when trained on comparable large medical datasets.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-07
# 神経増幅によるパノラマ高ダイナミックレンジスチッチ

Neural Augmentation Based Panoramic High Dynamic Range Stitching ( http://arxiv.org/abs/2409.04679v1 )

ライセンス: Link先を確認
Chaobing Zheng, Yilun Xu, Weihai Chen, Shiqian Wu, Zhengguo Li, (参考訳) 低ダイナミックレンジ(LDR)画像を入力する飽和領域と、異なる露光によるLDR画像の大きな強度変化のため、複数の幾何学的に同期されたLDR画像を異なる露光と一対の重なり合う視野(OFOV)で縫合することにより、視覚的アーティファクト(HDR)シーンのために、情報豊かにパノラマLDR画像を生成することは困難である。 幸いなことに、このような画像の縫合は、本来は物理駆動アプローチとデータ駆動アプローチの融合に最適なシナリオである。 この新たな知見に基づき, 神経拡張に基づくパノラマHDR縫合法を提案する。 物理駆動のアプローチはOFOVを使って構築されている。 各ビューの異なる露光画像は、まず物理駆動のアプローチを用いて生成され、次にデータ駆動のアプローチによって洗練され、最終的に異なる露光でパノラマLDR画像を生成するために使用される。 露光の異なるパノラマLDR画像は、多スケールの露光融合アルゴリズムによって結合され、最終的なパノラマLDR画像を生成する。 実験により,提案アルゴリズムは既存のパノラマ縫合アルゴリズムより優れていることが示された。

Due to saturated regions of inputting low dynamic range (LDR) images and large intensity changes among the LDR images caused by different exposures, it is challenging to produce an information enriched panoramic LDR image without visual artifacts for a high dynamic range (HDR) scene through stitching multiple geometrically synchronized LDR images with different exposures and pairwise overlapping fields of views (OFOVs). Fortunately, the stitching of such images is innately a perfect scenario for the fusion of a physics-driven approach and a data-driven approach due to their OFOVs. Based on this new insight, a novel neural augmentation based panoramic HDR stitching algorithm is proposed in this paper. The physics-driven approach is built up using the OFOVs. Different exposed images of each view are initially generated by using the physics-driven approach, are then refined by a data-driven approach, and are finally used to produce panoramic LDR images with different exposures. All the panoramic LDR images with different exposures are combined together via a multi-scale exposure fusion algorithm to produce the final panoramic LDR image. Experimental results demonstrate the proposed algorithm outperforms existing panoramic stitching algorithms.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-07
# C2F-CHART:チャート分類のためのカリキュラム学習アプローチ

C2F-CHART: A Curriculum Learning Approach to Chart Classification ( http://arxiv.org/abs/2409.04683v1 )

ライセンス: Link先を確認
Nour Shaheen, Tamer Elsharnouby, Marwan Torki, (参考訳) 科学的研究において、チャートは通常、データを視覚的に表現する主要な方法である。 しかし、チャートのアクセシビリティは依然として重要な懸念事項である。 チャート理解パイプラインを改善するために、我々はチャート分類コンポーネントの最適化に焦点をあてる。 人間の学習プロセスにインスパイアされたカリキュラム学習を活用します。 本稿では,粗大なカリキュラム学習を利用したチャート分類のための新しい学習手法を提案する。 私たちがC2F-CHARTと呼ぶアプローチは、クラス間の類似性を利用して、難易度が異なる学習タスクを作成します。 ICPR 2022 CHART-Infographics UB UNITEC PMC データセット上で,本手法をベンチマークし,最先端の結果を上回った。

In scientific research, charts are usually the primary method for visually representing data. However, the accessibility of charts remains a significant concern. In an effort to improve chart understanding pipelines, we focus on optimizing the chart classification component. We leverage curriculum learning, which is inspired by the human learning process. In this paper, we introduce a novel training approach for chart classification that utilizes coarse-to-fine curriculum learning. Our approach, which we name C2F-CHART (for coarse-to-fine) exploits inter-class similarities to create learning tasks of varying difficulty levels. We benchmark our method on the ICPR 2022 CHART-Infographics UB UNITEC PMC dataset, outperforming the state-of-the-art results.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-07
# PANTS:MLによるネットワーク分類に対する現実的な敵対的ネットワークトラフィックサンプル

PANTS: Practical Adversarial Network Traffic Samples against ML-powered Networking Classifiers ( http://arxiv.org/abs/2409.04691v1 )

ライセンス: Link先を確認
Minhao Jin, Maria Apostolaki, (参考訳) リソース割り当てから侵入検知まで、複数のネットワーク管理タスクは、MLベースのネットワークトラヒック分類(MNC)の一種に依存している。 その可能性にもかかわらず、MNCは敵の入力に弱いため、障害、意思決定の貧弱、セキュリティ違反などの問題を引き起こす可能性がある。 本研究の目的は、ネットワークオペレーターが敵入力に対するMNCの堅牢性を評価し、強化することである。 最も重要なステップは、様々な脅威モデルの下で実現可能でありながら、MNCを騙すことができる入力を生成することだ。 他のMLモデルと比較して、MNCに対する逆入力を見つけることは、例えば、交通工学、セマンティクスを保存し信頼性を確保するために入力を制限する必要性など、より困難である。 これらの要因は、AML(Adversarial ML)で開発されたよく確立された勾配に基づく手法の直接的使用を妨げる。 これらの課題に対処するため,我々は,Satisfiability Modulo Theories (SMT)ソルバとAML技術を一意に統合し,MPCの逆入力を生成する実用的ホワイトボックスフレームワークであるPANTSを紹介した。 また, PANTSを反復的対向訓練プロセスに組み込み, 対向入力に対するMNCの堅牢性を高める。 PANTSは、AmoebaとBAPの2つの最先端ベースラインと比較して、中央値の70%と2倍の確率で、ターゲットMCCに対する敵対的な入力を見つける。 PANTSを敵の訓練プロセスに統合することで、精度を犠牲にすることなく、ターゲットMCCの堅牢性を52.7%向上させる。 批判的に、これらのPANTS汚染されたMNCは、別個の攻撃発生法に対してバニラよりも頑丈である。

Multiple network management tasks, from resource allocation to intrusion detection, rely on some form of ML-based network-traffic classification (MNC). Despite their potential, MNCs are vulnerable to adversarial inputs, which can lead to outages, poor decision-making, and security violations, among other issues. The goal of this paper is to help network operators assess and enhance the robustness of their MNC against adversarial inputs. The most critical step for this is generating inputs that can fool the MNC while being realizable under various threat models. Compared to other ML models, finding adversarial inputs against MNCs is more challenging due to the existence of non-differentiable components e.g., traffic engineering and the need to constrain inputs to preserve semantics and ensure reliability. These factors prevent the direct use of well-established gradient-based methods developed in adversarial ML (AML). To address these challenges, we introduce PANTS, a practical white-box framework that uniquely integrates AML techniques with Satisfiability Modulo Theories (SMT) solvers to generate adversarial inputs for MNCs. We also embed PANTS into an iterative adversarial training process that enhances the robustness of MNCs against adversarial inputs. PANTS is 70% and 2x more likely in median to find adversarial inputs against target MNCs compared to two state-of-the-art baselines, namely Amoeba and BAP. Integrating PANTS into the adversarial training process enhances the robustness of the target MNCs by 52.7% without sacrificing their accuracy. Critically, these PANTS-robustified MNCs are more robust than their vanilla counterparts against distinct attack-generation methodologies.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-07
# MuAP: モダリティを欠く視覚言語モデルのための多段階適応型プロンプト学習

MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality ( http://arxiv.org/abs/2409.04693v1 )

ライセンス: Link先を確認
Ruiting Dai, Yuqiao Tan, Lisi Mo, Tao He, Ke Qin, Shuang Liang, (参考訳) 近年,VL(Vision-Language)タスクの成功に対して,迅速な学習が注目されている。 しかし、既存のプロンプトベースモデルは主に、完全なモダリティ設定によるプロンプト生成とプロンプト戦略の研究に重点を置いている。 本稿では,モダリティが不完全である場合の即時学習行動に関する最初の包括的調査を行い,モダリティの欠如に対するプロンプトベースモデルの高い感度を明らかにする。 そこで本研究では,多段階適応型プロンプト学習(MuAP)フレームワークを提案する。 具体的には、各モードに対してマルチモーダルプロンプトを生成し、それらをトランスフォーマーモデルに統合するためのプロンプト戦略を考案する。 その後、単段階およびアライメント段階からのプロンプトチューニングを行い、各モータリティ・プロンプトを自律的かつ適応的に学習し、従来の作品で学習可能なテキストプロンプトのみによる不均衡問題を緩和する。 大規模な実験により、我々の MuAP の有効性が実証され、このモデルは全てのベンチマークデータセットの最先端よりも大幅に改善された。

Recently, prompt learning has garnered considerable attention for its success in various Vision-Language (VL) tasks. However, existing prompt-based models are primarily focused on studying prompt generation and prompt strategies with complete modality settings, which does not accurately reflect real-world scenarios where partial modality information may be missing. In this paper, we present the first comprehensive investigation into prompt learning behavior when modalities are incomplete, revealing the high sensitivity of prompt-based models to missing modalities. To this end, we propose a novel Multi-step Adaptive Prompt Learning (MuAP) framework, aiming to generate multimodal prompts and perform multi-step prompt tuning, which adaptively learns knowledge by iteratively aligning modalities. Specifically, we generate multimodal prompts for each modality and devise prompt strategies to integrate them into the Transformer model. Subsequently, we sequentially perform prompt tuning from single-stage and alignment-stage, allowing each modality-prompt to be autonomously and adaptively learned, thereby mitigating the imbalance issue caused by only textual prompts that are learnable in previous works. Extensive experiments demonstrate the effectiveness of our MuAP and this model achieves significant improvements compared to the state-of-the-art on all benchmark datasets
翻訳日:2024-09-10 21:14:48 公開日:2024-09-07
# 高次元データストリームのための階層的スパース表現クラスタリング

Hierarchical Sparse Representation Clustering for High-Dimensional Data Streams ( http://arxiv.org/abs/2409.04698v1 )

ライセンス: Link先を確認
Jie Chen, Hua Mao, Yuanbiao Gou, Xi Peng, (参考訳) データストリームクラスタリングは、継続的に到着し、潜在的に非バウンドなデータシーケンス内のパターンを明らかにする。 データストリームのクラスタ化には,多数のデータストリームアルゴリズムが提案されている。 既存のデータストリームクラスタリングアルゴリズムは、高次元のデータストリームに対処する上で、依然として重大な課題に直面している。 まず、マイクロクラスタの構築とマージにおいて、ユークリッド距離を介して高次元データオブジェクト間の類似性を計測することは困難である。 第二に、これらのアルゴリズムは高次元データストリームに含まれるノイズに非常に敏感である。 本稿では,高次元データストリームをクラスタリングするための階層的スパース表現クラスタリング法を提案する。 HSRCはまず$l_1$-minimization技術を用いて、個々のランドマークウィンドウ内のデータオブジェクトに対する親和性行列を固定サイズで学習する。 このアプローチにより、クラスタ内の高相関データサンプルがグループ化されることが保証される。 その後、HSRCはアフィニティマトリックスにスペクトルクラスタリング技術を適用し、マイクロクラスタを生成する。 これらのマイクロクラスタはその後、疎類似度(SSD)に基づいてマクロクラスタにマージされる。 さらにHSRCは、現在のランドマークウィンドウから代表データオブジェクトを適応的に選択するために、スパーシティ残差値(SRV)を導入している。 これらの代表者は次のランドマークウィンドウの辞書サンプルとして機能する。 最後に、HSRCは微調整により各マクロクラスタを洗練する。 特に、HSRCは、関連するSRVを介して高次元データストリームの外れ値を検出することができる。 いくつかのベンチマークデータセットで得られた実験結果は、HSRCの有効性とロバスト性を示している。

Data stream clustering reveals patterns within continuously arriving, potentially unbounded data sequences. Numerous data stream algorithms have been proposed to cluster data streams. The existing data stream clustering algorithms still face significant challenges when addressing high-dimensional data streams. First, it is intractable to measure the similarities among high-dimensional data objects via Euclidean distances when constructing and merging microclusters. Second, these algorithms are highly sensitive to the noise contained in high-dimensional data streams. In this paper, we propose a hierarchical sparse representation clustering (HSRC) method for clustering high-dimensional data streams. HSRC first employs an $l_1$-minimization technique to learn an affinity matrix for data objects in individual landmark windows with fixed sizes, where the number of neighboring data objects is automatically selected. This approach ensures that highly correlated data samples within clusters are grouped together. Then, HSRC applies a spectral clustering technique to the affinity matrix to generate microclusters. These microclusters are subsequently merged into macroclusters based on their sparse similarity degrees (SSDs). Additionally, HSRC introduces sparsity residual values (SRVs) to adaptively select representative data objects from the current landmark window. These representatives serve as dictionary samples for the next landmark window. Finally, HSRC refines each macrocluster through fine-tuning. In particular, HSRC enables the detection of outliers in high-dimensional data streams via the associated SRVs. The experimental results obtained on several benchmark datasets demonstrate the effectiveness and robustness of HSRC.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-07
# 領域一般化のためのデュアルストリーム機能拡張

Dual-stream Feature Augmentation for Domain Generalization ( http://arxiv.org/abs/2409.04699v1 )

ライセンス: Link先を確認
Shanshan Wang, ALuSi, Xun Yang, Ke Xu, Huibin Tan, Xingyi Zhang, (参考訳) ドメイン一般化(DG)タスクは、アウト・オブ・ディストリビューション(OOD)問題に対処できるソースドメインから堅牢なモデルを学ぶことを目的としている。 未確認領域におけるモデルの一般化能力を向上させるため、トレーニングサンプルの多様性を高めることが有効な解である。 しかし、既存の拡張アプローチには、常にいくつかの制限がある。 一方、ほとんどのDG法では、乱数性に起因する最悪の場合において、モデルが摂動特徴をほとんど見ていないため、拡張方法では十分ではないため、特徴の伝達性は十分に調べられていない。 一方、識別的特徴の因果関係はこれらの手法には関与せず、素早い相関によるモデルの一般化能力を損なう。 これらの問題に対処するために,2つの視点からいくつかのハードな特徴を構築することでDFA法を提案する。 まず、転送可能性を改善するために、ドメイン関連拡張方式でいくつかのターゲット機能を構築します。 不確実性のガイダンスを通じて、ドメインシフトをシミュレートするために、いくつかのハードクロスドメイン架空の特徴が生成される。 第二に、因果関係を考慮するために、素因果関係の非因果関係情報を対向マスクで切り離し、これらのハード因果関係情報からより識別的特徴を抽出することができる。 従来の固定合成戦略とは異なり、この2つの拡張は、統合学習可能な特徴不整合モデルに統合される。 これらの難しい特徴に基づいて、セマンティックな一貫性を維持し、モデルの堅牢性を向上させるために、対照的な学習が採用されている。 いくつかのデータセットに対する大規模な実験により、我々のアプローチはドメインの一般化のために最先端のパフォーマンスを達成できることを示した。 私たちのコードは、https://github.com/alusi123/DFA.comで利用可能です。

Domain generalization (DG) task aims to learn a robust model from source domains that could handle the out-of-distribution (OOD) issue. In order to improve the generalization ability of the model in unseen domains, increasing the diversity of training samples is an effective solution. However, existing augmentation approaches always have some limitations. On the one hand, the augmentation manner in most DG methods is not enough as the model may not see the perturbed features in approximate the worst case due to the randomness, thus the transferability in features could not be fully explored. On the other hand, the causality in discriminative features is not involved in these methods, which harms the generalization ability of model due to the spurious correlations. To address these issues, we propose a Dual-stream Feature Augmentation~(DFA) method by constructing some hard features from two perspectives. Firstly, to improve the transferability, we construct some targeted features with domain related augmentation manner. Through the guidance of uncertainty, some hard cross-domain fictitious features are generated to simulate domain shift. Secondly, to take the causality into consideration, the spurious correlated non-causal information is disentangled by an adversarial mask, then the more discriminative features can be extracted through these hard causal related information. Different from previous fixed synthesizing strategy, the two augmentations are integrated into a unified learnable feature disentangle model. Based on these hard features, contrastive learning is employed to keep the semantic consistency and improve the robustness of the model. Extensive experiments on several datasets demonstrated that our approach could achieve state-of-the-art performance for domain generalization. Our code is available at: https://github.com/alusi123/DFA.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-07
# 後期チャンキング:長期埋め込みモデルを用いたコンテキストチャンク埋め込み

Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models ( http://arxiv.org/abs/2409.04701v1 )

ライセンス: Link先を確認
Michael Günther, Isabelle Mohr, Bo Wang, Han Xiao, (参考訳) 多くのユースケースでは、テキストの小さな部分を取得する必要があり、密度の高いベクトルベースの検索システムは、埋め込みにおいてセマンティクスが「過剰に圧縮される」可能性が低いため、より短いテキストセグメントでよりよく機能する。 そのため、実践者は文書を小さなチャンクに分割し、それらを別々にエンコードすることが多い。 しかし、この方法で生成されたチャンク埋め込みは、周囲のチャンクからコンテキスト情報を失う可能性があり、その結果、準最適表現となる。 本稿では,長文のすべてのトークンを最初に埋め込むために,長文の埋め込みモデルを利用して,変換器モデルと平均プールの直前にチャンキングを適用した「レイトチャンキング」という新しい手法を提案する。 結果として得られたチャンク埋め込みは、コンテキスト情報を完全にキャプチャし、追加のトレーニングを必要とせずに、様々な検索タスクに対して優れた結果をもたらす。 さらに,本手法は長文埋め込みモデルに適用できるほど汎用的である。

Many use cases require retrieving smaller portions of text, and dense vector-based retrieval systems often perform better with shorter text segments, as the semantics are less likely to be "over-compressed" in the embeddings. Consequently, practitioners often split text documents into smaller chunks and encode them separately. However, chunk embeddings created in this way can lose contextual information from surrounding chunks, resulting in suboptimal representations. In this paper, we introduce a novel method called "late chunking," which leverages long context embedding models to first embed all tokens of the long text, with chunking applied after the transformer model and just before mean pooling. The resulting chunk embeddings capture the full contextual information, leading to superior results across various retrieval tasks without the need for additional training. Moreover, our method is generic enough to be applied to any long-context embedding model.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-07
# パーソナライズされた血圧時系列予測のための多シナリオ注意に基づく生成モデル

A Multi-scenario Attention-based Generative Model for Personalized Blood Pressure Time Series Forecasting ( http://arxiv.org/abs/2409.04704v1 )

ライセンス: Link先を確認
Cheng Wan, Chenjie Xie, Longfei Liu, Dan Wu, Ye Li, (参考訳) 連続血圧モニタリングは、重要なケア設定において、タイムリーな診断と介入に不可欠である。 しかし、BPは個人によって大きく異なるため、患者間の変動は各患者の生理に合わせたパーソナライズされたモデルの開発を動機付けている。 本研究では,心電図(ECG)と光胸腺図(PPG)の信号を用いた個人別BP予測モデルを提案する。 この時系列モデルは2次元表現学習を取り入れ、複雑な生理的関係を捉える。 実験は,60名の被験者からBP測定を行った3つのシナリオから収集したデータセットを用いて行った。 その結果,AAMI(Association for the Advancement of Medical Instrumentation)基準におけるBP予測の正確かつ堅牢な予測が得られた。 BPの異常変動の確実な早期発見は、手術や集中治療を受けるリスクの高い患者にとって重要である。 提案モデルでは,死亡率の低下と予後の改善のために,連続BP追跡に付加価値がある。

Continuous blood pressure (BP) monitoring is essential for timely diagnosis and intervention in critical care settings. However, BP varies significantly across individuals, this inter-patient variability motivates the development of personalized models tailored to each patient's physiology. In this work, we propose a personalized BP forecasting model mainly using electrocardiogram (ECG) and photoplethysmogram (PPG) signals. This time-series model incorporates 2D representation learning to capture complex physiological relationships. Experiments are conducted on datasets collected from three diverse scenarios with BP measurements from 60 subjects total. Results demonstrate that the model achieves accurate and robust BP forecasts across scenarios within the Association for the Advancement of Medical Instrumentation (AAMI) standard criteria. This reliable early detection of abnormal fluctuations in BP is crucial for at-risk patients undergoing surgery or intensive care. The proposed model provides a valuable addition for continuous BP tracking to reduce mortality and improve prognosis.
翻訳日:2024-09-10 21:14:48 公開日:2024-09-07
# 最適化されたグラディエントDescentによるディープラーニングの強化:ブリッジング数値法とニューラルネットワークトレーニング

Enhancing Deep Learning with Optimized Gradient Descent: Bridging Numerical Methods and Neural Network Training ( http://arxiv.org/abs/2409.04707v1 )

ライセンス: Link先を確認
Yuhan Ma, Dan Sun, Erdi Gao, Ningjing Sang, Iris Li, Guanming Huang, (参考訳) 最適化理論は最適なシステム性能を達成するための重要な科学的手段であり、その起源は利益を最大化するための最良の投資戦略を特定するための経済応用である。 何世紀にもわたって、古代ギリシアの幾何学的探究からニュートンとライプニッツの計算学への貢献に至るまで、最適化理論は著しく進歩してきた。 ラグランジュ、コーシー、フォン・ノイマンといった科学者の永続的な研究は、その進歩を固めた。 現代では最適化理論の応用が前例のない拡張を遂げており、特にコンピュータ科学が発展し、より洗練された計算の実践と工学、意思決定、オペレーション研究の幅広い利用が可能になった。 本稿では,最適化理論と深層学習の深い関係を考察し,後者における最適化問題の正当性を強調した。 ニューラルネットワークの最適化の基礎となる勾配降下アルゴリズムとその変種について検討する。 この章では、数値最適化手法からインスピレーションを得て、SGDオプティマイザを強化し、解釈可能性と精度を向上させることを目的としている。 多様なディープラーニングタスクに関する実験は、改良されたアルゴリズムの有効性を裏付けるものである。 この論文は、最適化理論の継続的な発展と、複雑な問題の解決、計算能力の向上、より良い政策決定の達成におけるその役割を強調することによって締めくくられる。

Optimization theory serves as a pivotal scientific instrument for achieving optimal system performance, with its origins in economic applications to identify the best investment strategies for maximizing benefits. Over the centuries, from the geometric inquiries of ancient Greece to the calculus contributions by Newton and Leibniz, optimization theory has significantly advanced. The persistent work of scientists like Lagrange, Cauchy, and von Neumann has fortified its progress. The modern era has seen an unprecedented expansion of optimization theory applications, particularly with the growth of computer science, enabling more sophisticated computational practices and widespread utilization across engineering, decision analysis, and operations research. This paper delves into the profound relationship between optimization theory and deep learning, highlighting the omnipresence of optimization problems in the latter. We explore the gradient descent algorithm and its variants, which are the cornerstone of optimizing neural networks. The chapter introduces an enhancement to the SGD optimizer, drawing inspiration from numerical optimization methods, aiming to enhance interpretability and accuracy. Our experiments on diverse deep learning tasks substantiate the improved algorithm's efficacy. The paper concludes by emphasizing the continuous development of optimization theory and its expanding role in solving intricate problems, enhancing computational capabilities, and informing better policy decisions.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# 高次元信頼性解析問題に対する高調波物理インフォームド作用素

Harnessing physics-informed operators for high-dimensional reliability analysis problems ( http://arxiv.org/abs/2409.04708v1 )

ライセンス: Link先を確認
N Navaneeth, Tushar, Souvik Chakraborty, (参考訳) 信頼性分析は、特に多くの確率的パラメータを持つシステムにおいて、恐ろしい作業である。 特に有限要素や有限体積法のような計算集約的な数値法を必要とする複雑な物理法則に支配されるシステムを扱う場合、信頼性を定量化するための従来の手法は、広範囲なシミュレーションや実験データに依存することが多い。 一方、サロゲートに基づく手法は、限られたデータから基礎となるモデルを近似することで、計算信頼性の効率的な代替手段を提供する。 ニューラル作用素は、偏微分方程式によって支配される物理系をモデル化するための効果的な代理として最近登場した。 これらの演算子は、様々な入力とパラメータに対するPDEの解を学ぶことができる。 本稿では、最近開発された物理インフォームドウェーブレットニューラル演算子による信頼性解析問題の解法の有効性について検討する。 特に,高次元信頼性解析問題に対する物理インフォームド演算子の適用可能性について検討し,シミュレーションの必要性を回避した。 物理インフォームド演算子は, 4つの数値例を通して, 高次元信頼性解析問題を妥当な精度でシームレスに解きながら, 高価なシミュレーションを走らせる必要がなくなることを示した。

Reliability analysis is a formidable task, particularly in systems with a large number of stochastic parameters. Conventional methods for quantifying reliability often rely on extensive simulations or experimental data, which can be costly and time-consuming, especially when dealing with systems governed by complex physical laws which necessitates computationally intensive numerical methods such as finite element or finite volume techniques. On the other hand, surrogate-based methods offer an efficient alternative for computing reliability by approximating the underlying model from limited data. Neural operators have recently emerged as effective surrogates for modelling physical systems governed by partial differential equations. These operators can learn solutions to PDEs for varying inputs and parameters. Here, we investigate the efficacy of the recently developed physics-informed wavelet neural operator in solving reliability analysis problems. In particular, we investigate the possibility of using physics-informed operator for solving high-dimensional reliability analysis problems, while bypassing the need for any simulation. Through four numerical examples, we illustrate that physics-informed operator can seamlessly solve high-dimensional reliability analysis problems with reasonable accuracy, while eliminating the need for running expensive simulations.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# 品質多様性最適化としてのアルゴリズムシナリオ生成

Algorithmic Scenario Generation as Quality Diversity Optimization ( http://arxiv.org/abs/2409.04711v1 )

ライセンス: Link先を確認
Stefanos Nikolaidis, (参考訳) 人と対話するロボットや自律エージェントの複雑さの増大は、デプロイ前にそれらを体系的にテストするアプローチに対する重要なニーズを強調している。 本稿は、この問題を解決するための一般的なフレームワークを示し、フレームワークの各コンポーネントの開発から得られた知見を述べるとともに、これらのコンポーネントの統合が、これまで未知の障害が人間と対話するデプロイされたロボットシステムにおいて、さまざまな現実的かつ困難なシナリオの発見につながっていることを示す。

The increasing complexity of robots and autonomous agents that interact with people highlights the critical need for approaches that systematically test them before deployment. This review paper presents a general framework for solving this problem, describes the insights that we have gained from working on each component of the framework, and shows how integrating these components leads to the discovery of a diverse range of realistic and challenging scenarios that reveal previously unknown failures in deployed robotic systems interacting with people.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# ジェネリックセグメンテーションモデルのパワーを解放する:赤外小ターゲット検出のためのシンプルなベースライン

Unleashing the Power of Generic Segmentation Models: A Simple Baseline for Infrared Small Target Detection ( http://arxiv.org/abs/2409.04714v1 )

ライセンス: Link先を確認
Mingjin Zhang, Chi Zhang, Qiming Zhang, Yunsong Li, Xinbo Gao, Jing Zhang, (参考訳) 近年のディープラーニングの進歩は、赤外線小物体検出(IRSTD)の分野で大きく進歩している。 その顕著な成功にもかかわらず、これらのIRSTD法と自然画像領域におけるジェネリックセグメンテーションアプローチの間には顕著なギャップが残っている。 このギャップは、主に、重要なモダリティの違いと、赤外線データの可用性の制限から生じる。 本研究では,Segment Anything Model (SAM) などのジェネリックセグメンテーションモデルをIRSTDタスクに適応させることにより,この分岐を橋渡しすることを目的とする。 本研究は,多くの汎用セグメンテーションモデルが,最先端IRSTD法に匹敵する性能を達成できることを明らかにする。 しかし、IRSTDの潜在能力は未解決のままである。 そこで本研究では,小さな赤外線オブジェクトをセグメント化するための,シンプルで軽量で効果的なベースラインモデルを提案する。 適切な蒸留戦略により、より小規模な学生モデルに最先端の手法を上回り、微調整された教師の成績を超越する力を与える。 さらに,マルチスケールな特徴を効果的にエンコードするために,厳密でスパースなクエリからなる新しいクエリ設計を導入することで,モデルの性能を向上させる。 一般的な4つのIRSTDデータセットに対する広範な実験により、既存のアプローチと比較して精度とスループットが大幅に向上し、NUDTでは14 IoU以上、IRSTD1kでは4 IoU以上であるSAMとSemantic-SAMを上回った。 ソースコードとモデルはhttps://github.com/O937-blip/SimIR.comでリリースされる。

Recent advancements in deep learning have greatly advanced the field of infrared small object detection (IRSTD). Despite their remarkable success, a notable gap persists between these IRSTD methods and generic segmentation approaches in natural image domains. This gap primarily arises from the significant modality differences and the limited availability of infrared data. In this study, we aim to bridge this divergence by investigating the adaptation of generic segmentation models, such as the Segment Anything Model (SAM), to IRSTD tasks. Our investigation reveals that many generic segmentation models can achieve comparable performance to state-of-the-art IRSTD methods. However, their full potential in IRSTD remains untapped. To address this, we propose a simple, lightweight, yet effective baseline model for segmenting small infrared objects. Through appropriate distillation strategies, we empower smaller student models to outperform state-of-the-art methods, even surpassing fine-tuned teacher results. Furthermore, we enhance the model's performance by introducing a novel query design comprising dense and sparse queries to effectively encode multi-scale features. Through extensive experimentation across four popular IRSTD datasets, our model demonstrates significantly improved performance in both accuracy and throughput compared to existing approaches, surpassing SAM and Semantic-SAM by over 14 IoU on NUDT and 4 IoU on IRSTD1k. The source code and models will be released at https://github.com/O937-blip/SimIR.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# 膵内視鏡的超音波画像分割のためのクロスオーガンドメイン適応ニューラルネットワーク

Cross-Organ Domain Adaptive Neural Network for Pancreatic Endoscopic Ultrasound Image Segmentation ( http://arxiv.org/abs/2409.04718v1 )

ライセンス: Link先を確認
ZhiChao Yan, Hui Xue, Yi Zhu, Bin Xiao, Hao Yuan, (参考訳) 膵管内視鏡検査(EUS)画像における病変の正確な分画は,効果的な診断と治療に不可欠である。 しかし,有効診断に十分なクリプスなEUS画像の収集は困難である。 近年、ドメイン適応(DA)は、他のドメインからの関連知識を活用することで、これらの課題に対処するために採用されている。 ほとんどのDA法は同一臓器の多視点表示にのみ焦点をあてているため、意味情報に制限のある腫瘍病変領域をはっきりと描写することは依然として困難である。 異なる臓器から同質の類似性を移すことは、この問題に恩恵をもたらすが、それらの間に大きなドメインギャップがあるため、関連する作業が欠如している。 これらの課題に対処するために,汎用ネットワークと補助ネットワークからなるCross-Organ tumor Segmentation Networks (COTS-Nets)を提案する。 ユニバーサルネットワークは境界損失を利用して、異なる腫瘍の共通境界情報を学習し、制限された低品質のデータにもかかわらず、EUS内の腫瘍の正確な非直線化を可能にする。 同時に,膵管内EUSと他の臓器の腫瘍境界との整合性予測に整合性障害をともなうことで,領域ギャップを緩和する。 組織間ドメインギャップをさらに小さくするため、補助ネットワークは異なる臓器からのマルチスケール機能を統合し、ドメイン不変知識の獲得において普遍的なネットワークを支援する。 全身的な実験により,COTS-Netsは膵癌診断の精度を大幅に向上させることが示された。 さらに, 膵管内超音波(PCEUS)データセットを作成し, 病理組織学的に確認された膵EUS像501例について検討した。

Accurate segmentation of lesions in pancreatic endoscopic ultrasound (EUS) images is crucial for effective diagnosis and treatment. However, the collection of enough crisp EUS images for effective diagnosis is arduous. Recently, domain adaptation (DA) has been employed to address these challenges by leveraging related knowledge from other domains. Most DA methods only focus on multi-view representations of the same organ, which makes it still tough to clearly depict the tumor lesion area with limited semantic information. Although transferring homogeneous similarity from different organs could benefit the issue, there is a lack of relevant work due to the enormous domain gap between them. To address these challenges, we propose the Cross-Organ Tumor Segmentation Networks (COTS-Nets), consisting of a universal network and an auxiliary network. The universal network utilizes boundary loss to learn common boundary information of different tumors, enabling accurate delineation of tumors in EUS despite limited and low-quality data. Simultaneously, we incorporate consistency loss in the universal network to align the prediction of pancreatic EUS with tumor boundaries from other organs to mitigate the domain gap. To further reduce the cross-organ domain gap, the auxiliary network integrates multi-scale features from different organs, aiding the universal network in acquiring domain-invariant knowledge. Systematic experiments demonstrate that COTS-Nets significantly improves the accuracy of pancreatic cancer diagnosis. Additionally, we developed the Pancreatic Cancer Endoscopic Ultrasound (PCEUS) dataset, comprising 501 pathologically confirmed pancreatic EUS images, to facilitate model development.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# 情報深層学習の総合的研究とその応用

A Comprehensive Survey on Evidential Deep Learning and Its Applications ( http://arxiv.org/abs/2409.04720v1 )

ライセンス: Link先を確認
Junyu Gao, Mengyuan Chen, Liangyu Xiang, Changsheng Xu, (参考訳) 信頼性の高い不確実性推定は、特に自律運転や診断などのリスクの高いアプリケーションにおいて、ディープラーニングアルゴリズムの産業展開において重要な要件となっている。 しかし、ディープエンハンブルやベイズニューラルネットワークに基づく主流の不確実性推定法は、一般にかなりの計算オーバーヘッドを課す。 この課題に対処するために、EDL(Evidential Deep Learning)と呼ばれる新しいパラダイムが登場し、単一のフォワードパスで最小限の追加計算で信頼性の高い不確実性推定を提供する。 本調査は,従来の知識を前提とせず,広い分野の紹介を読者に提供することを意図した,現在のEDL研究の概要を概観するものである。 具体的には、まず、主観論理理論であるEDLの理論的基礎を掘り下げ、他の不確実性推定フレームワークとの区別について議論する。 さらに,エビデンス収集プロセスの再構築,OODサンプルによる不確実性評価の改善,各種トレーニング戦略の開拓,および顕在的回帰ネットワークの4つの観点から,EDLの理論的進歩を示す。 その後、さまざまな機械学習パラダイムや下流タスクにまたがる広範な応用について詳述する。 最終的に、より良いパフォーマンスとより広範なEDLの採用に向けた今後の方向性に関する展望が提供され、潜在的研究の道のりが浮かび上がっている。

Reliable uncertainty estimation has become a crucial requirement for the industrial deployment of deep learning algorithms, particularly in high-risk applications such as autonomous driving and medical diagnosis. However, mainstream uncertainty estimation methods, based on deep ensembling or Bayesian neural networks, generally impose substantial computational overhead. To address this challenge, a novel paradigm called Evidential Deep Learning (EDL) has emerged, providing reliable uncertainty estimation with minimal additional computation in a single forward pass. This survey provides a comprehensive overview of the current research on EDL, designed to offer readers a broad introduction to the field without assuming prior knowledge. Specifically, we first delve into the theoretical foundation of EDL, the subjective logic theory, and discuss its distinctions from other uncertainty estimation frameworks. We further present existing theoretical advancements in EDL from four perspectives: reformulating the evidence collection process, improving uncertainty estimation via OOD samples, delving into various training strategies, and evidential regression networks. Thereafter, we elaborate on its extensive applications across various machine learning paradigms and downstream tasks. In the end, an outlook on future directions for better performances and broader adoption of EDL is provided, highlighting potential research avenues.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# NapTune:前夜の睡眠対策とウェアラブル時系列を用いたマウス分類のための効率的なモデルチューニング

NapTune: Efficient Model Tuning for Mood Classification using Previous Night's Sleep Measures along with Wearable Time-series ( http://arxiv.org/abs/2409.04723v1 )

ライセンス: Link先を確認
Debaditya Shome, Nasim Montazeri Ghahjaverestan, Ali Etemad, (参考訳) 睡眠は、感情的な調節と全体的なメンタルヘルスにおいて重要な要素であることが知られている。 本研究では、前夜の睡眠測定とウェアラブルによる気分認識の統合について検討する。 そこで本研究では,各トランスフォーマー層に軽量なプロンプトパラメータを付加・訓練することにより,凍結学習済みのウェアラブル時系列エンコーダへの追加入力として睡眠関連尺度を利用する新しいプロンプトチューニングフレームワークであるNapTuneを提案する。 厳密な経験的評価を通じて、NapTuneを用いた睡眠データの導入は、ECG, PPG, EDAなど、さまざまなウェアラブル時系列における気分認識性能を向上させるだけでなく、よりサンプリング効率を高めることを実証した。 本手法は, 最良ベースラインおよび一様変種に対して有意な改善を示した。 さらに,睡眠関連尺度の追加が気分の相違や個別の睡眠関連尺度の影響について分析した。

Sleep is known to be a key factor in emotional regulation and overall mental health. In this study, we explore the integration of sleep measures from the previous night into wearable-based mood recognition. To this end, we propose NapTune, a novel prompt-tuning framework that utilizes sleep-related measures as additional inputs to a frozen pre-trained wearable time-series encoder by adding and training lightweight prompt parameters to each Transformer layer. Through rigorous empirical evaluation, we demonstrate that the inclusion of sleep data using NapTune not only improves mood recognition performance across different wearable time-series namely ECG, PPG, and EDA, but also makes it more sample-efficient. Our method demonstrates significant improvements over the best baselines and unimodal variants. Furthermore, we analyze the impact of adding sleep-related measures on recognizing different moods as well as the influence of individual sleep-related measures.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# 共有クープマン固有モードによる都市交通分析と予測

Urban traffic analysis and forecasting through shared Koopman eigenmodes ( http://arxiv.org/abs/2409.04728v1 )

ライセンス: Link先を確認
Chuhan Yang, Fares B. Mehouachi, Monica Menendez, Saif Eddin Jabari, (参考訳) データ量の多い都市における交通流の予測は、限られた歴史的データのために困難である。 そこで我々は,データ豊富な都市に共通する周期パターンを,制約付きHankelized DMD (TrHDMD) による動的モード分解 (Dynamic Mode Decomposition, DMD) のカスタマイズ版を用いて同定することで,伝達学習を活用する。 この手法は,交通パターンの固有値(アーバンハートビート)を明らかにし,それらをデータ共有都市に転送し,予測性能を著しく向上させる。 TrHDMDは、他の都市からの事前知識を活用することで、広範なトレーニングデータセットの必要性を減らす。 マルチシティループ検出データにクープマン作用素理論を適用することにより、安定、解釈可能、時間不変のトラフィックモードを同定する。 予測タスクに‘urban heartbeats’を注入することで、予測精度が向上し、さまざまなデータインフラストラクチャを持つ都市のトラフィック管理戦略を強化する可能性がある。 本研究は,共有クープマン固有モデムによる都市間知識伝達を導入し,データ共有型都市環境に対する実用的な洞察と信頼性の高い予測を提供する。

Predicting traffic flow in data-scarce cities is challenging due to limited historical data. To address this, we leverage transfer learning by identifying periodic patterns common to data-rich cities using a customized variant of Dynamic Mode Decomposition (DMD): constrained Hankelized DMD (TrHDMD). This method uncovers common eigenmodes (urban heartbeats) in traffic patterns and transfers them to data-scarce cities, significantly enhancing prediction performance. TrHDMD reduces the need for extensive training datasets by utilizing prior knowledge from other cities. By applying Koopman operator theory to multi-city loop detector data, we identify stable, interpretable, and time-invariant traffic modes. Injecting ``urban heartbeats'' into forecasting tasks improves prediction accuracy and has the potential to enhance traffic management strategies for cities with varying data infrastructures. Our work introduces cross-city knowledge transfer via shared Koopman eigenmodes, offering actionable insights and reliable forecasts for data-scarce urban environments.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# VidLPRO: A $\underline{Vid}$eo-$\underline{L}$anguage $\underline{P}$re-training Framework for $\underline{Ro}$botic and Laparoscopic Surgery

VidLPRO: A $\underline{Vid}$eo-$\underline{L}$anguage $\underline{P}$re-training Framework for $\underline{Ro}$botic and Laparoscopic Surgery ( http://arxiv.org/abs/2409.04732v1 )

ライセンス: Link先を確認
Mohammadmahdi Honarmand, Muhammad Abdullah Jamal, Omid Mohareri, (参考訳) ロボットおよび腹腔鏡下手術に特化して設計された新しいビデオ言語(VL)事前学習フレームワークであるVidLPROを紹介する。 既存の外科的VLモデルは、主にコントラスト学習に依存しているが、複雑な時間的ダイナミクスを捉え、動画を言語に合わせるためのより包括的なアプローチを提案する。 VidLPROは、ビデオテキストコントラスト学習、ビデオテキストマッチング、マスキング言語モデリングの目的を統合し、リッチなVL表現を学習する。 この枠組みをサポートするために,GenSurgery 由来の慎重にキュレートされたデータセットであるGenSurg+ を,Whisper モデルで抽出した転写文を用いて GPT-4 で生成されたキャプションと組み合わせた17kの手術用ビデオクリップからなる。 このデータセットは、外科領域における大規模で高品質なVLデータの必要性に対処する。 Cholec80やAutoLaparoといったベンチマークデータセットに関する大規模な実験は、我々のアプローチの有効性を実証している。 VidLPROは、ゼロショットの外科的位相認識において最先端のパフォーマンスを達成し、SurgVLPやHecVLといった既存の外科的VLモデルよりも大幅に優れている。 本モデルでは,F1スコアの精度が最大21.5\%,F1スコアが15.7%向上し,新たなベンチマークが設定された。 特に、VidLPROは、単一フレームの推論でも堅牢なパフォーマンスを示しながら、時間的コンテキストの増大によって効果的にスケールする。 アブレーション研究は、フレームサンプリング戦略がモデル性能と計算効率に与える影響を明らかにする。 これらの結果は,手術映像理解の基礎モデルとしてのVidLPROの可能性を裏付けるものである。

We introduce VidLPRO, a novel video-language (VL) pre-training framework designed specifically for robotic and laparoscopic surgery. While existing surgical VL models primarily rely on contrastive learning, we propose a more comprehensive approach to capture the intricate temporal dynamics and align video with language. VidLPRO integrates video-text contrastive learning, video-text matching, and masked language modeling objectives to learn rich VL representations. To support this framework, we present GenSurg+, a carefully curated dataset derived from GenSurgery, comprising 17k surgical video clips paired with captions generated by GPT-4 using transcripts extracted by the Whisper model. This dataset addresses the need for large-scale, high-quality VL data in the surgical domain. Extensive experiments on benchmark datasets, including Cholec80 and AutoLaparo, demonstrate the efficacy of our approach. VidLPRO achieves state-of-the-art performance in zero-shot surgical phase recognition, significantly outperforming existing surgical VL models such as SurgVLP and HecVL. Our model demonstrates improvements of up to 21.5\% in accuracy and 15.7% in F1 score, setting a new benchmark in the field. Notably, VidLPRO exhibits robust performance even with single-frame inference, while effectively scaling with increased temporal context. Ablation studies reveal the impact of frame sampling strategies on model performance and computational efficiency. These results underscore VidLPRO's potential as a foundation model for surgical video understanding.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# ロバスト位相検索のための高効率交代最小化アルゴリズム

A Sample Efficient Alternating Minimization-based Algorithm For Robust Phase Retrieval ( http://arxiv.org/abs/2409.04733v1 )

ライセンス: Link先を確認
Adarsh Barik, Anand Krishna, Vincent Y. F. Tan, (参考訳) 本研究では,未知の信号 $\theta^* \in \mathbb{R}^d$ を任意の大きさのみの線形測定の有無で回収する,ロバスト位相探索問題について検討する。 本稿では,非凸最適化問題に対するオラクルソルバをサブルーチンとして組み込んだ最小化手法を提案する。 我々のアルゴリズムは、$\theta^*$への収束を保証し、劣化した測定の分数に対する収束率の明示的な多項式依存を与える。 次に, 粗い任意の外れ値モデルの下で, 上記のオラクルを効率的に構築し, 位相探索における損失景観の幾何学的特性について, 劣化測定による貴重な知見を提供する。 提案するオラクルは、一定のステップサイズとランダムな初期化を持つ単純な勾配降下アルゴリズムを用いて、計算集約的なスペクトル初期化の必要性を回避する。 さらに、我々の全体的なアルゴリズムは、ほぼ線形なサンプルの複雑さ、$\mathcal{O}(d \, \mathrm{polylog}(d))$を達成する。

In this work, we study the robust phase retrieval problem where the task is to recover an unknown signal $\theta^* \in \mathbb{R}^d$ in the presence of potentially arbitrarily corrupted magnitude-only linear measurements. We propose an alternating minimization approach that incorporates an oracle solver for a non-convex optimization problem as a subroutine. Our algorithm guarantees convergence to $\theta^*$ and provides an explicit polynomial dependence of the convergence rate on the fraction of corrupted measurements. We then provide an efficient construction of the aforementioned oracle under a sparse arbitrary outliers model and offer valuable insights into the geometric properties of the loss landscape in phase retrieval with corrupted measurements. Our proposed oracle avoids the need for computationally intensive spectral initialization, using a simple gradient descent algorithm with a constant step size and random initialization instead. Additionally, our overall algorithm achieves nearly linear sample complexity, $\mathcal{O}(d \, \mathrm{polylog}(d))$.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# 実画像と合成画像のロバスト識別のためのスイム変換器:データ内およびデータ間解析

Swin Transformer for Robust Differentiation of Real and Synthetic Images: Intra- and Inter-Dataset Analysis ( http://arxiv.org/abs/2409.04734v1 )

ライセンス: Link先を確認
Preetu Mehta, Aman Sagar, Suchi Kumari, (参考訳) この研究は、コンピュータ生成画像(CGI)とRGBカラー空間の真のデジタル画像とを区別することの難しさに対処することを目的としている。 本研究は,CGIの複雑さと変動性を扱う既存の分類手法の限界を考慮し,自然画像と合成画像の正確な識別のためのスウィントランスフォーマーモデルを提案する。 提案したモデルは、Swin Transformerの階層アーキテクチャを利用して、CGIと自然画像の区別に不可欠なローカルおよびグローバルな特徴をキャプチャする。 モデルの性能は、CiFAKE、JSSSTU、Columbiaの3つの異なるデータセットでデータセット内およびデータセット間テストによって評価された。 データセットを個別に(D1,D2,D3)、(D1+D2+D3)と組み合わせて、モデルの堅牢性とドメインの一般化能力を評価した。 Swin Transformerベースのモデルは高い精度を示し、すべてのデータセットとテストシナリオで97-99\%の範囲を一貫して達成した。 これらの結果は,CGIの検出におけるモデルの有効性を確認し,その堅牢性と信頼性をデータセット内およびデータセット間評価で示す。 この研究の結果は、特にCGIと自然画像の区別において、デジタル画像鑑定のための高度なツールとしてのSwin Transformerモデルの可能性を強調した。 複数のデータセットにまたがるモデルの性能は、ドメインの一般化の能力を示しているため、正確で信頼性の高い画像分類を必要とするシナリオでは貴重な資産である。

\textbf{Purpose} This study aims to address the growing challenge of distinguishing computer-generated imagery (CGI) from authentic digital images in the RGB color space. Given the limitations of existing classification methods in handling the complexity and variability of CGI, this research proposes a Swin Transformer-based model for accurate differentiation between natural and synthetic images. \textbf{Methods} The proposed model leverages the Swin Transformer's hierarchical architecture to capture local and global features crucial for distinguishing CGI from natural images. The model's performance was evaluated through intra-dataset and inter-dataset testing across three distinct datasets: CiFAKE, JSSSTU, and Columbia. The datasets were tested individually (D1, D2, D3) and in combination (D1+D2+D3) to assess the model's robustness and domain generalization capabilities. \textbf{Results} The Swin Transformer-based model demonstrated high accuracy, consistently achieving a range of 97-99\% across all datasets and testing scenarios. These results confirm the model's effectiveness in detecting CGI, showcasing its robustness and reliability in both intra-dataset and inter-dataset evaluations. \textbf{Conclusion} The findings of this study highlight the Swin Transformer model's potential as an advanced tool for digital image forensics, particularly in distinguishing CGI from natural images. The model's strong performance across multiple datasets indicates its capability for domain generalization, making it a valuable asset in scenarios requiring precise and reliable image classification.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# LiTelFuzz : 線形時間論理制約に基づくスワーミング

LiTelFuzz : Swarms Fuzzing Based on Linear Temporal Logic Constraints ( http://arxiv.org/abs/2409.04736v1 )

ライセンス: Link先を確認
Zhiwei Zhang, Ruoyu Zhou, Haocheng Han, Xiaodong Zhang, Yulong Shen, (参考訳) マルチロボット群は、Swarmインテリジェンスを利用してタスクを協調し、様々な実践シナリオにおいてますます重要な役割を担っている。 しかし、複雑な設計のため、マルチロボットスワムシステムには論理的誤りによる脆弱性がしばしばあり、これはマルチロボットスワムの通常の操作を著しく破壊する可能性がある。 論理的脆弱性がマルチロボット群にもたらす重大なセキュリティ上の脅威にもかかわらず、これらの脆弱性をテストし識別する上ではまだ大きな課題が残っており、関連する研究は以下の2つの大きな課題に直面している。 1) 試験用入力空間の爆発 2)効果的なテストガイダンス戦略の欠如。 そこで本稿では,上記の2つの課題を克服し,複数ロボット群における論理的欠陥を発見するための形式的検証手法を提案する。 具体的には、これらの制約に基づいてSwarmの線形時間論理制約を抽象化し、これらの制約に基づいてSwarmの堅牢性を計算し、ファジングを誘導し、このアプローチをLiTelFuzz(線形時間論理制約に基づくファジング)と呼ぶ。 LiTelFuzzの中核となる考え方は、動作制約に基づいてメトリクスを設計し、異なるタイミングでマルチロボットスワムの状態を評価し、評価結果に基づいてファズテストのガイドを行うことである。 この考え方に基づいて、過剰なテストケース入力空間とファジィガイダンスの欠如という2つの課題を克服する。 その結果,LiTelFuzzをベースとした単一攻撃ドローンファジリング方式と複数攻撃ドローン方式を実装した。 これらはそれぞれSA-FuzzingとMA-Fuzzingと呼ばれている。 最後に、LiTelFuzzを使って、SA-Fuzzingで87.35%、MA-Fuzzingで91.73%の成功率で3つの一般的なSwarmアルゴリズムをテストした。 成功率と効率は、既存の最先端ファザーSWARMFLAWFINDERより優れている。

Multi-robot swarms utilize swarm intelligence to collaborate on tasks and play an increasingly significant role in a variety of practical scenarios. However, due to the complex design, multi-robot swarm systems often have vulnerabilities caused by logical errors, which can severely disrupt the normal operations of multi-robot swarms. Despite the significant security threats that logical vulnerabilities pose to multi-robot swarms, there are still considerable challenges in testing and identifying these vulnerabilities, and related research still faces two major challenges: 1) the explosion of input space for testing, 2) the lack of effective test-guidance strategies. Therefore, in this paper, we overcome the two major challenges mentioned above, and propose a formal verification method to discover logical flaws in multi-robot swarms. Specifically, we abstract linear temporal logic constraints of the swarm and compute swarm robustness based on these constraints thus guiding fuzzing, we call this approach LiTelFuzz (Fuzzing based on Linear Temporal Logic Constraints). The core idea of LiTelFuzz is to design a metric based on behavioral constraints to assess the state of the multi-robot swarm at different moments, and guide fuzz testing based on the assessment results. Based on this idea, we overcome the two challenges of excessive test case input space and the lack of fuzzing guidance. Consequently, we implement a single attack drone fuzzing scheme and a multiple attack drones scheme based on LiTelFuzz. These are named SA-Fuzzing and MA-Fuzzing, respectively. Finally, we tested three popular swarm algorithms using LiTelFuzz with an average success rate of 87.35% for SA-Fuzzing and 91.73% for MA-Fuzzing to find vulnerabilities. The success rate and efficiency are better than the existing state-of-the-art fuzzer SWARMFLAWFINDER.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# CrysAtom: 結晶特性予測のための原子の分散表現

CrysAtom: Distributed Representation of Atoms for Crystal Property Prediction ( http://arxiv.org/abs/2409.04737v1 )

ライセンス: Link先を確認
Shrimon Mukherjee, Madhusudan Ghosh, Partha Basuchowdhuri, (参考訳) 人工知能(AI)の応用は、基礎科学の分野における研究の進展において、至るところで行われている。 研究者による機械学習(ML)とディープラーニング(DL)ベースの方法論の頻繁な利用は、過去10年間で大きな進歩をもたらした。 これらの技術はタンパク質構造予測、薬物-標的結合親和性予測、分子特性予測などの様々なタスクにおいて顕著な性能向上をもたらした。 物質科学の文献では、結晶性物質がトポロジカルな構造を示すことはよく知られている。 このようなトポロジ構造はグラフとして表現され、グラフニューラルネットワーク(GNN)に基づくアプローチは、それらを拡張表現空間にエンコードするのに役立ちます。 主に、電子的特性(形状エネルギー、バンドギャップ、総エネルギーなど)と結晶構造に基づく下流特性予測タスクを対象とする教師あり学習手法を採用する。 一般にこの種のフレームワークは、構造表現とともに手作りの原子の特徴表現に強く依存している。 本稿では,非教師なしのフレームワークであるCrysAtomを提案し,非教師付き結晶データを用いて原子の密度ベクトル表現を生成し,既存のGNN特性予測モデルを用いて結晶の重要な特性を正確に予測する。 実験結果から, 原子の化学特性を包含し, ベースライン特性予測モデルの性能を著しく向上させることが示唆された。

Application of artificial intelligence (AI) has been ubiquitous in the growth of research in the areas of basic sciences. Frequent use of machine learning (ML) and deep learning (DL) based methodologies by researchers has resulted in significant advancements in the last decade. These techniques led to notable performance enhancements in different tasks such as protein structure prediction, drug-target binding affinity prediction, and molecular property prediction. In material science literature, it is well-known that crystalline materials exhibit topological structures. Such topological structures may be represented as graphs and utilization of graph neural network (GNN) based approaches could help encoding them into an augmented representation space. Primarily, such frameworks adopt supervised learning techniques targeted towards downstream property prediction tasks on the basis of electronic properties (formation energy, bandgap, total energy, etc.) and crystalline structures. Generally, such type of frameworks rely highly on the handcrafted atom feature representations along with the structural representations. In this paper, we propose an unsupervised framework namely, CrysAtom, using untagged crystal data to generate dense vector representation of atoms, which can be utilized in existing GNN-based property predictor models to accurately predict important properties of crystals. Empirical results show that our dense representation embeds chemical properties of atoms and enhance the performance of the baseline property predictor models significantly.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# 物理系シミュレーションのためのアップサンプリングオンリーおよびアダプティブメッシュベースGNN

Up-sampling-only and Adaptive Mesh-based GNN for Simulating Physical Systems ( http://arxiv.org/abs/2409.04740v1 )

ライセンス: Link先を確認
Fu Lin, Jiasheng Shi, Shijie Luo, Qinpei Zhao, Weixiong Rao, Lei Chen, (参考訳) 複雑な力学系の従来のシミュレーションは、有限要素法(FEM)を用いた部分微分方程式(PDE)の数値解法に依存する。 FEMソルバはしばしば計算コストと実行時間に悩まされる。 近年のグラフニューラルネットワーク(GNN)に基づくシミュレーションモデルでは,実行時間を許容精度で改善することができる。 残念ながら、非効率な表現や非効率なメッセージ伝搬(MP)といった欠点を含む複雑な機械システムのために、GNNを調整するのは困難である。 本稿では,提案するアップサンプリング専用およびアダプティブMP技術を用いて,新しい階層型メッシュグラフネットワーク,すなわちUA-MGNを開発し,効率的なメカニカルシミュレーションを実現する。 2つの合成データセットと1つの実データセットの評価は、UA-MGNの優位性を示している。 例えばビームデータセットでは、最先端のMS-MGNと比較して、UA-MGNは40.99%低いエラーをもたらすが、ネットワークパラメータは43.48%少なく、浮動小数点演算(FLOP)は4.49%少ない。

Traditional simulation of complex mechanical systems relies on numerical solvers of Partial Differential Equations (PDEs), e.g., using the Finite Element Method (FEM). The FEM solvers frequently suffer from intensive computation cost and high running time. Recent graph neural network (GNN)-based simulation models can improve running time meanwhile with acceptable accuracy. Unfortunately, they are hard to tailor GNNs for complex mechanical systems, including such disadvantages as ineffective representation and inefficient message propagation (MP). To tackle these issues, in this paper, with the proposed Up-sampling-only and Adaptive MP techniques, we develop a novel hierarchical Mesh Graph Network, namely UA-MGN, for efficient and effective mechanical simulation. Evaluation on two synthetic and one real datasets demonstrates the superiority of the UA-MGN. For example, on the Beam dataset, compared to the state-of-the-art MS-MGN, UA-MGN leads to 40.99% lower errors but using only 43.48% fewer network parameters and 4.49% fewer floating point operations (FLOPs).
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# 画像認証検出の強化:CGIと実画像のスイニングトランスフォーマーとカラーフレーム解析

Enhancing Image Authenticity Detection: Swin Transformers and Color Frame Analysis for CGI vs. Real Images ( http://arxiv.org/abs/2409.04742v1 )

ライセンス: Link先を確認
Preeti Mehta, Aman Sagar, Suchi Kumari, (参考訳) コンピュータグラフィックスの急速な進歩は、コンピュータ生成画像(CGI)の品質を大幅に向上させ、デジタルカメラ(ADI)が捉えた真の画像と区別しにくくなった。 この不明瞭さは、特に広汎な誤報とデジタル化されたコンテンツの時代において、重大な課題を引き起こす。 本研究では,Swin Transformerを用いたCGIとADIの分類手法と,RGBおよびCbCrYカラーフレーム解析を含む前処理手法を提案する。 Swin Transformerの能力を生かして,モデルのトレーニングに生のピクセルデータに頼るのではなく,手作りの特徴を予見する。 このアプローチは,ノイズ付加,ぼやけ,JPEG圧縮などのジョイントイメージ操作に対して,処理速度と堅牢性を大幅に向上させながら,最先端の精度を実現する。 本研究は,スイニングトランスフォーマーと高度なカラーフレーム解析を組み合わせることで,画像の精度を効果的かつ効率的に検出できる可能性を明らかにするものである。

The rapid advancements in computer graphics have greatly enhanced the quality of computer-generated images (CGI), making them increasingly indistinguishable from authentic images captured by digital cameras (ADI). This indistinguishability poses significant challenges, especially in an era of widespread misinformation and digitally fabricated content. This research proposes a novel approach to classify CGI and ADI using Swin Transformers and preprocessing techniques involving RGB and CbCrY color frame analysis. By harnessing the capabilities of Swin Transformers, our method foregoes handcrafted features instead of relying on raw pixel data for model training. This approach achieves state-of-the-art accuracy while offering substantial improvements in processing speed and robustness against joint image manipulations such as noise addition, blurring, and JPEG compression. Our findings highlight the potential of Swin Transformers combined with advanced color frame analysis for effective and efficient image authenticity detection.
翻訳日:2024-09-10 21:01:36 公開日:2024-09-07
# GRVFL-2V:2視点学習に基づくグラフランダムベクトル関数リンク

GRVFL-2V: Graph Random Vector Functional Link Based on Two-View Learning ( http://arxiv.org/abs/2409.04743v1 )

ライセンス: Link先を確認
M. Tanveer, R. K. Sharma, M. Sajid, A. Quadir, (参考訳) ランダム化されたニューラルネットワークであるランダムベクトル汎関数リンク(RVFL)の分類性能は広く認識されている。 しかし、その浅い学習特性のため、RVFLはデータセットで利用可能なすべての関連情報を考慮できないことが多い。 さらにデータセットの幾何学的性質も見落としている。 これらの制約に対処するため,二視点学習モデル(GRVFL-2V)に基づく新しいグラフランダムベクトル汎関数リンクを提案する。 提案モデルは,マルチビュー学習(MVL)の概念を取り入れた複数のビューに基づいて学習し,グラフ埋め込み(GE)フレームワークを用いて,すべてのビューの幾何学的特性を取り入れた。 RVFLネットワーク, MVL, GEフレームワークの融合により, 提案したモデルにより, 以下のことを実現できる。 i)<textit{efficient learning}: RVFLのトポロジを活用することにより,提案モデルは多視点データ内の非線形関係を効率的に把握し,効率的かつ正確な予測を容易にする。 ii) \textit{comprehensive representation}: 多様な視点から情報を融合することにより、提案されたモデルがデータ内の複雑なパターンや関係を捕捉し、モデル全体の一般化性能を向上させる能力を高める。 三 GEフレームワークを利用することにより、本提案モデルは、本質的及びペナルティ的サブスペース学習基準の両方を自然に活用することにより、データセットの本来のデータ分布を利用する。 27のUCIデータセットとKEELデータセット、Corel5kの50データセット、AwAの45データセットを含む、さまざまなデータセット上で提案されたGRVFL-2Vモデルの評価は、ベースラインモデルよりも優れたパフォーマンスを示している。 これらの結果は,提案したGRVFL-2Vモデルの多種多様なデータセットに対する拡張一般化能力を強調した。

The classification performance of the random vector functional link (RVFL), a randomized neural network, has been widely acknowledged. However, due to its shallow learning nature, RVFL often fails to consider all the relevant information available in a dataset. Additionally, it overlooks the geometrical properties of the dataset. To address these limitations, a novel graph random vector functional link based on two-view learning (GRVFL-2V) model is proposed. The proposed model is trained on multiple views, incorporating the concept of multiview learning (MVL), and it also incorporates the geometrical properties of all the views using the graph embedding (GE) framework. The fusion of RVFL networks, MVL, and GE framework enables our proposed model to achieve the following: i) \textit{efficient learning}: by leveraging the topology of RVFL, our proposed model can efficiently capture nonlinear relationships within the multi-view data, facilitating efficient and accurate predictions; ii) \textit{comprehensive representation}: fusing information from diverse perspectives enhance the proposed model's ability to capture complex patterns and relationships within the data, thereby improving the model's overall generalization performance; and iii) \textit{structural awareness}: by employing the GE framework, our proposed model leverages the original data distribution of the dataset by naturally exploiting both intrinsic and penalty subspace learning criteria. The evaluation of the proposed GRVFL-2V model on various datasets, including 27 UCI and KEEL datasets, 50 datasets from Corel5k, and 45 datasets from AwA, demonstrates its superior performance compared to baseline models. These results highlight the enhanced generalization capabilities of the proposed GRVFL-2V model across a diverse range of datasets.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# LMGT:言語モデルによる強化学習における探索・探索バランスの最適化

LMGT: Optimizing Exploration-Exploitation Balance in Reinforcement Learning through Language Model Guided Trade-offs ( http://arxiv.org/abs/2409.04744v1 )

ライセンス: Link先を確認
Yongxin Deng, Xihe Qiu, Xiaoyu Tan, Wei Chu, Yinghui Xu, (参考訳) 強化学習(RL)の環境遷移モデルに固有の不確実性は、エージェントの期待される報酬を正確に推定するために、計算資源の使用を最適化するために、探索と搾取の間の慎重なバランスを必要とする。 コントロールシステムのバランスを取ることは、スパース報酬のあるシナリオでは特に難しい。 しかし、多くの環境で利用できる豊富な事前知識を考えると、そのような設定でスクラッチから学習を始めるのは冗長である。 これを解決するために,大言語モデル(LLMs)に埋め込まれた包括的事前知識と,wikiチュートリアルなどの非標準データフォームの処理に対する適応性を活用した,新しいサンプル効率のフレームワークである,textbf{L}anguage \textbf{M}odel \textbf{G}uided \textbf{T}rade-offs(すなわち, \textbf{LMGT})を紹介した。 LMGTは、エージェントの探索を指示するLSMによって導かれる報酬シフトを利用することで、探索・探索のトレードオフを十分に管理し、サンプル効率を向上する。 我々は、様々なRLタスクにわたってLMGTを徹底的にテストし、産業レベルのRLレコメンデーションシステムにデプロイし、ベースライン手法を一貫して上回っている。 その結果、我々のフレームワークは、RLのトレーニングフェーズで必要となる時間コストを大幅に削減できることがわかった。

The uncertainty inherent in the environmental transition model of Reinforcement Learning (RL) necessitates a careful balance between exploration and exploitation to optimize the use of computational resources for accurately estimating an agent's expected reward. Achieving balance in control systems is particularly challenging in scenarios with sparse rewards. However, given the extensive prior knowledge available for many environments, it is redundant to begin learning from scratch in such settings. To address this, we introduce \textbf{L}anguage \textbf{M}odel \textbf{G}uided \textbf{T}rade-offs (i.e., \textbf{LMGT}), a novel, sample-efficient framework that leverages the comprehensive prior knowledge embedded in Large Language Models (LLMs) and their adeptness at processing non-standard data forms, such as wiki tutorials. LMGT proficiently manages the exploration-exploitation trade-off by employing reward shifts guided by LLMs, which direct agents' exploration endeavors, thereby improving sample efficiency. We have thoroughly tested LMGT across various RL tasks and deployed it in industrial-grade RL recommendation systems, where it consistently outperforms baseline methods. The results indicate that our framework can significantly reduce the time cost required during the training phase in RL.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# 自己教師付き学習のための説明的相互情報の最大化

Explicit Mutual Information Maximization for Self-Supervised Learning ( http://arxiv.org/abs/2409.04747v1 )

ライセンス: Link先を確認
Lele Chang, Peilin Liu, Qinghai Guo, Fei Wen, (参考訳) 近年,自己教師型学習(SSL)が広く研究されている。 理論的には、相互情報最大化(MIM)はSSLの最適基準であり、情報理論の強力な理論的基礎である。 しかし、データ分散がアプリケーションで分析的に利用できないため、SSLにMIMを直接適用することは困難である。 実際には、多くの既存の手法をMIM基準の近似実装と見なすことができる。 この研究は、MIの不変性に基づいて、データ分散の緩和条件である一般的な分布仮定の下で、明示的なMIの最大化をSSLに適用できることを示している。 さらに、一般化されたガウス分布を解析することによって、これを説明できる。 この結果に基づき、2次統計量のみを用いてMIM基準に基づく損失関数を導出する。 我々はSSLの新たな損失を実装し、その効果を広範な実験を通じて実証する。

Recently, self-supervised learning (SSL) has been extensively studied. Theoretically, mutual information maximization (MIM) is an optimal criterion for SSL, with a strong theoretical foundation in information theory. However, it is difficult to directly apply MIM in SSL since the data distribution is not analytically available in applications. In practice, many existing methods can be viewed as approximate implementations of the MIM criterion. This work shows that, based on the invariance property of MI, explicit MI maximization can be applied to SSL under a generic distribution assumption, i.e., a relaxed condition of the data distribution. We further illustrate this by analyzing the generalized Gaussian distribution. Based on this result, we derive a loss function based on the MIM criterion using only second-order statistics. We implement the new loss for SSL and demonstrate its effectiveness via extensive experiments.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# Eコマースにおける条件とマスクガイダンスを用いた学習自由スタイル一貫性画像合成

Training-Free Style Consistent Image Synthesis with Condition and Mask Guidance in E-Commerce ( http://arxiv.org/abs/2409.04750v1 )

ライセンス: Link先を確認
Guandong Li, (参考訳) スタイル一貫性のある画像を生成することはeコマース分野では一般的な課題であり、現在の手法は拡散モデルに基づいており、優れた成果を上げている。 本稿では、UNetと画像条件を統合する際の注意マップ(自己注意と相互注意)の変更を参考に、QKV(query/key/value)レベルの概念を紹介する。 電子商取引画像のメインコンポジションを損なうことなく、予め設定された条件で案内された列車フリーの手法を応用することを目指す。 これは、共有KVを使用して、交差注意における類似性を高め、注意マップからマスクガイダンスを生成し、スタイル一貫性画像の生成を巧みに指示する。 本手法は実用化に有望な結果を示した。

Generating style-consistent images is a common task in the e-commerce field, and current methods are largely based on diffusion models, which have achieved excellent results. This paper introduces the concept of the QKV (query/key/value) level, referring to modifications in the attention maps (self-attention and cross-attention) when integrating UNet with image conditions. Without disrupting the product's main composition in e-commerce images, we aim to use a train-free method guided by pre-set conditions. This involves using shared KV to enhance similarity in cross-attention and generating mask guidance from the attention map to cleverly direct the generation of style-consistent images. Our method has shown promising results in practical applications.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# Fisheye-GS:魚眼カメラ用軽量で拡張可能なガウス撮影モジュール

Fisheye-GS: Lightweight and Extensible Gaussian Splatting Module for Fisheye Cameras ( http://arxiv.org/abs/2409.04751v1 )

ライセンス: Link先を確認
Zimu Liao, Siyan Chen, Rong Fu, Yi Wang, Zhongling Su, Hao Luo, Linning Xu, Bo Dai, Hengjie Li, Zhilin Pei, Xingcheng Zhang, (参考訳) 近年, 3D Gaussian Splatting (3DGS) が注目されている。 しかし、異なるカメラモデル、特に魚眼レンズに3DGSを適応させることは、ユニークな3Dから2Dのプロジェクション計算のために困難をもたらす。 さらに、特に魚眼レンズの極端な曲率と広い視野において、タイルベースのスプラッティングの非効率性は、より広い現実の用途に欠かせない。 これらの課題に対処するために,魚眼カメラの投射変換とその勾配を再現する革新的な手法である魚眼-GSを紹介する。 我々のアプローチは、モジュールとして他の効率的な3Dレンダリング手法にシームレスに統合することができ、拡張性、軽量な性質、モジュール設計を強調します。 プロジェクションコンポーネントのみを変更したので、異なるカメラモデルで簡単に使用することができる。 非歪の後にトレーニングする手法と比較して、我々の手法は視覚的品質の明確な改善を示す。

Recently, 3D Gaussian Splatting (3DGS) has garnered attention for its high fidelity and real-time rendering. However, adapting 3DGS to different camera models, particularly fisheye lenses, poses challenges due to the unique 3D to 2D projection calculation. Additionally, there are inefficiencies in the tile-based splatting, especially for the extreme curvature and wide field of view of fisheye lenses, which are crucial for its broader real-life applications. To tackle these challenges, we introduce Fisheye-GS.This innovative method recalculates the projection transformation and its gradients for fisheye cameras. Our approach can be seamlessly integrated as a module into other efficient 3D rendering methods, emphasizing its extensibility, lightweight nature, and modular design. Since we only modified the projection component, it can also be easily adapted for use with different camera models. Compared to methods that train after undistortion, our approach demonstrates a clear improvement in visual quality.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# Qubit Mapping:Adaptive Divide-and-Conquerアプローチ

Qubit Mapping: The Adaptive Divide-and-Conquer Approach ( http://arxiv.org/abs/2409.04752v1 )

ライセンス: Link先を確認
Yunqi Huang, Xiangzhen Zhou, Fanxu Meng, Sanjiang Li, (参考訳) 量子ビットマッピング問題(QMP)は、量子回路における量子ビットのマッピングとルーティングに焦点を当て、短期量子ハードウェアによって課される厳密な接続制約を満たす。 QMPは量子回路のコンパイルにおいて重要なタスクであり、その決定版はNP完全である。 本研究では,QMPの解法としてAdaptive Divided-And-Conqure(ADAC)を提案する。 我々のADACアルゴリズムはサブグラフ同型を利用して回路を適応的に分割し,サブ回路間のコヒーレンスを確保する。 さらに、回路分割時のルーティングアルゴリズムを最適化するために、ヒューリスティックなアプローチを採用する。 NISQデバイスや回路ベンチマークの広範な実験を通じて,提案手法が最先端の手法より優れていることを示す。 特に、ADACはIBM Tokyoアーキテクチャの50%近くの改善を示している。 さらに、ADACは、広く存在する現実的回路の特性に基づいて擬現実的回路を構築し、ADACの適用性を検討するために、より大きな量子ビット数を持つ格子状アーキテクチャ上に実装された擬現実的回路の約18%の改善を示す。 本研究は, 量子回路コンパイルにおけるADACの可能性と, 短期量子ハードウェアプラットフォームへの実用化の可能性を明らかにするものである。

The qubit mapping problem (QMP) focuses on the mapping and routing of qubits in quantum circuits so that the strict connectivity constraints imposed by near-term quantum hardware are satisfied. QMP is a pivotal task for quantum circuit compilation and its decision version is NP-complete. In this study, we present an effective approach called Adaptive Divided-And-Conqure (ADAC) to solve QMP. Our ADAC algorithm adaptively partitions circuits by leveraging subgraph isomorphism and ensuring coherence among subcircuits. Additionally, we employ a heuristic approach to optimise the routing algorithm during circuit partitioning. Through extensive experiments across various NISQ devices and circuit benchmarks, we demonstrate that the proposed ADAC algorithm outperforms the state-of-the-art method. Specifically, ADAC shows an improvement of nearly 50\% on the IBM Tokyo architecture. Furthermore, ADAC exhibits an improvement of around 18\% on pseudo-realistic circuits implemented on grid-like architectures with larger qubit numbers, where the pseudo-realistic circuits are constructed based on the characteristics of widely existing realistic circuits, aiming to investigate the applicability of ADAC. Our findings highlight the potential of ADAC in quantum circuit compilation and the deployment of practical applications on near-term quantum hardware platforms.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# 教師なし適応正規化

Unsupervised Adaptive Normalization ( http://arxiv.org/abs/2409.04757v1 )

ライセンス: Link先を確認
Bilal Faye, Hanane Azzag, Mustapha Lebbah, Fangchen Fang, (参考訳) ディープ・ニューラル・ネットワークは複雑な問題を解決し、広範囲のアプリケーションでその課題を証明している。 しかしながら、それらのトレーニングプロセスは、バックプロパゲーション中に活性化分布をシフトさせることによって妨げられ、不安定な勾配をもたらす。 バッチ正規化(BN)は、より高い学習率の使用を可能にするアクティベーションの正規化によってこの問題に対処する。 その利点にもかかわらず、BNはミニバッチサイズへの依存やサンプルの均一分布の推定など、欠点を伴わない。 これを解決するために、層正規化、群正規化、混合正規化などいくつかの代替案が提案されている。 これらの方法は、学習過程におけるニューロンの活性化の動的分布に適応するのに依然として苦労する可能性がある。 このギャップを埋めるために、我々はUnsupervised Adaptive Normalization (UAN)を導入しました。 UANはガウス混合モデルを用いてクラスタリングを行い、ニューロンの活性化を正規化する。 これらのパラメータは、バックプロパゲーション中のターゲットタスクの特定の要求に合わせて、ディープニューラルネットワークの重みとして同時に更新される。 このクラスタリングと正規化の統一的なアプローチは、ニューロンの活性化正規化に支えられ、特に目的のタスクに合わせて調整された適応データ表現を促進する。 このUANの適応的機能は勾配安定性を高め、学習の高速化とニューラルネットワークの性能向上をもたらす。 UANは、対象タスクに適応することで古典的手法よりも優れており、分類やドメイン適応に有効である。

Deep neural networks have become a staple in solving intricate problems, proving their mettle in a wide array of applications. However, their training process is often hampered by shifting activation distributions during backpropagation, resulting in unstable gradients. Batch Normalization (BN) addresses this issue by normalizing activations, which allows for the use of higher learning rates. Despite its benefits, BN is not without drawbacks, including its dependence on mini-batch size and the presumption of a uniform distribution of samples. To overcome this, several alternatives have been proposed, such as Layer Normalization, Group Normalization, and Mixture Normalization. These methods may still struggle to adapt to the dynamic distributions of neuron activations during the learning process. To bridge this gap, we introduce Unsupervised Adaptive Normalization (UAN), an innovative algorithm that seamlessly integrates clustering for normalization with deep neural network learning in a singular process. UAN executes clustering using the Gaussian mixture model, determining parameters for each identified cluster, by normalizing neuron activations. These parameters are concurrently updated as weights in the deep neural network, aligning with the specific requirements of the target task during backpropagation. This unified approach of clustering and normalization, underpinned by neuron activation normalization, fosters an adaptive data representation that is specifically tailored to the target task. This adaptive feature of UAN enhances gradient stability, resulting in faster learning and augmented neural network performance. UAN outperforms the classical methods by adapting to the target task and is effective in classification, and domain adaptation.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# SGSeg:自己誘導による胸部X線の言語誘導セグメンテーションにおけるテキストフリー推論の実現

SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance ( http://arxiv.org/abs/2409.04758v1 )

ライセンス: Link先を確認
Shuchang Ye, Mingyuan Meng, Mingjian Li, Dagan Feng, Jinman Kim, (参考訳) 胸部X線における感染部位の分画は, 肺構造物や病理異常の正確な分画を容易にするために重要である。 近年,マルチモーダル言語誘導画像分割法が胸部X線に対する有望な解決策として登場し,画像の評価を記述した臨床文献をガイダンスとして用いている。 それにもかかわらず、既存の言語誘導法では、画像と共に臨床報告を必要とするため、意思決定支援コンテキストにおける画像分割には適用できないが、臨床報告が完了した後の振り返り画像解析に限られる。 本研究では,テキストフリーなセグメンテーション(uni-modal,uni-modal,uni-modal,uni-modal,uni-modal,uni-modal,uni-modal)を実現した自己誘導セグメンテーションフレームワークを提案する。 本報告では, 肺, 病理組織ともに重要な位置情報を活用するとともに, 自己指導のための臨床報告を生成するために, 新たな局所化強化レポート生成(LERG)モジュールを導入する。 我々のLERGは、位置認識型擬似ラベル抽出モジュールによって弱制御された、オブジェクト検出器と位置ベースアグリゲータを統合している。 QaTa-COV19データセットの大規模な実験により、SGSegは既存のユニモーダルセグメンテーション法よりも優れた性能を示し、マルチモーダル言語誘導セグメンテーション法の最先端性能と密に一致した。

Segmentation of infected areas in chest X-rays is pivotal for facilitating the accurate delineation of pulmonary structures and pathological anomalies. Recently, multi-modal language-guided image segmentation methods have emerged as a promising solution for chest X-rays where the clinical text reports, depicting the assessment of the images, are used as guidance. Nevertheless, existing language-guided methods require clinical reports alongside the images, and hence, they are not applicable for use in image segmentation in a decision support context, but rather limited to retrospective image analysis after clinical reporting has been completed. In this study, we propose a self-guided segmentation framework (SGSeg) that leverages language guidance for training (multi-modal) while enabling text-free inference (uni-modal), which is the first that enables text-free inference in language-guided segmentation. We exploit the critical location information of both pulmonary and pathological structures depicted in the text reports and introduce a novel localization-enhanced report generation (LERG) module to generate clinical reports for self-guidance. Our LERG integrates an object detector and a location-based attention aggregator, weakly-supervised by a location-aware pseudo-label extraction module. Extensive experiments on a well-benchmarked QaTa-COV19 dataset demonstrate that our SGSeg achieved superior performance than existing uni-modal segmentation methods and closely matched the state-of-the-art performance of multi-modal language-guided segmentation methods.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# Adaptative Context Normalization: 画像処理におけるディープラーニングの強化

Adaptative Context Normalization: A Boost for Deep Learning in Image Processing ( http://arxiv.org/abs/2409.04759v1 )

ライセンス: Link先を確認
Bilal Faye, Hanane Azzag, Mustapha Lebbah, Djamel Bouchaffra, (参考訳) 画像処理のためのディープニューラルネットワーク学習は、モデル収束とパフォーマンスを阻害する層間の分散の変化に関連する大きな課題に直面している。 バッチ正規化(BN)のような活性化正規化法はこの分野に革命をもたらしたが、単一のガウス分布でデータ分布をモデル化できるという単純な仮定に依存している。 これらの制限を克服するため、混合正規化(MN)はガウス混合モデル(GMM)に基づくアプローチを導入し、データをモデル化するための複数のコンポーネントを仮定した。 しかし,本手法では,各ガウス成分のパラメータを推定するために,期待最大化アルゴリズムを用いて計算処理を行う。 この問題に対処するため,適応文脈正規化(ACN)を導入し,類似した特徴を持つデータの集合をグループ化する「コンテキスト」の概念を導入した。 同じコンテキストに属するデータは、同じパラメータを使って正規化され、コンテキストに基づいたローカル表現が可能になる。 各文脈について、モデルウェイトがバックプロパゲーションフェーズで学習されるように正規化パラメータが学習される。 ACN は BN や MN に比べて速度,収束性,優れた性能を確保できるだけでなく,画像処理の分野においてその有効性を裏付ける新たな視点も示している。

Deep Neural network learning for image processing faces major challenges related to changes in distribution across layers, which disrupt model convergence and performance. Activation normalization methods, such as Batch Normalization (BN), have revolutionized this field, but they rely on the simplified assumption that data distribution can be modelled by a single Gaussian distribution. To overcome these limitations, Mixture Normalization (MN) introduced an approach based on a Gaussian Mixture Model (GMM), assuming multiple components to model the data. However, this method entails substantial computational requirements associated with the use of Expectation-Maximization algorithm to estimate parameters of each Gaussian components. To address this issue, we introduce Adaptative Context Normalization (ACN), a novel supervised approach that introduces the concept of "context", which groups together a set of data with similar characteristics. Data belonging to the same context are normalized using the same parameters, enabling local representation based on contexts. For each context, the normalized parameters, as the model weights are learned during the backpropagation phase. ACN not only ensures speed, convergence, and superior performance compared to BN and MN but also presents a fresh perspective that underscores its particular efficacy in the field of image processing.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# 幾何学的・意味的情報融合に基づく学習自由点認識

Training-Free Point Cloud Recognition Based on Geometric and Semantic Information Fusion ( http://arxiv.org/abs/2409.04760v1 )

ライセンス: Link先を確認
Yan Chen, Di Huang, Zhichao Liao, Xi Cheng, Xinghui Li, Lone Zeng, (参考訳) ポイントクラウド認識にトレーニングフリーの手法を採用する傾向は、計算資源と時間コストの大幅な削減により、ますます人気が高まっている。 しかし、既存のアプローチは、一般的に幾何学的特徴または意味的特徴を抽出するため、制限されている。 この制限に対処するため,幾何学的特徴と意味的特徴を統合し,点雲の包括的理解を深める手法を提案する。 幾何学的分岐に対しては、幾何学的特徴を抽出するための非パラメトリック戦略を採用する。 セマンティックブランチでは、コントラスト学習を通じて事前学習されたモデルを活用し、テキスト特徴と整合してセマンティック特徴を得る。 実験の結果,本手法は,ModelNetやScanObiectNNなど,いくつかの一般的なベンチマークデータセットにおいて,最先端のトレーニングフリーアプローチよりも優れていることがわかった。

The trend of employing training-free methods for point cloud recognition is becoming increasingly popular due to its significant reduction in computational resources and time costs. However, existing approaches are limited as they typically extract either geometric or semantic features. To address this limitation, we propose a novel method that integrates both geometric and semantic features, thereby enhancing the comprehensive understanding of point clouds. For the geometric branch, we adopt a non-parametric strategy to extract geometric features. In the semantic branch, we leverage a model pre-trained through contrastive learning and aligned with text features to obtain semantic features. Experimental results demonstrate that our method outperforms existing state-of-the-art training-free approaches on several popular benchmark datasets, including ModelNet and ScanObiectNN.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# Evidential Inter-Intra Fusion によるクロスデータセット・ゲイズ推定

Cross-Dataset Gaze Estimation by Evidential Inter-intra Fusion ( http://arxiv.org/abs/2409.04766v1 )

ライセンス: Link先を確認
Shijing Wang, Yaping Huang, Jun Xie, YiTian, Feng Chen, Zhepeng Wang, (参考訳) 複雑で多様な環境で正確で信頼性の高い視線予測を達成することは、依然として困難である。 幸いなことに、現実世界のアプリケーションで多様な視線データセットにアクセスするのは簡単です。 これらのデータセットを共同でトレーニングすることで、以前の研究で見過ごされた視線推定の一般化を大幅に改善できることがわかった。 しかし、異なるデータセット間で固有の分散シフトのため、複数のデータセットを混合するだけで、一般化能力が向上したにもかかわらず、元のドメインのパフォーマンスが低下する。 クロスデータセットの視線推定」の課題に対処するために,すべてのソースおよび未確認領域でよく機能するクロスデータセットモデルをトレーニングするための,新しいEvidential Inter-intra Fusion EIFフレームワークを提案する。 具体的には、データ空間を各データセット内の重なり合う部分空間に分割してローカルレグレッションに分割する、さまざまなデータセットのための独立した単一データセットブランチを構築し、さらに、単一データセットブランチから一般化可能な機能を統合するために、クロスデータセットブランチを作成します。 さらに、正規および逆ガンマ分布に基づく顕在的回帰器は、予測された視線とは別に不確実性の推定を付加的に提供するように設計されている。 提案手法は,各データセット内の複数の局所回帰器間でのエビデンス内融合と,Mixture \textbfof Normal Inverse-Gamma (MoNIG distribution) による複数のブランチ間のエビデンス間融合を実現する。 実験により、本手法は、ソースドメインと未確認ドメインの両方において、常に顕著な改善を達成できることが示されている。

Achieving accurate and reliable gaze predictions in complex and diverse environments remains challenging. Fortunately, it is straightforward to access diverse gaze datasets in real-world applications. We discover that training these datasets jointly can significantly improve the generalization of gaze estimation, which is overlooked in previous works. However, due to the inherent distribution shift across different datasets, simply mixing multiple dataset decreases the performance in the original domain despite gaining better generalization abilities. To address the problem of ``cross-dataset gaze estimation'', we propose a novel Evidential Inter-intra Fusion EIF framework, for training a cross-dataset model that performs well across all source and unseen domains. Specifically, we build independent single-dataset branches for various datasets where the data space is partitioned into overlapping subspaces within each dataset for local regression, and further create a cross-dataset branch to integrate the generalizable features from single-dataset branches. Furthermore, evidential regressors based on the Normal and Inverse-Gamma (NIG) distribution are designed to additionally provide uncertainty estimation apart from predicting gaze. Building upon this foundation, our proposed framework achieves both intra-evidential fusion among multiple local regressors within each dataset and inter-evidential fusion among multiple branches by Mixture \textbfof Normal Inverse-Gamma (MoNIG distribution. Experiments demonstrate that our method consistently achieves notable improvements in both source domains and unseen domains.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# ランダム振幅スペクトル合成を用いた単一ソース領域一般化による医用画像分割

Medical Image Segmentation via Single-Source Domain Generalization with Random Amplitude Spectrum Synthesis ( http://arxiv.org/abs/2409.04768v1 )

ライセンス: Link先を確認
Qiang Qiao, Wenyu Wang, Meixia Qu, Kun Su, Bin Jiang, Qiang Guo, (参考訳) 医用画像のセグメンテーションの分野は、臨床データセットのドメインシフトにより、ドメイン一般化(DG)によって挑戦される。 DGの課題は、医療データの不足とプライバシー上の懸念によって悪化している。 従来の単一ソースドメイン一般化(SSDG)手法は、ドメインの矛盾を最小限に抑えるためにデータ拡張手法を積み重ねることに大きく依存している。 本稿では,医用画像のトレーニング補助として,ランダム振幅スペクトル合成(RASS)を提案する。 RASSは周波数の観点から分布変化をシミュレートすることでモデル一般化を強化する。 この戦略は、振幅依存性の摂動を適用し、潜在的な領域の変動を広範囲にカバーすることによる変動性をもたらす。 さらに,無作為なマスクシャッフルと再構成部品を提案することにより,バックボーンが構造情報を処理する能力を高め,ドメイン内およびクロスドメイン間のレジリエンスを向上することができる。 単一ソース領域一般化のためのランダム振幅スペクトル合成法 (RAS^4DG) は, 3次元胎児脳画像と2次元眼底写真で検証され, 他のSSDGモデルと比較してDGセグメンテーション性能が向上した。

The field of medical image segmentation is challenged by domain generalization (DG) due to domain shifts in clinical datasets. The DG challenge is exacerbated by the scarcity of medical data and privacy concerns. Traditional single-source domain generalization (SSDG) methods primarily rely on stacking data augmentation techniques to minimize domain discrepancies. In this paper, we propose Random Amplitude Spectrum Synthesis (RASS) as a training augmentation for medical images. RASS enhances model generalization by simulating distribution changes from a frequency perspective. This strategy introduces variability by applying amplitude-dependent perturbations to ensure broad coverage of potential domain variations. Furthermore, we propose random mask shuffle and reconstruction components, which can enhance the ability of the backbone to process structural information and increase resilience intra- and cross-domain changes. The proposed Random Amplitude Spectrum Synthesis for Single-Source Domain Generalization (RAS^4DG) is validated on 3D fetal brain images and 2D fundus photography, and achieves an improved DG segmentation performance compared to other SSDG models.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# 光ドレッシングによる運動強調の量子誤差補正

Quantum error correction of motional dephasing using optical dressing ( http://arxiv.org/abs/2409.04769v1 )

ライセンス: Link先を確認
Yuechun Jiao, Changcheng Li, Jiabei Fan, Jingxu Bai, XiaoFeng Shi, Suotang Jia, Jianming Zhao, C. Stuart Adams, (参考訳) 量子系におけるコヒーレンスを維持することは、基礎物理学と量子情報処理の両方において興味深い。 特に、量子系の熱ゆらぎによる劣化を抑制することは、機能的な量子デバイスを可能にする可能性がある。 量子重畳の運動的減退を減らす技術には、スピンエコーやバンバンがある。 本稿では、Rydberg polaritonとして知られる集合量子重ね合わせ状態に対する新しいプロトコルの有効性を実証する。 これらの集合状態は、単一光子源、光トランジスタ、全光量子ゲート、量子情報の高速読み出しにおいて潜在的に重要である。 しかし、ライドバーグ偏光子量子技術の進歩は、それを解き放つ効果的な方法が存在しない高速な運動的デファーズによって妨げられている。 ここでは、ラマンレーザーを用いた光ドレッシングによるプロトコルが、デフォーカスをキャンセルし、コヒーレンス時間を1桁以上向上させる方法を示す。

Maintaining the coherence in quantum systems is interesting in both fundamental physics and quantum information processing. In particular, suppressing the dephasing caused by thermal fluctuations in quantum systems can potentially enable functional quantum devices. Techniques to reduce motional dephasing of quantum superpositions include spin echo and bang-bang. In this paper, we demonstrate the effectiveness of a novel protocol on a collective quantum superposition state known as a Rydberg polariton. These collective states are potentially important in the context of single photon sources, optical transistor, all-optical quantum gates and fast read-out of quantum information. However progress in Rydberg polariton quantum technology has been hindered by fast motional dephasing on which no effective methods exist for undoing it. Here, we show how our protocol via optical dressing using Raman lasers cancels dephasing and enhances coherence times by more than an order of magnitude.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# Untie the Knots: 言語モデルにおける長期事前学習のための効率的なデータ拡張戦略

Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models ( http://arxiv.org/abs/2409.04774v1 )

ライセンス: Link先を確認
Junfeng Tian, Da Zheng, Yang Cheng, Rui Wang, Colin Zhang, Debing Zhang, (参考訳) 大規模言語モデル(LLM)は、より多くの情報を組み込むことができるコンテキストウィンドウの拡張を優先している。 しかし、長いコンテキストを扱うためのトレーニングモデルには大きな課題がある。 これらには、高品質な自然コンテキストデータの不足、短文タスクのパフォーマンス低下の可能性、注意機構に関連するトレーニング効率の低下などが含まれる。 本稿では、継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(\textbf{UtK})を紹介する。 特に、文書をチャンクし、チャンクをシャッフルし、長いテキストの複雑な結び目構造を作成します。 このアプローチは、関連する情報を長期の文脈で正確に対応させることで、モデルの性能を大幅に改善し、トレーニング効率も大幅に向上する。 20億のトークンでトレーニングされた7Bと72Bのパラメータを持つモデルに対して広範な実験を行い、UtKがRULER上で128Kのコンテキスト長で75\%と84.5\%のアキュラキシーを達成し、他の長いコンテキスト戦略よりも大幅に優れていることを示した。 訓練されたモデルは、さらなる研究のためにオープンソース化される。

Large language models (LLM) have prioritized expanding the context window from which models can incorporate more information. However, training models to handle long contexts presents significant challenges. These include the scarcity of high-quality natural long-context data, the potential for performance degradation on short-context tasks, and the reduced training efficiency associated with attention mechanisms. In this paper, we introduce Untie the Knots (\textbf{UtK}), a novel data augmentation strategy employed during the continue pre-training phase, designed to efficiently enable LLMs to gain long-context capabilities without the need to modify the existing data mixture. In particular, we chunk the documents, shuffle the chunks, and create a complex and knotted structure of long texts; LLMs are then trained to untie these knots and identify relevant segments within seemingly chaotic token sequences. This approach greatly improves the model's performance by accurately attending to relevant information in long context and the training efficiency is also largely increased. We conduct extensive experiments on models with 7B and 72B parameters, trained on 20 billion tokens, demonstrating that UtK achieves 75\% and 84.5\% accurracy on RULER at 128K context length, significantly outperforming other long context strategies. The trained models will open-source for further research.
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# 大規模環境におけるタスクプランニングのためのLCM, グラフ, オブジェクト階層の活用

Leveraging LLMs, Graphs and Object Hierarchies for Task Planning in Large-Scale Environments ( http://arxiv.org/abs/2409.04775v1 )

ライセンス: Link先を確認
Rodrigo Pérez-Dattari, Zhaoting Li, Robert Babuška, Jens Kober, Cosimo Della Santina, (参考訳) 大規模環境におけるタスクレベルの問題の解法において,計画手法は計算的難解性に苦慮する。 この研究は、LLMに符号化されたコモンセンス知識を活用して、これらの複雑なシナリオに対処するための計画手法を強化する。 計画問題の状態空間から無関係成分を抽出するためにLLMを効率よく利用し、その複雑さを大幅に単純化する。 7-DoFマニピュレータ(video https://youtu.be/6ro2UOtOQS4。

Planning methods struggle with computational intractability in solving task-level problems in large-scale environments. This work explores leveraging the commonsense knowledge encoded in LLMs to empower planning techniques to deal with these complex scenarios. We achieve this by efficiently using LLMs to prune irrelevant components from the planning problem's state space, substantially simplifying its complexity. We demonstrate the efficacy of this system through extensive experiments within a household simulation environment, alongside real-world validation using a 7-DoF manipulator (video https://youtu.be/6ro2UOtOQS4).
翻訳日:2024-09-10 20:51:37 公開日:2024-09-07
# 大規模言語モデルに対する最適化ハイパーパラメータ法則

Optimization Hyper-parameter Laws for Large Language Models ( http://arxiv.org/abs/2409.04777v1 )

ライセンス: Link先を確認
Xingyu Xie, Kuangyu Ding, Shuicheng Yan, Kim-Chuan Toh, Tianwen Wei, (参考訳) 大規模言語モデルは、AIの大幅な進歩を推進してきたが、そのトレーニングはリソース集約的で、ハイパーパラメータの選択に非常に敏感である。 スケーリング法則は、モデルのサイズとデータ要件に関する貴重なガイダンスを提供するが、トレーニング中に進化する学習速度(LR)スケジュールのような動的ハイパーパラメータの選択には不足している。 このギャップを埋めるために、最適化ハイパーパラメータ法(Opt-Laws)を提案する。これは、ハイパーパラメータとトレーニング結果の関係を効果的に把握し、潜在的に最適なスケジュールの選択を可能にするフレームワークである。 確率微分方程式に基づいて、Opt-Lawsは、新しい数学的解釈可能性を導入し、いくつかの人気LRスケジュールに対する堅牢な理論的基盤を提供する。 様々なモデルサイズとデータスケールにわたる広範な検証は、トレーニング損失を正確に予測し、トレーニング前、継続トレーニング、微調整シナリオにおいて最適なLRスケジュール候補を特定できるOpt-Lawsの能力を示している。 このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。

Large Language Models have driven significant AI advancements, yet their training is resource-intensive and highly sensitive to hyper-parameter selection. While scaling laws provide valuable guidance on model size and data requirements, they fall short in choosing dynamic hyper-parameters, such as learning-rate (LR) schedules, that evolve during training. To bridge this gap, we present Optimization Hyper-parameter Laws (Opt-Laws), a framework that effectively captures the relationship between hyper-parameters and training outcomes, enabling the pre-selection of potential optimal schedules. Grounded in stochastic differential equations, Opt-Laws introduce novel mathematical interpretability and offer a robust theoretical foundation for some popular LR schedules. Our extensive validation across diverse model sizes and data scales demonstrates Opt-Laws' ability to accurately predict training loss and identify optimal LR schedule candidates in pre-training, continual training, and fine-tuning scenarios. This approach significantly reduces computational costs while enhancing overall model performance.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# LoCa: 知識蒸留のためのログ校正

LoCa: Logit Calibration for Knowledge Distillation ( http://arxiv.org/abs/2409.04778v1 )

ライセンス: Link先を確認
Runming Yang, Taiqiang Wu, Yujiu Yang, (参考訳) 教師モデルに模倣してより良い学生モデルを訓練することを目的とした知識蒸留(KD)は,モデル圧縮において重要な役割を担っている。 典型的な方法は出力のロジットを調整することである。 しかし,教師のロジットに基づく予測がラベルに従わなければ,学生は誤解される。 一方、蒸留に欠かせない分類可能性など、ロジットに有用な暗黒の知識がある。 本稿では,教師モデルからロジットを校正する簡易かつ効果的なロジット校正法を提案する。 重要な洞察は、予測(誤った指示の問題に対処する)を修正し、有用な暗黒知識を同時に維持することである。 提案したLoCaは追加のパラメータを必要としない。 画像分類とテキスト生成タスクに関する実証結果は,LoCaがベースラインの性能を効果的に向上できることを示す。

Knowledge Distillation (KD), aiming to train a better student model by mimicking the teacher model, plays an important role in model compression. One typical way is to align the output logits. However, we find a common issue named mis-instruction, that the student would be misled when the predictions based on teacher logits do not follow the labels. Meanwhile, there is other useful dark knowledge in the logits such as the class discriminability, which is vital for distillation. In this paper, we propose a simple yet effective Logit Calibration (LoCa) method, which calibrates the logits from the teacher model based on the ground-truth labels. The key insight is to correct the prediction (to address the mis-instruction issue) and maintain useful dark knowledge simultaneously. Our proposed LoCa does not require any additional parameters. Empirical results on image classification and text generation tasks demonstrate that LoCa can effectively improve the performance of baselines.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# 特異摂動微分方程式に対する成分フーリエニューラル演算子

Component Fourier Neural Operator for Singularly Perturbed Differential Equations ( http://arxiv.org/abs/2409.04779v1 )

ライセンス: Link先を確認
Ye Li, Ting Du, Yiwen Pang, Zhongyi Huang, (参考訳) Singularly Perturbed Differential Equations (SPDE) の解法は、薄い領域における解の急激な遷移に起因する計算上の問題を引き起こす。 微分方程式に対処する深層学習の有効性は,これらの手法をSPDEの解法として活用する動機となっている。 本稿では,FNO(Fourier Neural Operator)に基づく革新的な演算子学習手法であるComFNOを紹介し,同時に漸近解析から得られた貴重な事前知識を取り入れた。 私たちのアプローチはFNOに限らず、Deep Operator Network(DeepONet)など他のニューラルネットワークフレームワークにも適用可能です。 各種SPDEを対象とした実験結果から,ComFNOはバニラFNOに比べて精度が有意に向上することが示された。 さらに,ComFNOは多種多様なデータ分布に対する自然な適応性を示し,実際の状況において優れた一般化能力を示している。

Solving Singularly Perturbed Differential Equations (SPDEs) poses computational challenges arising from the rapid transitions in their solutions within thin regions. The effectiveness of deep learning in addressing differential equations motivates us to employ these methods for solving SPDEs. In this manuscript, we introduce Component Fourier Neural Operator (ComFNO), an innovative operator learning method that builds upon Fourier Neural Operator (FNO), while simultaneously incorporating valuable prior knowledge obtained from asymptotic analysis. Our approach is not limited to FNO and can be applied to other neural network frameworks, such as Deep Operator Network (DeepONet), leading to potential similar SPDEs solvers. Experimental results across diverse classes of SPDEs demonstrate that ComFNO significantly improves accuracy compared to vanilla FNO. Furthermore, ComFNO exhibits natural adaptability to diverse data distributions and performs well in few-shot scenarios, showcasing its excellent generalization ability in practical situations.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# Selective Self-Rehearsal:大規模言語モデルにおける一般化改善のための微調整アプローチ

Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models ( http://arxiv.org/abs/2409.04787v1 )

ライセンス: Link先を確認
Sonam Gupta, Yatin Nandwani, Asaf Yehudai, Mayank Mishra, Gaurav Pandey, Dinesh Raghu, Sachindra Joshi, (参考訳) 特定のデータセット上での微調整大型言語モデル(LLM)は、ターゲットタスクのパフォーマンスを改善するための一般的なプラクティスである。 しかし、この性能向上はしばしば過度に適合し、そこではモデルがタスクやトレーニングデータの特徴に過度に特化し、一般化が失われる。 本稿では、SSR(Selective Self-Rehearsal)を提案する。これは、一般化を改善しつつ、標準教師付き微調整(SFT)に匹敵する性能を実現するための微調整手法である。 SSRは、クエリに対して複数の有効な応答が可能であるという事実を活用する。 モデルの正しい応答を利用することで、SSRは微調整段階におけるモデルの特殊化を減らす。 SSRはまず、適切なLCMを審査員として配置することで、トレーニングセットから正しいモデル応答を識別する。 そして、モデルに正しいモデル応答と、残りのサンプルに対するゴールド応答を用いて、モデルを微調整する。 SSRの有効性は、様々なデータセットにまたがる解決不可能なクエリを識別するタスクに関する実験を通じて実証される。 その結果、標準SFTはMMLUやTruthfulQAといった複数のベンチマークで平均性能が16.7 %まで低下する可能性が示唆された。 対照的に、SSR は平均で 2 % 近く下落し、標準 SFT よりも優れた一般化能力を示している。

Fine-tuning Large Language Models (LLMs) on specific datasets is a common practice to improve performance on target tasks. However, this performance gain often leads to overfitting, where the model becomes too specialized in either the task or the characteristics of the training data, resulting in a loss of generalization. This paper introduces Selective Self-Rehearsal (SSR), a fine-tuning approach that achieves performance comparable to the standard supervised fine-tuning (SFT) while improving generalization. SSR leverages the fact that there can be multiple valid responses to a query. By utilizing the model's correct responses, SSR reduces model specialization during the fine-tuning stage. SSR first identifies the correct model responses from the training set by deploying an appropriate LLM as a judge. Then, it fine-tunes the model using the correct model responses and the gold response for the remaining samples. The effectiveness of SSR is demonstrated through experiments on the task of identifying unanswerable queries across various datasets. The results show that standard SFT can lead to an average performance drop of up to $16.7\%$ on multiple benchmarks, such as MMLU and TruthfulQA. In contrast, SSR results in close to $2\%$ drop on average, indicating better generalization capabilities compared to standard SFT.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# forester: RのツリーベースのAutoMLツール

forester: A Tree-Based AutoML Tool in R ( http://arxiv.org/abs/2409.04789v1 )

ライセンス: Link先を確認
Hubert Ruczyński, Anna Kozak, (参考訳) 自動機械学習(AutoML)ソリューションの大部分はPythonで開発されているが、データサイエンティストの大部分がR言語に関連付けられている。 残念ながら、R の解は限られている。 さらに、高いエントリーレベルは、機械学習(ML)に関する必要な知識のため、誰でもアクセスできないことを意味する。 このギャップを埋めるために,機械学習の領域におけるユーザの習熟度に関わらず,使い易いフォスターパッケージを提案する。 Foresterは、Rで実装されたオープンソースのAutoMLパッケージで、テーブルデータ上で高品質なツリーベースのモデルをトレーニングするために設計されている。 バイナリとマルチクラスの分類、回帰、部分生存分析タスクを完全にサポートする。 データ品質に関する問題を検出し、前処理パイプラインを準備し、ツリーベースのモデルのトレーニングとチューニングを行い、結果を評価し、さらなる分析のためにレポートを作成することができる。

The majority of automated machine learning (AutoML) solutions are developed in Python, however a large percentage of data scientists are associated with the R language. Unfortunately, there are limited R solutions available. Moreover high entry level means they are not accessible to everyone, due to required knowledge about machine learning (ML). To fill this gap, we present the forester package, which offers ease of use regardless of the user's proficiency in the area of machine learning. The forester is an open-source AutoML package implemented in R designed for training high-quality tree-based models on tabular data. It fully supports binary and multiclass classification, regression, and partially survival analysis tasks. With just a few functions, the user is capable of detecting issues regarding the data quality, preparing the preprocessing pipeline, training and tuning tree-based models, evaluating the results, and creating the report for further analysis.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# 価値と政策チャーンによる連鎖効果の低減による深層強化学習の改善

Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn ( http://arxiv.org/abs/2409.04792v1 )

ライセンス: Link先を確認
Hongyao Tang, Glen Berseth, (参考訳) ディープニューラルネットワークは、大規模な意思決定問題に対処するために強化学習(RL)強力な関数近似器を提供する。 しかし、これらの近似器は、RLトレーニングの非定常性に起因する課題を提起する。 RLの課題の1つは、出力予測が小さくなり、バッチに含まれない状態に対する各バッチ更新後の制御不能な変更につながることである。 このようなチャーン現象は、ネットワークトレーニングの各段階に存在するが、チャーンがどのように発生し、RLが過小評価されている。 本研究では,関数近似による一般化政策反復の観点でチャーンを特徴付けることから始め,チャーンが価値推定と政策改善複合のチャーンに結びつく連鎖効果を発見し,反復を通して学習ダイナミクスをバイアスする。 さらに,本研究は,価値に基づく手法における欲求行動偏差,親密な政策最適化における信頼領域違反,アクター批判的手法におけるポリシー値の二重バイアスなど,異なる設定における連鎖効果に起因する学習課題に着目する。 そこで我々はChurn Approximated ReductIoN (CHAIN) と呼ばれる,既存のDRLアルゴリズムに簡単に接続可能なチェーン効果の低減手法を提案する。 本実験では,オンライン,オフライン,バリューベース,ポリシーベースのRL設定,スケーリング設定の両面において,チャーン低減と学習性能の向上を両立させる手法の有効性を実証した。

Deep neural networks provide Reinforcement Learning (RL) powerful function approximators to address large-scale decision-making problems. However, these approximators introduce challenges due to the non-stationary nature of RL training. One source of the challenges in RL is that output predictions can churn, leading to uncontrolled changes after each batch update for states not included in the batch. Although such a churn phenomenon exists in each step of network training, how churn occurs and impacts RL remains under-explored. In this work, we start by characterizing churn in a view of Generalized Policy Iteration with function approximation, and we discover a chain effect of churn that leads to a cycle where the churns in value estimation and policy improvement compound and bias the learning dynamics throughout the iteration. Further, we concretize the study and focus on the learning issues caused by the chain effect in different settings, including greedy action deviation in value-based methods, trust region violation in proximal policy optimization, and dual bias of policy value in actor-critic methods. We then propose a method to reduce the chain effect across different settings, called Churn Approximated ReductIoN (CHAIN), which can be easily plugged into most existing DRL algorithms. Our experiments demonstrate the effectiveness of our method in both reducing churn and improving learning performance across online and offline, value-based and policy-based RL settings, as well as a scaling setting.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# アクションは主要な鍵:エピソード記述と論理的推論のための分類的枠組み

Action is the primary key: a categorical framework for episode description and logical reasoning ( http://arxiv.org/abs/2409.04793v1 )

ライセンス: Link先を確認
Yoshiki Fukada, (参考訳) 本研究では,エピソードを記述・認識し,論理的推論を行うための計算フレームワークを提案する。 このフレームワークは認知ログと呼ばれ、リレーショナルデータベースとグラフデータベースからなる。 認知ログは、特に自然言語の動詞で表現される「行動」と、その行動を実行する「参加者」からなるエピソードにおいて、知識を記録する。 これらのオブジェクトは矢印(射)によって接続され、各アクションを参加者にリンクし、効果をもたらす原因をリンクする。 カテゴリー理論に基づく操作は、物語の抽象化を含む演目と演目推論の比較を可能にする。 本研究の目的は,データベース駆動型人工知能の開発である。 この人工知能は人間のように考えるが、機械の正確さと厳密さを持っている。 データベースの膨大な容量(現在の技術ではペタバイト規模まで)により、人工知能は、ニューラルネットワークベースの人工知能よりも大量の知識を格納できる。 認知ログは人間の認知のモデルとして機能し、認知言語学を参照して設計される。 認知ログはまた、様々な人間の心活動をモデル化する可能性がある。

This research presents a computational framework for describing and recognizing episodes and for logical reasoning. This framework, named cognitive-logs, consists of a set of relational and graph databases. Cognitive-logs record knowledge, particularly in episodes that consist of "actions" represented by verbs in natural languages and "participants" who perform the actions. These objects are connected by arrows (morphisms) that link each action to its participant and link cause to effect. Operations based on category theory enable comparisons between episodes and deductive inferences, including abstractions of stories. One of the goals of this study is to develop a database-driven artificial intelligence. This artificial intelligence thinks like a human but possesses the accuracy and rigour of a machine. The vast capacities of databases (up to petabyte scales in current technologies) enable the artificial intelligence to store a greater volume of knowledge than neural-network based artificial intelligences. Cognitive-logs serve as a model of human cognition and designed with references to cognitive linguistics. Cognitive-logs also have the potential to model various human mind activities.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# ワンタイムバリデーションを超えて:AIベースの医療機器の適応的バリデーションのためのフレームワーク

Beyond One-Time Validation: A Framework for Adaptive Validation of Prognostic and Diagnostic AI-based Medical Devices ( http://arxiv.org/abs/2409.04794v1 )

ライセンス: Link先を確認
Florian Hellmeier, Kay Brosien, Carsten Eickhoff, Alexander Meyer, (参考訳) 予後と診断のためのAIベースの医療機器は、医療を進歩させる大きな可能性を秘めているが、彼らの急速な開発は適切なバリデーション方法の確立を上回っている。 既存のアプローチは、これらのデバイスを実際にデプロイし、実世界の環境で効果的で継続的な運用を保証するという複雑さに対処するに足りていないことが多い。 医学におけるAIモデルの検証と、他の分野における検証プラクティスからの抽出に関する最近の議論に基づいて、このギャップに対処するためのフレームワークを提示する。 これは、異なる臨床環境におけるデバイスの信頼性を保証するための、構造化された堅牢な検証アプローチを提供する。 デプロイメント時のデバイスパフォーマンスに関する主な課題は、個々の医療機関や運用プロセスに関連する変更の影響を強調しながら、議論される。 提示されたフレームワークは、デバイス開発において予期せぬ課題に適応しつつ、これらの問題を緩和することを目的として、デプロイメント中に検証と微調整を繰り返すことの重要性を強調している。 このフレームワークは、現在の米国とEUの規制の状況にも位置づけられており、規制要件を考慮して、その実用性と関連性を強調している。 さらに、フレームワークの潜在的な利点を示す実践的な例を示す。 最後に、モデルの性能評価に関するガイダンスを提供し、臨床ステークホルダーがバリデーションと微調整プロセスに関与することの重要性について論じる。

Prognostic and diagnostic AI-based medical devices hold immense promise for advancing healthcare, yet their rapid development has outpaced the establishment of appropriate validation methods. Existing approaches often fall short in addressing the complexity of practically deploying these devices and ensuring their effective, continued operation in real-world settings. Building on recent discussions around the validation of AI models in medicine and drawing from validation practices in other fields, a framework to address this gap is presented. It offers a structured, robust approach to validation that helps ensure device reliability across differing clinical environments. The primary challenges to device performance upon deployment are discussed while highlighting the impact of changes related to individual healthcare institutions and operational processes. The presented framework emphasizes the importance of repeating validation and fine-tuning during deployment, aiming to mitigate these issues while being adaptable to challenges unforeseen during device development. The framework is also positioned within the current US and EU regulatory landscapes, underscoring its practical viability and relevance considering regulatory requirements. Additionally, a practical example demonstrating potential benefits of the framework is presented. Lastly, guidance on assessing model performance is offered and the importance of involving clinical stakeholders in the validation and fine-tuning process is discussed.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# ニューラルネットワークによる自動評価スコーリングにおけるバイアス緩和のためのフレーズレベル逆行訓練

Phrase-Level Adversarial Training for Mitigating Bias in Neural Network-based Automatic Essay Scoring ( http://arxiv.org/abs/2409.04795v1 )

ライセンス: Link先を確認
Haddad Philip, Tsegaye Misikir Tashu, (参考訳) AES(Automatic Essay Scoring)は、教育目的の候補者を評価するために広く用いられている。 しかし、代表データがないため、既存のAESシステムの多くは堅牢ではなく、それらのスコアリング予測は最も表現されたデータサンプルに偏っている。 本研究では,AESモデルのバイアスとロバスト性に対処する逆エッセイセットを生成するための,モデルに依存しないフレーズレベル手法を提案する。 具体的には,本手法を用いて,元のテストセットと逆向きに生成されたサンプルからなる攻撃テストセットを構築した。 攻撃戦略とデータ拡張の有効性を評価するため,様々なニューラルネットワークスコアリングモデルを用いて包括的解析を行った。 実験結果から,このような攻撃を伴わない逆例やシナリオの存在下で,提案手法はAESモデルの性能を著しく向上することが示された。

Automatic Essay Scoring (AES) is widely used to evaluate candidates for educational purposes. However, due to the lack of representative data, most existing AES systems are not robust, and their scoring predictions are biased towards the most represented data samples. In this study, we propose a model-agnostic phrase-level method to generate an adversarial essay set to address the biases and robustness of AES models. Specifically, we construct an attack test set comprising samples from the original test set and adversarially generated samples using our proposed method. To evaluate the effectiveness of the attack strategy and data augmentation, we conducted a comprehensive analysis utilizing various neural network scoring models. Experimental results show that the proposed approach significantly improves AES model performance in the presence of adversarial examples and scenarios without such attacks.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# 拡張型局所プロンプトを用いたFew-Shot Out-of-Distribution Detectionにおけるアウトリーチ知識の強化

Enhancing Outlier Knowledge for Few-Shot Out-of-Distribution Detection with Extensible Local Prompts ( http://arxiv.org/abs/2409.04796v1 )

ライセンス: Link先を確認
Fanhu Zeng, Zhen Cheng, Fei Zhu, Xu-Yao Zhang, (参考訳) オフ・オブ・ディストリビューション(OOD)検出は、既知のカテゴリとアウトリーチを区別することを目的としており、現実的なシナリオで注目されている。 近年,視覚言語モデル (VLM) の出現により,数ショットチューニングによるVLMのOOD検出向上への関心が高まっている。 しかし、既存の手法は主にグローバルなプロンプトの最適化に重点を置いており、アウトリーチに関するローカル情報の洗練された利用を無視している。 そこで我々は,グローバルなプロンプトを凍結し,局所的なプロンプトによる地域強化を強調するために,新しい粗大なチューニングパラダイムを導入する。 提案手法は,大域的プロンプト誘導陰性増大と局所的プロンプト強化地域正規化の2つの積分成分からなる。 前者は、凍った粗いグローバルプロンプトを、負の増強を組み込むための手がかりとして利用し、それによって局所的な外れ値の知識を活用する。 後者は、訓練可能なローカルプロンプトと、ローカル情報を効果的にキャプチャするための地域正規化を採用し、オフレイア識別を支援する。 また,OOD検出の強化を図るため,地域関連指標を提案する。 さらに,本手法では局所的なプロンプトのみの強化が検討されているため,推論中に訓練されたグローバルなプロンプトとシームレスに統合して性能を向上させることができる。 総合的な実験により,本手法の有効性と可能性を実証した。 特に,提案手法は,ImageNet-1kデータセットに挑戦する4ショットチューニングにおいて,平均FPR95を5.17%削減する。

Out-of-Distribution (OOD) detection, aiming to distinguish outliers from known categories, has gained prominence in practical scenarios. Recently, the advent of vision-language models (VLM) has heightened interest in enhancing OOD detection for VLM through few-shot tuning. However, existing methods mainly focus on optimizing global prompts, ignoring refined utilization of local information with regard to outliers. Motivated by this, we freeze global prompts and introduce a novel coarse-to-fine tuning paradigm to emphasize regional enhancement with local prompts. Our method comprises two integral components: global prompt guided negative augmentation and local prompt enhanced regional regularization. The former utilizes frozen, coarse global prompts as guiding cues to incorporate negative augmentation, thereby leveraging local outlier knowledge. The latter employs trainable local prompts and a regional regularization to capture local information effectively, aiding in outlier identification. We also propose regional-related metric to empower the enrichment of OOD detection. Moreover, since our approach explores enhancing local prompts only, it can be seamlessly integrated with trained global prompts during inference to boost the performance. Comprehensive experiments demonstrate the effectiveness and potential of our method. Notably, our method reduces average FPR95 by 5.17% against state-of-the-art method in 4-shot tuning on challenging ImageNet-1k dataset, even outperforming 16-shot results of previous methods.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# SpotActor: トレーニング不要のレイアウト整合画像生成

SpotActor: Training-Free Layout-Controlled Consistent Image Generation ( http://arxiv.org/abs/2409.04801v1 )

ライセンス: Link先を確認
Jiahao Wang, Caixia Yan, Weizhan Zhang, Haonan Lin, Mengmeng Wang, Guang Dai, Tieliang Gong, Hao Sun, Jingdong Wang, (参考訳) テキストと画像の拡散モデルは、高忠実度画像生成による芸術的創造の効率を著しく向上させる。 しかし、コミックブック制作のような典型的な応用シナリオでは、各主題を期待される場所に配置することも、各主題のイメージ全体に対する一貫した外観を維持することもできない。 これらの問題に対して、レイアウト条件やテキストプロンプトに応じて一貫した合成画像を生成する新しいタスク、Layout-to-Consistent-Image (L2CI) 生成を考案した。 この課題を達成するために,二元的セマンティックラテント空間における最適化による二元的エネルギー誘導の新たな形式化を提案し,レイアウト条件付き後方更新ステージと一貫した前方サンプリングステージを備えたトレーニング不要パイプラインであるSpotActorを提案する。 後方の段階では、シグモイドのような目的によって注意活性化を模倣するニュアンス配置エネルギー関数を革新する。 前段階においては、画像間の相互通信を可能にする領域相互接続自己認識(RISA)と意味融合相互認識(SFCA)機構を設計する。 ActorBenchは、オブジェクト検出データセットから派生した何百もの適切なプロンプトボックスペアを持つ特定のベンチマークである。 本手法の有効性を示すための総合的な実験を行った。 その結果、SpotActorはこのタスクの期待を達成し、より優れたレイアウトアライメント、主題の整合性、迅速な整合性、背景の多様性を持つ実用的なアプリケーションの可能性を示した。

Text-to-image diffusion models significantly enhance the efficiency of artistic creation with high-fidelity image generation. However, in typical application scenarios like comic book production, they can neither place each subject into its expected spot nor maintain the consistent appearance of each subject across images. For these issues, we pioneer a novel task, Layout-to-Consistent-Image (L2CI) generation, which produces consistent and compositional images in accordance with the given layout conditions and text prompts. To accomplish this challenging task, we present a new formalization of dual energy guidance with optimization in a dual semantic-latent space and thus propose a training-free pipeline, SpotActor, which features a layout-conditioned backward update stage and a consistent forward sampling stage. In the backward stage, we innovate a nuanced layout energy function to mimic the attention activations with a sigmoid-like objective. While in the forward stage, we design Regional Interconnection Self-Attention (RISA) and Semantic Fusion Cross-Attention (SFCA) mechanisms that allow mutual interactions across images. To evaluate the performance, we present ActorBench, a specified benchmark with hundreds of reasonable prompt-box pairs stemming from object detection datasets. Comprehensive experiments are conducted to demonstrate the effectiveness of our method. The results prove that SpotActor fulfills the expectations of this task and showcases the potential for practical applications with superior layout alignment, subject consistency, prompt conformity and background diversity.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# HULLMI:人間とLLMの識別と説明可能性

HULLMI: Human vs LLM identification with explainability ( http://arxiv.org/abs/2409.04808v1 )

ライセンス: Link先を確認
Prathamesh Dinesh Joshi, Sahil Pocker, Raj Abhijit Dandekar, Rajat Dandekar, Sreedath Panat, (参考訳) LLMが人間的な反応を生み出すのに習熟するにつれて、あるテキストを「人間」または「AI」とフラグ付けすることに特化した学術的・産業的な追求が盛んに行われている。 これらの追尾のほとんどは、T5-SentinelやRoBERTa-Sentinelのような現代のNLP検出器を含んでおり、これらのモデルの解釈可能性や説明可能性の問題にあまり注意を払わない。 本研究では,従来のMLモデル(Naive-Bayes,MLP,Random Forests,XGBoost)が,人間とAIのテキスト検出において,現代のNLP検出と同様に機能することを示す包括的分析を行った。 我々は、キュレートされたコーパスや実世界のサンプルを含む多様なデータセットに対して、堅牢なテスト手順を実装することで、これを実現する。 その後、説明可能なAI技術であるLIMEを用いて、各モデルの予測に最も寄与する入力の一部を発見し、検出プロセスに関する洞察を提供する。 本研究は, 従来型, 近代型NLP検出器の活用が可能な, 生産レベルのLCM検出ツールの開発の必要性の高まりに寄与する。 最後に、我々が実証したLIME技術は、これらの検出ツールに解釈可能性分析機能を持たせる可能性があり、教育、医療、メディアといった様々な分野において信頼性と信頼性を高めることができる。

As LLMs become increasingly proficient at producing human-like responses, there has been a rise of academic and industrial pursuits dedicated to flagging a given piece of text as "human" or "AI". Most of these pursuits involve modern NLP detectors like T5-Sentinel and RoBERTa-Sentinel, without paying too much attention to issues of interpretability and explainability of these models. In our study, we provide a comprehensive analysis that shows that traditional ML models (Naive-Bayes,MLP, Random Forests, XGBoost) perform as well as modern NLP detectors, in human vs AI text detection. We achieve this by implementing a robust testing procedure on diverse datasets, including curated corpora and real-world samples. Subsequently, by employing the explainable AI technique LIME, we uncover parts of the input that contribute most to the prediction of each model, providing insights into the detection process. Our study contributes to the growing need for developing production-level LLM detection tools, which can leverage a wide range of traditional as well as modern NLP detectors we propose. Finally, the LIME techniques we demonstrate also have the potential to equip these detection tools with interpretability analysis features, making them more reliable and trustworthy in various domains like education, healthcare, and media.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# 逆気象下における電力線空中画像復元:データセットとベースライン

Power Line Aerial Image Restoration under dverse Weather: Datasets and Baselines ( http://arxiv.org/abs/2409.04812v1 )

ライセンス: Link先を確認
Sai Yang, Bin Hu, Bojun Zhou, Fan Liu, Xiaoxin Wu, Xinsong Zhang, Juping Gu, Jun Zhou, (参考訳) 電力線自律検査(PLAI)は、低コスト、高効率、安全運転の大きな利点のために、スマートグリッドの構築において重要な役割を担っている。 PLAIは無人航空機(UAV)が捉えた空中画像の電気成分と欠陥を正確に検出することで完成する。 しかし, 風や雨, 雪などの悪天候により, 航空画像の視認性は必然的に劣化し, 検出精度が大幅に低下することが判明した。 そこで本稿では,悪天候の劣化画像からクリーンで高品質な画像を回収し,PLAIの検出性能を向上させることを目的とした,電力線航空画像復元(PLAIR-AW)の新たな課題を提案する。 本研究では, 電力線空中画像デハジング用HazeCPLID, HazeTTPLA, HazeInsPLAD, RainCPLID, RainTTPLA, RainInsPLAD, 電力線空中画像デハジング用RainInsPLAD, SnowCPLID, SnowInsPLAD, 電力線空中画像デハジング用SnowInsPLAD, CPLID, TTPLA, InsPLADの一般電源線空中画像データセットを数学的モデルに従って合成した。 一方,PLAIR-AWのベースライン手法として,画像修復コミュニティから最先端の手法を多数選択した。 最後に,提案したデータセット上でのベースライン手法の性能を評価するため,大規模実験を行った。 提案されたデータセットとトレーニングされたモデルは、https://github.com/ntuhubin/PLAIR-AWで公開されている。

Power Line Autonomous Inspection (PLAI) plays a crucial role in the construction of smart grids due to its great advantages of low cost, high efficiency, and safe operation. PLAI is completed by accurately detecting the electrical components and defects in the aerial images captured by Unmanned Aerial Vehicles (UAVs). However, the visible quality of aerial images is inevitably degraded by adverse weather like haze, rain, or snow, which are found to drastically decrease the detection accuracy in our research. To circumvent this problem, we propose a new task of Power Line Aerial Image Restoration under Adverse Weather (PLAIR-AW), which aims to recover clean and high-quality images from degraded images with bad weather thus improving detection performance for PLAI. In this context, we are the first to release numerous corresponding datasets, namely, HazeCPLID, HazeTTPLA, HazeInsPLAD for power line aerial image dehazing, RainCPLID, RainTTPLA, RainInsPLAD for power line aerial image deraining, SnowCPLID, SnowInsPLAD for power line aerial image desnowing, which are synthesized upon the public power line aerial image datasets of CPLID, TTPLA, InsPLAD following the mathematical models. Meanwhile, we select numerous state-of-the-art methods from image restoration community as the baseline methods for PLAIR-AW. At last, we conduct large-scale empirical experiments to evaluate the performance of baseline methods on the proposed datasets. The proposed datasets and trained models are available at https://github.com/ntuhubin/PLAIR-AW.
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# スペクトルグラフ畳み込みネットワークにおける係数の一般化学習

Generalized Learning of Coefficients in Spectral Graph Convolutional Networks ( http://arxiv.org/abs/2409.04813v1 )

ライセンス: Link先を確認
Mustafa Coşkun, Ananth Grama, Mehmet Koyutürk, (参考訳) スペクトルグラフ畳み込みネットワーク(GCN)は、部分的にはネットワーク伝搬規則の仕様の柔軟性のために、グラフ機械学習アプリケーションで人気を集めている。 これらの伝搬規則は、トレーニング中にラベル情報を用いて係数を学習する多項式フィルタとしてしばしば構成される。 学習された多項式フィルタとは対照的に、明示的なフィルタ関数はネットワークトポロジとネットワーク上のラベルの分布の関係を捉えるのに有用である。 どちらの手法も取り入れたアルゴリズムがいくつか提案されているが、フィルタ関数と多項式近似の関係は完全には解決されていない。 これは主に、フィルタ関数の多項式近似を導出するために解けなければならない線形系の不条件の性質に起因している。 この課題に対処するために、多項式で与えられたフィルタ関数を効率よく効果的に近似できるG-Arnoldi-GCNという統一アプローチとともに、新しいアルノルニ正規化に基づくアルゴリズムを提案する。 我々は,G-Arnoldi-GCNを,多様な位相特性を持つ10個のデータセットにまたがるマルチクラスノード分類の文脈で評価した。 実験の結果,G-Arnoldi-GCNは適切なフィルタ関数を用いる場合,常に最先端の手法よりも優れていた。 全体として、G-Arnoldi-GCNは、多様なフィルタ関数の明示的な設計と適用を可能にすることにより、グラフ機械学習における重要な新しい方向性を開く。 コードリンク:https://anonymous.4open.science/r/GArnoldi-GCN-F7E2/README.md

Spectral Graph Convolutional Networks (GCNs) have gained popularity in graph machine learning applications due, in part, to their flexibility in specification of network propagation rules. These propagation rules are often constructed as polynomial filters whose coefficients are learned using label information during training. In contrast to learned polynomial filters, explicit filter functions are useful in capturing relationships between network topology and distribution of labels across the network. A number of algorithms incorporating either approach have been proposed; however the relationship between filter functions and polynomial approximations is not fully resolved. This is largely due to the ill-conditioned nature of the linear systems that must be solved to derive polynomial approximations of filter functions. To address this challenge, we propose a novel Arnoldi orthonormalization-based algorithm, along with a unifying approach, called G-Arnoldi-GCN that can efficiently and effectively approximate a given filter function with a polynomial. We evaluate G-Arnoldi-GCN in the context of multi-class node classification across ten datasets with diverse topological characteristics. Our experiments show that G-Arnoldi-GCN consistently outperforms state-of-the-art methods when suitable filter functions are employed. Overall, G-Arnoldi-GCN opens important new directions in graph machine learning by enabling the explicit design and application of diverse filter functions. Code link: https://anonymous.4open.science/r/GArnoldi-GCN-F7E2/README.md
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# SSFam:Scribbleの監視対象検出ファミリー

SSFam: Scribble Supervised Salient Object Detection Family ( http://arxiv.org/abs/2409.04817v1 )

ライセンス: Link先を確認
Zhengyi Liu, Sheng Deng, Xinrui Wang, Linbo Wang, Xianyong Fang, Bin Tang, (参考訳) Scribble supervised Salient Object Detection (SSSOD) は、スパーススクリブルラベルの監督の下で、周囲からの魅力的な物体のセグメンテーション能力を構築する。 セグメンテーションを改善するために、深度と熱赤外モードは複雑なシーンにおけるRGBイメージの補足となる。 既存の手法では、RGB、RGB-Depth、RGB-Thermal、Visual-Depth-Thermalの画像入力のための様々な特徴抽出とマルチモーダル融合戦略を設計し、同様のモデル洪水を引き起こす。 最近提案されたSegment Anything Model (SAM) は、異常なセグメンテーションと迅速な対話能力を有するため、SSFamと呼ばれるSAMをベースとしたSSSODファミリーを提案し、異なるモダリティを組み合わせて入力する。 まず, 凍結したSAMエンコーダから抽出したモーダル非依存情報と協調して, より優れた特徴アンサンブルを実現するモーダル固有知識を実現するために, 異なるモーダル対応変調器を設計する。 第2に、シャムデコーダは、スクリブルプロンプトによるトレーニングと、より強力な復号能力のためのプロンプトのないテストのギャップを埋めるように調整される。 本モデルでは,異なるモードの組み合わせ間の顕著な性能を示し,最大レベルのスクリブル制御手法をリフレッシュし,完全教師付き手法に近い性能を示す。 https://github.com/liuzywen/SSFam

Scribble supervised salient object detection (SSSOD) constructs segmentation ability of attractive objects from surroundings under the supervision of sparse scribble labels. For the better segmentation, depth and thermal infrared modalities serve as the supplement to RGB images in the complex scenes. Existing methods specifically design various feature extraction and multi-modal fusion strategies for RGB, RGB-Depth, RGB-Thermal, and Visual-Depth-Thermal image input respectively, leading to similar model flood. As the recently proposed Segment Anything Model (SAM) possesses extraordinary segmentation and prompt interactive capability, we propose an SSSOD family based on SAM, named SSFam, for the combination input with different modalities. Firstly, different modal-aware modulators are designed to attain modal-specific knowledge which cooperates with modal-agnostic information extracted from the frozen SAM encoder for the better feature ensemble. Secondly, a siamese decoder is tailored to bridge the gap between the training with scribble prompt and the testing with no prompt for the stronger decoding ability. Our model demonstrates the remarkable performance among combinations of different modalities and refreshes the highest level of scribble supervised methods and comes close to the ones of fully supervised methods. https://github.com/liuzywen/SSFam
翻訳日:2024-09-10 20:41:31 公開日:2024-09-07
# Top-GAP: CNNにおけるサイズ優先順位の統合による解釈性、ロバスト性、バイアス軽減

Top-GAP: Integrating Size Priors in CNNs for more Interpretability, Robustness, and Bias Mitigation ( http://arxiv.org/abs/2409.04819v1 )

ライセンス: Link先を確認
Lars Nieradzik, Henrike Stephani, Janis Keuper, (参考訳) 本稿では,畳み込みニューラルネットワークの説明可能性と堅牢性を高める新しい正規化手法であるTop-GAPを紹介する。 学習した特徴表現の空間的サイズを制約することにより、ネットワークを最も健全な画像領域に集中させ、背景の影響を効果的に軽減する。 対向攻撃と有効受容場を用いて,Top-GAPは背景ではなく対象画素に注意を向けていることを示す。 これにより、解釈可能性と堅牢性が向上する。 CIFAR-10では、PGD $\epsilon=\frac{8}{255}$と20ドルの繰り返しで50%以上の堅牢な精度を実現し、元のクリーンな精度を維持した。 さらに,分布シフトに対して,最大5%の精度向上が見られた。 この手法は、GradCAMやRecipro-CAMのような手法と比較して、最大25%改良されたIOU(Intersection over Union)によって証明されるように、より正確なオブジェクトローカライゼーションをもたらす。

This paper introduces Top-GAP, a novel regularization technique that enhances the explainability and robustness of convolutional neural networks. By constraining the spatial size of the learned feature representation, our method forces the network to focus on the most salient image regions, effectively reducing background influence. Using adversarial attacks and the Effective Receptive Field, we show that Top-GAP directs more attention towards object pixels rather than the background. This leads to enhanced interpretability and robustness. We achieve over 50% robust accuracy on CIFAR-10 with PGD $\epsilon=\frac{8}{255}$ and $20$ iterations while maintaining the original clean accuracy. Furthermore, we see increases of up to 5% accuracy against distribution shifts. Our approach also yields more precise object localization, as evidenced by up to 25% improvement in Intersection over Union (IOU) compared to methods like GradCAM and Recipro-CAM.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# FreeAugment: 自由のあらゆる領域におけるデータ拡張検索

FreeAugment: Data Augmentation Search Across All Degrees of Freedom ( http://arxiv.org/abs/2409.04820v1 )

ライセンス: Link先を確認
Tom Bekor, Niv Nayman, Lihi Zelnik-Manor, (参考訳) データ拡張は、ニューラルネットワークの一般化能力を改善することで知られており、ディープラーニングの不可欠な部分となっている。 画像変換の最も効果的なセットはタスクとドメインによって異なるため、自動データ拡張検索は、最適な画像変換を手作業で見つける際の極端な負担を軽減することを目的としている。 しかし、現在の手法では、(1)適用すべき変換の数、(2)タイプ、(3)オーダー、(4)マグニチュードなど、すべての自由度を共同で最適化することはできない。 既存の多くの手法では、同じ変換を1回以上選択したり、2つの変換のみに限定したり、あるいは、抜本的または反復的にミオピックな方法で変換の数を探索するリスクがある。 当社のアプローチであるFreeAugmentは,完全微分可能な手法を用いて,全4次自由度を同時にグローバルに最適化する最初の方法である。 サンプリング中に冗長な繰り返しを控えて、効率よく変換の数と置換の確率分布を学習する。 実験により,任意の自由度を共同学習することで,様々な自然画像のベンチマークや,他の領域をまたがる最先端の成果が得られ,性能が大幅に向上することが示された。 Project page at https://tombekor.github.io/FreeAugment-web

Data augmentation has become an integral part of deep learning, as it is known to improve the generalization capabilities of neural networks. Since the most effective set of image transformations differs between tasks and domains, automatic data augmentation search aims to alleviate the extreme burden of manually finding the optimal image transformations. However, current methods are not able to jointly optimize all degrees of freedom: (1) the number of transformations to be applied, their (2) types, (3) order, and (4) magnitudes. Many existing methods risk picking the same transformation more than once, limit the search to two transformations only, or search for the number of transformations exhaustively or iteratively in a myopic manner. Our approach, FreeAugment, is the first to achieve global optimization of all four degrees of freedom simultaneously, using a fully differentiable method. It efficiently learns the number of transformations and a probability distribution over their permutations, inherently refraining from redundant repetition while sampling. Our experiments demonstrate that this joint learning of all degrees of freedom significantly improves performance, achieving state-of-the-art results on various natural image benchmarks and beyond across other domains. Project page at https://tombekor.github.io/FreeAugment-web
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# ストレートフォワードによる会話型レッドチームの構築

Exploring Straightforward Conversational Red-Teaming ( http://arxiv.org/abs/2409.04822v1 )

ライセンス: Link先を確認
George Kour, Naama Zwerdling, Marcel Zalmanovici, Ateret Anaby-Tavor, Ora Nova Fandina, Eitan Farchi, (参考訳) 大規模言語モデル(LLM)は、ビジネス対話システムでますます使われているが、セキュリティや倫理的リスクが生じる。 コンテキストがモデルの振る舞いに影響を与えるマルチターン会話は、望ましくない応答を生成するために利用される。 そこで,本研究では,攻撃者が目標のLLMから望ましくない出力を引き出すことを目標とし,単ターンと会話の両方のリピート戦略を比較し,即時リピートアプローチにおけるオフザシェルフ LLM の有効性を検討する。 私たちの実験では、レッドチームとしてのパフォーマンスに大きな影響を与える、さまざまな利用戦略に関する洞察を提供しています。 彼らは、オフザシェルフモデルは効果的なレッドトレーナーとして振る舞うことができ、過去の試みに基づいて攻撃戦略を調整することもできるが、その効果はアライメントを大きくして減少する、と提案している。

Large language models (LLMs) are increasingly used in business dialogue systems but they pose security and ethical risks. Multi-turn conversations, where context influences the model's behavior, can be exploited to produce undesired responses. In this paper, we examine the effectiveness of utilizing off-the-shelf LLMs in straightforward red-teaming approaches, where an attacker LLM aims to elicit undesired output from a target LLM, comparing both single-turn and conversational red-teaming tactics. Our experiments offer insights into various usage strategies that significantly affect their performance as red teamers. They suggest that off-the-shelf models can act as effective red teamers and even adjust their attack strategy based on past attempts, although their effectiveness decreases with greater alignment.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# OSSライセンスの大規模識別 - World of Codeを使用した包括的データセット

OSS License Identification at Scale: A Comprehensive Dataset Using World of Code ( http://arxiv.org/abs/2409.04824v1 )

ライセンス: Link先を確認
Mahmoud Jahanshahi, David Reid, Adam McDaniel, Audris Mockus, (参考訳) オープンソースソフトウェア(OSS)の普及により、ライセンス慣行の複雑な状況が生まれ、法的およびコンプライアンス目的において正確なライセンス識別が不可欠になっている。 本研究では,World of Code (WoC) インフラストラクチャを用いたOSSライセンスの包括的解析を行う。 我々は、ファイルパスに '`license'' を含む全ファイルをスキャンし、ロバストなテキストマッチングにWinnowingアルゴリズムを適用し、徹底的なアプローチを採用する。 提案手法は,数百万のOSSプロジェクト間で550万以上の異なるライセンスブロブを識別し,一致させ,詳細なP2Lマップを作成する。 我々は、階層化サンプリングと手動によるレビューによってアプローチの精度を検証し、最終的な精度は92.08%、精度は87.14%、リコールは95.45%、F1スコアは91.11%である。 この作業はOSSライセンスプラクティスの理解を深め、開発者、研究者、法律専門家に貴重なリソースを提供する。 今後の作業は、ライセンス検出の範囲を広げて、プロジェクトドキュメントにコードファイルとライセンスへの参照を含める予定である。

The proliferation of open source software (OSS) has led to a complex landscape of licensing practices, making accurate license identification crucial for legal and compliance purposes. This study presents a comprehensive analysis of OSS licenses using the World of Code (WoC) infrastructure. We employ an exhaustive approach, scanning all files containing ``license'' in their filepath, and apply the winnowing algorithm for robust text matching. Our method identifies and matches over 5.5 million distinct license blobs across millions of OSS projects, creating a detailed project-to-license (P2L) map. We verify the accuracy of our approach through stratified sampling and manual review, achieving a final accuracy of 92.08%, with precision of 87.14%, recall of 95.45%, and an F1 score of 91.11%. This work enhances the understanding of OSS licensing practices and provides a valuable resource for developers, researchers, and legal professionals. Future work will expand the scope of license detection to include code files and references to licenses in project documentation.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# 野生動物分類のためのメタデータ強化ディープニューラルネットワーク

Metadata augmented deep neural networks for wild animal classification ( http://arxiv.org/abs/2409.04825v1 )

ライセンス: Link先を確認
Aslak Tøn, Ammar Ahmed, Ali Shariq Imran, Mohib Ullah, R. Muhammad Atif Azad, (参考訳) カメラトラップ画像は、現代の野生動物の監視において重要な資産となり、研究者は野生動物の行動を観察し、調査することができるようになった。 既存の手法は分類のための画像データのみに頼っているが、最適な動物角度、照明、画像品質の場合に十分ではないかもしれない。 本研究では,特定のメタデータ(温度,位置,時間など)と画像データを組み合わせることにより,野生動物の分類を向上する手法を提案する。 ノルウェーの気候に焦点を当てたデータセットを用いて、我々のモデルは既存の手法と比較して98.4%から98.9%の精度向上を示した。 また,メタデータのみの分類でも高い精度を実現し,画像品質への依存を減らす可能性を強調した。 この研究は、野生生物の分類技術を進化させる統合システムへの道を開いた。

Camera trap imagery has become an invaluable asset in contemporary wildlife surveillance, enabling researchers to observe and investigate the behaviors of wild animals. While existing methods rely solely on image data for classification, this may not suffice in cases of suboptimal animal angles, lighting, or image quality. This study introduces a novel approach that enhances wild animal classification by combining specific metadata (temperature, location, time, etc) with image data. Using a dataset focused on the Norwegian climate, our models show an accuracy increase from 98.4% to 98.9% compared to existing methods. Notably, our approach also achieves high accuracy with metadata-only classification, highlighting its potential to reduce reliance on image quality. This work paves the way for integrated systems that advance wildlife classification technology.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# POINTS: Affordable Strategiesで視覚言語モデルを改善する

POINTS: Improving Your Vision-language Model with Affordable Strategies ( http://arxiv.org/abs/2409.04828v1 )

ライセンス: Link先を確認
Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou, (参考訳) 近年、視覚言語モデルは、光学的文字認識や幾何学的問題解決といったタスクに優れ、大きな進歩を遂げている。 しかし、いくつかの重大な問題が残されている。 1) プロプライエタリモデルはアーキテクチャに関する透明性を欠いていることが多いが、オープンソースモデルはトレーニング戦略のより詳細な説明を必要としている。 2) オープンソースワークにおける事前トレーニングデータには,データセットを経験的に追加することで,プロセスが煩雑になる。 3) 微調整は、しばしばデータセットの追加に焦点を当て、リターンの減少につながる。 これらの問題に対処するため、以下の貢献を提案する。 1) 視覚言語モデルの最新の進歩を生かした頑健なベースラインモデルを訓練し, 効果的な改善を導入し, 各手法の総合的合理化と検証を行った。 2) 大規模言語モデルに関する最近の研究に触発されて, 難易度を用いて事前学習データをフィルタリングし, トレーニング用最下位の難易度データを選択する。 このアプローチによって、キュレートされた1Mデータセットのトレーニングが可能になり、競争力のあるパフォーマンスを実現しました。 3) 視覚的インストラクションチューニングでは,データセットの追加時に異なるデータセットにモデルスープを使用した結果,限界的な改善が得られた。 これらの革新により、9Bパラメータモデルが最先端のモデルと競合する結果となった。 私たちの戦略は効率的で軽量で、コミュニティで簡単に採用できます。

In recent years, vision-language models have made significant strides, excelling in tasks like optical character recognition and geometric problem-solving. However, several critical issues remain: 1) Proprietary models often lack transparency about their architectures, while open-source models need more detailed ablations of their training strategies. 2) Pre-training data in open-source works is under-explored, with datasets added empirically, making the process cumbersome. 3) Fine-tuning often focuses on adding datasets, leading to diminishing returns. To address these issues, we propose the following contributions: 1) We trained a robust baseline model using the latest advancements in vision-language models, introducing effective improvements and conducting comprehensive ablation and validation for each technique. 2) Inspired by recent work on large language models, we filtered pre-training data using perplexity, selecting the lowest perplexity data for training. This approach allowed us to train on a curated 1M dataset, achieving competitive performance. 3) During visual instruction tuning, we used model soup on different datasets when adding more datasets yielded marginal improvements. These innovations resulted in a 9B parameter model that performs competitively with state-of-the-art models. Our strategies are efficient and lightweight, making them easily adoptable by the community.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# NASH: 乗算生成ハイブリッドモデルのためのニューラルアーキテクチャとアクセラレータ探索

NASH: Neural Architecture and Accelerator Search for Multiplication-Reduced Hybrid Models ( http://arxiv.org/abs/2409.04829v1 )

ライセンス: Link先を確認
Yang Xu, Huihong Shi, Zhongfeng Wang, (参考訳) 乗算の大幅な計算コストは、エッジデバイスへのディープニューラルネットワーク(DNN)の展開を妨げる。 乗算不要のモデルではハードウェア効率が向上するが、通常は精度を犠牲にする。 解決策として、両方のアプローチの利点を組み合わせるために、乗算還元ハイブリッドモデルが出現した。 特に、NASAやNASA-Fといった先行研究では、ニューラルネットワークサーチ(NAS)を利用してハイブリッドモデルを構築し、精度を維持しながらハードウェア効率を向上させる。 しかし、それらはコストのかかる再訓練や勾配の衝突に遭遇し、探索効率と精度の両方を制限している。 さらに、アクセルサーチによってもたらされる加速の機会を見落とし、準最適ハードウェア性能を得る。 これらの制約を克服するために、乗算還元ハイブリッドモデルのためのニューラルアーキテクチャとアクセラレータ検索フレームワークであるNASHを提案する。 具体的には、NASについて、トレーニング前に有望なハイブリッドモデルを事前に同定し、勾配競合を緩和しながら探索効率を向上させるため、調整されたゼロショットメトリクスを提案する。 加速器探索については,探索プロセスの合理化を図った粗大な探索を革新的に導入する。 さらに,この2つの検索レベルをシームレスに統合してNASHを公開し,最適なモデルと加速器のペアリングを得る。 実験によって、最先端の乗算ベースのシステムと比較すると、$\uparrow$2.14\times$スループットと$\uparrow$2.01\times$FPS with $\uparrow$0.25\%$CIFAR-100、$\uparrow$1.40\times$スループットと$\uparrow$1.19\times$FPS with $\uparrow$0.56\%$Tiny-ImageNetが得られる。 コードは \url{https://github.com/xuyang527/NASH で公開されている。 ※

The significant computational cost of multiplications hinders the deployment of deep neural networks (DNNs) on edge devices. While multiplication-free models offer enhanced hardware efficiency, they typically sacrifice accuracy. As a solution, multiplication-reduced hybrid models have emerged to combine the benefits of both approaches. Particularly, prior works, i.e., NASA and NASA-F, leverage Neural Architecture Search (NAS) to construct such hybrid models, enhancing hardware efficiency while maintaining accuracy. However, they either entail costly retraining or encounter gradient conflicts, limiting both search efficiency and accuracy. Additionally, they overlook the acceleration opportunity introduced by accelerator search, yielding sub-optimal hardware performance. To overcome these limitations, we propose NASH, a Neural architecture and Accelerator Search framework for multiplication-reduced Hybrid models. Specifically, as for NAS, we propose a tailored zero-shot metric to pre-identify promising hybrid models before training, enhancing search efficiency while alleviating gradient conflicts. Regarding accelerator search, we innovatively introduce coarse-to-fine search to streamline the search process. Furthermore, we seamlessly integrate these two levels of searches to unveil NASH, obtaining the optimal model and accelerator pairing. Experiments validate our effectiveness, e.g., when compared with the state-of-the-art multiplication-based system, we can achieve $\uparrow$$2.14\times$ throughput and $\uparrow$$2.01\times$ FPS with $\uparrow$$0.25\%$ accuracy on CIFAR-100, and $\uparrow$$1.40\times$ throughput and $\uparrow$$1.19\times$ FPS with $\uparrow$$0.56\%$ accuracy on Tiny-ImageNet. Codes are available at \url{https://github.com/xuyang527/NASH.}
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# 依存性を超えて - オープンソースソフトウェア開発におけるコピーベースの再利用の役割

Beyond Dependencies: The Role of Copy-Based Reuse in Open Source Software Development ( http://arxiv.org/abs/2409.04830v1 )

ライセンス: Link先を確認
Mahmoud Jahanshahi, David Reid, Audris Mockus, (参考訳) オープンソースソフトウェアでは、依存関係を導入したり、リソース自体をコピーすることで、プロジェクトのリソースは再利用できる。 依存性ベースの再利用とは対照的に、コピーベースの再利用を体系的にサポートするインフラストラクチャは完全に欠落しているようだ。 我々の目標は、将来の研究とツール開発が効率を高め、コピーベースの再利用のリスクを低減することである。 我々は、その頻度を測定し、再利用の妥当性に影響を与える要因を特定することにより、そのような再利用をよりよく理解することを模索する。 再利用されたアーティファクトを識別し、その起源を辿るために、我々の手法はWorld of Codeのインフラを利用する。 まず、再利用の正当性に関する理論に基づく要因のセット、異なる再利用タイプのサンプルサンプル、開発者がその意図をよりよく理解するために調査することから始めます。 我々の結果は、コピーベースの再利用が一般的であることを示し、多くの開発者がコードを書いているときにそれを認識している。 再利用されるファイルの妥当性は言語やソースコードとバイナリファイルの間で大きく異なり、時間とともに一貫して低下している。 人気のあるプロジェクトで導入されたファイルは再利用される可能性が高いが、再利用されたリソースの少なくとも半分は ``small'' と ``medium'' プロジェクトに由来する。 再利用にはさまざまな理由があったが、パッケージマネージャの使用には概して肯定的だった。

In Open Source Software, resources of any project are open for reuse by introducing dependencies or copying the resource itself. In contrast to dependency-based reuse, the infrastructure to systematically support copy-based reuse appears to be entirely missing. Our aim is to enable future research and tool development to increase efficiency and reduce the risks of copy-based reuse. We seek a better understanding of such reuse by measuring its prevalence and identifying factors affecting the propensity to reuse. To identify reused artifacts and trace their origins, our method exploits World of Code infrastructure. We begin with a set of theory-derived factors related to the propensity to reuse, sample instances of different reuse types, and survey developers to better understand their intentions. Our results indicate that copy-based reuse is common, with many developers being aware of it when writing code. The propensity for a file to be reused varies greatly among languages and between source code and binary files, consistently decreasing over time. Files introduced by popular projects are more likely to be reused, but at least half of reused resources originate from ``small'' and ``medium'' projects. Developers had various reasons for reuse but were generally positive about using a package manager.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# MILE: 文脈内学習システムの変異テストフレームワーク

MILE: A Mutation Testing Framework of In-Context Learning Systems ( http://arxiv.org/abs/2409.04831v1 )

ライセンス: Link先を確認
Zeming Wei, Yihao Zhang, Meng Sun, (参考訳) In-context Learning (ICL)は、大規模言語モデル(LLM)の適用において顕著な成功を収めた。 新しいタスクを示す数組の入出力ペアを追加することで、LLMはモデルパラメータを変更することなく推論中にタスクを効率的に学習することができる。 LLMのこのような神秘的な能力は、ブラックボックス機構のような欠点やサンプルの選択に対する感受性に苦しむ一方で、理解、フォーマッティング、文脈内デモンストレーションの改善に大きな研究関心を惹き付けている。 本研究は、機械学習(ML)システムにおけるテスト技術の導入の基礎に着想を得て、ICLシステムにおけるテストデータの品質と有効性を特徴付けるために設計された突然変異テストフレームワークを提案する。 まず、ICLの実証に特化しているいくつかの突然変異演算子と、ICLテストセットに対応する突然変異スコアを提案する。 総合的な実験により、ICLテストスイートの信頼性と品質を評価する上で、我々のフレームワークの有効性を示す。 私たちのコードはhttps://github.com/weizeming/MILEで利用可能です。

In-context Learning (ICL) has achieved notable success in the applications of large language models (LLMs). By adding only a few input-output pairs that demonstrate a new task, the LLM can efficiently learn the task during inference without modifying the model parameters. Such mysterious ability of LLMs has attracted great research interests in understanding, formatting, and improving the in-context demonstrations, while still suffering from drawbacks like black-box mechanisms and sensitivity against the selection of examples. In this work, inspired by the foundations of adopting testing techniques in machine learning (ML) systems, we propose a mutation testing framework designed to characterize the quality and effectiveness of test data for ICL systems. First, we propose several mutation operators specialized for ICL demonstrations, as well as corresponding mutation scores for ICL test sets. With comprehensive experiments, we showcase the effectiveness of our framework in evaluating the reliability and quality of ICL test suites. Our code is available at https://github.com/weizeming/MILE.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# q-Learningによる逆向きスコアベース拡散モデル

Reward-Directed Score-Based Diffusion Models via q-Learning ( http://arxiv.org/abs/2409.04832v1 )

ライセンス: Link先を確認
Xuefeng Gao, Jiale Zha, Xun Yu Zhou, (参考訳) 生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)式を提案し、未知のターゲットデータ分布に近づきながら、報酬関数を最大化するサンプルを生成する。 多くの既存研究と異なり、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルは含まない。 エントロピー規則化された連続時間RL問題を示し、最適確率ポリシーが既知の共分散行列を持つガウス分布を持つことを示す。 この結果に基づき,ガウス政策の平均値をパラメータ化し,RL問題を解くためにアクター批判型(リトル)q-ラーニングアルゴリズムを開発する。 アルゴリズム設計における鍵となる要素は、比推定器を用いて未知のスコア関数からノイズを観測することである。 提案手法の有効性を2つの最先端RL法と比較し,提案手法の有効性を検証した。 最後に, 拡散モデルの確率フローODE実装と条件付き拡散モデルへのRL定式化の拡張について論じる。

We propose a new reinforcement learning (RL) formulation for training continuous-time score-based diffusion models for generative AI to generate samples that maximize reward functions while keeping the generated distributions close to the unknown target data distributions. Different from most existing studies, our formulation does not involve any pretrained model for the unknown score functions of the noise-perturbed data distributions. We present an entropy-regularized continuous-time RL problem and show that the optimal stochastic policy has a Gaussian distribution with a known covariance matrix. Based on this result, we parameterize the mean of Gaussian policies and develop an actor-critic type (little) q-learning algorithm to solve the RL problem. A key ingredient in our algorithm design is to obtain noisy observations from the unknown score function via a ratio estimator. Numerically, we show the effectiveness of our approach by comparing its performance with two state-of-the-art RL methods that fine-tune pretrained models. Finally, we discuss extensions of our RL formulation to probability flow ODE implementation of diffusion models and to conditional diffusion models.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# 大規模言語モデルにおけるピークパフォーマンスの達成: 体系的レビュー

Achieving Peak Performance for Large Language Models: A Systematic Review ( http://arxiv.org/abs/2409.04833v1 )

ライセンス: Link先を確認
Zhyar Rzgar K Rostam, Sándor Szénási, Gábor Kertész, (参考訳) 近年,大規模言語モデル (LLM) は自然言語処理 (NLP) において顕著な成功を収めている。 LLMは高い性能を達成するために非常に多くのパラメータを必要とする。 モデルが1兆パラメータの範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。 これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。 LLMパフォーマンスの最適化には、2つの主要なアプローチがある: 特定のタスクのための訓練済みモデルを微調整して最先端のパフォーマンスを達成すること、コストを削減したり、同様のパフォーマンスを維持しながらトレーニング時間を改善すること。 本稿では,システムレビューとメタアナリシス(PRISMA)に関する優先報告項目に続き,体系的文献レビュー(SLR)について述べる。 2017年から2023年12月まで、65の出版物をレビューし、5つのデータベースから検索した。 本研究は, 精度を犠牲にすることなく, 最先端の結果を達成しつつ, LLMの最適化と高速化を行う手法を提案する。 まず、言語モデリングの開発の概要と、一般的に使われているフレームワークやライブラリの詳細な説明、LLMトレーニング、LLM推論、システムサービスという3つのクラスに基づいたLLMの改善と高速化のための分類について概説する。 次に、これらの戦略の分類と分類を伴う、トレーニング最適化、ハードウェア最適化、スケーラビリティ、信頼性などの最近の最適化と加速戦略について検討する。 最後に、モデルトレーニングの最適化と推論効率の向上に関する2つのケーススタディを用いて、各クラスと戦略の詳細な比較を行う。 これらのケーススタディは、LCMのリソース制限に対処し、性能を維持しながら実践的なアプローチを示す。

In recent years, large language models (LLMs) have achieved remarkable success in natural language processing (NLP). LLMs require an extreme amount of parameters to attain high performance. As models grow into the trillion-parameter range, computational and memory costs increase significantly. This makes it difficult for many researchers to access the resources needed to train or apply these models. Optimizing LLM performance involves two main approaches: fine-tuning pre-trained models for specific tasks to achieve state-of-the-art performance, and reducing costs or improving training time while maintaining similar performance. This paper presents a systematic literature review (SLR) following the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) statement. We reviewed 65 publications out of 983 from 2017 to December 2023, retrieved from 5 databases. The study presents methods to optimize and accelerate LLMs while achieving cutting-edge results without sacrificing accuracy. We begin with an overview of the development of language modeling, followed by a detailed explanation of commonly used frameworks and libraries, and a taxonomy for improving and speeding up LLMs based on three classes: LLM training, LLM inference, and system serving. We then delve into recent optimization and acceleration strategies such as training optimization, hardware optimization, scalability and reliability, accompanied by the taxonomy and categorization of these strategies. Finally, we provide an in-depth comparison of each class and strategy, with two case studies on optimizing model training and enhancing inference efficiency. These case studies showcase practical approaches to address LLM resource limitations while maintaining performance.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# ログベース異常検出モデルの拡張のためのイベントの削減に関する実証的研究

Reducing Events to Augment Log-based Anomaly Detection Models: An Empirical Study ( http://arxiv.org/abs/2409.04834v1 )

ライセンス: Link先を確認
Lingzhe Zhang, Tong Jia, Kangjin Wang, Mengxi Jia, Yang Yong, Ying Li, (参考訳) ソフトウェアシステムが複雑化するにつれて、異常の正確な検出は必須かつ困難なものになっている。 現在のログに基づく異常検出法は、ノイズログによる非効率な推論と潜在的な誤報につながる大量のログデータに大きく依存している。 しかし、異常検出の有効性に対するログリダクションの定量的効果は未解明のままである。 そこで、まず3つのデータセットにまたがる6つの異なるモデルについて包括的な研究を行う。 この研究を通じて、ログ量の影響と異常表現の有効性が定式化され、モデルの性能に異なる3つの特徴的なログイベントタイプが明らかになった。 これらの知見から,異常検出の文脈におけるログイベントの自動削減のための効率的な手法であるLogCleanerを提案する。 ソフトウェアシステムとモデルの間のミドルウェアとして機能するLogCleanerは、生ログのアンチイベントと重複イベントを継続的に更新し、フィルタする。 実験結果は、異常検出におけるログイベントの70%以上を削減し、モデルの推論速度を約300%加速し、異常検出のためのモデルの性能を普遍的に改善するLogCleanerの能力を強調している。

As software systems grow increasingly intricate, the precise detection of anomalies have become both essential and challenging. Current log-based anomaly detection methods depend heavily on vast amounts of log data leading to inefficient inference and potential misguidance by noise logs. However, the quantitative effects of log reduction on the effectiveness of anomaly detection remain unexplored. Therefore, we first conduct a comprehensive study on six distinct models spanning three datasets. Through the study, the impact of log quantity and their effectiveness in representing anomalies is qualifies, uncovering three distinctive log event types that differently influence model performance. Drawing from these insights, we propose LogCleaner: an efficient methodology for the automatic reduction of log events in the context of anomaly detection. Serving as middleware between software systems and models, LogCleaner continuously updates and filters anti-events and duplicative-events in the raw generated logs. Experimental outcomes highlight LogCleaner's capability to reduce over 70% of log events in anomaly detection, accelerating the model's inference speed by approximately 300%, and universally improving the performance of models for anomaly detection.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# SPIRIT: 教師なしオンライン学習とズームアナログフロントエンドを用いた低消費電力シーズーア予測

SPIRIT: Low Power Seizure Prediction using Unsupervised Online-Learning and Zoom Analog Frontends ( http://arxiv.org/abs/2409.04838v1 )

ライセンス: Link先を確認
Aviral Pandey, Adelson Chua, Ryan Kaveh, Justin Doong, Rikky Muller, (参考訳) 発作の早期予測とタイムリーな介入は患者の生活の質向上に不可欠である。 ソフトウェアベースの実装では、来るべき発作のタイムリーな警告を可能にするために、発作予測が示されているが、レイテンシを低減するためにエッジデバイスで予測を行う必要がある。 理想的には、そのようなデバイスは低消費電力で、ユーザからのメンテナンスを最小限に抑えるために長期的なドリフトを追跡する必要がある。 本研究はSPIRIT: 統合的リトレーニングとIn situ精度チューニングを備えた確率的漸進型予測器を提示する。 SPIRITは完全なシステムオンチップ(SoC)であり、8つの14.4 uW、0.057 mm2、90.5 dBのダイナミックレンジ、Zoom Analog Frontendsと教師なしのオンライン学習予測分類器を統合している。 SPIRITは、それぞれ97.5%/96.2%の感度/特異性を達成し、発作が起こるまでの平均8.4分を予測している。 オンライン学習アルゴリズムにより、予測精度は最大15%向上し、予測時間は最大7倍向上する。 分類器は17.2 uWを消費し、0.14 mm2であり、予測分類器の出力は134x、面積は5xである。 SPIRITはまた、最先端技術よりも少なくとも5.6倍エネルギー効率が高い。

Early prediction of seizures and timely interventions are vital for improving patients' quality of life. While seizure prediction has been shown in software-based implementations, to enable timely warnings of upcoming seizures, prediction must be done on an edge device to reduce latency. Ideally, such devices must also be low-power and track long-term drifts to minimize maintenance from the user. This work presents SPIRIT: Stochastic-gradient-descent-based Predictor with Integrated Retraining and In situ accuracy Tuning. SPIRIT is a complete system-on-a-chip (SoC) integrating an unsupervised online-learning seizure prediction classifier with eight 14.4 uW, 0.057 mm2, 90.5 dB dynamic range, Zoom Analog Frontends. SPIRIT achieves, on average, 97.5%/96.2% sensitivity/specificity respectively, predicting seizures an average of 8.4 minutes before they occur. Through its online learning algorithm, prediction accuracy improves by up to 15%, and prediction times extend by up to 7x, without any external intervention. Its classifier consumes 17.2 uW and occupies 0.14 mm2, the lowest reported for a prediction classifier by >134x in power and >5x in area. SPIRIT is also at least 5.6x more energy efficient than the state-of-the-art.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# 線形可逆値関数を持つMDPのサンプル・オラクル効率強化学習

Sample- and Oracle-Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functions ( http://arxiv.org/abs/2409.04840v1 )

ライセンス: Link先を確認
Zakaria Mhammedi, (参考訳) サンプル効率で計算可能な強化学習(RL)アルゴリズムの設計は、大規模または無限の状態と行動空間を持つ環境では特に困難である。 本稿では,任意のポリシの状態-作用値関数が与えられた特徴写像に線形であるマルコフ決定過程(MDP)に対して,効率的なアルゴリズムを提案することによって,この取り組みを進める。 この挑戦的な設定は、無限の状態と動作を持つ環境をモデル化し、古典的線形MDPを厳密に一般化し、現在、MDPへのオンラインアクセス下での計算効率のよいアルゴリズムを欠いている。 具体的には、この設定において、複数のエピソードを用いて、最適に近いポリシーを効率的に見つける新しいRLアルゴリズムを導入し、問題パラメータの2つの多項式であるコスト感受性分類(CSC)オラクルを呼び出します。 特に、我々のCSCオラクルは、特徴次元が一定であるときに効率よく実装でき、地平線多変数の非凸問題を解く必要があり、地平線で「emph{exponential}」となる計算コストを発生させることができる最先端の手法よりも明確な改善を表現できる。

Designing sample-efficient and computationally feasible reinforcement learning (RL) algorithms is particularly challenging in environments with large or infinite state and action spaces. In this paper, we advance this effort by presenting an efficient algorithm for Markov Decision Processes (MDPs) where the state-action value function of any policy is linear in a given feature map. This challenging setting can model environments with infinite states and actions, strictly generalizes classic linear MDPs, and currently lacks a computationally efficient algorithm under online access to the MDP. Specifically, we introduce a new RL algorithm that efficiently finds a near-optimal policy in this setting, using a number of episodes and calls to a cost-sensitive classification (CSC) oracle that are both polynomial in the problem parameters. Notably, our CSC oracle can be efficiently implemented when the feature dimension is constant, representing a clear improvement over state-of-the-art methods, which require solving non-convex problems with horizon-many variables and can incur computational costs that are \emph{exponential} in the horizon.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# リッチコンテキストレイアウト画像生成のトレーニングと評価の再考

Rethinking The Training And Evaluation of Rich-Context Layout-to-Image Generation ( http://arxiv.org/abs/2409.04847v1 )

ライセンス: Link先を確認
Jiaxin Cheng, Zixu Zhao, Tong He, Tianjun Xiao, Yicong Zhou, Zheng Zhang, (参考訳) 生成モデルの最近の進歩は、画像生成能力を大幅に向上させ、画像編集、補完、ビデオ編集など幅広い応用を可能にしている。 生成モデリングにおける特別な領域はレイアウト・ツー・イメージ(L2I)生成であり、事前に定義されたオブジェクトのレイアウトが生成プロセスを導く。 本研究では,レイアウト・ツー・イメージ・ジェネレーションを充実させるため,新しい領域横断モジュールを提案する。 このモジュールは特に、既存のメソッドが非常に複雑で詳細なテキスト記述に苦労するシナリオにおいて、レイアウト領域の表現を改善している。 さらに、現在の開語彙L2I法はオープンセット環境で訓練されるが、その評価はしばしばクローズドセット環境で行われる。 このギャップを埋めるために、オープン語彙シナリオにおけるL2I性能を評価するための2つの指標を提案する。 さらに、これらの指標と人間の嗜好との整合性を検証するために、包括的なユーザスタディを実施している。

Recent advancements in generative models have significantly enhanced their capacity for image generation, enabling a wide range of applications such as image editing, completion and video editing. A specialized area within generative modeling is layout-to-image (L2I) generation, where predefined layouts of objects guide the generative process. In this study, we introduce a novel regional cross-attention module tailored to enrich layout-to-image generation. This module notably improves the representation of layout regions, particularly in scenarios where existing methods struggle with highly complex and detailed textual descriptions. Moreover, while current open-vocabulary L2I methods are trained in an open-set setting, their evaluations often occur in closed-set environments. To bridge this gap, we propose two metrics to assess L2I performance in open-vocabulary scenarios. Additionally, we conduct a comprehensive user study to validate the consistency of these metrics with human preferences.
翻訳日:2024-09-10 20:31:31 公開日:2024-09-07
# FedModule: モジュール型フェデレーション学習フレームワーク

FedModule: A Modular Federated Learning Framework ( http://arxiv.org/abs/2409.04849v1 )

ライセンス: Link先を確認
Chuyi Chen, Zhe Zhang, Yanchao Zhao, (参考訳) フェデレートラーニング(FL)は、医療、金融、スマートシティなど、さまざまな分野で広く採用されている。 しかし、実験的なシナリオがより複雑になるにつれて、既存のFLフレームワークとベンチマークはペースを維持するのに苦労しています。 本稿では、様々なFLパラダイムをサポートし、複雑な実験シナリオに対する包括的なベンチマークを提供するためにオープンソース化されたフレキシブルで拡張可能なFL実験フレームワークであるFedModuleを紹介する。 FedModuleは"1つのコード、すべてのシナリオ"の原則に準拠し、FLプロセスを個々のコンポーネントに分割するモジュール設計を採用し、異なるFLパラダイムのシームレスな統合を可能にします。 フレームワークは同期、非同期、パーソナライズされたフェデレーション学習をサポートし、20以上のアルゴリズムを実装している。 公開データセットで実施された実験は、FedModuleの柔軟性と拡張性を示している。 このフレームワークは、複数の実行モード(線形、スレッド化、プロセスベース、分散化)を提供し、様々な実験的なニーズに合わせて設定をカスタマイズする。 さらに、FedModuleは広範なロギングとテスト機能を提供し、FLアルゴリズムの詳細なパフォーマンス解析を容易にする。 TensorFlow Federated、PySyft、Flower、FLGoといった既存のFLツールキットとの比較評価では、FedModuleの優れたスケーラビリティ、柔軟性、包括的なベンチマークサポートを強調している。 現在のFLフレームワークの限界に対処することによって、FedModuleはFL実験の大幅な進歩を示し、研究者や実践者が幅広いシナリオでFLアルゴリズムを開発し評価するための堅牢なツールを提供する。

Federated learning (FL) has been widely adopted across various applications, such as healthcare, finance, and smart cities. However, as experimental scenarios become more complex, existing FL frameworks and benchmarks have struggled to keep pace. This paper introduces FedModule, a flexible and extensible FL experimental framework that has been open-sourced to support diverse FL paradigms and provide comprehensive benchmarks for complex experimental scenarios. FedModule adheres to the "one code, all scenarios" principle and employs a modular design that breaks the FL process into individual components, allowing for the seamless integration of different FL paradigms. The framework supports synchronous, asynchronous, and personalized federated learning, with over 20 implemented algorithms. Experiments conducted on public datasets demonstrate the flexibility and extensibility of FedModule. The framework offers multiple execution modes-including linear, threaded, process-based, and distributed-enabling users to tailor their setups to various experimental needs. Additionally, FedModule provides extensive logging and testing capabilities, which facilitate detailed performance analysis of FL algorithms. Comparative evaluations against existing FL toolkits, such as TensorFlow Federated, PySyft, Flower, and FLGo, highlight FedModule's superior scalability, flexibility, and comprehensive benchmark support. By addressing the limitations of current FL frameworks, FedModule marks a significant advancement in FL experimentation, providing researchers and practitioners with a robust tool for developing and evaluating FL algorithms across a wide range of scenarios.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# 太陽物理学のビッグデータのための深層コンピュータビジョン : 機会と課題

Deep Computer Vision for Solar Physics Big Data: Opportunities and Challenges ( http://arxiv.org/abs/2409.04850v1 )

ライセンス: Link先を確認
Bo Shen, Marco Marena, Chenyang Li, Qin Li, Haodi Jiang, Mengnan Du, Jiajun Xu, Haimin Wang, (参考訳) ソーラー・ダイナミクス・オブザーバ(SDO)やパーカー・ソーラー・プローブ(Parker Solar Probe)のような先進的な宇宙観測所やダニエル・K・イノウエ・ソーラー望遠鏡(Daniel K. Inouye Solar Telescope, DKIST)のような地上望遠鏡のような最近のミッションにより、太陽物理学は太陽物理学のビッグデータ(SPBD)として変革期に入った。 近年の深層コンピュータビジョンの進歩により、以前は解決不可能だった問題に対処する新たな機会がSPBDで生まれている。 しかし,SPBDと深層コンピュータビジョンモデルの性質から,新たな課題が生まれている。 本稿では,様々な種類のSPBDの概要を述べるとともに,深層コンピュータビジョンをSPBDに適用する新たな機会を探究し,その課題を浮き彫りにし,今後の研究の方向性について概説する。

With recent missions such as advanced space-based observatories like the Solar Dynamics Observatory (SDO) and Parker Solar Probe, and ground-based telescopes like the Daniel K. Inouye Solar Telescope (DKIST), the volume, velocity, and variety of data have made solar physics enter a transformative era as solar physics big data (SPBD). With the recent advancement of deep computer vision, there are new opportunities in SPBD for tackling problems that were previously unsolvable. However, there are new challenges arising due to the inherent characteristics of SPBD and deep computer vision models. This vision paper presents an overview of the different types of SPBD, explores new opportunities in applying deep computer vision to SPBD, highlights the unique challenges, and outlines several potential future research directions.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# AdaptiveFusion:3次元人体再構成のための適応型マルチモーダル・マルチビュー・フュージョン

AdaptiveFusion: Adaptive Multi-Modal Multi-View Fusion for 3D Human Body Reconstruction ( http://arxiv.org/abs/2409.04851v1 )

ライセンス: Link先を確認
Anjun Chen, Xiangyu Wang, Zhi Xu, Kun Shi, Yan Qin, Yuchi Huo, Jiming Chen, Qi Ye, (参考訳) 近年のセンサ技術と深層学習の進歩は、3次元の人体再構築に大きな進歩をもたらした。 しかし、既存のほとんどのアプローチは特定のセンサーのデータに依存しており、個々の知覚モーダルに固有の制限があるため信頼性が低い。 一方、既存のマルチモーダル融合法は、一般的に特定のセンサーの組み合わせや設定に基づいてカスタマイズされた設計を必要とするため、これらの手法の柔軟性と汎用性は制限される。 さらに,従来の点像投影型およびトランスフォーマー型核融合ネットワークは,ノイズモードやセンサポーズの影響を受けやすい。 これらの制約に対処し、様々な条件下で堅牢な3次元人体再構築を実現するために、センサ入力の任意の組み合わせを効果的に活用できる汎用適応型マルチモーダル・マルチビュー融合フレームワークAdaptiveFusionを提案する。 様々な視点から異なるモダリティを等価なトークンとして扱い、トランスフォーマーモデル固有の柔軟性を活用して手作りのモダリティサンプリングモジュールにより、AdaptiveFusionは任意の数の入力に対処し、単一のトレーニングネットワークでノイズの多いモダリティに対応することができる。 大規模人体データセットの大規模な実験は、様々な環境で高品質な3次元人体再構築を実現する上で、AdaptiveFusionの有効性を示す。 また,本手法は最先端の核融合法と比較して精度が高い。

Recent advancements in sensor technology and deep learning have led to significant progress in 3D human body reconstruction. However, most existing approaches rely on data from a specific sensor, which can be unreliable due to the inherent limitations of individual sensing modalities. On the other hand, existing multi-modal fusion methods generally require customized designs based on the specific sensor combinations or setups, which limits the flexibility and generality of these methods. Furthermore, conventional point-image projection-based and Transformer-based fusion networks are susceptible to the influence of noisy modalities and sensor poses. To address these limitations and achieve robust 3D human body reconstruction in various conditions, we propose AdaptiveFusion, a generic adaptive multi-modal multi-view fusion framework that can effectively incorporate arbitrary combinations of uncalibrated sensor inputs. By treating different modalities from various viewpoints as equal tokens, and our handcrafted modality sampling module by leveraging the inherent flexibility of Transformer models, AdaptiveFusion is able to cope with arbitrary numbers of inputs and accommodate noisy modalities with only a single training network. Extensive experiments on large-scale human datasets demonstrate the effectiveness of AdaptiveFusion in achieving high-quality 3D human body reconstruction in various environments. In addition, our method achieves superior accuracy compared to state-of-the-art fusion methods.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# 周期的電子照射グラフェン中の双極性ファブリ-ペロー電荷干渉計

Bipolar Fabry-Pérot charge interferometer in periodically electron-irradiated graphene ( http://arxiv.org/abs/2409.04858v1 )

ライセンス: Link先を確認
Nicola Melchioni, Federico Paolucci, Paolo Marconcini, Massimo Macucci, Stefano Roddaro, Alessandro Tredicucci, Federica Bianco, (参考訳) 電子光学は、固体デバイスにおけるコヒーレント現象を誘導し、調査し、利用するために電荷キャリアの波状構造を扱う。 通常、これらの目標は、2次元の電子ガスと超伝導体におけるマクロコヒーレント電荷輸送を利用する複雑な電子デバイスで達成される。 ここでは、グラフェンの電荷輸送における集合的コヒーレント効果を誘導するために、意図的に生成された格子欠陥を用いた単純な直観的構造を示す。 具体的には、複数のFabry-P'erotキャビティが低エネルギー電子ビームを介してグラフェンを照射し、周期的に置換された欠陥とプリスタンナノストリップを形成する。 欠陥ストライプにおけるホールドーピングの強化は、部分的に鏡を反射し、原始領域内のキャリア波を共鳴的に閉じ込める、潜在的な障壁を生じさせる。 干渉効果は理論上も実験的にも研究され、従来の静電気的に作られたファブリ・ペロト干渉計とは対照的に、電荷キャリアの両極性に対して最大30Kのシート抵抗振動を示す。 本研究は, ナノ・量子技術を用いた革新的コヒーレント電子デバイスの実現のための基盤として, 欠陥グラフェンを提案する。

Electron optics deals with the wave-nature of charge carriers to induce, investigate and exploit coherent phenomena in solid state devices, in analogy with optics and photonics. Typically, these goals are achieved in complex electronic devices taking advantage of the macroscopically coherent charge transport in two dimensional electron gases and superconductors. Here, we demonstrate a simple counterintuitive architecture employing intentionally-created lattice defects to induce collective coherent effects in the charge transport of graphene. More specifically, multiple Fabry-P\'erot cavities are produced by irradiating graphene via low-energy electron-beam to form periodically alternated defective and pristine nano-stripes. The enhanced hole-doping in the defective stripes creates potential barriers behaving as partially reflecting mirrors and resonantly confining the carrier-waves within the pristine areas. The interference effects are both theoretically and experimentally investigated and manifest as sheet resistance oscillations up to 30 K for both polarities of charge carriers, contrarily to traditional electrostatically-created Fabry-P\'erot interferometers. Our findings propose defective graphene as an original platform for the realization of innovative coherent electronic devices with applications in nano and quantum technologies.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# 誤情報の逐次分類

Sequential Classification of Misinformation ( http://arxiv.org/abs/2409.04860v1 )

ライセンス: Link先を確認
Daniel Toma, Wasim Huleihel, (参考訳) 近年,誤報やフェイクニュースなどの望ましくない効果を監視することを目的とした,ソーシャルネットワーク上の情報フローのオンライン監査への関心が高まっている。 これまでの研究は、情報のニセモノや真偽を分類する二項分類問題に重点を置いていた。 しかし、多くの実践的なシナリオでは、マルチクラス/ラベル設定が特に重要である。 例えば、ソーシャルメディアプラットフォームが `true", ``partly-true", ``false" 情報を区別したい場合もあります。 そこで本稿では,情報フローのオンライン多クラス分類の問題について考察する。 そこで本研究では,実世界のソーシャルメディアネットワーク上での情報フローに関する実証的研究により,グラフ上の確率的情報フローモデルを提案する。 そして、学習課題は、分類誤差と検出時間との組合せを最小化することを目的として、情報フローのラベルを検出することである。 この問題に対して、我々は2つの検出アルゴリズムを提案する。1つはよく知られた多重逐次確率比テストに基づいており、もう1つは新しいグラフニューラルネットワークに基づくシーケンシャル決定アルゴリズムである。 どちらのアルゴリズムも、いくつかの強い統計的保証を証明している。 また,提案した確率モデルを学習するためのデータ駆動アルゴリズムを構築した。 最後に、我々のアルゴリズムを2つの実世界のデータセット上でテストし、検出時間と分類誤差の観点から、他の最先端の誤情報検出アルゴリズムよりも優れていることを示す。

In recent years there have been a growing interest in online auditing of information flow over social networks with the goal of monitoring undesirable effects, such as, misinformation and fake news. Most previous work on the subject, focus on the binary classification problem of classifying information as fake or genuine. Nonetheless, in many practical scenarios, the multi-class/label setting is of particular importance. For example, it could be the case that a social media platform may want to distinguish between ``true", ``partly-true", and ``false" information. Accordingly, in this paper, we consider the problem of online multiclass classification of information flow. To that end, driven by empirical studies on information flow over real-world social media networks, we propose a probabilistic information flow model over graphs. Then, the learning task is to detect the label of the information flow, with the goal of minimizing a combination of the classification error and the detection time. For this problem, we propose two detection algorithms; the first is based on the well-known multiple sequential probability ratio test, while the second is a novel graph neural network based sequential decision algorithm. For both algorithms, we prove several strong statistical guarantees. We also construct a data driven algorithm for learning the proposed probabilistic model. Finally, we test our algorithms over two real-world datasets, and show that they outperform other state-of-the-art misinformation detection algorithms, in terms of detection time and classification error.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# 高純度2次元浮上型機械振動子

High purity two-dimensional levitated mechanical oscillator ( http://arxiv.org/abs/2409.04863v1 )

ライセンス: Link先を確認
Q. Deplano, A. Pontin, A. Ranfagni, F. Marino, F. Marin, (参考訳) 近年、浮遊光学は運動量子基底状態に到達するという約束を達成している。 この分野の重要なマイルストーンは、機械的絡み合いの発生である。 理想的な候補は光学的ツイーザーの偏光面における2次元運動であり、光学的モードと機械的モードはコヒーレント散乱によって結合される。 この達成に向けた必要条件は、2つのモード間のかなりのスペクトルオーバーラップを伴う2次元基底状態の冷却である。 後者の条件は必要な相関を生成するために必要だが、残念ながら効率的な冷却を妨げ、有用なパラメータ空間を狭める。 本研究では,検出された空洞場の非自明なスペクトル形状に反映されるように,強いオプティメカニカルカップリングが異なる方向の振動間の所望のスペクトル重畳を誘導する状態において,高純度2次元状態の達成を報告する。 その結果、任意の直交方向間の有意な相関が一貫して生じ、運動が2つの独立した1次元振動子に還元されるのを防ぎ、そのシナリオよりも高い純度をもたらす。 本システムは,2次元運動における連続変数の絡み合いを実現するための優れたプラットフォームとして機能する。

In recent years, levitated optomechanics has delivered on the promise of reaching the motional quantum ground state. An important next milestone of the field would be the generation of mechanical entanglement. An ideal candidate is the two-dimensional motion in the polarization plane of an optical tweezer inside an optical cavity, where optical and mechanical modes are coupled via coherent scattering. Necessary conditions towards this achievement are two-dimensional ground state cooling along with substantial spectral overlap between the two modes. The latter condition is required to generate the necessary correlations, but unfortunately, it hinders efficient cooling thus narrowing the useful parameter space. In this work, we report the achievement of a high purity two-dimensional state in a regime where the strong optomechanical coupling induces the desired spectral superposition between oscillations in different directions, as reflected in the non-trivial spectral shape of the detected cavity field. As a result, significant correlations consistently arise between any pair of orthogonal directions, preventing the motion from being reduced to two independent one-dimensional oscillators and leading to higher purity compared to that scenario. Our system serves as an excellent platform for realizing continuous variable entanglement in two-dimensional motion.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# コントラスト的異方性:クラス先行のないマルチレベルコントラスト学習によるきめ細かい表現学習

Contrastive Disentangling: Fine-grained representation learning through multi-level contrastive learning without class priors ( http://arxiv.org/abs/2409.04867v1 )

ライセンス: Link先を確認
Houwang Jiang, Zhuxian Liu, Guodong Liu, Xiaolong Liu, Shihua Zhan, (参考訳) 教師なし表現学習の最近の進歩は、しばしばクラス情報を活用して特徴抽出とクラスタリング性能を向上させる。 しかし、クラス情報を利用できない、あるいはあいまいな実世界のシナリオでは、クラスプリエントに依存しているため、そのようなメソッドの適用性は制限される。 本稿では,クラス先行に依存せずに表現を学習する,シンプルかつ効果的なフレームワークであるContrastive Disentangling (CD)を提案する。 我々のフレームワークは、インスタンスレベルと特徴レベルの損失と正規化エントロピー損失を組み合わせたマルチレベルコントラスト学習戦略を用いて、意味的にリッチできめ細かな表現を学習する。 具体的には、(1)インスタンスレベルのコントラスト損失は、異なるサンプルに対する特徴表現の分離を促進し、(2)特徴レベルのコントラスト損失は、特徴ヘッド間の独立性を促進し、(3)正規化エントロピー損失は、特徴ヘッドがデータから有意義で有意義な属性をキャプチャすることを奨励する。 これらのコンポーネントは、CIFAR-10、CIFAR-100、STL-10、ImageNet-10などのベンチマークデータセット、特にクラス事前が欠落しているシナリオにおいて、CDが既存のメソッドを大幅に上回るように連携する。 コードはhttps://github.com/Hoper-J/Contrastive-Disentangling.comで公開されている。

Recent advancements in unsupervised representation learning often leverage class information to enhance feature extraction and clustering performance. However, this reliance on class priors limits the applicability of such methods in real-world scenarios where class information is unavailable or ambiguous. In this paper, we propose Contrastive Disentangling (CD), a simple and effective framework that learns representations without any reliance on class priors. Our framework employs a multi-level contrastive learning strategy that combines instance-level and feature-level losses with a normalized entropy loss to learn semantically rich and fine-grained representations. Specifically, (1) the instance-level contrastive loss encourages the separation of feature representations for different samples, (2) the feature-level contrastive loss promotes independence among the feature head predictions, and (3) the normalized entropy loss encourages the feature heads to capture meaningful and prevalent attributes from the data. These components work together to enable CD to significantly outperform existing methods, as demonstrated by extensive experiments on benchmark datasets including CIFAR-10, CIFAR-100, STL-10, and ImageNet-10, particularly in scenarios where class priors are absent. The code is available at https://github.com/Hoper-J/Contrastive-Disentangling.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# Propensity Score Calibrationによるダブル/デバイアス機械学習の有限サンプル性能の向上

Improving the Finite Sample Performance of Double/Debiased Machine Learning with Propensity Score Calibration ( http://arxiv.org/abs/2409.04874v1 )

ライセンス: Link先を確認
Daniele Ballinari, Nora Bearth, (参考訳) 機械学習技術は因果効果を推定するために広く用いられている。 DML (Double/debiased Machine Learning) (Chernozhukov et al , 2018) は、共変量に対する処理代入条件の確率である確率スコアのようなニュアンス関数の予測に依存する二重確率スコア関数を使用する。 ダブルロバストスコア関数に依存する推定器は、確率スコア予測における誤差に非常に敏感である。 機械学習者は、これらの確率を過度にまたは過小評価する傾向があるため、この問題の深刻度を高める。 機械学習者の確率予測を改善するために,いくつかの校正手法が提案されている。 本稿では,DMLフレームワーク内での確率校正手法について検討する。 シミュレーションの結果, 測定値の校正により, 有限試料の平均処理効果のDML推定値の根平均2乗誤差が著しく低減される可能性が示唆された。 実験例で示すとともに,DML推定器の漸近特性をキャリブレーションが変更しない条件を提供する。

Machine learning techniques are widely used for estimating causal effects. Double/debiased machine learning (DML) (Chernozhukov et al., 2018) uses a double-robust score function that relies on the prediction of nuisance functions, such as the propensity score, which is the probability of treatment assignment conditional on covariates. Estimators relying on double-robust score functions are highly sensitive to errors in propensity score predictions. Machine learners increase the severity of this problem as they tend to over- or underestimate these probabilities. Several calibration approaches have been proposed to improve probabilistic forecasts of machine learners. This paper investigates the use of probability calibration approaches within the DML framework. Simulation results demonstrate that calibrating propensity scores may significantly reduces the root mean squared error of DML estimates of the average treatment effect in finite samples. We showcase it in an empirical example and provide conditions under which calibration does not alter the asymptotic properties of the DML estimator.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# モバイル仮想ネットワークオペレータのシームレスハンドオーバをサポートした強力なプライバシ保護機能付きUKプロトコル

Strong Privacy-Preserving Universally Composable AKA Protocol with Seamless Handover Support for Mobile Virtual Network Operator ( http://arxiv.org/abs/2409.04877v1 )

ライセンス: Link先を確認
Rabiah Alnashwan, Yang Yang, Yilu Dong, Prosanta Gope, Behzad Abdolmaleki, Syed Rafiul Hussain, (参考訳) 新しいモバイルプランを求める消費者は、現在のモバイルの状況に多くの選択肢がある。 Mobile Virtual Network Operator (MVNO)は、最近これらのオプションでかなりの注目を集めている。 MVNOは様々な利点を提供しており、ほとんどの消費者にとって魅力的な選択肢である。 これらのアドバンテージには、柔軟性、最先端技術へのアクセス、カバレッジの向上、優れたカスタマサービス、大幅なコスト削減が含まれる。 MVNOにはいくつかのアドバンテージがあるが、同時にセキュリティとプライバシに関する懸念も生んでいる。 例えば、既存のソリューションでは、MVNOは顧客のIDやマスターシークレットキーを含むすべての機密情報をモバイルオペレータ(MNO)に渡して、サービスを提供しながら顧客を検証する必要があります。 これにより、MNOはMVNO加入者の位置情報やモバイルデータ(音声通話、SMS、インターネットなど)を無制限にアクセスでき、MNOはより多くの利益を得るために第三者(広告会社や監視機関など)に頻繁に販売する。 大量ユーザにとって重要なプライバシ損失は、携帯電話ネットワークにおける登録およびハンドオーバ手順のための実用的およびプライバシ保護ソリューションが欠如していることから、歴史的に無視されてきた。 本稿では,MVNOユーザそれぞれが,ユーザ匿名性や非リンク性のサポートを損なうことなく,モバイルオペレータ(MNO)とバイスリバーサを検証可能な,強力なユーザプライバシサポートを備えた汎用的な構成可能な認証・ハンドオーバ方式を提案する。 ここでは,提案するソリューションがMVNO(s)によって展開され,顧客へのプライバシーサポートの強化が期待できる。

Consumers seeking a new mobile plan have many choices in the present mobile landscape. The Mobile Virtual Network Operator (MVNO) has recently gained considerable attention among these options. MVNOs offer various benefits, making them an appealing choice for a majority of consumers. These advantages encompass flexibility, access to cutting-edge technologies, enhanced coverage, superior customer service, and substantial cost savings. Even though MVNO offers several advantages, it also creates some security and privacy concerns for the customer simultaneously. For instance, in the existing solution, MVNO needs to hand over all the sensitive details, including the users' identities and master secret keys of their customers, to a mobile operator (MNO) to validate the customers while offering any services. This allows MNOs to have unrestricted access to the MVNO subscribers' location and mobile data, including voice calls, SMS, and Internet, which the MNOs frequently sell to third parties (e.g., advertisement companies and surveillance agencies) for more profit. Although critical for mass users, such privacy loss has been historically ignored due to the lack of practical and privacy-preserving solutions for registration and handover procedures in cellular networks. In this paper, we propose a universally composable authentication and handover scheme with strong user privacy support, where each MVNO user can validate a mobile operator (MNO) and vice-versa without compromising user anonymity and unlinkability support. Here, we anticipate that our proposed solution will most likely be deployed by the MVNO(s) to ensure enhanced privacy support to their customer(s).
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# Plug-and-Hide: 可能で調整可能な拡散生成ステガノグラフィ

Plug-and-Hide: Provable and Adjustable Diffusion Generative Steganography ( http://arxiv.org/abs/2409.04878v1 )

ライセンス: Link先を確認
Jiahao Zhu, Zixuan Chen, Lingxiao Yang, Xiaohua Xie, Yi Zhou, (参考訳) Generative Steganography (GS) は、生成モデルを利用して、隠蔽画像に頼らずにメッセージを隠蔽する新しい技術である。 現代のGSアルゴリズムは拡散モデル(DM)の強力な生成能力を利用して高忠実度ステゴ画像を生成する。 しかし, これらのアルゴリズムは, 比較的良好な生成結果とメッセージ抽出精度を得る一方で, DMの初期ガウスノイズに著しく変化し, ステガノグラフィーの安全性が向上した。 本稿では,DGS(Diffusion Generative Steganography)設定における画像品質,ステガノグラフィセキュリティ,メッセージ抽出精度のトレードオフを再考する。 以上の結果から,DMの初期ノイズの正常性はこれらの要因に不可欠であり,DGS設計の理論的根拠を与えることができることがわかった。 この知見に基づき、我々はProvable and Adjustable Message Mapping (PA-B2G)アプローチを提案する。 一方、理論上は任意の分布からのビットメッセージの可逆符号化をDMの標準ガウスノイズに保証することができる。 一方、その調整性は、画像の品質、ステガノグラフィーのセキュリティ、メッセージ抽出の精度をトレードオフする、より自然できめ細かな方法を提供する。 確率フロー常微分方程式とPA-B2Gを統合することにより、秘密メッセージとステゴ画像間の可逆写像を確立する。 PA-B2Gは、訓練や微調整を必要とせず、安定拡散のようなほとんどの主流のDMとシームレスに組み込むことができる。 総合的な実験は、DGS設定のトレードオフに関する理論的知見と、所望のレベルのステガノグラフィのセキュリティと抽出精度を維持しつつ、高品質なステゴ画像の生成におけるDGSアルゴリズムの有効性を裏付けるものである。

Generative Steganography (GS) is a novel technique that utilizes generative models to conceal messages without relying on cover images. Contemporary GS algorithms leverage the powerful generative capabilities of Diffusion Models (DMs) to create high-fidelity stego images. However, these algorithms, while yielding relatively satisfactory generation outcomes and message extraction accuracy, significantly alter modifications to the initial Gaussian noise of DMs, thereby compromising steganographic security. In this paper, we rethink the trade-off among image quality, steganographic security, and message extraction accuracy within Diffusion Generative Steganography (DGS) settings. Our findings reveal that the normality of initial noise of DMs is crucial to these factors and can offer theoretically grounded guidance for DGS design. Based on this insight, we propose a Provable and Adjustable Message Mapping (PA-B2G) approach. It can, on one hand, theoretically guarantee reversible encoding of bit messages from arbitrary distributions into standard Gaussian noise for DMs. On the other hand, its adjustability provides a more natural and fine-grained way to trade off image quality, steganographic security, and message extraction accuracy. By integrating PA-B2G with a probability flow ordinary differential equation, we establish an invertible mapping between secret messages and stego images. PA-B2G can be seamlessly incorporated with most mainstream DMs, such as the Stable Diffusion, without necessitating additional training or fine-tuning. Comprehensive experiments corroborate our theoretical insights regarding the trade-off in DGS settings and demonstrate the effectiveness of our DGS algorithm in producing high-quality stego images while preserving desired levels of steganographic security and extraction accuracy.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# デジタルガジェット市場における情報漏洩源の信頼性確保に向けて

Towards identifying Source credibility on Information Leakage in Digital Gadget Market ( http://arxiv.org/abs/2409.04880v1 )

ライセンス: Link先を確認
Neha Kumaru, Garvit Gupta, Shreyas Mongia, Shubham Singh, Ponnurangam Kumaraguru, Arun Balaji Buduru, (参考訳) ソーシャルメディアを使ってコンテンツをシェアすることは、絶え間なく増えている。 ソーシャルメディアにおける情報共有のカプセル化効果の1つは、公共ドメインにおける機密情報の拡散である。 デジタルガジェット市場は競争力が高く、絶え間なく発展していく中で、ソーシャルメディアのデバイスに情報を漏らすセンシティブな投稿が増えつつある傾向が観察されている。 デジタルガジェット市場では、情報漏えいが広まっています。 今後のデバイスの詳細に関する信用的なリークは、各組織に多大な金銭的損害を与える可能性がある。 したがって、スマートフォンやデジタルガジェットのリークを継続的に投稿するプラットフォームの信頼性を評価することが不可欠である。 本稿では,Webブログのリーク記事の見出しとそれに対応する公式プレスリリースの分析を行う。 われわれはまず54,495件のリークとプレスリリースの見出しをさまざまなスマートフォン向けに収集した。 我々は、手動で注釈付けされた結果に対して82.14%の精度で、進化するスマートフォン名を取得するためにカスタムNERモデルを訓練する。 さらに,偽造・真偽のスマートフォンリーク投稿数に基づいて,Webブログの信頼性スコア尺度を提案する。

The use of Social media to share content is on a constant rise. One of the capsize effect of information sharing on Social media includes the spread of sensitive information on the public domain. With the digital gadget market becoming highly competitive and ever-evolving, the trend of an increasing number of sensitive posts leaking information on devices in social media is observed. Many web-blogs on digital gadget market have mushroomed recently, making the problem of information leak all pervasive. Credible leaks on specifics of an upcoming device can cause a lot of financial damage to the respective organization. Hence, it is crucial to assess the credibility of the platforms that continuously post about a smartphone or digital gadget leaks. In this work, we analyze the headlines of leak web-blog posts and their corresponding official press-release. We first collect 54, 495 leak and press-release headlines for different smartphones. We train our custom NER model to capture the evolving smartphone names with an accuracy of 82.14% on manually annotated results. We further propose a credibility score metric for the web-blog, based on the number of falsified and authentic smartphone leak posts.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# 足のマニピュレータによるドアの開閉とトラバースの学習

Learning to Open and Traverse Doors with a Legged Manipulator ( http://arxiv.org/abs/2409.04882v1 )

ライセンス: Link先を確認
Mike Zhang, Yuntao Ma, Takahiro Miki, Marco Hutter, (参考訳) ドアの使用は、ロボット工学における長年の課題であり、ロボットが人間中心の空間にもっとアクセスできるようにするための、重要な実践的関心事である。 この課題は、様々なドア特性へのオンライン適応の必要性と、ドアパネルを操作し、閉じ込められたドアウェイをナビゲートする際の正確な制御が課題である。 そこで本研究では,手足のマニピュレータをドアから開放・移動させる学習型制御器を提案する。 教師-学生によるシミュレーション手法を用いて,頑健なタスク動作の学習と,インタラクション中の重要なドア特性の推定を行う。 従来の方法とは異なり、当社のアプローチは、事前の知識なしにデプロイメント中に開始方向を推論する学習行動を通じて、プッシュとプルの両方を処理可能な、単一のコントロールポリシです。 この方針はANYmal脚ロボットに腕を装着して展開され、実験で繰り返し行われた試験で95.0%の成功率を達成した。 追加の実験では、様々なドアや障害に対する政策の有効性と堅牢性を検証した。 方法と実験の概要はyoutu.be/tQDZXN_k5NUで見ることができる。

Using doors is a longstanding challenge in robotics and is of significant practical interest in giving robots greater access to human-centric spaces. The task is challenging due to the need for online adaptation to varying door properties and precise control in manipulating the door panel and navigating through the confined doorway. To address this, we propose a learning-based controller for a legged manipulator to open and traverse through doors. The controller is trained using a teacher-student approach in simulation to learn robust task behaviors as well as estimate crucial door properties during the interaction. Unlike previous works, our approach is a single control policy that can handle both push and pull doors through learned behaviour which infers the opening direction during deployment without prior knowledge. The policy was deployed on the ANYmal legged robot with an arm and achieved a success rate of 95.0% in repeated trials conducted in an experimental setting. Additional experiments validate the policy's effectiveness and robustness to various doors and disturbances. A video overview of the method and experiments can be found at youtu.be/tQDZXN_k5NU.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# 概念に関する決定的推論

Defeasible Reasoning on Concepts ( http://arxiv.org/abs/2409.04887v1 )

ライセンス: Link先を確認
Yiwen Ding, Krishna Manoorkar, Ni Wayan Switrayni, Ruoding Wang, (参考訳) 本稿では,KLMフレームワークにおける概念のデファシブル推論の開発に向けて,第一歩を踏み出す。 本稿では、累積推論系CとループCLを用いた累積推論系の一般化を概念的設定に定義する。 また, 累積モデル, 累積順序モデル, 優先モデルも一般化し, それらのモデルの音響性と完全性を示す。

In this paper, we take first steps toward developing defeasible reasoning on concepts in KLM framework. We define generalizations of cumulative reasoning system C and cumulative reasoning system with loop CL to conceptual setting. We also generalize cumulative models, cumulative ordered models, and preferential models to conceptual setting and show the soundness and completeness results for these models.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# アルツハイマー病分類のための深層学習モデルの病的焦点と解釈可能性評価のための定量的アプローチ

A Quantitative Approach for Evaluating Disease Focus and Interpretability of Deep Learning Models for Alzheimer's Disease Classification ( http://arxiv.org/abs/2409.04888v1 )

ライセンス: Link先を確認
Thomas Yu Chow Tam, Litian Liang, Ke Chen, Haohan Wang, Wei Wu, (参考訳) 深層学習(DL)モデルはアルツハイマー病(AD)分類において有意な可能性を示している。 しかし、これらのモデルの理解と解釈は依然として困難であり、臨床実践におけるこれらのモデルの採用を妨げている。 サリエンシマップのような技術は、これらのモデルがどのように機能するかの視覚的および経験的な手がかりを提供するのに有効であることが証明されているが、特定の脳領域 DL モデルがどの脳領域に焦点を当てているか、そしてこれらの脳領域がADと病理学的に関連しているかどうかを理解するためのギャップはまだ残っている。 このようなギャップを埋めるために、我々は、まず、唾液マップと脳のセグメンテーションを用いたDLモデルの解釈可能性を高めるための定量的な疾患焦点戦略を開発し、その上で、ADの臨床的に知られているMRIベースの病理領域に基づいて、ADの病理領域にどの程度のDLモデルが集中しているかを定量化する病焦点スコア(DF)を提案する。 この戦略を用いて,基礎となる3D ResNetモデル,事前訓練されたメディカルネットモデル,およびMRIデータを用いてAD患者と認知正常患者を分類するためのデータ拡張を伴うメディカルネットなど,最先端のDLモデルを比較し,これらのモデルを疾患関連領域にフォーカスする能力の観点から評価した。 以上の結果から,異なるモデル,特に事前訓練されたモデルとデータ拡張による特徴パターン,およびそれらの分類性能に関する知見が得られた。 以上の結果から,病原性領域に着目したDLモデルの定量的評価手法は,AD分類におけるこれらのモデルの解釈可能性の向上に寄与し,臨床実践におけるAD診断への導入を促進することが示唆された。 コードはhttps://github.com/Liang-lt/ADNI.comで公開されている。

Deep learning (DL) models have shown significant potential in Alzheimer's Disease (AD) classification. However, understanding and interpreting these models remains challenging, which hinders the adoption of these models in clinical practice. Techniques such as saliency maps have been proven effective in providing visual and empirical clues about how these models work, but there still remains a gap in understanding which specific brain regions DL models focus on and whether these brain regions are pathologically associated with AD. To bridge such gap, in this study, we developed a quantitative disease-focusing strategy to first enhance the interpretability of DL models using saliency maps and brain segmentations; then we propose a disease-focus (DF) score that quantifies how much a DL model focuses on brain areas relevant to AD pathology based on clinically known MRI-based pathological regions of AD. Using this strategy, we compared several state-of-the-art DL models, including a baseline 3D ResNet model, a pretrained MedicalNet model, and a MedicalNet with data augmentation to classify patients with AD vs. cognitive normal patients using MRI data; then we evaluated these models in terms of their abilities to focus on disease-relevant regions. Our results show interesting disease-focusing patterns with different models, particularly characteristic patterns with the pretrained models and data augmentation, and also provide insight into their classification performance. These results suggest that the approach we developed for quantitatively assessing the abilities of DL models to focus on disease-relevant regions may help improve interpretability of these models for AD classification and facilitate their adoption for AD diagnosis in clinical practice. The code is publicly available at https://github.com/Liang-lt/ADNI.
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# 有限周波におけるフラケット動的キラルスピン液体

Floquet dynamical chiral spin liquid at finite frequency ( http://arxiv.org/abs/2409.04892v1 )

ライセンス: Link先を確認
Didier Poilblanc, Matthieu Mambrini, Nathan Goldman, (参考訳) キラルスピン液体 (Chiral Spin Liquids, CSL) は、電子フラクタルチャーン絶縁体の量子スピンアナログである。 ウルトラコールド原子やライドバーグ原子のプラットフォーム上での認識は非常に難しいままである。 近年、正方格子上の初期真のスピン液体状態に適用された近傍のハイゼンベルクカップリングの時間周期変調のセットアップが、(アベリア)$\mathbb{Z}_2$CSL相を安定化するために提案されている。 高周波限界では、時間進化は静的な有効キラルハミルトニアンによって記述できることを示した。 ここでは、この提案を再検討し、高周波マグナス膨張が失敗する体制において、低周波での駆動について考察する。 本研究では, 動的CSL (DCSL) が有限周波数帯で安定化されていることを示す。 この動的位相の位相的性質と臨界周波数以下の不安定性は、フロケ擬エネルギースペクトルの特定の特徴と結びついている。 また、DCSLは2次元の周期テンソルネットワークで忠実に表現でき、静的な場合と同様に、位相的順序はテンソルゲージ対称性(英語版)(その場合)に関連付けられることを示す。

Chiral Spin Liquids (CSL) are quantum spin analogs of electronic Fractional Chern Insulators. Their realizations on ultracold-atom or Rydberg-atom platforms remain very challenging. Recently, a setup of time-periodic modulations of nearest-neighbor Heisenberg couplings applied on an initial genuine spin liquid state on the square lattice has been proposed to stabilize a (Abelian) $\mathbb{Z}_2$ CSL phase. In the high-frequency limit, it was shown that time evolution can be described in terms of a static effective chiral Hamiltonian. Here we revisit this proposal and consider drives at lower frequency in a regime where the high-frequency Magnus expansion fails. We show that a Dynamical CSL (DCSL) is nevertheless stabilized in a finite range of frequency. The topological nature of this dynamical phase, as well as its instability below a critical frequency, is connected to specific features of the Floquet pseudo-energy spectrum. We also show that the DCSL can be represented faithfully by a two-dimensional time-periodic tensor network and, as in the static case, topological order is associated to a tensor gauge symmetry ($\mathbb{Z}_2$ in that case).
翻訳日:2024-09-10 20:20:37 公開日:2024-09-07
# 動的クラウド環境のための強化学習に基づく適応的負荷分散

Reinforcement Learning-Based Adaptive Load Balancing for Dynamic Cloud Environments ( http://arxiv.org/abs/2409.04896v1 )

ライセンス: Link先を確認
Kavish Chawla, (参考訳) クラウドコンピューティング環境では、最適なリソース利用、応答時間の最小化、サーバの過負荷防止のために、効率的な負荷分散が不可欠である。 ラウンドロビンや最小接続のような従来のロードバランシングアルゴリズムは、しばしば静的であり、クラウドワークロードの動的で変動する性質に適応できない。 本稿では,Reinforcement Learning (RL) を用いた適応的負荷分散フレームワークを提案する。 RLベースのアプローチは、リアルタイムシステムのパフォーマンスを観察し、トラフィックパターンとリソース可用性に基づいた意思決定を行うことで、タスクの分散を継続的に学習し改善する。 我々のフレームワークは、タスクを動的に再配置し、レイテンシを最小化し、サーバ間のリソース利用のバランスを確保するように設計されています。 実験の結果,提案したRLベースのロードバランサは,応答時間,資源利用量,ワークロードの変化に対する適応性などの観点から,従来のアルゴリズムよりも優れていた。 これらの調査結果は、クラウドインフラストラクチャの効率性とスケーラビリティを向上させるAI駆動ソリューションの可能性を強調している。

Efficient load balancing is crucial in cloud computing environments to ensure optimal resource utilization, minimize response times, and prevent server overload. Traditional load balancing algorithms, such as round-robin or least connections, are often static and unable to adapt to the dynamic and fluctuating nature of cloud workloads. In this paper, we propose a novel adaptive load balancing framework using Reinforcement Learning (RL) to address these challenges. The RL-based approach continuously learns and improves the distribution of tasks by observing real-time system performance and making decisions based on traffic patterns and resource availability. Our framework is designed to dynamically reallocate tasks to minimize latency and ensure balanced resource usage across servers. Experimental results show that the proposed RL-based load balancer outperforms traditional algorithms in terms of response time, resource utilization, and adaptability to changing workloads. These findings highlight the potential of AI-driven solutions for enhancing the efficiency and scalability of cloud infrastructures.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# バイアスの有無を考慮した中央集権的選択

Centralized Selection with Preferences in the Presence of Biases ( http://arxiv.org/abs/2409.04897v1 )

ライセンス: Link先を確認
L. Elisa Celis, Amit Kumar, Nisheeth K. Vishnoi, Andrew Xu, (参考訳) 本稿では,複数の機関が存在する場合のシナリオについて考察する。 中央機関は、各候補の機関に対する効力を評価し、その目的は、候補の選好を考慮しつつ、実用性を最大化する方法で各機関の候補を選択することである。 本論文は,候補を複数のグループに分けた設定に焦点をあて,いくつかのグループにおける候補の観測ユーティリティは,真のユーティリティよりも体系的に低い偏りを呈する。 第一の結果は、偏りのある設定では、事前アルゴリズムは、選択したグループから選択した候補のごく一部において、最適でない真のユーティリティと大きな相違点を持つ選択を導出できるということである。 その後、アルゴリズムは、選好に関してほぼ最適群フェアネスを達成するための選択を生成するとともに、分布的仮定の下で真の効用をほぼ最大化する証明とともに提示される。 さらに, 実世界および合成環境におけるこれらの結果の広範な実証検証を行い, 分布仮定が成立しない場合について述べる。

This paper considers the scenario in which there are multiple institutions, each with a limited capacity for candidates, and candidates, each with preferences over the institutions. A central entity evaluates the utility of each candidate to the institutions, and the goal is to select candidates for each institution in a way that maximizes utility while also considering the candidates' preferences. The paper focuses on the setting in which candidates are divided into multiple groups and the observed utilities of candidates in some groups are biased--systematically lower than their true utilities. The first result is that, in these biased settings, prior algorithms can lead to selections with sub-optimal true utility and significant discrepancies in the fraction of candidates from each group that get their preferred choices. Subsequently, an algorithm is presented along with proof that it produces selections that achieve near-optimal group fairness with respect to preferences while also nearly maximizing the true utility under distributional assumptions. Further, extensive empirical validation of these results in real-world and synthetic settings, in which the distributional assumptions may not hold, are presented.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# 予測と最適化の合同学習モデル

Learning Joint Models of Prediction and Optimization ( http://arxiv.org/abs/2409.04898v1 )

ライセンス: Link先を確認
James Kotary, Vincenzo Di Vito, Jacob Cristopher, Pascal Van Hentenryck, Ferdinando Fioretto, (参考訳) Predict-Then-Optimizeフレームワークは、機械学習モデルを使用して、解決前の外因性特徴から最適化問題の未知のパラメータを予測する。 この設定は多くの実世界の意思決定プロセスに共通しており、最近では、エンドツーエンドのトレーニングループ内で最適化問題を解き、微分することで、決定品質を大幅に改善できることが示されている。 しかし、このアプローチは、最適化ステップを通じてバックプロパゲーションをバックプロパゲーションするための手作りの、問題固有のルールに加えて、かなりの計算努力を必要とする。 本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。 このアプローチは汎用的で、Learning-to-Optimizeパラダイムの適応に基づいている。 実験により,複数の学習・最適手法が,予測・最適問題の配列に対して,効率的かつ正確な解を提供する能力を示した。

The Predict-Then-Optimize framework uses machine learning models to predict unknown parameters of an optimization problem from exogenous features before solving. This setting is common to many real-world decision processes, and recently it has been shown that decision quality can be substantially improved by solving and differentiating the optimization problem within an end-to-end training loop. However, this approach requires significant computational effort in addition to handcrafted, problem-specific rules for backpropagation through the optimization step, challenging its applicability to a broad class of optimization problems. This paper proposes an alternative method, in which optimal solutions are learned directly from the observable features by joint predictive models. The approach is generic, and based on an adaptation of the Learning-to-Optimize paradigm, from which a rich variety of existing techniques can be employed. Experimental evaluations show the ability of several Learning-to-Optimize methods to provide efficient and accurate solutions to an array of challenging Predict-Then-Optimize problems.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# フェデレーション学習におけるモデル校正の可能性の解き放つ

Unlocking the Potential of Model Calibration in Federated Learning ( http://arxiv.org/abs/2409.04901v1 )

ライセンス: Link先を確認
Yun-Wei Chu, Dong-Jun Han, Seyyedali Hosseinalipour, Christopher Brinton, (参考訳) 近年,機械学習における主要な性能指標であるモデル精度を向上させるために,様々なフェデレートラーニング法が開発されている。 しかし、FLを実際の意思決定シナリオで活用するためには、精度を考慮せずに、訓練されたモデルはそれぞれの予測に信頼性を持たなければならない。 そこで本研究では,FLとモデル校正の概念を統合した汎用フレームワークであるNon-Uniform Calibration for Federated Learning (NUCFL)を提案する。 FL環境における固有のデータ不均一性は、様々なデータ分散とクライアント条件の信頼性を保証する必要があるため、モデルのキャリブレーションを特に困難にします。 NUCFLは,各クライアントの局所モデルとFLのグローバルモデルとの統計的関係に基づいて,モデルの校正目標を動的に調整することで,この問題に対処する。 特に、NUCFLは、局所的モデル関係とグローバル的モデル関係の類似性を評価し、クライアント側ローカルトレーニングにおける校正損失のペナルティ項を制御する。 これにより、NUCFLは精度を犠牲にすることなく、不均一なFL設定でグローバルモデルのキャリブレーション要求を効果的に調整する。 大規模な実験により、NUCFLは様々なFLアルゴリズムの柔軟性と有効性を提供し、精度を向上し、モデルのキャリブレーションも向上した。

Over the past several years, various federated learning (FL) methodologies have been developed to improve model accuracy, a primary performance metric in machine learning. However, to utilize FL in practical decision-making scenarios, beyond considering accuracy, the trained model must also have a reliable confidence in each of its predictions, an aspect that has been largely overlooked in existing FL research. Motivated by this gap, we propose Non-Uniform Calibration for Federated Learning (NUCFL), a generic framework that integrates FL with the concept of model calibration. The inherent data heterogeneity in FL environments makes model calibration particularly difficult, as it must ensure reliability across diverse data distributions and client conditions. Our NUCFL addresses this challenge by dynamically adjusting the model calibration objectives based on statistical relationships between each client's local model and the global model in FL. In particular, NUCFL assesses the similarity between local and global model relationships, and controls the penalty term for the calibration loss during client-side local training. By doing so, NUCFL effectively aligns calibration needs for the global model in heterogeneous FL settings while not sacrificing accuracy. Extensive experiments show that NUCFL offers flexibility and effectiveness across various FL algorithms, enhancing accuracy as well as model calibration.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# ジョセフソン位相量子ビットによるカオン混合のシミュレーション

Simulating kaon mixing with Josephson phase qubits ( http://arxiv.org/abs/2409.04902v1 )

ライセンス: Link先を確認
Andrei Galiautdinov, (参考訳) ジョセフソン接合を持つ超伝導回路は、それぞれの寿命の非常に大きな制御可能な準安定な計算状態(いわゆる位相量子ビット)を持つことで、他の種類の量子コンピューティングアーキテクチャと区別する。 この教育ノートでは、この相量子ビットの顕著な性質を用いて、粒子物理学のカオン混合機構をシミュレートすることで、マクロ量子状態における重ね合わせ原理の妥当性をさらに検証する方法について述べる。

Superconducting circuits with Josephson junctions distinguish themselves from other types of quantum computing architectures by having easily controllable metastable computational states (the so-called phase qubits) with a very large ratio of their respective lifetimes. In this pedagogical note I describe how we can use this remarkable property of the phase qubits to further test the validity of the superposition principle in the macroscopic quantum regime by simulating the kaon mixing mechanism of particle physics.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# 大規模データセット上での分子特性予測のための変圧器の効率的な訓練

Efficient Training of Transformers for Molecule Property Prediction on Small-scale Datasets ( http://arxiv.org/abs/2409.04909v1 )

ライセンス: Link先を確認
Shivesh Prakash, (参考訳) 血液脳関門(BBB)は、脳を循環系から分離する保護障壁として機能し、物質の中枢神経系への通過を調節する。 潜在的な薬物のBBB透過性を評価することは、効果的な薬物ターゲティングに不可欠である。 しかし, BBB透水性測定の従来の実験手法は, 大規模検層では困難であり, 実用的ではない。 したがって,BBB透過性を予測する計算手法を開発する必要がある。 本稿では,低データ方式のGPSトランスフォーマーアーキテクチャを提案する。 提案手法は,BBBPデータセットを用いたBBB透水性予測タスクにおいて,既存のモデルを上回る最先端性能を実現した。 ROC-AUCは78.8%であり、最先端は5.5%と設定されている。 我々は,GPSトランスを併用した標準的なセルフアテンションが,GPSトランスと組み合わせた他のタイプのアテンションよりも優れた性能を示すことを示した。

The blood-brain barrier (BBB) serves as a protective barrier that separates the brain from the circulatory system, regulating the passage of substances into the central nervous system. Assessing the BBB permeability of potential drugs is crucial for effective drug targeting. However, traditional experimental methods for measuring BBB permeability are challenging and impractical for large-scale screening. Consequently, there is a need to develop computational approaches to predict BBB permeability. This paper proposes a GPS Transformer architecture augmented with Self Attention, designed to perform well in the low-data regime. The proposed approach achieved a state-of-the-art performance on the BBB permeability prediction task using the BBBP dataset, surpassing existing models. With a ROC-AUC of 78.8%, the approach sets a state-of-the-art by 5.5%. We demonstrate that standard Self Attention coupled with GPS transformer performs better than other variants of attention coupled with GPS Transformer.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# NGDはSGDよりも退化解に収束する

NGD converges to less degenerate solutions than SGD ( http://arxiv.org/abs/2409.04913v1 )

ライセンス: Link先を確認
Moosa Saghir, N. R. Raghavendra, Zihe Liu, Evan Ryan Gunter, (参考訳) モデルの自由パラメータ数、あるいは次元は、その複雑さを測定するための簡単な方法である。 しかし、これは正確な複雑さの尺度ではない。トレーニングデータを記憶できるモデルは、高次元にもかかわらずしばしば一般化される。 有効ディメンションは、モデルの機能性を表すのに必要なパラメータの数だけを数えることで、モデルの複雑さをより直接的に捉えることを目的としています。 特異学習理論(SLT)は、より正確な有効次元の尺度として学習係数 $ \lambda $ を提案する。 損失に関して、局所的に最小のパラメータ空間の領域の体積の増加率を記述することで、$ \lambda $は高次項からの情報を取り込む。 自然勾配降下 (NGD) と確率勾配降下 (SGD) を用いて訓練されたモデルの$ \lambda $ を比較し、NGD で訓練されたモデルでは、ヘッセントレース $ \text{Tr}(\mathbf{H}) $ と局所学習係数 (LLC) $ \hat{\lambda}(w^*) $ の2つの手法に対して、一貫して高い有効次元を持つことを示した。

The number of free parameters, or dimension, of a model is a straightforward way to measure its complexity: a model with more parameters can encode more information. However, this is not an accurate measure of complexity: models capable of memorizing their training data often generalize well despite their high dimension. Effective dimension aims to more directly capture the complexity of a model by counting only the number of parameters required to represent the functionality of the model. Singular learning theory (SLT) proposes the learning coefficient $ \lambda $ as a more accurate measure of effective dimension. By describing the rate of increase of the volume of the region of parameter space around a local minimum with respect to loss, $ \lambda $ incorporates information from higher-order terms. We compare $ \lambda $ of models trained using natural gradient descent (NGD) and stochastic gradient descent (SGD), and find that those trained with NGD consistently have a higher effective dimension for both of our methods: the Hessian trace $ \text{Tr}(\mathbf{H}) $, and the estimate of the local learning coefficient (LLC) $ \hat{\lambda}(w^*) $.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# 画像分類のための活性化関数最適化方式

Activation Function Optimization Scheme for Image Classification ( http://arxiv.org/abs/2409.04915v1 )

ライセンス: Link先を確認
Abdur Rahman, Lu He, Haifeng Wang, (参考訳) 活性化関数は、ディープニューラルネットワークの力学、収束、性能に大きな影響を及ぼす。 一貫性のある高性能なアクティベーション関数の探索は、ディープラーニングモデル開発において常に追求されてきた。 既存の最先端のアクティベーション機能は、スウィッシュを除く人間の専門知識で手作業で設計されている。 Swishは強化学習に基づく検索戦略を用いて開発された。 本研究では,画像分類タスクに特化したアクティベーション関数を最適化するための進化的アプローチを提案する。 この最適化フレームワークにより、指数誤差線形ユニット(EELU)と呼ばれる一連の高い性能の活性化関数を得る。 1) ResNet50, AlexNet, VGG16, MobileNet, Compact Convolutional Transformer などの5つの最先端ニューラルネットワークアーキテクチャ,2) CIFAR10, Imagenette, MNIST, Fashion MNIST, Beans, Colorectal Histology, CottonWeedID15, TinyImageNet など,一般的なマシンビジョンベンチマーク, 農業画像アプリケーションから医療画像アプリケーションまで,8つの標準データセット。 最後に,最適化手法により得られた活性化関数の一般化を統計的に検討する。 フリードマンテストにより、28の異なるケースのうち、92.8%のケースで既存の標準値を上回るアクティベーション関数を生成することができると結論し、$-x\cdot erf(e^{-x})$が最適化スキームによって生成される画像分類の最も優れたアクティベーション関数であることが判明した。

Activation function has a significant impact on the dynamics, convergence, and performance of deep neural networks. The search for a consistent and high-performing activation function has always been a pursuit during deep learning model development. Existing state-of-the-art activation functions are manually designed with human expertise except for Swish. Swish was developed using a reinforcement learning-based search strategy. In this study, we propose an evolutionary approach for optimizing activation functions specifically for image classification tasks, aiming to discover functions that outperform current state-of-the-art options. Through this optimization framework, we obtain a series of high-performing activation functions denoted as Exponential Error Linear Unit (EELU). The developed activation functions are evaluated for image classification tasks from two perspectives: (1) five state-of-the-art neural network architectures, such as ResNet50, AlexNet, VGG16, MobileNet, and Compact Convolutional Transformer which cover computationally heavy to light neural networks, and (2) eight standard datasets, including CIFAR10, Imagenette, MNIST, Fashion MNIST, Beans, Colorectal Histology, CottonWeedID15, and TinyImageNet which cover from typical machine vision benchmark, agricultural image applications to medical image applications. Finally, we statistically investigate the generalization of the resultant activation functions developed through the optimization scheme. With a Friedman test, we conclude that the optimization scheme is able to generate activation functions that outperform the existing standard ones in 92.8% cases among 28 different cases studied, and $-x\cdot erf(e^{-x})$ is found to be the best activation function for image classification generated by the optimization scheme.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# 軽量モダリティ融合と類似性を利用した無トレーニングZS-CIR

Training-free ZS-CIR via Weighted Modality Fusion and Similarity ( http://arxiv.org/abs/2409.04918v1 )

ライセンス: Link先を確認
Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang, (参考訳) 参照画像と修正テキストの組み合わせとしてクエリを定式化した合成画像検索(CIR)は,ユーザの意図を捉える能力の強化により,画像検索の新たな形態として登場した。 しかし、監督的な方法でCIRモデルをトレーニングするには、通常、労働集約的な(参照画像、テキスト修飾子、ターゲット画像)三重項の収集が必要である。 既存のゼロショットCIR(ZS-CIR)メソッドでは、特定のダウンストリームデータセットのトレーニングは不要だが、大規模なイメージテキストペアで追加の事前トレーニングが必要になる。 本稿では,ZS-CIRのトレーニング不要なアプローチを提案する。 WeiMoCIR (textbf{Wei}ghted \textbf{Mo}dality fusion and similarity for \textbf{CIR} (WeiMoCIR) は、単純な重み付き平均を用いて画像とテキストのモダリティを効果的に組み合わせることができるという仮定の下で機能する。 これにより、参照画像とテキスト修飾子から直接クエリ表現を構築することができる。 検索性能をより高めるため,データベース画像の画像キャプションを生成するためにMLLM(Multimodal Large Language Model)を用いて,重み付き平均を用いた画像情報と組み合わせることで,それらのテキストキャプションを類似性計算に組み込む。 提案手法は単純で実装が容易であり,FashionIQおよびCIRRデータセットを用いた実験によりその有効性が検証された。

Composed image retrieval (CIR), which formulates the query as a combination of a reference image and modified text, has emerged as a new form of image search due to its enhanced ability to capture users' intentions. However, training a CIR model in a supervised manner typically requires labor-intensive collection of (reference image, text modifier, target image) triplets. While existing zero-shot CIR (ZS-CIR) methods eliminate the need for training on specific downstream datasets, they still require additional pretraining with large-scale image-text pairs. In this paper, we introduce a training-free approach for ZS-CIR. Our approach, \textbf{Wei}ghted \textbf{Mo}dality fusion and similarity for \textbf{CIR} (WeiMoCIR), operates under the assumption that image and text modalities can be effectively combined using a simple weighted average. This allows the query representation to be constructed directly from the reference image and text modifier. To further enhance retrieval performance, we employ multimodal large language models (MLLMs) to generate image captions for the database images and incorporate these textual captions into the similarity computation by combining them with image information using a weighted average. Our approach is simple, easy to implement, and its effectiveness is validated through experiments on the FashionIQ and CIRR datasets.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# 共有線形表現を用いた協調学習:統計的レートと最適アルゴリズム

Collaborative Learning with Shared Linear Representations: Statistical Rates and Optimal Algorithms ( http://arxiv.org/abs/2409.04919v1 )

ライセンス: Link先を確認
Xiaochun Niu, Lili Su, Jiaming Xu, Pengkun Yang, (参考訳) コラボレーション学習により、複数のクライアントがローカルデータディストリビューション間で共有された特徴表現を学習できるようになる。 実験的な証拠は、協調学習の成功を示しているが、最適統計率に関する理論的理解は、線形な設定でさえも欠如している。 本稿では,クライアントが共通の低次元線形表現を共有する場合の最適統計率について述べる。 具体的には、最小二乗問題に対する最適解を近似する局所平均化を用いたスペクトル推定器を設計する。 我々は,推定器が最適誤差率を達成することを示すために,ミニマックス下限を確立する。 特に、最適速度は2つの異なる位相を示す。 典型的には、線形表現のパラメータカウントに基づく標準レートと一致する。 しかし、クライアントが多すぎる場合や、ローカルデータセットが比較的小さい場合には、統計的ペナルティが発生する。 さらに、既存のものとは異なり、システムレベルでは、コラボレーションは、独立したクライアント学習に比べて、全体的なサンプルの複雑さを減らします。 さらに、個人レベルでは、移行学習や個人ファインチューニングにおいて、クライアントがいつコラボレーションに恩恵を受けるかをより正確に評価する。

Collaborative learning enables multiple clients to learn shared feature representations across local data distributions, with the goal of improving model performance and reducing overall sample complexity. While empirical evidence shows the success of collaborative learning, a theoretical understanding of the optimal statistical rate remains lacking, even in linear settings. In this paper, we identify the optimal statistical rate when clients share a common low-dimensional linear representation. Specifically, we design a spectral estimator with local averaging that approximates the optimal solution to the least squares problem. We establish a minimax lower bound to demonstrate that our estimator achieves the optimal error rate. Notably, the optimal rate reveals two distinct phases. In typical cases, our rate matches the standard rate based on the parameter counting of the linear representation. However, a statistical penalty arises in collaborative learning when there are too many clients or when local datasets are relatively small. Furthermore, our results, unlike existing ones, show that, at a system level, collaboration always reduces overall sample complexity compared to independent client learning. In addition, at an individual level, we provide a more precise characterization of when collaboration benefits a client in transfer learning and private fine-tuning.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# MoistNet:木材チップの水分量測定のためのマシンビジョンに基づくディープラーニングモデル

MoistNet: Machine Vision-based Deep Learning Models for Wood Chip Moisture Content Measurement ( http://arxiv.org/abs/2409.04920v1 )

ライセンス: Link先を確認
Abdur Rahman, Jason Street, James Wooten, Mohammad Marufuzzaman, Veera G. Gude, Randy Buchanan, Haifeng Wang, (参考訳) 木材チップの水分量の迅速かつ信頼性の高い測定は, バイオ燃料, パルプ, 紙, バイオリファクトリーなど多くの森林関連産業において, 持続的な問題である。 水分含有量は最終製品品質と直接関係があるため、木材チップの重要な属性である。 オーブン乾燥などの水分量を決定する従来の技術は、その時間的特性、潜在的サンプル損傷、リアルタイム実現可能性の欠如といった面でいくつかの欠点がある。 さらに、NIR分光、電気容量、X線、マイクロ波などの代替技術はポテンシャルを示しており、それでも移植性、精度、必要な機器の費用に制約されている。 したがって, 即時, 携帯性, 非破壊性, 安価, 高精度な含水量判定方法が必要である。 本研究では,木材チップのRGB画像から,深層学習とマシンビジョンを用いて水分含有量のクラスを予測する。 木材チップの1,600RGB画像からなる大規模画像データセットを収集し,オーブン乾燥技術を用いて,地上の真理ラベルに注釈付けを行った。 2つの高性能ニューラルネットワーク、MoistNetLiteとMoistNetMaxがニューラルアーキテクチャサーチ(NAS)とハイパーパラメータ最適化を活用して開発されている。 開発モデルは、最先端のディープラーニングモデルと評価され、比較される。 その結果,MoistNetLiteは計算オーバーヘッドを最小限に抑えて87%の精度を達成し,MoistNetMaxは木材チップ水分量クラス予測において91%の精度で例外的精度を示した。 精度の向上と予測速度の向上により,提案したMoistNetモデルは,木製チップ処理産業に大いに期待できる。

Quick and reliable measurement of wood chip moisture content is an everlasting problem for numerous forest-reliant industries such as biofuel, pulp and paper, and bio-refineries. Moisture content is a critical attribute of wood chips due to its direct relationship with the final product quality. Conventional techniques for determining moisture content, such as oven-drying, possess some drawbacks in terms of their time-consuming nature, potential sample damage, and lack of real-time feasibility. Furthermore, alternative techniques, including NIR spectroscopy, electrical capacitance, X-rays, and microwaves, have demonstrated potential; nevertheless, they are still constrained by issues related to portability, precision, and the expense of the required equipment. Hence, there is a need for a moisture content determination method that is instant, portable, non-destructive, inexpensive, and precise. This study explores the use of deep learning and machine vision to predict moisture content classes from RGB images of wood chips. A large-scale image dataset comprising 1,600 RGB images of wood chips has been collected and annotated with ground truth labels, utilizing the results of the oven-drying technique. Two high-performing neural networks, MoistNetLite and MoistNetMax, have been developed leveraging Neural Architecture Search (NAS) and hyperparameter optimization. The developed models are evaluated and compared with state-of-the-art deep learning models. Results demonstrate that MoistNetLite achieves 87% accuracy with minimal computational overhead, while MoistNetMax exhibits exceptional precision with a 91% accuracy in wood chip moisture content class prediction. With improved accuracy and faster prediction speed, our proposed MoistNet models hold great promise for the wood chip processing industry.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# 隣り合うCCPに基づく分子配列解析

Nearest Neighbor CCP-Based Molecular Sequence Analysis ( http://arxiv.org/abs/2409.04922v1 )

ライセンス: Link先を確認
Sarwan Ali, Prakash Chourasia, Bipin Koirala, Murray Patterson, (参考訳) 分子配列解析は、タンパク質とタンパク質の相互作用、機能的アノテーション、疾患の分類など、いくつかの生物学的過程を理解するために重要である。 膨大な数の配列と本質的に複雑なタンパク質構造は、そのようなデータを分析するのを困難にしている。 パターンの発見とその後の研究の促進には、次元削減と特徴選択のアプローチが必要である。 近年,生物シークエンシングデータに有効な手法として,CCP(Correlated Clustering and Projection)と呼ばれる手法が提案されている。 CCP技術は、シーケンスの可視化に有効であっても、計算に依然として費用がかかる。 さらに、分子配列を分類するための実用性はまだ不明である。 これら2つの問題を解決するため、分子配列データを効率的に前処理するCCP-NN(Nearest Neighbor Correlated Clustering and Projection)技術を提案する。 関連する分子配列をグループ化し、代表的スーパーシーケンスを生成するために、CCPはシーケンスとシーケンスの相関を用いる。 従来の手法とは対照的に、CCPは行列対角化に依存しないので、様々な機械学習問題に適用できる。 密度マップを推定し、最寄りの探索手法を用いて相関を計算する。 提案手法の有効性を評価するために,CCPおよびCCP-NN表現を用いた分子配列分類を行った。 以上の結果から,CCP-NNは分類タスクの精度を大幅に向上し,計算実行時においてCCPを著しく上回ることがわかった。

Molecular sequence analysis is crucial for comprehending several biological processes, including protein-protein interactions, functional annotation, and disease classification. The large number of sequences and the inherently complicated nature of protein structures make it challenging to analyze such data. Finding patterns and enhancing subsequent research requires the use of dimensionality reduction and feature selection approaches. Recently, a method called Correlated Clustering and Projection (CCP) has been proposed as an effective method for biological sequencing data. The CCP technique is still costly to compute even though it is effective for sequence visualization. Furthermore, its utility for classifying molecular sequences is still uncertain. To solve these two problems, we present a Nearest Neighbor Correlated Clustering and Projection (CCP-NN)-based technique for efficiently preprocessing molecular sequence data. To group related molecular sequences and produce representative supersequences, CCP makes use of sequence-to-sequence correlations. As opposed to conventional methods, CCP doesn't rely on matrix diagonalization, therefore it can be applied to a range of machine-learning problems. We estimate the density map and compute the correlation using a nearest-neighbor search technique. We performed molecular sequence classification using CCP and CCP-NN representations to assess the efficacy of our proposed approach. Our findings show that CCP-NN considerably improves classification task accuracy as well as significantly outperforms CCP in terms of computational runtime.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# 乱流超解像のための単発ショット機械学習

Single-snapshot machine learning for turbulence super resolution ( http://arxiv.org/abs/2409.04923v1 )

ライセンス: Link先を確認
Kai Fukami, Kunihiko Taira, (参考訳) 現代の機械学習技術は一般的にデータハングリーと見なされる。 しかし、一般的な機械学習アプリケーションでは、それぞれのスナップショットが単一のデータファイルよりも多くの情報を保持することができるため、乱流ではそうではないかもしれない。 本研究では, 乱流渦流の単一スナップショットから, 非線形機械学習技術が物理的洞察を効果的に抽出できるかどうかを問う。 一例として,2次元減衰乱流に対する低分解能データから高分解能場を再構成する機械学習に基づく超解像解析について考察する。 単一のスナップショットからのみサンプリングしたフロータイルで学習した機械学習モデルにより,レイノルズ数の範囲で渦構造を再構築できることを明らかにする。 流れの復元に成功し, 非線形機械学習技術は乱流の学習にスケール不変性を活用できることが示唆された。 さらに、回転とせん断テンソルの特性を考慮して、単一スナップショットから乱流のトレーニングデータを巧みに収集できることを示す。 本研究は, モデル設計やデータ収集における事前知識の埋め込みが, 乱流解析の分野において重要であることを示唆する。 より広範に、この研究は、機械学習の実践者が乱流データに浪費するのを阻止することを望んでいる。

Modern machine-learning techniques are generally considered data-hungry. However, this may not be the case for turbulence as each of its snapshots can hold more information than a single data file in general machine-learning applications. This study asks the question of whether nonlinear machine-learning techniques can effectively extract physical insights even from as little as a single snapshot of a turbulent vortical flow. As an example, we consider machine-learning-based super-resolution analysis that reconstructs a high-resolution field from low-resolution data for two-dimensional decaying turbulence. We reveal that a carefully designed machine-learning model trained with flow tiles sampled from only a single snapshot can reconstruct vortical structures across a range of Reynolds numbers. Successful flow reconstruction indicates that nonlinear machine-learning techniques can leverage scale-invariance properties to learn turbulent flows. We further show that training data of turbulent flows can be cleverly collected from a single snapshot by considering characteristics of rotation and shear tensors. The present findings suggest that embedding prior knowledge in designing a model and collecting data is important for a range of data-driven analyses for turbulent flows. More broadly, this work hopes to stop machine-learning practitioners from being wasteful with turbulent flow data.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# カラム置換問題に対する$Δ$-evaluation関数

A $Δ$-evaluation function for column permutation problems ( http://arxiv.org/abs/2409.04926v1 )

ライセンス: Link先を確認
Júnior R. Lima, Viníicius Gandra M. Santos, Marco Antonio M. Carvalho, (参考訳) 本研究では,スパース二元行列上のカラム置換問題の連続的な性質を解くために,新しい$\Delta$-evaluation法を提案する。 この問題はグラフ理論と工業生産の文脈における様々な$\mathcal{NP}$-hard問題をモデル化する。 計算実験は、$\Delta$-evaluation法の処理時間と、よく知られた局所探索手順で使用される他の2つの方法を比較した。 この研究は、Gate Matrix Layout や Minimization of Open Stacks など、よく知られた問題の包括的な例を考察している。 提案手法は一般に競争力があり,特に大規模かつ高密度なインスタンスに有用である。 ローカル検索やメタヒューリスティックアルゴリズムに簡単に統合でき、処理時間を大幅に増やすことなくソリューションを改善することができる。

In this study, a new $\Delta$-evaluation method is introduced for solving a column permutation problem defined on a sparse binary matrix with the consecutive ones property. This problem models various $\mathcal{NP}$-hard problems in graph theory and industrial manufacturing contexts. The computational experiments compare the processing time of the $\Delta$-evaluation method with two other methods used in well-known local search procedures. The study considers a comprehensive set of instances of well-known problems, such as Gate Matrix Layout and Minimization of Open Stacks. The proposed evaluation method is generally competitive and particularly useful for large and dense instances. It can be easily integrated into local search and metaheuristic algorithms to improve solutions without significantly increasing processing time.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# 音声大言語モデルにおける音声対話における話者の認識と理解能力の検討

Just ASR + LLM? A Study on Speech Large Language Models' Ability to Identify and Understand Speaker in Spoken Dialogue ( http://arxiv.org/abs/2409.04927v1 )

ライセンス: Link先を確認
Junkai Wu, Xulin Fan, Bo-Ru Lu, Xilin Jiang, Nima Mesgarani, Mark Hasegawa-Johnson, Mari Ostendorf, (参考訳) 近年,音声言語モデル(SpeechLLMs)が急速に進歩し,人間の聴取能力や推論能力に追いついている。 興味深いことに、SpeechLLMは、中国の大学入試の英語リスニングテストであるGaokaoのようなベンチマークで、会話中の話者の音声内容と音声特性の両方を理解する必要がある、印象的な音声対話質問応答(SQA)パフォーマンスを実証した。 しかし, ガオカオの質問を精査した結果, 質問した話者を特定することなく, 会話の文脈だけで多くの質問に対する正しい回答を推測できることが判明した。 ガオカオのQwen-AudioとWavLLMの両モデルについて,提案した「What Do You Like?」データセットを用いて評価した。 SQAを解くと、現在のSpeechLLMは音声からの話者認識が限られており、音声のない会話の書き起こしからLLMに類似して振る舞うことが示唆された。 我々は,SQAタスクにおけるSpeechLLMのより正確な評価フレームワークとして,コンテキストベースおよびアイデンティティクリティカルな質問の定義と自動分類を提案する。

In recent years, we have observed a rapid advancement in speech language models (SpeechLLMs), catching up with humans' listening and reasoning abilities. Remarkably, SpeechLLMs have demonstrated impressive spoken dialogue question-answering (SQA) performance in benchmarks like Gaokao, the English listening test of the college entrance exam in China, which seemingly requires understanding both the spoken content and voice characteristics of speakers in a conversation. However, after carefully examining Gaokao's questions, we find the correct answers to many questions can be inferred from the conversation context alone without identifying the speaker asked in the question. Our evaluation of state-of-the-art models Qwen-Audio and WavLLM in both Gaokao and our proposed "What Do You Like?" dataset shows a significantly higher accuracy in these context-based questions than in identity-critical questions, which can only be answered correctly with correct speaker identification. Our results and analysis suggest that when solving SQA, the current SpeechLLMs exhibit limited speaker awareness from the audio and behave similarly to an LLM reasoning from the conversation transcription without sound. We propose that our definitions and automated classification of context-based and identity-critical questions could offer a more accurate evaluation framework of SpeechLLMs in SQA tasks.
翻訳日:2024-09-10 20:10:34 公開日:2024-09-07
# PIXHELL攻撃:「Singing Pixels」でエアギャップコンピュータから機密情報を漏洩

PIXHELL Attack: Leaking Sensitive Information from Air-Gap Computers via `Singing Pixels' ( http://arxiv.org/abs/2409.04930v1 )

ライセンス: Link先を確認
Mordechai Guri, (参考訳) 航空運送システムは、機密データを格納したり処理したりするため、インターネットや他のネットワークから切り離されている。 しかし、攻撃者はコンピュータ・スピーカーを使って音でデータを漏らすことで防空効果を回避できることが知られている。 この脅威に対処するため、高度に機密性の高いデータが関与する場合、スピーカーやオーディオハードウェアの禁止が実施される可能性がある。 この尺度は「オーディオギャップ」として知られている。 本稿では,画面上の画素が生成するノイズによって,ハッカーが情報を漏洩させることのできる,新しいタイプの隠蔽チャネル攻撃であるPIXHELLを提案する。 オーディオハードウェアやスピーカーは不要。 エアギャップおよびオーディオギャップコンピュータのマルウェアは、0から22kHzの周波数範囲でノイズを発生させる製造されたピクセルパターンを生成する。 悪意のあるコードは、コイルやコンデンサによって発生する音を利用して、画面から発する周波数を制御する。 音響信号は、機密情報を符号化して送信することができる。 本稿では、敵攻撃モデルを提示し、関連する作業をカバーし、技術的背景を提供する。 本稿では,ビットマップ生成と相関音響信号について論じ,変調・復調処理の実装の詳細について述べる。 各種画面上での隠蔽チャネルの評価を行い,異なる種類の情報を用いて検証した。 また、黒のオフスクリーンのような低明度パターンを用いて、‘textit{evasion and stealth}’についても論じる。 最後に,一連の対策を提案する。 実験の結果, PIXHELL攻撃では, LCD画面から変調した音により, 2m離れた距離から, 音声を受信したコンピュータからテキストとバイナリデータを抽出できることがわかった。

Air-gapped systems are disconnected from the Internet and other networks because they contain or process sensitive data. However, it is known that attackers can use computer speakers to leak data via sound to circumvent the air-gap defense. To cope with this threat, when highly sensitive data is involved, the prohibition of loudspeakers or audio hardware might be enforced. This measure is known as an `audio gap'. In this paper, we present PIXHELL, a new type of covert channel attack allowing hackers to leak information via noise generated by the pixels on the screen. No audio hardware or loudspeakers is required. Malware in the air-gap and audio-gap computers generates crafted pixel patterns that produce noise in the frequency range of 0 - 22 kHz. The malicious code exploits the sound generated by coils and capacitors to control the frequencies emanating from the screen. Acoustic signals can encode and transmit sensitive information. We present the adversarial attack model, cover related work, and provide technical background. We discuss bitmap generation and correlated acoustic signals and provide implementation details on the modulation and demodulation process. We evaluated the covert channel on various screens and tested it with different types of information. We also discuss \textit{evasion and stealth} using low-brightness patterns that appear like black, turned-off screens. Finally, we propose a set of countermeasures. Our test shows that with a PIXHELL attack, textual and binary data can be exfiltrated from air-gapped, audio-gapped computers at a distance of 2m via sound modulated from LCD screens.
翻訳日:2024-09-10 20:00:10 公開日:2024-09-07
# 騒音に基づく認証:安全か?

Noise-Based Authentication: Is It Secure? ( http://arxiv.org/abs/2409.04931v1 )

ライセンス: Link先を確認
Sarah A. Flanery, Christiana Chamon, (参考訳) 本稿ではブロックチェーンベースの分散IDネットワークのための3点生体認証システムを提案する。 既存の生体認証システムを用いて,生体特性から漏洩した個々の人ごとの独特のノイズ指紋を実証する。 次に,各ユーザが生成するユニークなサーマルノイズ振幅を用いるという概念を提案し,無条件でセキュアな認証の堅牢性に関するオープンな質問を探索する。

This paper introduces a three-point biometric authentication system for a blockchain-based decentralized identity network. We use existing biometric authentication systems to demonstrate the unique noise fingerprints that belong to each individual human and the respective information leak from the biological characteristics. We then propose the concept of using unique thermal noise amplitudes generated by each user and explore the open questions regarding the robustness of unconditionally secure authentication.
翻訳日:2024-09-10 20:00:10 公開日:2024-09-07
# 関係抽出ポテンシャルの最大化:課題と機会の解明のためのデータ中心研究

Maximizing Relation Extraction Potential: A Data-Centric Study to Unveil Challenges and Opportunities ( http://arxiv.org/abs/2409.04934v1 )

ライセンス: Link先を確認
Anushka Swarup, Avanti Bhandarkar, Olivia P. Dizon-Paradis, Ronald Wilson, Damon L. Woodard, (参考訳) 関係抽出は、テキストデータから関係を抽出することを目的とした自然言語処理タスクである。 これは情報抽出にとって重要なステップである。 大規模な適用性のため、関係抽出の研究は、高度に高度なニューラルネットワークを使用するように急速に拡大している。 計算上の優位性にもかかわらず、現代の関係抽出器は複雑な抽出シナリオを処理できない。 しかし、これらの課題をコンパイルする最先端関係抽出器の総合的な性能解析は文献から欠落しており、本論文はこのギャップを埋めることを目的としている。 目的は、神経関係抽出を阻害するデータ中心の特徴について検討することであった。 本研究は, 連続的アーキテクチャから大規模言語モデル, 7つの大規模データセットまで, 15の最先端関係抽出アルゴリズムを用いて行った広範囲な実験に基づいて, 現代の関係抽出器は複雑なデータや関係特性に対して堅牢ではないことを示唆する。 それは、文脈の曖昧さ、関係関係の関連、長い尾のデータ、きめ細かい関係の分布など、重要な問題を強調している。 さらに、これらの問題を緩和するための将来の方向性のマーカーを設定し、初心者や先進的な研究者にとって重要なリソースであることが証明された。 記述された課題の効率的な処理は、検索エンジンやチャットボットといった一般的なシステムにおいて重要な部分である情報抽出の分野に重大な影響を及ぼす可能性がある。 データと関連するコードはhttps://github.com/anushkasw/MaxREにある。

Relation extraction is a Natural Language Processing task aiming to extract relationships from textual data. It is a critical step for information extraction. Due to its wide-scale applicability, research in relation extraction has rapidly scaled to using highly advanced neural networks. Despite their computational superiority, modern relation extractors fail to handle complicated extraction scenarios. However, a comprehensive performance analysis of the state-of-the-art relation extractors that compile these challenges has been missing from the literature, and this paper aims to bridge this gap. The goal has been to investigate the possible data-centric characteristics that impede neural relation extraction. Based on extensive experiments conducted using 15 state-of-the-art relation extraction algorithms ranging from recurrent architectures to large language models and seven large-scale datasets, this research suggests that modern relation extractors are not robust to complex data and relation characteristics. It emphasizes pivotal issues, such as contextual ambiguity, correlating relations, long-tail data, and fine-grained relation distributions. In addition, it sets a marker for future directions to alleviate these issues, thereby proving to be a critical resource for novice and advanced researchers. Efficient handling of the challenges described can have significant implications for the field of information extraction, which is a critical part of popular systems such as search engines and chatbots. Data and relevant code can be found at https://github.com/anushkasw/MaxRE.
翻訳日:2024-09-10 20:00:10 公開日:2024-09-07
# Taylor Expansionによるビデオの展開

Unfolding Videos Dynamics via Taylor Expansion ( http://arxiv.org/abs/2409.02371v2 )

ライセンス: Link先を確認
Siyi Chen, Minkyu Choi, Zesen Zhao, Kuan Han, Qing Qu, Zhongming Liu, (参考訳) 身体運動からインスピレーションを得て、ビデオのための新しい自己教師型動的学習戦略を示す: インスタンス識別のためのビデオ時間差分法(ViDiDi)。 ViDiDiは、シンプルでデータ効率のよい戦略であり、インスタンス識別に基づいて、既存の自己教師付きビデオ表現学習フレームワークに容易に適用できる。 中心となるViDiDiは、フレームシーケンスの様々な時間的デリバティブを通して、ビデオのさまざまな側面を観察する。 これらの微分は、元のフレームとともに、高階微分が高階運動特徴を強調する離散時間における基礎となる連続力学のテイラー級数展開をサポートする。 ViDiDiは、ビデオとその時間微分を一貫した埋め込みにエンコードする単一のニューラルネットワークを、バランスの取れた交互学習アルゴリズムに従って学習する。 元のフレームとデリバティブの一貫性のある表現を学習することにより、エンコーダは静的な背景よりも動きの特徴を強調し、元のフレームに隠れたダイナミクスを明らかにする。 したがって、ビデオ表現は動的な特徴によってより分離される。 我々は、既存のインスタンス識別フレームワーク(VICReg、BYOL、SimCLR)にViDiDiを統合し、UCF101やKineticsで事前トレーニングを行い、ビデオ検索、アクション認識、アクション検出などの標準ベンチマークでテストする。 大規模なモデルや広範なデータセットを必要とせずに、大幅なマージンでパフォーマンスが向上する。

Taking inspiration from physical motion, we present a new self-supervised dynamics learning strategy for videos: Video Time-Differentiation for Instance Discrimination (ViDiDi). ViDiDi is a simple and data-efficient strategy, readily applicable to existing self-supervised video representation learning frameworks based on instance discrimination. At its core, ViDiDi observes different aspects of a video through various orders of temporal derivatives of its frame sequence. These derivatives, along with the original frames, support the Taylor series expansion of the underlying continuous dynamics at discrete times, where higher-order derivatives emphasize higher-order motion features. ViDiDi learns a single neural network that encodes a video and its temporal derivatives into consistent embeddings following a balanced alternating learning algorithm. By learning consistent representations for original frames and derivatives, the encoder is steered to emphasize motion features over static backgrounds and uncover the hidden dynamics in original frames. Hence, video representations are better separated by dynamic features. We integrate ViDiDi into existing instance discrimination frameworks (VICReg, BYOL, and SimCLR) for pretraining on UCF101 or Kinetics and test on standard benchmarks including video retrieval, action recognition, and action detection. The performances are enhanced by a significant margin without the need for large models or extensive datasets.
翻訳日:2024-09-10 13:26:07 公開日:2024-09-07
# 深部状態空間モデリングによる生信号のリアルタイム音声強調

Real-time Speech Enhancement on Raw Signals with Deep State-space Modeling ( http://arxiv.org/abs/2409.03377v2 )

ライセンス: Link先を確認
Yan Ru Pei, Ritik Shrivastava, FNU Sidharth, (参考訳) ATENNuateは、エンドツーエンドで効率的なオンライン生音声強調を実現するための、シンプルな状態空間オートエンコーダである。 ネットワークの性能は、主に生の音声認識で評価され、超分解能や非量子化などのタスクで評価される。 我々は、VoiceBank + DEMANDとMicrosoft DNS1合成テストセットでaTENNuateをベンチマークする。 ネットワークは、PSSQスコア、パラメータカウント、MAC、レイテンシの点で、従来のリアルタイムデノナイズモデルを上回っている。 生波形処理モデルとしても、最小限の可聴アーチファクトを持つクリーン信号に対する忠実度を維持する。 さらに、ノイズ入力が4000Hzと4ビットに圧縮された場合でもモデルが動作し、低リソース環境における一般的な音声強調能力を示唆している。 コードはgithub.com/Brainchip-Inc/aTENNuateで入手できる。

We present aTENNuate, a simple deep state-space autoencoder configured for efficient online raw speech enhancement in an end-to-end fashion. The network's performance is primarily evaluated on raw speech denoising, with additional assessments on tasks such as super-resolution and de-quantization. We benchmark aTENNuate on the VoiceBank + DEMAND and the Microsoft DNS1 synthetic test sets. The network outperforms previous real-time denoising models in terms of PESQ score, parameter count, MACs, and latency. Even as a raw waveform processing model, the model maintains high fidelity to the clean signal with minimal audible artifacts. In addition, the model remains performant even when the noisy input is compressed down to 4000Hz and 4 bits, suggesting general speech enhancement capabilities in low-resource environments. Code is available at github.com/Brainchip-Inc/aTENNuate
翻訳日:2024-09-10 13:26:06 公開日:2024-09-07
# 大規模言語モデルにおける少数ショット学習と微調整の表現的景観

The representation landscape of few-shot learning and fine-tuning in large language models ( http://arxiv.org/abs/2409.03662v2 )

ライセンス: Link先を確認
Diego Doimo, Alessandro Serra, Alessio Ansuini, Alberto Cazzaniga, (参考訳) In-context Learning (ICL) と supervised fine-tuning (SFT) は、現代の大規模言語モデル(LLM) の性能向上のための2つの一般的な戦略である。 異なる性質にもかかわらず、これらの戦略はしばしば同等のパフォーマンス向上につながる。 しかし、それらがLLMの内部で類似した表現を誘導するかどうかはほとんど分かっていない。 本稿では,2つのケースで隠れた表現の確率的景観を解析することにより,この問題に対処する。 より具体的には、LLMが同じ質問応答タスクをどのように解決するかを比較し、ICLとSFTがネットワークの中央で急激な遷移を行う場合において、非常に異なる内部構造を生成することを発見した。 ネットワークの前半では、ICLは意味的内容に応じて階層的に解釈可能な表現を形作る。 対照的に、SFTで得られる確率ランドスケープはファジィであり、意味的に混合される。 モデル後半では、微調整された表現は、回答のアイデンティティをよりよくエンコードする確率モードを発達させ、ICL表現のランドスケープは、定義の少ないピークによって特徴づけられる。 提案手法は,LLMの内部で開発されている多種多様な計算戦略を用いて,異なる条件で同じ課題を解決し,言語モデルから情報を抽出する最適な手法を設計するための一歩を踏み出したものである。

In-context learning (ICL) and supervised fine-tuning (SFT) are two common strategies for improving the performance of modern large language models (LLMs) on specific tasks. Despite their different natures, these strategies often lead to comparable performance gains. However, little is known about whether they induce similar representations inside LLMs. We approach this problem by analyzing the probability landscape of their hidden representations in the two cases. More specifically, we compare how LLMs solve the same question-answering task, finding that ICL and SFT create very different internal structures, in both cases undergoing a sharp transition in the middle of the network. In the first half of the network, ICL shapes interpretable representations hierarchically organized according to their semantic content. In contrast, the probability landscape obtained with SFT is fuzzier and semantically mixed. In the second half of the model, the fine-tuned representations develop probability modes that better encode the identity of answers, while the landscape of ICL representations is characterized by less defined peaks. Our approach reveals the diverse computational strategies developed inside LLMs to solve the same task across different conditions, allowing us to make a step towards designing optimal methods to extract information from language models.
翻訳日:2024-09-10 13:26:06 公開日:2024-09-07
# 特徴量正規化による低値正規化における細粒度視覚認識の強化

Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization ( http://arxiv.org/abs/2409.01672v2 )

ライセンス: Link先を確認
Avraham Chapman, Haiming Xu, Lingqiao Liu, (参考訳) 限られたデータを用いたきめ細かい画像認識モデルの訓練は、ノイズパターンを乱す中で、カテゴリ間の微妙な違いが容易に識別できないため、大きな課題となる。 一般的に使用される戦略のひとつは、事前訓練されたニューラルネットワークを活用することであり、制限されたデータセットで画像分類モデルを構築するための効果的な特徴表現を生成することができる。 しかし、これらの事前訓練されたニューラルネットワークは、通常、目の前のきめ細かい視覚認識(FGVR)タスクとは異なるタスクのために訓練される。 さらに、限られたデータでFGVRモデルを構築する場合、これらの無関係な機能はトレーニングプロセスを支配し、より有用で一般化可能な差別的特徴を覆い隠すことができる。 私たちは、抽出された特徴の規模が均等に分散されていることを保証するために、正規化技術を導入しました。 この正規化は、正規化された特徴のエントロピーを通じて測定される特徴量分布の均一性を最大化することで達成される。 この正規化の背後にある動機は、事前訓練されたモデルから特徴量のバイアスを取り除くことである。 さらに,この正規化の強度を学習過程を通じて調節する動的重み付け機構を開発した。 その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。

Training a fine-grained image recognition model with limited data presents a significant challenge, as the subtle differences between categories may not be easily discernible amidst distracting noise patterns. One commonly employed strategy is to leverage pretrained neural networks, which can generate effective feature representations for constructing an image classification model with a restricted dataset. However, these pretrained neural networks are typically trained for different tasks than the fine-grained visual recognition (FGVR) task at hand, which can lead to the extraction of less relevant features. Moreover, in the context of building FGVR models with limited data, these irrelevant features can dominate the training process, overshadowing more useful, generalizable discriminative features. Our research has identified a surprisingly simple solution to this challenge: we introduce a regularization technique to ensure that the magnitudes of the extracted features are evenly distributed. This regularization is achieved by maximizing the uniformity of feature magnitude distribution, measured through the entropy of the normalized features. The motivation behind this regularization is to remove bias in feature magnitudes from pretrained models, where some features may be more prominent and, consequently, more likely to be used for classification. Additionally, we have developed a dynamic weighting mechanism to adjust the strength of this regularization throughout the learning process. Despite its apparent simplicity, our approach has demonstrated significant performance improvements across various fine-grained visual recognition datasets.
翻訳日:2024-09-10 11:18:54 公開日:2024-09-07
# A+AI: 社会、改革、ガバナンスへの脅威

A+AI: Threats to Society, Remedies, and Governance ( http://arxiv.org/abs/2409.02219v2 )

ライセンス: Link先を確認
Don Byrd, (参考訳) この文書は、人工知能(AI)が社会にもたらす脅威、特に短期的な脅威に焦点を当てている。 ここで議論されている脅威のほとんどは、AIだけでなく、アルゴリズムのプロセスによってもたらされる。 両方の理由から、アルゴリズムと人工知能という「A+AI」を考えることが重要である。 脅威に加えて,脅威に対する対策についても論じるとともに,どの脅威を緩和するかを示す表も含む。 疑わしいガバナンスは、重大な進歩を妨げることなくリスクを管理することができる。 アメリカ合衆国内でアクセス可能なすべてのソーシャルメディアプラットフォームに対して、アカウントが市民によって所有されていることの検証と、すべてのアカウントの検証ステータスの表示を要求 * A+AIで作成または大幅に修正されたすべての製品が明確にラベル付けされること、人の類似性を創造するために生成AIの使用を制限すること、および、生成AIソフトウェアの作成者が、ソフトウェアをトレーニングするために使用される材料を開示し、使用した著作権物質の作成者を補償することを要求すること。

This document focuses on the threats, especially near-term threats, that Artificial Intelligence (AI) brings to society. Most of the threats discussed here can result from any algorithmic process, not just AI; in addition, defining AI is notoriously difficult. For both reasons, it is important to think of "A+AI": Algorithms and Artificial Intelligence. In addition to the threats, this paper discusses countermeasures to them, and it includes a table showing which countermeasures are likely to mitigate which threats. Thoughtful governance could manage the risks without seriously impeding progress; in fact, chances are it would accelerate progress by reducing the social chaos that would otherwise be likely. The paper lists specific actions government should take as soon as possible, namely: * Require all social media platforms accessible in the U.S. to offer users verification that their accounts are owned by citizens, and to display every account's verification status * Establish regulations to require that all products created or significantly modified with A+AI be clearly labeled as such; to restrict use of generative AI to create likenesses of persons; and to require creators of generative AI software to disclose materials used to train their software and to compensate the creators of any copyrighted material used * Fund a crash project of research on mitigating the threats * Fund educational campaigns to raise awareness of the threats
翻訳日:2024-09-10 11:18:54 公開日:2024-09-07
# セッションベースのソーシャルレコメンデーションにおける親しいデータスパリティーを克服するために、同種のピアを組み込むこと

Incorporating Like-Minded Peers to Overcome Friend Data Sparsity in Session-Based Social Recommendations ( http://arxiv.org/abs/2409.02702v2 )

ライセンス: Link先を確認
Chunyan An, Yunhan Li, Qiang Yang, Winston K. G. Seah, Zhixu Li, Conghao Yang, (参考訳) セッションベースのソーシャルレコメンデーション(SSR)は、セッションベースのレコメンデーション(SR)の性能を高めるために、オンラインネットワーク内の社会的関係を活用する。 しかし、既存のSSRアルゴリズムは、しばしば「フレンドデータスパシティ」という課題に直面している。 さらに、ソーシャルネットワーク利用者の購入好みとターゲット利用者の購入嗜好との間には大きな相違が生じ、ターゲット利用者の好みに対する友人の影響が減少する。 これらの課題に対処するために,本論文では,ユーザの現在セッションとユーザの好みが一致しているユーザを,その履歴セッションに基づいて表現する「いいね!」ピアス(LMP)という概念を紹介した。 これは、私たちの知る限り、SSRにおける社会的影響のモデリングを強化するためにLMPを使用する最初の作品である。 このアプローチは、友人データのスパシティの問題を軽減するだけでなく、ターゲットのユーザと同じような好みのユーザを効果的に組み込む。 本稿では,TEGAARec(Graph Attention Aggregator Recommendation)を用いたTransformer Encoderという新しいモデルを提案する。 TEGAAモジュールは、ターゲットユーザとLMPユーザに対する長期的な利益と短期利益の両方をキャプチャしてマージする。 同時に、GATベースのソーシャルアグリゲーションモジュールは、ターゲットユーザの動的興味と社会的影響を重み付けで集約するように設計されている。 実世界の4つのデータセットに対する大規模な実験により,提案モデルの有効性と優位性を実証し,TEGAARecの各コンポーネントの寄与を説明するためにアブレーション研究を行った。

Session-based Social Recommendation (SSR) leverages social relationships within online networks to enhance the performance of Session-based Recommendation (SR). However, existing SSR algorithms often encounter the challenge of "friend data sparsity". Moreover, significant discrepancies can exist between the purchase preferences of social network friends and those of the target user, reducing the influence of friends relative to the target user's own preferences. To address these challenges, this paper introduces the concept of "Like-minded Peers" (LMP), representing users whose preferences align with the target user's current session based on their historical sessions. This is the first work, to our knowledge, that uses LMP to enhance the modeling of social influence in SSR. This approach not only alleviates the problem of friend data sparsity but also effectively incorporates users with similar preferences to the target user. We propose a novel model named Transformer Encoder with Graph Attention Aggregator Recommendation (TEGAARec), which includes the TEGAA module and the GAT-based social aggregation module. The TEGAA module captures and merges both long-term and short-term interests for target users and LMP users. Concurrently, the GAT-based social aggregation module is designed to aggregate the target users' dynamic interests and social influence in a weighted manner. Extensive experiments on four real-world datasets demonstrate the efficacy and superiority of our proposed model and ablation studies are done to illustrate the contributions of each component in TEGAARec.
翻訳日:2024-09-10 11:18:54 公開日:2024-09-07