このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240522となっている論文です。

PDF登録状況(公開日: 20240522)

TitleAuthorsAbstract論文公表日・翻訳日
# ビデオゲームにおけるジェンダー:クリエイティビティの創造性

Gender in video games: Creativity for inclusivity ( http://arxiv.org/abs/2407.16536v1 )

ライセンス: Link先を確認
Maria Isabel Rivas Ginel, Sarah Theroine, (参考訳) 映像ゲームのローカライゼーションは,視覚環境の欠如やテキストの線形性の欠如に強く影響され,トランスレータは,変数が生み出すハードルを克服するために,ジェンダーの観点から包括的ソリューションを作成せざるを得なかった。 本稿では,女性,トランスジェンダー,ノンバイナリ,非セクシュアル化キャラクタを含むビデオゲームから抽出したパラレルコーパスから抽出したテクニックについて紹介する。 p><strong>LE GENRE DANS LES JEUX VID\&Eacute;O : LA CR\&Eacute;ATIVIT\&Eacute; POUR L\&\#39;INCLUSIVIT\&Eacute;\&nbsp;</strong> La localisation de jeux vid\&eacute;o, un domaine tr\&egrave;s impact\&eacute; par l\&rsquo;absence d\&rsquo;acc\&egrave;s au jeu ainsi que le le le joque de la lin&eacute;acc\&egrave;s au jeu ainsi que le le le joque de de la lin'eacute; au au au ainsi que que le le le le le de la de la de la de lauuuuuuuuuuuu, augrave;egrave;acute;acc\egrave;s augrave;acc\egrave;s au au augrave;egrave; au grave;s per-egrave;egrave;egrave;s Cet article se propose d\&rsquo;introduire les caract\&eacute;ristiques du secteur ainsi que de pr\&eacute;senter l\&rsquo;analyse des techniques extraites des corpus parall\&egrave;les compil\&eacute;s \&agrave; partir des jeux ayant des personnages f\&eacute;minins, transgenres, non-binaires, et non-sexualis\&eacute;s。 \&nbsp;</p>。

<p>Video game localisation, a field highly impacted by the lack of visual environment and text linearity, forces translators to create inclusive solutions in terms of gender to overcome the hurdles created by variables. This paper will introduce the specificities of this sector and present an analysis of some of those techniques extracted from parallel corpora compiled from video games that include female, transgender, non-binary, and non-sexualised characters.\&nbsp;</p> <p><strong>LE GENRE DANS LES JEUX VID\&Eacute;O : LA CR\&Eacute;ATIVIT\&Eacute; POUR L\&\#39;INCLUSIVIT\&Eacute;\&nbsp;</strong> La localisation de jeux vid\&eacute;o, un domaine tr\&egrave;s impact\&eacute; par l\&rsquo;absence d\&rsquo;acc\&egrave;s au jeu ainsi que par le manque de lin\&eacute;arit\&eacute; textuelle, oblige les traducteurs \&agrave; trouver des solutions inclusives pour faire face aux probl\&egrave;mes cr\&eacute;\&eacute;s par les variables. Cet article se propose d\&rsquo;introduire les caract\&eacute;ristiques du secteur ainsi que de pr\&eacute;senter l\&rsquo;analyse des techniques extraites des corpus parall\&egrave;les compil\&eacute;s \&agrave; partir des jeux ayant des personnages f\&eacute;minins, transgenres, non-binaires, et non-sexualis\&eacute;s. \&nbsp;</p>
翻訳日:2024-08-05 01:55:24 公開日:2024-05-22
# Big5Personality Essays: 人格の5因子モデルに基づく短い意識評価を含む新しい合成データセットの導入

Big5PersonalityEssays: Introducing a Novel Synthetic Generated Dataset Consisting of Short State-of-Consciousness Essays Annotated Based on the Five Factor Model of Personality ( http://arxiv.org/abs/2407.17586v1 )

ライセンス: Link先を確認
Iustin Floroiu, (参考訳) 大規模言語モデル(LLM)の高度化を考えると、その振る舞いを研究し、あらゆる科学分野に応用することが重要である。 心理学は、近年、新しい計算ツールを使って、不十分なアプローチをしてきた。 理由の1つは、適切な分析に必要なデータの複雑さが高いことである。 さらに、心理学はサイコメトリに焦点を合わせ、分析や人工知能の使用のために利用可能なデータセットはほとんどない。 これらの事実から,人格特性の5因子モデル(FFM)に基づいてラベル付けされた短いエッセイの合成データベースを導入する。

Given the high advances of large language models (LLM) it is of vital importance to study their behaviors and apply their utility in all kinds of scientific fields. Psychology has been, in recent years, poorly approached using novel computational tools. One of the reasons is the high complexity of the data required for a proper analysis. Moreover, psychology, with a focus on psychometry, has few datasets available for analysis and artificial intelligence usage. Because of these facts, this study introduces a synthethic database of short essays labeled based on the five factor model (FFM) of personality traits.
翻訳日:2024-08-05 01:35:56 公開日:2024-05-22
# 金融機関サービスにおける顧客目標の予測:データ駆動型LSTMアプローチ

Predicting Customer Goals in Financial Institution Services: A Data-Driven LSTM Approach ( http://arxiv.org/abs/2406.19399v1 )

ライセンス: Link先を確認
Andrew Estornell, Stylianos Loukas Vasileiou, William Yeoh, Daniel Borrajo, Rui Silva, (参考訳) 今日の競争力のある財務状況では、組織がパーソナライズされ、最適化されたユーザーエクスペリエンスを提供するためには、顧客目標の理解と予測が不可欠です。 これは、顧客の目標と行動を正確に予測する問題を引き起こしました。 その問題に焦点をあてて、現実的なシミュレータによって生成された履歴的顧客トレースを使用し、顧客目標と将来の行動を予測するための2つのシンプルなモデルを提示します。 その結果,顧客の目標や行動を予測する上で,これらのモデルの有効性が示された。

In today's competitive financial landscape, understanding and anticipating customer goals is crucial for institutions to deliver a personalized and optimized user experience. This has given rise to the problem of accurately predicting customer goals and actions. Focusing on that problem, we use historical customer traces generated by a realistic simulator and present two simple models for predicting customer goals and future actions -- an LSTM model and an LSTM model enhanced with state-space graph embeddings. Our results demonstrate the effectiveness of these models when it comes to predicting customer goals and actions.
翻訳日:2024-07-22 22:48:25 公開日:2024-05-22
# 拒否がオプションではない場合、サービスプロバイダとタスクの両方に公平なWin-Win戦略を設計する

Design a Win-Win Strategy That Is Fair to Both Service Providers and Tasks When Rejection Is Not an Option ( http://arxiv.org/abs/2407.00032v1 )

ライセンス: Link先を確認
Yohai Trabelsi, Pan Xu, Sarit Kraus, (参考訳) サービスプロバイダにタスクを割り当てることは、さまざまなアプリケーションにまたがる頻繁な手続きである。 サービスプロバイダが静的である間、多くの場合、タスクは動的に到着します。 サービスプロバイダのオーバーロードによって引き起こされるタスクの拒絶を防ぐことは、非常に重要である。 サービスプロバイダとタスクの両方の関連アプリケーションでポジティブなエクスペリエンスを確保するには、公正さを考慮しなければなりません。 この問題に対処するため、両部グラフ内のオンラインマッチングとしてこの問題をモデル化し、2つのミニマックス問題に対処する: 1つはタスクの最高待ち時間を最小化することに焦点を当て、もう1つはサービスプロバイダの最高負荷を最小限にすることを目的としている。 第2の問題は線形プログラムとして表現でき、第1の課題の目的に対する妥当な近似を維持しつつ効率よく解決できることを示す。 2つのミニマックス問題を利用する新しい手法を開発した。 実データを用いた広範囲なシミュレーション実験を行い,線形プログラムに基づく新しいヒューリスティックスの有効性を実証した。

Assigning tasks to service providers is a frequent procedure across various applications. Often the tasks arrive dynamically while the service providers remain static. Preventing task rejection caused by service provider overload is of utmost significance. To ensure a positive experience in relevant applications for both service providers and tasks, fairness must be considered. To address the issue, we model the problem as an online matching within a bipartite graph and tackle two minimax problems: one focuses on minimizing the highest waiting time of a task, while the other aims to minimize the highest workload of a service provider. We show that the second problem can be expressed as a linear program and thus solved efficiently while maintaining a reasonable approximation to the objective of the first problem. We developed novel methods that utilize the two minimax problems. We conducted extensive simulation experiments using real data and demonstrated that our novel heuristics, based on the linear program, performed remarkably well.
翻訳日:2024-07-22 22:38:24 公開日:2024-05-22
# ブロッカージュの文脈オンライン学習理論

A Contextual Online Learning Theory of Brokerage ( http://arxiv.org/abs/2407.01566v1 )

ライセンス: Link先を確認
François Bachoc, Tommaso Cesari, Roberto Colomboni, (参考訳) トレーダー間のブローカーのオンライン学習問題における文脈情報の役割について検討する。 それぞれのラウンドで、2人のトレーダーが、取引したい資産に関する秘密のバリュエーションを持って到着します。 ブローカーは、資産に関するコンテキストデータに基づくトレーディング価格を提案する。 そして、トレーダは、ブローカの価格よりも彼らのバリュエーションが高いか低いかによって、売買を決断する。 取引された資産の市場価値は、ブローカーが利用可能なコンテキスト情報を表す$d$次元ベクトルの未知の線形関数であると仮定する。 さらに、トレーダのバリュエーションを、トレーダ間の潜在的に異なる未知の分布と時間ステップを可能にする、資産の市場価値の独立した有界ゼロ平均摂動としてモデル化する。 既存のオンライン学習文献とは対照的に,貿易の利益に対する後悔と共に,学習アルゴリズムの性能を評価する。 ノイズ分布が一定の$L$で束縛された密度を許容するなら、任意の時間的地平線に対して$T$: - エージェントのバリュエーションが各相互作用の後に明らかにされるなら、$O ( L d \ln T )$ regret を達成するアルゴリズムを提供し、それに対応する$\Omega(Ld \ln T )$ の下位境界を示す。 - 提案された価格で販売または購入する意思が各インタラクション後にのみ明らかにされる場合、アルゴリズムが$O(\sqrt{LdT \ln T })$ regretを達成し、このレートが$Omega(\sqrt{LdT})$の低いバウンダリで最適であることを示す(対数因子まで)。 この結果から, 有界密度仮定が解ければ, 完全なフィードバックを伴っても解けない問題となることを示した。

We study the role of contextual information in the online learning problem of brokerage between traders. At each round, two traders arrive with secret valuations about an asset they wish to trade. The broker suggests a trading price based on contextual data about the asset. Then, the traders decide to buy or sell depending on whether their valuations are higher or lower than the brokerage price. We assume the market value of traded assets is an unknown linear function of a $d$-dimensional vector representing the contextual information available to the broker. Additionally, we model traders' valuations as independent bounded zero-mean perturbations of the asset's market value, allowing for potentially different unknown distributions across traders and time steps. Consistently with the existing online learning literature, we evaluate the performance of a learning algorithm with the regret with respect to the gain from trade. If the noise distributions admit densities bounded by some constant $L$, then, for any time horizon $T$: - If the agents' valuations are revealed after each interaction, we provide an algorithm achieving $O ( L d \ln T )$ regret, and show a corresponding matching lower bound of $\Omega( Ld \ln T )$. - If only their willingness to sell or buy at the proposed price is revealed after each interaction, we provide an algorithm achieving $O(\sqrt{LdT \ln T })$ regret, and show that this rate is optimal (up to logarithmic factors), via a lower bound of $\Omega(\sqrt{LdT})$. To complete the picture, we show that if the bounded density assumption is lifted, then the problem becomes unlearnable, even with full feedback.
翻訳日:2024-07-22 22:28:39 公開日:2024-05-22
# OMuSense-23:コンタクトレスブレスパターン認識と生体計測のためのマルチモーダルデータセット

OMuSense-23: A Multimodal Dataset for Contactless Breathing Pattern Recognition and Biometric Analysis ( http://arxiv.org/abs/2407.06137v1 )

ライセンス: Link先を確認
Manuel Lage Cañellas, Le Nguyen, Anirban Mukherjee, Constantino Álvarez Casado, Xiaoting Wu, Praneeth Susarla, Sasan Sharifipour, Dinesh B. Jayagopi, Miguel Bordallo López, (参考訳) 非接触バイオメトリックスと人間の活動認識の分野では、多目的なマルチモーダルデータセットの欠如が重大なボトルネックとなっている。 そこで我々は,mmWaveレーダとRGB-Dカメラから得られた生体信号を含むOulu Multi Sensing (OMuSense-23)データセットを提案する。 このデータセットは、50人の個人から3つの異なるポーズ(立位、座位、横たわる)のデータを分析しており、それぞれが通常呼吸、読書、ガイド呼吸、無呼吸の4つの特定の呼吸パターンを特徴としており、典型的な状況(例:通常呼吸で座る)と臨界状態(例:呼吸なしで横たわる)の両方を含んでいる。 本研究では,OMuSense-23データセットの詳細な概要,データ取得プロトコルの詳細,参加者毎のプロセスについて述べる。 さらに,バイオメトリックス,呼吸パターン認識,ポーズ識別に関連するいくつかのデータ解析タスクのベースライン評価を行う。 その結果, バイオシグナーから抽出した特徴を用いて, 87 %のポーズ識別精度, 83 %の呼吸パターン活性認識精度が得られた。 OMuSense-23データセットは、この分野の他の研究者や実践者のリソースとして公開されている。

In the domain of non-contact biometrics and human activity recognition, the lack of a versatile, multimodal dataset poses a significant bottleneck. To address this, we introduce the Oulu Multi Sensing (OMuSense-23) dataset that includes biosignals obtained from a mmWave radar, and an RGB-D camera. The dataset features data from 50 individuals in three distinct poses -- standing, sitting, and lying down -- each featuring four specific breathing pattern activities: regular breathing, reading, guided breathing, and apnea, encompassing both typical situations (e.g., sitting with normal breathing) and critical conditions (e.g., lying down without breathing). In our work, we present a detailed overview of the OMuSense-23 dataset, detailing the data acquisition protocol, describing the process for each participant. In addition, we provide, a baseline evaluation of several data analysis tasks related to biometrics, breathing pattern recognition and pose identification. Our results achieve a pose identification accuracy of 87\% and breathing pattern activity recognition of 83\% using features extracted from biosignals. The OMuSense-23 dataset is publicly available as resource for other researchers and practitioners in the field.
翻訳日:2024-07-22 14:19:18 公開日:2024-05-22
# 視覚・言語モデルにおける顔と顔の識別がステレオタイピングの増大に繋がる

More Distinctively Black and Feminine Faces Lead to Increased Stereotyping in Vision-Language Models ( http://arxiv.org/abs/2407.06194v1 )

ライセンス: Link先を確認
Messi H. J. Lee, Jacob M. Montgomery, Calvin K. Lai, (参考訳) 視覚言語モデル (VLM) は GPT-4V で例示され、テキストと視覚のモダリティを十分に統合している。 この統合により、大言語モデルの人間の知覚を模倣する能力が向上し、画像入力を処理できるようになる。 しかし、VLMの高度な能力にもかかわらず、VLMが両方のモードのバイアスを、より広く、緩和しにくい方法で継承するのではないかという懸念がある。 本研究は、VLMが人種や性別に関して、均質性バイアスと特性関連を持続させる方法について考察する。 ヒトの顔の画像に基づいて物語を書くように促されたとき、GPT-4Vは、支配的なグループよりも従属の人種と性別のグループを記述し、異なるが概して肯定的なステレオタイプに依存している。 重要なのは、VLMステレオタイピングは、グループメンバーシップのみではなく、視覚的な手がかりによって駆動されるため、より原始的なものとしてブラックとフェミニンと評価される顔は、より大きなステレオタイピングを受ける。 これらの結果は、VLMは人種や性別に関連する微妙な視覚的手がかりとステレオタイプを、緩和が難しい方法で関連付ける可能性があることを示唆している。 我々は、この行動の背後にある根本的な理由を探求し、その意味を議論し、VLMが人間の知覚を反映するようになるにつれて、これらのバイアスに対処することの重要性を強調する。

Vision Language Models (VLMs), exemplified by GPT-4V, adeptly integrate text and vision modalities. This integration enhances Large Language Models' ability to mimic human perception, allowing them to process image inputs. Despite VLMs' advanced capabilities, however, there is a concern that VLMs inherit biases of both modalities in ways that make biases more pervasive and difficult to mitigate. Our study explores how VLMs perpetuate homogeneity bias and trait associations with regards to race and gender. When prompted to write stories based on images of human faces, GPT-4V describes subordinate racial and gender groups with greater homogeneity than dominant groups and relies on distinct, yet generally positive, stereotypes. Importantly, VLM stereotyping is driven by visual cues rather than group membership alone such that faces that are rated as more prototypically Black and feminine are subject to greater stereotyping. These findings suggest that VLMs may associate subtle visual cues related to racial and gender groups with stereotypes in ways that could be challenging to mitigate. We explore the underlying reasons behind this behavior and discuss its implications and emphasize the importance of addressing these biases as VLMs come to mirror human perception.
翻訳日:2024-07-22 14:07:46 公開日:2024-05-22
# 高度な暗号化標準の各種モードの性能比較

Performance Comparison of Various Modes of Advanced Encryption Standard ( http://arxiv.org/abs/2407.09490v1 )

ライセンス: Link先を確認
Abel C. H. Chen, (参考訳) 量子コンピューティング技術の成熟に伴い、多くの暗号手法が徐々に量子コンピューティングの脅威に直面している。 Groverアルゴリズムは探索速度を高速化できるが、現在の研究は秘密鍵の長さを増大させることで、高度な暗号化標準(AES)法がセキュリティを向上できることを示している。 しかし、AESメソッドは複数のモードを実装しており、すべてのモードがセキュアであるわけではない。 そこで本研究では, 各モードのセキュリティを検証するための正規化ジニ不純物(NGI)を提案する。 さらに,本研究では,電子コードブック(ECB)モード,Cipher Block Chaining(CBC)モード,Counter(CTR)モード,CBC-Message Authentication Code(MAC)モード,Galois Counter Mode(GCM)モードを比較した。

With the maturation of quantum computing technology, many cryptographic methods are gradually facing threats from quantum computing. Although the Grover algorithm can accelerate search speeds, current research indicates that the Advanced Encryption Standard (AES) method can still enhance security by increasing the length of the secret key. However, the AES method involves multiple modes in implementation, and not all modes are secure. Therefore, this study proposes a normalized Gini impurity (NGI) to verify the security of each mode, using encrypted images as a case study for empirical analysis. Furthermore, this study primarily compares the Electronic Codebook (ECB) mode, Cipher Block Chaining (CBC) mode, Counter (CTR) mode, Counter with CBC-Message Authentication Code (MAC) (CCM) mode, and Galois Counter Mode (GCM).
翻訳日:2024-07-22 13:38:25 公開日:2024-05-22
# サイバーバブル検出:ソーシャルメディアプラットフォームにおけるデータセット,技術,アプローチの探索

Cyberbullying Detection: Exploring Datasets, Technologies, and Approaches on Social Media Platforms ( http://arxiv.org/abs/2407.12154v1 )

ライセンス: Link先を確認
Adamu Gaston Philipo, Doreen Sebastian Sarwatt, Jianguo Ding, Mahmoud Daneshmand, Huansheng Ning, (参考訳) ソーシャルメディアのプラットフォームを使って情報を共有し、共有する若者の数が膨大であることを考えると、サイバーいじめはデジタル時代において重要な課題となっている。 一部の個人はこれらのプラットフォームを利用して、直接メッセージ、電子メール、スピーチ、パブリックポストを通じて他人を困らせる。 この行動は、いじめの被害者に直接的な心理的および身体的影響をもたらす。 この分野でいくつかの研究が行われ、ソーシャルメディアプラットフォーム上でのサイバーいじめのインスタンスを検出し、予防し、監視する様々なソリューションが提案されているが、問題は続いている。 したがって、この状況に対処するためには、集中的な研究を行い、効果的な解決策を提供する必要がある。 これらのソリューションは、検出、予防、予測基準に基づくものでなければならない。 本稿では,サイバーバブル検出研究を包括的に体系的に検討する。 既存の研究、提案されたソリューション、特定されたギャップ、データセット、技術、アプローチ、課題、レコメンデーションを調査し、そして、将来の研究における研究ギャップに対処するための効果的なソリューションを提案する。

Cyberbullying has been a significant challenge in the digital era world, given the huge number of people, especially adolescents, who use social media platforms to communicate and share information. Some individuals exploit these platforms to embarrass others through direct messages, electronic mail, speech, and public posts. This behavior has direct psychological and physical impacts on victims of bullying. While several studies have been conducted in this field and various solutions proposed to detect, prevent, and monitor cyberbullying instances on social media platforms, the problem continues. Therefore, it is necessary to conduct intensive studies and provide effective solutions to address the situation. These solutions should be based on detection, prevention, and prediction criteria methods. This paper presents a comprehensive systematic review of studies conducted on cyberbullying detection. It explores existing studies, proposed solutions, identified gaps, datasets, technologies, approaches, challenges, and recommendations, and then proposes effective solutions to address research gaps in future studies.
翻訳日:2024-07-22 09:07:34 公開日:2024-05-22
# 3次元CADモデルの特徴抽出のためのセットベースアプローチ

A Set-based Approach for Feature Extraction of 3D CAD Models ( http://arxiv.org/abs/2406.18543v1 )

ライセンス: Link先を確認
Peng Xu, Qi Gao, Ying-Jie Wu, (参考訳) 特徴抽出は製品ライフサイクルを通して特徴情報の自動伝達を実現する重要な技術である。 CADモデルは製品の3次元幾何学を主に捉えているため、特徴抽出は幾何学的情報に大きく依存している。 しかし,既存の特徴抽出手法は,幾何学的情報の多様さによる不正確な結果をもたらすことが多い。 本報告では,この不確実性問題に対処するために,セットベースの特徴抽出手法を提案する。 正確な特徴値を求める既存の手法とは異なり,本手法は幾何学的情報の不確実性を特徴グラフの集合に変換することを目的としている。 まず、基本的な幾何学的実体の凸性を定義し、二段階の属性付隣接グラフの概念を導入する。 第二に、特徴抽出ワークフローは、特徴境界を決定し、CADモデルから特徴部分グラフを特定するように設計されている。 この一連の機能サブグラフは、さらなる機能認識に使用することができる。 提案手法の有効性を示すために,C++ と UG/Open を用いて特徴抽出システムをプログラムする。

Feature extraction is a critical technology to realize the automatic transmission of feature information throughout product life cycles. As CAD models primarily capture the 3D geometry of products, feature extraction heavily relies on geometric information. However, existing feature extraction methods often yield inaccurate outcomes due to the diverse interpretations of geometric information. This report presents a set-based feature extraction approach to address this uncertainty issue. Unlike existing methods that seek accurate feature results, our approach aims to transform the uncertainty of geometric information into a set of feature subgraphs. First, we define the convexity of basic geometric entities and introduce the concept of two-level attributed adjacency graphs. Second, a feature extraction workflow is designed to determine feature boundaries and identify feature subgraphs from CAD models. This set of feature subgraphs can be used for further feature recognition. A feature extraction system is programmed using C++ and UG/Open to demonstrate the feasibility of our proposed approach.
翻訳日:2024-07-01 06:12:00 公開日:2024-05-22
# GS-ROR:SDFプリミティブによる反射物体の照準のための3次元ガウス散乱

GS-ROR: 3D Gaussian Splatting for Reflective Object Relighting via SDF Priors ( http://arxiv.org/abs/2406.18544v1 )

ライセンス: Link先を確認
Zuo-Liang Zhu, Beibei Wang, Jian Yang, (参考訳) 3D Gaussian Splatting (3DGS) は、その詳細な表現能力と高効率なレンダリング速度により、新しいビュー合成の強力な能力を示している。 残念なことに、3DGSでリライタブルな3Dアセットを作成することは、特に反射オブジェクトにとって問題であり、不連続な表現はジオメトリの制約の困難を生じさせる。 以前の研究に触発されて、符号付き距離場(SDF)は幾何正則化の有効な方法として機能する。 しかし、ガウスとSDFの直接統合は訓練を著しく遅らせる。 そこで本研究では,SDF前駆体を用いた3DGSでリライトする反射物体に対してGS-RORを提案する。 提案手法の核心は, 遅延ガウスとSDFの深度と正常度を相互に監視することであり, SDFの高価なボリュームレンダリングを回避している。 この相互監督のおかげで、学習された遅延したガウス人は最小の時間費用で十分に拘束されている。 ガウス語は遅延シェーディングモードで描画されるが、アルファ版ではガウス語は滑らかであり、個々のガウス語は依然としてアウトリーであり、フローター・アーティファクトが得られる。 そこで本研究では,SDFが定義する表面から離れたガウシアンアウトリールを除去し,フロータ問題を回避するため,SDF対応プルーニング戦略を導入する。 その結果,既存のガウス方式の逆レンダリング手法よりも,照明品質が優れていた。 また, RTX4090では, トレーニング時間の25%以上で, RTX4090では毎秒200フレーム以上のレンダリングが可能となる。

3D Gaussian Splatting (3DGS) has shown a powerful capability for novel view synthesis due to its detailed expressive ability and highly efficient rendering speed. Unfortunately, creating relightable 3D assets with 3DGS is still problematic, particularly for reflective objects, as its discontinuous representation raises difficulties in constraining geometries. Inspired by previous works, the signed distance field (SDF) can serve as an effective way for geometry regularization. However, a direct incorporation between Gaussians and SDF significantly slows training. To this end, we propose GS-ROR for reflective objects relighting with 3DGS aided by SDF priors. At the core of our method is the mutual supervision of the depth and normal between deferred Gaussians and SDF, which avoids the expensive volume rendering of SDF. Thanks to this mutual supervision, the learned deferred Gaussians are well-constrained with a minimal time cost. As the Gaussians are rendered in a deferred shading mode, while the alpha-blended Gaussians are smooth, individual Gaussians may still be outliers, yielding floater artifacts. Therefore, we further introduce an SDF-aware pruning strategy to remove Gaussian outliers, which are located distant from the surface defined by SDF, avoiding the floater issue. Consequently, our method outperforms the existing Gaussian-based inverse rendering methods in terms of relighting quality. Our method also exhibits competitive relighting quality compared to NeRF-based methods with at most 25% of training time and allows rendering at 200+ frames per second on an RTX4090.
翻訳日:2024-07-01 06:12:00 公開日:2024-05-22
# 深部画像合成のためのニューラルネットワークにおける予測不確かさの可視化解析

Visual Analysis of Prediction Uncertainty in Neural Networks for Deep Image Synthesis ( http://arxiv.org/abs/2406.18545v1 )

ライセンス: Link先を確認
Soumya Dutta, Faheem Nizar, Ahmad Amaan, Ayan Acharya, (参考訳) 異なる人工知能システムにおけるディープニューラルネットワーク(DNN)のユビキタスな応用は、近年の可視化問題の解決に成功している。 洗練されたDNNは印象的な一般化を提供するが、その予測に関連する品質、信頼性、堅牢性、不確実性を理解することは必須である。 これらの量の徹底的な理解は、アプリケーション科学者が情報的な決定を下すのに役立つ実用的な洞察を生み出します。 残念なことに、DNNの本質的な設計原則は予測の不確実性を損なうことはなく、多様な可視化アプリケーションのための堅牢な不確実性認識モデルのための別々の定式化を必要とする。 この結果から,DNNの予測の不確かさと感度を様々な手法を用いて効率的に推定し,深層画像合成タスクに対して対話的に比較・比較できることを示す。 検査の結果,不確実性を考慮した深層可視化モデルにより,情報的かつ優れた品質と多様性の図面が生成されることが示唆された。 さらに、予測の不確実性は、深い可視化モデルの堅牢性と解釈可能性を改善し、視覚分析に長けた様々な科学的領域に対して実用的で便利なものとなる。

Ubiquitous applications of Deep neural networks (DNNs) in different artificial intelligence systems have led to their adoption in solving challenging visualization problems in recent years. While sophisticated DNNs offer an impressive generalization, it is imperative to comprehend the quality, confidence, robustness, and uncertainty associated with their prediction. A thorough understanding of these quantities produces actionable insights that help application scientists make informed decisions. Unfortunately, the intrinsic design principles of the DNNs cannot beget prediction uncertainty, necessitating separate formulations for robust uncertainty-aware models for diverse visualization applications. To that end, this contribution demonstrates how the prediction uncertainty and sensitivity of DNNs can be estimated efficiently using various methods and then interactively compared and contrasted for deep image synthesis tasks. Our inspection suggests that uncertainty-aware deep visualization models generate illustrations of informative and superior quality and diversity. Furthermore, prediction uncertainty improves the robustness and interpretability of deep visualization models, making them practical and convenient for various scientific domains that thrive on visual analyses.
翻訳日:2024-07-01 06:12:00 公開日:2024-05-22
# マルチモーダル核融合深層学習モデルの疾患認識への応用

Application of Multimodal Fusion Deep Learning Model in Disease Recognition ( http://arxiv.org/abs/2406.18546v1 )

ライセンス: Link先を確認
Xiaoyi Liu, Hongjie Qiu, Muqing Li, Zhou Yu, Yutian Yang, Yafeng Yan, (参考訳) 本稿では,従来の単一モーダル認識手法の欠点を克服する,革新的なマルチモーダル融合深層学習手法を提案する。 これらの欠点には、不完全な情報と限られた診断精度が含まれる。 特徴抽出段階では、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、トランスフォーマーなどの最先端のディープラーニングモデルを適用し、画像ベース、時間的、構造化されたデータソースから高度な特徴を抽出する。 融合戦略コンポーネントは、特定の疾患認識タスクに合わせて最適な融合モードを決定する。 実験では,提案した多モード融合モデルの性能と既存の単モード認識法との比較を行った。 その結果, マルチモーダル融合モデルにおいて, 複数の評価指標にまたがる大きな利点が示された。

This paper introduces an innovative multi-modal fusion deep learning approach to overcome the drawbacks of traditional single-modal recognition techniques. These drawbacks include incomplete information and limited diagnostic accuracy. During the feature extraction stage, cutting-edge deep learning models including convolutional neural networks (CNN), recurrent neural networks (RNN), and transformers are applied to distill advanced features from image-based, temporal, and structured data sources. The fusion strategy component seeks to determine the optimal fusion mode tailored to the specific disease recognition task. In the experimental section, a comparison is made between the performance of the proposed multi-mode fusion model and existing single-mode recognition methods. The findings demonstrate significant advantages of the multimodal fusion model across multiple evaluation metrics.
翻訳日:2024-07-01 06:12:00 公開日:2024-05-22
# 限られたデータから現実像を合成するGANによる医用イメージングの強化

Enhancing Medical Imaging with GANs Synthesizing Realistic Images from Limited Data ( http://arxiv.org/abs/2406.18547v1 )

ライセンス: Link先を確認
Yinqiu Feng, Bo Zhang, Lingxi Xiao, Yutian Yang, Tana Gegen, Zexi Chen, (参考訳) 本研究では,GANを用いた医用画像の合成手法を提案する。 提案手法は,限られた医療用画像データに基づいて訓練しても,現実的な合成画像を生成する能力を示すものである。 そこで我々は,モデル最適化のための対角的トレーニングパラダイムを活用した,深層畳み込みニューラルネットワーク(CNN)に基づくジェネレータと識別器ネットワークアーキテクチャを考案した。 各種医用画像データセットの広範な実験を通じて,本手法は,医用画像の構造的およびテクスチャ的特性を密にエミュレートした,一貫して合成画像を生成する。

In this research, we introduce an innovative method for synthesizing medical images using generative adversarial networks (GANs). Our proposed GANs method demonstrates the capability to produce realistic synthetic images even when trained on a limited quantity of real medical image data, showcasing commendable generalization prowess. To achieve this, we devised a generator and discriminator network architecture founded on deep convolutional neural networks (CNNs), leveraging the adversarial training paradigm for model optimization. Through extensive experimentation across diverse medical image datasets, our method exhibits robust performance, consistently generating synthetic images that closely emulate the structural and textural attributes of authentic medical images.
翻訳日:2024-07-01 06:12:00 公開日:2024-05-22
# ソーシャルメディア上での選挙投票: 有病率, バイアス, 投票詐欺

Election Polls on Social Media: Prevalence, Biases, and Voter Fraud Beliefs ( http://arxiv.org/abs/2405.11146v2 )

ライセンス: Link先を確認
Stephen Scarano, Vijayalakshmi Vasudevan, Mattia Samory, Kai-Cheng Yang, JungHwan Yang, Przemyslaw A. Grabowicz, (参考訳) ソーシャルメディアプラットフォームでは、さまざまなトピックに関する世論を集めるために、ユーザーが投票を作成することができる。 しかし、このような世論調査が何に使われているのか、それがどれほど信頼できるのか、特に選挙のような重要な文脈ではほとんど分かっていない。 米国における2020年の大統領選挙に焦点をあてたこの調査は、Twitter上での選挙投票の結果が、その人気にもかかわらず選挙結果から逸脱していることを示している。 人口推定と統計分析を活用すれば、Twitterの世論調査は年長の男性によって不均等に権威付けられており、主要な世論調査に対するドナルド・トランプ候補に対する大きな偏見を示していることが分かる。 我々は,非正当性,自動化性,反ノルマ的行動の観点から,バイアスのある結果の潜在的な源泉について検討する。 ソーシャルメディア実験と世論調査者へのインタビューを用いて、世論投票数と世論調査者個人で見る人の不一致を識別する。 また、選挙投票に参加するTwitterアカウントはボットになりがちで、選挙投票の結果は選挙日よりも選挙前の方が偏見が強いこともわかりました。 最後に、投票者不正陰謀説を広める世論調査の事例を特定し、そのような世論調査の数千件が2020年に投稿されたと見積もった。 本研究は、ソーシャルメディアプラットフォームにおける透明性と説明責任の文脈における偏りのある選挙投票の影響について論じる。

Social media platforms allow users to create polls to gather public opinion on diverse topics. However, we know little about what such polls are used for and how reliable they are, especially in significant contexts like elections. Focusing on the 2020 presidential elections in the U.S., this study shows that outcomes of election polls on Twitter deviate from election results despite their prevalence. Leveraging demographic inference and statistical analysis, we find that Twitter polls are disproportionately authored by older males and exhibit a large bias towards candidate Donald Trump relative to representative mainstream polls. We investigate potential sources of biased outcomes from the point of view of inauthentic, automated, and counter-normative behavior. Using social media experiments and interviews with poll authors, we identify inconsistencies between public vote counts and those privately visible to poll authors, with the gap potentially attributable to purchased votes. We also find that Twitter accounts participating in election polls are more likely to be bots, and election poll outcomes tend to be more biased, before the election day than after. Finally, we identify instances of polls spreading voter fraud conspiracy theories and estimate that a couple thousand of such polls were posted in 2020. The study discusses the implications of biased election polls in the context of transparency and accountability of social media platforms.
翻訳日:2024-06-09 16:28:54 公開日:2024-05-22
# KU-DMIS at EHRSQL 2024:Generating SQL query via question templatization in EHR

KU-DMIS at EHRSQL 2024:Generating SQL query via question templatization in EHR ( http://arxiv.org/abs/2406.00014v1 )

ライセンス: Link先を確認
Hajung Kim, Chanhwi Kim, Hoonick Lee, Kyochul Jang, Jiwoo Lee, Kyungjae Lee, Gangwoo Kim, Jaewoo Kang, (参考訳) 自然言語の質問をSQLクエリに変換することは、EHR(Electronic Health Record)データベースからの正確なデータ検索に不可欠である。 このプロセスにおける重要な課題は、データベースの範囲を超えて情報を要求したり、システムの能力を超過するような、解決不可能な質問を検出し、拒否することである。 本稿では、ドメイン外質問を頑健に処理し、クエリ実行で生成されたクエリを検証する新しいテキスト間SQLフレームワークについて紹介する。 我々は強力な大規模言語モデル(LLM)を用いており、細調整されたGPT-3.5で、EHRデータベースシステムのテーブルスキーマを含む詳細なプロンプトを処理している。 EHRSQL-2024ベンチマークでは,臨床NLPワークショップで共有タスクであるEHRSQL-2024ベンチマークの有効性が実証された。 GPTの直感的な微調整は、開発セットで有望な結果を示すが、テストセットのドメイン外の問題に苦労した。 われわれのフレームワークでは、EHRSQL-2024チャレンジの公式リーダーボードにおいて、システムの適応性を改善し、競争性能を達成する。

Transforming natural language questions into SQL queries is crucial for precise data retrieval from electronic health record (EHR) databases. A significant challenge in this process is detecting and rejecting unanswerable questions that request information beyond the database's scope or exceed the system's capabilities. In this paper, we introduce a novel text-to-SQL framework that robustly handles out-of-domain questions and verifies the generated queries with query execution.Our framework begins by standardizing the structure of questions into a templated format. We use a powerful large language model (LLM), fine-tuned GPT-3.5 with detailed prompts involving the table schemas of the EHR database system. Our experimental results demonstrate the effectiveness of our framework on the EHRSQL-2024 benchmark benchmark, a shared task in the ClinicalNLP workshop. Although a straightforward fine-tuning of GPT shows promising results on the development set, it struggled with the out-of-domain questions in the test set. With our framework, we improve our system's adaptability and achieve competitive performances in the official leaderboard of the EHRSQL-2024 challenge.
翻訳日:2024-06-09 16:19:21 公開日:2024-05-22
# 外科的病理所見から甲状腺乳頭癌の特徴を抽出・分類する自然言語処理の応用

Use of natural language processing to extract and classify papillary thyroid cancer features from surgical pathology reports ( http://arxiv.org/abs/2406.00015v1 )

ライセンス: Link先を確認
Ricardo Loor-Torres, Yuqi Wu, Esteban Cabezas, Mariana Borras, David Toro-Tobon, Mayra Duran, Misk Al Zahidy, Maria Mateo Chavez, Cristian Soto Jacome, Jungwei W. Fan, Naykky M. Singh Ospina, Yonghui Wu, Juan P. Brito, (参考訳) 背景 我々は,病理報告から甲状腺癌危険因子の抽出と分類を自動化するために自然言語処理(NLP)を使用することを目標としている。 方法:2010年から2019年まで,MNのマヨクリニックにて成人甲状腺乳頭癌の1,410例について検討した。 構造的および非構造的報告は、コンセンサスに基づく基底真理辞書の作成に使用され、それらを修正された再発リスクレベルに分類した。 非構造化レポートは物語であり、構造化レポートは標準化されたフォーマットに従っていた。 そこで我々は,甲状腺癌の特徴をリスクカテゴリに分類するために,ルールベースのNLPパイプラインであるThyroPathを開発した。 訓練には225件(構造化150件、非構造化75件)、評価のために170件(構造化120件、非構造化50件)の報告書を試験した。 パイプラインの性能は、正確性、精度、リコール、F1スコアの厳密な基準と寛大な基準の両方を用いて評価された。 その結果,TyroPathは構造報告では93%,非構造報告では90ポイントの厳格なF-1スコアを達成し,甲状腺癌18例を対象とした。 分類タスクにおいて、ThyroPath抽出された情報は、対応するガイドラインに基づく再発リスクに基づくレポートの分類において、全体の93%の精度を示し、ハイリスクは76.9%、中間リスクは86.8%、低リスクと極低リスクの両方で100%であった。 しかし、ThyroPathはヒト摘出病理情報を用いて甲状腺癌リスクカテゴリーの100%の精度を達成した。 結論 ThyroPath は甲状腺病理報告の抽出とリスク再発分類を大規模に自動化する可能性を示唆している。 厳格なマニュアルレビューと仮想レジストリの進展に対するソリューションを提供する。 しかし、実装前にさらなる検証が必要である。

Background We aim to use Natural Language Processing (NLP) to automate the extraction and classification of thyroid cancer risk factors from pathology reports. Methods We analyzed 1,410 surgical pathology reports from adult papillary thyroid cancer patients at Mayo Clinic, Rochester, MN, from 2010 to 2019. Structured and non-structured reports were used to create a consensus-based ground truth dictionary and categorized them into modified recurrence risk levels. Non-structured reports were narrative, while structured reports followed standardized formats. We then developed ThyroPath, a rule-based NLP pipeline, to extract and classify thyroid cancer features into risk categories. Training involved 225 reports (150 structured, 75 unstructured), with testing on 170 reports (120 structured, 50 unstructured) for evaluation. The pipeline's performance was assessed using both strict and lenient criteria for accuracy, precision, recall, and F1-score. Results In extraction tasks, ThyroPath achieved overall strict F-1 scores of 93% for structured reports and 90 for unstructured reports, covering 18 thyroid cancer pathology features. In classification tasks, ThyroPath-extracted information demonstrated an overall accuracy of 93% in categorizing reports based on their corresponding guideline-based risk of recurrence: 76.9% for high-risk, 86.8% for intermediate risk, and 100% for both low and very low-risk cases. However, ThyroPath achieved 100% accuracy across all thyroid cancer risk categories with human-extracted pathology information. Conclusions ThyroPath shows promise in automating the extraction and risk recurrence classification of thyroid pathology reports at large scale. It offers a solution to laborious manual reviews and advancing virtual registries. However, it requires further validation before implementation.
翻訳日:2024-06-09 16:19:21 公開日:2024-05-22
# 目標検出と手指ジェスチャー認識のための共振・発火スパイクニューロン : ハイブリッドアプローチ

Resonate-and-Fire Spiking Neurons for Target Detection and Hand Gesture Recognition: A Hybrid Approach ( http://arxiv.org/abs/2405.19351v1 )

ライセンス: Link先を確認
Ahmed Shaaban, Zeineb Chaabouni, Maximilian Strobel, Wolfgang Furtner, Robert Weigel, Fabian Lurz, (参考訳) レーダを用いた手動ジェスチャー認識は、しばしば計算に高価な高速フーリエ変換に依存する。 本稿では、共振・発火ニューロンを用いた高速フーリエ変換をバイパスする代替手法を提案する。 これらのニューロンは、時間領域信号のハンドを直接検出し、レンジ情報を取得するために高速なフーリエ変換を不要にする。 検出後、単純なゴアツェルアルゴリズムを用いて5つの重要な特徴を抽出し、第2の高速フーリエ変換を不要にする。 これらの特徴はリカレントニューラルネットワークに入力され、5つのジェスチャーを分類するために98.21%の精度を達成する。 提案手法は,従来の手法と比較して,複雑性を低減した競合性能を示す。

Hand gesture recognition using radar often relies on computationally expensive fast Fourier transforms. This paper proposes an alternative approach that bypasses fast Fourier transforms using resonate-and-fire neurons. These neurons directly detect the hand in the time-domain signal, eliminating the need for fast Fourier transforms to retrieve range information. Following detection, a simple Goertzel algorithm is employed to extract five key features, eliminating the need for a second fast Fourier transform. These features are then fed into a recurrent neural network, achieving an accuracy of 98.21% for classifying five gestures. The proposed approach demonstrates competitive performance with reduced complexity compared to traditional methods
翻訳日:2024-06-02 14:20:20 公開日:2024-05-22
# 次世代無線ネットワークの最適化のための生成AI:基礎,現状,オープンチャレンジ

Generative AI for the Optimization of Next-Generation Wireless Networks: Basics, State-of-the-Art, and Open Challenges ( http://arxiv.org/abs/2405.17454v1 )

ライセンス: Link先を確認
Fahime Khoramnejad, Ekram Hossain, (参考訳) 次世代(xG)無線ネットワークは、その複雑でダイナミックな性質を持ち、従来の最適化技術を使用する上で重要な課題を提示する。 生成AI(GAI)はその独特な強みのために強力なツールとして出現する。 従来の最適化手法やその他の機械学習手法とは異なり、GAIは現実世界のネットワークデータから学習し、その複雑さを捉えている。 これにより、さまざまな構成の安全でオフラインな探索と、さまざまな、目に見えないシナリオの生成が可能になり、xGネットワークのプロアクティブでデータ駆動の探索と最適化が強化される。 さらに、GAIのスケーラビリティは、大規模なxGネットワークに最適である。 本稿では、xG無線ネットワークにおいて、GAIベースのモデルが最適化の機会を解放する方法を調査する。 まず、GAIモデルとxG(eg, 6G)無線ネットワークの主要な通信パラダイムのレビューから始める。 次に、リソース割り当てを改善し、ネットワーク全体のパフォーマンスを向上させるために、GAIをどのように利用できるかを探る。 さらに、xG無線ネットワークにおけるGAIアプリケーションサポートのネットワーク要件についても概説する。 さらに,ネットワーク最適化にGAIを活用する上での課題と今後の研究方向性について論じる。 最後に、XGネットワークの中核技術である地球外ネットワークにおける負荷分散、キャリア集約、バックハウリング最適化のための拡散型GAIモデルの適用例を示した。 このケーススタディは、実世界のネットワーク最適化問題に対処するために、強化学習とGAIの組み合わせをどのように実装するかの実践例である。

Next-generation (xG) wireless networks, with their complex and dynamic nature, present significant challenges to using traditional optimization techniques. Generative AI (GAI) emerges as a powerful tool due to its unique strengths. Unlike traditional optimization techniques and other machine learning methods, GAI excels at learning from real-world network data, capturing its intricacies. This enables safe, offline exploration of various configurations and generation of diverse, unseen scenarios, empowering proactive, data-driven exploration and optimization for xG networks. Additionally, GAI's scalability makes it ideal for large-scale xG networks. This paper surveys how GAI-based models unlock optimization opportunities in xG wireless networks. We begin by providing a review of GAI models and some of the major communication paradigms of xG (e.g., 6G) wireless networks. We then delve into exploring how GAI can be used to improve resource allocation and enhance overall network performance. Additionally, we briefly review the networking requirements for supporting GAI applications in xG wireless networks. The paper further discusses the key challenges and future research directions in leveraging GAI for network optimization. Finally, a case study demonstrates the application of a diffusion-based GAI model for load balancing, carrier aggregation, and backhauling optimization in non-terrestrial networks, a core technology of xG networks. This case study serves as a practical example of how the combination of reinforcement learning and GAI can be implemented to address real-world network optimization problems.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-22
# WeatherFormer:小さなデータセットからロバスト気象表現を学習するための事前学習エンコーダモデル

WeatherFormer: A Pretrained Encoder Model for Learning Robust Weather Representations from Small Datasets ( http://arxiv.org/abs/2405.17455v1 )

ライセンス: Link先を確認
Adib Hasan, Mardavij Roozbehani, Munther Dahleh, (参考訳) 本稿では,極小観測から強靭な気象特徴を学習するためのトランスフォーマー・エンコーダ・モデルであるWeatherFormerを紹介する。 これは、農業、疫学、気候科学における多くの予測タスクのボトルネックである、小さなデータセットから複雑な気象力学をモデル化するという課題に対処する。 ウェザーホルマーは、アメリカ大陸の39年間の衛星観測による大規模な事前訓練データセットで事前訓練された。 新規な事前訓練作業と微調整により、郡レベルの大豆収量予測とインフルエンザ予測において最先端のパフォーマンスを達成する。 技術的革新には、地理的、年次、季節的な変動を捉え、トランスフォーマーアーキテクチャを継続的な気象データに適用するユニークな時空間符号化、そして、欠落した気象の特徴に対して堅牢な表現を学ぶための事前訓練戦略が含まれる。 本稿では,複数の領域にまたがる気象依存アプリケーションに対して,大規模変圧器エンコーダモデルの事前学習の有効性を初めて示す。

This paper introduces WeatherFormer, a transformer encoder-based model designed to learn robust weather features from minimal observations. It addresses the challenge of modeling complex weather dynamics from small datasets, a bottleneck for many prediction tasks in agriculture, epidemiology, and climate science. WeatherFormer was pretrained on a large pretraining dataset comprised of 39 years of satellite measurements across the Americas. With a novel pretraining task and fine-tuning, WeatherFormer achieves state-of-the-art performance in county-level soybean yield prediction and influenza forecasting. Technical innovations include a unique spatiotemporal encoding that captures geographical, annual, and seasonal variations, adapting the transformer architecture to continuous weather data, and a pretraining strategy to learn representations that are robust to missing weather features. This paper for the first time demonstrates the effectiveness of pretraining large transformer encoder models for weather-dependent applications across multiple domains.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-22
# 拡散画像生成を用いた逆問題に対する最適線形測定

Optimized Linear Measurements for Inverse Problems using Diffusion-Based Image Generation ( http://arxiv.org/abs/2405.17456v1 )

ライセンス: Link先を確認
Ling-Qi Zhang, Zahra Kadkhodaie, Eero P. Simoncelli, David H. Brainard, (参考訳) 拡散確率モデルから得られた画像と組み合わせて、線形測定の小さな集合から高次元信号を再構成する問題を再検討する。 このような測定を最適化するための確立された手法としては、主成分分析(PCA)、独立成分分析(ICA)、圧縮センシング(CS)がある。 しかし、写真画像を含む自然発生の信号の多くは、よりリッチな統計構造を含んでいる。 このような構造を利用するために,デノーミングを訓練したニューラルネットワークにおいて,事前の暗黙を生かしたベイズ逆解を仮定して,最適化された線形測定の集合を得るための一般的な方法を提案する。 これらの測定値がPCAとCSと異なることを示し,2乗再構成誤差の最小化に大きく貢献した。 また,SSIMの知覚的損失に対する測定値の最適化は,知覚的改善につながることを示した。 本研究は, 実効線形測定を設計する上で, 自然信号の特異な統計規則性を取り入れることの重要性を強調した。

We re-examine the problem of reconstructing a high-dimensional signal from a small set of linear measurements, in combination with image prior from a diffusion probabilistic model. Well-established methods for optimizing such measurements include principal component analysis (PCA), independent component analysis (ICA) and compressed sensing (CS), all of which rely on axis- or subspace-aligned statistical characterization. But many naturally occurring signals, including photographic images, contain richer statistical structure. To exploit such structure, we introduce a general method for obtaining an optimized set of linear measurements, assuming a Bayesian inverse solution that leverages the prior implicit in a neural network trained to perform denoising. We demonstrate that these measurements are distinct from those of PCA and CS, with significant improvements in minimizing squared reconstruction error. In addition, we show that optimizing the measurements for the SSIM perceptual loss leads to perceptually improved reconstruction. Our results highlight the importance of incorporating the specific statistical regularities of natural signals when designing effective linear measurements.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-22
# 拡散に基づく生成記憶を用いたデータ自由フェデレーションクラスインクリメンタルラーニング

Data-Free Federated Class Incremental Learning with Diffusion-Based Generative Memory ( http://arxiv.org/abs/2405.17457v1 )

ライセンス: Link先を確認
Naibo Wang, Yuchen Deng, Wenjie Feng, Jianwei Yin, See-Kiong Ng, (参考訳) フェデレート・クラス・インクリメンタル・ラーニング(FCIL、Federated Class Incremental Learning)は、フェデレーション・ラーニング(FL)における新しいクラスを動的に導入する問題である。 既存の手法では、FLのプライバシー問題に対処するために合成画像を生成するために、GAN(Generative Adversarial Network)を用いることが多い。 しかしながら、GANは固有の不安定性と高い感度を示し、これらの手法の有効性を損なう。 本稿では,拡散型生成メモリ(DFedDGM)を用いた新しいデータフリー・フェデレーションクラスインクリメンタルラーニングフレームワークを提案する。 FLにおける非IID問題を軽減するために拡散モデルの訓練を支援するための新しいバランスの取れたサンプルライザを設計し,情報理論の観点からエントロピーに基づくサンプルフィルタリング手法を導入し,生成サンプルの品質を向上させる。 最後に,より優れた知識伝達を行うために,知識蒸留と特徴に基づく正規化項を統合する。 本フレームワークは,FedAvg法と比較して通信コストを増大させるものではない。 複数のデータセットにまたがる大規模な実験により、Tiny-ImageNetデータセットの平均精度が4%向上するなど、我々の手法は既存のベースラインを著しく上回ります。

Federated Class Incremental Learning (FCIL) is a critical yet largely underexplored issue that deals with the dynamic incorporation of new classes within federated learning (FL). Existing methods often employ generative adversarial networks (GANs) to produce synthetic images to address privacy concerns in FL. However, GANs exhibit inherent instability and high sensitivity, compromising the effectiveness of these methods. In this paper, we introduce a novel data-free federated class incremental learning framework with diffusion-based generative memory (DFedDGM) to mitigate catastrophic forgetting by generating stable, high-quality images through diffusion models. We design a new balanced sampler to help train the diffusion models to alleviate the common non-IID problem in FL, and introduce an entropy-based sample filtering technique from an information theory perspective to enhance the quality of generative samples. Finally, we integrate knowledge distillation with a feature-based regularization term for better knowledge transfer. Our framework does not incur additional communication costs compared to the baseline FedAvg method. Extensive experiments across multiple datasets demonstrate that our method significantly outperforms existing baselines, e.g., over a 4% improvement in average accuracy on the Tiny-ImageNet dataset.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-22
# マルチモーダル人間行動認識におけるCNNからトランスフォーマーへ

From CNNs to Transformers in Multimodal Human Action Recognition: A Survey ( http://arxiv.org/abs/2405.15813v1 )

ライセンス: Link先を確認
Muhammad Bilal Shaikh, Syed Mohammed Shamsul Islam, Douglas Chai, Naveed Akhtar, (参考訳) 広く応用されているため、人間の行動認識はコンピュータビジョンにおいて最も広く研究されている研究問題の一つである。 近年の研究では、マルチモーダルデータによる対応は、単一のデータモダリティに依存するよりも優れたパフォーマンスをもたらすことが示されている。 過去10年間のビジュアルモデリングにディープラーニングが採用されている間、アクション認識アプローチは主に畳み込みニューラルネットワーク(CNN)に依存してきた。 しかし、近年の視覚モデリングにおけるトランスフォーマーの台頭は、アクション認識タスクのパラダイムシフトを引き起こしている。 この調査は、MHAR(Multimodal Human Action Recognition)に注目しながら、この変化を捉えている。 マルチモーダル計算モデルの帰納には、個々のデータモダリティの特徴を「融合」するプロセスがある。 したがって、我々はMHARアプローチの融合設計面に特に焦点をあてる。 本稿では,CNN や Transformer のビルディングブロックへの適応の傾向を概観しながら,古典的および新興的手法の分析を行う。 特に、より効率的なMHARモデルに繋がった最近の設計選択に重点を置いている。 人間の行動認識を幅広い視点から論じる既存のレビューとは違って、本調査は、実践可能なモデルをトレーニングするための有望なアーキテクチャと融合設計の選択を特定することで、MHAR研究の境界を推し進めることを目的としている。 また、そのスケールと評価の観点から、マルチモーダルデータセットの展望を提供する。 最後に、レビューされた文献に基づいて、MHARの課題と今後の道について論じる。

Due to its widespread applications, human action recognition is one of the most widely studied research problems in Computer Vision. Recent studies have shown that addressing it using multimodal data leads to superior performance as compared to relying on a single data modality. During the adoption of deep learning for visual modelling in the last decade, action recognition approaches have mainly relied on Convolutional Neural Networks (CNNs). However, the recent rise of Transformers in visual modelling is now also causing a paradigm shift for the action recognition task. This survey captures this transition while focusing on Multimodal Human Action Recognition (MHAR). Unique to the induction of multimodal computational models is the process of "fusing" the features of the individual data modalities. Hence, we specifically focus on the fusion design aspects of the MHAR approaches. We analyze the classic and emerging techniques in this regard, while also highlighting the popular trends in the adaption of CNN and Transformer building blocks for the overall problem. In particular, we emphasize on recent design choices that have led to more efficient MHAR models. Unlike existing reviews, which discuss Human Action Recognition from a broad perspective, this survey is specifically aimed at pushing the boundaries of MHAR research by identifying promising architectural and fusion design choices to train practicable models. We also provide an outlook of the multimodal datasets from their scale and evaluation viewpoint. Finally, building on the reviewed literature, we discuss the challenges and future avenues for MHAR.
翻訳日:2024-05-29 02:39:33 公開日:2024-05-22
# 人間のような人工知能への社会的道

A social path to human-like artificial intelligence ( http://arxiv.org/abs/2405.15815v1 )

ライセンス: Link先を確認
Edgar A. Duéñez-Guzmán, Suzanne Sadedin, Jane X. Wang, Kevin R. McKee, Joel Z. Leibo, (参考訳) 伝統的に、認知科学者やコンピュータ科学者は、社会的文脈を欠く一元的エージェントの資産として、知性はソリシスト的に見なされてきた。 現代の学習アルゴリズムの成功を踏まえ、人工知能(AI)の進歩のボトルネックは、データ同化から新しいデータ生成へと移行しつつあると論じる。 我々は、集団生活、社会関係、そして大きな進化の遷移を通じて、相互作用するエージェントのネットワークにおいて、自然知性が複数スケールで出現することを示す証拠をまとめ、人口の圧力、武器レース、マキアベリアの選択、社会学習、累積文化などのメカニズムを通じて、新しいデータ生成に寄与することを示す。 AIにおける多くのブレークスルーは、アルゴリズムがCapture-The-FlagやStarCraft IIのような複雑なゲームをマスターできるマルチエージェント構造から、外交における戦略的コミュニケーションや、他のAIによるAIデータストリームの形成に至るまで、これらのプロセスを活用する。 これらのメカニズムを統合するためのエージェンシーのソリプシックな見解を超えて、現在進行中の新たなデータ生成を通じて、人間のような複合的イノベーションへの道のりが示唆されている。

Traditionally, cognitive and computer scientists have viewed intelligence solipsistically, as a property of unitary agents devoid of social context. Given the success of contemporary learning algorithms, we argue that the bottleneck in artificial intelligence (AI) progress is shifting from data assimilation to novel data generation. We bring together evidence showing that natural intelligence emerges at multiple scales in networks of interacting agents via collective living, social relationships and major evolutionary transitions, which contribute to novel data generation through mechanisms such as population pressures, arms races, Machiavellian selection, social learning and cumulative culture. Many breakthroughs in AI exploit some of these processes, from multi-agent structures enabling algorithms to master complex games like Capture-The-Flag and StarCraft II, to strategic communication in Diplomacy and the shaping of AI data streams by other AIs. Moving beyond a solipsistic view of agency to integrate these mechanisms suggests a path to human-like compounding innovation through ongoing novel data generation.
翻訳日:2024-05-29 02:39:33 公開日:2024-05-22
# リーマン二値最適化

Riemannian Bilevel Optimization ( http://arxiv.org/abs/2405.15816v1 )

ライセンス: Link先を確認
Sanchayan Dutta, Xiang Cheng, Suvrit Sra, (参考訳) 我々はリーマン双レベル最適化のための新しいアルゴリズムを開発した。 我々は特にバッチおよび確率勾配に基づく手法に注目し、リーマン超次数のような二階情報を避けることを目的としている。 リーマン多様体の複素幾何を効率的にナビゲートするために一階勾配情報を利用する手法である $\mathrm{RF^2SA}$ を提案し,解析する。 特に$\mathrm{RF^2SA}$はシングルループアルゴリズムであり、実装と使用が容易である。 確率的最適化を含む様々な設定の下で、$\epsilon$-stationary 点に到達するための明示的な収束率を提供する。 また、ラグランジアンの乗数を調整することによって制約付きリーマン多様体を最適化し、二階微分へのアクセスを必要とせずに所望の解への収束を保証するという課題にも対処する。

We develop new algorithms for Riemannian bilevel optimization. We focus in particular on batch and stochastic gradient-based methods, with the explicit goal of avoiding second-order information such as Riemannian hyper-gradients. We propose and analyze $\mathrm{RF^2SA}$, a method that leverages first-order gradient information to navigate the complex geometry of Riemannian manifolds efficiently. Notably, $\mathrm{RF^2SA}$ is a single-loop algorithm, and thus easier to implement and use. Under various setups, including stochastic optimization, we provide explicit convergence rates for reaching $\epsilon$-stationary points. We also address the challenge of optimizing over Riemannian manifolds with constraints by adjusting the multiplier in the Lagrangian, ensuring convergence to the desired solution without requiring access to second-order derivatives.
翻訳日:2024-05-29 02:39:33 公開日:2024-05-22
# ALI-DPFL: 適応的局所反復による個人的フェデレーション学習

ALI-DPFL: Differentially Private Federated Learning with Adaptive Local Iterations ( http://arxiv.org/abs/2308.10457v9 )

ライセンス: Link先を確認
Xinpeng Ling, Jie Fu, Kuncan Wang, Haitao Liu, Zhili Chen, (参考訳) Federated Learning(FL)は、データではなくトレーニングパラメータを共有することによって、複数のデバイスや組織間のモデルトレーニングを可能にする分散機械学習技術である。 しかし、敵はこれらのトレーニングパラメータの推論攻撃(例えば差分攻撃)を通じて個人情報を推測することができる。 その結果、差分プライバシー(DP)はFLでそのような攻撃を防ぐために広く利用されている。 我々は、プライバシ予算とコミュニケーションラウンドの両方に制約があるリソース制約のあるシナリオにおいて、差分プライベートなフェデレーション学習を考察する。 収束を理論的に解析することにより、2つのシーケンシャルなグローバルな更新の間に、クライアントのローカルDPSGDイテレーションの最適な数を見つけることができる。 そこで我々は,適応的局所反復(ALI-DPFL)を用いた微分プライベート・フェデレーション学習のアルゴリズムを設計した。 我々は,MNIST,FashionMNIST,Cifar10データセットのアルゴリズムを実験し,資源制約シナリオにおけるこれまでの作業よりもはるかに優れた性能を示す。 コードはhttps://github.com/cheng-t/ALI-DPFL.comで入手できる。

Federated Learning (FL) is a distributed machine learning technique that allows model training among multiple devices or organizations by sharing training parameters instead of raw data. However, adversaries can still infer individual information through inference attacks (e.g. differential attacks) on these training parameters. As a result, Differential Privacy (DP) has been widely used in FL to prevent such attacks. We consider differentially private federated learning in a resource-constrained scenario, where both privacy budget and communication rounds are constrained. By theoretically analyzing the convergence, we can find the optimal number of local DPSGD iterations for clients between any two sequential global updates. Based on this, we design an algorithm of Differentially Private Federated Learning with Adaptive Local Iterations (ALI-DPFL). We experiment our algorithm on the MNIST, FashionMNIST and Cifar10 datasets, and demonstrate significantly better performances than previous work in the resource-constraint scenario. Code is available at https://github.com/cheng-t/ALI-DPFL.
翻訳日:2024-05-28 00:05:56 公開日:2024-05-22
# SeMalloc: セマンティックインフォームドメモリアロケータ

SeMalloc: Semantics-Informed Memory Allocator ( http://arxiv.org/abs/2402.03373v2 )

ライセンス: Link先を確認
Ruizhe Wang, Meng Xu, N. Asokan, (参考訳) UAF(Use-after-free)は、メモリアンセーフ言語において重要な問題である。 多くのソリューションが提案されているが、セキュリティ、実行時コスト、メモリオーバーヘッド(不可能なトリニティ)のバランスをとることは難しい。 本稿では,ヒープオブジェクトに関するセマンティクスをアロケータに渡すことでトリニティのバランスをとる方法を示す。 より具体的には、スレッド、コンテキスト、フローに敏感な"タイプ"であるSemaTypeという新しい概念を提案し、セマタイプに基づくアロケータのプロトタイプを作成する。 SeMallocでは、同じコールサイトから同じ関数呼び出しスタックを介して割り当てられたヒープオブジェクトだけが仮想メモリアドレスを共有することができる。 広範な経験的評価を通じて,SeMallocは現実的であることを示す。 (a) SeMallocは、テストした現実世界の脆弱性をすべて回避するのに有効です。 b) ベンチマークプログラムは、デフォルトのヒープアロケータよりもSeMallocで、メモリオーバーヘッドが41%から84%まで、さらに高速に実行される。 (c)SeMallocは他の密接に関連する作業よりもセキュリティとオーバーヘッドのバランスが良くなります。

Use-after-free (UAF) is a critical and prevalent problem in memory unsafe languages. While many solutions have been proposed, balancing security, run-time cost, and memory overhead (an impossible trinity) is hard. In this paper, we show one way to balance the trinity by passing more semantics about the heap object to the allocator for it to make informed allocation decisions. More specifically, we propose a new notion of thread-, context-, and flow-sensitive "type", SemaType, to capture the semantics and prototype a SemaType-based allocator that aims for the best trade-off amongst the impossible trinity. In SeMalloc, only heap objects allocated from the same call site and via the same function call stack can possibly share a virtual memory address, which effectively stops type-confusion attacks and makes UAF vulnerabilities harder to exploit. Through extensive empirical evaluation, we show that SeMalloc is realistic: (a) SeMalloc is effective in thwarting all real-world vulnerabilities we tested; (b) benchmark programs run even slightly faster with SeMalloc than the default heap allocator, at a memory overhead averaged from 41% to 84%; and (c) SeMalloc balances security and overhead strictly better than other closely related works.
翻訳日:2024-05-27 23:16:57 公開日:2024-05-22
# DETAIL: 解釈可能なインコンテキスト学習のためのタスク記述属性

DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning ( http://arxiv.org/abs/2405.14899v1 )

ライセンス: Link先を確認
Zijian Zhou, Xiaoqiang Lin, Xinyi Xu, Alok Prakash, Daniela Rus, Bryan Kian Hsiang Low, (参考訳) インコンテキスト学習(ICL)は、一般的なテキストで事前訓練されたトランスフォーマーベースの言語モデルで、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを素早く学習し、柔軟性と汎用性を著しく向上させる。 ICLは従来の機械学習とは異なる特徴を持つため、この学習パラダイムを解釈するための新しいアプローチが必要である。 内部オプティマイザを定式化することで変換者が文脈で学習することを示す最近の研究の視点から、ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。 提案手法の有効性を実証的に検証し,提案手法の有効性を検証した。 結果を活用することで、実世界のシナリオにおけるモデルパフォーマンスを改善する上で、DETAILがどのように役立つかが示される。 最後に,White-boxモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより,DETAILの広範な適用性を実験的に証明し,モデル性能を向上させる。

In-context learning (ICL) allows transformer-based language models that are pre-trained on general text to quickly learn a specific task with a few "task demonstrations" without updating their parameters, significantly boosting their flexibility and generality. ICL possesses many distinct characteristics from conventional machine learning, thereby requiring new approaches to interpret this learning paradigm. Taking the viewpoint of recent works showing that transformers learn in context by formulating an internal optimizer, we propose an influence function-based attribution technique, DETAIL, that addresses the specific characteristics of ICL. We empirically verify the effectiveness of our approach for demonstration attribution while being computationally efficient. Leveraging the results, we then show how DETAIL can help improve model performance in real-world scenarios through demonstration reordering and curation. Finally, we experimentally prove the wide applicability of DETAIL by showing our attribution scores obtained on white-box models are transferable to black-box models in improving model performance.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-22
# 自動乳房密度分類のためのフェデレーション学習アルゴリズムの評価:2022年ACR-NCI-NVIDIAフェデレーション学習課題の結果

Fair Evaluation of Federated Learning Algorithms for Automated Breast Density Classification: The Results of the 2022 ACR-NCI-NVIDIA Federated Learning Challenge ( http://arxiv.org/abs/2405.14900v1 )

ライセンス: Link先を確認
Kendall Schmidt, Benjamin Bearce, Ken Chang, Laura Coombs, Keyvan Farahani, Marawan Elbatele, Kaouther Mouhebe, Robert Marti, Ruipeng Zhang, Yao Zhang, Yanfeng Wang, Yaojun Hu, Haochao Ying, Yuyang Xu, Conrad Testagrose, Mutlu Demirer, Vikash Gupta, Ünal Akünal, Markus Bujotzek, Klaus H. Maier-Hein, Yi Qin, Xiaomeng Li, Jayashree Kalpathy-Cramer, Holger R. Roth, (参考訳) 乳がんリスクの評価には乳腺密度の正確な解釈が重要である。 AIは乳房密度を正確に予測できることが示されているが、マンモグラフィーシステム間の画像特性の違いのため、あるシステムから構築されたモデルは、他のシステムではうまく一般化できない。 FL(Federated Learning)は、データの共有を必要とせずにAIの一般化性を改善する手段として登場したが、FL中のすべてのトレーニングデータから特徴を保存する最善の方法は、研究の活発な領域である。 FL法を探求するために、乳腺密度分類FLチャレンジは、アメリカン・カレッジ・オブ・ラジオロジー(American College of Radiology)、ハーバード・メディカル・スクール(Harvard Medical School)のマッサージ・ジェネラル・ブリガム(Mass General Brigham)、コロラド大学、NVIDIA、国立衛生国立がん研究所(National Institutes of Health National Cancer Institute)と共同で開催された。 参加者は3つの模擬医療施設にFLを実装可能なドッカーコンテナを提出することができ、それぞれにユニークな大きなマンモグラフィーデータセットが含まれている。 FL挑戦は2022年6月15日から9月5日まで行われ、世界中から7人のファイナリストが集まった。 優勝したFLは、チャレンジテストデータで0.653、外部テストデータセットで0.413のリニアカッパスコアに達し、中心位置で同じデータでトレーニングされたモデルと同等のスコアを得た。

The correct interpretation of breast density is important in the assessment of breast cancer risk. AI has been shown capable of accurately predicting breast density, however, due to the differences in imaging characteristics across mammography systems, models built using data from one system do not generalize well to other systems. Though federated learning (FL) has emerged as a way to improve the generalizability of AI without the need to share data, the best way to preserve features from all training data during FL is an active area of research. To explore FL methodology, the breast density classification FL challenge was hosted in partnership with the American College of Radiology, Harvard Medical School's Mass General Brigham, University of Colorado, NVIDIA, and the National Institutes of Health National Cancer Institute. Challenge participants were able to submit docker containers capable of implementing FL on three simulated medical facilities, each containing a unique large mammography dataset. The breast density FL challenge ran from June 15 to September 5, 2022, attracting seven finalists from around the world. The winning FL submission reached a linear kappa score of 0.653 on the challenge test data and 0.413 on an external testing dataset, scoring comparably to a model trained on the same data in a central location.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-22
# 微分可能シミュレーションによるニューラル流体系の設計と制御

Neural Fluidic System Design and Control with Differentiable Simulation ( http://arxiv.org/abs/2405.14903v1 )

ライセンス: Link先を確認
Yifei Li, Yuchen Sun, Pingchuan Ma, Eftychios Sifakis, Tao Du, Bo Zhu, Wojciech Matusik, (参考訳) 本稿では,動的固体境界を持つ複雑な流体系のニューラルコントロールと設計を探求する新しい枠組みを提案する。 本システムでは, 高速な微分可能なNavier-Stokes解法, 低次元の微分可能なパラメトリック幾何表現, 制御形状の共設計アルゴリズム, ジム風のシミュレーション環境を特徴とし, 様々な流体制御設計を容易化している。 さらに,高忠実で高分解能な流体環境における設計,制御,学習タスクのベンチマークを行い,既存の微分可能流体シミュレータの課題を提起する。 これらのタスクには、人工心臓の制御、ロボットのエンドエフェクター形状の識別、流体ゲートの制御が含まれる。 微分可能な流体シミュレータを学習フレームワークにシームレスに組み込むことで、これらのベンチマークタスクにおける勾配のない解を超える設計、制御、学習結果を成功させる。

We present a novel framework to explore neural control and design of complex fluidic systems with dynamic solid boundaries. Our system features a fast differentiable Navier-Stokes solver with solid-fluid interface handling, a low-dimensional differentiable parametric geometry representation, a control-shape co-design algorithm, and gym-like simulation environments to facilitate various fluidic control design applications. Additionally, we present a benchmark of design, control, and learning tasks on high-fidelity, high-resolution dynamic fluid environments that pose challenges for existing differentiable fluid simulators. These tasks include designing the control of artificial hearts, identifying robotic end-effector shapes, and controlling a fluid gate. By seamlessly incorporating our differentiable fluid simulator into a learning framework, we demonstrate successful design, control, and learning results that surpass gradient-free solutions in these benchmark tasks.
翻訳日:2024-05-27 19:48:22 公開日:2024-05-22
# コンピュータシステムのセキュリティ操作のモデル化と性能評価

Modeling and performance evaluation of computer systems security operation ( http://arxiv.org/abs/1212.5289v2 )

ライセンス: Link先を確認
D. Guster, N. K. Krivulin, (参考訳) フォークジョイント待ち行列ネットワークの定式化に基づいて,コンピュータシステムセキュリティ操作のモデルを開発する。 セキュリティ操作性能指標を導入し、実際のシステムの性能評価にどのように使用されるかを示す。

A model of computer system security operation is developed based on the fork-join queueing network formalism. We introduce a security operation performance measure, and show how it may be used to performance evaluation of actual systems.
翻訳日:2024-05-26 22:08:17 公開日:2024-05-22
# 絡みを検知する学習

Learning to Detect Entanglement ( http://arxiv.org/abs/1709.03617v2 )

ライセンス: Link先を確認
Bingjie Wang, (参考訳) 絡み合った状態や分離可能な状態の分類は基本的な作業だが、コストがかかる作業である。 本稿では,絡みを検知するために必要な資源量を改善する手法であるフォレストアルゴリズムを提案する。 エンタングルメントを検出するために幾何学的基準を使用する'最適化'手法から始まり、特定のステップを機械学習モデルに置き換える。 数値シミュレーションを用いたテストでは、モデルが既存の手法に比べて少ないステップで絡み合った状態を宣言できることを示している。 この改善は、元のアルゴリズムの正確性に影響を与えることなく達成される。

Classifying states as entangled or separable is a fundamental, but expensive task. This paper presents a method, the forest algorithm, to improve the amount of resources needed to detect entanglement. Starting from 'optimized' methods for using geometric criterion to detect entanglement, specific steps are replaced with machine learning models. Tests using numerical simulations indicate that the model is able to declare a state as entangled in fewer steps compared to existing methods. This improvement is achieved without affecting the correctness of the original algorithm.
翻訳日:2024-05-26 22:08:17 公開日:2024-05-22
# 量子メカニカルファウンデーションと認識論

Quantum Mechanical Foundations of Epistemology ( http://arxiv.org/abs/1709.09508v4 )

ライセンス: Link先を確認
Bruce Levinson, (参考訳) 科学史と哲学の学者は、非植民地化科学がどのようなものになるかを尋ねている。 本稿では,古典物理学の言語を用いて観測を記録・伝達する必要があるという仮定を疑問視することで,その答えを導出する。 ニールス・ボーアはこの仮定を支持したが、量子現象が古典線上では分析できないという事実を認識した。 古典的な分析は、客観的に記述できるように、観察されているものの客観化を必要とする。 この分析のルーツは超越的正当性の知的な創造であり、どこからともなく見解である。 対照的に、ヨーロッパ植民地主義以前の知識システムは、その客観的なモデルを構築することなく、自然の量子的性質を利用する。 本稿では,非植民地化知識システムと古典的知識システムとの相違点を考察し,同一現象の複数の真の観測を受け入れた。

Scholars of the history and philosophy of science have asked what would decolonized science would look like. This paper develops an answer by interrogating the assumption that observations need to be recorded and communicated using the language of classical physics. Niels Bohr held this assumption even though he recognized the fact that quantum phenomena cannot be analyzed on classical lines. Classical analysis requires the objectification of whatever is being observed so that it can be objectively described. Inherent in this analysis is the intellectual creation of a transcendental verity, a view from nowhere. In contrast, knowledge systems that predate European colonialism make use of the quantum nature of nature without constructing an objective model of it. This paper concludes that uncolonized knowledge systems differ from classical ones in that they are epistemically plural, accepting multiple true observations of the same phenomenon.
翻訳日:2024-05-26 22:08:17 公開日:2024-05-22
# ジェンダーバイアス緩和における線形部分空間仮説の探索

Exploring the Linear Subspace Hypothesis in Gender Bias Mitigation ( http://arxiv.org/abs/2009.09435v4 )

ライセンス: Link先を確認
Francisco Vargas, Ryan Cotterell, (参考訳) Bolukbasi et al (2016)は、単語表現のための最初の性別バイアス緩和手法の1つを提示している。 彼らの手法は、事前訓練された単語表現を入力とし、表現の性バイアスの大部分をキャプチャする線形部分空間を分離しようとする。 類似評価タスクによって判断されるように、その手法は表現における性別バイアスを事実上排除する。 しかし、それらの方法の暗黙的かつ未証明の仮定は、バイアス部分空間が実際線型であるということである。 本研究では,それらの手法を,カーネル化された非線形バージョンに一般化する。 カーネルの主成分分析からインスピレーションを得て、非線形バイアス分離手法を導出する。 単語表現における非線形性バイアス軽減のための手法の実際的な欠点を議論し、克服し、バイアス部分空間が実際に線形であるかどうかを実証的に分析する。 我々の分析は、性バイアスが実際に線形部分空間によってよく捉えられていることを示しており、Bolukbasi et al (2016) の仮定を正当化している。

Bolukbasi et al. (2016) presents one of the first gender bias mitigation techniques for word representations. Their method takes pre-trained word representations as input and attempts to isolate a linear subspace that captures most of the gender bias in the representations. As judged by an analogical evaluation task, their method virtually eliminates gender bias in the representations. However, an implicit and untested assumption of their method is that the bias subspace is actually linear. In this work, we generalize their method to a kernelized, nonlinear version. We take inspiration from kernel principal component analysis and derive a nonlinear bias isolation technique. We discuss and overcome some of the practical drawbacks of our method for non-linear gender bias mitigation in word representations and analyze empirically whether the bias subspace is actually linear. Our analysis shows that gender bias is in fact well captured by a linear subspace, justifying the assumption of Bolukbasi et al. (2016).
翻訳日:2024-05-26 22:08:17 公開日:2024-05-22
# Zero-Knowledge ゲーム

Zero-Knowledge Games ( http://arxiv.org/abs/2009.13521v5 )

ライセンス: Link先を確認
Ian Malloy, (参考訳) 本稿では,不完全なリコールと不完全な情報によって,全ての戦略が不完全であるようなゲームをモデル化する。 また、リニアトランスフォーメーションとして修正されたスライディングブロックコードを導入し、プレイヤーがいかに情報を持っているかの共通知識を生成する。 最終的に、両プレイヤーが情報を得るゼロ知識ゲームにおける2人のプレイヤーの間では、信頼の効用が混合戦略ナッシュ均衡に確立されていることが分かる。 ゼロ知識ゲームは信頼と健全性の1つである。 非インフォームドの選手の場合、そのようなプレイヤーは非インフォームドであることを明らかにする。

In this paper we model a game such that all strategies are non-revealing, with imperfect recall and incomplete information. We also introduce a modified sliding-block code as a linear transformation which generates common knowledge of how informed a player is. Ultimately, we see that between two players in a zero-knowledge game where both players are informed, the utility of trust is established in the mixed strategy Nash equilibrium. A zero-knowledge game is one of trust and soundness, placing utility in being informed. For any player who may be uninformed, such players reveal they are uninformed.
翻訳日:2024-05-26 22:08:17 公開日:2024-05-22
# 2つの観測可能な未知の純量子状態の定式化

Determination of All Unknown Pure Quantum States with Two Observables ( http://arxiv.org/abs/2108.05752v2 )

ライセンス: Link先を確認
Yu Wang, (参考訳) 主系上の極小観測値を用いて純粋量子状態から情報を効率的に抽出することは、量子情報理論における長年の根本的問題である。 位置と運動量の確率分布が波動関数を一意に特定できないにもかかわらず、ペレスは2つの相補的な可観測物が位置と運動量に類似しており、直交基底への射影測度として実現された離散バージョンを予想した。 その後の発見では、2つの直交基底を持つ測度ゼロ集合を無視しても、$d$-dimenisonal pure 状態が一意に決定できないことが判明し、ペレスの予想も$d=3$に対して正しいが$d=4$については正しくない。 本研究では,2つの直交基底が,測度ゼロの集合を無視することで,基底係数の複素数を伴わずに,最大2^{d-1}$有限候補を効果的にフィルタリングできることを示す。 さらに、2つの相補観測器を用いて波動関数の目標係数を直接計算するために、逐次測定からインスピレーションを得た結果、ほぼ全ての純クォーディットは、中央にPOVMを適応的に組み込んだ上で、その相補観測器の測定によって一意に決定できることを示した。

Efficiently extracting information from pure quantum states using minimal observables on the main system is a longstanding and fundamental issue in quantum information theory. Despite the inability of probability distributions of position and momentum to uniquely specify a wavefunction, Peres conjectured a discrete version wherein two complementary observables, analogous to position and momentum and realized as projective measurements onto orthogonal bases, can determine all pure qudits up to a finite set of ambiguities. Subsequent findings revealed the impossibility of uniquely determining $d$-dimenisonal pure states even when neglecting a measure-zero set with any two orthogonal bases, and Peres's conjecture is also correct for $d=3$ but not for $d=4$. In this study, we show that two orthogonal bases are capable of effectively filtering up to $2^{d-1}$ finite candidates by disregarding a measure-zero set, without involving complex numbers in the bases' coefficients. Additionally, drawing inspiration from sequential measurements to directly calculate the target coefficients of the wavefunction using two complementary observables, we show that almost all pure qudits can be uniquely determined by adaptively incorporating a POVM in the middle, followed by measuring the complementary observable.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-22
# 量子Szilardエンジンを用いた二段系過分極

Two-level system hyperpolarization using a quantum Szilard engine ( http://arxiv.org/abs/2204.00499v2 )

ライセンス: Link先を確認
Martin Spiecker, Patrick Paluch, Nicolas Gosling, Niv Drucker, Shlomi Matityahu, Daria Gusenkova, Simon Günzler, Dennis Rieger, Ivan Takmakov, Francesco Valenti, Patrick Winkel, Richard Gebauer, Oliver Sander, Gianluigi Catelani, Alexander Shnirman, Alexey V. Ustinov, Wolfgang Wernsdorfer, Yonatan Cohen, Ioan M. Pop, (参考訳) 固体物理学の本質的な複雑さは、超伝導量子回路を、そのコヒーレンスを低下させる制御されていない自由度との相互作用に露出させる。 簡単な安定化シーケンスを用いることで、超伝導フラクソニウム量子ビットが未知起源の2レベル系(TLS)環境に結合し、比較的長いエネルギー緩和時間が50\,\text{ms}$を超えることを示す。 量子Szilardエンジンをアクティブフィードバック制御ループで実装することで、キュービットがTLS環境を加熱するか冷却するかを決定できる。 TLSを冷却すると4倍の量子ビットの数が減少し、あるいは熱して、量子ビットの人口である$\sim 80\,\%$に対応する負の温度環境として表すことができる。 我々は、TLSとqubitは互いに支配的な損失機構であり、qubit緩和はTLSの集団とは独立であることを示した。 したがって、TLS環境の理解と緩和は、キュービット寿命を改善するだけでなく、マルコフ的でないキュービット力学を避けるためにも不可欠である。

The innate complexity of solid state physics exposes superconducting quantum circuits to interactions with uncontrolled degrees of freedom degrading their coherence. By using a simple stabilization sequence we show that a superconducting fluxonium qubit is coupled to a two-level system (TLS) environment of unknown origin, with a relatively long energy relaxation time exceeding $50\,\text{ms}$. Implementing a quantum Szilard engine with an active feedback control loop allows us to decide whether the qubit heats or cools its TLS environment. The TLSs can be cooled down resulting in a four times lower qubit population, or they can be heated to manifest themselves as a negative temperature environment corresponding to a qubit population of $\sim 80\,\%$. We show that the TLSs and the qubit are each other's dominant loss mechanism and that the qubit relaxation is independent of the TLS populations. Understanding and mitigating TLS environments is therefore not only crucial to improve qubit lifetimes but also to avoid non-Markovian qubit dynamics.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-22
# MGRR-Net:顔行動単位検出のためのマルチレベルグラフ関係推論ネットワーク

MGRR-Net: Multi-level Graph Relational Reasoning Network for Facial Action Units Detection ( http://arxiv.org/abs/2204.01349v4 )

ライセンス: Link先を確認
Xuri Ge, Joemon M. Jose, Songpei Xu, Xiao Liu, Hu Han, (参考訳) 顔画像のアクションユニット(AU)を符号化するFACS(Facial Action Coding System)は,顔の表情分析に広く用いられているため,広く研究されている。 自動顔動作ユニット(AU)検出においてよく機能する多くの方法は、主に、対応する局所筋領域間の様々な種類のAU関係をモデル化すること、あるいは、単にグローバルな注意を意識した顔の特徴をマイニングすることに焦点を当てるが、局所的な特徴間の動的相互作用を無視する。 我々は、AU特徴の符号化は、地域的特徴とグローバルな特徴の間のリッチな文脈情報や、表現の多様性や個人的特徴から、AU間の詳細なばらつきを捉えないかもしれないと論じている。 本稿では,顔AU検出のためのマルチレベルグラフ関係推論ネットワーク(MGRR-Net)を提案する。 MGRR-Netの各層はマルチレベル(領域レベル、ピクセルワイド、チャネルワイド)の機能学習を行う。 グラフニューラルネットワークによる局所的な顔パッチ機能からの地域レベルの特徴学習は、異なるAU間の相関を符号化することができるが、グラフアテンションネットワークによる画素ワイドおよびチャネルワイドの特徴学習は、グローバルな顔特徴からのAU機能の識別能力を高めることができる。 3つのレベルから融合した特徴により、AU識別能力は向上した。 DISFA と BP4D AU データセットの大規模な実験により,提案手法は最先端手法よりも優れた性能を示した。

The Facial Action Coding System (FACS) encodes the action units (AUs) in facial images, which has attracted extensive research attention due to its wide use in facial expression analysis. Many methods that perform well on automatic facial action unit (AU) detection primarily focus on modeling various types of AU relations between corresponding local muscle areas, or simply mining global attention-aware facial features, however, neglect the dynamic interactions among local-global features. We argue that encoding AU features just from one perspective may not capture the rich contextual information between regional and global face features, as well as the detailed variability across AUs, because of the diversity in expression and individual characteristics. In this paper, we propose a novel Multi-level Graph Relational Reasoning Network (termed MGRR-Net) for facial AU detection. Each layer of MGRR-Net performs a multi-level (i.e., region-level, pixel-wise and channel-wise level) feature learning. While the region-level feature learning from local face patches features via graph neural network can encode the correlation across different AUs, the pixel-wise and channel-wise feature learning via graph attention network can enhance the discrimination ability of AU features from global face features. The fused features from the three levels lead to improved AU discriminative ability. Extensive experiments on DISFA and BP4D AU datasets show that the proposed approach achieves superior performance than the state-of-the-art methods.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-22
# ベイズ系統推定への変分的アプローチ

A Variational Approach to Bayesian Phylogenetic Inference ( http://arxiv.org/abs/2204.07747v2 )

ライセンス: Link先を確認
Cheng Zhang, Frederick A. Matsen IV, (参考訳) ベイズ系統推定は現在、マルコフ連鎖モンテカルロ(MCMC)と単純な提案機構によって行われている。 これにより探索の効率が損なわれ、しばしば正確な後方推定を行うのに長い時間を要する。 本稿では,ベイズ系統解析のための変分フレームワークを提案する。 本研究では,木トポロジ分布の表現的グラフィカルモデルであるサブ分割ベイズネットワークと,木トポロジ上の枝長の構造的アモーティゼーションを組み合わせることで,分布の適切な変分族を実現することを提案する。 確率勾配法による変分近似を訓練し、連続的および離散的な変分パラメータに勾配推定器を適用して、系統モデルの複合潜時空間に対処する。 変動推論によりより効率的な探索機構を実現できるため、より少ない (よりコストがかかる) 反復を必要とする一方で、我々の変分アプローチはMCMCと競合する性能を提供することを示した。 本手法の有効性と有効性を示す実データベイズ系統推定問題のベンチマーク実験を行った。

Bayesian phylogenetic inference is currently done via Markov chain Monte Carlo (MCMC) with simple proposal mechanisms. This hinders exploration efficiency and often requires long runs to deliver accurate posterior estimates. In this paper, we present an alternative approach: a variational framework for Bayesian phylogenetic analysis. We propose combining subsplit Bayesian networks, an expressive graphical model for tree topology distributions, and a structured amortization of the branch lengths over tree topologies for a suitable variational family of distributions. We train the variational approximation via stochastic gradient ascent and adopt gradient estimators for continuous and discrete variational parameters separately to deal with the composite latent space of phylogenetic models. We show that our variational approach provides competitive performance to MCMC, while requiring much fewer (though more costly) iterations due to a more efficient exploration mechanism enabled by variational inference. Experiments on a benchmark of challenging real data Bayesian phylogenetic inference problems demonstrate the effectiveness and efficiency of our methods.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-22
# 文法的数の利用に関する調査

Probing for the Usage of Grammatical Number ( http://arxiv.org/abs/2204.08831v4 )

ライセンス: Link先を確認
Karim Lasri, Tiago Pimentel, Alessandro Lenci, Thierry Poibeau, Ryan Cotterell, (参考訳) 探究の中心的な探求は、事前訓練されたモデルがその表現の中で言語的特性をエンコードする方法を明らかにすることである。 しかし、符号化は急進的かもしれない。つまり、予測を行う際にモデルはそれに依存しないかもしれない。 本稿では、モデルが実際に使用しているエンコーディングを見つけ、使用法に基づく探索設定を導入する。 まず,言語的特性を使わずに解決できない行動課題を選択する。 そして、モデルの表現を介入することで、プロパティを除去しようとします。 モデルが符号化を使用する場合、その除去は選択した動作タスクのパフォーマンスに悪影響を及ぼすべきである、と我々は主張する。 ケーススタディでは,BERTが文法的数値をエンコードする方法と,このエンコーディングを用いて数値合意課題を解決する方法に焦点をあてる。 実験により,BERTは文法的な数値を線形に符号化して正しい振舞いの出力を生成する。 また、BERTは名詞と動詞の文法的な数値を別々に符号化している。 最後に, 文法的数に関する情報が名詞から頭動詞に伝達される層を同定する。

A central quest of probing is to uncover how pre-trained models encode a linguistic property within their representations. An encoding, however, might be spurious-i.e., the model might not rely on it when making predictions. In this paper, we try to find encodings that the model actually uses, introducing a usage-based probing setup. We first choose a behavioral task which cannot be solved without using the linguistic property. Then, we attempt to remove the property by intervening on the model's representations. We contend that, if an encoding is used by the model, its removal should harm the performance on the chosen behavioral task. As a case study, we focus on how BERT encodes grammatical number, and on how it uses this encoding to solve the number agreement task. Experimentally, we find that BERT relies on a linear encoding of grammatical number to produce the correct behavioral output. We also find that BERT uses a separate encoding of grammatical number for nouns and verbs. Finally, we identify in which layers information about grammatical number is transferred from a noun to its head verb.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-22
# メトリジングフェアネス

Metrizing Fairness ( http://arxiv.org/abs/2205.15049v4 )

ライセンス: Link先を確認
Yves Rychener, Bahar Taskesen, Daniel Kuhn, (参考訳) 本研究では、2つの人口集団の1つに属する個人の特性を予測するための教師付き学習問題について検討し、統計的に公平な予測因子を求める。 このことは、2つの群内の予測の分布がコルモゴロフ距離に近づき、学習問題の目的関数においてこれらの2つの分布の相似性を罰することによって公平性を達成することを意味する。 本稿では,コルモゴロフ距離以外の積分確率測度(IPM)を用いて不公平さを測る概念的および計算的利点を示す。 概念的には、どのIMMのジェネレータもユーティリティ関数のファミリーとして解釈でき、このIMMに関する不公平さは、2つの人口集団の個人が期待されるユーティリティを分散させた場合に生じます。 また,不公平度が2乗平均L^2$-距離または2乗平均誤差で測定された場合,不公平度正規化予測損失は不偏勾配推定器を許容することを示した。 この場合、フェアラーニング問題は、効率的な確率勾配勾配(SGD)アルゴリズムに影響を受けやすい。 実データに関する数値実験により、これらのSGDアルゴリズムは、公正な学習のための最先端の手法よりも優れた精度と不公平なトレードオフを達成できることが示されている。 最後に,統計的パリティが予測精度を向上させる条件を特定する。

We study supervised learning problems for predicting properties of individuals who belong to one of two demographic groups, and we seek predictors that are fair according to statistical parity. This means that the distributions of the predictions within the two groups should be close with respect to the Kolmogorov distance, and fairness is achieved by penalizing the dissimilarity of these two distributions in the objective function of the learning problem. In this paper, we showcase conceptual and computational benefits of measuring unfairness with integral probability metrics (IPMs) other than the Kolmogorov distance. Conceptually, we show that the generator of any IPM can be interpreted as a family of utility functions and that unfairness with respect to this IPM arises if individuals in the two demographic groups have diverging expected utilities. We also prove that the unfairness-regularized prediction loss admits unbiased gradient estimators if unfairness is measured by the squared $\mathcal L^2$-distance or by a squared maximum mean discrepancy. In this case, the fair learning problem is susceptible to efficient stochastic gradient descent (SGD) algorithms. Numerical experiments on real data show that these SGD algorithms outperform state-of-the-art methods for fair learning in that they achieve superior accuracy-unfairness trade-offs -- sometimes orders of magnitude faster. Finally, we identify conditions under which statistical parity can improve prediction accuracy.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-22
# CAN-MM:道路車両における制御エリアネットワークメッセージ認証のための多重メッセージ認証コード

CAN-MM: Multiplexed Message Authentication Code for Controller Area Network message authentication in road vehicles ( http://arxiv.org/abs/2206.02603v3 )

ライセンス: Link先を確認
Franco Oberti, Ernesto Sanchez, Alessandro Savino, Filippo Parisi, Stefano Di Carlo, (参考訳) 自動車市場はサイバー攻撃によってますます利益を上げている。 車両に搭載された電子制御ユニット(ECU)は、しばしばクリティカルで敵対的な環境で運用される。 そのため、自動車メーカーと政府は、自動車分野に属するリスクや脅威を緩和する一連のイニシアチブを支援することを決定した。 制御エリアネットワーク(CAN)は、自動車分野における主要な通信プロトコルであり、このネットワーク上の通信の整合性は、MAC(Message Authentication Codes)を通じて保証される。 しかし、スループットとフレームサイズの制限により、CANプロトコルの特定のバージョンへのこの技術の適用は制限され、いくつかの車両はまだ保護されていない。 本稿ではCAN多重化MAC(CAN-MM)について,標準CAN通信を用いた多重化MACデータに対する周波数変調を利用した新しいアプローチを提案する。 CAN-MMは、標準CANプロトコルのすべてのバージョンとのフルバック互換性を維持するMACペイロードの送信を可能にする。 さらに、多重化により、DataとMACを同時に送信できる。

The automotive market is increasingly profitable for cyberattacks with the constant shift toward fully interconnected vehicles. Electronic Control Units (ECUs) installed on cars often operate in a critical and hostile environment. Hence, both carmakers and governments have decided to support a series of initiatives to mitigate risks and threats belonging to the automotive domain. The Controller Area Network (CAN) is the primary communication protocol in the automotive field, and the integrity of the communication over this network is assured through Message Authentication Codes (MAC). However, limitations in throughput and frame size limit the application of this technique to specific versions of the CAN protocol, leaving several vehicles still unprotected. This paper presents CAN Multiplexed MAC (CAN-MM), a new approach exploiting frequency modulation to multiplex MAC data with standard CAN communication. CAN-MM allows transmitting MAC payloads maintaining full-back compatibility with all versions of the standard CAN protocol. Moreover, multiplexing allows sending DATA and MAC simultaneously.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-22
# GraphFramEx: グラフニューラルネットワークにおける説明可能性手法の体系的評価に向けて

GraphFramEx: Towards Systematic Evaluation of Explainability Methods for Graph Neural Networks ( http://arxiv.org/abs/2206.09677v5 )

ライセンス: Link先を確認
Kenza Amara, Rex Ying, Zitao Zhang, Zhihao Han, Yinan Shan, Ulrik Brandes, Sebastian Schemm, Ce Zhang, (参考訳) 今日最もポピュラーな機械学習モデルのひとつとして、グラフニューラルネットワーク(GNN)が最近注目を集めており、その説明可能性も高い。 ユーザは、GNNモデルとその成果をよりよく理解することに興味を持っている。 残念ながら、今日のGNN説明可能性評価フレームワークは、多くの場合、不十分な合成データセットに頼っている。 GNNモデルはよりミッションクリティカルなアプリケーションにデプロイされるため、GNNの説明可能性に関する共通評価プロトコルが必要である。 本稿では,3つの異なる「ユーザニーズ」に対する説明可能性を考慮した,GNN説明可能性のための最初の体系的評価フレームワークを提案する。 そこで本研究では,忠実度尺度を組み合わせた一意な計量法を提案し,その品質が十分か必要かに基づいて説明を分類する。 ノード分類タスクを対象とし、GNNの入力レベル説明可能性の分野で最も代表的な手法を比較する。 不適切なが広く使われている合成ベンチマークでは、パーソナライズされたPageRankのような驚くほど浅いテクニックが最小限の計算時間で最高のパフォーマンスを持つ。 しかし,グラフ構造が複雑で有意義な特徴を持つ場合,評価基準に従って勾配法が最適である。 しかしながら、すべての評価次元において他のものを支配するものはなく、常にトレードオフがある。 さらに,eBay取引グラフの不正説明を事例として,本評価プロトコルを適用して実運用環境を反映する。

As one of the most popular machine learning models today, graph neural networks (GNNs) have attracted intense interest recently, and so does their explainability. Users are increasingly interested in a better understanding of GNN models and their outcomes. Unfortunately, today's evaluation frameworks for GNN explainability often rely on few inadequate synthetic datasets, leading to conclusions of limited scope due to a lack of complexity in the problem instances. As GNN models are deployed to more mission-critical applications, we are in dire need for a common evaluation protocol of explainability methods of GNNs. In this paper, we propose, to our best knowledge, the first systematic evaluation framework for GNN explainability, considering explainability on three different "user needs". We propose a unique metric that combines the fidelity measures and classifies explanations based on their quality of being sufficient or necessary. We scope ourselves to node classification tasks and compare the most representative techniques in the field of input-level explainability for GNNs. For the inadequate but widely used synthetic benchmarks, surprisingly shallow techniques such as personalized PageRank have the best performance for a minimum computation time. But when the graph structure is more complex and nodes have meaningful features, gradient-based methods are the best according to our evaluation criteria. However, none dominates the others on all evaluation dimensions and there is always a trade-off. We further apply our evaluation protocol in a case study for frauds explanation on eBay transaction graphs to reflect the production environment.
翻訳日:2024-05-26 22:01:37 公開日:2024-05-22
# 深部因果モデルとその産業応用に関する調査研究

A Survey of Deep Causal Models and Their Industrial Applications ( http://arxiv.org/abs/2209.08860v6 )

ライセンス: Link先を確認
Zongyu Li, Xiaobo Guo, Siwei Qiang, (参考訳) 因果性の概念は、人間の認知の領域における最重要位置を前提としている。 過去数十年間、コンピュータ科学、医学、経済学、産業応用に限らず、様々な分野において因果効果の推定分野が著しく進歩してきた。 深層学習手法の連続的な進歩を考えると, 因果効果を推定するために, 反実データを用いた利用が顕著に急増している。 通常、深い因果モデルでは、共変量の特徴を表現空間にマッピングし、様々な目的関数を設計し、反事実データをバイアスなく推定する。 機械学習における因果モデルに関する既存の調査と異なり、このレビューは主にニューラルネットワークに基づく深い因果モデルの概要に焦点を当てており、その中核となる貢献は以下のとおりである。 1)開発スケジュールと方法分類の両視点から,深い因果モデルの包括的概要を考察した。 2) 産業への因果効果推定の典型的な応用について概説する。 3)関連するデータセット,ソースコード,実験について,詳細な分類と分析を行う。

The notion of causality assumes a paramount position within the realm of human cognition. Over the past few decades, there has been significant advancement in the domain of causal effect estimation across various disciplines, including but not limited to computer science, medicine, economics, and industrial applications. Given the continous advancements in deep learning methodologies, there has been a notable surge in its utilization for the estimation of causal effects using counterfactual data. Typically, deep causal models map the characteristics of covariates to a representation space and then design various objective functions to estimate counterfactual data unbiasedly. Different from the existing surveys on causal models in machine learning, this review mainly focuses on the overview of the deep causal models based on neural networks, and its core contributions are as follows: 1) we cast insight on a comprehensive overview of deep causal models from both timeline of development and method classification perspectives; 2) we outline some typical applications of causal effect estimation to industry; 3) we also endeavor to present a detailed categorization and analysis on relevant datasets, source codes and experiments.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-22
# ウィグナー汎函数のフェルミオン二次基底

Fermion quadrature bases for Wigner functionals ( http://arxiv.org/abs/2209.13223v7 )

ライセンス: Link先を確認
Filippus S. Roux, (参考訳) グラスマン汎函数位相空間は、ボソン二次作用素に類似する適切なフェルミオン作用素を特定することによってフェルミオンウィグナー汎函数の定義のために定式化される。 マヨラナ作用素の代わりに、はしご作用素間の相対スピン変換で定義される作用素を用いる。 これらの作用素の固有状態は、双対空間がスピン変換の包含によって定義されることを仮定して直交基底を与える。 これらの基底は、ウィグナー汎函数がボソニックケースと同値な方法で定義されるという観点で二次基底として機能する。 応用例として,2段階のフェルミオンシステムを考える。

A Grassmann functional phase space is formulated for the definition of fermionic Wigner functionals by identifying suitable fermionic operators that are analogues to boson quadrature operators. Instead of the Majorana operators, we use operators that are defined with relative spin transformations between the ladder operators. The eigenstates of these operators are shown to provide orthogonal bases, provided that the dual space is defined with the incorporation of a spin transformation. These bases then serve as quadrature bases in terms of which Wigner functionals are defined in a way equivalent to the bosonic case. As an application, we consider a two-level fermion system.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-22
# Sauron U-Net:フィルタプルーニングによる医用画像分割における簡便な冗長性除去

Sauron U-Net: Simple automated redundancy elimination in medical image segmentation via filter pruning ( http://arxiv.org/abs/2209.13590v2 )

ライセンス: Link先を確認
Juan Miguel Valverde, Artem Shatillo, Jussi Tohka, (参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)の冗長な特徴マップを除去するフィルタプルーニング手法であるSauronを紹介する。 Sauronは、各畳み込み層における特徴写像のクラスタリングを促進する正規化用語であるロス関数と共同で最適化し、特徴写像間の距離を小さくする。 Sauronは、自動的に調整された層固有のしきい値を使用することで、冗長な特徴マップに対応するフィルタを除去する。 多くのフィルタプルーニング法とは異なり、Sauronは典型的なニューラルネットワーク最適化に最小限の変更を必要とする。 さらに、他のクラスタベースのアプローチとは異なり、事前にクラスタの数を指定する必要はない。 医用画像分割作業において,Sauronと5つの最先端フィルタプルーニング法について検討した。 この領域では、プルーニングのフィルタリングにはほとんど注意が払われていないが、小さなCNNモデルがローカルデプロイメントに望ましいため、クラウドベースのソリューションに関連するプライバシー上の懸念が軽減されている。 サウロンは性能を著しく劣化させることなくモデルサイズを90%以上削減した唯一の方法であった。 Sauronはまた、GPUと非GPUを持つマシンにおいて、推論時に最速のモデルも達成した。 最後に, 医用画像のセグメンテーションに欠かせない, サロンで刈り取られたモデルの特徴マップが極めて解釈可能であることを示す。

We introduce Sauron, a filter pruning method that eliminates redundant feature maps of convolutional neural networks (CNNs). Sauron optimizes, jointly with the loss function, a regularization term that promotes feature maps clustering at each convolutional layer by reducing the distance between feature maps. Sauron then eliminates the filters corresponding to the redundant feature maps by using automatically adjusted layer-specific thresholds. Unlike most filter pruning methods, Sauron requires minimal changes to typical neural network optimization because it prunes and optimizes CNNs jointly, which, in turn, accelerates the optimization over time. Moreover, unlike with other cluster-based approaches, the user does not need to specify the number of clusters in advance, a hyperparameter that is difficult to tune. We evaluated Sauron and five state-of-the-art filter pruning methods on four medical image segmentation tasks. This is an area where little attention has been paid to filter pruning, but where smaller CNN models are desirable for local deployment, mitigating privacy concerns associated with cloud-based solutions. Sauron was the only method that achieved a reduction in model size of over 90% without deteriorating substantially the performance. Sauron also achieved, overall, the fastest models at inference time in machines with and without GPUs. Finally, we show through experiments that the feature maps of models pruned with Sauron are highly interpretable, which is essential for medical image segmentation.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-22
# 混合グラフ学習におけるハイブリッドポーリングの有効性について

On the Effectiveness of Hybrid Pooling in Mixup-Based Graph Learning for Language Processing ( http://arxiv.org/abs/2210.03123v3 )

ライセンス: Link先を確認
Zeming Dong, Qiang Hu, Zhenya Zhang, Yuejun Guo, Maxime Cordy, Mike Papadakis, Yves Le Traon, Jianjun Zhao, (参考訳) グラフニューラルネットワーク(GNN)ベースのグラフ学習は、自然言語やプログラミング言語処理、特にテキストやソースコードの分類において人気がある。 通常、GNNはグラフノードの特徴の変換を学習する交互層と、グラフプーリング演算子(例えばMax-pooling)を使用してグラフの意味情報を保存しながらノード数を効果的に削減するグラフプーリング層を組み込むことで構築される。 近年,グラフ学習タスクにおけるGNNを強化すべく,グラフデータとラベルを線形に混合して合成グラフデータを生成するデータ拡張技術であるManifold-Mixupが広く採用されている。 しかし、マニフォールド・ミクスアップの性能はグラフプーリング演算子の影響を強く受けており、そのような愛情を明らかにするための研究は多くない。 このギャップを埋めるために、我々は、グラフプーリングオペレータがMixupベースのグラフ学習のパフォーマンスにどのように影響するかを調査する初期段階を取ります。 そこで我々は,11個のグラフプーリング演算(ハイブリッドプール演算子9個,非ハイブリッドプール演算子2個)に基づくグラフプーリングの形式的特徴付けにManifold-Mixupを適用することで,総合的な実証的研究を行う。 自然言語データセット(Gossipcop, Politifact, Python800)とプログラミング言語データセット(JAVA250, Python800)の実験結果から, ハイブリッドプール演算子は, 標準のMax-poolingや最先端のグラフマルチセット変換器(GMT)よりも, より正確でロバストなGNNモデルの生成に有効であることが示された。

Graph neural network (GNN)-based graph learning has been popular in natural language and programming language processing, particularly in text and source code classification. Typically, GNNs are constructed by incorporating alternating layers which learn transformations of graph node features, along with graph pooling layers that use graph pooling operators (e.g., Max-pooling) to effectively reduce the number of nodes while preserving the semantic information of the graph. Recently, to enhance GNNs in graph learning tasks, Manifold-Mixup, a data augmentation technique that produces synthetic graph data by linearly mixing a pair of graph data and their labels, has been widely adopted. However, the performance of Manifold-Mixup can be highly affected by graph pooling operators, and there have not been many studies that are dedicated to uncovering such affection. To bridge this gap, we take an early step to explore how graph pooling operators affect the performance of Mixup-based graph learning. To that end, we conduct a comprehensive empirical study by applying Manifold-Mixup to a formal characterization of graph pooling based on 11 graph pooling operations (9 hybrid pooling operators, 2 non-hybrid pooling operators). The experimental results on both natural language datasets (Gossipcop, Politifact) and programming language datasets (JAVA250, Python800) demonstrate that hybrid pooling operators are more effective for Manifold-Mixup than the standard Max-pooling and the state-of-the-art graph multiset transformer (GMT) pooling, in terms of producing more accurate and robust GNN models.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-22
# テンソルネットワーク形式を用いたO(3)等価ニューラルネットワークの設計

Unifying O(3) Equivariant Neural Networks Design with Tensor-Network Formalism ( http://arxiv.org/abs/2211.07482v3 )

ライセンス: Link先を確認
Zimu Li, Zihan Pengmei, Han Zheng, Erik Thiede, Junyu Liu, Risi Kondor, (参考訳) アブイニシアト計算からのポテンシャルエネルギー表面の学習を含む多くの学習タスクは、大域的な空間対称性と原子または一般粒子間の置換対称性を含む。 等変グラフニューラルネットワークはそのような問題に対する標準的なアプローチであり、空間群の下で変換される様々なテンソル間のテンソル積を利用する最も成功した手法の1つである。 しかし、異なるテンソルの数とそれらの間の関係の複雑さが増すにつれて、パシモニーと等価性の維持がますます困難になる。 本稿では,SU($2$)-対称量子多体問題のシミュレートに広く用いられている融合図を用いて,同変ニューラルネットワークのための新しい同変成分を設計する手法を提案する。 これにより、新しいニューラルネットワークアーキテクチャを構築するための図式的なアプローチが実現される。 与えられた局所近傍の粒子に適用すると、結果として得られる成分は「融合ブロック」と呼ばれ、その近傍で定義される任意の連続同変関数の普遍近似となる。 核融合ブロックを既存の同変アーキテクチャ(Cormorant と MACE)に組み込むことで、より少ないパラメータで性能を向上させることができる。 さらに、Stilbene cis-trans異性化の非断熱的分子動力学の研究に、グループ同変ニューラルネットワークを適用した。 我々のアプローチは、テンソルネットワークと同変ニューラルネットワークを組み合わせることで、より表現力のある同変ニューラルネットワークを設計するための有益な方向を示唆している。

Many learning tasks, including learning potential energy surfaces from ab initio calculations, involve global spatial symmetries and permutational symmetry between atoms or general particles. Equivariant graph neural networks are a standard approach to such problems, with one of the most successful methods employing tensor products between various tensors that transform under the spatial group. However, as the number of different tensors and the complexity of relationships between them increase, maintaining parsimony and equivariance becomes increasingly challenging. In this paper, we propose using fusion diagrams, a technique widely employed in simulating SU($2$)-symmetric quantum many-body problems, to design new equivariant components for equivariant neural networks. This results in a diagrammatic approach to constructing novel neural network architectures. When applied to particles within a given local neighborhood, the resulting components, which we term "fusion blocks," serve as universal approximators of any continuous equivariant function defined in the neighborhood. We incorporate a fusion block into pre-existing equivariant architectures (Cormorant and MACE), leading to improved performance with fewer parameters on a range of challenging chemical problems. Furthermore, we apply group-equivariant neural networks to study non-adiabatic molecular dynamics of stilbene cis-trans isomerization. Our approach, which combines tensor networks with equivariant neural networks, suggests a potentially fruitful direction for designing more expressive equivariant neural networks.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-22
# テキスト会話における深部感情認識 : 調査

Deep Emotion Recognition in Textual Conversations: A Survey ( http://arxiv.org/abs/2211.09172v3 )

ライセンス: Link先を確認
Patrícia Pereira, Helena Moniz, Joao Paulo Carvalho, (参考訳) 会話における感情認識(ERC:Emotion Recognition in Conversations)はここ数年で飛躍的な進歩を遂げている。 これらは会話の文脈、話者と感情のダイナミクスのモデリング、一般的な感覚表現、非公式言語、皮肉の解釈、リアルタイムERCの課題への対処、感情の原因の認識、データセット間の異なる分類、多言語ERCの解釈可能性など多岐にわたる。 この調査はERCの導入から始まり、このタスクに関連する課題と機会について検討する。 感情分類学と、そのような分類学を用いた様々なERCベンチマークデータセットを記述する。 この後、ERCでもっとも顕著な作品の説明とディープラーニングアーキテクチャの解説が続く。 次に、より優れたフレームワークに対して推奨されるERCのプラクティスを提供し、アノテーションやモデリングの主観性を扱うメソッドと、典型的にバランスの取れないERCデータセットを扱うメソッドを実験する。 最後に、使用するメソッドとそのパフォーマンスに関するいくつかの作業を比較した、体系的なレビューテーブルを示す。 この調査は、不均衡なデータに対処するためのテクニックを活用することの利点、混合感情の探索、学習フェーズにアノテーションの主観性を取り入れることの利点を強調している。

While Emotion Recognition in Conversations (ERC) has seen a tremendous advancement in the last few years, new applications and implementation scenarios present novel challenges and opportunities. These range from leveraging the conversational context, speaker and emotion dynamics modelling, to interpreting common sense expressions, informal language and sarcasm, addressing challenges of real time ERC, recognizing emotion causes, different taxonomies across datasets, multilingual ERC to interpretability. This survey starts by introducing ERC, elaborating on the challenges and opportunities pertaining to this task. It proceeds with a description of the emotion taxonomies and a variety of ERC benchmark datasets employing such taxonomies. This is followed by descriptions of the most prominent works in ERC with explanations of the Deep Learning architectures employed. Then, it provides advisable ERC practices towards better frameworks, elaborating on methods to deal with subjectivity in annotations and modelling and methods to deal with the typically unbalanced ERC datasets. Finally, it presents systematic review tables comparing several works regarding the methods used and their performance. The survey highlights the advantage of leveraging techniques to address unbalanced data, the exploration of mixed emotions and the benefits of incorporating annotation subjectivity in the learning phase.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-22
# Decorr: 不変学習とOOD一般化のための環境分割

Decorr: Environment Partitioning for Invariant Learning and OOD Generalization ( http://arxiv.org/abs/2211.10054v2 )

ライセンス: Link先を確認
Yufan Liao, Qi Wu, Zhaodi Wu, Xing Yan, (参考訳) 複数の環境にまたがる一貫した予測器を同定することを目的とした不変学習手法が,アウト・オブ・ディストリビューション(OOD)の一般化において注目されている。 しかし、データに固有の環境がなければ、実践者はそれらを手動で定義しなければなりません。 この環境分割は、訓練データセットを環境に分類するものである。 適切な環境分割により、不変学習の適用範囲を広げ、その性能を高めることができる。 本稿では,低相関データサブセットを分離することで,データセットを複数の環境に分割することを提案する。 合成および実データを用いた実験により,Decorr法は不変学習と組み合わせて優れた性能を示す。 ディケーラは、急激な相関の問題、安定した予測器の同定の支援、不変学習法の適用性の拡大を緩和する。

Invariant learning methods, aimed at identifying a consistent predictor across multiple environments, are gaining prominence in out-of-distribution (OOD) generalization. Yet, when environments aren't inherent in the data, practitioners must define them manually. This environment partitioning--algorithmically segmenting the training dataset into environments--crucially affects invariant learning's efficacy but remains underdiscussed. Proper environment partitioning could broaden the applicability of invariant learning and enhance its performance. In this paper, we suggest partitioning the dataset into several environments by isolating low-correlation data subsets. Through experiments with synthetic and real data, our Decorr method demonstrates superior performance in combination with invariant learning. Decorr mitigates the issue of spurious correlations, aids in identifying stable predictors, and broadens the applicability of invariant learning methods.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-22
# 再帰的ノイズ拡散を用いた空中からのマルチクラスセグメンテーション

Multi-Class Segmentation from Aerial Views using Recursive Noise Diffusion ( http://arxiv.org/abs/2212.00787v3 )

ライセンス: Link先を確認
Benedikt Kolbeinsson, Krystian Mikolajczyk, (参考訳) 航空ビューからのセマンティックセグメンテーションは、自律ドローンにとって重要な課題だ。 しかし、航空画像は、多様な視点、極端なスケールのバリエーション、高いシーンの複雑さなど、ユニークな課題を呈している。 本稿では,これらの課題に対処するエンドツーエンドのセマンティックセマンティックセマンティクス拡散モデルを提案する。 本稿では,拡散過程を補完する階層的マルチスケールアプローチとともに,情報の伝播を可能にする再帰的復調手法を提案する。 提案手法は,Vayhingen BuildingセグメンテーションベンチマークにおけるUAVidデータセットと最先端性能に関する有望な結果を得る。 このメソッドの最初のイテレーションであるため、将来の改善には大いに期待できます。

Semantic segmentation from aerial views is a crucial task for autonomous drones, as they rely on precise and accurate segmentation to navigate safely and efficiently. However, aerial images present unique challenges such as diverse viewpoints, extreme scale variations, and high scene complexity. In this paper, we propose an end-to-end multi-class semantic segmentation diffusion model that addresses these challenges. We introduce recursive denoising to allow information to propagate through the denoising process, as well as a hierarchical multi-scale approach that complements the diffusion process. Our method achieves promising results on the UAVid dataset and state-of-the-art performance on the Vaihingen Building segmentation benchmark. Being the first iteration of this method, it shows great promise for future improvements.
翻訳日:2024-05-26 21:51:50 公開日:2024-05-22
# グラフ畳み込みネットワークにおける周辺訪問

Visiting Distant Neighbors in Graph Convolutional Networks ( http://arxiv.org/abs/2301.10960v3 )

ライセンス: Link先を確認
Alireza Hashemi, Hernan Makse, (参考訳) 本稿では,グラフデータの深層学習のためのグラフ畳み込みネットワーク手法を,隣接ノードの高次化に拡張する。 グラフ内のノードの表現を構成するために、ノードとそのすぐ隣のノードの特徴に加えて、計算にもっと遠いノードも含む。 多くの公開引用グラフデータセットを用いて実験したところ、特にモデルのトレーニングに利用可能なラベル付きデータポイントが限られている場合に、この上位の隣人の訪問は元のモデルよりも優れていることがわかった。

We extend the graph convolutional network method for deep learning on graph data to higher order in terms of neighboring nodes. In order to construct representations for a node in a graph, in addition to the features of the node and its immediate neighboring nodes, we also include more distant nodes in the calculations. In experimenting with a number of publicly available citation graph datasets, we show that this higher order neighbor visiting pays off by outperforming the original model especially when we have a limited number of available labeled data points for the training of the model.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-22
# ワンウェイ関数による量子アドバンテージ

Quantum Advantage from One-Way Functions ( http://arxiv.org/abs/2302.04749v2 )

ライセンス: Link先を確認
Tomoyuki Morimae, Takashi Yamakawa, (参考訳) 我々はいくつかの基本的な仮定、特に OWF の存在のみに基づく量子優位性を示す。 量子性の非効率検証証明(IV-PoQ)を導入し、古典的なビットのコミットメントから構成する。 IV-PoQは、2つの位相からなる量子証明器と検証器の間の対話プロトコルである。 第1フェーズでは、検証器は確率多項式時間であり、証明器と相互作用する。 第2のフェーズでは、検証器は非効率になり、第1のフェーズの書き起こしに基づいてその決定を行う。 証明者が正直であれば、非効率な検証者は高い確率で受け入れるが、古典的な悪意のある証明者は、その非効率な検証者によって受け入れられる確率は小さい。 1 つの片方向関数が存在するなら、IV-PoQ が存在する。 2) 分布的衝突耐性ハッシュ関数($\mathbf{SZK}$ のハード・オン・平均問題が存在する場合)が存在すれば、定数ラウンド IV-PoQ が存在する。 また、最悪のケースハード仮定に基づく量子優位性を示す。 我々は、悪意のある証明者に対して、証明者が騙せないような補助入力が無限に存在することを要求される補助入力IV-PoQ(AI-IV-PoQ)を定義する。 同様の方法でAI-IV-PoQを構築し,(1)補助入力片方向関数が存在する場合($\mathbf{CZK}\not\subseteq\mathbf{BPP}$の場合)、AI-IV-PoQが存在することを示す。 2)補助入力衝突耐性ハッシュ関数($\mathbf{PWPP}\nsubseteq \mathbf{FBPP}$)や$\mathbf{SZK}\nsubseteq \mathbf{BPP}$と等価であれば、定数ラウンドAI-IV-PoQが存在する。

We demonstrate quantum advantage with several basic assumptions, specifically based on only the existence of OWFs. We introduce inefficient-verifier proofs of quantumness (IV-PoQ), and construct it from classical bit commitments. IV-PoQ is an interactive protocol between a verifier and a quantum prover consisting of two phases. In the first phase, the verifier is probabilistic polynomial-time, and it interacts with the prover. In the second phase, the verifier becomes inefficient, and makes its decision based on the transcript of the first phase. If the prover is honest, the inefficient verifier accepts with high probability, but any classical malicious prover only has a small probability of being accepted by the inefficient verifier. Our construction demonstrates the following results: (1)If one-way functions exist, then IV-PoQ exist. (2)If distributional collision-resistant hash functions exist (which exist if hard-on-average problems in $\mathbf{SZK}$ exist), then constant-round IV-PoQ exist. We also demonstrate quantum advantage based on worst-case-hard assumptions. We define auxiliary-input IV-PoQ (AI-IV-PoQ) that only require that for any malicious prover, there exist infinitely many auxiliary inputs under which the prover cannot cheat. We construct AI-IV-PoQ from an auxiliary-input version of commitments in a similar way, showing that (1)If auxiliary-input one-way functions exist (which exist if $\mathbf{CZK}\not\subseteq\mathbf{BPP}$), then AI-IV-PoQ exist. (2)If auxiliary-input collision-resistant hash functions exist (which is equivalent to $\mathbf{PWPP}\nsubseteq \mathbf{FBPP}$) or $\mathbf{SZK}\nsubseteq \mathbf{BPP}$, then constant-round AI-IV-PoQ exist.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-22
# 緩和バイアスが不公平であるとき--アルゴリズム群フェアネスにおける乗法性と仲裁性

When mitigating bias is unfair: multiplicity and arbitrariness in algorithmic group fairness ( http://arxiv.org/abs/2302.07185v2 )

ライセンス: Link先を確認
Natasa Krco, Thibault Laugel, Vincent Grari, Jean-Michel Loubes, Marcin Detyniecki, (参考訳) 公正な機械学習に関するほとんどの研究は、Demographic ParityやEqualized Oddsといった最適化基準を優先している。 これらの努力にもかかわらず、異なるバイアス緩和戦略が個々の予測にどのように影響するか、そして彼らが偏見の過程に任意性を導入するかどうかについては、まだ限定的な理解が残っている。 本稿では,同等の公平度と精度の指標を達成できるモデルが同一個人に影響を及ぼし,バイアスを一貫した方法で緩和するかどうかを検討することで,これらのギャップに対処する。 本研究では, 影響の大きさ(人数), 変化方向(肯定的・否定的変化), 決定率(モデル受容率), 影響サブ集団(影響者), 無視サブ集団(不公平性が持続する部分)の5次元でバイアス緩和を評価するFRAME(FaiRness Arbitrariness and Multiplicity Evaluation)フレームワークを紹介する。 このフレームワークは、実践者がデバイアスプロセスの影響を理解し、モデル選択に関するより良いインフォームド決定を行うのを助けることを目的としています。 FRAMEをキーデータセット全体にわたる様々なバイアス緩和アプローチに適用することにより、デバイアス手法の挙動に顕著な違いを示すことができる。 これらの知見は、現在の公平性基準の限界と、偏見過程における固有の仲裁性を強調している。

Most research on fair machine learning has prioritized optimizing criteria such as Demographic Parity and Equalized Odds. Despite these efforts, there remains a limited understanding of how different bias mitigation strategies affect individual predictions and whether they introduce arbitrariness into the debiasing process. This paper addresses these gaps by exploring whether models that achieve comparable fairness and accuracy metrics impact the same individuals and mitigate bias in a consistent manner. We introduce the FRAME (FaiRness Arbitrariness and Multiplicity Evaluation) framework, which evaluates bias mitigation through five dimensions: Impact Size (how many people were affected), Change Direction (positive versus negative changes), Decision Rates (impact on models' acceptance rates), Affected Subpopulations (who was affected), and Neglected Subpopulations (where unfairness persists). This framework is intended to help practitioners understand the impacts of debiasing processes and make better-informed decisions regarding model selection. Applying FRAME to various bias mitigation approaches across key datasets allows us to exhibit significant differences in the behaviors of debiasing methods. These findings highlight the limitations of current fairness criteria and the inherent arbitrariness in the debiasing process.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-22
# ベイズ深層学習のための変分線形ラプラス近似

Variational Linearized Laplace Approximation for Bayesian Deep Learning ( http://arxiv.org/abs/2302.12565v3 )

ライセンス: Link先を確認
Luis A. Ortega, Simón Rodríguez Santana, Daniel Hernández-Lobato, (参考訳) 線形化ラプラス近似(LLA)は、最近、事前訓練されたディープニューラルネットワーク(DNN)の予測の不確実性評価に使われている。 しかし、その広範な応用は、特に多数のトレーニングポイントやDNNパラメータを持つシナリオにおいて、計算コストの大幅な低下によって妨げられている。 その結果、Kronecker-factoredや対角近似GGN行列などのLLAのさらなる近似が利用でき、モデルの性能を損なう可能性がある。 これらの課題に対処するために,変分スパースガウスプロセス(GP)を用いてLLAを近似する新しい手法を提案する。 本手法はGPの2つのRKHSの定式化に基づいており、予測平均として元のDNNの出力を保持する。 さらに、効率的な確率的最適化が可能で、トレーニングデータセットのサイズにおいて、サブ線形トレーニング時間が得られる。 特に、トレーニングコストはトレーニングポイントの数とは無関係である。 提案手法は,Nystr\"om近似に依存する加速LLA(ELLA)と,サンプル列最適化原理を用いた他のLA変種を比較した。 回帰データと分類データの両方を用いた実験結果から,本手法は予測分布の品質と計算時間の両方において,既存のLAの効率の良い変種よりも優れていることが示された。

The Linearized Laplace Approximation (LLA) has been recently used to perform uncertainty estimation on the predictions of pre-trained deep neural networks (DNNs). However, its widespread application is hindered by significant computational costs, particularly in scenarios with a large number of training points or DNN parameters. Consequently, additional approximations of LLA, such as Kronecker-factored or diagonal approximate GGN matrices, are utilized, potentially compromising the model's performance. To address these challenges, we propose a new method for approximating LLA using a variational sparse Gaussian Process (GP). Our method is based on the dual RKHS formulation of GPs and retains, as the predictive mean, the output of the original DNN. Furthermore, it allows for efficient stochastic optimization, which results in sub-linear training time in the size of the training dataset. Specifically, its training cost is independent of the number of training points. We compare our proposed method against accelerated LLA (ELLA), which relies on the Nystr\"om approximation, as well as other LLA variants employing the sample-then-optimize principle. Experimental results, both on regression and classification datasets, show that our method outperforms these already existing efficient variants of LLA, both in terms of the quality of the predictive distribution and in terms of total computational time.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-22
# 偏極格子上の確率論的純粋状態変換

Probabilistic pure state conversion on the majorization lattice ( http://arxiv.org/abs/2303.10086v2 )

ライセンス: Link先を確認
Serge Deside, Matthieu Arnhem, Célia Griffet, Nicolas J. Cerf, (参考訳) 絡み合いは、量子物理学の最も基本的で同時にパズリング・プロパティの1つである。 現代の記述は、絡み合ったシステムを特定の情報処理を可能または加速する手段として扱う、資源理論的なアプローチに依存している。 したがって、自由操作の下で互いに異なる絡み合い状態が互いに変換できるかどうかを決定することが重要である(これらは無から絡み合いを生じさせない)。 ここでは、局所的な操作や古典的な通信において、純粋な絡み合った状態の許容変換を特徴付けるために、偏化格子が効率的なフレームワークを提供することを示す。 meet $\land$ と join $\lor$ という基本的な概念は、それぞれ最適な共通資源と最適な共通積状態を定義することに繋がる。 これら2つの状態に基づいて,2つの最適確率的プロトコルを導入し,このプロトコルをグリーディ(greedy)とスリフティ(thrifty)と呼ぶ。 どちらのプロトコルも、初期状態と最終状態が同等であれば、ヴィダルのプロトコル (G. Vidal, Phys. Lett. 83, 1046 (1999)) に還元されるが、そうでなければ、スリフティプロトコルは失敗するとより絡み合った残留状態が得られるので、グリーディプロトコルよりも優れていることを示すことができる(どちらも成功すれば同じ絡み合った状態になる)。 最後に、これらのプロトコルを複数の初期状態や最終状態を含む絡み合い変換に一般化することを検討する。

Entanglement is among the most fundamental-and at the same time puzzling-properties of quantum physics. Its modern description relies on a resource-theoretical approach, which treats entangled systems as a means to enable or accelerate certain informational tasks. Hence, it is of crucial importance to determine whether-and how-different entangled states can be converted into each other under free operations (those which do not create entanglement from nothing). Here, we show that the majorization lattice provides an efficient framework in order to characterize the allowed transformations of pure entangled states under local operations and classical communication. The underlying notions of meet $\land$ and join $\lor$ in the majorization lattice lead us to define, respectively, the optimal common resource and optimal common product states. Based on these two states, we introduce two optimal probabilistic protocols for the (single-copy) conversion of incomparable bipartite pure states, which we name greedy and thrifty. Both protocols reduce to Vidal's protocol [G. Vidal, Phys. Rev. Lett. 83, 1046 (1999)] if the initial and final states are comparable, but otherwise the thrifty protocol can be shown to be superior to the greedy protocol as it yields a more entangled residual state when it fails (they both yield the same entangled state with the same optimal probability when they succeed). Finally, we consider the generalization of these protocols to entanglement transformations involving multiple initial or final states.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-22
# 電話会話の低レイテンシダイアリゼーションのための音声分離と音声活動検出のエンドツーエンド統合

End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations ( http://arxiv.org/abs/2303.12002v3 )

ライセンス: Link先を確認
Giovanni Morrone, Samuele Cornell, Luca Serafini, Enrico Zovato, Alessio Brutti, Stefano Squartini, (参考訳) 最近の研究によると、音声分離誘導ダイアリゼーション(SSGD)は、近年の音声分離の進展により、ますます有望な方向であることが示されている。 スピーカをまず分離し、次に分離されたストリーム毎に音声アクティビティ検出(VAD)を適用することでダイアリゼーションを行う。 本研究では,会話音声(CTS)領域におけるSSGDの詳細な研究を行い,主に低遅延ストリーミングダイアリゼーションアプリケーションに焦点を当てた。 我々は3つの最先端音声分離(SSep)アルゴリズムを考察し,非因果的および因果的実装と連続的なSSep(CSS)ウィンドウ推定を考慮し,オンラインシナリオとオフラインシナリオの両方でそれらの性能について検討する。 CALLHOMEとFisher Corpus(第1部と第2部)の2つの広く使用されているCTSデータセット上で,SSGDアルゴリズムを比較し,分離性能とダイアリゼーション性能を評価した。 性能向上のために,新しい因果的かつ計算効率の高い漏洩除去アルゴリズムを提案し,誤報を著しく低減した。 また、SSepとVADモジュール間の完全なエンドツーエンドのSSGD統合についても、初めて検討しています。 重要なことに、これはオラクルスピーカーソースが利用できない実世界のデータを微調整することを可能にする。 特に、我々の最良のモデルはCALLHOMEの8.8%のDERを達成しており、これは現在の最先端のエンドツーエンドのニューラルダイアリゼーションモデルよりも優れています。 最後に,分離した信号は自動音声認識にも容易に利用でき,一部の構成ではオラクルソースに近い性能が得られることを示す。

Recent works show that speech separation guided diarization (SSGD) is an increasingly promising direction, mainly thanks to the recent progress in speech separation. It performs diarization by first separating the speakers and then applying voice activity detection (VAD) on each separated stream. In this work we conduct an in-depth study of SSGD in the conversational telephone speech (CTS) domain, focusing mainly on low-latency streaming diarization applications. We consider three state-of-the-art speech separation (SSep) algorithms and study their performance both in online and offline scenarios, considering non-causal and causal implementations as well as continuous SSep (CSS) windowed inference. We compare different SSGD algorithms on two widely used CTS datasets: CALLHOME and Fisher Corpus (Part 1 and 2) and evaluate both separation and diarization performance. To improve performance, a novel, causal and computationally efficient leakage removal algorithm is proposed, which significantly decreases false alarms. We also explore, for the first time, fully end-to-end SSGD integration between SSep and VAD modules. Crucially, this enables fine-tuning on real-world data for which oracle speakers sources are not available. In particular, our best model achieves 8.8% DER on CALLHOME, which outperforms the current state-of-the-art end-to-end neural diarization model, despite being trained on an order of magnitude less data and having significantly lower latency, i.e., 0.1 vs. 1 s. Finally, we also show that the separated signals can be readily used also for automatic speech recognition, reaching performance close to using oracle sources in some configurations.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-22
# 1次元格子ゲージ理論における非メソニック量子多体スカー

Nonmesonic Quantum Many-Body Scars in a 1D Lattice Gauge Theory ( http://arxiv.org/abs/2303.13156v3 )

ライセンス: Link先を確認
Zi-Yong Ge, Yu-Ran Zhang, Franco Nori, (参考訳) 1D$\mathbb{Z}_2$格子ゲージ理論の量子多体散乱における中間子励起(粒子-反粒子境界状態)を物質場として動的スピン-$\frac{1}{2}$鎖に結合する。 物理的なヒルベルト空間の弦表現を導入することで、スカー状態 $\ket {\Psi_{n,l}}$ を同じ弦数 $n$ と総長さ $l$ のすべての弦基底の重ね合わせとして表現する。 小さい$l$スカー状態 $\ket {\Psi_{n,l}}$ の場合、物質場のゲージ不変スピン交換相関関数は、距離が増加するにつれて指数減衰し、安定な中間子の存在を示す。 しかし、大きな$l$の場合、相関関数は非音速励起の出現を示唆するパワー-ロー崩壊を示す。 さらに, このメソニック-非メメソニック交叉は, 量子シミュレータで実験的に実現可能な2つの低絡み合い初期状態から, クエンチダイナミクスによって検出可能であることを示す。 我々の結果は、格子ゲージ理論における量子多体傷の物理学を拡張し、非メメニック状態がエルゴディディディティの破れを示すことを明らかにする。

We investigate the meson excitations (particle-antiparticle bound states) in quantum many-body scars of a 1D $\mathbb{Z}_2$ lattice gauge theory coupled to a dynamical spin-$\frac{1}{2}$ chain as a matter field. By introducing a string representation of the physical Hilbert space, we express a scar state $\ket {\Psi_{n,l}}$ as a superposition of all string bases with an identical string number $n$ and a total length $l$. For the small-$l$ scar state $\ket {\Psi_{n,l}}$, the gauge-invariant spin exchange correlation function of the matter field hosts an exponential decay as the distance increases, indicating the existence of stable mesons. However, for large $l$, the correlation function exhibits a power-law decay, signaling the emergence of nonmesonic excitations. Furthermore, we show that this mesonic-nonmesonic crossover can be detected by the quench dynamics, starting from two low-entangled initial states, respectively, which are experimentally feasible in quantum simulators. Our results expand the physics of quantum many-body scars in lattice gauge theories and reveal that the nonmesonic state can also manifest ergodicity breaking.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-22
# スピンモデルのための微分可能プログラミングフレームワーク

A differentiable programming framework for spin models ( http://arxiv.org/abs/2304.01772v2 )

ライセンス: Link先を確認
Tiago de Souza Farias, Vitor Vaz Schultz, José Carlos Merino Mombach, Jonas Maziero, (参考訳) 本稿では,機械学習の進歩と計算効率を生かした,微分可能プログラミングを用いたスピンモデルシミュレーションのための新しいフレームワークを提案する。 我々は、Isingモデル、Pottsモデル、Cellular Pottsモデルという3つの異なるスピンシステムに注目し、これらの複雑なシステムのモデリングにおけるフレームワークの実用性とスケーラビリティを実証する。 さらに、このフレームワークはスピンモデルの最適化を可能にし、定義された客観的関数によってシステムのパラメータを調整できる。 これらのモデルをシミュレートするために、スピン格子をシミュレートするバッチテンソルを用いて、Metropolis-Hastingsアルゴリズムを微分可能なプログラミングパラダイムに適応する。 この適応は、既存のディープラーニングツールとの統合を促進するだけでなく、GPUやTPUなど、さまざまなハードウェアアーキテクチャ上で実装できるため、並列処理機能を通じて計算速度を大幅に向上させる。

We introduce a novel framework for simulating spin models using differentiable programming, an approach that leverages the advancements in machine learning and computational efficiency. We focus on three distinct spin systems: the Ising model, the Potts model, and the Cellular Potts model, demonstrating the practicality and scalability of our framework in modeling these complex systems. Additionally, this framework allows for the optimization of spin models, which can adjust the parameters of a system by a defined objective function. In order to simulate these models, we adapt the Metropolis-Hastings algorithm to a differentiable programming paradigm, employing batched tensors for simulating spin lattices. This adaptation not only facilitates the integration with existing deep learning tools but also significantly enhances computational speed through parallel processing capabilities, as it can be implemented on different hardware architectures, including GPUs and TPUs.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-22
# 開系における作用素傷と閉層系におけるアインシュタイン・ポドルスキー・ローゼン傷との関係

Operator scars in open systems and their relation to Einstein-Podolsky-Rosen scars in closed bilayer systems ( http://arxiv.org/abs/2304.03155v2 )

ライセンス: Link先を確認
Alexander Teretenkov, Oleg Lychkovskiy, (参考訳) ゴリニ-コサコフスキー-スダルシャン-リンドブラッド方程式(GKSL)により支配される開多体系について検討する。 我々はLindbladian Superoperators (Lindbladians) $\mathcal L$ の固有作用素を明示的にサポートする多体モデルの幅広いクラスを同定する。 これらの作用素によって定義される可観測物の期待値は、初期状態に関係なく、単純な指数的崩壊、$\langle Q\rangle_t=e^{-\Gamma t} \langle Q \rangle_0$を示す。 一般論として、研究中のリンドブラディアンは非可積分であり、そのような場合、$Q$は量子多体傷として知られる閉多体系における特別な固有状態に類似している。 開系と閉系を二重自由度で両立させることにより、この類似性を正確にする。 この双対性の下で、開系における作用素の傷跡は、閉じた二重層系におけるアインシュタイン・ポドルスキー・ローゼン(EPR)の傷跡を最近発見したものである。 さらに, 層間を所定の絡み合わせることで, EPRのような傷跡が得られるような二重性の族が存在することを示す。 これは、既知の事実を明確化し、新たな発展を促進する、閉じた二重層システムにおけるECPの傷の新たな視点を開く。

We study open many-body systems governed by the Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) equation. We identify broad classes of many-body models that support explicitly known eigen operators $Q$ of the Lindbladian superoperators (Lindbladians) $\mathcal L$. The expectation value of the observables defined by these operators exhibits a simple exponential decay, $\langle Q\rangle_t=e^{-\Gamma t} \langle Q \rangle_0$, irrespectively of the initial state. Generically, the Lindbladians under study are nonintegrable; in such cases operators $Q$ are similar to special eigenstates in closed many-body systems known as quantum many-body scars. We make this analogy precise by employing the duality between open systems and closed systems with doubled degrees of freedom. Under this duality, operator scars in open systems map to recently discovered Einstein-Podolsky-Rosen (EPR) scars in closed bilayer systems. Furthermore, we show that there is a family of such dualities which allows one to obtain EPR-like scars with a prescribed entanglement between layers. This opens a novel perspective on EPR scars in closed bilayer systems that clarifies known facts and facilitates new developments.
翻訳日:2024-05-26 21:42:06 公開日:2024-05-22
# 欠落した価値を伴うアルゴリズム的リコース

Algorithmic Recourse with Missing Values ( http://arxiv.org/abs/2304.14606v2 )

ライセンス: Link先を確認
Kentaro Kanamori, Takuya Takagi, Ken Kobayashi, Yuichi Ike, (参考訳) 本稿では,欠落した値の存在下でも機能するアルゴリズム・リコース(AR)の新たな枠組みを提案する。 ARは、分類器によって与えられる望ましくない予測結果を変更するためのリコースアクションを提供することを目的としている。 既存のARメソッドは、入力インスタンスの機能に関する完全な情報にアクセスできると仮定します。 しかし、あるケースで欠落した値(例えばプライバシー上の懸念のため)に遭遇することがよくあり、以前の研究ではそのような現実的な状況について論じていない。 本稿では,まず,単一計算手法によるナイーブアプローチが,その妥当性,コスト,特徴の変化に関する適切な行動に失敗するリスクを経験的かつ理論的に示す。 このリスクを軽減するために、多重計算の概念を取り入れることで、与えられた不完全なインスタンスに対して有効で低コストなアクションを得るタスクを定式化する。 そこで,本研究の課題を理論的に分析し,混合整数線形最適化に基づく実用的な解を提案する。 実験の結果, 基準値に比較して, 欠落した値の存在下での本手法の有効性が示された。

This paper proposes a new framework of algorithmic recourse (AR) that works even in the presence of missing values. AR aims to provide a recourse action for altering the undesired prediction result given by a classifier. Existing AR methods assume that we can access complete information on the features of an input instance. However, we often encounter missing values in a given instance (e.g., due to privacy concerns), and previous studies have not discussed such a practical situation. In this paper, we first empirically and theoretically show the risk that a naive approach with a single imputation technique fails to obtain good actions regarding their validity, cost, and features to be changed. To alleviate this risk, we formulate the task of obtaining a valid and low-cost action for a given incomplete instance by incorporating the idea of multiple imputation. Then, we provide some theoretical analyses of our task and propose a practical solution based on mixed-integer linear optimization. Experimental results demonstrated the efficacy of our method in the presence of missing values compared to the baselines.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-22
# 画像圧縮のためのマルチスケール拡張正規化流れ

Multiscale Augmented Normalizing Flows for Image Compression ( http://arxiv.org/abs/2305.05451v3 )

ライセンス: Link先を確認
Marc Windsheimer, Fabian Brand, André Kaup, (参考訳) ほとんどの学習ベース画像圧縮法は、非可逆設計のため、高画質の効率を欠いている。 頻繁に適用される圧縮オートエンコーダアーキテクチャの復号関数は、符号化変換の近似逆数である。 この問題は可逆潜在変数モデルを用いることで解決できるため、量子化が行われなければ完全再構成が可能である。 さらに、多くの伝統的な画像およびビデオコーダは、動的ブロック分割を適用して、その内容に応じて特定の画像領域の圧縮を変化させる。 このアプローチにインスパイアされた階層型潜在空間は、学習に基づく圧縮ネットワークに適用されている。 本稿では,非可逆潜在変数モデルである高次正規化フローに階層的潜在空間を適応させる新しい概念を提案する。 私たちの最高のパフォーマンスモデルは、比較対象のシングルスケールモデルよりも7%以上、平均的なコスト削減を実現しました。

Most learning-based image compression methods lack efficiency for high image quality due to their non-invertible design. The decoding function of the frequently applied compressive autoencoder architecture is only an approximated inverse of the encoding transform. This issue can be resolved by using invertible latent variable models, which allow a perfect reconstruction if no quantization is performed. Furthermore, many traditional image and video coders apply dynamic block partitioning to vary the compression of certain image regions depending on their content. Inspired by this approach, hierarchical latent spaces have been applied to learning-based compression networks. In this paper, we present a novel concept, which adapts the hierarchical latent space for augmented normalizing flows, an invertible latent variable model. Our best performing model achieved average rate savings of more than 7% over comparable single-scale models.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-22
# YOLOv8によるリアルタイム飛行物体検出

Real-Time Flying Object Detection with YOLOv8 ( http://arxiv.org/abs/2305.09972v2 )

ライセンス: Link先を確認
Dillon Reis, Jordan Kupec, Jacqueline Hong, Ahmad Daoudi, (参考訳) 本稿では,移動学習やさらなる研究に使用できる飛行物体のリアルタイム検出のための一般化されたモデルと,飛行物体検出の最先端結果を実現する改良されたモデルを提案する。 我々は、40種類の空飛ぶ物体を含むデータセット上で、最初の(一般化された)モデルを訓練し、抽象的な特徴表現を抽出することを強制する。 次に、これらの学習パラメータを用いて、より実世界の環境の代表的なデータセット(オークルージョンの高頻度、非常に小さな空間サイズ、回転など)を用いて伝達学習を行い、洗練されたモデルを生成する。 空飛ぶ物体の物体検出は、物体の空間サイズ/アスペクト比、速度の速度、閉塞、クラスタ化背景のばらつきが大きいため、依然として困難である。 性能を最大化しつつ、提示された課題のいくつかに対処するために、現在最先端の単発検出器であるYOLOv8を用いて、推論速度と平均平均精度(mAP)の最良のトレードオフを見つける。 YOLOv8は新しい最先端と見なされているが、公式な論文はまだ発表されていない。 したがって、YOLOv8が適用した新しいアーキテクチャと機能について、詳細な説明を提供する。 我々の最終一般化モデルは、79.2%のmAP50、68.5%のmAP50-95、および1080pビデオ上での毎秒50フレーム(fps)の平均推論速度を達成する。 我々の最終改良モデルは、この推論速度を維持し、改善されたmAP50の99.1%、改善されたmAP50-95の83.5%を達成する。

This paper presents a generalized model for real-time detection of flying objects that can be used for transfer learning and further research, as well as a refined model that achieves state-of-the-art results for flying object detection. We achieve this by training our first (generalized) model on a data set containing 40 different classes of flying objects, forcing the model to extract abstract feature representations. We then perform transfer learning with these learned parameters on a data set more representative of real world environments (i.e. higher frequency of occlusion, very small spatial sizes, rotations, etc.) to generate our refined model. Object detection of flying objects remains challenging due to large variances of object spatial sizes/aspect ratios, rate of speed, occlusion, and clustered backgrounds. To address some of the presented challenges while simultaneously maximizing performance, we utilize the current state-of-the-art single-shot detector, YOLOv8, in an attempt to find the best trade-off between inference speed and mean average precision (mAP). While YOLOv8 is being regarded as the new state-of-the-art, an official paper has not been released as of yet. Thus, we provide an in-depth explanation of the new architecture and functionality that YOLOv8 has adapted. Our final generalized model achieves a mAP50 of 79.2%, mAP50-95 of 68.5%, and an average inference speed of 50 frames per second (fps) on 1080p videos. Our final refined model maintains this inference speed and achieves an improved mAP50 of 99.1% and mAP50-95 of 83.5%
翻訳日:2024-05-26 21:32:22 公開日:2024-05-22
# キューディット量子チャネルに対するペッツ回復写像

Petz recovery maps for qudit quantum channels ( http://arxiv.org/abs/2305.11658v2 )

ライセンス: Link先を確認
Lea Lautenbacher, Vinayak Jagadish, Francesco Petruccione, Nadja K. Bernardes, (参考訳) 本研究は,2つのパラダイム量子チャネルの文脈におけるペッツ回復マップの有効性について考察する。 これまでの研究は主に量子ビットに焦点を合わせてきたが、この調査は高次元のシステムにも及んでいる。 本稿では,Pettz マップの性能を評価するために,Choi-Jamio{\l}kowski アイソモルフィズムに基づく,新しい状態に依存しないフレームワークを提案する。 これらのプロセスの異なるチャネルと(非)ユニタリな性質を解析することにより、地図の有効性を決定する上で、参照状態の選択が重要な役割を担っていることを強調する。 さらに,本分析は,最適下選択が性能に与える影響を指摘するとともに,システム次元などの要因についてより深く考察する。

This study delves into the efficacy of the Petz recovery map within the context of two paradigmatic quantum channels: dephasing and amplitude-damping. While prior investigations have predominantly focused on qubits, our research extends this inquiry to higher-dimensional systems. We introduce a novel, state-independent framework based on the Choi-Jamio{\l}kowski isomorphism to evaluate the performance of the Petz map. By analyzing different channels and the (non-)unital nature of these processes, we emphasize the pivotal role of the reference state selection in determining the map's effectiveness. Furthermore, our analysis underscores the considerable impact of suboptimal choices on performance, prompting a broader consideration of factors such as system dimensionality.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-22
# 超低温分子の量子状態操作と冷却

Quantum state manipulation and cooling of ultracold molecules ( http://arxiv.org/abs/2305.13445v2 )

ライセンス: Link先を確認
Tim Langen, Giacomo Valtolina, Dajun Wang, Jun Ye, (参考訳) 近年、様々な分子種が低エネルギーに冷却され、革新的なアイデアや強力な技術が登場し、分子の動きをより正確に制御できるようになっている。 この簡単なレビューでは、分子ガスを量子状態に導く2つの広く使われている冷却技術、すなわち超低温の原子ガスを分子の量子ガスに関連付けること、および分子の直接レーザー冷却について論じる。 これらの進歩は、分子の内部状態と外部状態の両方を量子力学的に準備し、操作する能力をもたらし、冷たい分子の分野を幅広い科学的探査に開放した。

An increasingly large variety of molecular species are being cooled down to low energies in recent years, and innovative ideas and powerful techniques continue to emerge to gain ever more precise control of molecular motion. In this brief review we focus our discussions on two widely employed cooling techniques that have brought molecular gases into the quantum regime: association of ultracold atomic gases into quantum gases of molecules and direct laser cooling of molecules. These advances have brought into reality our capability to prepare and manipulate both internal and external states of molecules quantum mechanically, opening the field of cold molecules to a wide range of scientific explorations.
翻訳日:2024-05-26 21:32:22 公開日:2024-05-22
# DistriBlock:出力分布の特性を利用した対向音声サンプルの同定

DistriBlock: Identifying adversarial audio samples by leveraging characteristics of the output distribution ( http://arxiv.org/abs/2305.17000v4 )

ライセンス: Link先を確認
Matías P. Pizarro B., Dorothea Kolossa, Asja Fischer, (参考訳) 敵対的攻撃は、自動音声認識(ASR)システムを誤って任意のターゲットテキストを予測し、明確なセキュリティ脅威を引き起こす可能性がある。 このような攻撃を防止するために,各ステップで出力トークン上の確率分布を予測するASRシステムに適用可能な,効率的な検出戦略であるDistriBlockを提案する。 出力確率に対する中央値,最大値,最小値,分布のエントロピー,Kulback-LeiblerおよびJensen-Shannon分散といった分布の特性を,その後の時間ステップの分布に関して測定する。 そして、良性データと逆性データの両方で観測される特徴を活用することにより、単純なしきい値に基づく分類、そのような分類器のアンサンブル、ニューラルネットワークなどのバイナリ分類器を適用する。 現状のASRシステムと言語データセットの多種多様な分析を通じて, 対象の敵対的事例を, 99%, 97%のクリーンデータとノイズデータとを区別する受信者動作特性曲線下の平均領域を用いて, このアプローチの最高性能を実証した。 提案手法のロバスト性を評価するため,DistriBlockを回避可能な適応的対向例は,フィルタにより検出しやすくなり,システムのロバスト性を維持するための新たな道がもたらされた。

Adversarial attacks can mislead automatic speech recognition (ASR) systems into predicting an arbitrary target text, thus posing a clear security threat. To prevent such attacks, we propose DistriBlock, an efficient detection strategy applicable to any ASR system that predicts a probability distribution over output tokens in each time step. We measure a set of characteristics of this distribution: the median, maximum, and minimum over the output probabilities, the entropy of the distribution, as well as the Kullback-Leibler and the Jensen-Shannon divergence with respect to the distributions of the subsequent time step. Then, by leveraging the characteristics observed for both benign and adversarial data, we apply binary classifiers, including simple threshold-based classification, ensembles of such classifiers, and neural networks. Through extensive analysis across different state-of-the-art ASR systems and language data sets, we demonstrate the supreme performance of this approach, with a mean area under the receiver operating characteristic curve for distinguishing target adversarial examples against clean and noisy data of 99% and 97%, respectively. To assess the robustness of our method, we show that adaptive adversarial examples that can circumvent DistriBlock are much noisier, which makes them easier to detect through filtering and creates another avenue for preserving the system's robustness.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-22
# ブートストラップ観察サンプルを用いたパレートフロントの学習

Learning the Pareto Front Using Bootstrapped Observation Samples ( http://arxiv.org/abs/2306.00096v2 )

ライセンス: Link先を確認
Wonyoung Kim, Garud Iyengar, Assaf Zeevi, (参考訳) 我々は、線形包帯(PFILin)に対するパレートフロント識別(PFI)を考える。すなわち、平均報酬ベクトルが文脈の線形関数であるときに、非支配的な平均報酬ベクトルを持つアームの集合を特定することである。 PFILinは、特に、最高の腕識別問題と多目的能動的学習を含んでいる。 提案アルゴリズムのサンプル複雑性は対数係数まで最適である。 さらに,提案アルゴリズムが推定中に生み出した後悔は,パレートフロントを識別する全てのアルゴリズムにおいて,最適後悔の対数係数の範囲内にある。 私たちの重要な貢献は、すべてのラウンドで未知のパラメータの見積もりを複数のコンテキスト方向に沿って更新する新しい推定器です。 これにより、パレートの最適な腕に関する情報を集めるために、低反射の腕を使うことができます。 我々の重要な革新は、探索サンプルを複数回再利用することであり、従来の各サンプルを1回だけ使用する推定器とは対照的である。 数値実験により,提案アルゴリズムは後悔を抑えながらパレートフロントの同定に成功した。

We consider Pareto front identification (PFI) for linear bandits (PFILin), i.e., the goal is to identify a set of arms with undominated mean reward vectors when the mean reward vector is a linear function of the context. PFILin includes the best arm identification problem and multi-objective active learning as special cases. The sample complexity of our proposed algorithm is optimal up to a logarithmic factor. In addition, the regret incurred by our algorithm during the estimation is within a logarithmic factor of the optimal regret among all algorithms that identify the Pareto front. Our key contribution is a new estimator that in every round updates the estimate for the unknown parameter along multiple context directions -- in contrast to the conventional estimator that only updates the parameter estimate along the chosen context. This allows us to use low-regret arms to collect information about Pareto optimal arms. Our key innovation is to reuse the exploration samples multiple times; in contrast to conventional estimators that use each sample only once. Numerical experiments demonstrate that the proposed algorithm successfully identifies the Pareto front while controlling the regret.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-22
# マルチクラス分類のためのロバストツインパラメトリック支持ベクトルマシン

Robust Twin Parametric Margin Support Vector Machine for Multiclass Classification ( http://arxiv.org/abs/2306.06213v2 )

ライセンス: Link先を確認
Renato De Leone, Francesca Maggioni, Andrea Spinelli, (参考訳) 本稿では,Twin Parametric Margin Support Vector Machine (TPMSVM) モデルを提案する。 線形および非線形な分類器の場合について検討し、最終決定関数に対する2つの選択肢を提案する。 実世界の観測は測定誤差やノイズに悩まされているため、最適化モデルではデータの不確実性を考慮する必要がある。 このため、各サンプルの周囲に有界・ノルム不確実性集合を構築し、ロバストな最適化手法を用いて決定論的モデルのロバストな対応を導出する。 最後に,提案したTPMSVM手法を実世界のデータセット上でテストし,提案手法の優れた性能を示す。

In this paper, we present novel Twin Parametric Margin Support Vector Machine (TPMSVM) models to tackle the problem of multiclass classification. We explore the cases of linear and nonlinear classifiers and propose two possible alternatives for the final decision function. Since real-world observations are plagued by measurement errors and noise, data uncertainties need to be considered in the optimization models. For this reason, we construct bounded-by-norm uncertainty sets around each sample and derive the robust counterpart of deterministic models by means of robust optimization techniques. Finally, we test the proposed TPMSVM methodology on real-world datasets, showing the good performance of the approach.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-22
# Open-Vocabulary Object Detection のスケーリング

Scaling Open-Vocabulary Object Detection ( http://arxiv.org/abs/2306.09683v3 )

ライセンス: Link先を確認
Matthias Minderer, Alexey Gritsenko, Neil Houlsby, (参考訳) オープンボキャブラリオブジェクト検出は、事前訓練された視覚言語モデルから大きな恩恵を受けているが、それでも検出訓練データの量によって制限されている。 Webイメージテキストペアを弱い監視手段として使用することで、検出トレーニングデータを拡張できるが、画像レベルの事前トレーニングに匹敵するスケールでは実現されていない。 本稿では、既存の検出器を用いて、画像とテキストのペアに擬似ボックスアノテーションを生成する自己学習を用いて、検出データをスケールアップする。 自己学習をスケールする上での大きな課題は、ラベル空間の選択、擬似アノテーションフィルタリング、トレーニング効率である。 これらの課題に対処するOWLv2モデルとOWL-ST自己学習レシピを提案する。 OWLv2は、既に同等のトレーニングスケール(約10万例)で、最先端のオープンボキャブラリ検出器の性能を上回っている。 L/14アーキテクチャでは、OWL-STはLVISレアクラスのAPを改善し、そのモデルでは31.2%から44.6%(相対的な改善43%)まで、人間のボックスアノテーションが見られない。 OWL-STは、画像分類や言語モデリングで見られるような、オープンワールドのローカライゼーションのためのWebスケールトレーニングをアンロックする。

Open-vocabulary object detection has benefited greatly from pretrained vision-language models, but is still limited by the amount of available detection training data. While detection training data can be expanded by using Web image-text pairs as weak supervision, this has not been done at scales comparable to image-level pretraining. Here, we scale up detection data with self-training, which uses an existing detector to generate pseudo-box annotations on image-text pairs. Major challenges in scaling self-training are the choice of label space, pseudo-annotation filtering, and training efficiency. We present the OWLv2 model and OWL-ST self-training recipe, which address these challenges. OWLv2 surpasses the performance of previous state-of-the-art open-vocabulary detectors already at comparable training scales (~10M examples). However, with OWL-ST, we can scale to over 1B examples, yielding further large improvement: With an L/14 architecture, OWL-ST improves AP on LVIS rare classes, for which the model has seen no human box annotations, from 31.2% to 44.6% (43% relative improvement). OWL-ST unlocks Web-scale training for open-world localization, similar to what has been seen for image classification and language modelling.
翻訳日:2024-05-26 21:22:37 公開日:2024-05-22
# エクストリームレジームにおける治療効果

Treatment Effects in Extreme Regimes ( http://arxiv.org/abs/2306.11697v2 )

ライセンス: Link先を確認
Ahmed Aloui, Ali Hasan, Yuting Ng, Miroslav Pajic, Vahid Tarokh, (参考訳) 極端な体制における治療効果を理解することは、異なる介入に関連するリスクを特徴づけるのに重要である。 これは、非現実的な結果の不有効性と、実際に極端なデータを集めることの希薄さと難しさによって妨げられている。 この問題に対処するために,極端状態における治療効果を推定するための極端値理論に基づく新しい枠組みを提案する。 これらの効果は, 治療の有無と存在下での潜在的な結果のテール崩壊率の変動を用いて定量化する。 我々はこれらの量を計算するアルゴリズムを確立し、関連する理論的結果を開発する。 各種標準合成および半合成データセットに対するアプローチの有効性を実証する。

Understanding treatment effects in extreme regimes is important for characterizing risks associated with different interventions. This is hindered by the unavailability of counterfactual outcomes and the rarity and difficulty of collecting extreme data in practice. To address this issue, we propose a new framework based on extreme value theory for estimating treatment effects in extreme regimes. We quantify these effects using variations in tail decay rates of potential outcomes in the presence and absence of treatments. We establish algorithms for calculating these quantities and develop related theoretical results. We demonstrate the efficacy of our approach on various standard synthetic and semi-synthetic datasets.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-22
# プライバシを優先する - 差別的プライバシにプライバシ予算を設定するためのベイズ的アプローチ

Prior-itizing Privacy: A Bayesian Approach to Setting the Privacy Budget in Differential Privacy ( http://arxiv.org/abs/2306.13214v2 )

ライセンス: Link先を確認
Zeki Kazan, Jerome P. Reiter, (参考訳) 機密データからのアウトプットを解放する場合、機関は、公表されたデータの分析的有用性と、データ対象データの機密性を保護する義務のバランスを取る必要がある。 差分プライバシーを満たすリリースの場合、このバランスはプライバシー予算である$\varepsilon$に反映される。 開示のベイズ的後部確率との関係に基づき、$\varepsilon$を設定するためのフレームワークを提供する。 データリリースの責任者は、さまざまなレベルの事前リスクを受理する意思のある後方リスクを決定するため、ユニークな$\varepsilon$が与えられる。 企業は異なるリスクプロファイルを評価して、許容できるリスクとユーティリティのトレードオフにつながるものを決定することができます。

When releasing outputs from confidential data, agencies need to balance the analytical usefulness of the released data with the obligation to protect data subjects' confidentiality. For releases satisfying differential privacy, this balance is reflected by the privacy budget, $\varepsilon$. We provide a framework for setting $\varepsilon$ based on its relationship with Bayesian posterior probabilities of disclosure. The agency responsible for the data release decides how much posterior risk it is willing to accept at various levels of prior risk, which implies a unique $\varepsilon$. Agencies can evaluate different risk profiles to determine one that leads to an acceptable trade-off in risk and utility.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-22
# 経験的エントロピー最適輸送のための低次複雑度適応

Lower Complexity Adaptation for Empirical Entropic Optimal Transport ( http://arxiv.org/abs/2306.13580v3 )

ライセンス: Link先を確認
Michel Groppe, Shayan Hundrieser, (参考訳) エントロピック最適輸送(EOT)は、非正規化された最適輸送(OT)に代わる効果的で計算可能な代替手段であり、大規模データ解析に様々な応用を提供する。 本研究では、EOTコストの経験的プラグイン推定器に対する新しい統計的境界を導出し、エントロピー正規化パラメータ$\epsilon$とサンプルサイズ$n$の統計性能が2つの確率測度の単純さにのみ依存していることを示す。 例えば、十分なスムーズなコストの下で、これはパラメトリックレート$n^{-1/2}$に係数$\epsilon^{-d/2}$を与える。 これは、経験的EOTが、非正規化OTに対して最近特定されたホールマークの特徴である、より低い複雑性適応原理にも準拠していることを確認する。 この理論の結果として、ユークリッド空間上の測度に対する経験的エントロピーGromov-Wasserstein距離とその非正規化バージョンもこの原理に従うことを示した。 さらに、計算面についてコメントし、モンテカルロシミュレーションでその結果を補完する。 この手法は経験的プロセス理論を用いており、単一関数クラス上の EOT の二重定式化に依存している。 我々の分析にとって重要なことは、関数クラスのエントロピー的コスト変換が、その一様計量エントロピーを多く増やさないという観察である。

Entropic optimal transport (EOT) presents an effective and computationally viable alternative to unregularized optimal transport (OT), offering diverse applications for large-scale data analysis. In this work, we derive novel statistical bounds for empirical plug-in estimators of the EOT cost and show that their statistical performance in the entropy regularization parameter $\epsilon$ and the sample size $n$ only depends on the simpler of the two probability measures. For instance, under sufficiently smooth costs this yields the parametric rate $n^{-1/2}$ with factor $\epsilon^{-d/2}$, where $d$ is the minimum dimension of the two population measures. This confirms that empirical EOT also adheres to the lower complexity adaptation principle, a hallmark feature only recently identified for unregularized OT. As a consequence of our theory, we show that the empirical entropic Gromov-Wasserstein distance and its unregularized version for measures on Euclidean spaces also obey this principle. Additionally, we comment on computational aspects and complement our findings with Monte Carlo simulations. Our techniques employ empirical process theory and rely on a dual formulation of EOT over a single function class. Crucial to our analysis is the observation that the entropic cost-transformation of a function class does not increase its uniform metric entropy by much.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-22
# 大規模言語モデル誤り推定のためのパレート最適学習

Pareto Optimal Learning for Estimating Large Language Model Errors ( http://arxiv.org/abs/2306.16564v4 )

ライセンス: Link先を確認
Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon, (参考訳) 大規模言語モデル(LLM)は多くのアプリケーションで印象的な能力を示している。 具体的で正確な解を求める場合には、潜在的な誤り率を定量的に推定することが重要である。 しかし、生成モデルのテキスト・イン・テキスト・アウトの性質のため、これは難しい可能性がある。 本稿では,複数の情報ソースを統合することで,LSM応答における誤り確率を推定するリスクスコアを生成するPareto最適化に基づく手法を提案する。 理論的には、我々のフレームワークで最適化された誤差推定器が、パレートの最適手法でLLMと情報ソースと整合していることが証明されている。 実験の結果,本手法で推定したリスクスコアは実LLM誤差率とよく相関しており,誤り訂正が容易であることがわかった。 自己検証や情報検索といった手法を動的に組み合わせることで,LLMの性能向上に活用できることを示す。

Large Language Models (LLMs) have shown impressive abilities in many applications. When a concrete and precise answer is desired, it is important to have a quantitative estimation of the potential error rate. However, this can be challenging due to the text-in-text-out nature of generative models. We present a method based on Pareto optimization that generates a risk score to estimate the probability of error in an LLM response by integrating multiple sources of information. We prove theoretically that the error estimator optimized in our framework aligns with the LLM and the information sources in an Pareto optimal manner. Experimental results show that the risk scores estimated by our method are well correlated with the true LLM error rate, thus facilitating error correction. By dynamically combining with prompting strategies such as self-verification and information retrieval, we demonstrate the proposed method can be utilized to increase the performance of an LLM, surpassing state-of-the-art task specific models.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-22
# 心筋炎診断のためのデジタル組織像における心筋炎症浸潤の自動同定と定量化

Automated identification and quantification of myocardial inflammatory infiltration in digital histological images to diagnose myocarditis ( http://arxiv.org/abs/2307.01098v2 )

ライセンス: Link先を確認
Yanyun Liu, Xiumeng Hua, Shouping Zhu, Congrui Wang, Xiao Chen, Yu Shi, Jiangping Song, Weihua Zhou, (参考訳) 本研究の目的は、デジタルHE画像における心筋炎症浸潤の同定と定量化を自動化し、心筋炎の定量的組織学的診断を提供する新しい計算病理学手法を開発することである。 本研究は心筋炎および拡張型心筋症(DCM)と診断された154例の心筋全スライド画像(WSI)を収録した。 心筋WSIの細胞核密度 (LND) を定量化するために, 自動DLベースの計算病理学的手法を開発した。 LNDの定量化に基づく遮断値は, 心筋炎症浸潤の有無を判定するために提案された。 本手法は5倍のクロスバリデーション実験で評価され, 心筋炎群からの内部テストセットを用いてテストし, 二重盲検群から外的テストで確認した。 1.02/mm2のLNDで心筋炎と診断できた。 5倍クロスバリデーション実験における受信機動作特性曲線(AUC)の精度,感度,特異性,面積は,それぞれ0.899プラス,マイナス0.035,0.971プラス,マイナス0.017,0.728プラス,マイナス0.073,マイナス0.049プラス,マイナス0.044であった。 内部試験では, 精度, 感度, 特異度, AUCはそれぞれ0.887, 0.971, 0.737, 0.854であった。 精度,感度,特異性,AUCはそれぞれ0.853,0.846,0.858,0.852に達した。 我々の新しいアプローチは、心筋WSIのLNDの正確かつ確実な定量化を可能にし、HE画像による心筋炎の自動定量診断を容易にする。

This study aims to develop a new computational pathology approach that automates the identification and quantification of myocardial inflammatory infiltration in digital HE-stained images to provide a quantitative histological diagnosis of myocarditis.898 HE-stained whole slide images (WSIs) of myocardium from 154 heart transplant patients diagnosed with myocarditis or dilated cardiomyopathy (DCM) were included in this study. An automated DL-based computational pathology approach was developed to identify nuclei and detect myocardial inflammatory infiltration, enabling the quantification of the lymphocyte nuclear density (LND) on myocardial WSIs. A cutoff value based on the quantification of LND was proposed to determine if the myocardial inflammatory infiltration was present. The performance of our approach was evaluated with a five-fold cross-validation experiment, tested with an internal test set from the myocarditis group, and confirmed by an external test from a double-blind trial group. An LND of 1.02/mm2 could distinguish WSIs with myocarditis from those without. The accuracy, sensitivity, specificity, and area under the receiver operating characteristic curve (AUC) in the five-fold cross-validation experiment were 0.899 plus or minus 0.035, 0.971 plus or minus 0.017, 0.728 plus or minus 0.073 and 0.849 plus or minus 0.044, respectively. For the internal test set, the accuracy, sensitivity, specificity, and AUC were 0.887, 0.971, 0.737, and 0.854, respectively. The accuracy, sensitivity, specificity, and AUC for the external test set reached 0.853, 0.846, 0.858, and 0.852, respectively. Our new approach provides accurate and reliable quantification of the LND of myocardial WSIs, facilitating automated quantitative diagnosis of myocarditis with HE-stained images.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-22
# 長距離相互作用をもつ量子多体系の平衡外ダイナミクス

Out-of-equilibrium dynamics of quantum many-body systems with long-range interactions ( http://arxiv.org/abs/2307.04802v2 )

ライセンス: Link先を確認
Nicolò Defenu, Alessio Lerose, Silvia Pappalardi, (参考訳) 過去10年間の原子、分子、光学プラットフォームの実験的な進歩は、多くの長距離相互作用粒子の量子コヒーレントダイナミクスに強く幅広い関心を喚起した。 これらの系の顕著な集合的特徴は、局所的な相互作用を持つ従来の量子系にはない新しい非平衡現象を可能にする。 この領域における理論研究の多くは、局所的な相互作用の物理学における変数-範囲の相互作用の尾の影響に焦点を当てるか、あるいは全対無限の相互作用の反対の極限に基づく平均場のような記述に依存している。 本報告では, この分野における最近の進歩の体系的, 有機的考察について述べる。 乱れのない量子スピン格子を原型的に相互作用させることで、我々のプレゼンテーションは、少数体平均場物理学と準局所相互作用の多体物理学を補間する多元的理論的な定式化を基礎としている。 このような形式主義は、これら2つの体制を結び付けることができ、形式的な量的ツールと基本的な物理的直観の両方を提供する。 この統合フレームワークを利用して、量子相関の特異な非弾道的拡散、絡み合いダイナミクスの反直感的な減速、熱化と平衡の抑制、トラバース臨界度による欠陥の異常スケーリング、動的相転移、周期駆動によって安定化された真の非平衡相など、過去10年間のいくつかの知見をレビューする。 本報告の文体は教育的側面にあり, それまでの経験のない読者に利用することができる。

Experimental progress in atomic, molecular, and optical platforms in the last decade has stimulated strong and broad interest in the quantum coherent dynamics of many long-range interacting particles. The prominent collective character of these systems enables novel non-equilibrium phenomena with no counterpart in conventional quantum systems with local interactions. Much of the theory work in this area either focussed on the impact of variable-range interaction tails on the physics of local interactions or relied on mean-field-like descriptions based on the opposite limit of all-to-all infinite-range interactions. In this Report, we present a systematic and organic review of recent advances in the field. Working with prototypical interacting quantum spin lattices without disorder, our presentation hinges upon a versatile theoretical formalism that interpolates between the few-body mean-field physics and the many-body physics of quasi-local interactions. Such a formalism allows us to connect these two regimes, providing both a formal quantitative tool and basic physical intuition. We leverage this unifying framework to review several findings of the last decade, including the peculiar non-ballistic spreading of quantum correlations, counter-intuitive slowdown of entanglement dynamics, suppression of thermalization and equilibration, anomalous scaling of defects upon traversing criticality, dynamical phase transitions, and genuinely non-equilibrium phases stabilized by periodic driving. The style of this Report is on the pedagogical side, which makes it accessible to readers without previous experience in the subject matter.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-22
# 同じ捕獲されたイオン運動モードにおける平行スピン依存力によるプログラム可能なXY型カップリング

Programmable XY-type couplings through parallel spin-dependent forces on the same trapped ion motional modes ( http://arxiv.org/abs/2307.04922v2 )

ライセンス: Link先を確認
Nikhil Kotibhaskar, Chung-You Shih, Sainath Motlakunta, Anthony Vogliano, Lewis Hahn, Yu-Ting Chen, Rajibul Islam, (参考訳) 我々は、XY型(J_{ij}^x \sigma_x^i \sigma_x^j \;$ + $J_{ij}^y \sigma_y^i \sigma_y^j \;$)ハミルトニアンが、$J_{ij}^x$と$J_{ij}^y$を独立に制御する捕捉イオンスピン上の類似スキームを提案し、実験的に示す。 イジング型相互作用 $\sigma_x^i \sigma_x^j \;$ と $\sigma_y^i \sigma_y^j \;$ は、同じ正規モードの集合上で平行に動く2つのスピン依存力を用いて同時に生成される。 本手法の有効性を解析的に算出し,$^{171}\rm{Yb}^+\;$ ion を用いて数値的および実験的検証を行う。 このスキームは、多くの量子シミュレーション実験で研究されているトラップイオンとイジング型相互作用のプログラム可能性とスケーラビリティを継承する。 我々のアプローチは、既存の捕捉されたイオン量子シミュレーターの能力を拡張して、超流動性やスピン液体のようなエキゾチックな量子相の探索に関係した多くのスピンハミルトニアンにアクセスする。

We propose and experimentally demonstrate an analog scheme for generating XY-type ($J_{ij}^x \sigma_x^i \sigma_x^j \;$ + $J_{ij}^y \sigma_y^i \sigma_y^j \;$) Hamiltonians on trapped ion spins with independent control over the $J_{ij}^x$ and $J_{ij}^y$ terms. The Ising-type interactions $\sigma_x^i \sigma_x^j \;$ and $\sigma_y^i \sigma_y^j \;$ are simultaneously generated by employing two spin-dependent forces operating in parallel on the same set of normal modes. We analytically calculate the region of validity of this scheme, and provide numerical and experimental validation with $^{171}\rm{Yb}^+\;$ ions. This scheme inherits the programmability and scalability of the Ising-type interactions with trapped ions that have been explored in numerous quantum simulation experiments. Our approach extends the capabilities of existing trapped ion quantum simulators to access a large class of spin Hamiltonians relevant for exploring exotic quantum phases such as superfluidity and spin liquids.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-22
# チェーン・オブ・サート・アトリビュート操作によるFew-Shotテキストマイニングのための制御可能なデータ拡張

Controllable Data Augmentation for Few-Shot Text Mining with Chain-of-Thought Attribute Manipulation ( http://arxiv.org/abs/2307.07099v3 )

ライセンス: Link先を確認
Letian Peng, Yuwei Zhang, Jingbo Shang, (参考訳) データ拡張のための大規模言語モデル(LLM)のプロンプティングは、最近、数ショットのNLPタスクにおいて一般的なプラクティスとなっている。 本稿では,ユーザが提供するタスク固有の属性,例えば感情極性,あるいは映画レビューのトピックを微調整するだけで,既存の事例から新たなデータを生成する新しい手法であるChain-of-Thought Attribute Manipulation (CoTAM)を提案する。 従来の潜在表現制御の代わりに,(1)属性分解,(2)操作提案,(3)文再構成という3つのステップでテキストを直接編集するよう促すチェーン・オブ・シントを利用する。 テキスト(ペア)分類やアスペクトベースの感情分析,条件付きテキスト生成など,さまざまなタスクにおける広範囲な結果から,微調整とインコンテクスト学習の両方のトレーニング例と同じ数で,他のLCMベースの拡張手法よりもCoTAMの方が優れていることが検証された。 注目すべきは、主成分分析を用いた拡張データセットの2次元可視化により、属性操作によって示唆される可能性の高い人間の認識可能な決定境界が明らかとなり、提案手法の可能性が示されたことである。

Prompting large language models (LLMs) for data augmentation has recently become a common practice in few-shot NLP tasks. In this paper, we propose Chain-of-Thought Attribute Manipulation (CoTAM), a novel approach that generates new data from existing examples by only tweaking in the user-provided, task-specific attribute, e.g., sentiment polarity or topic in movie reviews. Instead of conventional latent representation controlling, we leverage the chain-of-thought prompting to directly edit the text in three steps, (1) attribute decomposition, (2) manipulation proposal, and (3) sentence reconstruction. Extensive results on various tasks, such as text (pair) classification, aspect-based sentiment analysis, and conditional text generation, verify the superiority of CoTAM over other LLM-based augmentation methods with the same number of training examples for both fine-tuning and in-context learning. Remarkably, the 2D visualization of the augmented dataset using principal component analysis revealed a human-recognizable decision boundary that is likely hinted by the attribute manipulation, demonstrating the potential of our proposed approach.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-22
# 量子エンハンスドメトロジーとネットワーク状態

Quantum-enhanced metrology with network states ( http://arxiv.org/abs/2307.07758v2 )

ライセンス: Link先を確認
Yuxiang Yang, Benjamin Yadin, Zhen-Peng Xu, (参考訳) 量子相関により、ネットワーク内の量子センサーは、クロック同期や参照フレームアライメントといった分散センシングタスクにおいて、従来のセンサーよりも上位に分類する可能性を示している。 一方、この分析は単純で理想的なネットワークに対して行われたが、ネットワーク状態の概念によって得られた実用的な量子ネットワーク内で共有される相関は、はるかに複雑である。 ここでは、量子ネットワーク状態を用いてグローバルパラメータを推定する性能を制限する一般的な境界を証明し、量子優位性を達成するために真のマルチパーティ・エンタングルメントの必要性を確定する。 境界はネットワークにおける絡み合いの証人としても機能し、浅い回路によって生成される状態に一般化することができる。 さらに、我々は、ローカルネットワーク状態がハイゼンベルクの限界に達することを禁止しているが、成功すれば、量子メトロジーの究極の限界に達し、関係者のプライバシを保存する確率的プロトコルを設計する。 我々の研究は量子ネットワークにおける量子力学の限界と可能性の両方を確立している。

Armed with quantum correlations, quantum sensors in a network have shown the potential to outclass their classical counterparts in distributed sensing tasks such as clock synchronization and reference frame alignment. On the other hand, this analysis was done for simple and idealized networks, whereas the correlation shared within a practical quantum network, captured by the notion of network states, is much more complex. Here, we prove a general bound that limits the performance of using quantum network states to estimate a global parameter, establishing the necessity of genuine multipartite entanglement for achieving a quantum advantage. The bound can also serve as an entanglement witness in networks and can be generalized to states generated by shallow circuits. Moreover, while our bound prohibits local network states from achieving the Heisenberg limit, we design a probabilistic protocol that, once successful, attains this ultimate limit of quantum metrology and preserves the privacy of involved parties. Our work establishes both the limitation and the possibility of quantum metrology within quantum networks.
翻訳日:2024-05-26 21:12:42 公開日:2024-05-22
# 半無限導波路と結合した原子に基づく量子コヒーレント及び測定フィードバック制御

Quantum coherent and measurement feedback control based on atoms coupled with a semi-infinite waveguide ( http://arxiv.org/abs/2307.16876v3 )

ライセンス: Link先を確認
Haijin Ding, Nina H. Amini, Guofeng Zhang, John E. Gough, (参考訳) 本稿では,複数の2レベル原子を結合した半無限導波路に基づく原子・フォトニック系の所望の状態を生成するために,量子フィードバック制御が適用可能であることを示す。 このセットアップでは、初期励起原子が導波路に1つの光子を放出し、終端ミラーや他の原子によって反射され、原子と光子のコヒーレント相互作用を介して異なるフィードバックループを確立することができる。 導波管量子電磁力学(導波管QED)系に少なくとも2つの励起が存在する場合、量子状態の進化はランダムグラフ理論を用いて解釈できる。 このプロセスは環境の影響を受けながら,計測に基づくフィードバック制御やコヒーレントドライブによって環境誘起のダイナミクスを排除できることを明らかにする。 したがって、オープン系原子-導波路相互作用において、測定に基づくフィードバックは最終的な定常量子状態を変調することができ、同時に、測定プロセスにおけるホモダイン検出ノイズは振動を誘発し、コヒーレントなフィードバック設計によって処理される。

In this paper, we show that quantum feedback control may be applied to generate desired states for atomic and photonic systems based on a semi-infinite waveguide coupled with multiple two-level atoms. In this set-up, an initially excited atom can emit one photon into the waveguide, which can be reflected by the terminal mirror or other atoms to establish different feedback loops via the coherent interactions between the atom and photon. When there are at most two excitations in the waveguide quantum electrodynamics (waveguide QED) system, the evolution of quantum states can be interpreted using random graph theory. While this process is influenced by the environment, and we clarify that the environment-induced dynamics can be eliminated by measurement-based feedback control or coherent drives. Thus, in the open system atom-waveguide interactions, measurement-based feedback can modulate the final steady quantum state, while simultaneously, the homodyne detection noise in the measurement process can induce oscillations, which is treated by the coherent feedback designs.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-22
# ランダム二分極状態の忠実性と絡み合い:洞察と応用

Fidelity and Entanglement of Random Bipartite Pure States: Insights and Applications ( http://arxiv.org/abs/2308.01714v3 )

ライセンス: Link先を確認
George Biswas, Shao-Hua Hu, Jun-Yi Wu, Debasish Biswas, Anindya Biswas, (参考訳) 固定参照量子状態からのハールランダム二分極純状態の忠実度とその二分極絡みについて検討する。 垂直軸上の忠実度と絡み合いをプロットすることにより、結果のプロットが一様でない分布を示すことを観察する。 この分布は、ランダムな純二部状態の忠実度を定量化するために用いられる固定参照量子状態の絡み合いに依存する。 ランダムに選択された固定バイパートイトキュービットに対して、狭絡範囲内の典型的なランダムな純粋なバイパートライトキュービットの平均忠実度は、$\frac{1}{4}$である。 我々の研究を高次元のバイパルタイト・クディットに拡張すると、ランダムに選択された固定されたバイパルタイト・クディットに対する典型的なランダムな純粋なバイパルタイト・クディットの平均忠実度が狭いエンタングルメント範囲内で一定であることが分かる。 これらの定数の値は \(\frac{1}{d^2}\) であり、d はバイパルタイト・クーディ系の局所ヒルベルト空間の次元であり、異なる次元にわたる絡み合いと忠実さの間の一貫した関係を示唆している。 製品状態に対する忠実度の確率分布関数を解析的に研究し、分散量子コンピューティングデバイスのベンチマークの基準として利用する。

We investigate the fidelity of Haar random bipartite pure states from a fixed reference quantum state and their bipartite entanglement. By plotting the fidelity and entanglement on perpendicular axes, we observe that the resulting plots exhibit non-uniform distributions. The distribution depends on the entanglement of the fixed reference quantum state used to quantify the fidelity of the random pure bipartite states. We find that the average fidelity of typical random pure bipartite qubits within a narrow entanglement range with respect to a randomly chosen fixed bipartite qubit is $\frac{1}{4}$. Extending our study to higher dimensional bipartite qudits, we find that the average fidelity of typical random pure bipartite qudits with respect to a randomly chosen fixed bipartite qudit remains constant within a narrow entanglement range. The values of these constants are \(\frac{1}{d^2}\), with d being the dimension of the local Hilbert space of the bipartite qudit system, suggesting a consistent relationship between entanglement and fidelity across different dimensions. The probability distribution functions of fidelity with respect to a product state are analytically studied and used as a reference for the benchmarking of distributed quantum computing devices.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-22
# QUEST: 実用的な協調認識のためのクエリストリーム

QUEST: Query Stream for Practical Cooperative Perception ( http://arxiv.org/abs/2308.01804v3 )

ライセンス: Link先を確認
Siqi Fan, Haibao Yu, Wenxian Yang, Jirui Yuan, Zaiqing Nie, (参考訳) 協調知覚は、追加の視点を提供し、知覚場を拡大することにより、個人の知覚性能を効果的に向上させることができる。 既存の協力パラダイムは解釈可能(Result Cooper)かフレキシブル(Feature Cooper)である。 本稿では,解釈可能なインスタンスレベルのフレキシブルな機能インタラクションを実現するために,クエリ協調の概念を提案する。 この概念を具体的に説明するために、エージェント間のクエリストリームフローを許容する協調認識フレームワークQUESTを提案する。 クロスエージェントクエリは、共同認識インスタンスの融合と、個々の未認識インスタンスの補完を通じて対話される。 実世界のデータセットであるDAIR-V2X-Seqの実験結果から,QUESTの有効性を実証し,パケットドロップアウトに対する伝送柔軟性とロバスト性に対するクエリ協調パラダイムの利点を明らかにした。 我々の研究は、実際により協調的な知覚を促進するために、エージェント間の表現相互作用をさらに促進することを願っている。

Cooperative perception can effectively enhance individual perception performance by providing additional viewpoint and expanding the sensing field. Existing cooperation paradigms are either interpretable (result cooperation) or flexible (feature cooperation). In this paper, we propose the concept of query cooperation to enable interpretable instance-level flexible feature interaction. To specifically explain the concept, we propose a cooperative perception framework, termed QUEST, which let query stream flow among agents. The cross-agent queries are interacted via fusion for co-aware instances and complementation for individual unaware instances. Taking camera-based vehicle-infrastructure perception as a typical practical application scene, the experimental results on the real-world dataset, DAIR-V2X-Seq, demonstrate the effectiveness of QUEST and further reveal the advantage of the query cooperation paradigm on transmission flexibility and robustness to packet dropout. We hope our work can further facilitate the cross-agent representation interaction for better cooperative perception in practice.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-22
# 大型スキュー・ット・コプラモデルと日内等価リターンの非対称依存性

Large Skew-t Copula Models and Asymmetric Dependence in Intraday Equity Returns ( http://arxiv.org/abs/2308.05564v3 )

ライセンス: Link先を確認
Lin Deng, Michael Stanley Smith, Worapree Maneesoonthorn, (参考訳) スクリュー・トゥ・コプラモデル(英語版)は、非対称かつ極端なテール依存を可能にするため、財務データのモデリングに魅力的なものである。 Azzalini と Capitanio (2003) の skew-t 分布に暗黙的に表されるコプラは、2つの一般的な代替スキュー-t コプラよりも高レベルな対非対称依存を可能にすることを示す。 高次元でのこのコプラの推定は困難であり、高速かつ正確なベイズ変分推論(VI)手法を提案する。 この方法は、スキューt分布の生成表現を用いて、正確に近似できる拡張後部を定義する。 確率勾配上昇アルゴリズムは変分最適化の解法として用いられる。 この手法は、2017年から2021年までの米国93株の日内リターンに最大15因子のスキュー・ト・ファクター・コプラモデルを推定するために用いられる。 コプラは、対相関のばらつきに加えて、株式対に対する非対称依存のかなりの不均一性を捉えている。 移動ウィンドウスタディでは、非対称な依存関係も時間とともに変化し、スキュートコプラの日内予測密度がベンチマークコプラのモデルよりも精度が高いことが示されている。 推定対非対称依存関係に基づくポートフォリオ選択戦略は、インデックスに対する性能を向上させる。

Skew-t copula models are attractive for the modeling of financial data because they allow for asymmetric and extreme tail dependence. We show that the copula implicit in the skew-t distribution of Azzalini and Capitanio (2003) allows for a higher level of pairwise asymmetric dependence than two popular alternative skew-t copulas. Estimation of this copula in high dimensions is challenging, and we propose a fast and accurate Bayesian variational inference (VI) approach to do so. The method uses a generative representation of the skew-t distribution to define an augmented posterior that can be approximated accurately. A stochastic gradient ascent algorithm is used to solve the variational optimization. The methodology is used to estimate skew-t factor copula models with up to 15 factors for intraday returns from 2017 to 2021 on 93 U.S. equities. The copula captures substantial heterogeneity in asymmetric dependence over equity pairs, in addition to the variability in pairwise correlations. In a moving window study we show that the asymmetric dependencies also vary over time, and that intraday predictive densities from the skew-t copula are more accurate than those from benchmark copula models. Portfolio selection strategies based on the estimated pairwise asymmetric dependencies improve performance relative to the index.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-22
# U-Turn拡散

U-Turn Diffusion ( http://arxiv.org/abs/2308.07421v2 )

ライセンス: Link先を確認
Hamidreza Behjoo, Michael Chertkov, (参考訳) 本稿では,前向きノイズ注入法と逆雑音除去法を組み合わせたAIの拡散モデルについて検討し,スコア関数におけるGTサンプルに関する情報のエンコード方法について考察する。 我々の観察から,最も重要な情報は,主に前処理の初期段階に保存されていることが示唆された。 そこで本研究では,前処理の最終構成から始まり,前処理と後続の逆ダイナミクスの期間を短縮し,従来のアプローチを変更するUターン拡散モデルを提案する。 逆過程の終端で生成した合成試料がGTサンプルに暗黙的に表される確率分布に応じて独立かつ同一に分布することを保証するために,自動相関解析やコルモゴロフ・スミルノフ・ガウシアン性試験などの解析ツールを利用する。 ImageNetを用いた実験により、Uターン拡散モデルにより、より少ないニューラルファンクション評価で最先端のFr'echet Inception Distanceスコアが得られることが示された。 特に、再トレーニングを必要とせず、推論の1.35倍の高速化を実現している。

We explore diffusion models of AI, which consist of a forward noise-injecting process and a reverse de-noising process, to understand how they encode information about the Ground Truth (GT) samples in the score-function. Our observations indicate that the most essential information is stored primarily during the early stages of the forward process. Consequently, we propose the U-turn diffusion model, which modifies the traditional approach by shortening the duration of both the forward process and the subsequent reverse dynamics, starting from the final configuration of the forward process. To determine the optimal moment for the U-turn, ensuring that synthetic samples generated at the end of the reverse process are independently and identically distributed (i.i.d.) according to the probability distribution implicitly represented by the GT samples, we utilize various analytical tools, including auto-correlation analysis and the Kolmogorov-Smirnov Gaussianity test. Our experiments with the ImageNet demonstrate that the U-turn diffusion model achieves state-of-the-art Fr\'echet Inception Distance scores with fewer Neural Function Evaluations. Notably, we achieve a 1.35-fold speed-up in inference without the need for retraining.
翻訳日:2024-05-26 21:02:52 公開日:2024-05-22
# 心臓の形状:学習された距離関数による心臓モデル

Shape of my heart: Cardiac models through learned signed distance functions ( http://arxiv.org/abs/2308.16568v4 )

ライセンス: Link先を確認
Jan Verhülsdonk, Thomas Grandits, Francisco Sahli Costabal, Thomas Pinetz, Rolf Krause, Angelo Auricchio, Gundolf Haase, Simone Pezzuto, Alexander Effland, (参考訳) 解剖学的モデルの効率的な構築は、患者固有のヒト心臓のシリコン内モデルの主要な課題の1つである。 現在の手法は、しばしば線形統計モデルに頼り、高度なトポロジカルな変化を許さず、あるいは、画像解像度、品質、モダリティに強く依存するメッシュパイプラインが続く医療画像セグメンテーションを必要とする。 これらのアプローチは、他のイメージング領域への転送可能性に制限される。 本研究では、リプシッツ正則性を持つ3次元深部符号距離関数を用いて心臓の形状を再構成する。 この目的のために、心臓MRIの形状を学習し、複数の室の空間的関係をモデル化する。 また, 単一心室からの点群や, EAM (Electroanatomical Mapping) などの訓練MRIと異なるモダリティなどの部分的データから解剖モデルを再構成できることを示す。

The efficient construction of anatomical models is one of the major challenges of patient-specific in-silico models of the human heart. Current methods frequently rely on linear statistical models, allowing no advanced topological changes, or requiring medical image segmentation followed by a meshing pipeline, which strongly depends on image resolution, quality, and modality. These approaches are therefore limited in their transferability to other imaging domains. In this work, the cardiac shape is reconstructed by means of three-dimensional deep signed distance functions with Lipschitz regularity. For this purpose, the shapes of cardiac MRI reconstructions are learned to model the spatial relation of multiple chambers. We demonstrate that this approach is also capable of reconstructing anatomical models from partial data, such as point clouds from a single ventricle, or modalities different from the trained MRI, such as the electroanatomical mapping (EAM).
翻訳日:2024-05-26 20:52:56 公開日:2024-05-22
# ニューラルネットワークを用いた熱状態のリアルタイム量子力学

Real-time quantum dynamics of thermal states with neural thermofields ( http://arxiv.org/abs/2309.07063v2 )

ライセンス: Link先を確認
Jannes Nys, Zakari Denis, Giuseppe Carleo, (参考訳) 時間依存型量子多体Schr\"odinger方程式の解法は、特に環境が力学に影響を及ぼす有限温度の状態において難しい問題である。 既存の近似法のほとんどは、静的熱密度行列、1Dシステム、および/またはゼロ温度状態を表すように設計されている。 本研究では,熱場力学,モンテカルロ変動,ニューラルネット量子状態に基づく2次元の熱状態のリアルタイムダイナミクスの研究手法を提案する。 この目的のために、我々は2つの新しいツールを紹介した。 一 無限温度から任意の量子変動状態の冷却を正確にシミュレートする手順 (II) 熱場基底回転を用いた密度行列からの直接サンプリングを可能にする汎用熱(自己回帰)リカレントニューラルネットワーク(ARNNO)アンザッツ。 追加の長手場を対象とする横フィールドイジングモデルに適用し、相関演算子を含む時間依存観測値が4x4スピン格子に対して正確に再現可能であることを示す。 正確なシミュレーションの範囲外に位置する6x6格子上でのリアルタイムダイナミクスの予測を行う。

Solving the time-dependent quantum many-body Schr\"odinger equation is a challenging task, especially for states at a finite temperature, where the environment affects the dynamics. Most existing approximating methods are designed to represent static thermal density matrices, 1D systems, and/or zero-temperature states. In this work, we propose a method to study the real-time dynamics of thermal states in two dimensions, based on thermofield dynamics, variational Monte Carlo, and neural-network quantum states. To this aim, we introduce two novel tools: (i) a procedure to accurately simulate the cooling down of arbitrary quantum variational states from infinite temperature, and (ii) a generic thermal (autoregressive) recurrent neural-network (ARNNO) Ansatz that allows for direct sampling from the density matrix using thermofield basis rotations. We apply our technique to the transverse-field Ising model subject to an additional longitudinal field and demonstrate that the time-dependent observables, including correlation operators, can be accurately reproduced for a 4x4 spin lattice. We provide predictions of the real-time dynamics on a 6x6 lattice that lies outside the reach of exact simulations.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-22
# ファウンデーションモデルによる長期学習 - ヘビーファインチューニングハート

Long-Tail Learning with Foundation Model: Heavy Fine-Tuning Hurts ( http://arxiv.org/abs/2309.10019v2 )

ライセンス: Link先を確認
Jiang-Xin Shi, Tong Wei, Zhi Zhou, Jie-Jing Shao, Xin-Yan Han, Yu-Feng Li, (参考訳) ロングテール学習タスクに対処する微調整パラダイムは、基礎モデルの出現以来、大きな関心を集めている。 それでも、ロングテール学習における微調整がパフォーマンスに与える影響は、明確に定量化されなかった。 本稿では,重度微調整がテールクラスの非無視性能劣化を引き起こす可能性があり,軽量微調整の方が有効であることを示す。 原因は、重度の微調整によって引き起こされる不整合クラス条件による。 以上の結果から,適応型軽量微調整による高速予測とコンパクトモデルの実現を目的とした,低複雑さかつ高精度な長尾学習アルゴリズムLIFTを開発した。 実験により、トレーニング時間と学習パラメータの両方が、最先端のアプローチと比較して、より正確な予測性能で大幅に削減されることを確認した。

The fine-tuning paradigm in addressing long-tail learning tasks has sparked significant interest since the emergence of foundation models. Nonetheless, how fine-tuning impacts performance in long-tail learning was not explicitly quantified. In this paper, we disclose that heavy fine-tuning may even lead to non-negligible performance deterioration on tail classes, and lightweight fine-tuning is more effective. The reason is attributed to inconsistent class conditions caused by heavy fine-tuning. With the observation above, we develop a low-complexity and accurate long-tail learning algorithms LIFT with the goal of facilitating fast prediction and compact models by adaptive lightweight fine-tuning. Experiments clearly verify that both the training time and the learned parameters are significantly reduced with more accurate predictive performance compared with state-of-the-art approaches.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-22
# 非同期グラフジェネレータ

Asynchronous Graph Generator ( http://arxiv.org/abs/2309.17335v2 )

ライセンス: Link先を確認
Christopher P. Ley, Felipe Tobar, (参考訳) 本稿では,マルチチャネル時系列の計算と予測のための新しいグラフアテンションネットワークである非同期グラフ生成器(AGG)を紹介する。 AGGは、時間的/空間的規則性に関する再帰的なコンポーネントや仮定から解放され、学習可能な埋め込みを通じてノード内の測定、タイムスタンプ、チャネル固有の機能をコード化する。 注意機構を通じて、これらの埋め込みは興味のある変数間の表現的関係を同質グラフの形で発見することができる。 訓練後、AGGは所定のタイムスタンプとチャネル仕様に条件付けされた新しいノードを作成することで、emph{conditional attention generation} による計算を実行する。 提案したAGGは文献の関連手法と比較し,その性能をデータ拡張の観点から分析する。 実験の結果、AGGは時系列計算、分類、予測において、ベンチマークデータセット \emph{Beijing Air Quality} 、 \emph{PhysioNet ICU 2012} 、 \emph{UCI Localization} の最先端結果を達成し、他の注目ネットワークよりも優れていることがわかった。

We introduce the asynchronous graph generator (AGG), a novel graph attention network for imputation and prediction of multi-channel time series. Free from recurrent components or assumptions about temporal/spatial regularity, AGG encodes measurements, timestamps and channel-specific features directly in the nodes via learnable embeddings. Through an attention mechanism, these embeddings allow for discovering expressive relationships among the variables of interest in the form of a homogeneous graph. Once trained, AGG performs imputation by \emph{conditional attention generation}, i.e., by creating a new node conditioned on given timestamps and channel specification. The proposed AGG is compared to related methods in the literature and its performance is analysed from a data augmentation perspective. Our experiments reveal that AGG achieved state-of-the-art results in time series imputation, classification and prediction for the benchmark datasets \emph{Beijing Air Quality}, \emph{PhysioNet ICU 2012} and \emph{UCI localisation}, outperforming other recent attention-based networks.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-22
# CtxMIM:リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング

CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding ( http://arxiv.org/abs/2310.00022v4 )

ライセンス: Link先を確認
Mingming Zhang, Qingjie Liu, Yunhong Wang, (参考訳) ラベルのないデータの自己監督による表現の学習は、多様な画像を理解するのに非常に効果的であることが証明されている。 しかし、リモートセンシング画像は複雑で人口密度の高いシーンを持ち、複数の陸地オブジェクトと明確な前景オブジェクトが存在しないことが多い。 この本質的な性質は、自己教師付き学習において、高い対象密度を生成し、偽陽性対や文脈情報の欠落をもたらす。 これらの問題に対処するために,リモートセンシング画像理解のための簡易かつ効率的なMIMに基づく自己教師型学習であるコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。 CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。 コンテクストのコンテクスト整合性制約を通じてコンテキスト情報を提供するために、コンテクスト強化ジェネレーションブランチが導入された。 単純でエレガントな設計により、CtxMIMは、特定の時間的制約や地理的制約なしに、大規模データセットでオブジェクトレベルまたはピクセルレベルの特徴を学習する事前学習モデルを奨励する。 最後に、CtxMIMが学習した特徴は、土地被覆分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションなど、様々な下流タスクにおいて、完全に教師付きかつ最先端の自己教師付き学習手法よりも優れていることを示す。 これらの結果から,CtxMIMは高一般化と伝達性を有する印象的なリモートセンシング表現を学習できることが示唆された。 コードとデータは公開されます。

Learning representations through self-supervision on unlabeled data has proven highly effective for understanding diverse images. However, remote sensing images often have complex and densely populated scenes with multiple land objects and no clear foreground objects. This intrinsic property generates high object density, resulting in false positive pairs or missing contextual information in self-supervised learning. To address these problems, we propose a context-enhanced masked image modeling method (CtxMIM), a simple yet efficient MIM-based self-supervised learning for remote sensing image understanding. CtxMIM formulates original image patches as a reconstructive template and employs a Siamese framework to operate on two sets of image patches. A context-enhanced generative branch is introduced to provide contextual information through context consistency constraints in the reconstruction. With the simple and elegant design, CtxMIM encourages the pre-training model to learn object-level or pixel-level features on a large-scale dataset without specific temporal or geographical constraints. Finally, extensive experiments show that features learned by CtxMIM outperform fully supervised and state-of-the-art self-supervised learning methods on various downstream tasks, including land cover classification, semantic segmentation, object detection, and instance segmentation. These results demonstrate that CtxMIM learns impressive remote sensing representations with high generalization and transferability. Code and data will be made public available.
翻訳日:2024-05-26 20:52:56 公開日:2024-05-22
# 転送可能なグラフオートエンコーダを用いたネットワークアライメント

Network Alignment with Transferable Graph Autoencoders ( http://arxiv.org/abs/2310.03272v3 )

ライセンス: Link先を確認
Jiashu He, Charilaos I. Kanatsoulis, Alejandro Ribeiro, (参考訳) ネットワークアライメントは、異なるグラフのノード間の1対1の対応を確立するタスクであり、高インパクト領域における多くのアプリケーションを見つける。 しかし、このタスクはNPハードであることが知られており、既存のアルゴリズムはグラフのサイズが大きくなるにつれてスケールアップしない。 両課題に対処するために,アライメントタスクに適した,強力でロバストなノード埋め込みを抽出するために設計された,新しい一般化グラフオートエンコーダアーキテクチャを提案する。 生成した埋め込みはグラフの固有値や固有ベクトルに関連付けられており、古典的なスペクトル法と比較してより正確なアライメントを実現することができることを示す。 提案フレームワークは転送学習とデータ拡張を利用して,大規模なネットワークアライメントを実現する。 実世界のグラフとのネットワークおよびサブネットワークのアライメントに関する広範な実験により、提案手法の有効性とスケーラビリティを裏付ける確証が得られた。

Network alignment is the task of establishing one-to-one correspondences between the nodes of different graphs and finds a plethora of applications in high-impact domains. However, this task is known to be NP-hard in its general form, and existing algorithms do not scale up as the size of the graphs increases. To tackle both challenges we propose a novel generalized graph autoencoder architecture, designed to extract powerful and robust node embeddings, that are tailored to the alignment task. We prove that the generated embeddings are associated with the eigenvalues and eigenvectors of the graphs and can achieve more accurate alignment compared to classical spectral methods. Our proposed framework also leverages transfer learning and data augmentation to achieve efficient network alignment at a very large scale without retraining. Extensive experiments on both network and sub-network alignment with real-world graphs provide corroborating evidence supporting the effectiveness and scalability of the proposed approach.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-22
# MinPrompt: Few-shot Question Answeringのためのグラフベースの最小プロンプトデータ拡張

MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering ( http://arxiv.org/abs/2310.05007v2 )

ライセンス: Link先を確認
Xiusi Chen, Jyun-Yu Jiang, Wei-Cheng Chang, Cho-Jui Hsieh, Hsiang-Fu Yu, Wei Wang, (参考訳) 最近のQAの進歩は、主に訓練済みの大規模言語モデル(LLM)のパワーと特定の設定での微調整に依存している。 事前学習段階はすでに強力な推論能力を持つLLMを搭載しているが、最高の結果を得るためには、特定の領域に適応するように微調整する必要がある。 本稿では,細調整のための最も情報性の高いデータを選択することを提案する。これにより,オープンドメインQAタスクにおいて,比較あるいはより精度の高い微調整プロセスの効率が向上する。 我々は、近似グラフアルゴリズムと教師なし質問生成に基づく、オープンドメインQAのための最小限のデータ拡張フレームワークMinPromptを提案する。 我々は、生テキストをグラフ構造に変換して、異なる事実文間の接続を構築し、それからグラフアルゴリズムを適用して、生テキストの最も多くの情報をカバーするのに必要な最小限の文の集合を識別する。 次に、同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。 いくつかのベンチマークデータセットと理論的分析による実験結果から、MinPromptはベースラインよりも高い効率で同等またはより良い結果を得ることができることが示され、F-1スコアの一貫性が向上した。

Recent advances in few-shot question answering (QA) mostly rely on the power of pre-trained large language models (LLMs) and fine-tuning in specific settings. Although the pre-training stage has already equipped LLMs with powerful reasoning capabilities, LLMs still need to be fine-tuned to adapt to specific domains to achieve the best results. In this paper, we propose to select the most informative data for fine-tuning, thereby improving the efficiency of the fine-tuning process with comparative or even better accuracy on the open-domain QA task. We present MinPrompt, a minimal data augmentation framework for open-domain QA based on an approximate graph algorithm and unsupervised question generation. We transform the raw text into a graph structure to build connections between different factual sentences, then apply graph algorithms to identify the minimal set of sentences needed to cover the most information in the raw text. We then generate QA pairs based on the identified sentence subset and train the model on the selected sentences to obtain the final model. Empirical results on several benchmark datasets and theoretical analysis show that MinPrompt is able to achieve comparable or better results than baselines with a high degree of efficiency, bringing consistent improvements in F-1 scores.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-22
# 隠れたつながりを明らかにする:ビデオグラウンドダイアログの反復検索と推論

Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog ( http://arxiv.org/abs/2310.07259v2 )

ライセンス: Link先を確認
Haoyu Zhang, Meng Liu, Yaowei Wang, Da Cao, Weili Guan, Liqiang Nie, (参考訳) 従来の視覚的質問応答とは対照的に、ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。 既存のアプローチによる賞賛すべき進歩にもかかわらず、複雑な対話の歴史を漸進的に理解し、映像情報を同化するという課題に直面している。 これらの課題に対応するために,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータからなる反復探索・推論フレームワークを提案する。 具体的には、テキストエンコーダにおける経路探索と集約戦略を考案し、提案した質問を理解する上で重要なダイアログ履歴からコアキューをマイニングする。 同時に、映像エンコーダは反復的推論ネットワークを利用して、映像から重要な視覚マーカーを抽出し、強調し、視覚理解の深度を高める。 最後に,事前学習した GPT-2 モデルを用いて,抽出した隠れた手がかりをコヒーレントかつコンテキスト化された回答にデコードする。 3つの公開データセットに対する大規模な実験により、提案フレームワークの有効性と一般化性を示す。

In contrast to conventional visual question answering, video-grounded dialog necessitates a profound understanding of both dialog history and video content for accurate response generation. Despite commendable progress made by existing approaches, they still face the challenges of incrementally understanding complex dialog history and assimilating video information. In response to these challenges, we present an iterative search and reasoning framework, which consists of a textual encoder, a visual encoder, and a generator. Specifically, we devise a path search and aggregation strategy in the textual encoder, mining core cues from dialog history that are pivotal to understanding the posed questions. Concurrently, our visual encoder harnesses an iterative reasoning network to extract and emphasize critical visual markers from videos, enhancing the depth of visual comprehension. Finally, we utilize the pre-trained GPT-2 model as our answer generator to decode the mined hidden clues into coherent and contextualized answers. Extensive experiments on three public datasets demonstrate the effectiveness and generalizability of our proposed framework.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-22
# 現象を補う:仮説補充による言語モデルの帰納的推論能力の検証

Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement ( http://arxiv.org/abs/2310.08559v4 )

ライセンス: Link先を確認
Linlu Qiu, Liwei Jiang, Ximing Lu, Melanie Sclar, Valentina Pyatkin, Chandra Bhagavatula, Bailin Wang, Yoon Kim, Yejin Choi, Nouha Dziri, Xiang Ren, (参考訳) 基礎となる原則を少数の観察から導き出し、誘導的推論として知られる新しい状況に一般化する能力は、人間の知性の中心である。 以前の研究は、言語モデル(LM)が、しばしば帰納的推論に不足していることを示唆している。 本研究では,従来のインプット・アウトプット・プロンプトよりも人為的インダクティブ・プロセスをより密接に反映する手法である反復的仮説修正を通じて,LMの帰納的推論能力を体系的に研究する。 反復的仮説修正は3段階のプロセス、すなわちテキスト規則の形で仮説を提案し、選択し、修正するプロセスを採用する。 中間ルールを検証した結果,LMは現象仮説の提案者(すなわち,候補規則の生成)であり,提案したルールセットを体系的にフィルタリングする(タスク固有の)シンボリックインタプリタと組み合わせることで,因果関係,言語的指示,記号的概念の誘導を必要とする帰納的推論ベンチマークに対して強い結果が得られた。 しかし、それらは帰納的推論器としても振る舞うことができ、規則帰納法(可塑性規則を識別する)と規則適用法(インスタンスに提案された規則を適用する)の間に顕著なパフォーマンスギャップを示し、LMが実際に規則を適用することなく仮説を提案していることを示唆している。 実験的および人為的分析により, LMの誘導的推論過程と人間とのいくつかの相違が明らかとなり, 誘導的推論タスクにおけるLMの使用の可能性と限界の両方に光を当てる。

The ability to derive underlying principles from a handful of observations and then generalize to novel situations -- known as inductive reasoning -- is central to human intelligence. Prior work suggests that language models (LMs) often fall short on inductive reasoning, despite achieving impressive success on research benchmarks. In this work, we conduct a systematic study of the inductive reasoning capabilities of LMs through iterative hypothesis refinement, a technique that more closely mirrors the human inductive process than standard input-output prompting. Iterative hypothesis refinement employs a three-step process: proposing, selecting, and refining hypotheses in the form of textual rules. By examining the intermediate rules, we observe that LMs are phenomenal hypothesis proposers (i.e., generating candidate rules), and when coupled with a (task-specific) symbolic interpreter that is able to systematically filter the proposed set of rules, this hybrid approach achieves strong results across inductive reasoning benchmarks that require inducing causal relations, language-like instructions, and symbolic concepts. However, they also behave as puzzling inductive reasoners, showing notable performance gaps between rule induction (i.e., identifying plausible rules) and rule application (i.e., applying proposed rules to instances), suggesting that LMs are proposing hypotheses without being able to actually apply the rules. Through empirical and human analyses, we further reveal several discrepancies between the inductive reasoning processes of LMs and humans, shedding light on both the potentials and limitations of using LMs in inductive reasoning tasks.
翻訳日:2024-05-26 20:43:06 公開日:2024-05-22
# CompA:音声言語モデルにおける合成推論のギャップに対処する

CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models ( http://arxiv.org/abs/2310.08753v2 )

ライセンス: Link先を確認
Sreyan Ghosh, Ashish Seth, Sonal Kumar, Utkarsh Tyagi, Chandra Kiran Evuru, S. Ramaneswaran, S. Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, (参考訳) 音声の基本的特徴は、その構成的性質である。 音声と言語モダリティの共有表現を学習するコントラストアプローチ(例えばCLAP)を用いて訓練された音声言語モデル(ALM)は、ゼロショット音声分類や音声検索など、多くのダウンストリームアプリケーションの性能を改善した。 しかし、これらのモデルが構成的推論を効果的に行う能力はほとんど探索されておらず、さらなる研究が必要である。 本稿では,ALMの合成推論を評価するために,実世界の音声サンプルの大多数を専門家がアノテートした2つのベンチマークの集合であるCompAを提案する。 提案したCompA-orderは、ALMが音声中の音響イベントの順序や発生をいかによく理解しているかを評価し、CompA-attributeは音響イベントの属性結合を評価する。 どちらのベンチマークからも、両方のオーディオが同じ音響イベントを持つが、異なる構成を持つ2つのオーディオキャプションペアで構成されている。 ALMは、正しい音声と正しいキャプションとの適合性を評価する。 このベンチマークを用いて、現在のALMはランダムな確率よりもわずかに優れた性能を示し、構成的推論に苦慮している。 次に,新しい学習法を用いてCLAPを微調整し,合成推論能力を向上させるCompA-CLAPを提案する。 CompA-CLAPをトレーニングするために、コンポジション対応のハードネガティブによるコントラストトレーニングの改善を提案し、より集中的なトレーニングを可能にした。 次に,モデルが構成理解の微粒化を学習し,利用可能な構成音声の急激な不足を克服するのに役立つ,新しいモジュール型コントラスト損失を提案する。 CompA-CLAPは、CompAベンチマークのすべてのベースラインモデルよりも大幅に改善され、その優れた構成推論能力を示している。

A fundamental characteristic of audio is its compositional nature. Audio-language models (ALMs) trained using a contrastive approach (e.g., CLAP) that learns a shared representation between audio and language modalities have improved performance in many downstream applications, including zero-shot audio classification, audio retrieval, etc. However, the ability of these models to effectively perform compositional reasoning remains largely unexplored and necessitates additional research. In this paper, we propose CompA, a collection of two expert-annotated benchmarks with a majority of real-world audio samples, to evaluate compositional reasoning in ALMs. Our proposed CompA-order evaluates how well an ALM understands the order or occurrence of acoustic events in audio, and CompA-attribute evaluates attribute-binding of acoustic events. An instance from either benchmark consists of two audio-caption pairs, where both audios have the same acoustic events but with different compositions. An ALM is evaluated on how well it matches the right audio to the right caption. Using this benchmark, we first show that current ALMs perform only marginally better than random chance, thereby struggling with compositional reasoning. Next, we propose CompA-CLAP, where we fine-tune CLAP using a novel learning method to improve its compositional reasoning abilities. To train CompA-CLAP, we first propose improvements to contrastive training with composition-aware hard negatives, allowing for more focused training. Next, we propose a novel modular contrastive loss that helps the model learn fine-grained compositional understanding and overcomes the acute scarcity of openly available compositional audios. CompA-CLAP significantly improves over all our baseline models on the CompA benchmark, indicating its superior compositional reasoning capabilities.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-22
# 形状認識型グラフスペクトル学習

Shape-aware Graph Spectral Learning ( http://arxiv.org/abs/2310.10064v2 )

ライセンス: Link先を確認
Junjie Xu, Enyan Dai, Dongsheng Luo, Xiang Zhang, Suhang Wang, (参考訳) スペクトルグラフニューラルネットワーク(GNN)は、メッセージパッシングGNNの限界を超える能力に注目されている。 彼らは、グラフ信号の有用な周波数情報をキャプチャするスペクトルフィルタを学ぶために、下流タスクからの監督に依存している。 しかし、いくつかの研究は、好ましいグラフ周波数がグラフホモフィリーレベルと関連していることを実証的に示している。 このグラフ周波数とホモフィリー・ヘテロフィリーグラフの関係は、既存のスペクトルGNNにおいて体系的に解析され検討されていない。 このギャップを緩和するために、我々は、低周波の重要度とホモフィリー比との正の相関と、高周波の重要度とホモフィリー比との負の相関を明らかにする理論的および経験的分析を行う。 そこで我々はニュートン補間に基づくスペクトルフィルタの形状認識正則化を提案する。 i)任意の多項式スペクトルフィルタを学習し、 (二)対応するホモフィリーレベルの所望の形状についての事前の知識を取り入れる。 包括的実験により、NewtonNetは、望まれる形状のグラフスペクトルフィルタを達成でき、同好性データセットと異好性データセットの両方で優れた性能が得られることが示された。

Spectral Graph Neural Networks (GNNs) are gaining attention for their ability to surpass the limitations of message-passing GNNs. They rely on supervision from downstream tasks to learn spectral filters that capture the graph signal's useful frequency information. However, some works empirically show that the preferred graph frequency is related to the graph homophily level. This relationship between graph frequency and graphs with homophily/heterophily has not been systematically analyzed and considered in existing spectral GNNs. To mitigate this gap, we conduct theoretical and empirical analyses revealing a positive correlation between low-frequency importance and the homophily ratio, and a negative correlation between high-frequency importance and the homophily ratio. Motivated by this, we propose shape-aware regularization on a Newton Interpolation-based spectral filter that can (i) learn an arbitrary polynomial spectral filter and (ii) incorporate prior knowledge about the desired shape of the corresponding homophily level. Comprehensive experiments demonstrate that NewtonNet can achieve graph spectral filters with desired shapes and superior performance on both homophilous and heterophilous datasets.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-22
# ソリューション品質の相違:適応的マルチレベル単純化による信念依存型継続的POMDPの高速化

No Compromise in Solution Quality: Speeding Up Belief-dependent Continuous POMDPs via Adaptive Multilevel Simplification ( http://arxiv.org/abs/2310.10274v2 )

ライセンス: Link先を確認
Andrey Zhitnikov, Ori Sztyglic, Vadim Indelman, (参考訳) 一般的な信念に依存した報酬を持つ継続的POMDPは、オンラインでの解決が難しいことで知られている。 本稿では,与えられた外部構築された信条木と,探索手法を用いてハエの信条木を構成するMCTSの設定に対して,適応的多面的単純化の完全証明可能な理論を提案する。 我々の理論は、得られたソリューションの品質を犠牲にすることなく、信念に依存した報酬でPOMDP計画を加速することができる。 我々は、提案された統一理論において、それぞれの理論的主張を厳格に証明する。 一般的な理論的結果を用いて, 信念に依存した報酬を伴って, 継続的なPOMDPオンラインプランニングを高速化するアルゴリズムを3つ提示する。 我々の2つのアルゴリズムである SITH-BSP と LAZY-SITH-BSP は、外部に信仰木を構築する方法の上に利用することができる。 第3のアルゴリズムであるSITH-PFTは、任意の探査手法をプラグインできる任意のMCTS法である。 すべてのメソッドは、単純化されていない等価値と全く同じ最適なアクションを返すことが保証されます。 本稿では,情報理論的な報酬の計算コストを,新たな適応的上下境界に置き換える。 計算が簡単であり,アルゴリズムの要求に応じて厳格化できることが示される。 我々のアプローチは一般に、報酬に単調に収束する任意の境界は、性能を損なうことなく、大幅なスピードアップを達成するために利用することができる。 私たちの理論とアルゴリズムは、継続的な状態、行動、観察の挑戦的な設定を支持します。 信念はパラメトリックまたは一般であり、重み付き粒子で表される。 シミュレーションでは,同一性能が保証されたベースラインアプローチと比較して,計画の大幅な高速化が示されている。

Continuous POMDPs with general belief-dependent rewards are notoriously difficult to solve online. In this paper, we present a complete provable theory of adaptive multilevel simplification for the setting of a given externally constructed belief tree and MCTS that constructs the belief tree on the fly using an exploration technique. Our theory allows to accelerate POMDP planning with belief-dependent rewards without any sacrifice in the quality of the obtained solution. We rigorously prove each theoretical claim in the proposed unified theory. Using the general theoretical results, we present three algorithms to accelerate continuous POMDP online planning with belief-dependent rewards. Our two algorithms, SITH-BSP and LAZY-SITH-BSP, can be utilized on top of any method that constructs a belief tree externally. The third algorithm, SITH-PFT, is an anytime MCTS method that permits to plug-in any exploration technique. All our methods are guaranteed to return exactly the same optimal action as their unsimplified equivalents. We replace the costly computation of information-theoretic rewards with novel adaptive upper and lower bounds which we derive in this paper, and are of independent interest. We show that they are easy to calculate and can be tightened by the demand of our algorithms. Our approach is general; namely, any bounds that monotonically converge to the reward can be utilized to achieve significant speedup without any loss in performance. Our theory and algorithms support the challenging setting of continuous states, actions, and observations. The beliefs can be parametric or general and represented by weighted particles. We demonstrate in simulation a significant speedup in planning compared to baseline approaches with guaranteed identical performance.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-22
# EconAgent:マクロ経済活動のシミュレーションのための大規模言語モデル駆動エージェント

EconAgent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities ( http://arxiv.org/abs/2310.10436v3 )

ライセンス: Link先を確認
Nian Li, Chen Gao, Mingyu Li, Yong Li, Qingmin Liao, (参考訳) 人工知能の出現により、マクロ経済学におけるデータ駆動モデリングがますます強調され、エージェントベースモデリング(ABM)が顕著なボトムアップシミュレーションパラダイムとして登場した。 ABMでは、エージェント(例えば、世帯、企業)がマクロ経済環境で相互作用し、市場ダイナミクスをまとめて生成する。 既存のエージェントモデリングは通常、決定のために所定のルールまたは学習ベースのニューラルネットワークを使用する。 しかし、各エージェントをカスタマイズすることは、エージェントの不均一性のモデリングを複雑にし、大きな課題をもたらす。 さらに、多周期市場ダイナミクスと多面マクロ経済要因の影響は、意思決定プロセスにおいてしばしば見過ごされる。 本研究では,マクロ経済シミュレーションのための言語モデルを用いた大規模エージェントであるEconAgentを紹介する。 まず,作業や消費に関するエージェントの判断により,様々な市場ダイナミクスを取り入れたシミュレーション環境を構築する。 認識モジュールを通して、異なる意思決定機構を持つ異種エージェントを作成する。 さらに,メモリモジュールを用いたマクロ経済動向の影響をモデル化し,エージェントが過去の個々の経験や市場動態を反映できるようにする。 シミュレーション実験により、EconAgentは現実的な決定を下すことができ、既存のルールベースのエージェントや学習ベースのエージェントと比較して、より合理的なマクロ経済現象をもたらすことが示された。 私たちのコードはhttps://github.com/tsinghua-fib-lab/ACL24-EconAgent.comで公開されています。

The advent of artificial intelligence has led to a growing emphasis on data-driven modeling in macroeconomics, with agent-based modeling (ABM) emerging as a prominent bottom-up simulation paradigm. In ABM, agents (e.g., households, firms) interact within a macroeconomic environment, collectively generating market dynamics. Existing agent modeling typically employs predetermined rules or learning-based neural networks for decision-making. However, customizing each agent presents significant challenges, complicating the modeling of agent heterogeneity. Additionally, the influence of multi-period market dynamics and multifaceted macroeconomic factors are often overlooked in decision-making processes. In this work, we introduce EconAgent, a large language model-empowered agent with human-like characteristics for macroeconomic simulation. We first construct a simulation environment that incorporates various market dynamics driven by agents' decisions regarding work and consumption. Through the perception module, we create heterogeneous agents with distinct decision-making mechanisms. Furthermore, we model the impact of macroeconomic trends using a memory module, which allows agents to reflect on past individual experiences and market dynamics. Simulation experiments show that EconAgent can make realistic decisions, leading to more reasonable macroeconomic phenomena compared to existing rule-based or learning-based agents. Our codes are released at https://github.com/tsinghua-fib-lab/ACL24-EconAgent.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-22
# 人道支援が食料安全保障に与える影響の評価

Assessing the Causal Impact of Humanitarian Aid on Food Security ( http://arxiv.org/abs/2310.11287v3 )

ライセンス: Link先を確認
Jordi Cerdà-Bautista, José María Tárraga, Vasileios Sitokonstantinou, Gustau Camps-Valls, (参考訳) 気候変動による干ばつに直面し、脆弱な地域は食料安全保障への深刻な脅威に直面し、緊急の人道支援を要求している。 本稿では,現金による介入が食糧危機に与える影響を評価することを目的としたアフリカホーンの因果推論フレームワークを提案する。 我々の貢献は、食品安全保障システム内の因果関係の特定、社会経済、天気、リモートセンシングデータを含む包括的なデータベースの調和、栄養失調に対する人道的介入の因果効果の推定などである。 国レベルでは,食品の安全性などの多分野システムに対する理解が限られているため,サンプルサイズが制限されたこと,データ品質が最適でないこと,不完全な因果グラフが原因で,有意な影響は認められなかった。 その代わり、地区レベルでは、結果は顕著な効果を示し、さらにシステムの文脈固有の性質を示唆している。 このことは、より効果的な将来の介入と政策のために、データ収集を強化し、ドメインの専門家と因果モデルを洗練し、人道支援における透明性と説明責任を向上させる必要性を浮き彫りにする。

In the face of climate change-induced droughts, vulnerable regions encounter severe threats to food security, demanding urgent humanitarian assistance. This paper introduces a causal inference framework for the Horn of Africa, aiming to assess the impact of cash-based interventions on food crises. Our contributions include identifying causal relationships within the food security system, harmonizing a comprehensive database including socio-economic, weather and remote sensing data, and estimating the causal effect of humanitarian interventions on malnutrition. On a country level, our results revealed no significant effects, likely due to limited sample size, suboptimal data quality, and an imperfect causal graph resulting from our limited understanding of multidisciplinary systems like food security. Instead, on a district level, results revealed significant effects, further implying the context-specific nature of the system. This underscores the need to enhance data collection and refine causal models with domain experts for more effective future interventions and policies, improving transparency and accountability in humanitarian aid.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-22
# フェデレーション参加と貢献を動機付ける現実的メカニズムに向けて

Towards Realistic Mechanisms That Incentivize Federated Participation and Contribution ( http://arxiv.org/abs/2310.13681v3 )

ライセンス: Link先を確認
Marco Bornstein, Amrit Singh Bedi, Anit Kumar Sahu, Furqan Khan, Furong Huang, (参考訳) フェデレーション学習(FL)におけるエッジデバイス参加は、通常、デバイスサーバ間通信(例えばデバイスドロップアウト)のレンズを通して研究され、エッジデバイスがFLに参加することを望まないと仮定する。 その結果、現在のFLフレームワークは現実的な設定で実装する際に欠陥があり、その多くがフリーライダージレンマに遭遇している。 FLを現実的な環境に向ける第1のフェデレーション機構であるRealFMを提案する。(1)デバイスユーティリティを現実的にモデル化し、(2)データコントリビューションとデバイス参加をインセンティブ化し、(3)フリーライダージレンマを確実に除去し、(4)データの均一性とデータ共有に関する仮定を緩和する。 従来のFLメカニズムと比較して、RealFMはモデル精度と実用性の間の非線形関係を可能にする。 実世界のデータでは、RealFMはデバイスユーティリティとサーバユーティリティ、データコントリビューションを、ベースラインと比較してそれぞれ3倍と4倍改善する。

Edge device participation in federating learning (FL) is typically studied through the lens of device-server communication (e.g., device dropout) and assumes an undying desire from edge devices to participate in FL. As a result, current FL frameworks are flawed when implemented in realistic settings, with many encountering the free-rider dilemma. In a step to push FL towards realistic settings, we propose RealFM: the first federated mechanism that (1) realistically models device utility, (2) incentivizes data contribution and device participation, (3) provably removes the free-rider dilemma, and (4) relaxes assumptions on data homogeneity and data sharing. Compared to previous FL mechanisms, RealFM allows for a non-linear relationship between model accuracy and utility, which improves the utility gained by the server and participating devices. On real-world data, RealFM improves device and server utility, as well as data contribution, by over 3 and 4 magnitudes respectively compared to baselines.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-22
# スターフリー言語を正確に認識するマスクハードアテンション変換器

Masked Hard-Attention Transformers Recognize Exactly the Star-Free Languages ( http://arxiv.org/abs/2310.13897v3 )

ライセンス: Link先を確認
Andy Yang, David Chiang, Dana Angluin, (参考訳) 非有界なサイズの入力に対する変換子の表現力は、形式言語のクラスを認識する能力を通じて研究することができる。 我々は、(すべての注意が正確に1つの位置に集中している)トランスフォーマーエンコーダと厳密な将来のマスキング(各位置が左に厳密に位置にのみ入っている場合)について検討し、それらがちょうど恒星自由言語を定義する線形時間論理(LTL)と等価であることを示す。 鍵となる技術は、変換器とTL間の便利な中間言語としてBoolean RASPを使用することである。 LTLで知られている多くの結果を変換器に適用し、どのように位置埋め込み、厳密なマスキング、深さが表現力を増加させるかを特徴付ける。

The expressive power of transformers over inputs of unbounded size can be studied through their ability to recognize classes of formal languages. We consider transformer encoders with hard attention (in which all attention is focused on exactly one position) and strict future masking (in which each position only attends to positions strictly to its left), and prove that they are equivalent to linear temporal logic (LTL), which defines exactly the star-free languages. A key technique is the use of Boolean RASP as a convenient intermediate language between transformers and LTL. We then take numerous results known for LTL and apply them to transformers, characterizing how position embeddings, strict masking, and depth increase expressive power.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-22
# タンパク質リガンド構造予測モデルの可能性を解き放つため, HelixDock を用いた大規模ドッキングコンフォーメーションの事前評価

Pre-Training on Large-Scale Generated Docking Conformations with HelixDock to Unlock the Potential of Protein-ligand Structure Prediction Models ( http://arxiv.org/abs/2310.13913v4 )

ライセンス: Link先を確認
Lihang Liu, Shanzhuo Zhang, Donglong He, Xianbin Ye, Jingbo Zhou, Xiaonan Zhang, Yaoyao Jiang, Weiming Diao, Hang Yin, Hua Chai, Fan Wang, Jingzhou He, Liang Zheng, Yonghui Li, Xiaomin Fang, (参考訳) タンパク質リガンド構造予測は、小さな分子(リガンド)と標的タンパク質(受容体)の結合相互作用を予測する薬物発見において必須の課題である。 近年の進歩は、タンパク質リガンド構造予測の精度を向上させるためのディープラーニング技術が組み込まれている。 それでもドッキングコンフォーメーションの実験的な検証はコストがかかるままであり、訓練データに制限があるため、これらの深層学習手法の一般化可能性に関する懸念が高まる。 本研究では,従来の物理ドッキングツールによる大規模ドッキングコンフォメーションの事前トレーニングを行い,実験によって検証された受容体-リガンド複合体の限定セットを用いて微調整を行うことにより,優れた性能を有するタンパク質-リガンド構造予測モデルが得られることを示す。 具体的には、このプロセスはタンパク質とリガンドのペアリングのための1億ドッキングコンフォメーションを生成し、約100万のCPUコア日を要した。 提案モデルであるHelixDockは,物理ベースのドッキングツールによってカプセル化された物理知識を,事前学習期間中に取得することを目的としている。 HelixDockは、物理学ベースのベースラインとディープラーニングベースのベースラインの両方に対して厳格にベンチマークされ、バインディング確認の予測において、例外的な精度と堅牢な転送性を示している。 さらに,本研究は,事前学習したタンパク質リガンド構造予測モデルに基づくスケーリング法則を明らかにし,モデルパラメータの増加と事前学習データ量の増加に伴う性能の持続的な向上を示唆している。 さらに,HelixDockをいくつかの薬物発見関連タスクに適用し,その実用性を検証した。 HelixDockはクロスドッキングと構造ベースの仮想スクリーニングベンチマークの両方で優れた機能を示している。

Protein-ligand structure prediction is an essential task in drug discovery, predicting the binding interactions between small molecules (ligands) and target proteins (receptors). Recent advances have incorporated deep learning techniques to improve the accuracy of protein-ligand structure prediction. Nevertheless, the experimental validation of docking conformations remains costly, it raises concerns regarding the generalizability of these deep learning-based methods due to the limited training data. In this work, we show that by pre-training on a large-scale docking conformation generated by traditional physics-based docking tools and then fine-tuning with a limited set of experimentally validated receptor-ligand complexes, we can obtain a protein-ligand structure prediction model with outstanding performance. Specifically, this process involved the generation of 100 million docking conformations for protein-ligand pairings, an endeavor consuming roughly 1 million CPU core days. The proposed model, HelixDock, aims to acquire the physical knowledge encapsulated by the physics-based docking tools during the pre-training phase. HelixDock has been rigorously benchmarked against both physics-based and deep learning-based baselines, demonstrating its exceptional precision and robust transferability in predicting binding confirmation. In addition, our investigation reveals the scaling laws governing pre-trained protein-ligand structure prediction models, indicating a consistent enhancement in performance with increases in model parameters and the volume of pre-training data. Moreover, we applied HelixDock to several drug discovery-related tasks to validate its practical utility. HelixDock demonstrates outstanding capabilities on both cross-docking and structure-based virtual screening benchmarks.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-22
# 散逸による拡張局在遷移

Dissipation induced extended-localized transition ( http://arxiv.org/abs/2310.14904v3 )

ライセンス: Link先を確認
Yaru Liu, Zeqing Wang, Chao Yang, Jianwen Jie, Yucheng Wang, (参考訳) 運動量エッジ(ME)は、拡張された(金属)状態と、乱れた(準周期的な)状態の局所的な(絶縁)状態の遷移を理解する上で重要な概念である。 本稿では, 定常密度行列を計算し, 急激な散逸導入に伴うクエンチダイナミクスを解析することにより, MEを特徴とする準周期系への散逸の影響を考察し, 初期状態に関わらず, 主に局所状態あるいは局所状態によって特徴づけられる特定の状態への散逸を実証する。 本研究は, 粒子の動的挙動を制御し, 分散状態と局所状態の遷移を誘導するための新しい経路として, 散逸の利用を確立した。

Mobility edge (ME), representing the critical energy that distinguishes between extended and localized states, is a key concept in understanding the transition between extended (metallic) and localized (insulating) states in disordered and quasiperiodic systems. Here we explore the impact of dissipation on a quasiperiodic system featuring MEs by calculating steady-state density matrix and analyzing quench dynamics with sudden introduction of dissipation, and demonstrate that dissipation can lead the system into specific states predominantly characterized by either extended or localized states, irrespective of the initial state. Our results establish the use of dissipation as a new avenue for inducing transitions between extended and localized states, and for manipulating dynamic behaviors of particles.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-22
# SAM-CLIP:意味的・空間的理解に向けた視覚基礎モデルの融合

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding ( http://arxiv.org/abs/2310.15308v3 )

ライセンス: Link先を確認
Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari, (参考訳) CLIP や Segment Anything Model (SAM) など,一般公開されたビジョンファウンデーションモデル (VFM) の展望は急速に拡大している。 VFMには、訓練済みの目標から派生した、異なる能力が与えられている。 例えば、CLIPはセグメンテーションの空間的理解に特化しているのに対し、SAMはセグメンテーションの空間的理解に特化している。 本研究では,VFMを効率よく統合したモデルにマージする簡単なレシピを提案する。 本手法は,マルチタスク学習,連続学習,蒸留技術を統合する。 さらに、スクラッチから行う従来のマルチタスクトレーニングに比べて計算コストが大幅に削減され、個々のモデルのトレーニングに使用された事前トレーニングデータセットのごく一部しか必要としない。 本手法をSAMおよびCLIPに適用することにより,SAMとCLIPの機能を組み合わせた一元モデルであるSAM-CLIPを単一視覚変換器に適用する。 SAMとCLIPを独立してデプロイするのに対し、SAM-CLIPという統合モデルでは、推論のストレージと計算コストを削減し、エッジデバイスアプリケーションに適しています。 SAM-CLIPはSAMとCLIPの基礎的強みを保っているだけでなく、特にゼロショットセマンティックセマンティックセグメンテーションにおいて相乗的機能を導入し、SAM-CLIPは5つのベンチマークで新しい最先端結果を確立している。 6.8%、+5.9%はPascal-VOCとCOCO-StuffのデータセットのIoUの改善を意味している。

The landscape of publicly available vision foundation models (VFMs), such as CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed with distinct capabilities stemming from their pre-training objectives. For instance, CLIP excels in semantic understanding, while SAM specializes in spatial understanding for segmentation. In this work, we introduce a simple recipe to efficiently merge VFMs into a unified model that absorbs their expertise. Our method integrates techniques of multi-task learning, continual learning, and distillation. Further, it demands significantly less computational cost compared to traditional multi-task training from scratch, and it only needs a small fraction of the pre-training datasets that were initially used to train individual models. By applying our method to SAM and CLIP, we obtain SAM-CLIP: a unified model that combines the capabilities of SAM and CLIP into a single vision transformer. Compared with deploying SAM and CLIP independently, our merged model, SAM-CLIP, reduces storage and compute costs for inference, making it well-suited for edge device applications. We show that SAM-CLIP not only retains the foundational strengths of SAM and CLIP, but also introduces synergistic functionalities, notably in zero-shot semantic segmentation, where SAM-CLIP establishes new state-of-the-art results on 5 benchmarks. It outperforms previous models that are specifically designed for this task by a large margin, including +6.8% and +5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.
翻訳日:2024-05-26 20:33:22 公開日:2024-05-22
# 雑音Werner-Holevoチャネルとその特性

The noisy Werner-Holevo channel and its properties ( http://arxiv.org/abs/2310.15353v7 )

ライセンス: Link先を確認
Shayan Roofeh, Vahid Karimipour, (参考訳) Werner-Holevo チャネル $\Lambda_{1} (\rho)=\frac{1}{2}(\text{tr}(\rho)I-\rho^T)$ への関心は主に、その抽象的な数学的性質に起因する。 このチャネルは, ランダムな角度によるランダムな方向の四重項状態の回転として実現可能であることを示す。 我々の修正は $\Lambda_x(\rho)=(1-x)\rho+x\Lambda_1(\rho)$ の形を取る。 したがって、量子処理タスクにおけるクォートリットの潜在的な使用と、多くの異なるプラットフォームでのそれらの実現の観点から、修正されたヴェルナー・ホーボチャネルは、分極チャネルがキュービットであるのと同じように、非常に単純で現実的なノイズモデルとして使用できる。 我々は、このチャネルを詳細に研究し、その様々な特性を導出する。 特に、最近提案されたフラグ拡張や他の手法を用いて、このチャネルの異なるキャパシティに対する解析的表現とバウンダリを導出する。 これらの導出において対称性の役割が明らかになる。 また、チャネル $\Lambda_x$ が反分解可能であり、したがって領域 $\frac{4}{7}\leq x\leq 1.$ において量子容量がゼロであることを厳格に証明する。

The interest in the Werner-Holevo channel $\Lambda_{1} (\rho)=\frac{1}{2}(\text{tr}(\rho)I-\rho^T)$ has been mainly due to its abstract mathematical properties. We show that in three dimensions and with a slight modification, this channel can be realized as the rotation of qutrit states in random directions by random angles. Our modification takes the form $\Lambda_x(\rho)=(1-x)\rho+x\Lambda_1(\rho)$. Therefore and in view of the potential use of qutrits in quantum processing tasks and their realization in many different platforms, the modified Werner-Holevo channel can be used as a very simple and realistic noise model, in the same way that the depolarizing channel is for qubits. We will make a detailed study of this channel and derive its various properties. In particular, we will use the recently proposed flag extension and other techniques to derive analytical expressions and bounds for the different capacities of this channel. The role of symmetry is revealed in these derivations. We also rigorously prove that the channel $\Lambda_x$ is anti-degradable and hence has zero quantum capacity, in the region $\frac{4}{7}\leq x\leq 1.$
翻訳日:2024-05-26 20:33:22 公開日:2024-05-22
# 急激な進展でAIのリスクを極端に管理する

Managing extreme AI risks amid rapid progress ( http://arxiv.org/abs/2310.17688v3 )

ライセンス: Link先を確認
Yoshua Bengio, Geoffrey Hinton, Andrew Yao, Dawn Song, Pieter Abbeel, Trevor Darrell, Yuval Noah Harari, Ya-Qin Zhang, Lan Xue, Shai Shalev-Shwartz, Gillian Hadfield, Jeff Clune, Tegan Maharaj, Frank Hutter, Atılım Güneş Baydin, Sheila McIlraith, Qiqi Gao, Ashwin Acharya, David Krueger, Anca Dragan, Philip Torr, Stuart Russell, Daniel Kahneman, Jan Brauner, Sören Mindermann, (参考訳) 人工知能(AI)は急速に進歩しており、企業は自律的に行動し、目標を追求できる汎用AIシステムの開発に焦点を移している。 能力と自律性の向上は、すぐにAIの影響を大幅に増幅する可能性がある。大規模な社会的損害、悪意のある使用、自律AIシステムに対する人間のコントロールの不可逆的な喪失を含むリスクがある。 研究者たちは、AIからの極端なリスクについて警告してきたが、そのようなリスクがどのように発生し、どのように管理するかについては、合意が得られていない。 社会の反応は、有望な第一歩にもかかわらず、多くの専門家が期待する急激で変革的な進歩の可能性に不一致である。 AIの安全性研究は遅れている。 現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。 この短いコンセンサス論文では、今後の高度なAIシステムによる極端なリスクについて述べる。 他の安全クリティカルな技術から学んだ教訓に基づいて、我々は、より包括的な準備のために、技術研究と開発を積極的に適応的なガバナンスメカニズムと組み合わせた包括的な計画を概説する。

Artificial Intelligence (AI) is progressing rapidly, and companies are shifting their focus to developing generalist AI systems that can autonomously act and pursue goals. Increases in capabilities and autonomy may soon massively amplify AI's impact, with risks that include large-scale social harms, malicious uses, and an irreversible loss of human control over autonomous AI systems. Although researchers have warned of extreme risks from AI, there is a lack of consensus about how exactly such risks arise, and how to manage them. Society's response, despite promising first steps, is incommensurate with the possibility of rapid, transformative progress that is expected by many experts. AI safety research is lagging. Present governance initiatives lack the mechanisms and institutions to prevent misuse and recklessness, and barely address autonomous systems. In this short consensus paper, we describe extreme risks from upcoming, advanced AI systems. Drawing on lessons learned from other safety-critical technologies, we then outline a comprehensive plan combining technical research and development with proactive, adaptive governance mechanisms for a more commensurate preparation.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-22
# 命令制約付きブラックボックス最適化のための条件付き生成表現

Conditional Generative Representation for Black-Box Optimization with Implicit Constraints ( http://arxiv.org/abs/2310.18449v3 )

ライセンス: Link先を確認
Wenqian Xing, Jungho Lee, Chong Liu, Shixiang Zhu, (参考訳) ブラックボックス最適化(BBO)は、特に警察の地区化のような公共政策領域において、複雑な意思決定問題に対処するためにますます重要になっている。 しかし、公共政策におけるその広範な適用は、実現可能な地域を定義する複雑さと意思決定の高次元性によって妨げられている。 本稿では,CageBO(Conditional and Generative Black-box Optimization)と呼ばれる新しいBBOフレームワークを紹介する。 このアプローチは条件付き変分オートエンコーダを利用して、実現可能な決定の分布を学習し、元の決定空間と単純化された制約のない潜在空間との双方向マッピングを可能にする。 CageBOは、公共政策アプリケーションでよく見られる暗黙の制約を効果的に処理し、元の空間の目的を評価しながら、潜在空間における最適化を可能にする。 ジョージア州アトランタの大規模警察管区問題に対するケーススタディにより,本手法の有効性を検証した。 我々のCageBOは,ベースラインに比べて性能と効率が著しく向上していることが明らかとなった。

Black-box optimization (BBO) has become increasingly relevant for tackling complex decision-making problems, especially in public policy domains such as police districting. However, its broader application in public policymaking is hindered by the complexity of defining feasible regions and the high-dimensionality of decisions. This paper introduces a novel BBO framework, termed as the Conditional And Generative Black-box Optimization (CageBO). This approach leverages a conditional variational autoencoder to learn the distribution of feasible decisions, enabling a two-way mapping between the original decision space and a simplified, constraint-free latent space. The CageBO efficiently handles the implicit constraints often found in public policy applications, allowing for optimization in the latent space while evaluating objectives in the original space. We validate our method through a case study on large-scale police districting problems in Atlanta, Georgia. Our results reveal that our CageBO offers notable improvements in performance and efficiency compared to the baselines.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-22
# A Competitive Algorithm for Agnostic Active Learning

A Competitive Algorithm for Agnostic Active Learning ( http://arxiv.org/abs/2310.18786v3 )

ライセンス: Link先を確認
Eric Price, Yihan Zhou, (参考訳) いくつかの仮説クラスや入力分布では、能動非依存学習は受動的学習よりも指数関数的に少ないサンプルを必要とする。 最も一般的な能動学習アルゴリズムは、不一致係数と呼ばれるパラメータを用いてそれらの性能を表現するが、これらのアルゴリズムはいくつかの入力に対して非効率であることが知られている。 我々は、任意の二進仮説クラスに対して最適なアルゴリズムと競合するアルゴリズムを入手し、$D_X$ over $X$に対して異なるアプローチをとる。 特に、もしあるアルゴリズムが$O(\eta)$エラーを得るために$m^*$クエリを使用できるなら、我々のアルゴリズムは$O(m^* \log |H|)$クエリを使って$O(\eta)$エラーを得る。 我々のアルゴリズムは、Dasgupta [2004] の分割に基づくアプローチの静脈にある。 また、我々のアルゴリズムの$O(\log |H|)$オーバヘッドよりもNPハードでよいことを示す。

For some hypothesis classes and input distributions, active agnostic learning needs exponentially fewer samples than passive learning; for other classes and distributions, it offers little to no improvement. The most popular algorithms for agnostic active learning express their performance in terms of a parameter called the disagreement coefficient, but it is known that these algorithms are inefficient on some inputs. We take a different approach to agnostic active learning, getting an algorithm that is competitive with the optimal algorithm for any binary hypothesis class $H$ and distribution $D_X$ over $X$. In particular, if any algorithm can use $m^*$ queries to get $O(\eta)$ error, then our algorithm uses $O(m^* \log |H|)$ queries to get $O(\eta)$ error. Our algorithm lies in the vein of the splitting-based approach of Dasgupta [2004], which gets a similar result for the realizable ($\eta = 0$) setting. We also show that it is NP-hard to do better than our algorithm's $O(\log |H|)$ overhead in general.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-22
# Llama 2-Chat 70BにおけるLRA微調整の安全性向上

LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B ( http://arxiv.org/abs/2310.20624v2 )

ライセンス: Link先を確認
Simon Lermen, Charlie Rogers-Smith, Jeffrey Ladish, (参考訳) AI開発者は、AIシステムの誤用を防ぐために、安全アライメント手順を適用することが多い。 たとえば、MetaがLlama 2-Chatをリリースする前に、彼らは安全性トレーニングに多大な投資をし、人間のフィードバックから広範なレッドチームと強化学習を取り入れた。 本稿では,Llama 2-Chatの微調整による言語モデルの安全性トレーニングの堅牢性について検討する。 効率的な微調整法として量子化低ランク適応(LoRA)を用いる。 200ドル未満の予算でGPUを1つしか使わず,7B,13B,70BのLlama 2-Chatモデルの安全性トレーニングをMixtralインストラクションモデル上で実施することに成功しました。 特に,我々の微調整技術は,有害な指示に従うことを拒否する率を大幅に低下させる。 Llama 2-Chatモデルでは2つのリファレンスベンチマークで約1\%のリファレンス率を達成する。 同時に,本手法は2つの一般的な性能ベンチマークにまたがって機能を維持する。 逆微調整は実用的かつ効果的であることを示し、従って、微調整によるリスク評価は、モデル重みを解放するためのリスク評価の中核部分であるべきだと論じる。 現在のモデルからリスクの範囲についてかなりの不確実性があるが、将来のモデルははるかに危険な能力を持つだろう。

AI developers often apply safety alignment procedures to prevent the misuse of their AI systems. For example, before Meta released Llama 2-Chat - a collection of instruction fine-tuned large language models - they invested heavily in safety training, incorporating extensive red-teaming and reinforcement learning from human feedback. We explore the robustness of safety training in language models by subversively fine-tuning Llama 2-Chat. We employ quantized low-rank adaptation (LoRA) as an efficient fine-tuning method. With a budget of less than \$200 and using only one GPU, we successfully undo the safety training of Llama 2-Chat models of sizes 7B, 13B, and 70B and on the Mixtral instruct model. Specifically, our fine-tuning technique significantly reduces the rate at which the model refuses to follow harmful instructions. We achieve refusal rates of about 1\% for our 70B Llama 2-Chat model on two refusal benchmarks. Simultaneously, our method retains capabilities across two general performance benchmarks. We show that subversive fine-tuning is practical and effective, and hence argue that evaluating risks from fine-tuning should be a core part of risk assessments for releasing model weights. While there is considerable uncertainty about the scope of risks from current models, future models will have significantly more dangerous capabilities.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-22
# 埋込みダイアクロニックセンス変化モデルと古代ギリシアの事例研究

An Embedded Diachronic Sense Change Model with a Case Study from Ancient Greek ( http://arxiv.org/abs/2311.00541v3 )

ライセンス: Link先を確認
Schyan Zafar, Geoff K. Nicholls, (参考訳) 言葉の意味は時間とともに変化し、言葉感覚は進化し、その過程で出現し、あるいは消滅する。 コーパスが小さく疎い古代の言語では、このような変化を正確にモデル化することは困難であり、結果として感覚変化の推定の不確実性を定量化することが重要である。 GASC (Genre-Aware Semantic Change) と DiSC (Diachronic Sense Change) は、古代ギリシア語のテキストコーパスからターゲット語の変化を、事前学習の助けなしに教師なしの学習を用いて分析するために使用されている既存の生成モデルである。 これらのモデルは、「コズモス」(装飾、秩序、世界を意味する)のような特定の対象語の感覚を文脈語上の分布として表現し、感覚上の分布として有能さを知覚する。 モデルはマルコフ・チェイン・モンテカルロ法(MCMC)を用いてこれらの表現の時間的変化を測定する。 本稿では,単語埋め込みとDiSCを組み合わせた組込みDiSCモデルであるEDiSCを紹介し,優れたモデル性能を提供する。 EDiSCは、MCMC法によるサンプリング効率と拡張性の向上とともに、予測精度の向上、地道回復、不確実性定量化を提供する。 これらのモデルに適合する上での課題についても論じる。

Word meanings change over time, and word senses evolve, emerge or die out in the process. For ancient languages, where the corpora are often small and sparse, modelling such changes accurately proves challenging, and quantifying uncertainty in sense-change estimates consequently becomes important. GASC (Genre-Aware Semantic Change) and DiSC (Diachronic Sense Change) are existing generative models that have been used to analyse sense change for target words from an ancient Greek text corpus, using unsupervised learning without the help of any pre-training. These models represent the senses of a given target word such as ``kosmos'' (meaning decoration, order or world) as distributions over context words, and sense prevalence as a distribution over senses. The models are fitted using Markov Chain Monte Carlo (MCMC) methods to measure temporal changes in these representations. This paper introduces EDiSC, an Embedded DiSC model, which combines word embeddings with DiSC to provide superior model performance. It is shown empirically that EDiSC offers improved predictive accuracy, ground-truth recovery and uncertainty quantification, as well as better sampling efficiency and scalability properties with MCMC methods. The challenges of fitting these models are also discussed.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-22
# グラフ生成のための離散拡散モデルのスパーストレーニング

Sparse Training of Discrete Diffusion Models for Graph Generation ( http://arxiv.org/abs/2311.02142v2 )

ライセンス: Link先を確認
Yiming Qin, Clement Vignac, Pascal Frossard, (参考訳) 生成グラフモデルは、すべてのノードペア間のエッジの存在やタイプを予測する必要があるため、スケールするのに苦労する。 結果として生じる二次的複雑性に対処するため、既存のスケーラブルモデルはグラフ内のクラスタ構造のような制限的な仮定を課し、適用性を制限する。 これを解決するために,ほぼすべての大きなグラフがスパースであることを示す観察に基づく新しい拡散モデルであるSparseDiffを紹介する。 エッジのサブセットを選択することで、SparseDiffは、ノイズ発生過程とデノナイジングネットワークの両方においてスパースグラフ表現を効果的に活用し、空間複雑性が選択されたエッジの数と線形にスケールすることを保証する。 推論中、SparseDiffは徐々にエッジの選択したサブセットで隣接行列を埋め、トレーニングプロセスを反映する。 提案モデルでは,小規模・大規模両方のデータセットにおいて,複数の測定値にまたがる最先端性能を実証し,その有効性と,さまざまなグラフサイズでの堅牢性を確認した。 また、特に大きなグラフにおいて、より高速な収束を保証し、高密度のモデルに比べて大きなEgoデータセットで4倍のスピードアップを実現し、より広範なアプリケーションへの道を開く。

Generative graph models struggle to scale due to the need to predict the existence or type of edges between all node pairs. To address the resulting quadratic complexity, existing scalable models often impose restrictive assumptions such as a cluster structure within graphs, thus limiting their applicability. To address this, we introduce SparseDiff, a novel diffusion model based on the observation that almost all large graphs are sparse. By selecting a subset of edges, SparseDiff effectively leverages sparse graph representations both during the noising process and within the denoising network, which ensures that space complexity scales linearly with the number of chosen edges. During inference, SparseDiff progressively fills the adjacency matrix with the selected subsets of edges, mirroring the training process. Our model demonstrates state-of-the-art performance across multiple metrics on both small and large datasets, confirming its effectiveness and robustness across varying graph sizes. It also ensures faster convergence, particularly on larger graphs, achieving a fourfold speedup on the large Ego dataset compared to dense models, thereby paving the way for broader applications.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-22
# AGIへの道の歩みを運用するためのAGIのレベル

Levels of AGI for Operationalizing Progress on the Path to AGI ( http://arxiv.org/abs/2311.02462v3 )

ライセンス: Link先を確認
Meredith Ringel Morris, Jascha Sohl-dickstein, Noah Fiedel, Tris Warkentin, Allan Dafoe, Aleksandra Faust, Clement Farabet, Shane Legg, (参考訳) 本稿では,人工知能(AGI)モデルとその前駆体の性能と動作を分類する枠組みを提案する。 このフレームワークは、AGIのパフォーマンス、一般性、自律性のレベルを導入し、モデルを比較し、リスクを評価し、AGIへの道筋に沿って進捗を測定する共通の言語を提供する。 フレームワークを開発するために、既存のAGIの定義を分析し、AGIにとって有用なオントロジーが満たすべき6つの原則を抽出する。 これらの原則を念頭において、我々は「AGIのレベル」の深さ(性能)と広さ(一般性)の能力に基づいて提案し、現在のシステムがこのオントロジーにどのように適合するかを反映する。 これらのレベルに対してAGIモデルの振る舞いと能力を定量化する将来のベンチマークの課題について論じる。 最後に、これらのAGIのレベルが自律性やリスクといったデプロイメント上の考慮事項とどのように相互作用するかについて議論し、高機能なAIシステムの責任と安全なデプロイメントにおいて、ヒューマン・AIインタラクションパラダイムを慎重に選択することの重要性を強調します。

We propose a framework for classifying the capabilities and behavior of Artificial General Intelligence (AGI) models and their precursors. This framework introduces levels of AGI performance, generality, and autonomy, providing a common language to compare models, assess risks, and measure progress along the path to AGI. To develop our framework, we analyze existing definitions of AGI, and distill six principles that a useful ontology for AGI should satisfy. With these principles in mind, we propose "Levels of AGI" based on depth (performance) and breadth (generality) of capabilities, and reflect on how current systems fit into this ontology. We discuss the challenging requirements for future benchmarks that quantify the behavior and capabilities of AGI models against these levels. Finally, we discuss how these levels of AGI interact with deployment considerations such as autonomy and risk, and emphasize the importance of carefully selecting Human-AI Interaction paradigms for responsible and safe deployment of highly capable AI systems.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-22
# マルチリワード蒸留による自給自給自足装置の試作

Tailoring Self-Rationalizers with Multi-Reward Distillation ( http://arxiv.org/abs/2311.02805v2 )

ライセンス: Link先を確認
Sahana Ramnath, Brihi Joshi, Skyler Hallinan, Ximing Lu, Liunian Harold Li, Aaron Chan, Jack Hessel, Yejin Choi, Xiang Ren, (参考訳) 大規模言語モデル(LM)は、質問応答を支援する自由テキスト論理を生成することができる。 しかし、前作 1) 有用な自己合理化は,大きなスケール(例えば,175Bパラメータ GPT-3)でのみ出現することが示唆される。 2) 主に下流のパフォーマンスに焦点を合わせ、理性自体の意味を無視する、例えば、それらが人間に忠実で、真実で、役に立つか? 本研究では,小型のLM(GPT-3より200倍小さい)を,下流タスク性能の向上だけでなく,より信頼性が高く,一貫性があり,多様であり,自動評価と人的評価の両方によって評価される合理性を生成する。 提案手法であるMaRio (Multi-rewArd RatIOnalization) は,確率性,多様性,整合性など,複数の異なる特性を最適化するマルチリワード条件付き自己有理化アルゴリズムである。 StrategyQA, QuaRel, OpenBookQA, NumerSense, QASCの5つの難しい質問回答データセットの結果から, MaRioはタスクの精度を向上するだけでなく,上述したような細調整(SFT)ベースラインよりも,小さなLMの自己調整品質を向上することが示された。 広範囲な人間の評価では、MaRioの合理性はSFTの合理性よりも好ましく、妥当性と一貫性の質的な改善も確認されている。

Large language models (LMs) are capable of generating free-text rationales to aid question answering. However, prior work 1) suggests that useful self-rationalization is emergent only at significant scales (e.g., 175B parameter GPT-3); and 2) focuses largely on downstream performance, ignoring the semantics of the rationales themselves, e.g., are they faithful, true, and helpful for humans? In this work, we enable small-scale LMs (approx. 200x smaller than GPT-3) to generate rationales that not only improve downstream task performance, but are also more plausible, consistent, and diverse, assessed both by automatic and human evaluation. Our method, MaRio (Multi-rewArd RatIOnalization), is a multi-reward conditioned self-rationalization algorithm that optimizes multiple distinct properties like plausibility, diversity and consistency. Results on five difficult question-answering datasets StrategyQA, QuaRel, OpenBookQA, NumerSense and QASC show that not only does MaRio improve task accuracy, but it also improves the self-rationalization quality of small LMs across the aforementioned axes better than a supervised fine-tuning (SFT) baseline. Extensive human evaluations confirm that MaRio rationales are preferred vs. SFT rationales, as well as qualitative improvements in plausibility and consistency.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-22
# 信号処理とSGD: モーメントからフィルタへ

Signal Processing Meets SGD: From Momentum to Filter ( http://arxiv.org/abs/2311.02818v5 )

ライセンス: Link先を確認
Zhipeng Yao, Guiyuan Fu, Ying Li, Yu Zhang, Dazhou Li, Rui Yu, (参考訳) 深層学習において、確率勾配降下(SGD)とその運動量に基づく変種は最適化に広く用いられているが、典型的には収束が遅い。 逆に、既存の適応学習率最適化器は収束を高速化するが、しばしば一般化を損なう。 そこで本研究では,一般化を犠牲にすることなく,SGDの収束を高速化する新たな最適化手法を提案する。 提案手法は, 歴史的勾配のばらつきを低減し, Wienerフィルタ理論を適用してSGDの1次モーメント推定を改善し, 時変適応ゲインを導入する。 実験結果から,SGDF (SGD with Filter) はコンバージェンスと一般化のバランスを,最先端のオプティマイザと比較して効果的に表している。

In deep learning, stochastic gradient descent (SGD) and its momentum-based variants are widely used for optimization, but they typically suffer from slow convergence. Conversely, existing adaptive learning rate optimizers speed up convergence but often compromise generalization. To resolve this issue, we propose a novel optimization method designed to accelerate SGD's convergence without sacrificing generalization. Our approach reduces the variance of the historical gradient, improves first-order moment estimation of SGD by applying Wiener filter theory, and introduces a time-varying adaptive gain. Empirical results demonstrate that SGDF (SGD with Filter) effectively balances convergence and generalization compared to state-of-the-art optimizers.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-22
# 宇宙機近接機とドッキングのための深ベイズ強化学習

Deep Bayesian Reinforcement Learning for Spacecraft Proximity Maneuvers and Docking ( http://arxiv.org/abs/2311.03680v2 )

ライセンス: Link先を確認
Desong Du, Naiming Qi, Yanfang Liu, Wei Pan, (参考訳) 自律型宇宙船の近接操作とドッキング(PMD)の追求において,安定性を保証する制御ポリシーを学習するための新しいベイズアクター批判強化学習アルゴリズムを導入する。 PMDタスクは、相対力学モデル、ドッキングコーン、コスト関数を反映したマルコフ決定プロセスとして定式化される。 リアプノフ理論の原理から、時間差分学習を制約付きガウス過程回帰問題として構成する。 この革新的なアプローチは、状態値関数をリアプノフ関数として表現し、ガウス過程と深層カーネル学習を活用する。 我々は、リャプノフに基づく安定性制約を統合しつつ、ポリシー勾配を解析的に計算する新しいベイズ二次政策最適化手法を開発した。 この統合は、宇宙飛行ミッションの厳格な安全要求を満たす上で重要である。 提案アルゴリズムは, 宇宙機搭載テストベッドで実験的に評価され, 目覚ましい性能と有望な性能を示す。

In the pursuit of autonomous spacecraft proximity maneuvers and docking(PMD), we introduce a novel Bayesian actor-critic reinforcement learning algorithm to learn a control policy with the stability guarantee. The PMD task is formulated as a Markov decision process that reflects the relative dynamic model, the docking cone and the cost function. Drawing from the principles of Lyapunov theory, we frame the temporal difference learning as a constrained Gaussian process regression problem. This innovative approach allows the state-value function to be expressed as a Lyapunov function, leveraging the Gaussian process and deep kernel learning. We develop a novel Bayesian quadrature policy optimization procedure to analytically compute the policy gradient while integrating Lyapunov-based stability constraints. This integration is pivotal in satisfying the rigorous safety demands of spaceflight missions. The proposed algorithm has been experimentally evaluated on a spacecraft air-bearing testbed and shows impressive and promising performance.
翻訳日:2024-05-26 20:23:38 公開日:2024-05-22
# 絶え間ないアクティブラーニングの学習

Learning to Learn for Few-shot Continual Active Learning ( http://arxiv.org/abs/2311.03732v3 )

ライセンス: Link先を確認
Stella Ho, Ming Liu, Shang Gao, Longxiang Gao, (参考訳) 継続的な学習は、新しいドメインで可塑性を示しながら、以前見たタスクを解く際の安定性を確保するために努力する。 CLの最近の進歩は、特にNLPドメインにおいて、主に教師付き学習環境に限られている。 本研究では,ラベル付きデータが不十分であり,ラベルなしデータが豊富だが,アノテーションの予算が限られている,数ショット連続型アクティブラーニング(CAL)について考察する。 本稿では,メタコンチネンタルアクティブラーニング(Meta-Continual Active Learning)を提案する。 この方法は、ラベルなしデータのプールから最も情報に富んだ例を順次選択し、性能を高めるためにラベルを要求する。 具体的には、メタラーニングと経験リプレイを用いて、タスク間の混乱と破滅的な忘れを解消する。 さらに、一般化を保証するためにテキスト拡張を取り入れます。 提案手法の有効性を検証するため,ベンチマークテキスト分類データセットの広範な実験を行い,数ショットCAL設定における様々なアクティブラーニング戦略の効果を解析した。 実験の結果, ランダムサンプリングは, 能動学習とメモリサンプル選択の既定手法として最適であることがわかった。

Continual learning strives to ensure stability in solving previously seen tasks while demonstrating plasticity in a novel domain. Recent advances in CL are mostly confined to a supervised learning setting, especially in NLP domain. In this work, we consider a few-shot continual active learning (CAL) setting where labeled data are inadequate, and unlabeled data are abundant but with a limited annotation budget. We propose a simple but efficient method, Meta-Continual Active Learning. This method sequentially selects the most informative examples from a pool of unlabeled data and requests labels to enhance performance. Specifically, we employ meta-learning and experience replay to address inter-task confusion and catastrophic forgetting. We further incorporate textual augmentations to ensure generalization. We conduct extensive experiments on benchmark text classification datasets to validate the effectiveness of the proposed method and analyze the effect of different active learning strategies in few-shot CAL setting. Our experimental results demonstrate that random sampling is the best default strategy for active learning and memory sample selection to solve few-shot CAL problems.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-22
# 広告ホック情報検索手法の評価

Evaluating Generative Ad Hoc Information Retrieval ( http://arxiv.org/abs/2311.04694v3 )

ライセンス: Link先を確認
Lukas Gienapp, Harrisen Scells, Niklas Deckers, Janek Bevendorff, Shuai Wang, Johannes Kiesel, Shahbaz Syed, Maik Fröbe, Guido Zuccon, Benno Stein, Matthias Hagen, Martin Potthast, (参考訳) 大規模言語モデルにおける最近の進歩は、実行可能な生成検索システムの開発を可能にしている。 従来の文書ランキングの代わりに、生成検索システムは、クエリに対する応答として、しばしば接地された生成されたテキストを直接返します。 このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。 しかし、ランキングベースのアドホック検索のための確立された評価手法は、生成した応答の信頼性と再現性には適していない。 情報検索と自然言語処理の分野から関連文献を調査し,生成検索における検索タスクとシステムアーキテクチャを特定し,新しいユーザモデルを構築し,その運用について検討する。

Recent advances in large language models have enabled the development of viable generative retrieval systems. Instead of a traditional document ranking, generative retrieval systems often directly return a grounded generated text as a response to a query. Quantifying the utility of the textual responses is essential for appropriately evaluating such generative ad hoc retrieval. Yet, the established evaluation methodology for ranking-based ad hoc retrieval is not suited for the reliable and reproducible evaluation of generated responses. To lay a foundation for developing new evaluation methods for generative retrieval systems, we survey the relevant literature from the fields of information retrieval and natural language processing, identify search tasks and system architectures in generative retrieval, develop a new user model, and study its operationalization.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-22
# マルチモーダルレコメンデーションのためのコンテンツと構造の部分的特徴としてのID埋め込み

ID Embedding as Subtle Features of Content and Structure for Multimodal Recommendation ( http://arxiv.org/abs/2311.05956v2 )

ライセンス: Link先を確認
Yuting Liu, Enneng Yang, Yizhou Dang, Guibing Guo, Qiang Liu, Yuliang Liang, Linying Jiang, Xingwei Wang, (参考訳) マルチモーダルレコメンデーションは,マルチメディアコンテンツの関与を包括的にモデル化し,効果的なレコメンデーションを実現することを目的としている。 既存の研究では、(ユーザとアイテムの)ID埋め込みとマルチモーダルな有能な特徴を組み合わせ、IDの価値を示すレコメンデーションパフォーマンスが有益であることが示されている。 しかし、文学における特徴的意味論の観点から、ID埋め込みの徹底的な分析が欠如している。 本稿では,多モーダルなレコメンデーションのためのID埋め込みの価値を再考し,そのセマンティクスに関する徹底的な研究を行い,これを「emph{content}」と「emph{structure}」の微妙な特徴として認識する。 そこで本研究では,ID埋め込みを取り入れた新しいレコメンデーションモデルを提案する。 具体的には、コンテンツ表現を強化するために、モダリティ融合とコントラスト学習を組み合わせたID埋め込みを組み込む階層的な注意機構を提案する。 一方,アマルガメート近傍へのモダリティと構造表現改善のためのID埋め込みのための軽量グラフ畳み込みネットワークを提案する。 最後に、コンテンツと構造表現を組み合わせて、推奨のための究極のアイテム埋め込みを形成する。 実世界の3つのデータセット(Baby, Sports, Clothing)に対する大規模な実験により,最先端のマルチモーダルレコメンデーション手法よりも提案手法が優れていること,さらに詳細なID埋め込みの有効性が示された。 私たちのコードはhttps://anonymous.4open.science/r/IDSF-code/で利用可能です。

Multimodal recommendation aims to model user and item representations comprehensively with the involvement of multimedia content for effective recommendations. Existing research has shown that it is beneficial for recommendation performance to combine (user- and item-) ID embeddings with multimodal salient features, indicating the value of IDs. However, there is a lack of a thorough analysis of the ID embeddings in terms of feature semantics in the literature. In this paper, we revisit the value of ID embeddings for multimodal recommendation and conduct a thorough study regarding its semantics, which we recognize as subtle features of \emph{content} and \emph{structure}. Based on our findings, we propose a novel recommendation model by incorporating ID embeddings to enhance the salient features of both content and structure. Specifically, we put forward a hierarchical attention mechanism to incorporate ID embeddings in modality fusing, coupled with contrastive learning, to enhance content representations. Meanwhile, we propose a lightweight graph convolution network for each modality to amalgamate neighborhood and ID embeddings for improving structural representations. Finally, the content and structure representations are combined to form the ultimate item embedding for recommendation. Extensive experiments on three real-world datasets (Baby, Sports, and Clothing) demonstrate the superiority of our method over state-of-the-art multimodal recommendation methods and the effectiveness of fine-grained ID embeddings. Our code is available at https://anonymous.4open.science/r/IDSF-code/.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-22
# SynthEnsemble: マルチラベル胸部X線分類のためのCNN, 視覚変換器, ハイブリッドモデルの融合

SynthEnsemble: A Fusion of CNN, Vision Transformer, and Hybrid Models for Multi-Label Chest X-Ray Classification ( http://arxiv.org/abs/2311.07750v3 )

ライセンス: Link先を確認
S. M. Nabil Ashraf, Md. Adyelullahil Mamun, Hasnat Md. Abdullah, Md. Golam Rabiul Alam, (参考訳) 胸部X線は胸部疾患の診断に広く用いられているが、これらの異常に関する詳細な情報がないため、早期発見や治療に欠かせない正確な自動診断システムの開発が困難である。 この課題に対処するため,異なる疾患に対応する胸部X線パターンの同定にディープラーニングを用いた。 我々は,CNN,トランスフォーマー,ハイブリッド(CNN+Transformer)モデル,古典モデルを用いて,"ChestX-ray14"データセットの実験を行った。 最高の個人モデルはCoAtNetで、受信機の動作特性曲線(AUROC)の84.2%の領域を達成した。 重み付き平均アンサンブルを用いて、各モデルの重みが微分進化によって決定される全ての訓練モデルの予測を組み合わせることにより、AUROCを85.4%に改善し、この分野における他の最先端手法よりも優れていた。 胸部X線による胸部疾患の自動診断の精度を向上させるため,深層学習,特にアンサンブル深層学習の可能性が示唆された。 code available at:https://github.com/syednabilashraf/SynthEnsemble

Chest X-rays are widely used to diagnose thoracic diseases, but the lack of detailed information about these abnormalities makes it challenging to develop accurate automated diagnosis systems, which is crucial for early detection and effective treatment. To address this challenge, we employed deep learning techniques to identify patterns in chest X-rays that correspond to different diseases. We conducted experiments on the "ChestX-ray14" dataset using various pre-trained CNNs, transformers, hybrid(CNN+Transformer) models and classical models. The best individual model was the CoAtNet, which achieved an area under the receiver operating characteristic curve (AUROC) of 84.2%. By combining the predictions of all trained models using a weighted average ensemble where the weight of each model was determined using differential evolution, we further improved the AUROC to 85.4%, outperforming other state-of-the-art methods in this field. Our findings demonstrate the potential of deep learning techniques, particularly ensemble deep learning, for improving the accuracy of automatic diagnosis of thoracic diseases from chest X-rays. Code available at:https://github.com/syednabilashraf/SynthEnsemble
翻訳日:2024-05-26 20:13:50 公開日:2024-05-22
# 自分専用のKG: ゼロショットKGQAのための自己監督型プログラム合成

Bring Your Own KG: Self-Supervised Program Synthesis for Zero-Shot KGQA ( http://arxiv.org/abs/2311.07850v2 )

ライセンス: Link先を確認
Dhruv Agarwal, Rajarshi Das, Sopan Khosla, Rashmi Gangadharaiah, (参考訳) 我々は、あらゆる知識グラフ(KG)で操作できる普遍的な質問応答(QA)システムであるBYOKGを紹介し、人間による注釈付きトレーニングデータを必要としず、現在のKGQAシステムではスコープ外である属性(属性)を1日以内に使用することができる。 ByOKGは、ランダムなノードから始まり、隣接するノードとエッジのラベルを検査し、それらを以前の世界の知識と組み合わせることで、目に見えないKGに存在する情報を理解するという、人間の驚くべき能力からインスピレーションを得ている。 BYOKGでは、LLMが支援するシンボリックエージェントを利用して、様々なクエリプログラムの例えを生成する。 BYOKGは、小規模グラフと大規模グラフの両方に対して有効であり、それぞれGrailQA と MetaQA のゼロショットベースラインである 27.89 と 58.02 F1 に対して、QA の精度が劇的に向上している。 GrailQAでは、教師なしのBYOKGが教師付きインコンテキスト学習法より優れており、探索の有効性が示されている。 最後に、BYOKGの性能は、基礎LLMの改善とともに、継続的な探索により確実に向上し、特にGrailQAのサブサンプリングゼロショットスプリットにおいて、7.08F1の最先端の微調整モデルよりも優れていた。

We present BYOKG, a universal question-answering (QA) system that can operate on any knowledge graph (KG), requires no human-annotated training data, and can be ready to use within a day -- attributes that are out-of-scope for current KGQA systems. BYOKG draws inspiration from the remarkable ability of humans to comprehend information present in an unseen KG through exploration -- starting at random nodes, inspecting the labels of adjacent nodes and edges, and combining them with their prior world knowledge. In BYOKG, exploration leverages an LLM-backed symbolic agent that generates a diverse set of query-program exemplars, which are then used to ground a retrieval-augmented reasoning procedure to predict programs for arbitrary questions. BYOKG is effective over both small- and large-scale graphs, showing dramatic gains in QA accuracy over a zero-shot baseline of 27.89 and 58.02 F1 on GrailQA and MetaQA, respectively. On GrailQA, we further show that our unsupervised BYOKG outperforms a supervised in-context learning method, demonstrating the effectiveness of exploration. Lastly, we find that performance of BYOKG reliably improves with continued exploration as well as improvements in the base LLM, notably outperforming a state-of-the-art fine-tuned model by 7.08 F1 on a sub-sampled zero-shot split of GrailQA.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-22
# エッジラベリングを用いたアクティブラーニングのためのバッチ選択とコミュニケーション

Batch Selection and Communication for Active Learning with Edge Labeling ( http://arxiv.org/abs/2311.08053v4 )

ライセンス: Link先を確認
Victor Croisfelt, Shashi Raj Pandey, Osvaldo Simeone, Petar Popovski, (参考訳) 従来の再送信(ARQ)プロトコルは、受信機における個々の送信者のパケットの正しい受信を保証するために設計されている。 送信者が教師と通信する学習者である場合、この目標は、教師から最も関連性の高いラベル情報を抽出する学習者の実際の目的と相反する。 アクティブな学習の観点から、本論文は以下の重要なプロトコル設計問題に対処する。 (i)アクティブバッチ選択:どの入力を教師に送って最も有用な情報を取得し、必要な通信ラウンドの数を減らすべきか。 (ii)バッチエンコーディング:各通信ラウンドに必要な通信リソースを減らすために、データポイントのバッチを組み合わせることができるか? 具体的には,コミュニケーション制約付きベイズ能動知識蒸留(CC-BAKD)を導入し,線形混合機構を用いてベイズ能動学習と圧縮を統合した。 既存のアクティブラーニングプロトコルとの比較は,提案手法の利点を示している。

Conventional retransmission (ARQ) protocols are designed with the goal of ensuring the correct reception of all the individual transmitter's packets at the receiver. When the transmitter is a learner communicating with a teacher, this goal is at odds with the actual aim of the learner, which is that of eliciting the most relevant label information from the teacher. Taking an active learning perspective, this paper addresses the following key protocol design questions: (i) Active batch selection: Which batch of inputs should be sent to the teacher to acquire the most useful information and thus reduce the number of required communication rounds? (ii) Batch encoding: Can batches of data points be combined to reduce the communication resources required at each communication round? Specifically, this work introduces Communication-Constrained Bayesian Active Knowledge Distillation (CC-BAKD), a novel protocol that integrates Bayesian active learning with compression via a linear mix-up mechanism. Comparisons with existing active learning protocols demonstrate the advantages of the proposed approach.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-22
# ユーザモデリングのスケーリング: メタにおける広告パーソナライズのための大規模オンラインユーザ表現

Scaling User Modeling: Large-scale Online User Representations for Ads Personalization in Meta ( http://arxiv.org/abs/2311.09544v2 )

ライセンス: Link先を確認
Wei Zhang, Dai Li, Chen Liang, Fang Zhou, Zhongke Zhang, Xuewei Wang, Ru Li, Yi Zhou, Yaning Huang, Dong Liang, Kai Wang, Zhangyuan Wang, Zhengxing Chen, Fenggang Wu, Minghai Chen, Huayu Li, Yunnan Wu, Zhan Shu, Mindi Yuan, Sri Reddy, (参考訳) 効果的なユーザー表現はパーソナライズされた広告において重要である。 しかしながら、トレーニングスループット、サービスレイテンシ、メモリに対する厳しい制約は、しばしばオンライン広告ランキングモデルの複雑さと入力機能セットを制限する。 この課題はMeta'sのような広範囲なシステムで拡大され、多様な仕様を持つ数百のモデルが含まれており、各モデルの非現実的なユーザ表現学習の調整を図っている。 これらの課題に対処するため、数百の広告モデルにわたるオンラインユーザ表現の効率的かつスケーラブルな共有を容易にするために、Metaの広告ランキングシステムに広くデプロイされているフレームワークであるScaling User Modeling (SUM)を紹介した。 SUMはいくつかの指定された上流ユーザーモデルを活用し、高度なモデリング技術を用いて大量のユーザー機能からユーザー埋め込みを合成する。 これらの埋め込みは、下流のオンライン広告ランキングモデルの入力として機能し、効率的な表現共有を促進する。 SUM Online Asynchronous Platform(SOAP)は,ユーザモデルの頻繁な更新とユーザ要求に対するユーザの埋め込みのオンライン推論を可能にするモデル更新と組込み安定化を補完する,遅延のないオンラインサービスシステムである。 我々は、SUMフレームワークのハンズオンデプロイメント経験を共有し、包括的な実験を通じてその優位性を検証する。 これまで、SUMはMetaの数百の広告ランキングモデルでローンチされ、毎日数十億のユーザーリクエストを処理し、オンラインのメトリックが大幅に向上し、インフラの効率が向上した。

Effective user representations are pivotal in personalized advertising. However, stringent constraints on training throughput, serving latency, and memory, often limit the complexity and input feature set of online ads ranking models. This challenge is magnified in extensive systems like Meta's, which encompass hundreds of models with diverse specifications, rendering the tailoring of user representation learning for each model impractical. To address these challenges, we present Scaling User Modeling (SUM), a framework widely deployed in Meta's ads ranking system, designed to facilitate efficient and scalable sharing of online user representation across hundreds of ads models. SUM leverages a few designated upstream user models to synthesize user embeddings from massive amounts of user features with advanced modeling techniques. These embeddings then serve as inputs to downstream online ads ranking models, promoting efficient representation sharing. To adapt to the dynamic nature of user features and ensure embedding freshness, we designed SUM Online Asynchronous Platform (SOAP), a latency free online serving system complemented with model freshness and embedding stabilization, which enables frequent user model updates and online inference of user embeddings upon each user request. We share our hands-on deployment experiences for the SUM framework and validate its superiority through comprehensive experiments. To date, SUM has been launched to hundreds of ads ranking models in Meta, processing hundreds of billions of user requests daily, yielding significant online metric gains and improved infrastructure efficiency.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-22
# Biarchetype Analysis: 極性に基づく観察と特徴の同時学習

Biarchetype analysis: simultaneous learning of observations and features based on extremes ( http://arxiv.org/abs/2311.11153v2 )

ライセンス: Link先を確認
Aleix Alcacer, Irene Epifanio, Ximo Gual-Arnau, (参考訳) 本稿では,新しい探索手法であるバイアルキタイプ解析を導入し,考古学的特徴と観察的特徴を同時に識別する。 この革新的な教師なし機械学習ツールは、純粋なタイプのインスタンスやバイアルタイプのインスタンスを通じて観察と特徴を表現することを目的としており、観察と特徴の混在を具現化することによって容易に解釈できる。 さらに、観察と特徴はバイアルキタイプを混合したものとして表現され、データの構造が理解しやすくなっている。 両階層型解析を解くアルゴリズムを提案する。 この手法の主目的はクラスタリングではないが、双クラスタリング法、特に解釈可能性の観点からは、双階層型解析は双クラスタリング法よりも大きな利点をもたらすことが示されている。 これは、双鎖型が極端な例であるのに対し、双鎖型は本質的に人間の理解を増強する双鎖型によって生成される中心型であると考えられている。 さまざまな機械学習課題に対するbiarchetype分析の適用は、その価値を浮き彫りにしており、ソースコードとサンプルは、https://github.com/aleixalcacer/JA-BIAAで、RとPythonで容易にアクセス可能である。

We introduce a novel exploratory technique, termed biarchetype analysis, which extends archetype analysis to simultaneously identify archetypes of both observations and features. This innovative unsupervised machine learning tool aims to represent observations and features through instances of pure types, or biarchetypes, which are easily interpretable as they embody mixtures of observations and features. Furthermore, the observations and features are expressed as mixtures of the biarchetypes, which makes the structure of the data easier to understand. We propose an algorithm to solve biarchetype analysis. Although clustering is not the primary aim of this technique, biarchetype analysis is demonstrated to offer significant advantages over biclustering methods, particularly in terms of interpretability. This is attributed to biarchetypes being extreme instances, in contrast to the centroids produced by biclustering, which inherently enhances human comprehension. The application of biarchetype analysis across various machine learning challenges underscores its value, and both the source code and examples are readily accessible in R and Python at https://github.com/aleixalcacer/JA-BIAA.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-22
# 弱制御乳腺病変分節に対する CAM 誘導SAM の形態学的検討

Morphology-Enhanced CAM-Guided SAM for weakly supervised Breast Lesion Segmentation ( http://arxiv.org/abs/2311.11176v2 )

ライセンス: Link先を確認
Xin Yue, Xiaoling Liu, Qing Zhao, Jianqiang Li, Changwei Song, Suqin Liu, Zhikai Yang, Guanghui Fu, (参考訳) 乳がんの早期発見には超音波画像が重要な役割を担っている。 病変の正確な同定とセグメンテーションは、臨床実践において必須のステップであり、病変セグメンテーションにおいて医師を支援する方法が必要である。 しかし、教師付き学習に基づく超音波病変のセグメンテーションモデルでは、広範囲な手動ラベリングが必要となる。 そこで本研究では,早期乳房超音波画像における弱教師付き病変分割のための新しい枠組みを提案する。 本手法は,形態的拡張とクラスアクティベーションマップ(CAM)誘導局所化を用いた。 最後に,コンピュータビジョン基礎モデルであるSegment Anything Model (SAM) を用いて詳細なセグメンテーションを行う。 このアプローチはピクセルレベルのアノテーションを必要としないため、データアノテーションのコストが削減される。 本手法の性能は,手動のアノテーションを必要とする教師あり学習法に匹敵し,74.39%のDiceスコアを達成し,BUSIデータセットのハウスドルフ距離において比較教師ありモデルよりも優れている。 これらの結果から,本フレームワークはSAMと弱教師付き学習を効果的に統合し,乳がん画像解析に有効であることが示された。 この研究のコードは、https://github.com/YueXin18/MorSeg-CAM-SAMで公開されている。

Ultrasound imaging plays a critical role in the early detection of breast cancer. Accurate identification and segmentation of lesions are essential steps in clinical practice, requiring methods to assist physicians in lesion segmentation. However, ultrasound lesion segmentation models based on supervised learning require extensive manual labeling, which is both time-consuming and labor-intensive. In this study, we present a novel framework for weakly supervised lesion segmentation in early breast ultrasound images. Our method uses morphological enhancement and class activation map (CAM)-guided localization. Finally, we employ the Segment Anything Model (SAM), a computer vision foundation model, for detailed segmentation. This approach does not require pixel-level annotation, thereby reducing the cost of data annotation. The performance of our method is comparable to supervised learning methods that require manual annotations, achieving a Dice score of 74.39% and outperforming comparative supervised models in terms of Hausdorff distance in the BUSI dataset. These results demonstrate that our framework effectively integrates weakly supervised learning with SAM, providing a promising solution for breast cancer image analysis. The code for this study is available at: https://github.com/YueXin18/MorSeg-CAM-SAM.
翻訳日:2024-05-26 20:13:50 公開日:2024-05-22
# FreeKD:Semantic Frequency Promptによる知識蒸留

FreeKD: Knowledge Distillation via Semantic Frequency Prompt ( http://arxiv.org/abs/2311.12079v2 )

ライセンス: Link先を確認
Yuan Zhang, Tao Huang, Jiaming Liu, Tao Jiang, Kuan Cheng, Shanghang Zhang, (参考訳) 知識蒸留(KD)は様々なタスクにうまく適用され、主流の手法は一般に、空間的模倣の損失を通じて学生モデルを強化する。 しかし、教師モデルの空間領域で引き起こされる連続的なダウンサンプリングは汚職の一種であり、学生がどの情報を模倣する必要があるかを分析するのを妨げ、精度が低下する。 劣化した特徴写像の根底にあるパターンをよりよく理解するために、我々は周波数領域に注意を移す。 周波数蒸留では、低周波帯は一般的だが最小の文脈を伝達し、ハイはより情報的だがノイズも導入する、という新しい課題に直面している。 周波数帯域内の各ピクセルは、その性能に等しく寄与するわけではない。 上記の問題に対処するために,(1)教師モデルに挿入された周波数プロンプトを提案し,微調整中に意味周波数コンテキストを吸収する。 2) 蒸留期間中, 周波数プロンプトにより, 種々の周波数帯において, それらの興味(PoIs) を局在させるために, 画素ワイドの周波数マスクが生成される。 さらに,高密度な予測タスクに対して位置認識型リレーショナル周波数損失を用い,高次空間拡張を学生モデルに提供する。 我々は、周波数蒸留における最適な位置化と範囲を決定するために、周波数知識蒸留法をFreeKDとして用いた。 大規模な実験では、FreeKDは密集予測タスクで空間ベースの蒸留法を一貫して上回るだけでなく(例えば、COCO2017ではRepPoints-R50で3.8AP、Cityscapesでは4.55mIoUで4.55mIoU)、学生により堅牢性を与える。 また,大規模視覚モデル(例えば,DINO,SAM)へのアプローチの一般化を検証した。

Knowledge distillation (KD) has been applied to various tasks successfully, and mainstream methods typically boost the student model via spatial imitation losses. However, the consecutive downsamplings induced in the spatial domain of teacher model is a type of corruption, hindering the student from analyzing what specific information needs to be imitated, which results in accuracy degradation. To better understand the underlying pattern of corrupted feature maps, we shift our attention to the frequency domain. During frequency distillation, we encounter a new challenge: the low-frequency bands convey general but minimal context, while the high are more informative but also introduce noise. Not each pixel within the frequency bands contributes equally to the performance. To address the above problem: (1) We propose the Frequency Prompt plugged into the teacher model, absorbing the semantic frequency context during finetuning. (2) During the distillation period, a pixel-wise frequency mask is generated via Frequency Prompt, to localize those pixel of interests (PoIs) in various frequency bands. Additionally, we employ a position-aware relational frequency loss for dense prediction tasks, delivering a high-order spatial enhancement to the student model. We dub our Frequency Knowledge Distillation method as FreeKD, which determines the optimal localization and extent for the frequency distillation. Extensive experiments demonstrate that FreeKD not only outperforms spatial-based distillation methods consistently on dense prediction tasks (e.g., FreeKD brings 3.8 AP gains for RepPoints-R50 on COCO2017 and 4.55 mIoU gains for PSPNet-R18 on Cityscapes), but also conveys more robustness to the student. Notably, we also validate the generalization of our approach on large-scale vision models (e.g., DINO and SAM).
翻訳日:2024-05-26 20:04:03 公開日:2024-05-22
# 数え切れない無限性:継承関数のニューラルネットワークモデルとその獲得

Understanding the Countably Infinite: Neural Network Models of the Successor Function and its Acquisition ( http://arxiv.org/abs/2311.15194v2 )

ライセンス: Link先を確認
Vima Gupta, Sashank Varma, (参考訳) 小学校に入ると、最初の50~100個の数字を記憶した数列から、後継関数を知り、数え切れないほど無限となる数列へと、数字の順序構造に対する理解が移行する。 本研究では,N in (0, 98) のペア (N, N+1) における後継関数を学習する2つのニューラルネットワークモデルの発達変化について検討する。 第1のモデルは入力と出力の値の1ホットエンコーディングを使用し、カウントリストを記憶する子供に対応し、第2のモデルはプレースバリューエンコーディングを使用し、番号を命名するための言語規則を学ぶ子供たちに対応する。 プレース・バリュー・モデルは、テンソル境界を越えた表現的類似性の低下を予測した。 テンソル境界を数えることは2次元空間におけるベクトル演算として理解でき、同じテンソル配置の数は線形に分離可能な方法で整理されるが、同じテンソル配置の数はグループ化される。 カリキュラム学習シミュレーションは, 発達期児の発達する数値環境において, より少ない数の表現が, より大きい数の表現が学習され始めれば, より鋭くなり続けることを示唆している。 これらのモデルは、リカレントアーキテクチャを使用して、後続関数の学習を超えて、より一般的に数え上げ過程をシミュレートし、数え切れないほどの無限を理解することが何を意味するのかをより深く理解するために、将来の作業のステージを設定した。

As children enter elementary school, their understanding of the ordinal structure of numbers transitions from a memorized count list of the first 50-100 numbers to knowing the successor function and understanding the countably infinite. We investigate this developmental change in two neural network models that learn the successor function on the pairs (N, N+1) for N in (0, 98). The first uses a one-hot encoding of the input and output values and corresponds to children memorizing a count list, while the second model uses a place-value encoding and corresponds to children learning the language rules for naming numbers. The place-value model showed a predicted drop in representational similarity across tens boundaries. Counting across a tens boundary can be understood as a vector operation in 2D space, where the numbers with the same tens place are organized in a linearly separable manner, whereas those with the same ones place are grouped together. A curriculum learning simulation shows that, in the expanding numerical environment of the developing child, representations of smaller numbers continue to be sharpened even as larger numbers begin to be learned. These models set the stage for future work using recurrent architectures to move beyond learning the successor function to simulating the counting process more generally, and point towards a deeper understanding of what it means to understand the countably infinite.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-22
# 不変量と同変量と量子グラフニューラルネットワークの比較

A Comparison Between Invariant and Equivariant Classical and Quantum Graph Neural Networks ( http://arxiv.org/abs/2311.18672v3 )

ライセンス: Link先を確認
Roy T. Forestano, Marçal Comajoan Cara, Gopal Ramesh Dahale, Zhongtian Dong, Sergei Gleyzer, Daniel Justice, Kyoungchul Kong, Tom Magorsch, Konstantin T. Matchev, Katia Matcheva, Eyup B. Unlu, (参考訳) 機械学習アルゴリズムは、CERN Large Hadron Collider (LHC)における高エネルギー粒子衝突による膨大な量のデータを理解するために、大きく依存している。 このような衝突イベントからのデータは自然にグラフ構造で表すことができる。 したがって、グラフニューラルネットワーク(GNN)のような深層幾何学的手法は、高エネルギー物理学における様々なデータ解析タスクに活用されている。 典型的なタスクはジェットタグであり、ジェットは異なる特徴とそれらの構成粒子間のエッジ接続を持つ点雲と見なされる。 LHC粒子データセットのサイズと複雑さの増大と、その分析に使用される計算モデルが、量子計算のようなより高速で効率的な計算パラダイムの開発を大いに動機付けている。 さらに、ディープネットワークの有効性とロバスト性を高めるために、不変入力と同変層を用いることで、データに存在する基本対称性を利用することができる。 本稿では,古典グラフニューラルネットワーク (GNN) と等変グラフニューラルネットワーク (EGNN) と,量子グラフニューラルネットワーク (QGNN) と等変量子グラフニューラルネットワーク (EQGNN) の相互比較を行った。 4つのアーキテクチャは、ジェットを開始するパルトンレベルの粒子を分類するためにバイナリ分類タスクでベンチマークされた。 AUCのスコアに基づいて、量子ネットワークは古典的ネットワークよりも優れていた。 しかし、実際に量子ネットワークの計算上の優位性を見るためには、量子技術とその関連APIのさらなる開発を待つ必要があるかもしれない。

Machine learning algorithms are heavily relied on to understand the vast amounts of data from high-energy particle collisions at the CERN Large Hadron Collider (LHC). The data from such collision events can naturally be represented with graph structures. Therefore, deep geometric methods, such as graph neural networks (GNNs), have been leveraged for various data analysis tasks in high-energy physics. One typical task is jet tagging, where jets are viewed as point clouds with distinct features and edge connections between their constituent particles. The increasing size and complexity of the LHC particle datasets, as well as the computational models used for their analysis, greatly motivate the development of alternative fast and efficient computational paradigms such as quantum computation. In addition, to enhance the validity and robustness of deep networks, one can leverage the fundamental symmetries present in the data through the use of invariant inputs and equivariant layers. In this paper, we perform a fair and comprehensive comparison between classical graph neural networks (GNNs) and equivariant graph neural networks (EGNNs) and their quantum counterparts: quantum graph neural networks (QGNNs) and equivariant quantum graph neural networks (EQGNN). The four architectures were benchmarked on a binary classification task to classify the parton-level particle initiating the jet. Based on their AUC scores, the quantum networks were shown to outperform the classical networks. However, seeing the computational advantage of the quantum networks in practice may have to wait for the further development of quantum technology and its associated APIs.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-22
# 翻訳不変系に対するサブシステム固有状態熱化仮説

Subsystem eigenstate thermalization hypothesis for translation invariant systems ( http://arxiv.org/abs/2312.00410v4 )

ライセンス: Link先を確認
Zhiqiang Huang, Xiao-Kan Guo, (参考訳) 翻訳不変量子スピン系の固有状態熱化仮説は、最近ランダム行列を用いて証明されている。 本稿では, ランダム行列を使わずに, 変換不変量子系に対する固有状態熱化仮説のサブシステムバージョンについて検討する。 まず、量子分散とBelavkin-Staszewski相対エントロピーの関係を見出す。 そして、量子分散とベラブキン・シュタゼフスキ相対エントロピーの小さな上限を示すことによって、基本的方法で収束の代数的速度を持つ変換不変量子系に対するサブシステム固有状態熱化仮説を証明した。 この証明は、指数的あるいは代数的な相関の崩壊を持つ変換不変量子格子モデルのほとんどに当てはまる。

The eigenstate thermalization hypothesis for translation invariant quantum spin systems has been proved recently by using random matrices. In this paper, we study the subsystem version of eigenstate thermalization hypothesis for translation invariant quantum systems without referring to random matrices. We first find a relation between the quantum variance and the Belavkin-Staszewski relative entropy. Then, by showing the small upper bounds on the quantum variance and the Belavkin-Staszewski relative entropy, we prove the subsystem eigenstate thermalization hypothesis for translation invariant quantum systems with an algebraic speed of convergence in an elementary way. The proof holds for most of the translation invariant quantum lattice models with exponential or algebraic decays of correlations.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-22
# ABIアプローチ:行動経済学のオントロジーに基づくリスク下での意思決定における自動バイアス識別

ABI Approach: Automatic Bias Identification in Decision-Making Under Risk based in an Ontology of Behavioral Economics ( http://arxiv.org/abs/2405.14067v1 )

ライセンス: Link先を確認
Eduardo da C. Ramos, Maria Luiza M. Campos, Fernanda Baião, (参考訳) 組織的な意思決定は成功には不可欠だが、認知バイアスはリスクの選好に大きく影響し、最適以下の結果をもたらす。 損失回避などのバイアスによって引き起こされる損失の優先を求めるリスクは、課題を引き起こし、財政的損失を含む重大なマイナスの結果をもたらす可能性がある。 本研究は,組織意思決定者を支援するための新たなソリューションであるABIアプローチを紹介する。 本研究は,行動経済学の累積プロスペクト理論(CPT)を用いて,リスク欲求の識別と説明を自動化することによって,新たな貢献を行う。 ABIのアプローチは理論的な洞察を行動可能でリアルタイムなガイダンスに変え、専門の要員を必要とせずに幅広い組織や意思決定者にアクセスできるようにする。 CPTの概念をビジネス言語にコンテキスト化することで、このアプローチは広く採用し、深い振る舞いの洞察を持って意思決定プロセスを強化する。 本研究の体系的な文献は,特にリスク探索選好を自動的に識別する具体的なメカニズムによる自動化ソリューションの欠如や,リスク選好を識別・説明するためのオントロジーなどの形式的知識表現の欠如など,既存手法の重大なギャップを指摘した。 ABIアプローチはこれらのギャップに対処し、意思決定の研究と実践に大きな貢献をする。 さらに、リスクを優先した過去の意思決定データの自動収集を可能にし、戦略的管理の強化と長期的組織的パフォーマンスのための貴重な洞察を提供する。 実験は、損失領域における意思決定において、意思決定者が優先権を求めるリスクを認識するのを支援するための、その効果に関する予備的な証拠を提供した。

Organizational decision-making is crucial for success, yet cognitive biases can significantly affect risk preferences, leading to suboptimal outcomes. Risk seeking preferences for losses, driven by biases such as loss aversion, pose challenges and can result in severe negative consequences, including financial losses. This research introduces the ABI approach, a novel solution designed to support organizational decision-makers by automatically identifying and explaining risk seeking preferences during decision-making. This research makes a novel contribution by automating the identification and explanation of risk seeking preferences using Cumulative Prospect theory (CPT) from Behavioral Economics. The ABI approach transforms theoretical insights into actionable, real-time guidance, making them accessible to a broader range of organizations and decision-makers without requiring specialized personnel. By contextualizing CPT concepts into business language, the approach facilitates widespread adoption and enhances decision-making processes with deep behavioral insights. Our systematic literature review identified significant gaps in existing methods, especially the lack of automated solutions with a concrete mechanism for automatically identifying risk seeking preferences, and the absence of formal knowledge representation, such as ontologies, for identifying and explaining the risk preferences. The ABI Approach addresses these gaps, offering a significant contribution to decision-making research and practice. Furthermore, it enables automatic collection of historical decision data with risk preferences, providing valuable insights for enhancing strategic management and long-term organizational performance. An experiment provided preliminary evidence on its effectiveness in helping decision-makers recognize their risk seeking preferences during decision-making in the loss domain.
翻訳日:2024-05-26 20:04:03 公開日:2024-05-22
# 十の創造力

Generative Powers of Ten ( http://arxiv.org/abs/2312.02149v2 )

ライセンス: Link先を確認
Xiaojuan Wang, Janne Kontkanen, Brian Curless, Steve Seitz, Ira Kemelmacher, Ben Mildenhall, Pratul Srinivasan, Dor Verbin, Aleksander Holynski, (参考訳) 本稿では,複数の画像スケールにまたがる一貫したコンテンツを生成するためにテキスト・ツー・イメージモデルを用いて,森林の広角な景観から,木の枝の1つに座る昆虫のマクロショットまで,シーンへの極端な意味的ズームを可能にする手法を提案する。 我々は,各サンプリングプロセスの整合性を維持しつつ,異なるスケールでの整合性を促進する共同多スケール拡散サンプリング手法によりこれを達成した。 生成した各スケールは異なるテキストプロンプトでガイドされるため、従来の超解像法よりも深いレベルのズームが可能であり、全く異なるスケールで新しいコンテキスト構造を作成するのに苦労する可能性がある。 我々は,画像の超解像・露光における代替手法と定性的に比較し,この手法が一貫したマルチスケールコンテンツを生成する上で最も有効であることを示す。

We present a method that uses a text-to-image model to generate consistent content across multiple image scales, enabling extreme semantic zooms into a scene, e.g., ranging from a wide-angle landscape view of a forest to a macro shot of an insect sitting on one of the tree branches. We achieve this through a joint multi-scale diffusion sampling approach that encourages consistency across different scales while preserving the integrity of each individual sampling process. Since each generated scale is guided by a different text prompt, our method enables deeper levels of zoom than traditional super-resolution methods that may struggle to create new contextual structure at vastly different scales. We compare our method qualitatively with alternative techniques in image super-resolution and outpainting, and show that our method is most effective at generating consistent multi-scale content.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-22
# 中本合意のセキュリティ・レイテンシ・アウトプットのトレードオフ

Trade-off of Security, Latency, and Throughput of the Nakamoto Consensus ( http://arxiv.org/abs/2312.05506v3 )

ライセンス: Link先を確認
Shu-Jie Cao, Dongning Guo, (参考訳) 本稿は,中本コンセンサス(中本コンセンサス)としても知られる,作業長鎖プロトコルのセキュリティ,レイテンシ,スループットの基本的なトレードオフを論じる。 取引の安全性を損なう可能性の新たな上限と下位境界は、正反対のマイニングレート、ブロック伝搬遅延の上限、およびトランザクション確認遅延の関数として、時間とブロック深さの両方で導出される。 その結果は、すべての遅延に適応する最初の閉形式有限レイテンシと、究極の耐故障性までマイニングレートを含む。 特に、Bitcoinと仕事の証明Ethereumに関連するほとんどのパラメータでは、上と下の境界の間のギャップは、以前文献で確立された最高のギャップよりも大幅に狭められている。 さらに,所望の耐障害性によって決定されるトランザクションスループットと確認遅延の基本的なトレードオフと,ブロックサイズの増加に伴うブロック伝搬遅延の増大を明らかにする。

This paper delves into the fundamental trade-off between security, latency, and throughput in proof-of-work longest-chain-wins protocols, also known as the Nakamoto consensus. New upper and lower bounds on the probability of violating transaction safety are derived as a function of honest and adversarial mining rates, an upper bound on block propagation delays, and transaction confirmation latency, both in time and in block depth. The results include a first closed-form finite-latency bound applicable to all delays and mining rates up to the ultimate fault tolerance. Notably, for most parameters relevant to Bitcoin and proof-of-work Ethereum, the gap between the upper and lower bounds is significantly narrower than the best gaps previously established in the literature. Furthermore, the paper reveals a fundamental trade-off between transaction throughput and confirmation latency, ultimately determined by the desired fault tolerance and the growth of block propagation delay as block size increases.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-22
# コヒーレント情報からの正確な最適量子誤差補正しきい値

Accurate optimal quantum error correction thresholds from coherent information ( http://arxiv.org/abs/2312.06664v2 )

ライセンス: Link先を確認
Luis Colmenarez, Ze-Min Huang, Sebastian Diehl, Markus Müller, (参考訳) 量子誤り訂正(QEC)符号は、誤り率が臨界誤差閾値以下である限り、量子情報をデコヒーレンスから保護する。 一般に、しきい値を取得することは、QEC手順をシミュレーションすることを意味し、一般に準最適復号法を用いる。 少数のケースと十分単純なノイズモデルでは、QEC符号の最適復号化は、乱れた古典スピンモデルにおける位相遷移として表すことができる。 どちらの状況においても、しきい値の正確な推定には集中的な計算資源が必要である。 ここでは、ノイズの多いQEC符号の混合状態のコヒーレントな情報を用いて、適度な計算コストで、既に小さな距離符号から、関連するQEC閾値を正確に推定する。 ビットフリップ・脱分極雑音下でトポロジカルサーフェスとカラーコードに優先して適用することで,本手法の有効性と汎用性を示す。 次に、コヒーレント情報に基づく手法を現象学的および量子回路レベルのノイズ設定に拡張する。 検討されたすべての例について,本論文で報告されている閾値値と密接に一致して,符号の小さな,低距離のインスタンスから最適誤差閾値の高精度な推定値を得る。 本研究は,現実的な雑音モデル下での最先端QEC符号の最適しきい値を計算するための信頼性の高い競争実践ツールとして,コヒーレント情報を確立した。

Quantum error correcting (QEC) codes protect quantum information from decoherence, as long as error rates fall below critical error thresholds. In general, obtaining thresholds implies simulating the QEC procedure using, in general, sub-optimal decoding strategies. In a few cases and for sufficiently simple noise models, optimal decoding of QEC codes can be framed as a phase transition in disordered classical spin models. In both situations, accurate estimation of thresholds demands intensive computational resources. Here we use the coherent information of the mixed state of noisy QEC codes to accurately estimate the associated optimal QEC thresholds already from small-distance codes at moderate computational cost. We show the effectiveness and versatility of our method by applying it first to the topological surface and color code under bit-flip and depolarizing noise. We then extend the coherent information based methodology to phenomenological and quantum circuit level noise settings. For all examples considered we obtain highly accurate estimates of optimal error thresholds from small, low-distance instances of the codes, in close accordance with threshold values reported in the literature. Our findings establish the coherent information as a reliable competitive practical tool for the calculation of optimal thresholds of state-of-the-art QEC codes under realistic noise models.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-22
# スパースおよび高次イジングマシンによるオール・ツー・オール再構成性

All-to-all reconfigurability with sparse and higher-order Ising machines ( http://arxiv.org/abs/2312.08748v2 )

ライセンス: Link先を確認
Srijan Nikhar, Sidharth Kannan, Navid Anjum Aadit, Shuvro Chowdhury, Kerem Y. Camsari, (参考訳) 計算的にハードな最適化問題を解決するためのドメイン固有ハードウェアは、最近非常に興奮している。 本稿では,Ising Machines (IM) や p- Computers に基づく確率ビット (p-bit) をベンチマーク組合せ最適化問題,すなわち 3 正規の 3-XOR Satisfiability (3R3X) を用いて評価する。 3R3X問題にはガラス状のエネルギー環境があり、近年は様々なIMやその他の解決器のベンチマークに使われている。 我々は、疎ネットワークで相互接続されているにもかかわらず、p-コンピュータが全(完全)グラフ機能をエミュレートする多重アーキテクチャを導入し、高度に並列化されたクロマティックギブズサンプリングを可能にした。 我々は,このアーキテクチャをFPGAに実装し,D-Wave,Toshiba,Fujitsuの代替IMに対して,GPU上で高速化されたグリージーアルゴリズムを除いて,強力な並列テンパリングアルゴリズムの適応バージョンを運用するpビットネットワークが,競合するアルゴリズムとプリファクタの優位性を示すことを示す。 さらに、FPGAにおける高次相互作用を用いてAPT結果を拡張し、高次相互作用はプレファクターの利点をもたらすが、XORSAT問題に対するアルゴリズム的なスケーリングの利点は示さず、オープンな予想を定めていることを示す。 FPGAによるpビットの実装は、GPUで実装された最良のグレディアルゴリズムほど高速ではないが、実験的に確立された予測によると、pコンピュータのスケールされた磁気バージョンは、そのようなアルゴリズムよりも桁違いに高速になる可能性がある。

Domain-specific hardware to solve computationally hard optimization problems has generated tremendous excitement recently. Here, we evaluate probabilistic bit (p-bit) based on Ising Machines (IM) or p-computers with a benchmark combinatorial optimization problem, namely the 3-regular 3-XOR Satisfiability (3R3X). The 3R3X problem has a glassy energy landscape, and it has recently been used to benchmark various IMs and other solvers. We introduce a multiplexed architecture where p-computers emulate all-to-all (complete) graph functionality despite being interconnected in sparse networks, enabling a highly parallelized chromatic Gibbs sampling. We implement this architecture in FPGAs and show that p-bit networks running an adaptive version of the powerful parallel tempering algorithm demonstrate competitive algorithmic and prefactor advantages over alternative IMs by D-Wave, Toshiba, and Fujitsu, except a greedy algorithm accelerated on a GPU. We further extend our APT results using higher-order interactions in FPGAs and show that while higher-order interactions lead to prefactor advantages, they do not show any algorithmic scaling advantages for the XORSAT problem, settling an open conjecture. Even though FPGA implementations of p-bits are still not quite as fast as the best possible greedy algorithms implemented in GPUs, scaled magnetic versions of p-computers could lead to orders of magnitude over such algorithms according to experimentally established projections.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-22
# MonoLSS: モノクロ3D検出のための学習可能なサンプル選択

MonoLSS: Learnable Sample Selection For Monocular 3D Detection ( http://arxiv.org/abs/2312.14474v2 )

ライセンス: Link先を確認
Zhenjia Li, Jinrang Jia, Yifeng Shi, (参考訳) 自律運転の分野では、1つのRGB画像における物体の3次元特性(深さ、寸法、方向)を推定する1つの重要なタスクである。 これまでの研究では、不適切な特徴が悪影響を及ぼす可能性を考慮せずに、3Dプロパティを学習するために、ヒューリスティックな方法で機能を使用した。 本稿では,3次元特性を回復させるために適切なサンプルのみを訓練すべきであることを示す。 サンプルを適応的に選択するために,Gumbel-Softmaxと相対距離サンプル分割器をベースとしたLearningable Sample Selection (LSS)モジュールを提案する。 LSSモジュールはウォームアップ戦略の下で動作し、トレーニングの安定性が向上する。 さらに、3Dプロパティのサンプル選択専用のLSSモジュールは、オブジェクトレベルの特徴に依存しているため、曖昧さを伴わずに画像の原理に適合した3Dプロパティのサンプルを濃縮するMixUp3Dというデータ拡張手法をさらに発展させる。 2つの直交法として、LSSモジュールとMixUp3Dは独立または共同で使用できる。 十分な実験により、それらの組み合わせが相乗効果をもたらし、個々の応用の単なる総和を超越する改善をもたらすことが示されている。 LSSモジュールとMixUp3Dを利用すると、余分なデータなしでMonoLSSというメソッドは、KITTIの3Dオブジェクト検出ベンチマークで3つのカテゴリ(Car, Cyclist, Pedestrian)で1位にランクされ、WaymoデータセットとKITTI-nuScenesのクロスデータセット評価で競合する結果が得られる。 コードは補助資料に含まれており、関連する学術・工業研究を促進するためにリリースされる。

In the field of autonomous driving, monocular 3D detection is a critical task which estimates 3D properties (depth, dimension, and orientation) of objects in a single RGB image. Previous works have used features in a heuristic way to learn 3D properties, without considering that inappropriate features could have adverse effects. In this paper, sample selection is introduced that only suitable samples should be trained to regress the 3D properties. To select samples adaptively, we propose a Learnable Sample Selection (LSS) module, which is based on Gumbel-Softmax and a relative-distance sample divider. The LSS module works under a warm-up strategy leading to an improvement in training stability. Additionally, since the LSS module dedicated to 3D property sample selection relies on object-level features, we further develop a data augmentation method named MixUp3D to enrich 3D property samples which conforms to imaging principles without introducing ambiguity. As two orthogonal methods, the LSS module and MixUp3D can be utilized independently or in conjunction. Sufficient experiments have shown that their combined use can lead to synergistic effects, yielding improvements that transcend the mere sum of their individual applications. Leveraging the LSS module and the MixUp3D, without any extra data, our method named MonoLSS ranks 1st in all three categories (Car, Cyclist, and Pedestrian) on KITTI 3D object detection benchmark, and achieves competitive results on both the Waymo dataset and KITTI-nuScenes cross-dataset evaluation. The code is included in the supplementary material and will be released to facilitate related academic and industrial studies.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-22
# 測定による圧縮フォック状態の生成

Generation of squeezed Fock states by measurement ( http://arxiv.org/abs/2312.14643v3 )

ライセンス: Link先を確認
S. B. Korolev, E. N. Bashmakova, A. K. Tagantsev, T. Yu. Golubeva, (参考訳) 2モードの絡み合ったガウス状態(TMEG)からの1つ以上の光子サブトラクションによる圧縮フォック状態の生成は理論的に対処される。 この方法で任意の順序Fock状態を生成することができ、TMEG状態のパラメータに課すべき条件が得られた。 我々はこの条件が満たされる体制を普遍的解決体制と呼んだ。 その結果, 任意のTMEG状態からの1光子サブトラクションにより, 第1圧縮Fock状態の生成が引き続き可能となるように, 上記条件は冗長であることがわかった。 同時に、最初の圧縮されたフォック状態生成の最大生成確率は、普遍解状態に対応する。 本研究では,ビームスプリッタと制御Z演算を用いた圧縮フォック状態の生成に関する記述に,上記の結果を適用した。 我々は、最大確率で圧縮されたフォック状態を得るのに必要な、そのようなセットアップと入力された圧縮状態のパラメータを推定した。

The generation of squeezed Fock states by the one or more photon subtraction from a two-mode entangled Gaussian (TMEG) state is theoretically addressed. We showed that an arbitrary order Fock state can be generated this way and we obtained a condition that should be imposed on the parameters of the TMEG state to guaranty such a generation. We called the regime, in which this condition is satisfied, universal solution regime. We showed that, for first squeezed Fock state, the above condition is redundant such that the generation of the first squeezed Fock state is still possible by a one photon subtraction from an arbitrary TMEG state. At the same time, the maximum generation probability of the first squeezed Fock state generation corresponds to the universal solution regime. We applied the above results to the description of generation of the squeezed Fock states using a beam splitter and a Controlled-Z operation. We have estimated the parameters of such setups and input squeezed states, which are necessary to obtain squeezed Fock states with the maximum probability.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-22
# グローバル情報融合による複数方向対応SARオブジェクト検出ネットワーク

Multi-scale direction-aware SAR object detection network via global information fusion ( http://arxiv.org/abs/2312.16943v3 )

ライセンス: Link先を確認
Mingxiang Cao, Weiying Xie, Jie Lei, Jiaqing Zhang, Daixun Li, Yunsong Li, (参考訳) ディープラーニングは、SAR(Synthetic Aperture Radar)画像を用いた物体検出において大きな進歩をもたらした。 既存の手法は、有望な結果を達成する一方で、ローカルおよびグローバルな情報、特に方向対応の機能の効果的な統合に苦慮することが多い。 本稿では,SARオブジェクト検出における方向認識情報のグローバルな融合を目的とした新しいフレームワークであるSAR-Netを提案する。 SAR-Netは、UCM(Unity Compensation Mechanism)とDAM(Direction-Aware Attention Module)という2つの重要なイノベーションを活用している。 UCMは、様々な規模の機能間の補完関係の確立を促進し、効率的なグローバル情報融合と伝達を可能にしている。 さらに、DAMは双方向の注意重合を通じて方向認識情報を捕捉し、背景干渉を効果的に除去する。 広範囲にわたる実験は、SAR-Netの有効性を実証し、航空機(SAR-AIRcraft-1.0)と船舶データセット(SSDD, HRSID)に対して最先端の結果を達成し、その一般化能力と堅牢性を確認した。

Deep learning has driven significant progress in object detection using Synthetic Aperture Radar (SAR) imagery. Existing methods, while achieving promising results, often struggle to effectively integrate local and global information, particularly direction-aware features. This paper proposes SAR-Net, a novel framework specifically designed for global fusion of direction-aware information in SAR object detection. SAR-Net leverages two key innovations: the Unity Compensation Mechanism (UCM) and the Direction-aware Attention Module (DAM). UCM facilitates the establishment of complementary relationships among features across different scales, enabling efficient global information fusion and transmission. Additionally, DAM, through bidirectional attention polymerization, captures direction-aware information, effectively eliminating background interference. Extensive experiments demonstrate the effectiveness of SAR-Net, achieving state-of-the-art results on aircraft (SAR-AIRcraft-1.0) and ship datasets (SSDD, HRSID), confirming its generalization capability and robustness.
翻訳日:2024-05-26 19:54:19 公開日:2024-05-22
# スワッピングフロケットタイムクリスタル

Swapping Floquet time crystal ( http://arxiv.org/abs/2312.17070v2 )

ライセンス: Link先を確認
Roberto Gargiulo, Gianluca Passarelli, Procolo Lucignano, Angelo Russomanno, (参考訳) 本研究では, 隣接するスピンカップルの周期的スワップを応用した, 乱れの相互作用する長距離スピンチェーンに基づくFloquet周期doubling time-crystalモデルを提案する。 このプロトコルは任意の局所スピン等級$s$ {および原理的に非スピン(フェルミオンまたはボゾン)局所ヒルベルト空間を持つ系にも適用することができる。 解析的および数値的手法を用いて、s = 1/2$ および $s = 1$ のケースを明示的に検討し、時間-結晶的挙動がパラメータの範囲に現れることを示す。 特に、周期双曲振動の持続性、フロケットスペクトルの時間-結晶特性(準エネルギー$\pi$-スペクトルペアリングとフレケット状態の長距離相関)について検討し、初期状態が周期双曲力学に何をもたらすかを評価するために量(局所不均衡)を導入する。 また,Floquetスペクトルが時間-結晶特性を示すものに対応して,系の熱化や持続周期の拡散が不可能なパラメータの間隔を,平均レベルの間隔比として検討した。

We propose a Floquet period-doubling time-crystal model based on a disordered interacting long-range spin chain where the periodic swapping of nearby spin couples is applied. This protocol can be applied to systems with any local spin magnitude $s$ {and in principle also to systems with nonspin (fermionic or bosonic) local Hilbert space}. We explicitly consider the cases $s = 1/2$ and $s = 1$, using analytical and numerical methods to show that the time-crystal behavior appears in a range of parameters. In particular, we study the persistence of period-doubling oscillations in time, the time-crystal properties of the Floquet spectrum (quasienergy $\pi$-spectral pairing and long-range correlations of the Floquet states), and introduce a quantity (the local imbalance) to assess what initial states give rise to a period-doubling dynamics. We also consider the average level spacing ratio and find that the interval of parameters where the system does not thermalize and persistent period-doubling is possible corresponds to the one where the Floquet spectrum shows time-crystal properties.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-22
# 冗長修復によるバックト旅団量子ランダムアクセスメモリの収量最大化

Maximizing the Yield of Bucket Brigade Quantum Random Access Memory using Redundancy Repair ( http://arxiv.org/abs/2312.17483v2 )

ライセンス: Link先を確認
Dongmin Kim, Sovanmonynuth Heng, Sengthai Heng, Youngsun Han, (参考訳) 量子ランダムアクセスメモリ(Quantum Random Access Memory, qRAM)は、オラクルベースの量子アルゴリズムを実行するための重要な計算要素である。 qRAMは、量子重ね合わせの原理を利用して、メモリセルに格納された全てのデータに同時にアクセスし、量子アルゴリズムの優れた性能を保証する。 qRAMメモリセルは、様々な量子ノイズに対するqRAMの動作を成功させるために量子エラー補正技術によって符号化された論理量子ビットを含む。 量子ノイズに加えて、シリコン技術に基づく低技術ノードは量子ビット密度を増大させ、欠陥量子ビットを導入する可能性がある。 qRAMは多くの量子ビットから構成されているので、その収量は欠陥量子ビットによって減少し、これらの量子ビットはQECスキームで処理されなければならない。 しかし、QEC方式には多くの物理量子ビットが必要であり、リソースのオーバーヘッドを負担する。 このオーバヘッド問題を解決するために、冗長量子ビットを導入して欠陥量子ビットを補償する量子メモリアーキテクチャを提案する。 また,qRAM における論理量子ビット数の違いに対して,理想的生成誤差率を 0.5% から 1% に変化させることにより,提案アーキテクチャがもたらす収率改善を解析した。 1,024個の論理量子ビットからなるqRAMでは、8つの冗長な論理量子ビットが、冗長な修復スキームを使用しないqRAMよりも95.92%向上した。

Quantum Random Access Memory (qRAM) is an essential computing element for running oracle-based quantum algorithms. qRAM exploits the principle of quantum superposition to access all data stored in the memory cell simultaneously and guarantees the superior performance of quantum algorithms. A qRAM memory cell comprises logical qubits encoded through quantum error correction technology for the successful operation of qRAM against various quantum noises. In addition to quantum noise, the low-technology nodes based on silicon technology can increase the qubit density and may introduce defective qubits. As qRAM comprises many qubits, its yield will be reduced by defective qubits; these qubits must be handled using QEC scheme. However, the QEC scheme requires numerous physical qubits, which burdens resource overhead. To resolve this overhead problem, we propose a quantum memory architecture that compensates for defective qubits by introducing redundant qubits. We also analyze the yield improvement offered by our proposed architecture by varying the ideal fabrication error rate from 0.5% to 1% for different numbers of logical qubits in the qRAM. In the qRAM comprising 1,024 logical qubits, eight redundant logical qubits improved the yield by 95.92% from that of qRAM not employing the redundant repair scheme.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-22
# 3次元オープンMPIデータセットを用いたゼロショットデノイザを用いたMPIの$\ell^1$-Plug-and-Playアプローチ

An $\ell^1$-Plug-and-Play Approach for MPI Using a Zero Shot Denoiser with Evaluation on the 3D Open MPI Dataset ( http://arxiv.org/abs/2401.00275v2 )

ライセンス: Link先を確認
Vladyslav Gapyak, Corinna Rentschler, Thomas März, Andreas Weinmann, (参考訳) 目的:磁気粒子イメージング(MPI)は,近年注目されている医療画像モダリティである。 MPIの利点の1つは、高時間分解能であり、この技術は試料をあらゆる種類の電離放射線に曝さないことである。 印加磁場に対する磁性ナノ粒子の非線形応答に基づく。 受信コイルで測定された電気信号から、粒子濃度を再構成する必要がある。 復元問題の不備から、古典的チホノフ正則化や反復的手法から現代の機械学習アプローチに至るまで、早期停止方法から様々なレギュラー化手法が提案されている。 本研究は後者のクラスに寄与する:$\ell^1$-priorの汎用ゼロショットデノイザに基づくプラグアンドプレイアプローチを提案する。 アプローチ: 本手法をハイブリッドデータセット上で検証し, ベースラインであるTikhonov, DIP, 以前のPP-MPIと比較する。 主な結果: 3D Open MPIデータセット上でのゼロショットプラグアンドプレイ方式の定量的,定性的な評価を行う。 さらに、データの事前処理のレベルが異なるアプローチの質を示す。 意義: 提案手法は, MPIタスクの訓練を受けていないゼロショットデノイザを用いており, トレーニングコストを削減している。 さらに、将来のMPIコンテキストに適用可能なメソッドを提供する。

Objective: Magnetic particle imaging (MPI) is an emerging medical imaging modality which has gained increasing interest in recent years. Among the benefits of MPI are its high temporal resolution, and that the technique does not expose the specimen to any kind of ionizing radiation. It is based on the non-linear response of magnetic nanoparticles to an applied magnetic field. From the electric signal measured in receive coils, the particle concentration has to be reconstructed. Due to the ill-posedness of the reconstruction problem, various regularization methods have been proposed for reconstruction ranging from early stopping methods, via classical Tikhonov regularization and iterative methods to modern machine learning approaches. In this work, we contribute to the latter class: we propose a plug-and-play approach based on a generic zero-shot denoiser with an $\ell^1$-prior. Approach: We validate the reconstruction parameters of the method on a hybrid dataset and compare it with the baseline Tikhonov, DIP and the previous PP-MPI, which is a plug-and-play method with denoiser trained on MPI-friendly data. Main results: We offer a quantitative and qualitative evaluation of the zero-shot plug-and-play approach on the 3D Open MPI dataset. Moreover, we show the quality of the approach with different levels of preprocessing of the data. Significance: The proposed method employs a zero-shot denoiser which has not been trained for the MPI task and therefore saves the cost for training. Moreover, it offers a method that can be potentially applied in future MPI contexts.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-22
# グラフスカラー化によるエネルギー効率の高い分散学習

Energy-efficient Decentralized Learning via Graph Sparsification ( http://arxiv.org/abs/2401.03083v2 )

ライセンス: Link先を確認
Xusheng Zhang, Cho-Chun Chiu, Ting He, (参考訳) 本研究の目的は,学習過程における通信要求を制御する混合行列を最適化することにより,分散学習のエネルギー効率を向上させることである。 最先端の分散学習アルゴリズムに基づく厳密な解析により、グラフスカラー化により低レベルを解き、二段階最適化として定式化される。 完全連結基底トポロジーの特別な場合に対して保証された性能の解が提案され、一般の場合では強欲なヒューリスティックが提案される。 実トポロジとデータセットに基づくシミュレーションにより、提案手法はトレーニングされたモデルの品質を維持しながら、最も忙しいノードでのエネルギー消費量を54%-76%削減できることを示した。

This work aims at improving the energy efficiency of decentralized learning by optimizing the mixing matrix, which controls the communication demands during the learning process. Through rigorous analysis based on a state-of-the-art decentralized learning algorithm, the problem is formulated as a bi-level optimization, with the lower level solved by graph sparsification. A solution with guaranteed performance is proposed for the special case of fully-connected base topology and a greedy heuristic is proposed for the general case. Simulations based on real topology and dataset show that the proposed solution can lower the energy consumption at the busiest node by 54%-76% while maintaining the quality of the trained model.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-22
# 機械翻訳モデルは翻訳方向のゼロショット検出器である

Machine Translation Models are Zero-Shot Detectors of Translation Direction ( http://arxiv.org/abs/2401.06769v2 )

ライセンス: Link先を確認
Michelle Wastl, Jannis Vamvas, Rico Sennrich, (参考訳) 平行テキストの翻訳方向を検出することは、機械翻訳訓練や評価に応用できるが、盗作や偽造の主張を解消するといった法医学的応用もある。 本研究では, 翻訳文や機械翻訳文でよく知られた単純化効果によって動機付けられた, $p(\text{translation}|\text{ Origin})>p(\text{ Origin}|\text{translation})$という単純な仮説に基づいて, 翻訳方向検出の教師なしアプローチを検討する。 20の翻訳方向をまたいだ多言語機械翻訳モデルを用いた実験において,NMT翻訳では82~96%,人文翻訳では60~81%の文書レベルの精度が得られた。 コードとデモはhttps://github.com/ZurichNLP/translation-direction-detectionで公開されている。

Detecting the translation direction of parallel text has applications for machine translation training and evaluation, but also has forensic applications such as resolving plagiarism or forgery allegations. In this work, we explore an unsupervised approach to translation direction detection based on the simple hypothesis that $p(\text{translation}|\text{original})>p(\text{original}|\text{translation})$, motivated by the well-known simplification effect in translationese or machine-translationese. In experiments with massively multilingual machine translation models across 20 translation directions, we confirm the effectiveness of the approach for high-resource language pairs, achieving document-level accuracies of 82--96% for NMT-produced translations, and 60--81% for human translations, depending on the model used. Code and demo are available at https://github.com/ZurichNLP/translation-direction-detection
翻訳日:2024-05-25 11:46:15 公開日:2024-05-22
# DCDet:動的クロスベース3Dオブジェクト検出器

DCDet: Dynamic Cross-based 3D Object Detector ( http://arxiv.org/abs/2401.07240v2 )

ライセンス: Link先を確認
Shuai Liu, Boyang Li, Zhiyu Fang, Kai Huang, (参考訳) 近年,3次元物体検出の研究が盛んに行われている。 しかし、ほとんどの先行研究は、センターベースまたはアンカーベースラベル割り当てスキームの利用に焦点を当てている。 代替ラベル割り当て戦略は、3Dオブジェクト検出において未探索のままである。 センターベースのラベル割り当ては、トレーニングに十分な正のサンプルを生成するのに失敗することが多いが、アンカーベースのラベル割り当ては、様々なスケールのオブジェクトを扱う場合、不均衡な問題に遭遇する傾向がある。 これらの課題を解決するために, 動的クロスラベル割当(DCLA)方式を導入し, 対象物に対して動的に正のサンプルを交叉領域から割り当てることで, 十分な正のサンプルとバランスの取れた正のサンプルをトレーニング用に提供する。 さらに、様々なスケールで物体を正確に回帰させるという課題に対処するため、広く使われているL1測度を回帰損失に置き換えるために、回転重み付きユニオン(RWIoU)測度(RWIoU)を考案した。 広汎な実験により,DCLAとRWIoUに基づく回帰損失の一般化と有効性を示した。 コードはhttps://github.com/Say2L/DCDet.gitで入手できる。

Recently, significant progress has been made in the research of 3D object detection. However, most prior studies have focused on the utilization of center-based or anchor-based label assignment schemes. Alternative label assignment strategies remain unexplored in 3D object detection. We find that the center-based label assignment often fails to generate sufficient positive samples for training, while the anchor-based label assignment tends to encounter an imbalanced issue when handling objects of varying scales. To solve these issues, we introduce a dynamic cross label assignment (DCLA) scheme, which dynamically assigns positive samples for each object from a cross-shaped region, thus providing sufficient and balanced positive samples for training. Furthermore, to address the challenge of accurately regressing objects with varying scales, we put forth a rotation-weighted Intersection over Union (RWIoU) metric to replace the widely used L1 metric in regression loss. Extensive experiments demonstrate the generality and effectiveness of our DCLA and RWIoU-based regression loss. The Code will be available at https://github.com/Say2L/DCDet.git.
翻訳日:2024-05-25 11:46:15 公開日:2024-05-22
# スケールでのモデル編集は、経時的および破滅的な予測に繋がる

Model Editing at Scale leads to Gradual and Catastrophic Forgetting ( http://arxiv.org/abs/2401.07453v3 )

ライセンス: Link先を確認
Akshat Gupta, Anurag Rao, Gopala Anumanchipalli, (参考訳) 大きな言語モデルで知識を編集することは、事前トレーニング中に誤った学習事実を修正できるという魅力的な能力であり、新たな事実のリストでモデルを更新することもできます。 既存のモデル編集技術は将来性を示しているが、信頼性、特異性、一ないし少数の編集に対する一般化の指標を用いて評価されるのが一般的である。 モデル編集が実用性を持つためには、同じモデルに複数の編集を行なわなければならない、と我々は主張する。 このことを念頭に、我々は現在のモデル編集手法を大規模に評価し、ROMEとMEMITの2つの最先端手法に焦点を当てた。 モデルが複数の事実と逐次的に編集されるにつれて、以前編集された事実と下流タスクの実行能力を常に忘れていることがわかった。 この忘れは、2つのフェーズ - 最初の段階的な段階的だが、進行的な段階的な段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的あるいは破滅的な段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的・破滅的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的・破滅的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的および破滅的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的および破滅的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階 我々の分析は、ROMとMEMITの大規模化における他の重要な制限も強調している。 本研究では,スケーラビリティを念頭に置いたモデル編集手法の開発と評価を推し進める。

Editing knowledge in large language models is an attractive capability to have which allows us to correct incorrectly learnt facts during pre-training, as well as update the model with an ever-growing list of new facts. While existing model editing techniques have shown promise, they are usually evaluated using metrics for reliability, specificity and generalization over one or few edits. We argue that for model editing to have practical utility, we must be able to make multiple edits to the same model. With this in mind, we evaluate the current model editing methods at scale, focusing on two state of the art methods: ROME and MEMIT. We find that as the model is edited sequentially with multiple facts, it continually forgets previously edited facts and the ability to perform downstream tasks. This forgetting happens in two phases -- an initial gradual but progressive forgetting phase followed by abrupt or catastrophic forgetting phase. Both gradual and catastrophic forgetting limit the usefulness of model editing methods at scale -- the former making model editing less effective as multiple edits are made to the model while the latter caps the scalability of such model editing methods. Our analysis also highlights other key limitations of ROME and MEMIT at scale. With our work, we push for the development and evaluation of model editing methods keeping scalability in mind.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-22
# UOEP:Recommenderシステムにおける長期ユーザーエクスペリエンス向上のためのユーザ指向探索ポリシー

UOEP: User-Oriented Exploration Policy for Enhancing Long-Term User Experiences in Recommender Systems ( http://arxiv.org/abs/2401.09034v2 )

ライセンス: Link先を確認
Changshuo Zhang, Sirui Chen, Xiao Zhang, Sunhao Dai, Weijie Yu, Jun Xu, (参考訳) 強化学習(Reinforcement Learning, RL)は, 利用者の興味を効果的に探求することで, 推薦システムにおける長期体験の向上に寄与している。 しかし、現代のレコメンデータシステムでは、何千万もの項目で異なるユーザ行動パターンが示されており、探索の難しさが増している。 例えば、異なるアクティビティレベルを持つユーザーの振る舞いは、様々な調査の強度を必要とするが、以前の研究では、しばしばこの側面を見落とし、すべてのユーザに対して統一的な探索戦略を適用し、究極的にはユーザーエクスペリエンスを損なう。 これらの課題に対処するために,ユーザグループ間のきめ細かい探索を容易にする新しいアプローチであるユーザ指向探索ポリシー(UOEP)を提案する。 まず,ユーザからの累積報酬フィードバックの量的レベルが変化し,行動レベルが変化したユーザグループを代表して,ポリシーの最適化を可能にする分散批評家を構築した。 この批判に導かれ、我々は、それぞれのユーザーグループ内で効果的できめ細かい探索を目的とした、異なるアクターの集団を考案した。 調査期間中の多様性と安定性を同時に向上させるため,人口レベルの多様性規則化用語と監督モジュールを導入する。 パブリックレコメンデーションデータセットによる実験結果から,我々のアプローチは長期的パフォーマンスにおいて他のすべてのベースラインよりも優れており,ユーザ指向探索の有効性が検証されている。 一方,低能率ユーザに対するパフォーマンス向上によるアプローチのメリットと,ユーザ間の公平性の向上が,さらなる分析によって明らかにされている。

Reinforcement learning (RL) has gained traction for enhancing user long-term experiences in recommender systems by effectively exploring users' interests. However, modern recommender systems exhibit distinct user behavioral patterns among tens of millions of items, which increases the difficulty of exploration. For example, user behaviors with different activity levels require varying intensity of exploration, while previous studies often overlook this aspect and apply a uniform exploration strategy to all users, which ultimately hurts user experiences in the long run. To address these challenges, we propose User-Oriented Exploration Policy (UOEP), a novel approach facilitating fine-grained exploration among user groups. We first construct a distributional critic which allows policy optimization under varying quantile levels of cumulative reward feedbacks from users, representing user groups with varying activity levels. Guided by this critic, we devise a population of distinct actors aimed at effective and fine-grained exploration within its respective user group. To simultaneously enhance diversity and stability during the exploration process, we further introduce a population-level diversity regularization term and a supervision module. Experimental results on public recommendation datasets demonstrate that our approach outperforms all other baselines in terms of long-term performance, validating its user-oriented exploration effectiveness. Meanwhile, further analyses reveal our approach's benefits of improved performance for low-activity users as well as increased fairness among users.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-22
# CustomVideo: 複数のテーマによるテキスト・ビデオ生成のカスタマイズ

CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects ( http://arxiv.org/abs/2401.09962v2 )

ライセンス: Link先を確認
Zhao Wang, Aoxue Li, Lingting Zhu, Yong Guo, Qi Dou, Zhenguo Li, (参考訳) カスタマイズされたテキスト・ツー・ビデオ生成は、テキストプロンプトと主題参照によってガイドされる高品質なビデオを生成することを目的としている。 テキスト・ビデオ・ジェネレーションをパーソナライズするための現在のアプローチは、より困難で実践的なシナリオである複数の課題に取り組むことに悩まされている。 本研究の目的は,多目的テキスト・ツー・ビデオのカスタマイズを促進することである。 複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。 まず,複数の被験者の共起を一つの画像にまとめることによって促進する。 さらに,基本的テキスト・ビデオ拡散モデルに基づいて,潜時空間の拡散モデルにおいて,異なる被写体をアンタングルする簡易かつ効果的な注意制御戦略を設計する。 さらに,対象物体の特定領域に焦点を合わせるために,対象物体を所定の参照画像から分割し,注目学習のための対応する対象マスクを提供する。 また、13の異なるカテゴリから63の被験者と68の有意義なペアを持つ総合的なベンチマークとして、多目的テキスト・ビデオ生成データセットを収集した。 定性的,定量的,ユーザスタディの結果は,従来の最先端手法と比較して,本手法の優位性を示している。 プロジェクトページはhttps://kyfafyd.wang/projects/customvideo.comである。

Customized text-to-video generation aims to generate high-quality videos guided by text prompts and subject references. Current approaches for personalizing text-to-video generation suffer from tackling multiple subjects, which is a more challenging and practical scenario. In this work, our aim is to promote multi-subject guided text-to-video customization. We propose CustomVideo, a novel framework that can generate identity-preserving videos with the guidance of multiple subjects. To be specific, firstly, we encourage the co-occurrence of multiple subjects via composing them in a single image. Further, upon a basic text-to-video diffusion model, we design a simple yet effective attention control strategy to disentangle different subjects in the latent space of diffusion model. Moreover, to help the model focus on the specific area of the object, we segment the object from given reference images and provide a corresponding object mask for attention learning. Also, we collect a multi-subject text-to-video generation dataset as a comprehensive benchmark, with 63 individual subjects from 13 different categories and 68 meaningful pairs. Extensive qualitative, quantitative, and user study results demonstrate the superiority of our method compared to previous state-of-the-art approaches. The project page is https://kyfafyd.wang/projects/customvideo.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-22
# ChatQA: 会話型QAおよびRAG上でのGPT-4の通過

ChatQA: Surpassing GPT-4 on Conversational QA and RAG ( http://arxiv.org/abs/2401.10225v4 )

ライセンス: Link先を確認
Zihan Liu, Wei Ping, Rajarshi Roy, Peng Xu, Chankyu Lee, Mohammad Shoeybi, Bryan Catanzaro, (参考訳) 本稿では,検索強化生成(RAG)と会話型質問応答(QA)において,GPT-4よりも優れたモデル群であるChatQAを紹介する。 そこで本研究では,RAGの性能を大幅に向上させる2段階の命令チューニング手法を提案する。 効率よく検索するために,対話型QAに最適化された高密度検索器を導入し,既存のクエリ書き換えモデルに匹敵する結果を得るとともに,展開コストを大幅に削減する。 また、RAG、テーブル関連QA、算術計算、解決不可能な質問を含むシナリオに関する総合的な評価を含む10のデータセットを含むChatRAG Benchを提案する。 我々のChatQA-1.0-70B(スコア:54.14)は、GPT-4よりも弱い基礎モデルであるLlama2上に構築され、OpenAI GPTモデルの合成データに頼ることなく、ChatRAG Bench上でGPT-4-0613(スコア:53.90)とGPT-4-Turbo-2024-04-09(スコア:54.03)をわずかに上回ることができる。 特に、Llama3-ChatQA-1.5-70BモデルはGPT-4-Turbo-2024-04-09の精度を超え、4.4%の改善を実現している。 この分野での研究を進めるために、我々はモデルウェイト、チューニングデータ、ChatRAG Bench、およびコミュニティ向けのレトリバーをオープンソース化した。

In this work, we introduce ChatQA, a suite of models that outperform GPT-4 on retrieval-augmented generation (RAG) and conversational question answering (QA). To enhance generation, we propose a two-stage instruction tuning method that significantly boosts the performance of RAG. For effective retrieval, we introduce a dense retriever optimized for conversational QA, which yields results comparable to the alternative state-of-the-art query rewriting models, while substantially reducing deployment costs. We also present the ChatRAG Bench, which encompasses ten datasets covering comprehensive evaluations on RAG, table-related QA, arithmetic calculations, and scenarios involving unanswerable questions. Our ChatQA-1.0-70B (score: 54.14), built on Llama2, a weaker foundation model than GPT-4, can slightly outperform GPT-4-0613 (score: 53.90) and GPT-4-Turbo-2024-04-09 (score: 54.03) on the ChatRAG Bench, without relying on any synthetic data from OpenAI GPT models. Notably, the Llama3-ChatQA-1.5-70B model surpasses the accuracy of GPT-4-Turbo-2024-04-09, achieving a 4.4% improvement. To advance research in this field, we open-sourced the model weights, instruction tuning data, ChatRAG Bench, and retriever for the community: https://chatqa-project.github.io/.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-22
# Even-ifの解説:形式的基礎、優先順位、複雑さ

Even-if Explanations: Formal Foundations, Priorities and Complexity ( http://arxiv.org/abs/2401.10938v2 )

ライセンス: Link先を確認
Gianvincenzo Alfano, Sergio Greco, Domenico Mandaglio, Francesco Parisi, Reza Shahbazian, Irina Trubitsyna, (参考訳) 説明可能なAIは近年大きな注目を集めている。 機械学習モデルは、しばしばブラックボックスとして機能し、意思決定プロセスをサポートしながら説明可能性と透明性を欠いている。 局所的なポストホックな説明可能性クエリは、個々の入力が与えられたモデルによって特定の方法で分類される理由に答えようとする。 反事実的説明に関する重要な研究はあったが、半事実的説明にはあまり関心が向けられていない。 本稿では,ニューラルネットワークよりも線形モデルと木モデルの両方が厳密に解釈可能であることを示す。 そこで,本稿では,ユーザの嗜好に基づく説明のパーソナライズを可能にする,嗜好に基づくフレームワークを提案する。 最後に,提案した嗜好に基づくフレームワークにおけるいくつかの解釈可能性問題の複雑性について検討し,多項式の場合のアルゴリズムを提案する。

EXplainable AI has received significant attention in recent years. Machine learning models often operate as black boxes, lacking explainability and transparency while supporting decision-making processes. Local post-hoc explainability queries attempt to answer why individual inputs are classified in a certain way by a given model. While there has been important work on counterfactual explanations, less attention has been devoted to semifactual ones. In this paper, we focus on local post-hoc explainability queries within the semifactual `even-if' thinking and their computational complexity among different classes of models, and show that both linear and tree-based models are strictly more interpretable than neural networks. After this, we introduce a preference-based framework that enables users to personalize explanations based on their preferences, both in the case of semifactuals and counterfactuals, enhancing interpretability and user-centricity. Finally, we explore the complexity of several interpretability problems in the proposed preference-based framework and provide algorithms for polynomial cases.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-22
# 捕捉イオン系におけるマヨラナモードとそのフロケット工学

Majorana modes in trapped-ion system and their Floquet engineering ( http://arxiv.org/abs/2401.11510v2 )

ライセンス: Link先を確認
Ming-Jian Gao, Yu-Peng Ma, Jun-Hong An, (参考訳) 非アベリア統計によらず、マヨラナフェルミオンはフォールトトレラント量子コンピューティングを実装することを約束している。 マヨラナフェルミオンは、磁場下での$s$の超伝導体と相互作用する強いスピン軌道結合を持つナノワイヤのゼロエネルギー励起によってシミュレートできることがわかった。 しかし、この系におけるマヨラナフェルミオンのシグナルは、ナノワイヤの障害とワイヤエンドの閉じ込め電位によって隠蔽される。 したがって、より制御可能なプラットフォームはマヨラナフェルミオンをシミュレートすることが望まれる。 本稿では、捕捉イオン系におけるマヨラナフェルミオンをシミュレートする代替スキームを提案する。 我々の二量化イオン構成は、マヨラナモードをゼロエネルギーだけでなくゼロエネルギーでも生成することができ、マヨラナモードの族を拡大し、量子コンピューティングのための別の量子ビットキャリアを提供する。 また,Floquet EngineeringによるMajoranaモードの制御性についても検討した。 捕捉イオン系に周期運転を施すことにより、需要に応じて広範囲に調整可能なマヨラナモードが生成されることがわかった。 マヨラナフェルミオンをシミュレートするプラットフォームを充実させることで、フォールトトレラントな量子コンピューティングを実現するための新たな道が開かれる。

Obeying non-Abelian statistics, Majorana fermions holds a promise to implement fault-tolerant quantum computing. It was found that Majorana fermions can be simulated by the zero-energy excitation in a nanowire with strong spin-orbit coupling interacting with an $s$-wave superconductor under a magnetic field. However, the signal of Majorana fermion in that system is obscured by the disorder in the nanowire and the confinement potential at the wire end. Thus, more controllable platforms are desired to simulate Majorana fermions. We here propose an alternative scheme to simulate the Majorana fermions in a trapped-ion system. Our dimerized-ion configuration permits us to generate the Majorana modes not only at zero energy but also at the nonzero ones, which enlarge the family of Majorana modes and supply another qubit carrier for quantum computing. We also investigate the controllability of the Majorana modes by Floquet engineering. It is found that a widely tunable number of Majorana modes are created on demand by applying a periodic driving on the trapped-ion system. Enriching the platforms for simulating Majorana fermions, our result would open another avenue for realizing fault-tolerant quantum computing.
翻訳日:2024-05-25 11:36:31 公開日:2024-05-22
# 局所的鎮痛運転における効率の良い経路

Efficient Paths for Local Counterdiabatic Driving ( http://arxiv.org/abs/2401.12287v2 )

ライセンス: Link先を確認
Stewart Morawetz, Anatoli Polkovnikov, (参考訳) 局所的反断熱駆動(英語版) (CD) は、局所制御のみを使用し、過度に長いプロトコル時間を必要とすることなく、量子状態の準備のような近似可逆/断熱過程を実現するための実現可能なアプローチを提供する。 しかし、多くの場合、そのようなCDプロトコルの精度を得るには、非常に複雑な新しい制御やパルスシーケンスが必要となる。 そこで本研究では,ローカルCDプロトコルの性能を拡張したローカルコントロールを追加することで,アディバティックパスを,アディバティックな制限から近づいたり遠ざかったりすることで,アディバティックパスを変更するための体系的な手法について述べる。 また、量子波動関数の知識を必要とせずに、局所的な反断熱駆動の性能を更に向上させる反復的な手順を同定する。 次に、これらの手法は、短距離と長距離の両方の相互作用を持ついくつかのスピン系の非自明なGHZ基底状態の生成において劇的な改善をもたらすことを示す。

Local counterdiabatic driving (CD) provides a feasible approach for realizing approximate reversible/adiabatic processes like quantum state preparation using only local controls and without demanding excessively long protocol times. However, in many instances getting high accuracy of such CD protocols requires engineering very complicated new controls or pulse sequences. In this work, we describe a systematic method for altering the adiabatic path by adding extra local controls along which performance of local CD protocols is enhanced, both close to and far away from the adiabatic limit. We also identify an iterative procedure to improve the performance of local counterdiabatic driving further without any knowledge of the quantum wavefunction. We then show that these methods provides dramatic improvement in the preparation of non-trivial GHZ ground states of several different spin systems with both short-range and long-range interactions.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# 視覚・言語モデルにおける無視タオル

The Neglected Tails in Vision-Language Models ( http://arxiv.org/abs/2401.12425v3 )

ライセンス: Link先を確認
Shubham Parashar, Zhiqiu Lin, Tian Liu, Xiangjue Dong, Yanan Li, Deva Ramanan, James Caverlee, Shu Kong, (参考訳) 視覚言語モデル(VLM)はゼロショット認識では優れるが、その性能は異なる視覚概念によって大きく異なる。 たとえば、CLIPはImageNet(60-80%)で印象的な精度を実現しているが、そのパフォーマンスは、おそらく事前トレーニングデータに限られているため、ナイトヘビのような10以上のコンセプトで10%以下に低下している。 しかしながら、VLMの大規模データセットにおける概念の頻度を測定することは困難である。 これらの概念の同義語を含む事前学習テキストの数をカウントするために,大規模言語モデル (LLM) を用いてこの問題に対処する。 我々の分析では、LAIONのような一般的なデータセットが長い尾を持つ概念分布を示し、VLMのバイアスのある性能をもたらすことを確認した。 また,視覚チャットボット (GPT-4V) やテキスト・ツー・イメージモデル (Stable Diffusion など) など,VLM の下流アプリケーションでは,この手法によって認識される稀な概念の画像の認識や生成に失敗することが多い。 ゼロショットVLMの不均衡性能を軽減するため,Retrieval-Augmented Learning (REAL)を提案する。 まず、オリジナルのクラス名を使ってVLMをプロンプトする代わりに、REALはトレーニング前のテキストで見られる最も頻繁な同義語を使用する。 この単純な変更は、コストのかかるヒューマンエンジニアリングとLLM強化プロンプトを9つのベンチマークデータセットで上回っている。 第2に、REALは概念シノニムを用いて検索された訓練前のデータの小さなバランスの取れたセットに線形分類器を訓練する。 REALは以前のゼロショットSOTAを超え、400倍のストレージと1万分の1のトレーニング時間を使っています!

Vision-language models (VLMs) excel in zero-shot recognition but their performance varies greatly across different visual concepts. For example, although CLIP achieves impressive accuracy on ImageNet (60-80%), its performance drops below 10% for more than ten concepts like night snake, presumably due to their limited presence in the pretraining data. However, measuring the frequency of concepts in VLMs' large-scale datasets is challenging. We address this by using large language models (LLMs) to count the number of pretraining texts that contain synonyms of these concepts. Our analysis confirms that popular datasets, such as LAION, exhibit a long-tailed concept distribution, yielding biased performance in VLMs. We also find that downstream applications of VLMs, including visual chatbots (e.g., GPT-4V) and text-to-image models (e.g., Stable Diffusion), often fail to recognize or generate images of rare concepts identified by our method. To mitigate the imbalanced performance of zero-shot VLMs, we propose REtrieval-Augmented Learning (REAL). First, instead of prompting VLMs using the original class names, REAL uses their most frequent synonyms found in pretraining texts. This simple change already outperforms costly human-engineered and LLM-enriched prompts over nine benchmark datasets. Second, REAL trains a linear classifier on a small yet balanced set of pretraining data retrieved using concept synonyms. REAL surpasses the previous zero-shot SOTA, using 400x less storage and 10,000x less training time!
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# 上位の個人:グループ内における公平な分類の効果

Reranking individuals: The effect of fair classification within-groups ( http://arxiv.org/abs/2401.13391v2 )

ライセンス: Link先を確認
Sofie Goethals, Toon Calders, (参考訳) AI(Artificial Intelligence)は、さまざまなドメインに広く適用されているが、デプロイメントの公正性に対する懸念を喚起する。 分類における一般的な談話は、しばしば、サブグループ内の差分の影響を微妙に考慮せずに、センシティブなサブグループを比較した結果に基づくメトリクスを強調する。 バイアス緩和技術は、センシティブなグループ間でのインスタンスのランク付けに影響を及ぼすだけでなく、これらのグループ内のインスタンスのランク付けにも大きな影響を与える。 このような変更は、介入の妥当性について説明し、懸念を提起することは困難である。 残念なことに、これらの効果は、通常適用される正確性評価フレームワークにおいて、レーダーの下に留まっている。 さらに、いくつかの一般的なバイアス緩和手法の効果と、それらの出力が現実世界のシナリオを反映しない場合について説明する。

Artificial Intelligence (AI) finds widespread application across various domains, but it sparks concerns about fairness in its deployment. The prevailing discourse in classification often emphasizes outcome-based metrics comparing sensitive subgroups without a nuanced consideration of the differential impacts within subgroups. Bias mitigation techniques not only affect the ranking of pairs of instances across sensitive groups, but often also significantly affect the ranking of instances within these groups. Such changes are hard to explain and raise concerns regarding the validity of the intervention. Unfortunately, these effects remain under the radar in the accuracy-fairness evaluation framework that is usually applied. Additionally, we illustrate the effect of several popular bias mitigation methods, and how their output often does not reflect real-world scenarios.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# 因果知覚

Causal Perception ( http://arxiv.org/abs/2401.13408v2 )

ライセンス: Link先を確認
Jose M. Alvarez, Salvatore Ruggieri, (参考訳) 知覚は、2人の個人が同じ情報を異なる方法で解釈する際に起こる。 個々の経験が解釈を決定するにつれ、意思決定にバイアスが伴う既知の現象であるにもかかわらず、認識は機械学習(ML)研究においてほとんど見過ごされ続けている。 部分的に、あるいは完全に自動化された、現代の意思決定フローには、MLアプリケーションと対話する人間の専門家が関与する。 例えば、遅延インスタンスやMLモデルからの説明が異なる解釈をする2人の専門家について、どのように説明すればいいでしょうか? 知覚を説明するには、まずそれを定式化する必要があります。 本研究では,構造因果モデル(SCM)を用いて因果推論に基づく知覚を定義する。 我々のフレームワークは、個人の経験を人間の専門家(リーダー、意思決定者)によってもたらされる因果的知識として定式化します。 本研究では, 信頼度と一貫性のSCM特性に基づいて, 不信感と矛盾感の2種類の因果知覚を示す。 さらに、公平性問題における認識の重要性を動機づける。 我々は、MLアプリケーションと人間のエキスパートを含む一連の意思決定フローの例を通して、私たちのフレームワークを説明します。

Perception occurs when two individuals interpret the same information differently. Despite being a known phenomenon with implications for bias in decision-making, as individual experience determines interpretation, perception remains largely overlooked in machine learning (ML) research. Modern decision flows, whether partially or fully automated, involve human experts interacting with ML applications. How might we then, e.g., account for two experts that interpret differently a deferred instance or an explanation from a ML model? To account for perception, we first need to formulate it. In this work, we define perception under causal reasoning using structural causal models (SCM). Our framework formalizes individual experience as additional causal knowledge that comes with and is used by a human expert (read, decision maker). We present two kinds of causal perception, unfaithful and inconsistent, based on the SCM properties of faithfulness and consistency. Further, we motivate the importance of perception within fairness problems. We illustrate our framework through a series of decision flow examples involving ML applications and human experts.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# 質量保存-パーセプトロンを用いた物理概念型大規模水文モデリングの解釈に向けて

Towards Interpretable Physical-Conceptual Catchment-Scale Hydrological Modeling using the Mass-Conserving-Perceptron ( http://arxiv.org/abs/2401.14521v3 )

ライセンス: Link先を確認
Yuan-Heng Wang, Hoshin V. Gupta, (参考訳) 本研究は,MCP(Mass-Conserving Perceptron)を基本計算単位とする有向グラフアーキテクチャを用いて,機械学習技術の相似・解釈可能・キャッチメントスケール水理学モデル開発への適用性について検討する。 ここでは、大きなキャッチメントのサンプルにまたがる普遍的な適用可能性(ブレッドス)ではなく、単一の場所でアーキテクチャの複雑さ(深度)に焦点を当てる。 目的は、与えられたキャッチメントの入力状態と出力の振る舞いを説明できる支配的なプロセスを表す最小の表現(細胞状態とフローパスの数)を見つけることであり、特にフローダイナミクスの全範囲(高、中、低)をシミュレートすることである。 3つのセル状態と2つの主要な流れ経路を持つHyMod様のアーキテクチャは、我々の研究位置においてそのような表現を実現するが、入力バイパス機構の付加によるハイドログラフのタイミングと形状は大幅に改善され、一方、双方向の地下水物質交換が加わったことにより、ベースフローのシミュレーションが大幅に向上する。 本研究の結果は, モデル評価に複数の診断指標を用いることの重要性を実証するとともに, フローダイナミクスの全範囲にわたる情報抽出に適したトレーニング指標の設計の必要性を強調した。 さらに, ニューラル・アーキテクチャー・サーチを用いて, 異なる気候環境下での漁獲量の最小限の表現を適切に決定することにより, 地域規模のMPPに基づく水文モデル(大規模なサンプルデータを用いた)を解釈するステージを設定した。

We investigate the applicability of machine learning technologies to the development of parsimonious, interpretable, catchment-scale hydrologic models using directed-graph architectures based on the mass-conserving perceptron (MCP) as the fundamental computational unit. Here, we focus on architectural complexity (depth) at a single location, rather than universal applicability (breadth) across large samples of catchments. The goal is to discover a minimal representation (numbers of cell-states and flow paths) that represents the dominant processes that can explain the input-state-output behaviors of a given catchment, with particular emphasis given to simulating the full range (high, medium, and low) of flow dynamics. We find that a HyMod-like architecture with three cell-states and two major flow pathways achieves such a representation at our study location, but that the additional incorporation of an input-bypass mechanism significantly improves the timing and shape of the hydrograph, while the inclusion of bi-directional groundwater mass exchanges significantly enhances the simulation of baseflow. Overall, our results demonstrate the importance of using multiple diagnostic metrics for model evaluation, while highlighting the need for designing training metrics that are better suited to extracting information across the full range of flow dynamics. Further, they set the stage for interpretable regional-scale MCP-based hydrological modeling (using large sample data) by using neural architecture search to determine appropriate minimal representations for catchments in different hydroclimatic regimes.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# 最適スパースサバイバルツリー

Optimal Sparse Survival Trees ( http://arxiv.org/abs/2401.15330v3 )

ライセンス: Link先を確認
Rui Zhang, Rui Xin, Margo Seltzer, Cynthia Rudin, (参考訳) 解釈性は、医師、病院、製薬会社、バイオテクノロジー企業にとって、人間の健康に関わる高リスク問題の分析と意思決定に不可欠である。 木に基づく手法は, 高い解釈性と複雑な関係を捉える能力から, 生存分析に広く採用されている。 しかし、生存木を生産する既存の方法のほとんどはヒューリスティックなアルゴリズム(または欲求)に依存しており、これは準最適モデルを生成するリスクがある。 本稿では,動的プログラミングとバウンダリを併用したモデルを提案する。

Interpretability is crucial for doctors, hospitals, pharmaceutical companies and biotechnology corporations to analyze and make decisions for high stakes problems that involve human health. Tree-based methods have been widely adopted for survival analysis due to their appealing interpretablility and their ability to capture complex relationships. However, most existing methods to produce survival trees rely on heuristic (or greedy) algorithms, which risk producing sub-optimal models. We present a dynamic-programming-with-bounds approach that finds provably-optimal sparse survival tree models, frequently in only a few seconds.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# L-AutoDA: 自動決定に基づく敵攻撃のための大規模言語モデルを活用する

L-AutoDA: Leveraging Large Language Models for Automated Decision-based Adversarial Attacks ( http://arxiv.org/abs/2401.15335v2 )

ライセンス: Link先を確認
Ping Guo, Fei Liu, Xi Lin, Qingchuan Zhao, Qingfu Zhang, (参考訳) 機械学習の急速に発展する分野では、敵攻撃は堅牢性とセキュリティをモデル化する上で大きな課題となる。 決定に基づく攻撃は、詳細な確率やスコアではなく、モデルの決定に対するフィードバックのみを必要とするが、特に攻撃的で防御が難しい。 本研究では,L-AutoDA(Large Language Model-based Automated Decision-based Adversarial Attacks)を導入し,L-AutoDA(Large Language Model-based Automated Decision-based Adversarial Attacks)を提案する。 L-AutoDAは、進化的なフレームワークでLLMと反復的に対話することにより、人間の努力を伴わずに、競合する攻撃アルゴリズムを効率的に設計する。 CIFAR-10データセットに対するL-AutoDAの有効性を実証し、成功率と計算効率の両面でベースライン法よりも大幅に改善したことを示す。 我々の発見は、敵対的攻撃生成のためのツールとしての言語モデルの可能性を強調し、堅牢なAIシステムを開発するための新たな道のりを浮き彫りにする。

In the rapidly evolving field of machine learning, adversarial attacks present a significant challenge to model robustness and security. Decision-based attacks, which only require feedback on the decision of a model rather than detailed probabilities or scores, are particularly insidious and difficult to defend against. This work introduces L-AutoDA (Large Language Model-based Automated Decision-based Adversarial Attacks), a novel approach leveraging the generative capabilities of Large Language Models (LLMs) to automate the design of these attacks. By iteratively interacting with LLMs in an evolutionary framework, L-AutoDA automatically designs competitive attack algorithms efficiently without much human effort. We demonstrate the efficacy of L-AutoDA on CIFAR-10 dataset, showing significant improvements over baseline methods in both success rate and computational efficiency. Our findings underscore the potential of language models as tools for adversarial attack generation and highlight new avenues for the development of robust AI systems.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# パウリ基底における行列積状態による不安定性

Nonstabilizerness via matrix product states in the Pauli basis ( http://arxiv.org/abs/2401.16498v3 )

ライセンス: Link先を確認
Poetri Sonya Tarabunga, Emanuele Tirrito, Mari Carmen Bañuls, Marcello Dalmonte, (参考訳) 非安定化器性(Nonstabilizerness、または 'magic'')は、量子コンピューティングにおける潜在的な優位性を達成するための重要なリソースである。 その多体物理現象との結びつきは、主に大規模に計算する実用的な方法が欠如していることから、現時点では理解されていない。 本稿では, 行列積状態(MPS)の枠組み内での非安定化性を評価するための新しい手法を提案する。 我々のフレームワークは、安定化器R'enyiエントロピー、安定化器ヌルティ、ベルマジックなど、様々な非安定化器性の尺度を効率的に計算する強力なツールを提供し、MPSの安定化器群の学習を可能にする。 我々は,Ising と XXZ スピン鎖の基底状態と,Rydberg の原子配列で最近実現された回路力学において,本手法の有効性と汎用性を示す。

Nonstabilizerness, also known as ``magic'', stands as a crucial resource for achieving a potential advantage in quantum computing. Its connection to many-body physical phenomena is poorly understood at present, mostly due to a lack of practical methods to compute it at large scales. We present a novel approach for the evaluation of nonstabilizerness within the framework of matrix product states (MPS), based on expressing the MPS directly in the Pauli basis. Our framework provides a powerful tool for efficiently calculating various measures of nonstabilizerness, including stabilizer R\'enyi entropies, stabilizer nullity, and Bell magic, and enables the learning of the stabilizer group of an MPS. We showcase the efficacy and versatility of our method in the ground states of Ising and XXZ spin chains, as well as in circuits dynamics that has recently been realized in Rydberg atom arrays, where we provide concrete benchmarks for future experiments on logical qubits up to twice the sizes already realized.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# ユーザと意見の推薦がネットワーク接続性とアイデア生成プロセスに及ぼす影響

Effect of recommending users and opinions on the network connectivity and idea generation process ( http://arxiv.org/abs/2401.16504v2 )

ライセンス: Link先を確認
Sriniwas Pandey, Hiroki Sayama, (参考訳) オンラインサービスへの依存度の増加は、リコメンデーションシステム、特にユーザーエンゲージメントの増大を求めるソーシャルメディアプラットフォームにおける重要な役割を浮き彫りにしている。 本研究では、リコメンデーションシステムが個人の行動特性がソーシャルネットワークのダイナミクスに与える影響について検討する。 ホモフィリーとユーザによる新しいアイデアへのオープンさ、新しい意見へのレコメンデーションによる露出の相互作用を探求する。 さらに、新たなアイデアの多様性に対するレコメンデーションシステムの影響を調査し、新しいアイデアの探索と、バイアスの強化や、価値ある非伝統的な概念のフィルタリングのリスクのバランスをとる効果的なシステムを設計する上での課題と機会に光を当てる。

The growing reliance on online services underscores the crucial role of recommendation systems, especially on social media platforms seeking increased user engagement. This study investigates how recommendation systems influence the impact of personal behavioral traits on social network dynamics. It explores the interplay between homophily, users' openness to novel ideas, and recommendation-driven exposure to new opinions. Additionally, the research examines the impact of recommendation systems on the diversity of newly generated ideas, shedding light on the challenges and opportunities in designing effective systems that balance the exploration of new ideas with the risk of reinforcing biases or filtering valuable, unconventional concepts.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# 時間グラフにおけるノード特徴予測のためのオンラインアルゴリズム

Online Algorithm for Node Feature Forecasting in Temporal Graphs ( http://arxiv.org/abs/2401.16800v2 )

ライセンス: Link先を確認
Aniq Ur Rahman, Justin P. Coon, (参考訳) 本稿では,各ノード間の空間的相互相関と,ノード内の時間的自己相関をキャプチャする,時間的グラフのノード特徴を予測するためのオンラインアルゴリズムmspaceを提案する。 このアルゴリズムは確率的および決定論的多段階予測の両方に使用することができ、推定および生成タスクに適用できる。 時間グラフニューラルネットワーク(TGNN)モデルや古典カルマンフィルタなど、さまざまなベースラインに対する比較評価は、mspaceが最先端技術と同等に動作し、一部のデータセットでそれらを上回っていることを示している。 重要なことに、mspaceはトレーニングサイズが異なるデータセット間で一貫したパフォーマンスを示しており、データの時空間的傾向を効果的に学習するために、豊富なトレーニングサンプルを必要とするTGNNモデルに対して注目すべき優位性である。 したがって、トレーニングサンプルの可用性が制限されたシナリオでは、mspaceを使うことが有利である。 さらに、mspaceのマルチステップ予測誤差に関する理論的境界を確立し、予測ステップの数を$q$ as $\mathcal{O}(q)$とすると線形にスケールすることを示す。 漸近的に多くのノードが$n$、タイムステップが$T$の場合、mspaceの計算複雑性は$n$と$T$の両方で線形に増加し、すなわち$\mathcal{O}(nT)$となる。 我々は,近年の10のTGNNベースラインと2つの古典的ベースラインであるARIMAとKalmanフィルタとの比較を行った。 さらに,ノード特徴予測手法の評価を支援するための合成データセットを生成する手法を提案する。 最後に,モデルとデータ中心の洞察を導出するために,モデルパラメータとデータセット特性を併用して解析することで,異なるmspace変種の解釈可能性について検討する。

In this paper, we propose an online algorithm mspace for forecasting node features in temporal graphs, which captures spatial cross-correlation among different nodes as well as the temporal auto-correlation within a node. The algorithm can be used for both probabilistic and deterministic multi-step forecasting, making it applicable for estimation and generation tasks. Comparative evaluations against various baselines, including temporal graph neural network (TGNN) models and classical Kalman filters, demonstrate that mspace performs at par with the state-of-the-art and even surpasses them on some datasets. Importantly, mspace demonstrates consistent performance across datasets with varying training sizes, a notable advantage over TGNN models that require abundant training samples to effectively learn the spatiotemporal trends in the data. Therefore, employing mspace is advantageous in scenarios where the training sample availability is limited. Additionally, we establish theoretical bounds on multi-step forecasting error of mspace and show that it scales linearly with the number of forecast steps $q$ as $\mathcal{O}(q)$. For an asymptotically large number of nodes $n$, and timesteps $T$, the computational complexity of mspace grows linearly with both $n$, and $T$, i.e., $\mathcal{O}(nT)$, while its space complexity remains constant $\mathcal{O}(1)$. We compare the performance of various mspace variants against ten recent TGNN baselines and two classical baselines, ARIMA and the Kalman filter across ten real-world datasets. Additionally, we propose a technique to generate synthetic datasets to aid in evaluating node feature forecasting methods, with the potential to serve as a benchmark for future research. Lastly, we have investigate the interpretability of different mspace variants by analyzing model parameters alongside dataset characteristics to derive model and data-centric insights.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# 表現的・トラクタブルな確率的生成モデルの構築

Building Expressive and Tractable Probabilistic Generative Models: A Review ( http://arxiv.org/abs/2402.00759v2 )

ライセンス: Link先を確認
Sahil Sidheekh, Sriraam Natarajan, (参考訳) 本稿では、主に確率回路(PC)に着目した、トラクタブル確率生成モデリングの分野における進歩と技術について包括的調査を行う。 我々は、表現性とトラクタビリティの本質的にのトレードオフについて統一的な視点を提供し、表現的かつ効率的なPCの構築を可能にする設計原則とアルゴリズム拡張を強調し、この分野の分類学を提供する。 我々はまた、ディープ・ニューラル・モデルから概念を融合させることにより、ディープ・ハイブリッドPCを構築するための最近の取り組みについても論じ、この進化する分野における将来の研究を導くための課題とオープンな疑問を概説する。

We present a comprehensive survey of the advancements and techniques in the field of tractable probabilistic generative modeling, primarily focusing on Probabilistic Circuits (PCs). We provide a unified perspective on the inherent trade-offs between expressivity and tractability, highlighting the design principles and algorithmic extensions that have enabled building expressive and efficient PCs, and provide a taxonomy of the field. We also discuss recent efforts to build deep and hybrid PCs by fusing notions from deep neural models, and outline the challenges and open questions that can guide future research in this evolving field.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# アルゴリズム予測における人間の専門知識

Human Expertise in Algorithmic Prediction ( http://arxiv.org/abs/2402.00793v2 )

ライセンス: Link先を確認
Rohan Alur, Manish Raghavan, Devavrat Shah, (参考訳) アルゴリズムの予測に人間の専門知識を取り入れるための新しい枠組みを導入する。 我々のアプローチは、どんな予測アルゴリズムにも「同じように見える」入力を区別するために、人間の判断を使うことに焦点を当てている。 このフレーミングは、専門家がアルゴリズムのトレーニングデータにエンコードされていない情報(特に主観的な情報)にアクセスできることがしばしばあるため、予測タスクにおける人間とAIのコラボレーションの問題を明確にするものである、と我々は主張する。 この知見を応用して、人間のフィードバックを選択的に組み込むためのアルゴリズムの集合を開発し、実現可能な予測器の性能を向上させる。 アルゴリズムは人間よりも平均的に優れていることが多いが、人間の判断は特定のインスタンス(元アンティーと同一視できる)のアルゴリズム予測を大幅に改善できる。 X線分類タスクでは、このサブセットが患者の約30%を占めている。 我々のアプローチは、この異種性を明らかにする自然な方法を提供し、それによって効果的な人間とAIのコラボレーションを可能にします。

We introduce a novel framework for incorporating human expertise into algorithmic predictions. Our approach focuses on the use of human judgment to distinguish inputs which `look the same' to any feasible predictive algorithm. We argue that this framing clarifies the problem of human/AI collaboration in prediction tasks, as experts often have access to information -- particularly subjective information -- which is not encoded in the algorithm's training data. We use this insight to develop a set of principled algorithms for selectively incorporating human feedback only when it improves the performance of any feasible predictor. We find empirically that although algorithms often outperform their human counterparts on average, human judgment can significantly improve algorithmic predictions on specific instances (which can be identified ex-ante). In an X-ray classification task, we find that this subset constitutes nearly 30% of the patient population. Our approach provides a natural way of uncovering this heterogeneity and thus enabling effective human-AI collaboration.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# LTAU-FF:原子間力場の不確かさの損失軌道解析

LTAU-FF: Loss Trajectory Analysis for Uncertainty in Atomistic Force Fields ( http://arxiv.org/abs/2402.00853v2 )

ライセンス: Link先を確認
Joshua A. Vita, Amit Samanta, Fei Zhou, Vincenzo Lordi, (参考訳) モデルアンサンブルは、深層学習原子論力場における予測の不確実性を推定するための有効なツールである。 しかし、それらの普及は高い計算コストと過信エラー推定によって妨げられている。 本研究では、トレーニング中に得られたサンプルごとの誤差の分布を利用して、モデル潜在空間における距離に基づく類似性探索を行うことにより、これらの課題に対処する。 LTAUと呼ばれるこの手法は、ログ化されたトレーニングエラーを用いて、任意のテストポイントのエラーの完全な確率分布関数(PDF)を効率的に推定し、通常のアンサンブル法よりも2~3桁高速な速度を実現し、複数のモデルの訓練や評価が不可能なタスクに使用できるようにする。 原子間力場(LTAU-FF)のパラメトリック不確かさを推定するためにLTAUを適用し、その改良されたアンサンブルの多様性がよく校正された信頼区間を生み出し、トレーニング領域近傍のデータの真のエラーと強く相関する誤差を予測する。 さらに,LTAU-FFにより予測される誤差は,領域外データの検出,モデル性能のチューニング,シミュレーション中の故障の予測に有効であることを示す。 LTAUは原子間力場における不確実性定量化(UQ)のための貴重なツールであり、機械学習の他の領域でさらに検討すべき有望な方法であると考えている。

Model ensembles are effective tools for estimating prediction uncertainty in deep learning atomistic force fields. However, their widespread adoption is hindered by high computational costs and overconfident error estimates. In this work, we address these challenges by leveraging distributions of per-sample errors obtained during training and employing a distance-based similarity search in the model latent space. Our method, which we call LTAU, efficiently estimates the full probability distribution function (PDF) of errors for any test point using the logged training errors, achieving speeds that are 2--3 orders of magnitudes faster than typical ensemble methods and allowing it to be used for tasks where training or evaluating multiple models would be infeasible. We apply LTAU towards estimating parametric uncertainty in atomistic force fields (LTAU-FF), demonstrating that its improved ensemble diversity produces well-calibrated confidence intervals and predicts errors that correlate strongly with the true errors for data near the training domain. Furthermore, we show that the errors predicted by LTAU-FF can be used in practical applications for detecting out-of-domain data, tuning model performance, and predicting failure during simulations. We believe that LTAU will be a valuable tool for uncertainty quantification (UQ) in atomistic force fields and is a promising method that should be further explored in other domains of machine learning.
翻訳日:2024-05-25 11:26:41 公開日:2024-05-22
# GPTを用いたリソームスクリーニングにおける障害バイアスの同定と改善

Identifying and Improving Disability Bias in GPT-Based Resume Screening ( http://arxiv.org/abs/2402.01732v2 )

ライセンス: Link先を確認
Kate Glazko, Yusuf Mohammed, Ben Kosa, Venkatesh Potluri, Jennifer Mankoff, (参考訳) ジェネレーティブAIの採用が進むにつれて、採用や採用といった領域にまで利用が拡大している。 しかし、バイアスの可能性を調べることなしに、これは障害のある人々を含む極端に人口に悪影響を及ぼす可能性がある。 そこで我々は,ChatGPT(具体的にはGPT-4)に,障害に関連するリーダーシップ賞,奨学金,パネルプレゼンテーション,メンバシップを付加して,同じ履歴書に対する履歴書のランク付けを依頼する。 GPT-4はこれらの拡張CVに対して偏見を示す。 さらに, この偏見は, DEI の原則と障害正義に基づいて, カスタム GPT を訓練することにより, 定量的に低減できることを示す。 また, GPT-4 は, バイアス決定を正当化し, さらなるバイアス軽減作業の方向性を提案するために, 直接的および間接的能力主義のタイプを定性的に分析する。 さらに、これらの正当化は、人間が生み出した現実の偏見のある言明を含む訓練データから引き出されたものと思われるので、我々の分析は人間の偏見を理解し、対処するための追加の道筋を示唆している。

As Generative AI rises in adoption, its use has expanded to include domains such as hiring and recruiting. However, without examining the potential of bias, this may negatively impact marginalized populations, including people with disabilities. To address this important concern, we present a resume audit study, in which we ask ChatGPT (specifically, GPT-4) to rank a resume against the same resume enhanced with an additional leadership award, scholarship, panel presentation, and membership that are disability related. We find that GPT-4 exhibits prejudice towards these enhanced CVs. Further, we show that this prejudice can be quantifiably reduced by training a custom GPTs on principles of DEI and disability justice. Our study also includes a unique qualitative analysis of the types of direct and indirect ableism GPT-4 uses to justify its biased decisions and suggest directions for additional bias mitigation work. Additionally, since these justifications are presumably drawn from training data containing real-world biased statements made by humans, our analysis suggests additional avenues for understanding and addressing human bias.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-22
# フラクタルパターンは次世代予測の成功を脅かすかもしれない

Fractal Patterns May Illuminate the Success of Next-Token Prediction ( http://arxiv.org/abs/2402.01825v2 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin, Vinh Q. Tran, Mostafa Dehghani, (参考訳) 本研究では, 言語のフラクタル構造について検討し, 疑わしいが公式には示されていない特性を定量化するために, 正確な定式化を提供することを目的としている。 言語は、(1)自己相似で、特定の文脈長を持たない粒度のあらゆるレベルで複雑さを示し、(2)長距離依存(LRD)であり、ハーストパラメータは約H=0.7である。 これらの結果から,文書全体などより広い範囲において,文節などの言語における短期的パターン・依存性が反映されていると論じる。 このことは、単語や節からより広い文脈や意図まで、さまざまなレベルの粒度のテキスト構造を、次世代の予測がどのように捉えられるか、ある程度の光を当てるかもしれない。 さらに, フラクタルパラメータが堅牢であることを示すため, 異なる領域やアーキテクチャにわたって広範囲に解析を行う。 最後に,LLMにまたがるフラクタルパラメータの小さな変動が,その下流性能を予測するために,パープレキシティベースのビット/バイト(BPB)を改善することを実証した。 これらの知見は,LLMの成功の基盤となる言語とメカニズムについて,新たな視点を与えてくれることを願っている。

We study the fractal structure of language, aiming to provide a precise formalism for quantifying properties that may have been previously suspected but not formally shown. We establish that language is: (1) self-similar, exhibiting complexities at all levels of granularity, with no particular characteristic context length, and (2) long-range dependent (LRD), with a Hurst parameter of approximately H=0.7. Based on these findings, we argue that short-term patterns/dependencies in language, such as in paragraphs, mirror the patterns/dependencies over larger scopes, like entire documents. This may shed some light on how next-token prediction can capture the structure of text across multiple levels of granularity, from words and clauses to broader contexts and intents. In addition, we carry out an extensive analysis across different domains and architectures, showing that fractal parameters are robust. Finally, we demonstrate that the tiny variations in fractal parameters seen across LLMs improve upon perplexity-based bits-per-byte (BPB) in predicting their downstream performance. We hope these findings offer a fresh perspective on language and the mechanisms underlying the success of LLMs.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-22
# LiPO:Learning-to-Rankによるリスショニング最適化

LiPO: Listwise Preference Optimization through Learning-to-Rank ( http://arxiv.org/abs/2402.01878v2 )

ライセンス: Link先を確認
Tianqi Liu, Zhen Qin, Junru Wu, Jiaming Shen, Misha Khalman, Rishabh Joshi, Yao Zhao, Mohammad Saleh, Simon Baumgartner, Jialu Liu, Peter J. Liu, Xuanhui Wang, (参考訳) 人間のフィードバックをキュレートした言語モデル(LM)の調整は、現実世界のアプリケーションでそれらの振る舞いを制御するために重要である。 DPOやSLiCといった最近の政策最適化手法は、従来のRLHF(Reinforcement Learning from Human Feedback)アプローチに代わる有望な代替手段として機能している。 実際には、人間のフィードバックは、複数のレスポンスにまたがってランク付けされたリストの形式で表示され、読み取りプロンプトのコストを償却する。 複数のレスポンスは報酬モデルやAIフィードバックによってランク付けすることもできる。 応答のリストに直接適合する、このような徹底的な研究は欠如している。 本稿では、LMアライメントを「textit{listwise}」ランキング問題として定式化し、LiPOフレームワークを記述する。 この見解はLTR(Learning-to-Rank)と明確に結びついており、既存の選好最適化作業のほとんどを既存のランク付け目標にマッピングすることができる。 本報告では,リストサイズが2の特別事例として,DPOとSLiCとのLMアライメントについて十分に研究されていないランク付け対象について検討する。 特に、現在最先端の \textit{listwise} ランキングの目的を活用し、それぞれの選好ペアをより高度な方法で重み付けする、特定のメソッドである LiPO-$\lambda$ を強調します。 LiPO-$\lambda$ は DPO と SLiC の変種を、キュレートされたデータと実ランクの選好データの両方で、いくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。

Aligning language models (LMs) with curated human feedback is critical to control their behaviors in real-world applications. Several recent policy optimization methods, such as DPO and SLiC, serve as promising alternatives to the traditional Reinforcement Learning from Human Feedback (RLHF) approach. In practice, human feedback often comes in a format of a ranked list over multiple responses to amortize the cost of reading prompt. Multiple responses can also be ranked by reward models or AI feedback. There lacks such a thorough study on directly fitting upon a list of responses. In this work, we formulate the LM alignment as a \textit{listwise} ranking problem and describe the LiPO framework, where the policy can potentially learn more effectively from a ranked list of plausible responses given the prompt. This view draws an explicit connection to Learning-to-Rank (LTR), where most existing preference optimization work can be mapped to existing ranking objectives. Following this connection, we provide an examination of ranking objectives that are not well studied for LM alignment with DPO and SLiC as special cases when list size is two. In particular, we highlight a specific method, LiPO-$\lambda$, which leverages a state-of-the-art \textit{listwise} ranking objective and weights each preference pair in a more advanced manner. We show that LiPO-$\lambda$ can outperform DPO variants and SLiC by a clear margin on several preference alignment tasks with both curated and real rankwise preference data.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-22
# 凸最適化によるニューラルネットワークに基づく生成拡散モデルの解析

Analyzing Neural Network-Based Generative Diffusion Models through Convex Optimization ( http://arxiv.org/abs/2402.01965v3 )

ライセンス: Link先を確認
Fangzhao Zhang, Mert Pilanci, (参考訳) 拡散モデルは、最先端の画像、ビデオ、オーディオ生成で広く利用されている。 スコアベース拡散モデルでは,入力データ分布のスコア関数を推定する必要がある。 本研究では,2層ニューラルネットワークを用いた拡散モデル解析のための理論的枠組みを提案する。 我々は,1つの凸プログラムを解くことで,スコア予測のための浅層ニューラルネットワークのトレーニングが可能であることを証明した。 拡散モデルのほとんどの解析は漸近的に行われるか近似に依存するが、正確な予測スコア関数を特徴づけ、有限データを持つニューラルネットワークベースの拡散モデルに対する収束結果を確立する。 本結果は, ニューラルネットワークに基づく拡散モデルが漸近的でない環境で何を学習するかを, 正確に評価するものである。

Diffusion models are gaining widespread use in cutting-edge image, video, and audio generation. Score-based diffusion models stand out among these methods, necessitating the estimation of score function of the input data distribution. In this study, we present a theoretical framework to analyze two-layer neural network-based diffusion models by reframing score matching and denoising score matching as convex optimization. We prove that training shallow neural networks for score prediction can be done by solving a single convex program. Although most analyses of diffusion models operate in the asymptotic setting or rely on approximations, we characterize the exact predicted score function and establish convergence results for neural network-based diffusion models with finite data. Our results provide a precise characterization of what neural network-based diffusion models learn in non-asymptotic settings.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-22
# 分散化:Gromov-Wassersteinによる次元化とクラスタリング

Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein ( http://arxiv.org/abs/2402.02239v2 )

ライセンス: Link先を確認
Hugues Van Assel, Cédric Vincent-Cuaz, Nicolas Courty, Rémi Flamary, Pascal Frossard, Titouan Vayer, (参考訳) 教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。 伝統的に、これは低次元空間にデータを投影したり、意味のあるクラスタ(クラスタリング)にポイントを整理するために次元還元法(DR)を用いる。 本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。 これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。 我々は、複数の画像およびゲノムデータセット間で異なるスケールのデータを表す低次元プロトタイプの識別と、その関連性を実証的に実証した。

Unsupervised learning aims to capture the underlying structure of potentially large and high-dimensional datasets. Traditionally, this involves using dimensionality reduction (DR) methods to project data onto lower-dimensional spaces or organizing points into meaningful clusters (clustering). In this work, we revisit these approaches under the lens of optimal transport and exhibit relationships with the Gromov-Wasserstein problem. This unveils a new general framework, called distributional reduction, that recovers DR and clustering as special cases and allows addressing them jointly within a single optimization problem. We empirically demonstrate its relevance to the identification of low-dimensional prototypes representing data at different scales, across multiple image and genomic datasets.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-22
# 限界を超えて:大規模言語モデルにおける文脈長を拡張する手法の調査

Beyond the Limits: A Survey of Techniques to Extend the Context Length in Large Language Models ( http://arxiv.org/abs/2402.02244v2 )

ライセンス: Link先を確認
Xindi Wang, Mahsa Salmani, Parsa Omidi, Xiangyu Ren, Mehdi Rezagholizadeh, Armaghan Eshaghi, (参考訳) 近年,大規模言語モデル (LLM) は,文脈理解,論理的推論への関与,応答の生成など,顕著な能力を示している。 しかし、これは厳密な計算とメモリの要求を犠牲にして達成され、長い入力シーケンスを効果的にサポートする能力を妨げる。 本調査は,LLMのシーケンス長を延長するために考案された最近の手法と手法を包括的にレビューし,長文理解の能力を高めるものである。 特に、計算要求の比例的な増加を回避しつつ、より長いシーケンスの処理を強化するために設計された、修正された位置符号化や変更された注意機構などのアーキテクチャ変更を含む幅広い手法をレビューし、分類する。 本研究で検討した多種多様な手法は, LLMの異なる位相,すなわちトレーニング, 微調整, 推論に利用することができる。 これにより、LLMは拡張シーケンスを効率的に処理できる。 今後の研究の方向性を示唆する上で,LLMの継続的な進歩におけるシーケンス長の重要性を浮き彫りにした上で,現行の方法論の限界について論じる。

Recently, large language models (LLMs) have shown remarkable capabilities including understanding context, engaging in logical reasoning, and generating responses. However, this is achieved at the expense of stringent computational and memory requirements, hindering their ability to effectively support long input sequences. This survey provides an inclusive review of the recent techniques and methods devised to extend the sequence length in LLMs, thereby enhancing their capacity for long-context understanding. In particular, we review and categorize a wide range of techniques including architectural modifications, such as modified positional encoding and altered attention mechanisms, which are designed to enhance the processing of longer sequences while avoiding a proportional increase in computational requirements. The diverse methodologies investigated in this study can be leveraged across different phases of LLMs, i.e., training, fine-tuning and inference. This enables LLMs to efficiently process extended sequences. The limitations of the current methodologies is discussed in the last section along with the suggestions for future research directions, underscoring the importance of sequence length in the continued advancement of LLMs.
翻訳日:2024-05-25 07:19:21 公開日:2024-05-22
# ユニバーサル時系列予測変換器の統一訓練

Unified Training of Universal Time Series Forecasting Transformers ( http://arxiv.org/abs/2402.02592v2 )

ライセンス: Link先を確認
Gerald Woo, Chenghao Liu, Akshat Kumar, Caiming Xiong, Silvio Savarese, Doyen Sahoo, (参考訳) 時系列予測のためのディープラーニングは、伝統的に1モデル毎のデータセットフレームワークで運用されており、大きな事前訓練されたモデルのゲーム変更の影響を活用できる可能性を制限する。 膨大な時系列データセットの事前トレーニングから生まれたユニバーサル予測の概念は、さまざまな下流予測タスクに対処できる単一の大規模時系列モデルを想定している。 しかし、そのようなモデルの構築は時系列データに特有の固有の課題を生じさせる。 クロス周波数学習; クロス周波数学習 二 多変量時系列の任意の数の変数を収容すること。 三 大規模データに固有の様々な分布特性に対処すること。 これらの課題に対処するため,我々は従来の時系列トランスフォーマーアーキテクチャを改良し,Masked EncoderをベースとしたUniversal Time Series Forecasting Transformer(Moirai)を提案する。 新たに導入した大規模オープンタイムシリーズアーカイブ(LOTSA)で、9つのドメインにわたる27B以上の観測を特徴とし、フルショットモデルと比較してゼロショットの予測器として、競争力や優れたパフォーマンスを実現している。 コード、データ、モデルの重み付けはhttps://github.com/SalesforceAIResearch/uni2tsで確認できる。

Deep learning for time series forecasting has traditionally operated within a one-model-per-dataset framework, limiting its potential to leverage the game-changing impact of large pre-trained models. The concept of universal forecasting, emerging from pre-training on a vast collection of time series datasets, envisions a single Large Time Series Model capable of addressing diverse downstream forecasting tasks. However, constructing such a model poses unique challenges specific to time series data: i) cross-frequency learning, ii) accommodating an arbitrary number of variates for multivariate time series, and iii) addressing the varying distributional properties inherent in large-scale data. To address these challenges, we present novel enhancements to the conventional time series Transformer architecture, resulting in our proposed Masked Encoder-based Universal Time Series Forecasting Transformer (Moirai). Trained on our newly introduced Large-scale Open Time Series Archive (LOTSA) featuring over 27B observations across nine domains, Moirai achieves competitive or superior performance as a zero-shot forecaster when compared to full-shot models. Code, data, and model weights can be found at https://github.com/SalesforceAIResearch/uni2ts.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-22
# zkSNARKを用いた機械学習モデルの検証評価

Verifiable evaluations of machine learning models using zkSNARKs ( http://arxiv.org/abs/2402.02675v2 )

ライセンス: Link先を確認
Tobin South, Alexander Camuto, Shrey Jain, Shayla Nguyen, Robert Mahari, Christian Paquin, Jason Morton, Alex 'Sandy' Pentland, (参考訳) クローズドソースの商用機械学習モデルの増加の世界では、開発者によるモデル評価を顔の値で行う必要があります。 これらのベンチマーク結果(タスクの正確性、バイアス評価、安全チェックなど)は、ブラックボックスモデル出力でベンチマークを再実行するコストや不可能なプロセスなしで、モデルエンドユーザーによる検証は従来不可能である。 本研究は,zkSNARKによるモデル推論を用いたモデル評価の検証手法を提案する。 結果として得られたデータセットに対するモデル出力のゼロ知識の計算証明は、固定されたプライベートウェイトを持つモデルが、パブリックインプットよりも表現されたパフォーマンスまたはフェアネスのメトリクスを達成することを示す検証可能な評価証明にパッケージ化することができる。 本稿では,様々な計算条件の標準的なニューラルネットワークモデル上で,検証可能な証明を実行できるフレキシブルな証明システムを提案する。 実世界のモデルのサンプルでこれを初めてデモし、重要な課題と設計ソリューションを強調します。 これは、プライベートモデルの検証可能な評価において、新しい透明性パラダイムを示す。

In a world of increasing closed-source commercial machine learning models, model evaluations from developers must be taken at face value. These benchmark results-whether over task accuracy, bias evaluations, or safety checks-are traditionally impossible to verify by a model end-user without the costly or impossible process of re-performing the benchmark on black-box model outputs. This work presents a method of verifiable model evaluation using model inference through zkSNARKs. The resulting zero-knowledge computational proofs of model outputs over datasets can be packaged into verifiable evaluation attestations showing that models with fixed private weights achieve stated performance or fairness metrics over public inputs. We present a flexible proving system that enables verifiable attestations to be performed on any standard neural network model with varying compute requirements. For the first time, we demonstrate this across a sample of real-world models and highlight key challenges and design solutions. This presents a new transparency paradigm in the verifiable evaluation of private models.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-22
# 構成的特徴アライメントによる構成的一般化の促進

Enhancing Compositional Generalization via Compositional Feature Alignment ( http://arxiv.org/abs/2402.02851v2 )

ライセンス: Link先を確認
Haoxiang Wang, Haozhe Si, Huajie Shao, Han Zhao, (参考訳) 機械学習モデルの現実的な応用は、トレーニングとテストデータの分散の間には相違点があるため、データ分散シフトに直面することが多い。 一般的なマルチドメインのマルチクラス設定では、クラスとドメインの数がスケールアップするにつれて、ドメインとクラスの組み合わせごとにトレーニングデータを集めることは不可能になる。 この課題は自然に、合成一般化(CG)能力を持つモデルを探し求め、モデルが目に見えないドメイン-クラスの組み合わせに一般化できる。 CGの課題を掘り下げるために,既存の実世界の画像データセットから派生したCGベンチマークスイートであるCG-Benchを開発し,CLIPやDINOv2といった基礎モデルの事前学習ファインタニングパラダイムが課題に対処していることを観察する。 この課題に対処するために,簡単な2段階ファインタニング手法であるコンポジション・フィーチャーアライメント(CFA)を提案する。 一 クラス及びドメインラベルに関する事前訓練されたエンコーダ上で二本の直交線形ヘッドを学習すること。 二 新たに学習した頭部を凍結したエンコーダを微調整すること。 我々は、CFAが事前学習されたモデルの合成特徴学習を促進することを理論的かつ実証的に正当化する。 CG-Bench for CLIP と DINOv2, 2つの強力な事前学習型視覚基盤モデルについて広範な実験を行った。 実験の結果, CFAは合成一般化において一般的な微調整技術より優れており, 合成特徴学習におけるCFAの有効性が相関していることがわかった。

Real-world applications of machine learning models often confront data distribution shifts, wherein discrepancies exist between the training and test data distributions. In the common multi-domain multi-class setup, as the number of classes and domains scales up, it becomes infeasible to gather training data for every domain-class combination. This challenge naturally leads the quest for models with Compositional Generalization (CG) ability, where models can generalize to unseen domain-class combinations. To delve into the CG challenge, we develop CG-Bench, a suite of CG benchmarks derived from existing real-world image datasets, and observe that the prevalent pretraining-finetuning paradigm on foundational models, such as CLIP and DINOv2, struggles with the challenge. To address this challenge, we propose Compositional Feature Alignment (CFA), a simple two-stage finetuning technique that i) learns two orthogonal linear heads on a pretrained encoder with respect to class and domain labels, and ii) fine-tunes the encoder with the newly learned head frozen. We theoretically and empirically justify that CFA encourages compositional feature learning of pretrained models. We further conduct extensive experiments on CG-Bench for CLIP and DINOv2, two powerful pretrained vision foundation models. Experiment results show that CFA outperforms common finetuning techniques in compositional generalization, corroborating CFA's efficacy in compositional feature learning.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-22
# 1次元ボース格子気体における境界不純物:低エネルギー特性とクエンチ誘起ダイナミクス

Bound impurities in a one-dimensional Bose lattice gas: low-energy properties and quench-induced dynamics ( http://arxiv.org/abs/2402.03070v2 )

ライセンス: Link先を確認
Felipe Isaule, Abel Rojo-Francàs, Bruno Juliá-Díaz, (参考訳) 1次元の光学格子に浸漬され、ボゾン浴と相互作用する2つの移動体ボソン不純物について検討した。 小周期格子の正確な対角化法を用いて定常特性と力学を研究する。 バイポーラロン問題と同様、不純物の生成を誘発する反発相互作用の分岐を考える。 不純物の束縛された二量体の形成を誘導する相互作用強度の検証を含む、基底状態および低エネルギー特性の包括的研究を行った。 また, 相互作用クエンチ後に誘起されるダイナミクスについて検討し, 境界二量体の安定性について検討した。 強い相互作用から弱い相互作用への大きな相互作用クエンチの後、系は二量体状態の回復とともに時間とともに大きな振動を示す。 この振動は、位相分離された構成を持つ選択された固有状態によって駆動される。

We study two mobile bosonic impurities immersed in a one-dimensional optical lattice and interacting with a bosonic bath. We employ the exact diagonalization method for small periodic lattices to study stationary properties and dynamics. We consider the branch of repulsive interactions that induce the formation of bound impurities, akin to the bipolaron problem. A comprehensive study of ground-state and low-energy properties is presented, including an examination of the interaction strengths which induce the formation of a bound dimer of impurities. We also study the dynamics induced after an interaction quench to examine the stability of the bound dimers. We reveal that after large interaction quenches from strong to weak interactions the system can show large oscillations over time with revivals of the dimer states. We find that the oscillations are driven by selected eigenstates with phase-separated configurations.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-22
# 情報理論アクティブ相関クラスタリング

Information-Theoretic Active Correlation Clustering ( http://arxiv.org/abs/2402.03587v2 )

ライセンス: Link先を確認
Linus Aronsson, Morteza Haghir Chehreghani, (参考訳) ペアの類似性が事前に分かっていない相関クラスタリングについて検討する。 この目的のために,我々は能動的学習を用いて,対角的類似性を低コストで問合せする。 本稿では,エントロピーと情報ゲインに基づく効果的な情報理論獲得関数を提案する。 提案手法の性能を異なる設定で広範囲に検討し,提案手法と比較して優れた性能を示す。

We study correlation clustering where the pairwise similarities are not known in advance. For this purpose, we employ active learning to query pairwise similarities in a cost-efficient way. We propose a number of effective information-theoretic acquisition functions based on entropy and information gain. We extensively investigate the performance of our methods in different settings and demonstrate their superior performance compared to the alternatives.
翻訳日:2024-05-25 07:09:37 公開日:2024-05-22
# CogCoM: 操作の連鎖を通して細部を分割した大型ビジョンランゲージモデルの訓練

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations ( http://arxiv.org/abs/2402.04236v2 )

ライセンス: Link先を確認
Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang, (参考訳) VLM(Vision-Language Models)は、視覚的な指示を応答に合わせるための広範囲なトレーニングによって、その幅広い効果を実証している。 しかし、このような決定的なアライメントのトレーニングは、モデルに必須の視覚的推論を無視させ、さらに微妙な視覚的問題や不信な反応の失敗をもたらす。 本稿では,視覚的問題(例えば,マーキング,ズームイン)の解決において,人間の認知からインスピレーションを得た上で,VLMを段階的に解決する機構であるマニピュレーションの連鎖を導入する。 トレーニング後、モデルは、外部ツールを介さずに、結果(例えば、ボックス、画像)と本質的な操作(例えば、接地、ズームイン)を積極的に行うことで、さまざまな視覚的問題を解決することができる。 本研究では,(1)広範分析に基づく操作の柔軟な設計,(2)効率的な自動データ生成パイプライン,(3)マルチターンマルチイメージが可能な互換性のあるVLMアーキテクチャ,(4)汎用機能のためのモデルトレーニングプロセスなど,このメカニズムを実現するためのロードマップについて検討する。 この設計では,問題となる数学的な問題に対して,手動で6Kの高品質なサンプルをアノテートする。 トレーニングされたモデルである \textbf{CogCoM} は、17Bパラメーターを備えたこの機構を備え、4つのカテゴリから9つのベンチマークの最先端性能を達成し、解釈可能性を維持しながらの有効性を実証する。 私たちのコード、モデルウェイト、収集されたデータはhttps://github.com/THUDM/CogCoM.comで公開されています。

Vision-Language Models (VLMs) have demonstrated their broad effectiveness thanks to extensive training in aligning visual instructions to responses. However, such training of conclusive alignment leads models to ignore essential visual reasoning, further resulting in failures in meticulous visual problems and unfaithful responses. Drawing inspiration from human cognition in solving visual problems (e.g., marking, zoom in), this paper introduces Chain of Manipulations, a mechanism that enables VLMs to solve problems step-by-step with evidence. After training, models can solve various visual problems by eliciting intrinsic manipulations (e.g., grounding, zoom in) with results (e.g., boxes, image) actively without involving external tools, while also allowing users to trace error causes. We study the roadmap to implement this mechanism, including (1) a flexible design of manipulations upon extensive analysis, (2) an efficient automated data generation pipeline, (3) a compatible VLM architecture capable of multi-turn multi-image, and (4) a model training process for versatile capabilities. With the design, we also manually annotate 6K high-quality samples for the challenging graphical mathematical problems. Our trained model, \textbf{CogCoM}, equipped with this mechanism with 17B parameters achieves state-of-the-art performance across 9 benchmarks from 4 categories, demonstrating the effectiveness while preserving the interpretability. Our code, model weights, and collected data are publicly available at https://github.com/THUDM/CogCoM.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-22
# L4Q: 大規模言語モデルにおけるパラメータの量子化効率を考慮したファインチューニング

L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models ( http://arxiv.org/abs/2402.04902v3 )

ライセンス: Link先を確認
Hyesung Jeon, Yulhwa Kim, Jae-joon Kim, (参考訳) 大規模言語モデルに付随する高メモリと計算コストのため、量子化によるモデル圧縮や低ランク適応(LoRA)のようなパラメータ効率の微調整(PEFT)手法が普及している。 これは、高い精度とメモリオーバーヘッドの低いモデルを作成することを目的とした、量子化対応PEFT技術に関する活発な研究につながっている。 量子化法のうち、PTQ(Post-training Quantization)はQATの精度が高いにもかかわらず、QAT(Quantization-Aware Training)よりも以前の研究でよく使われている。 これはPTQのトレーニングオーバーヘッドが低いためである。 しかし、PTQベースのPEFT法は、しばしば高精度なパラメータを利用するため、量子化の効率を完全に活用することは困難である。 さらに、LoRAパラメータ構造が小さく制約されたため、適応能力が制限される。 これらの課題を克服するために,共同量子化と微調整を活用してQATのメモリオーバーヘッドを低減するL4Qを提案する。 設計上、L4Qは量化パラメータが重み更新を反映するのに対して、重み更新は量子化エラーを減らす。 実験により, この結合量子化法と微調整法は, サブ4ビット量子化における非結合細調整法よりも精度が高いことを示した。 LLaMAモデルファミリとインストラクショナルデータセットを用いて,L4Qの言語タスクと数発のテキスト内学習能力を示す。

Due to the high memory and computational costs associated with Large Language Models, model compression via quantization and parameter-efficient fine-tuning (PEFT) methods, such as low-rank adaptation (LoRA), are gaining popularity. This has led to active research on quantization-aware PEFT techniques, which aim to create models with high accuracy and low memory overhead. Among quantization methods, post-training quantization (PTQ) is more commonly used in previous works than quantization-aware training (QAT), despite QAT's potential for higher accuracy. This preference is due to PTQ's low training overhead. However, PTQ-based PEFT methods often utilize high-precision parameters, making it difficult to fully exploit the efficiency of quantization. Additionally, they have limited adaptation ability due to a reduced and constrained LoRA parameter structure. To overcome these challenges, we propose L4Q, which leverages joint quantization and fine-tuning to reduce QAT's memory overhead and produce models that consist entirely of quantized weights while achieving effective adaptation to downstream tasks. By design, L4Q allows quantization parameters to reflect weight updates, while weight updates reduce quantization errors. Our experiments demonstrate that this coupled quantization and fine-tuning approach yields superior accuracy compared to decoupled fine-tuning schemes in sub-4-bit quantization. Using the LLaMA model families and instructional datasets, we showcase L4Q's capabilities in language tasks and few-shot in-context learning.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-22
# 入射拡散:確率サンプリングによる効率的な最適化

Implicit Diffusion: Efficient Optimization through Stochastic Sampling ( http://arxiv.org/abs/2402.05468v2 )

ライセンス: Link先を確認
Pierre Marion, Anna Korba, Peter Bartlett, Mathieu Blondel, Valentin De Bortoli, Arnaud Doucet, Felipe Llinares-López, Courtney Paquette, Quentin Berthet, (参考訳) パラメータ化確率拡散により暗黙的に定義された分布を最適化するアルゴリズムを提案する。 そのため、サンプリングプロセスの結果の分布をパラメータを最適化することで変更することができる。 本稿では,これらのプロセスの1次最適化のための一般的なフレームワークについて紹介する。 このアプローチは、2レベル最適化と自動暗黙微分の最近の進歩に触発され、サンプリングの視点を確率分布の空間上の最適化として活用する。 提案手法の性能に関する理論的保証と,その有効性を示す実験結果を提供する。 エネルギーベースモデルのトレーニングや拡散の微調整に応用する。

We present a new algorithm to optimize distributions defined implicitly by parameterized stochastic diffusions. Doing so allows us to modify the outcome distribution of sampling processes by optimizing over their parameters. We introduce a general framework for first-order optimization of these processes, that performs jointly, in a single loop, optimization and sampling steps. This approach is inspired by recent advances in bilevel optimization and automatic implicit differentiation, leveraging the point of view of sampling as optimization over the space of probability distributions. We provide theoretical guarantees on the performance of our method, as well as experimental results demonstrating its effectiveness. We apply it to training energy-based models and finetuning denoising diffusions.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-22
# 自然言語による実験と規則改正と確率論的推論

Doing Experiments and Revising Rules with Natural Language and Probabilistic Reasoning ( http://arxiv.org/abs/2402.06025v6 )

ライセンス: Link先を確認
Wasu Top Piriyakulkij, Cassidy Langenfeld, Tuan Anh Le, Kevin Ellis, (参考訳) 実験によって自然言語規則を推論する方法のモデルを提供する。 このモデルは、大規模言語モデル(LLM)とモンテカルロアルゴリズムを統合し、確率的推論を行い、情報理論の基準の下で実験設計とオンライン信念の更新をインターリーブする。 我々は,禅道的な課題に対して人間モデルの比較を行い,人間のデータモデリングの重要な要素は,人間がほぼベイズ的信念の更新を行うのに加えて,ファジィで確率的なルールも考慮していると仮定することである。 また,LLMを用いて仮説の生成と修正を行った最近のアルゴリズムと比較し,オンライン推論手法が真のルールを回復する際の精度を高め,最適実験の設計を支援する。

We give a model of how to infer natural language rules by doing experiments. The model integrates Large Language Models (LLMs) with Monte Carlo algorithms for probabilistic inference, interleaving online belief updates with experiment design under information-theoretic criteria. We conduct a human-model comparison on a Zendo-style task, finding that a critical ingredient for modeling the human data is to assume that humans also consider fuzzy, probabilistic rules, in addition to assuming that humans perform approximately-Bayesian belief updates. We also compare with recent algorithms for using LLMs to generate and revise hypotheses, finding that our online inference method yields higher accuracy at recovering the true underlying rule, and provides better support for designing optimal experiments.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-22
# Pairwise Lossesによるグラディエントアライメント回帰

Gradient Aligned Regression via Pairwise Losses ( http://arxiv.org/abs/2402.06104v3 )

ライセンス: Link先を確認
Dixian Zhu, Tianbao Yang, Livnat Jerby, (参考訳) 回帰は機械学習の基本的なタスクであり、過去数十年にわたって大きな注目を集めてきた。 従来の回帰手法では、個々のデータサンプルに対して、主にモデル予測と基底真理の整合に集中する損失関数を用いる。 最近の研究は、潜在特徴空間に余分な対正則化を課し、レグレッションとラベルの類似性を取り入れて、新しい視点を導入し、その効果を実証している。 しかし、これらのアプローチには2つの欠点がある。 一 遅延特徴空間における一対の操作は、従来の回帰損失よりも計算上高価である。 二 このような正規化の背後にある理論上の正当性を欠いていること。 本研究では,GAR(Gradient Aligned Regression)をラベル空間における競合的代替手法として提案する。 GARは次のように楽しむ。 一 従来の回帰損失と同じレベルの効率であって、一対の損失の二次的な複雑さを線形的な複雑性に還元することができること。 二 相互ラベル差の学習から地中真理関数の勾配の学習までの理論的洞察。 ノイズやアウトレーヤ、分散シフトなどを伴わないクリーンなデータ設定のレグレッションとして、現在のスコープを制限します。 提案手法は,2つの合成データセットと,他の8つの競合ベースラインを持つ6つのベンチマークデータセットからの8つの広範囲な実世界のタスクに対して実演的に有効であることを示す。 ランニングタイム実験は, 既存手法に比べて, 遅延特徴空間におけるペアワイズ正則化が優れていることを示すとともに, 各々の成分の有効性を検証した。

Regression is a fundamental task in machine learning that has garnered extensive attention over the past decades. The conventional approach for regression involves employing loss functions that primarily concentrate on aligning model prediction with the ground truth for each individual data sample. Recent research endeavors have introduced novel perspectives by incorporating label similarity to regression via imposing extra pairwise regularization on the latent feature space and demonstrated the effectiveness. However, there are two drawbacks for those approaches: i) their pairwise operation in latent feature space is computationally more expensive than conventional regression losses; ii) it lacks of theoretical justifications behind such regularization. In this work, we propose GAR (Gradient Aligned Regression) as a competitive alternative method in label space, which is constituted by a conventional regression loss and two pairwise label difference losses for gradient alignment including magnitude and direction. GAR enjoys: i) the same level efficiency as conventional regression loss because the quadratic complexity for the proposed pairwise losses can be reduced to linear complexity; ii) theoretical insights from learning the pairwise label difference to learning the gradient of the ground truth function. We limit our current scope as regression on the clean data setting without noises, outliers or distributional shifts, etc. We demonstrate the effectiveness of the proposed method practically on two synthetic datasets and on eight extensive real-world tasks from six benchmark datasets with other eight competitive baselines. Running time experiments demonstrate the superior efficiency of the proposed GAR over existing methods with pairwise regularization in latent feature space and ablation studies demonstrate the effectiveness of each component for GAR.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-22
# 物理インフォームドニューラルネットワーク(PINN)における特徴マッピング

Feature Mapping in Physics-Informed Neural Networks (PINNs) ( http://arxiv.org/abs/2402.06955v2 )

ライセンス: Link先を確認
Chengxi Zeng, Tilo Burghardt, Alberto M Gambaruto, (参考訳) 本稿では,共役カーネルとニューラルタンジェントカーネルの制限による特徴写像層を用いたPINNの訓練力学を考察し,PINNの収束に光を当てる。 これらの2つのスコープから、より優れた代替として条件付き正定根基関数を提案する。 最後に、広義のニューラルネットワークにおいて、特徴マッピングを数値的に検討する。 実験結果から,多種多様な前方および逆問題集合における本手法の有効性が明らかとなった。 構成的特徴関数は、表現性と一般化可能性トレードオフ(viz.)に対処し、カーネルの帯域幅と特徴写像関数のサージェクティビティをチューニングする実用的な方法である。 この単純な手法は入力のコーディネートのために実装することができ、より広範なPINNの研究に役立てることができる。

In this paper, the training dynamics of PINNs with a feature mapping layer via the limiting Conjugate Kernel and Neural Tangent Kernel is investigated, shedding light on the convergence of PINNs; Although the commonly used Fourier-based feature mapping has achieved great success, we show its inadequacy in some physics scenarios. Via these two scopes, we propose conditionally positive definite Radial Basis Function as a better alternative. Lastly, we explore the feature mapping numerically in a wide neural networks. Our empirical results reveal the efficacy of our method in diverse forward and inverse problem sets. Composing feature functions is found to be a practical way to address the expressivity and generalisability trade-off, viz., tuning the bandwidth of the kernels and the surjectivity of the feature mapping function. This simple technique can be implemented for coordinate inputs and benefits the broader PINNs research.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-22
# 難易度の高い確率的協調ゲームにおける期待コアの学習

Learning the Expected Core of Strictly Convex Stochastic Cooperative Games ( http://arxiv.org/abs/2402.07067v2 )

ライセンス: Link先を確認
Nam Phuong Tran, The Anh Ta, Shuqing Shi, Debmalya Mandal, Yali Du, Long Tran-Thanh, (参考訳) 信用割当問題としても知られるリワード割当は、経済学、工学、機械学習において重要なトピックである。 報酬配分における重要な概念は、大連立から逸脱する動機を持つエージェントがいない安定した配分の集合である。 これまでの研究では、コアの計算には決定論的ゲームにおける報酬関数の知識や確率的ゲームにおける報酬分布の知識が必要である。 しかし、報酬関数や分布は部分的にしか知られておらず、不確実性にさらされることがあるため、これは非現実的である。 本稿では,報奨分布が不明な確率的協調ゲームにおける中核的学習問題について考察する。 私たちのゴールは、期待されるコア、すなわち、各ラウンドで結束された連立に確率的な報酬を返す託宣を与えられたときに安定したアロケーションのセットを学ぶことです。 厳密な凸ゲーム(英語版)のクラス内では、高い確率で多項式数の標本が与えられた期待コアの点を返す「texttt{Common-Points-Picking}」というアルゴリズムを提示する。 このアルゴリズムを解析するために、複数の凸集合に対する分離超平面定理の新たな拡張を開発する。

Reward allocation, also known as the credit assignment problem, has been an important topic in economics, engineering, and machine learning. An important concept in reward allocation is the core, which is the set of stable allocations where no agent has the motivation to deviate from the grand coalition. In previous works, computing the core requires either knowledge of the reward function in deterministic games or the reward distribution in stochastic games. However, this is unrealistic, as the reward function or distribution is often only partially known and may be subject to uncertainty. In this paper, we consider the core learning problem in stochastic cooperative games, where the reward distribution is unknown. Our goal is to learn the expected core, that is, the set of allocations that are stable in expectation, given an oracle that returns a stochastic reward for an enquired coalition each round. Within the class of strictly convex games, we present an algorithm named \texttt{Common-Points-Picking} that returns a point in the expected core given a polynomial number of samples, with high probability. To analyse the algorithm, we develop a new extension of the separation hyperplane theorem for multiple convex sets.
翻訳日:2024-05-25 06:59:47 公開日:2024-05-22
# LLMauditor:Human-in-the-Loopを用いた大規模言語モデル監査フレームワーク

LLMAuditor: A Framework for Auditing Large Language Models Using Human-in-the-Loop ( http://arxiv.org/abs/2402.09346v3 )

ライセンス: Link先を確認
Maryam Amirizaniani, Jihan Yao, Adrian Lavergne, Elizabeth Snell Okada, Aman Chadha, Tanya Roosta, Chirag Shah, (参考訳) 大きな言語モデル(LLM)がさまざまなユーザやシナリオに広く普及するにつれて、これらのモデルを使用する際の潜在的な問題を特定することが不可欠になります。 そのような問題の例としては、バイアス、矛盾、幻覚などがある。 これらの問題に対するLSMの監査は保証されることが多いが、ほとんどの場合、そのようなプロセスは簡単でもアクセス可能でもない。 有効な方法は、同じ質問の異なるバージョンを用いてLLMを探索することである。 これは知識や操作の不整合を露呈し、偏見や幻覚の可能性を示唆する。 しかし、この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。 本稿では,HIL(Human-in-the-loop)とともに異なるLLMを使用する,自動かつスケーラブルなソリューションであるLLMAuditorフレームワークを提案する。 このアプローチは、検証可能性と透明性を提供すると同時に、同じLLMへの円形依存を回避し、科学的厳密さと一般化可能性を高める。 具体的には、LLMAuditorは、応答を検証するための標準化された評価基準と、望ましいプローブを生成するための構造化されたプロンプトテンプレートの2つのフェーズを含む。 TruthfulQAデータセットからの質問を用いたケーススタディでは、1つのLLMから信頼性の高いプローブセットを生成し、異なるLLMの不整合を監査できることを示した。 このプロセスは、HILを用いた構造化プロンプトテンプレートによって強化され、監査におけるアプローチの信頼性を高めるだけでなく、幻覚の少ない結果の配信も可能となる。 本研究の新規性は,LLMが生成した応答を監査するためのHIL検証プロンプトテンプレートを含む,総合的,汎用的なフレームワークの開発に端を発する。

As Large Language Models (LLMs) become more pervasive across various users and scenarios, identifying potential issues when using these models becomes essential. Examples of such issues include: bias, inconsistencies, and hallucination. Although auditing the LLM for these problems is often warranted, such a process is neither easy nor accessible for most. An effective method is to probe the LLM using different versions of the same question. This could expose inconsistencies in its knowledge or operation, indicating potential for bias or hallucination. However, to operationalize this auditing method at scale, we need an approach to create those probes reliably and automatically. In this paper we propose the LLMAuditor framework which is an automatic, and scalable solution, where one uses a different LLM along with human-in-the-loop (HIL). This approach offers verifiability and transparency, while avoiding circular reliance on the same LLM, and increasing scientific rigor and generalizability. Specifically, LLMAuditor includes two phases of verification using humans: standardized evaluation criteria to verify responses, and a structured prompt template to generate desired probes. A case study using questions from the TruthfulQA dataset demonstrates that we can generate a reliable set of probes from one LLM that can be used to audit inconsistencies in a different LLM. This process is enhanced by our structured prompt template with HIL, which not only boosts the reliability of our approach in auditing but also yields the delivery of less hallucinated results. The novelty of our research stems from the development of a comprehensive, general-purpose framework that includes a HIL verified prompt template for auditing responses generated by LLMs.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-22
# SPAR:Long Engagement Attentionによるパーソナライズされたコンテンツベースのレコメンデーション

SPAR: Personalized Content-Based Recommendation via Long Engagement Attention ( http://arxiv.org/abs/2402.10555v2 )

ライセンス: Link先を確認
Chiyu Zhang, Yifei Sun, Jun Chen, Jie Lei, Muhammad Abdul-Mageed, Sinong Wang, Rong Jin, Sem Park, Ning Yao, Bo Long, (参考訳) パーソナライズされたコンテンツのレコメンデーションには、ユーザの長いエンゲージメント履歴を活用することが不可欠だ。 NLPにおける事前訓練言語モデル(PLM)の成功は、ユーザ履歴や候補項目をエンコードし、コンテンツレコメンデーションをテキストセマンティックマッチングタスクとしてフレーミングするのに役立っている。 しかし、既存の作業は、非常に長いユーザ履歴テキストの処理と、ユーザとイテムの相互作用の不十分さに苦慮している。 本稿では,コンテンツベースのレコメンデーションフレームワークであるSPARを紹介し,長いユーザエンゲージメント履歴から全体的ユーザ関心抽出の課題を効果的に解決する。 PLM、ポリアテンション・レイヤ、アテンション・スパシティ・メカニズムを活用して、セッションベースでユーザーの履歴をエンコードする。 ユーザ側とアイテム側の特徴は、双方のスタンドアロン表現を維持しながら、エンゲージメント予測に十分な融通を保ち、実用的なモデル展開に効率的である。 さらに,ユーザエンゲージメント履歴からグローバルな関心を抽出するために,大規模言語モデル(LLM)を活用してユーザプロファイリングを強化する。 2つのベンチマークデータセットに対する大規模な実験は、我々のフレームワークが既存の最先端(SoTA)メソッドより優れていることを示している。

Leveraging users' long engagement histories is essential for personalized content recommendations. The success of pretrained language models (PLMs) in NLP has led to their use in encoding user histories and candidate items, framing content recommendations as textual semantic matching tasks. However, existing works still struggle with processing very long user historical text and insufficient user-item interaction. In this paper, we introduce a content-based recommendation framework, SPAR, which effectively tackles the challenges of holistic user interest extraction from the long user engagement history. It achieves so by leveraging PLM, poly-attention layers and attention sparsity mechanisms to encode user's history in a session-based manner. The user and item side features are sufficiently fused for engagement prediction while maintaining standalone representations for both sides, which is efficient for practical model deployment. Moreover, we enhance user profiling by exploiting large language model (LLM) to extract global interests from user engagement history. Extensive experiments on two benchmark datasets demonstrate that our framework outperforms existing state-of-the-art (SoTA) methods.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-22
# パラ水素超偏極ダイナミクスのライブ磁気観察

Live magnetic observation of parahydrogen hyperpolarization dynamics ( http://arxiv.org/abs/2402.10766v2 )

ライセンス: Link先を確認
James Eills, Morgan W. Mitchell, Irene Marco Rius, Michael C. D. Tayler, (参考訳) 分子内の超偏極核スピンは、古典的な偏極技術では達成できない高い磁化を示し、物理学、化学、医学のセンサーとして広く用いられる。 しかし、高偏極物質の状態は通常、共鳴ピックアップ核磁気共鳴分光法やイメージングによる従来の検出の性質のため、間接的および部分的な磁化破壊によってのみ研究される。 ここでは、サブpT感度の原子磁気センサを代替モードとして確立し、磁化過程を妨害したり中断したりすることなく、高偏極物質の複雑なダイナミクスをリアルタイムで検出する。 従来の方法ではリアルタイムに検出できないダイナミクスの例として、パラ水素誘起の$^{1}$Hと$^{13}$Cの磁化を、adiabatic eigenbasis transformations at \si{\micro\tesla}-field avoided crossingsにおいて検討する。 連続的だが非破壊的な磁気メトリーは、以前は目に見えないスピンダイナミクス、忠実度制限、磁化バックアクション効果を示す。 第2の例として、磁気学を用いて、[1--$^{13}$C]-ピルビン酸の化学交換駆動型$^{13}$C超分極を観察する。 我々のアプローチは他の高感度磁気センサと容易に結合することができ、高偏極化合物の生成、輸送、システム相互作用を含む幅広い一般的な観測シナリオに適用できる。

Hyperpolarized nuclear spins in molecules exhibit high magnetization that is unachievable by classical polarization techniques, making them widely used as sensors in physics, chemistry, and medicine. The state of a hyperpolarized material, however, is typically only studied indirectly and with partial destruction of magnetization, due to the nature of conventional detection by resonant-pickup nuclear magnetic resonance spectroscopy or imaging. Here we establish atomic magnetometers with sub-pT sensitivity as an use an alternative modality to detect in real time the complex dynamics of hyperpolarized materials without disturbing or interrupting the magnetogenesis process. As an example of dynamics that are impossible to detect in real time by conventional means, we examine parahydrogen-induced $^{1}$H and $^{13}$C magnetization during adiabatic eigenbasis transformations at \si{\micro\tesla}-field avoided crossings. Continuous but nondestructive magnetometry reveals previously unseen spin dynamics, fidelity limits, and magnetization back-action effects. As a second example, we apply magnetometry to observe the chemical-exchange-driven $^{13}$C hyperpolarization of [1--$^{13}$C]-pyruvate -- the most important spin tracer for clinical metabolic imaging. Our approach can be readily combined with other high-sensitivity magnetometers and is applicable to a broader range of general observation scenarios involving production, transport and systems interaction of hyperpolarized compounds.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-22
# AFaCTA:信頼性LLMアノテーションを用いたFactual Claim Detectionのアノテーション支援

AFaCTA: Assisting the Annotation of Factual Claim Detection with Reliable LLM Annotators ( http://arxiv.org/abs/2402.11073v2 )

ライセンス: Link先を確認
Jingwei Ni, Minjing Shi, Dominik Stammbach, Mrinmaya Sachan, Elliott Ash, Markus Leippold, (参考訳) 生成AIの台頭に伴い、誤情報に対処する自動ファクトチェック手法がますます重要になっている。 しかし、ファクトチェックパイプラインの最初のステップである事実的クレーム検出は、そのスケーラビリティと一般化性を制限する2つの重要な問題に悩まされている。 1) 関連作業における定義を概観し, 検証性に着目した事実的主張の統一的定義を提案する。 2) に対処するため,我々は AFaCTA (Automatic Factual Claim deTection Annotator) を紹介した。 AFaCTAは、3つの事前定義された推論経路に沿って、アノテーションの信頼度を一貫性で調整する。 政治的スピーチの領域における広範囲な評価と実験により、AFaCTAは、事実の主張を注釈付けし、高品質な分類器を訓練する専門家を効率的に支援し、専門家の監督なしに作業できることが明らかになった。 PoliClaimは、さまざまな政治的トピックにまたがる包括的なクレーム検出データセットである。

With the rise of generative AI, automated fact-checking methods to combat misinformation are becoming more and more important. However, factual claim detection, the first step in a fact-checking pipeline, suffers from two key issues that limit its scalability and generalizability: (1) inconsistency in definitions of the task and what a claim is, and (2) the high cost of manual annotation. To address (1), we review the definitions in related work and propose a unifying definition of factual claims that focuses on verifiability. To address (2), we introduce AFaCTA (Automatic Factual Claim deTection Annotator), a novel framework that assists in the annotation of factual claims with the help of large language models (LLMs). AFaCTA calibrates its annotation confidence with consistency along three predefined reasoning paths. Extensive evaluation and experiments in the domain of political speech reveal that AFaCTA can efficiently assist experts in annotating factual claims and training high-quality classifiers, and can work with or without expert supervision. Our analyses also result in PoliClaim, a comprehensive claim detection dataset spanning diverse political topics.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-22
# OneBit: 極低ビット大規模言語モデルを目指して

OneBit: Towards Extremely Low-bit Large Language Models ( http://arxiv.org/abs/2402.11295v3 )

ライセンス: Link先を確認
Yuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che, (参考訳) モデル量子化は、既存のモデルの重量行列を表現するために、低ビット幅の値を使用する。 しかし、現在の量子化法は、ビット幅が極端に小さくなると深刻な性能劣化に悩まされ、4ビットまたは8ビットの値を用いてモデルを量子化する。 本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。 そこで本研究では, 1ビットモデル圧縮フレームワークOneBitについて, LLMの量子化を向上する新しい1ビットパラメータ表現法と, 行列分解に基づく効果的なパラメータ初期化手法を導入し, 量子化フレームワークの収束速度を向上する。 十分な実験結果から,OneBitは1ビットの重み行列のみを使用する場合,ロバストなトレーニングプロセスで良好な性能(LLaMAモデルの非量子化性能の少なくとも81%)を達成できることが示唆された。

Model quantification uses low bit-width values to represent the weight matrices of existing models to be quantized, which is a promising approach to reduce both storage and computational overheads of deploying highly anticipated LLMs. However, current quantization methods suffer severe performance degradation when the bit-width is extremely reduced, and thus focus on utilizing 4-bit or 8-bit values to quantize models. This paper boldly quantizes the weight matrices of LLMs to 1-bit, paving the way for the extremely low bit-width deployment of LLMs. For this target, we introduce a 1-bit model compressing framework named OneBit, including a novel 1-bit parameter representation method to better quantize LLMs as well as an effective parameter initialization method based on matrix decomposition to improve the convergence speed of the quantization framework. Sufficient experimental results indicate that OneBit achieves good performance (at least 81% of the non-quantized performance on LLaMA models) with robust training processes when only using 1-bit weight matrices.
翻訳日:2024-05-25 06:50:03 公開日:2024-05-22
# 計画とは何か?言語モデルのための計画的手法の評価と開発

What's the Plan? Evaluating and Developing Planning-Aware Techniques for Language Models ( http://arxiv.org/abs/2402.11489v2 )

ライセンス: Link先を確認
Eran Hirsch, Guy Uziel, Ateret Anaby-Tavor, (参考訳) 計画は、特定の環境において特定の目標を達成する一連の行動を見つけることを含む、人工知能の基本的なタスクである。 大規模言語モデル(LLM)は、Webやエンボディエージェントのような計画機能を必要とするアプリケーションにますます使われています。 近年の研究では,LSMには計画に必要なスキルが欠如していることが実証されている。 これらの観測に基づいて,LLMと古典的計画手法を組み合わせたハイブリッドアプローチの可能性を提唱する。 次に,新しいハイブリッド手法であるSimPlanを紹介し,その性能を新たな挑戦的な設定で評価する。 様々な計画領域にわたる広範な実験により、SimPlanは既存のLLMベースのプランナーよりも大幅に優れていることが示された。

Planning is a fundamental task in artificial intelligence that involves finding a sequence of actions that achieve a specified goal in a given environment. Large language models (LLMs) are increasingly used for applications that require planning capabilities, such as web or embodied agents. In line with recent studies, we demonstrate through experimentation that LLMs lack necessary skills required for planning. Based on these observations, we advocate for the potential of a hybrid approach that combines LLMs with classical planning methodology. Then, we introduce SimPlan, a novel hybrid-method, and evaluate its performance in a new challenging setup. Our extensive experiments across various planning domains demonstrate that SimPlan significantly outperforms existing LLM-based planners.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-22
# 多エージェント協調における個人・集団目標の調整

Aligning Individual and Collective Objectives in Multi-Agent Cooperation ( http://arxiv.org/abs/2402.12416v2 )

ライセンス: Link先を確認
Yang Li, Wenhao Zhang, Jianhong Wang, Shao Zhang, Yali Du, Ying Wen, Wei Pan, (参考訳) マルチエージェント学習における研究トピックの中で、混合モチベーション協調は、主に個人と集団の目標のミスマッチによる、最も顕著な課題の1つである。 最先端の研究は、ドメイン知識を報酬に取り入れ、協力を促進するための追加のメカニズムを導入することに焦点を当てている。 しかしながら、これらのアプローチは手動設計の取り組みや理論的根拠の欠如といった欠点に直面していることが多い。 このギャップを埋めるために、我々は混合動機ゲームを、協調に向けて学習ダイナミクスを照らしやすくするための差別化可能なゲームとしてモデル化する。 より詳しくは、個人と集団の目的を段階的に整合させるために勾配調整を利用する、新しい最適化手法である \textbf{\textit{A}}ltruistic \textbf{\textit{G}}radient \textbf{\textit{A}}djustment (\textbf{\textit{A}}djustment (\textbf{\textit{AgA}})を導入する。 さらに,AgAが個人利害関係を考察しながら,集団目標の安定な定点への勾配を効果的に惹きつけることを理論的に証明し,これらの主張を実証的証拠で検証する。 我々は,2人プレイのパブリックグッドゲームや連続的なソーシャルジレンマゲーム,クリーンアップ,ハーベストといった小規模エージェントとの混合モチベーション協調テストのためのベンチマーク環境によるアルゴリズムAgAの有効性と,ゲームStarCraft IIにおける大規模環境の自己開発について評価した。

Among the research topics in multi-agent learning, mixed-motive cooperation is one of the most prominent challenges, primarily due to the mismatch between individual and collective goals. The cutting-edge research is focused on incorporating domain knowledge into rewards and introducing additional mechanisms to incentivize cooperation. However, these approaches often face shortcomings such as the effort on manual design and the absence of theoretical groundings. To close this gap, we model the mixed-motive game as a differentiable game for the ease of illuminating the learning dynamics towards cooperation. More detailed, we introduce a novel optimization method named \textbf{\textit{A}}ltruistic \textbf{\textit{G}}radient \textbf{\textit{A}}djustment (\textbf{\textit{AgA}}) that employs gradient adjustments to progressively align individual and collective objectives. Furthermore, we theoretically prove that AgA effectively attracts gradients to stable fixed points of the collective objective while considering individual interests, and we validate these claims with empirical evidence. We evaluate the effectiveness of our algorithm AgA through benchmark environments for testing mixed-motive collaboration with small-scale agents such as the two-player public good game and the sequential social dilemma games, Cleanup and Harvest, as well as our self-developed large-scale environment in the game StarCraft II.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-22
# 統合分類学指導によるエンティティ・セット・拡張と分類学・拡張のための授業・チューニング・フレームワーク

A Unified Taxonomy-Guided Instruction Tuning Framework for Entity Set Expansion and Taxonomy Expansion ( http://arxiv.org/abs/2402.13405v3 )

ライセンス: Link先を確認
Yanzhen Shen, Yu Zhang, Yunyi Zhang, Jiawei Han, (参考訳) エンティティセットの拡大、分類学の拡張、およびシード誘導型分類学構築は、既存の分類学を新しい概念で自動的に普及させることを目的とした3つの代表的なタスクである。 従来の研究では、これらを3つの別々のタスクと見なしており、提案手法は通常、1つの特定のタスクに対してのみ機能する。 本稿では,3つのタスクすべてに対する統一的な解を見つけることを目的とする。 具体的には,「兄弟」の発見と「親」の発見という,エンティティセットの拡大,分類拡張,種誘導型分類構築に必要な2つの共通スキルを明らかにした。 本稿では,これら2つのスキルの相互強化を促進する共同事前学習プロセスにおいて,大規模言語モデルを用いてクエリエンティティの兄弟と両親を生成するための分類誘導型指導訓練フレームワークを提案する。 複数のベンチマークデータセットに対する大規模な実験は、提案したTaxoInstructフレームワークの有効性を示している。

Entity set expansion, taxonomy expansion, and seed-guided taxonomy construction are three representative tasks that aim to automatically populate an existing taxonomy with new concepts. Previous studies view them as three separate tasks, and the proposed methods usually only work for one specific task, which lack generalizability and a holistic perspective across different tasks. In this paper, we aim to discover a unified solution to all three tasks. To be specific, we identify two common skills needed for entity set expansion, taxonomy expansion, and seed-guided taxonomy construction: finding "siblings" and finding "parents". We introduce a taxonomy-guided instruction tuning framework to teach a large language model to generate siblings and parents for query entities, where the joint pre-training process facilitates the mutual enhancement of these two skills. Extensive experiments on multiple benchmark datasets demonstrate the efficacy of our proposed TaxoInstruct framework, which outperforms task-specific baselines across all three tasks.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-22
# ACE : 因果性を考慮したエントロピー規則化によるオフポリシィアクター批判

ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization ( http://arxiv.org/abs/2402.14528v3 )

ライセンス: Link先を確認
Tianying Ji, Yongyuan Liang, Yan Zeng, Yu Luo, Guowei Xu, Jiawei Guo, Ruijie Zheng, Furong Huang, Fuchun Sun, Huazhe Xu, (参考訳) 政策学習過程における異なる原始的行動の異なる重要性は、以前のモデルフリーなRLアルゴリズムによって見過ごされてきた。 この知見を生かして、異なる行動次元と報酬の間の因果関係を探求し、訓練中の様々な原始的行動の重要性を評価する。 因果関係を意識したエントロピーという用語を導入し、効率的に探索するための潜在的影響の高いアクションを効果的に識別し、優先順位付けする。 さらに,特定の原始的行動に過度に焦点を合わせることを防ぐために,勾配休眠現象を解析し,休眠誘導リセット機構を導入し,本手法の有効性をさらに高める。 提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは、7つのドメインにまたがる29の異なる連続制御タスクに対して、モデルのないRLベースラインと比較して大きな性能上の優位性を示す。 ベンチマーク結果とビデオはhttps://ace-rl.github.io/.com/で公開されている。

The varying significance of distinct primitive behaviors during the policy learning process has been overlooked by prior model-free RL algorithms. Leveraging this insight, we explore the causal relationship between different action dimensions and rewards to evaluate the significance of various primitive behaviors during training. We introduce a causality-aware entropy term that effectively identifies and prioritizes actions with high potential impacts for efficient exploration. Furthermore, to prevent excessive focus on specific primitive behaviors, we analyze the gradient dormancy phenomenon and introduce a dormancy-guided reset mechanism to further enhance the efficacy of our method. Our proposed algorithm, ACE: Off-policy Actor-critic with Causality-aware Entropy regularization, demonstrates a substantial performance advantage across 29 diverse continuous control tasks spanning 7 domains compared to model-free RL baselines, which underscores the effectiveness, versatility, and efficient sample efficiency of our approach. Benchmark results and videos are available at https://ace-rl.github.io/.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-22
# 深部ニューラルネットワークは確率過程を学習したか?

Has the Deep Neural Network learned the Stochastic Process? A Wildfire Perspective ( http://arxiv.org/abs/2402.15163v3 )

ライセンス: Link先を確認
Harshit Kumar, Beomseok Kang, Biswadeep Chakraborty, Saibal Mukhopadhyay, (参考訳) 本稿では,確率力学系の進化を予測するために設計・訓練されたディープニューラルネットワーク(DNN)の回避に関する最初の体系的研究を,山火事予測を事例として提示する。 閾値に基づく分類基準と誤差に基づく評価基準に基づく従来の評価手法は、観測された基底真理(GT)を再現するDNNの能力を評価するが、基礎となる確率過程に関するDNNの学習の忠実度は測定しない。 このギャップに対処するために,確率過程のGTを表す統計GTと,統計GTに対する忠実度を専ら評価する評価指標という,新たなシステム特性を提案する。 合成データセットを用いて,この特性を特徴付ける確率的枠組みを導入し,提案した特性の有効な指標となる計量の基準を確立する。 我々は,予測校正誤差(ECE)が統計GTに対する忠実度に必要な条件を検証することを正式に示す。 実証実験を行い、従来の測定値とECEの挙動を区別し、ECEが確率過程への忠実度を専ら測定することを実証した。 実世界の山火事データに分析を拡張し、従来の評価手法の限界を強調し、既存のメトリクスとともに確率的プロセスに忠実さを評価する実用性について議論する。

This paper presents the first systematic study of evalution of Deep Neural Network (DNN) designed and trained to predict the evolution of a stochastic dynamical system, using wildfire prediction as a case study. We show that traditional evaluation methods based on threshold based classification metrics and error-based scoring rules assess a DNN's ability to replicate the observed ground truth (GT), but do not measure the fidelity of the DNN's learning of the underlying stochastic process. To address this gap, we propose a new system property: Statistic-GT, representing the GT of the stochastic process, and an evaluation metric that exclusively assesses fidelity to Statistic-GT. Utilizing a synthetic dataset, we introduce a stochastic framework to characterize this property and establish criteria for a metric to be a valid measure of the proposed property. We formally show that Expected Calibration Error (ECE) tests the necessary condition for fidelity to Statistic-GT. We perform empirical experiments, differentiating ECE's behavior from conventional metrics and demonstrate that ECE exclusively measures fidelity to the stochastic process. Extending our analysis to real-world wildfire data, we highlight the limitations of traditional evaluation methods and discuss the utility of evaluating fidelity to the stochastic process alongside existing metrics.
翻訳日:2024-05-25 06:38:52 公開日:2024-05-22
# Transductive Active Learning:理論と応用

Transductive Active Learning: Theory and Applications ( http://arxiv.org/abs/2402.15898v3 )

ライセンス: Link先を確認
Jonas Hübotter, Bhavya Sukhija, Lenart Treven, Yarden As, Andreas Krause, (参考訳) 本研究では,実世界の環境に適応するアクティブラーニングを具体的予測ターゲットで一般化し,サンプリングはドメインのアクセス可能な領域に制限されるが,予測ターゲットはこの領域の外に置かれる可能性がある。 我々は,予測対象の不確実性を最小限に抑えるために,適応的にサンプルをサンプリングする一連の決定ルールを解析する。 我々は、一般的な正則性仮定の下で、そのような決定規則がアクセス可能なデータから得られる最小の不確実性に一様に収束することを初めて示す。 大規模なニューラルネットワークのアクティブな数ショットの微調整と安全なベイズ最適化の2つの主要なアプリケーションで、その強力なサンプル効率を実証する。

We generalize active learning to address real-world settings with concrete prediction targets where sampling is restricted to an accessible region of the domain, while prediction targets may lie outside this region. We analyze a family of decision rules that sample adaptively to minimize uncertainty about prediction targets. We are the first to show, under general regularity assumptions, that such decision rules converge uniformly to the smallest possible uncertainty obtainable from the accessible data. We demonstrate their strong sample efficiency in two key applications: Active few-shot fine-tuning of large neural networks and safe Bayesian optimization, where they improve significantly upon the state-of-the-art.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-22
# スクラッチから始めるな:補間剤による政策拡散による行動的リファインメント

Don't Start from Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion ( http://arxiv.org/abs/2402.16075v3 )

ライセンス: Link先を確認
Kaiqi Chen, Eugene Lim, Kelvin Lin, Yiyang Chen, Harold Soh, (参考訳) 模倣学習は、人工エージェントがデモンストレーションから学ぶことによって、行動の模倣を促進する。 近年,高次元およびマルチモーダル分布をモデル化できる拡散モデルが,模倣学習タスクにおいて顕著な性能を示した。 これらのモデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学ぶ。 しかし、学習対象の方針はガウスとは大きく異なり、このミスマッチは、少数の拡散ステップ(推論速度を改善するために)を使用し、限られたデータの下では性能が低下する可能性がある。 この研究における鍵となる考え方は、ガウシアンよりも情報的な情報源から開始することで、上記の制限を緩和する拡散法が可能であるということである。 提案手法は,情報ソースポリシーの利点を示す理論的結果,新しい方法,実証的な知見の両方に寄与する。 我々の手法はBRIDGERと呼ばれ、確率補間フレームワークを利用して任意のポリシーをブリッジし、模倣学習への柔軟なアプローチを可能にする。 これは、標準ガウスがまだ適用可能であるという事前の作業を一般化するが、他のソースポリシーが利用可能であれば利用できる。 課題のあるシミュレーションベンチマークや実際のロボットの実験では、BRIDGERは最先端の拡散ポリシーより優れている。 BRIDGERを適用する際の設計上の考慮事項についてさらに分析する。 https://clear-nus.github.io/blog/bridger

Imitation learning empowers artificial agents to mimic behavior by learning from demonstrations. Recently, diffusion models, which have the ability to model high-dimensional and multimodal distributions, have shown impressive performance on imitation learning tasks. These models learn to shape a policy by diffusing actions (or states) from standard Gaussian noise. However, the target policy to be learned is often significantly different from Gaussian and this mismatch can result in poor performance when using a small number of diffusion steps (to improve inference speed) and under limited data. The key idea in this work is that initiating from a more informative source than Gaussian enables diffusion methods to mitigate the above limitations. We contribute both theoretical results, a new method, and empirical findings that show the benefits of using an informative source policy. Our method, which we call BRIDGER, leverages the stochastic interpolants framework to bridge arbitrary policies, thus enabling a flexible approach towards imitation learning. It generalizes prior work in that standard Gaussians can still be applied, but other source policies can be used if available. In experiments on challenging simulation benchmarks and on real robots, BRIDGER outperforms state-of-the-art diffusion policies. We provide further analysis on design considerations when applying BRIDGER. https://clear-nus.github.io/blog/bridger
翻訳日:2024-05-25 06:29:07 公開日:2024-05-22
# フェデレートラーニングにおけるハイパーパラメータのプライベートチューニング法 : ベンチマークスタディからの考察

How to Privately Tune Hyperparameters in Federated Learning? Insights from a Benchmark Study ( http://arxiv.org/abs/2402.16087v2 )

ライセンス: Link先を確認
Natalija Mitic, Apostolos Pyrgelis, Sinem Sav, (参考訳) 本稿では,クロスサイロ・フェデレーション・ラーニング(FL)におけるプライバシ保存型ハイパーパラメータ(HP)チューニングの問題に対処する。 まず、FLに適した様々なHP戦略をベンチマークする総合的な測定研究を行う。 ベンチマークの結果、FLサーバの最適パラメータ、例えば学習速度は、各クライアントがローカルデータに基づいて検出したHPに基づいて正確かつ効率的に調整できることがわかった。 我々は、HP平均化がiid設定に適していることを示し、密度ベースのクラスタリングは非iid設定のパラメータの最適セットを明らかにすることができることを示した。 そして、クライアントのローカルHPの交換による情報漏洩を防止するため、多党同型暗号を用いたプライバシ保存HPチューニングのための新しいフレームワークであるPrivTunaを設計、実装する。 プライバシ保存型フェデレーションと密度に基づくクラスタリングの実装にPrivTunaを用い,その計算/通信効率とハイパーパラメータのチューニング精度を実験的に評価した。

In this paper, we address the problem of privacy-preserving hyperparameter (HP) tuning for cross-silo federated learning (FL). We first perform a comprehensive measurement study that benchmarks various HP strategies suitable for FL. Our benchmarks show that the optimal parameters of the FL server, e.g., the learning rate, can be accurately and efficiently tuned based on the HPs found by each client on its local data. We demonstrate that HP averaging is suitable for iid settings, while density-based clustering can uncover the optimal set of parameters in non-iid ones. Then, to prevent information leakage from the exchange of the clients' local HPs, we design and implement PrivTuna, a novel framework for privacy-preserving HP tuning using multiparty homomorphic encryption. We use PrivTuna to implement privacy-preserving federated averaging and density-based clustering, and we experimentally evaluate its performance demonstrating its computation/communication efficiency and its precision in tuning hyperparameters.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-22
# リモートセンシング画像セグメンテーションのための雑音ラベルを用いたタスク特定事前学習

Task Specific Pretraining with Noisy Labels for Remote sensing Image Segmentation ( http://arxiv.org/abs/2402.16164v2 )

ライセンス: Link先を確認
Chenying Liu, Conrad Albrecht, Yi Wang, Xiao Xiang Zhu, (参考訳) 教師付きディープラーニングと比較して、セルフスーパービジョンは、人造地理空間アノテーションの正確な量を減らすためのリモートセンシングツールを提供する。 教師なし事前学習のための画像レベル情報は、様々な下流タスクに対して効率的に機能するが、モデル精度の観点からはピクセルレベルのセマンティックセマンティックセマンティックスラグのパフォーマンスが遅れている。 それとは対照的に、多くの手軽に利用可能なラベルソース(例えば、自動ラベル付けツールや土地被覆土地利用製品)が存在し、セグメンテーションモデルトレーニングのための大量のノイズラベルを提供することができる。 本研究では,モデル事前学習のためのノイズの多いセマンティックセグメンテーションマップを提案する。 我々の実験はネットワーク層ごとの堅牢性に関する洞察を提供する。 転送学習設定は、事前訓練されたエンコーダが異なるラベルクラスやデコーダに対して微調整された場合をテストする。 2つのデータセットから,ノイズラベルを用いたタスク固有教師付き事前学習の有効性が示唆された。 提案手法は, モデル精度の向上と, 効率的なリモートセンシング画像セグメンテーションのための新しい事前学習方法である。

Compared to supervised deep learning, self-supervision provides remote sensing a tool to reduce the amount of exact, human-crafted geospatial annotations. While image-level information for unsupervised pretraining efficiently works for various classification downstream tasks, the performance on pixel-level semantic segmentation lags behind in terms of model accuracy. On the contrary, many easily available label sources (e.g., automatic labeling tools and land cover land use products) exist, which can provide a large amount of noisy labels for segmentation model training. In this work, we propose to exploit noisy semantic segmentation maps for model pretraining. Our experiments provide insights on robustness per network layer. The transfer learning settings test the cases when the pretrained encoders are fine-tuned for different label classes and decoders. The results from two datasets indicate the effectiveness of task-specific supervised pretraining with noisy labels. Our findings pave new avenues to improved model accuracy and novel pretraining strategies for efficient remote sensing image segmentation.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-22
# 単位群表現の学習による抽象記号関係の発見

Discovering Abstract Symbolic Relations by Learning Unitary Group Representations ( http://arxiv.org/abs/2402.17002v4 )

ライセンス: Link先を確認
Dongsung Huh, (参考訳) シンボリック・オペレーション・コンプリート(SOC)の原理的アプローチについて検討する。 概念的には行列完備化に似ているが、SOCは離散記号間の抽象的関係をモデル化する際、一意に挑戦する。 SOCは最小限のモデル(双線型写像)で、新しい分解アーキテクチャで効率的に解けることを実証する。 群表現理論にインスパイアされたこのアーキテクチャは、記号の行列埋め込みを利用して、各シンボルを他のシンボルに動的に影響を与える演算子としてモデル化する。 我々のモデルは、ほとんどのデータセットでTransformerベースラインに匹敵する、あるいは優れたサンプル効率で、SOC上で完全なテスト精度を達成します。 重要なことに、このモデルは一般群構造を学ぶことに対する暗黙の偏見を示し、基礎となる群のユニタリ表現を正確に発見する。 この顕著な性質は解釈可能性だけでなく、幾何学的深層学習における自動対称性発見に重要な意味を持つ。 全体として、本研究は、深層学習における抽象代数構造を発見するための強力な指針原理として群論を確立し、記号関係をモデル化するための伝統的なベクトル埋め込みの代替として行列表現を示す。

We investigate a principled approach for symbolic operation completion (SOC), a minimal task for studying symbolic reasoning. While conceptually similar to matrix completion, SOC poses a unique challenge in modeling abstract relationships between discrete symbols. We demonstrate that SOC can be efficiently solved by a minimal model - a bilinear map - with a novel factorized architecture. Inspired by group representation theory, this architecture leverages matrix embeddings of symbols, modeling each symbol as an operator that dynamically influences others. Our model achieves perfect test accuracy on SOC with comparable or superior sample efficiency to Transformer baselines across most datasets, while boasting significantly faster learning speeds (100-1000$\times$). Crucially, the model exhibits an implicit bias towards learning general group structures, precisely discovering the unitary representations of underlying groups. This remarkable property not only confers interpretability but also significant implications for automatic symmetry discovery in geometric deep learning. Overall, our work establishes group theory as a powerful guiding principle for discovering abstract algebraic structures in deep learning, and showcases matrix representations as a compelling alternative to traditional vector embeddings for modeling symbolic relationships.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-22
# ニューラルモデルにおけるビジョンランゲージSTEMスキルの測定

Measuring Vision-Language STEM Skills of Neural Models ( http://arxiv.org/abs/2402.17205v3 )

ライセンス: Link先を確認
Jianhao Shen, Ye Yuan, Srbuhi Mirzoyan, Ming Zhang, Chenguang Wang, (参考訳) ニューラルモデルのSTEMスキルをテストするための新しい挑戦を紹介する。 現実世界の問題は多くの場合、STEM(科学、技術、工学、数学)の知識を組み合わせて解決する必要がある。 既存のデータセットとは異なり、我々のデータセットはSTEMのマルチモーダル視覚言語情報を理解する必要がある。 私たちのデータセットは、この課題のための最大かつ最も包括的なデータセットの1つです。 448のスキルと、全STEM科目の1,073,146の質問が含まれている。 専門家レベルの能力を調べることに集中する既存のデータセットと比較して、我々のデータセットは、K-12カリキュラムに基づいて設計された基本的なスキルと質問を含んでいる。 ベンチマークにはCLIPやGPT-3.5-Turboといった最先端の基盤モデルも追加しています。 その結果、最近のモデルでは、データセットの下位レベルスキル(3年生では2.5%)のごく限られた数しか習得できないことがわかった。 実際、これらのモデルはまだ小学生の成績よりもかなり低い(54.7%)。 データセットのパフォーマンスを理解して向上するために、データセットのトレーニング分割についてモデルを教える。 改善された性能を観察しながらも,平均的な小学生に比べてモデル性能は比較的低いままである。 STEM問題を解決するには、コミュニティからの新しいアルゴリズムの革新が必要である。

We introduce a new challenge to test the STEM skills of neural models. The problems in the real world often require solutions, combining knowledge from STEM (science, technology, engineering, and math). Unlike existing datasets, our dataset requires the understanding of multimodal vision-language information of STEM. Our dataset features one of the largest and most comprehensive datasets for the challenge. It includes 448 skills and 1,073,146 questions spanning all STEM subjects. Compared to existing datasets that often focus on examining expert-level ability, our dataset includes fundamental skills and questions designed based on the K-12 curriculum. We also add state-of-the-art foundation models such as CLIP and GPT-3.5-Turbo to our benchmark. Results show that the recent model advances only help master a very limited number of lower grade-level skills (2.5% in the third grade) in our dataset. In fact, these models are still well below (averaging 54.7%) the performance of elementary students, not to mention near expert-level performance. To understand and increase the performance on our dataset, we teach the models on a training split of our dataset. Even though we observe improved performance, the model performance remains relatively low compared to average elementary students. To solve STEM problems, we will need novel algorithmic innovations from the community.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-22
# バランシング法:拡散モデルにおける分散誘導型デバイアス

Balancing Act: Distribution-Guided Debiasing in Diffusion Models ( http://arxiv.org/abs/2402.18206v2 )

ライセンス: Link先を確認
Rishubh Parihar, Abhijnya Bhat, Saswat Mallick, Abhipsa Basu, Jogendra Nath Kundu, R. Venkatesh Babu, (参考訳) 拡散モデル(DM)は、前例のない画像生成能力を持つ強力な生成モデルとして登場した。 これらのモデルは、データ拡張とクリエイティブなアプリケーションに広く利用されている。 しかし、DMはトレーニングデータセットに存在するバイアスを反映する。 これは特に、DMが1つのサブグループと他のグループ(例えば、女性と男性)を優先する顔の文脈において関係している。 本研究では,追加データやモデル再学習に頼ることなく,DMを劣化させる手法を提案する。 具体的には,生成した画像を所定の属性分布に従うように強制する分散誘導法を提案する。 これを実現するために、UNetを識別する潜在機能には、リッチな階層的セマンティクスが備わっており、デバイアス発生を誘導するためにも同様に活用できる、という重要な洞察に基づいて構築する。 ADP(Attribute Distribution Predictor)をトレーニングします - 潜伏した特徴を属性の分布にマッピングする小さなmlpです。 ADPは、既存の属性分類器から生成された擬似ラベルで訓練される。 ADPを用いた配電誘導により,公平な生成が可能となる。 提案手法は, 単一/複数属性間のバイアスを低減し, 非条件およびテキスト条件拡散モデルにおいて, ベースラインのマージンを著しく上回る。 さらに、生成されたデータとトレーニングセットを再バランスさせることにより、フェア属性分類器をトレーニングする下流タスクを提案する。

Diffusion Models (DMs) have emerged as powerful generative models with unprecedented image generation capability. These models are widely used for data augmentation and creative applications. However, DMs reflect the biases present in the training datasets. This is especially concerning in the context of faces, where the DM prefers one demographic subgroup vs others (eg. female vs male). In this work, we present a method for debiasing DMs without relying on additional data or model retraining. Specifically, we propose Distribution Guidance, which enforces the generated images to follow the prescribed attribute distribution. To realize this, we build on the key insight that the latent features of denoising UNet hold rich demographic semantics, and the same can be leveraged to guide debiased generation. We train Attribute Distribution Predictor (ADP) - a small mlp that maps the latent features to the distribution of attributes. ADP is trained with pseudo labels generated from existing attribute classifiers. The proposed Distribution Guidance with ADP enables us to do fair generation. Our method reduces bias across single/multiple attributes and outperforms the baseline by a significant margin for unconditional and text-conditional diffusion models. Further, we present a downstream task of training a fair attribute classifier by rebalancing the training set with our generated data.
翻訳日:2024-05-25 06:29:07 公開日:2024-05-22
# MaskLRF:回転不変3次元点解析のための局所参照フレームの自動符号化による自己教師付き事前学習

MaskLRF: Self-supervised Pretraining via Masked Autoencoding of Local Reference Frames for Rotation-invariant 3D Point Set Analysis ( http://arxiv.org/abs/2403.00206v2 )

ライセンス: Link先を確認
Takahiko Furuya, (参考訳) 視覚・言語分野での成功に続いて、マスク付き3次元点集合データによる自己教師付き事前学習(Masked Point Modeling (MPM))は、様々な下流タスクにおいて最先端の精度を達成している。 しかし、現在のMPM法は3次元点集合解析、すなわち3次元オブジェクト/シーンの回転に対する不変性に欠如している。 したがって、既存の MPM 法は、3次元点集合が矛盾する向きを持つような実世界の応用には必ずしも適していない。 本稿では,3次元点集合解析のための回転不変な自己教師付き事前学習フレームワークを初めて開発する。 提案アルゴリズムはMaskLRFと呼ばれ、3次元点集合の回転の影響を受けない局所参照フレーム(LRF)内の3次元点の自動符号化により、回転不変かつ高一般化可能な潜在特徴を学習する。 MaskLRFは、相対的なポーズエンコーディングと低レベルだがリッチな3D幾何を用いた特徴再構成を併用することで、潜在特徴の質を高める。 MaskLRFの有効性は、分類、セグメンテーション、登録、ドメイン適応を含む様々な下流タスクに関する広範な実験を通じて検証される。 そこで,MaskLRFは,非矛盾な向きを持つ3次元点集合の解析において,最先端の精度を実現していることを確認した。 コードは、https://github.com/takahikof/MaskLRFで入手できる。

Following the successes in the fields of vision and language, self-supervised pretraining via masked autoencoding of 3D point set data, or Masked Point Modeling (MPM), has achieved state-of-the-art accuracy in various downstream tasks. However, current MPM methods lack a property essential for 3D point set analysis, namely, invariance against rotation of 3D objects/scenes. Existing MPM methods are thus not necessarily suitable for real-world applications where 3D point sets may have inconsistent orientations. This paper develops, for the first time, a rotation-invariant self-supervised pretraining framework for practical 3D point set analysis. The proposed algorithm, called MaskLRF, learns rotation-invariant and highly generalizable latent features via masked autoencoding of 3D points within Local Reference Frames (LRFs), which are not affected by rotation of 3D point sets. MaskLRF enhances the quality of latent features by integrating feature refinement using relative pose encoding and feature reconstruction using low-level but rich 3D geometry. The efficacy of MaskLRF is validated via extensive experiments on diverse downstream tasks including classification, segmentation, registration, and domain adaptation. I confirm that MaskLRF achieves new state-of-the-art accuracies in analyzing 3D point sets having inconsistent orientations. Code will be available at: https://github.com/takahikof/MaskLRF
翻訳日:2024-05-25 06:19:24 公開日:2024-05-22
# 大規模エージェントの存在下でのグローバル意思決定のための効率的な強化学習

Efficient Reinforcement Learning for Global Decision Making in the Presence of Local Agents at Scale ( http://arxiv.org/abs/2403.00222v2 )

ライセンス: Link先を確認
Emile Anand, Guannan Qu, (参考訳) 我々は,グローバルな意思決定のための強化学習を,グローバルな意思決定者がすべてのローカルエージェントに影響を与える意思決定を行う多くのローカルエージェントの存在下で研究し,グローバルなエージェントとローカルエージェントの両方の報酬を最大化する政策を学ぶことを目的とする。 このような問題は、例えば需要応答、EV充電、キューなど、多くのアプリケーションを見つけます。 この環境では、エージェント数で指数関数的な状態/アクション空間のサイズのため、スケーラビリティは長年にわたる課題であった。 この研究は$\textt{SUB-SAMPLE-Q}$アルゴリズムを提案し、このアルゴリズムでは、グローバルエージェントが$k\leq n$ローカルエージェントをサブサンプルして、$k$で指数関数しか持たない最適ポリシーを計算し、$n$で指数関数的な標準メソッドから指数関数的なスピードアップを提供する。 学習されたポリシーは、$\tilde{O}(1/\sqrt{k}+\epsilon_{k,m})$の順序で最適ポリシーに収束することを示す。 また,需要応答設定と待ち行列設定で数値シミュレーションを行う。

We study reinforcement learning for global decision-making in the presence of many local agents, where the global decision-maker makes decisions affecting all local agents, and the objective is to learn a policy that maximizes the rewards of both the global and the local agents. Such problems find many applications, e.g. demand response, EV charging, queueing, etc. In this setting, scalability has been a long-standing challenge due to the size of the state/action space which can be exponential in the number of agents. This work proposes the $\texttt{SUB-SAMPLE-Q}$ algorithm where the global agent subsamples $k\leq n$ local agents to compute an optimal policy in time that is only exponential in $k$, providing an exponential speedup from standard methods that are exponential in $n$. We show that the learned policy converges to the optimal policy in the order of $\tilde{O}(1/\sqrt{k}+\epsilon_{k,m})$ as the number of sub-sampled agents $k$ increases, where $\epsilon_{k,m}$ is the Bellman noise, by proving a novel generalization of the Dvoretzky-Kiefer-Wolfowitz inequality to the regime of sampling without replacement. We also conduct numerical simulations in a demand-response setting and a queueing setting.
翻訳日:2024-05-25 06:19:24 公開日:2024-05-22
# 地理空間基礎モデルを用いたマルチスペクトルリモートセンシング画像検索

Multi-Spectral Remote Sensing Image Retrieval Using Geospatial Foundation Models ( http://arxiv.org/abs/2403.02059v2 )

ライセンス: Link先を確認
Benedikt Blumenstiel, Viktoria Moor, Romeo Kienzler, Thomas Brunschwiler, (参考訳) 画像検索は、大量の衛星画像を通して効率的な検索を可能にし、類似した画像をクエリーに返す。 ディープラーニングモデルは、アノテーションを必要とせずに、さまざまなセマンティックな概念をまたいだイメージを識別できる。 この研究は、PrithviのようなGeospatial Foundation Modelsをリモートセンシング画像検索に利用することを提案する。 一 マルチスペクトル衛星データを符号化するモデル及び 二 更なる微調整を行わずに一般化すること。 Prithviは6つのバンドを処理し、BigEarthNet-43で平均97.62%、フォレストNet-12で平均44.51%の精度を達成し、他のRGBベースモデルよりも優れています。 さらに,検索速度と精度のバランスをとる2値埋め込みによる3つの圧縮手法の評価を行った。 これらは、浮動小数点埋め込みと同じ精度を維持しながら、より短いハッシュコードの検索速度と32倍の圧縮で一致した。 コードはhttps://github.com/IBM/remote-sensing-image-retrieval.comで公開されている。

Image retrieval enables an efficient search through vast amounts of satellite imagery and returns similar images to a query. Deep learning models can identify images across various semantic concepts without the need for annotations. This work proposes to use Geospatial Foundation Models, like Prithvi, for remote sensing image retrieval with multiple benefits: i) the models encode multi-spectral satellite data and ii) generalize without further fine-tuning. We introduce two datasets to the retrieval task and observe a strong performance: Prithvi processes six bands and achieves a mean Average Precision of 97.62% on BigEarthNet-43 and 44.51% on ForestNet-12, outperforming other RGB-based models. Further, we evaluate three compression methods with binarized embeddings balancing retrieval speed and accuracy. They match the retrieval speed of much shorter hash codes while maintaining the same accuracy as floating-point embeddings but with a 32-fold compression. The code is available at https://github.com/IBM/remote-sensing-image-retrieval.
翻訳日:2024-05-25 06:19:24 公開日:2024-05-22
# インテントベースネットワーク管理に向けて:5Gコアネットワークにおけるインテント抽出のための大規模言語モデル

Towards Intent-Based Network Management: Large Language Models for Intent Extraction in 5G Core Networks ( http://arxiv.org/abs/2403.02238v2 )

ライセンス: Link先を確認
Dimitrios Michael Manias, Ali Chouman, Abdallah Shami, (参考訳) 機械学習と人工知能(ML/AI)を第5世代(5G)ネットワークに統合することで、ネットワークインテリジェンスの限界が明確になった。 このユビキタスインテリジェンスへの移行は、ユーザとネットワークオペレータ間の高接続性、同期性、エンドツーエンドの通信を必要とする。 インテントベースのネットワークは、人間の行動、役割、責任を減らし、新規な抽出と自動ネットワーク管理の解釈へと移行する上で重要な要素である。 本稿では,5Gおよび次世代インテントベースネットワークのためのLLM(Large Language Model)の開発について紹介し,完全なネットワークインテリジェンスのためのエンドツーエンドインテントベースネットワークを実現するためのLCM開発と統合について考察する。

The integration of Machine Learning and Artificial Intelligence (ML/AI) into fifth-generation (5G) networks has made evident the limitations of network intelligence with ever-increasing, strenuous requirements for current and next-generation devices. This transition to ubiquitous intelligence demands high connectivity, synchronicity, and end-to-end communication between users and network operators, and will pave the way towards full network automation without human intervention. Intent-based networking is a key factor in the reduction of human actions, roles, and responsibilities while shifting towards novel extraction and interpretation of automated network management. This paper presents the development of a custom Large Language Model (LLM) for 5G and next-generation intent-based networking and provides insights into future LLM developments and integrations to realize end-to-end intent-based networking for fully automated network intelligence.
翻訳日:2024-05-25 06:19:24 公開日:2024-05-22
# Causal Prompting: フロントドア調整に基づく大規模言語モデルのプロンプトの回避

Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment ( http://arxiv.org/abs/2403.02738v2 )

ライセンス: Link先を確認
Congzhi Zhang, Linhai Zhang, Jialong Wu, Deyu Zhou, Yulan He, (参考訳) In-Context LearningやChain-of-Thought for Large Language Models (LLMs)のような既存のプロンプト手法の顕著な進歩にもかかわらず、それらは依然として様々なバイアスに関連する課題に直面している。 従来のデバイアス法は主に、データ拡張と再重み付けに基づくアプローチを含むモデルのトレーニング段階に重点を置いているが、LLMに固有の複雑なバイアスに苦慮している。 このような制約に対処するため、構造因果モデルを用いてプロンプト法の背後にある因果関係を解明し、LLMのバイアスを効果的に軽減するために、フロントドア調整に基づく新しい因果的プロンプト法を提案する。 具体的には、LSMのパラメータやロジットにアクセスせずにプロンプトを設計することで因果介入が達成される。 LLMが生成するチェーン・オブ・シントをメディエータ変数とし、入力プロンプトと出力応答の因果効果を、モデルバイアスを軽減するためのフロントドア調整により算出する。 さらに、思考の連鎖を正確に表現し、因果効果を推定するために、LLMの空間を整列させて思考の連鎖のエンコーダを微調整するために、コントラスト学習を用いる。 実験結果から,提案手法は7つの自然言語処理データセットに対して,オープンソースLLMとクローズドソースLLMの両方で優れた性能を実現することが示された。

Despite the notable advancements of existing prompting methods, such as In-Context Learning and Chain-of-Thought for Large Language Models (LLMs), they still face challenges related to various biases. Traditional debiasing methods primarily focus on the model training stage, including approaches based on data augmentation and reweighting, yet they struggle with the complex biases inherent in LLMs. To address such limitations, the causal relationship behind the prompting methods is uncovered using a structural causal model, and a novel causal prompting method based on front-door adjustment is proposed to effectively mitigate LLMs biases. In specific, causal intervention is achieved by designing the prompts without accessing the parameters and logits of LLMs. The chain-of-thought generated by LLM is employed as the mediator variable and the causal effect between input prompts and output answers is calculated through front-door adjustment to mitigate model biases. Moreover, to accurately represent the chain-of-thoughts and estimate the causal effects, contrastive learning is used to fine-tune the encoder of chain-of-thought by aligning its space with that of the LLM. Experimental results show that the proposed causal prompting approach achieves excellent performance across seven natural language processing datasets on both open-source and closed-source LLMs.
翻訳日:2024-05-25 06:19:24 公開日:2024-05-22
# テキスト誘導符号化による画素レベルと知覚忠実度の両方のニューラル画像圧縮

Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity ( http://arxiv.org/abs/2403.02944v2 )

ライセンス: Link先を確認
Hagyeong Lee, Minkyu Kim, Jun-Hyuk Kim, Seungeon Kim, Dokwan Oh, Jaeho Lee, (参考訳) テキスト誘導画像圧縮の最近の進歩は、再構成画像の知覚品質を高める大きな可能性を示している。 しかし、これらの手法はピクセル単位の忠実度を著しく低下させ、実用性を制限する傾向にある。 このギャップを埋めるために,高知覚率と画素ワイド忠実度を両立させる新しいテキスト誘導画像圧縮アルゴリズムを開発した。 特に,テキスト適応型エンコーディングと共同画像-テキストロスによるトレーニングを中心に,テキスト情報を活用する圧縮フレームワークを提案する。 これにより、高い生成多様性で知られるテキスト誘導生成モデルに基づく復号化を回避し、グローバルレベルでテキストの意味情報を効果的に活用する。 様々なデータセットを用いた実験結果から,本手法は人文・機械文のキャプションを用いて,高い画素レベル,知覚的品質を達成できることが示唆された。 特に,LPIPSでは,より慎重に生成されたキャプションを使用すれば,さらに改良の余地があるため,すべてのベースラインで性能が向上する。

Recent advances in text-guided image compression have shown great potential to enhance the perceptual quality of reconstructed images. These methods, however, tend to have significantly degraded pixel-wise fidelity, limiting their practicality. To fill this gap, we develop a new text-guided image compression algorithm that achieves both high perceptual and pixel-wise fidelity. In particular, we propose a compression framework that leverages text information mainly by text-adaptive encoding and training with joint image-text loss. By doing so, we avoid decoding based on text-guided generative models -- known for high generative diversity -- and effectively utilize the semantic information of text at a global level. Experimental results on various datasets show that our method can achieve high pixel-level and perceptual quality, with either human- or machine-generated captions. In particular, our method outperforms all baselines in terms of LPIPS, with some room for even more improvements when we use more carefully generated captions.
翻訳日:2024-05-25 06:19:24 公開日:2024-05-22
# 複数のインスタンス学習を超えて: 完全解像度のオールインメモリ・エンド・エンド・エンド・パス・スライド・モデリング

Beyond Multiple Instance Learning: Full Resolution All-In-Memory End-To-End Pathology Slide Modeling ( http://arxiv.org/abs/2403.04865v2 )

ライセンス: Link先を確認
Gabriele Campanella, Eugene Fluder, Jennifer Zeng, Chad Vanderbilt, Thomas J. Fuchs, (参考訳) 人工知能(AI)は、巨大なデジタル化された臨床データセットのトレーニングシステムによって、健康状態を改善する大きな可能性を秘めている。 計算病理学は、大量の顕微鏡画像データと診断やバイオマーカーへの影響で、この開発の最前線にいる。 ギガピクセルの病理図は、その巨大さからユニークな課題であり、通常分析のために数万の小さなタイルに分けられる。 これにより、スライドレベルのアグリゲータからタイルレベルのエンコーダのトレーニングを分離し、弱い教師付き学習戦略を採用する必要性が生じる。 病理学のスライド全体からのトレーニングモデルは、その計算上の課題のために、ほとんど探索されていない。 そこで本研究では,タイルエンコーダとスライドアグリゲータを完全メモリで,エンド・ツー・エンドで高解像度で,入力とスライドレベルの監視のギャップを埋める新しい手法を提案する。 計算コストは高いが、詳細な定量的検証は、病理基盤モデルの大規模事前学習と微調整を約束することを示している。

Artificial Intelligence (AI) has great potential to improve health outcomes by training systems on vast digitized clinical datasets. Computational Pathology, with its massive amounts of microscopy image data and impact on diagnostics and biomarkers, is at the forefront of this development. Gigapixel pathology slides pose a unique challenge due to their enormous size and are usually divided into tens of thousands of smaller tiles for analysis. This results in a discontinuity in the machine learning process by separating the training of tile-level encoders from slide-level aggregators and the need to adopt weakly supervised learning strategies. Training models from entire pathology slides end-to-end has been largely unexplored due to its computational challenges. To overcome this problem, we propose a novel approach to jointly train both a tile encoder and a slide-aggregator fully in memory and end-to-end at high-resolution, bridging the gap between input and slide-level supervision. While more computationally expensive, detailed quantitative validation shows promise for large-scale pre-training and fine-tuning of pathology foundation models.
翻訳日:2024-05-25 06:19:24 公開日:2024-05-22
# 機能的依存下における因果関係の同定

Identifying Causal Effects Under Functional Dependencies ( http://arxiv.org/abs/2403.04919v2 )

ライセンス: Link先を確認
Yizuo Chen, Adnan Darwiche, (参考訳) 因果グラフの変数が親によって機能的に決定されていることを知っていれば(特定の機能を知る必要がなければ)達成できる、識別可能性の2つの改善によって動機付けられた因果効果の同定について検討する。 第一に、特定できない因果効果は、ある変数が機能的であるときに識別できる。 第二に、ある種の機能変数は因果効果の識別可能性に影響を与えることなく観察されることを排除でき、観察データに必要な変数の数を大幅に減少させる可能性がある。 この結果は主に,因果効果の識別性を含む因果グラフの重要な特性を保ちながら,因果グラフから関数変数を除去する除去法に基づいている。

We study the identification of causal effects, motivated by two improvements to identifiability which can be attained if one knows that some variables in a causal graph are functionally determined by their parents (without needing to know the specific functions). First, an unidentifiable causal effect may become identifiable when certain variables are functional. Second, certain functional variables can be excluded from being observed without affecting the identifiability of a causal effect, which may significantly reduce the number of needed variables in observational data. Our results are largely based on an elimination procedure which removes functional variables from a causal graph while preserving key properties in the resulting causal graph, including the identifiability of causal effects.
翻訳日:2024-05-25 06:19:24 公開日:2024-05-22
# 組合せ最適化のためのGFlowNetsによるAnt Colonyサンプリング

Ant Colony Sampling with GFlowNets for Combinatorial Optimization ( http://arxiv.org/abs/2403.07041v2 )

ライセンス: Link先を確認
Minsu Kim, Sanghyeok Choi, Hyeonah Kim, Jiwoo Son, Jinkyoo Park, Yoshua Bengio, (参考訳) 本稿では,組合せ最適化(CO)のためのニューラルネットワークを用いた確率的探索アルゴリズムであるGFACS(Generative Flow Ant Colony Sampler)を紹介する。 GFACSは生成フローネットワーク(GFlowNets)と、確率的探索アルゴリズムであるアリコロニー最適化(ACO)を統合している。 具体的には、GFlowNetsを用いて、入力グラフインスタンスに条件付き決定変数に関する情報的事前分布を提供することにより、ACOを強化するための組合せ空間における構築ポリシーを学習する。 さらに, 局所探索と共有エネルギー正規化を利用して, 条件付きGFlowNetを大規模組合せ空間に拡張するための新しいオフ政治学習アルゴリズムを提案する。 実験の結果、GFACSは7つのCOタスクにおいてベースラインACOアルゴリズムよりも優れており、車両ルーティング問題に対する問題固有ヒューリスティックと競合することが示された。

This paper introduces the Generative Flow Ant Colony Sampler (GFACS), a neural-guided probabilistic search algorithm for solving combinatorial optimization (CO). GFACS integrates generative flow networks (GFlowNets), an emerging amortized inference method, with ant colony optimization (ACO), a promising probabilistic search algorithm. Specifically, we use GFlowNets to learn a constructive policy in combinatorial spaces for enhancing ACO by providing an informed prior distribution over decision variables conditioned on input graph instances. Furthermore, we introduce a novel off-policy training algorithm for scaling conditional GFlowNets into large-scale combinatorial spaces by leveraging local search and shared energy normalization. Our experimental results demonstrate that GFACS outperforms baseline ACO algorithms in seven CO tasks and is competitive with problem-specific heuristics for vehicle routing problems.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-22
# オンライン契約設計の新しい展望

New Perspectives in Online Contract Design ( http://arxiv.org/abs/2403.07143v2 )

ライセンス: Link先を確認
Shiliang Zuo, (参考訳) 本研究は, オンライン学習の観点から, 繰り返し主エージェント問題について考察する。 プリンシパルの目標は、エージェントのタイプ(すなわちエージェントのコストと生産機能)を事前に知ることなく、反復的な相互作用を通じて彼女の効用を最大化する最適な契約を学習することである。 この作品には3つの技術的成果が含まれている。 まず、線形契約をバイナリ結果で学習することは、未知の需要曲線を持つ動的価格と等価である。 第二に、同一のエージェントとほぼ最適な契約を学習することは、多項式サンプル複雑性スキームで実現できる。 第三に、不均一なエージェントとの最適契約を学習することは、穏やかな規則性条件下でリプシッツの帯域に還元することができる。 技術的結果は,近年のコンピュータ科学界の成果にほとんど無視されているような,経済学における主エージェント問題の既定モデルである1次元取り組みモデルが,学習の観点からのコントラクト設計の研究において,より適切な選択であることを示している。

This work studies the repeated principal-agent problem from an online learning perspective. The principal's goal is to learn the optimal contract that maximizes her utility through repeated interactions, without prior knowledge of the agent's type (i.e., the agent's cost and production functions). This work contains three technical results. First, learning linear contracts with binary outcomes is equivalent to dynamic pricing with an unknown demand curve. Second, learning an approximately optimal contract with identical agents can be accomplished with a polynomial sample complexity scheme. Third, learning the optimal contract with heterogeneous agents can be reduced to Lipschitz bandits under mild regularity conditions. The technical results demonstrate that the one-dimensional effort model, the default model for principal-agent problems in economics which seems largely ignored in recent works from the computer science community, may possibly be the more suitable choice when studying contract design from a learning perspective.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-22
# 大規模言語モデルは対照的な推論子である

Large Language Models are Contrastive Reasoners ( http://arxiv.org/abs/2403.08211v2 )

ライセンス: Link先を確認
Liang Yao, (参考訳) プロンプティング手法は、事前訓練された大規模言語モデル(LLM)の能力を高める上で重要な役割を担っている。 コントラッシブ・プロンプト(CP)は,大規模言語モデルの複雑な推論能力を大幅に向上させるかを検討する。 LLMが答えを出す前に、単に「正しい答えと間違った答えを与えよう」というだけで、LLMはまともな対照的な推論者であることを実証する。 GSM8Kの精度は35.9%から88.8%に、Aqua-RATは41.3%から62.2%に向上した。 提案手法は,ほとんどの算術的・常識的推論タスクにおいてゼロショットのCoTや少数ショットのCoTを超えるだけでなく,既存のプロンプトメソッドとシームレスに統合でき,その結果,最先端手法と比較して改善あるいは同等の結果が得られる。 私たちのコードはhttps://github.com/yao8839836/cpで利用可能です。

Prompting methods play a crucial role in enhancing the capabilities of pre-trained large language models (LLMs). We explore how contrastive prompting (CP) significantly improves the ability of large language models to perform complex reasoning. We demonstrate that LLMs are decent contrastive reasoners by simply adding "Let's give a correct and a wrong answer." before LLMs provide answers. Experiments on various large language models show that zero-shot contrastive prompting improves performance on a range of arithmetic, commonsense, and symbolic reasoning tasks without any hand-crafted few-shot examples, such as increasing the accuracy on GSM8K from 35.9% to 88.8% and AQUA-RAT from 41.3% to 62.2% with the state-of-the-art GPT-4 model. Our method not only surpasses zero-shot CoT and few-shot CoT in most arithmetic and commonsense reasoning tasks but also can seamlessly integrate with existing prompting methods, resulting in improved or comparable results when compared to state-of-the-art methods. Our code is available at https://github.com/yao8839836/cp
翻訳日:2024-05-25 06:09:38 公開日:2024-05-22
# 量子モンテカルロによる分配関数の計算法

Reweight-annealing method for calculating the value of partition function via quantum Monte Carlo ( http://arxiv.org/abs/2403.08642v3 )

ライセンス: Link先を確認
Yi-Ming Ding, Jun-Song Sun, Nvsen Ma, Gaopei Pan, Chen Cheng, Zheng Yan, (参考訳) 分割関数、自由エネルギー、熱エントロピー計算の効率的かつ正確なアルゴリズムは、統計物理学や量子多体物理学において非常に重要である。 ここでは、量子モンテカルロフレームワーク内のバイアスのない低技術バリアアルゴリズムについて述べる。 従来の比熱積分法やWang-Landauサンプリング法と比較すると,エントロピーのサブリード係数のより正確な結果が得られる。 この方法は古典的モンテカルロシミュレーションと量子的モンテカルロシミュレーションの両方で広く利用でき、コンピュータ上で容易に並列化できる。

Efficient and accurate algorithm for partition function, free energy and thermal entropy calculations is of great significance in statistical physics and quantum many-body physics. Here we present an unbiased but low-technical-barrier algorithm within the quantum Monte Carlo framework, which has exceptionally high accuracy and no systemic error. Compared with the conventional specific heat integral method and Wang-Landau sampling algorithm, our method can obtain a much more accurate result of the sub-leading coefficient of the entropy. This method can be widely used in both classical and quantum Monte Carlo simulations and is easy to be parallelized on computer.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-22
# パラメトリック統計モデル間のフィッシャー・ラオ距離の近似とバウンディング手法

Approximation and bounding techniques for the Fisher-Rao distances between parametric statistical models ( http://arxiv.org/abs/2403.10089v3 )

ライセンス: Link先を確認
Frank Nielsen, (参考訳) 統計モデルの2つの確率分布間のフィッシャー・ラオ距離は、フィッシャー情報計量によって誘導されるリーマン測地距離として定義される。 クローズド形式のフィッシャー・ラオ距離を計算するためには、(1)フィッシャー・ラオ測地線の式を導出し、(2)フィッシャー長要素をそれらの測地線に沿って積分する必要がある。 我々はフィッシャー・ラオ距離の数値的ロバストな近似とバウンディング手法について考察する: まず, サブモデルの閉形式1Dフィッシャー・ラオ距離に基づくフィッシャー・ラオ距離の一般上界について報告する。 第二に、フィッシャー・ラオ測地学やプレジオデシクスがクローズド形式で利用できるかどうかによって、いくつかの一般的な近似スキームを記述する。 特に,フィッシャー・ラオ・プレジェデシクスとタイト・ロウアー・アッパー・バウンドが利用できると仮定して,任意に小さな加法誤差を保証できる汎用的手法を得る。 第3に,フィッシャー測度がヘッセン測度である場合を考察し,情報幾何学の手法を用いて,フィッシャー・ラオ距離の総称的上界を報告する。 単パラメトリックおよび双パラメトリック統計モデルは、常にフィッシャー・ヘッセン計量を持ち、一般に、フィッシャー情報行列がヘッセン計量を生成するかどうかを確認するための単純なテストが可能である。 第4に、楕円分布系を考察し、上記の手法をこれらのモデルに適用する方法を示す。 また、フィッシャー・ラオ測地線のプロキシとして機能する曲線のフィッシャー・ラオ長に基づく2つの新しい距離や、バーコフ/ヒルベルト射影円錐距離に基づく2つの新しい距離を提案する。 最後に、フィッシャー・ラオ距離式の構造に関する洞察を得られる最大不変量の概念に基づいて、統計変換モデルに対する別の群論的アプローチを考える。

The Fisher-Rao distance between two probability distributions of a statistical model is defined as the Riemannian geodesic distance induced by the Fisher information metric. In order to calculate the Fisher-Rao distance in closed-form, we need (1) to elicit a formula for the Fisher-Rao geodesics, and (2) to integrate the Fisher length element along those geodesics. We consider several numerically robust approximation and bounding techniques for the Fisher-Rao distances: First, we report generic upper bounds on Fisher-Rao distances based on closed-form 1D Fisher-Rao distances of submodels. Second, we describe several generic approximation schemes depending on whether the Fisher-Rao geodesics or pregeodesics are available in closed-form or not. In particular, we obtain a generic method to guarantee an arbitrarily small additive error on the approximation provided that Fisher-Rao pregeodesics and tight lower and upper bounds are available. Third, we consider the case of Fisher metrics being Hessian metrics, and report generic tight upper bounds on the Fisher-Rao distances using techniques of information geometry. Uniparametric and biparametric statistical models always have Fisher Hessian metrics, and in general a simple test allows to check whether the Fisher information matrix yields a Hessian metric or not. Fourth, we consider elliptical distribution families and show how to apply the above techniques to these models. We also propose two new distances based either on the Fisher-Rao lengths of curves serving as proxies of Fisher-Rao geodesics, or based on the Birkhoff/Hilbert projective cone distance. Last, we consider an alternative group-theoretic approach for statistical transformation models based on the notion of maximal invariant which yields insights on the structures of the Fisher-Rao distance formula which may be used fruitfully in applications.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-22
# 潜在的な原因を発見するグラフ部分ラベル学習

Graph Partial Label Learning with Potential Cause Discovering ( http://arxiv.org/abs/2403.11449v2 )

ライセンス: Link先を確認
Hang Gao, Jiaguo Yuan, Jiangmeng Li, Peng Qiao, Fengge Wu, Changwen Zheng, Huaping Liu, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ表現学習がもたらす課題に対処する可能性について、さまざまな領域にわたる複雑なグラフ構造化データに直面しているため、広く注目を集めている。 しかし、グラフ固有の複雑さと相互接続性のため、GNNのトレーニングにグラフデータを正確にアノテートすることは極めて困難である。 この問題に対処するために、グラフ表現学習に部分ラベル学習(PLL)を導入しました。 PLLは、各トレーニングインスタンスが、グランドトラストラベルや追加の干渉ラベルを含む一連の候補ラベルと関連付けられている、極めて弱い教師付き学習問題である。 PLLでは、アノテータがエラーを発生させることで、データのラベル付けが困難になる。 次に,GNNモデルがPLLの文脈内で識別情報を効果的に学習することを可能にする新しいグラフ表現学習法を提案する。 提案手法は潜在的な原因抽出を利用してラベルと因果関係を持つグラフデータを得る。 抽出したグラフデータに基づいて補助訓練を行うことで,PLLシナリオにおける干渉情報を効果的に除去することができる。 我々は、一連の理論的分析により、我々の手法の背後にある理論的根拠を支持する。 さらに,複数のデータセットについて広範囲な評価とアブレーションを行い,提案手法の優位性を実証した。

Graph Neural Networks (GNNs) have garnered widespread attention for their potential to address the challenges posed by graph representation learning, which face complex graph-structured data across various domains. However, due to the inherent complexity and interconnectedness of graphs, accurately annotating graph data for training GNNs is extremely challenging. To address this issue, we have introduced Partial Label Learning (PLL) into graph representation learning. PLL is a critical weakly supervised learning problem where each training instance is associated with a set of candidate labels, including the ground-truth label and the additional interfering labels. PLL allows annotators to make errors, which reduces the difficulty of data labeling. Subsequently, we propose a novel graph representation learning method that enables GNN models to effectively learn discriminative information within the context of PLL. Our approach utilizes potential cause extraction to obtain graph data that holds causal relationships with the labels. By conducting auxiliary training based on the extracted graph data, our model can effectively eliminate the interfering information in the PLL scenario. We support the rationale behind our method with a series of theoretical analyses. Moreover, we conduct extensive evaluations and ablation studies on multiple datasets, demonstrating the superiority of our proposed method.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-22
# コンテキスト化されたメッセージはグラフ表現を増強する

Contextualized Messages Boost Graph Representations ( http://arxiv.org/abs/2403.12529v2 )

ライセンス: Link先を確認
Brian Godwin Lim, Galvin Brice Lim, Renzo Roel Tan, Kazushi Ikeda, (参考訳) グラフニューラルネットワーク(GNN)は近年,グラフとして表現される可能性のあるデータ処理能力において,大きな注目を集めている。 この成功により、グラフ同型タスクに基づくGNNの表現能力を探究する研究がいくつか行われた。 これらは本質的に、可算ノードの特徴表現を前提としており、適用性を制限する可能性がある。 興味深いことに、非可算ノード特徴表現を持つGNNを研究する理論的研究はごくわずかである。 本稿では,ノード特徴表現の空間が非可算である場合,すべてのレベル(ノードレベル,近傍レベル,グラフレベル)にわたるGNNの表現能力に関する新しい視点を示す。 具体的には、入力空間に暗黙の擬似距離を使い、ソフト・インジェクティブ関数を作成することによって、以前の作品におけるインジェクティブ要件を緩和する。 これにより、異なる入力が類似した出力を生成することは、擬メトリックが入力が何らかの表現で十分に類似しているとみなす場合に限られるが、実際は有用であることが多い。 その結果,近辺特徴表現の非線形・文脈変換を重視した新しいソフト同型関係グラフ畳み込みネットワーク (SIR-GCN) が提案された。 次に、SIR-GCNと広く使われているGNNの関係に関する数学的議論を行い、古典的なGNN方法論の一般化としてSIR-GCNを確立した。 合成およびベンチマークデータセットの実験は、SIR-GCNの相対的な優位性を示し、ノードおよびグラフ特性予測タスクにおいて同等のモデルより優れている。

Graph neural networks (GNNs) have gained significant attention in recent years for their ability to process data that may be represented as graphs. This success has prompted several studies to explore the representational capability of GNNs based on the graph isomorphism task. These works inherently assume a countable node feature representation, potentially limiting their applicability. Interestingly, only a few theoretical works study GNNs with uncountable node feature representation. This paper presents a novel perspective on the representational capability of GNNs across all levels - node-level, neighborhood-level, and graph-level - when the space of node feature representation is uncountable. Specifically, it relaxes the injective requirement in previous works by employing an implicit pseudometric distance on the space of input to create a soft-injective function. This allows distinct inputs to produce similar outputs only if the pseudometric deems the inputs to be sufficiently similar on some representation, which is often useful in practice. As a consequence, a novel soft-isomorphic relational graph convolution network (SIR-GCN) that emphasizes non-linear and contextualized transformation of neighborhood feature representations is proposed. A mathematical discussion on the relationship between SIR-GCN and widely used GNNs is then laid out to put the contribution in context, establishing SIR-GCN as a generalization of classical GNN methodologies. Experiments on synthetic and benchmark datasets demonstrate the relative superiority of SIR-GCN, outperforming comparable models in node and graph property prediction tasks.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-22
# ReProbe: 再構成可能で適応的なプローブのためのアーキテクチャ

ReProbe: An Architecture for Reconfigurable and Adaptive Probes ( http://arxiv.org/abs/2403.12703v2 )

ライセンス: Link先を確認
Federico Alessi, Alessandro Tundo, Marco Mobilio, Oliviero Riganelli, Leonardo Mariani, (参考訳) 現代の分散システムは、非常にダイナミックでスケーラブルで、迅速な変更に対応可能な監視ソリューションを必要としています。 外部プローブに依存する監視システムは、デプロイやアンデプロイ、再構成といった高価な操作によってのみ適応することができる。 本稿では,データ収集戦略の迅速な変更を処理可能な適応型監視プローブのクラスであるReProbesを紹介する。 ReProbeは、データ転送、コレクション、分析メソッドに対して、制御可能で設定可能な自己適応機能を提供します。 得られたアーキテクチャは、最先端の監視ソリューションと比較して質的にプローブ適応性を効果的に向上させることができる。

Modern distributed systems are highly dynamic and scalable, requiring monitoring solutions that can adapt to rapid changes. Monitoring systems that rely on external probes can only achieve adaptation through expensive operations such as deployment, undeployment, and reconfiguration. This poster paper introduces ReProbes, a class of adaptive monitoring probes that can handle rapid changes in data collection strategies. ReProbe offers controllable and configurable self-adaptive capabilities for data transmission, collection, and analysis methods. The resulting architecture can effectively enhance probe adaptability when qualitatively compared to state-of-the-art monitoring solutions.
翻訳日:2024-05-25 06:09:38 公開日:2024-05-22
# LLaVA-PruMerge: 効率的な大規模マルチモーダルモデルのための適応的トークン削減

LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models ( http://arxiv.org/abs/2403.15388v5 )

ライセンス: Link先を確認
Yuzhang Shang, Mu Cai, Bingxin Xu, Yong Jae Lee, Yan Yan, (参考訳) 大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。 LMMは通常、プレフィックスの内容として、CLIPビジュアルエンコーダの垂直層機能のような、固定された大量の視覚トークンを取り込みます。 近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。 しかし、トランスフォーマーアーキテクチャの本質的な設計のため、これらのモデルの計算コストは入力トークンの数によって2次的に増加する傾向にある。 この問題に対処するために,視覚的トークン間の空間的冗長性を識別するトークン低減機構について検討する。 そこで本研究では,LMMの性能を損なうことなく,視覚トークン数を大幅に削減する適応型視覚トークン削減戦略であるPruMergeを提案する。 具体的には,各トークンの重要度を測定するために,クラストークンと視覚トークン間の注目スコアの疎分布を特徴とする,視覚エンコーダで観測される疎度を利用する。 この空間により、保持すべき最も重要な視覚トークンを動的に選択できます。 その後、選択した(未実行の)トークンをそのキーの類似性に基づいてクラスタ化し、未実行のトークンとマージし、効果的に情報内容の補足と拡張を行います。 LLaVA-1.5に適用した場合、我々の手法は視覚トークンを平均14倍圧縮し、多様な視覚的質問応答および推論タスクに匹敵する性能を達成できる。 コードとチェックポイントはhttps://llava-prumerge.github.io/にある。

Large Multimodal Models (LMMs) have shown significant visual reasoning capabilities by connecting a visual encoder and a large language model. LMMs typically take in a fixed and large amount of visual tokens, such as the penultimate layer features in the CLIP visual encoder, as the prefix content. Recent LMMs incorporate more complex visual inputs, such as high-resolution images and videos, which further increases the number of visual tokens significantly. However, due to the inherent design of the Transformer architecture, the computational costs of these models tend to increase quadratically with the number of input tokens. To tackle this problem, we explore a token reduction mechanism that identifies significant spatial redundancy among visual tokens. In response, we propose PruMerge, a novel adaptive visual token reduction strategy that significantly reduces the number of visual tokens without compromising the performance of LMMs. Specifically, to metric the importance of each token, we exploit the sparsity observed in the visual encoder, characterized by the sparse distribution of attention scores between the class token and visual tokens. This sparsity enables us to dynamically select the most crucial visual tokens to retain. Subsequently, we cluster the selected (unpruned) tokens based on their key similarity and merge them with the unpruned tokens, effectively supplementing and enhancing their informational content. Empirically, when applied to LLaVA-1.5, our approach can compress the visual tokens by 14 times on average, and achieve comparable performance across diverse visual question-answering and reasoning tasks. Code and checkpoints are at https://llava-prumerge.github.io/.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-22
# 分散化フェデレーション学習における初期化とトポロジー効果

Initialisation and Topology Effects in Decentralised Federated Learning ( http://arxiv.org/abs/2403.15855v2 )

ライセンス: Link先を確認
Arash Badie-Modiri, Chiara Boldrini, Lorenzo Valerio, János Kertész, Márton Karsai, (参考訳) 完全に分散化されたフェデレートされた学習は、トレーニングデータをローカライズしながら、通信ネットワーク上の分散デバイス上の個々の機械学習モデルの協調トレーニングを可能にする。 このアプローチはデータのプライバシを高め、単一障害点と集中的な調整の必要性を排除します。 本研究は,分散化フェデレーション学習の有効性が,コネクテッドデバイスのネットワークトポロジに大きく影響していることを明らかにする。 本稿では, ニューラルネットワークの非協調初期化戦略を提案し, 基礎となる通信ネットワークのノードの固有ベクトル集中度の分布を利用して, 学習効率を劇的に向上させる。 さらに,提案した初期化戦略に基づき,環境パラメータのスケーリング行動と選択について検討した。 この研究は、分散された非協調的な環境でのより効率的でスケーラブルな人工知能ニューラルネットワークトレーニングの道を開き、ネットワーク構造と学習ダイナミクスの相互の役割についてより深く理解する。

Fully decentralised federated learning enables collaborative training of individual machine learning models on distributed devices on a communication network while keeping the training data localised. This approach enhances data privacy and eliminates both the single point of failure and the necessity for central coordination. Our research highlights that the effectiveness of decentralised federated learning is significantly influenced by the network topology of connected devices. We propose a strategy for uncoordinated initialisation of the artificial neural networks, which leverages the distribution of eigenvector centralities of the nodes of the underlying communication network, leading to a radically improved training efficiency. Additionally, our study explores the scaling behaviour and choice of environmental parameters under our proposed initialisation strategy. This work paves the way for more efficient and scalable artificial neural network training in a distributed and uncoordinated environment, offering a deeper understanding of the intertwining roles of network structure and learning dynamics.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-22
# 脊椎手術のデジタル双眼鏡 : 概念実証

Creating a Digital Twin of Spinal Surgery: A Proof of Concept ( http://arxiv.org/abs/2403.16736v2 )

ライセンス: Link先を確認
Jonas Hein, Frédéric Giraud, Lilian Calvet, Alexander Schwarz, Nicola Alessandro Cavalcanti, Sergey Prokudin, Mazda Farshad, Siyu Tang, Marc Pollefeys, Fabio Carrillo, Philipp Fürnstahl, (参考訳) 手術デジタル化(英: surgery digitalization)とは、現実世界の手術の仮想レプリカを作成する過程であり、手術デジタルツイン(SDT)とも呼ばれる。 教育や訓練、手術計画、手術作業の自動化など、様々な分野で大きな応用がある。 さらに、SDTは機械学習手法の理想的な基盤であり、トレーニングデータの自動生成を可能にする。 本稿では,前生体脊髄手術に応用した手術用デジタル化のための概念実証(PoC)を提案する。 提案したデジタル化は,手術シーン全体の形状と外観の獲得とモデル化に焦点を当てている。 5台のRGB-Dカメラを外科医の動的3D再構成に、ハイエンドカメラを解剖学の3D再構成に、赤外線ステレオカメラを手術器具追跡に、レーザースキャナーを手術室の3D再構成とデータ融合に使用した。 提案手法を正当化し,プロトタイプの課題とさらなる拡張について議論する。 当社のPoCは部分的に手動のデータキュレーションに依存していますが、その高品質で大きなポテンシャルは、SDTを作成するための自動メソッドの開発を動機付けています。

Surgery digitalization is the process of creating a virtual replica of real-world surgery, also referred to as a surgical digital twin (SDT). It has significant applications in various fields such as education and training, surgical planning, and automation of surgical tasks. In addition, SDTs are an ideal foundation for machine learning methods, enabling the automatic generation of training data. In this paper, we present a proof of concept (PoC) for surgery digitalization that is applied to an ex-vivo spinal surgery. The proposed digitalization focuses on the acquisition and modelling of the geometry and appearance of the entire surgical scene. We employ five RGB-D cameras for dynamic 3D reconstruction of the surgeon, a high-end camera for 3D reconstruction of the anatomy, an infrared stereo camera for surgical instrument tracking, and a laser scanner for 3D reconstruction of the operating room and data fusion. We justify the proposed methodology, discuss the challenges faced and further extensions of our prototype. While our PoC partially relies on manual data curation, its high quality and great potential motivate the development of automated methods for the creation of SDTs.
翻訳日:2024-05-25 05:59:52 公開日:2024-05-22
# Slowly Varying Sequencesによる安定機械学習モデルの訓練に向けて

Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences ( http://arxiv.org/abs/2403.19871v4 )

ライセンス: Link先を確認
Dimitris Bertsimas, Vassilis Digalakis Jr, Yu Ma, Phevos Paschalidis, (参考訳) 我々は、新しいデータのバッチが利用可能になったとき、機械学習(ML)モデルを再訓練するタスクについて検討する。 既存の手法は、反復を繰り返すモデルの安定性を考慮せずに、各バッチの最高のパフォーマンスモデルを見つけるための欲求的なアプローチに重点を置いている。 本研究では,再学習を繰り返して安定なMLモデルのシーケンスを見つける手法を提案する。 我々は,パレート最適モデル(予測電力-安定トレードオフの観点から)を復元することが保証される混合整数最適化式と,実際によく動作する効率的な多項式時間アルゴリズムを開発する。 私たちは、最適化問題に直接組み込むことができるカスタム定義の距離メトリクスを使用することで、一貫した分析的な洞察を維持することに重点を置いています。 本手法は,コネチカット州の主要病院システムにおける実世界のケーススタディで実証されたように,予測力の小さい,制御可能な犠牲を伴う厳格に訓練されたモデルよりも強い安定性を示す。

We consider the task of retraining machine learning (ML) models when new batches of data become available. Existing methods focus largely on greedy approaches to find the best-performing model for each batch, without considering the stability of the model's structure across retraining iterations. In this study, we propose a methodology for finding sequences of ML models that are stable across retraining iterations. We develop a mixed-integer optimization formulation that is guaranteed to recover Pareto optimal models (in terms of the predictive power-stability trade-off) and an efficient polynomial-time algorithm that performs well in practice. We focus on retaining consistent analytical insights - which is important to model interpretability, ease of implementation, and fostering trust with users - by using custom-defined distance metrics that can be directly incorporated into the optimization problem. Our method shows stronger stability than greedily trained models with a small, controllable sacrifice in predictive power, as evidenced through a real-world case study in a major hospital system in Connecticut.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-22
# SOMson-高峰円図における多次元データの音化

SOMson -- Sonification of Multidimensional Data in Kohonen Maps ( http://arxiv.org/abs/2404.00016v2 )

ライセンス: Link先を確認
Simon Linke, Tim Ziemer, (参考訳) 古本園地図、別名。 自己組織化マップ (SOMs) は、低次元マップ上の高次元特徴空間を可視化するニューラルネットワークである。 SOMはデータ検査や探索に優れたツールですが、本質的には細部が失われます。 基盤となるデータの可視化はうまく統合されていないため、全体像の提供に失敗する。 その結果、データ拡張手法として、基礎となるデータの対話的ソナリゼーションであるSOMsonを提案する。 音素化はSOMによって同時に提供される情報量を増加させる。 ユーザスタディの代わりに、インタラクティブなオンライン例を示し、読者がSOMson自身を探索できるようにします。 その強さ、弱点、展望について論じる。

Kohonen Maps, aka. Self-organizing maps (SOMs) are neural networks that visualize a high-dimensional feature space on a low-dimensional map. While SOMs are an excellent tool for data examination and exploration, they inherently cause a loss of detail. Visualizations of the underlying data do not integrate well and, therefore, fail to provide an overall picture. Consequently, we suggest SOMson, an interactive sonification of the underlying data, as a data augmentation technique. The sonification increases the amount of information provided simultaneously by the SOM. Instead of a user study, we present an interactive online example, so readers can explore SOMson themselves. Its strengths, weaknesses, and prospects are discussed.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-22
# 拡散$^2$:直交拡散モデルのスコア構成による動的3次元コンテンツ生成

Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Orthogonal Diffusion Models ( http://arxiv.org/abs/2404.02148v3 )

ライセンス: Link先を確認
Zeyu Yang, Zijie Pan, Chun Gu, Li Zhang, (参考訳) 近年の3D生成の進歩は、インターネット規模の画像データで事前訓練され、大量の3Dデータで微調整された3D対応画像拡散モデルの改善により、高度に一貫したマルチビュー画像を生成する能力によって大きく促進されている。 しかし、同期したマルチビュービデオデータが不足しているため、このパラダイムを4D生成に直接適用することは不可能である。 それにもかかわらず、利用可能なビデオと3Dデータは、ビデオと多視点拡散モデルを個別に訓練するのに適しており、それぞれに満足できる動的および幾何学的事前情報を提供することができる。 Diffusion$^2$は、これらのモデルから幾何的整合性や時間的滑らか性に関する知識を再構築し、連続した4次元表現の最適化に使用できる密集した多視点画像を直接サンプリングする動的3次元コンテンツ作成のための新しいフレームワークである。 具体的には,対象画像アレイの確率構造に基づいて,事前学習した映像と多視点拡散モデルのスコア合成による簡易かつ効果的な復調戦略を設計する。 提案した画像生成プロセスの高並列性と,現代の4D再構成パイプラインの効率性により,我々のフレームワークは数分で4Dコンテンツを生成できる。 さらに,本手法は4次元データへの依存を回避し,ファンデーションビデオや多視点拡散モデルのスケーリングから恩恵を受ける可能性がある。 大規模な実験により,提案手法の有効性と各種のプロンプトを柔軟に扱う能力が実証された。

Recent advancements in 3D generation are predominantly propelled by improvements in 3D-aware image diffusion models which are pretrained on Internet-scale image data and fine-tuned on massive 3D data, offering the capability of producing highly consistent multi-view images. However, due to the scarcity of synchronized multi-view video data, it is impractical to adapt this paradigm to 4D generation directly. Despite that, the available video and 3D data are adequate for training video and multi-view diffusion models separately that can provide satisfactory dynamic and geometric priors respectively. To take advantage of both, this paper present Diffusion$^2$, a novel framework for dynamic 3D content creation that reconciles the knowledge about geometric consistency and temporal smoothness from these models to directly sample dense multi-view multi-frame images which can be employed to optimize continuous 4D representation. Specifically, we design a simple yet effective denoising strategy via score composition of pretrained video and multi-view diffusion models based on the probability structure of the target image array. Owing to the high parallelism of the proposed image generation process and the efficiency of the modern 4D reconstruction pipeline, our framework can generate 4D content within few minutes. Additionally, our method circumvents the reliance on 4D data, thereby having the potential to benefit from the scaling of the foundation video and multi-view diffusion models. Extensive experiments demonstrate the efficacy of our proposed framework and its ability to flexibly handle various types of prompts.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-22
# 大規模言語モデルの社会的ノルムの測定

Measuring Social Norms of Large Language Models ( http://arxiv.org/abs/2404.02491v4 )

ライセンス: Link先を確認
Ye Yuan, Kexin Tang, Jianhao Shen, Ming Zhang, Chenguang Wang, (参考訳) 本稿では,大規模言語モデルが社会規範を理解するかどうかを検証するための新たな課題を提案する。 既存のデータセットとは対照的に、私たちのデータセットは解決すべき社会的規範を根本的に理解する必要があります。 我々のデータセットは、402のスキルと12,383の質問からなり、意見や議論から文化や法律まで幅広い社会的規範をカバーしている。 K-12のカリキュラムに従ってデータセットを設計する。 これにより、大きな言語モデルの社会的理解を直接人間、具体的には小学生と直接比較することができる。 GPT3.5-Turbo や LLaMA2-Chat といった最近の大規模言語モデルでは,従来のベンチマークではほとんどランダムな精度が得られなかった。 次に,大規模言語モデルに基づくマルチエージェントフレームワークを提案する。 この方法は、人間に匹敵する大きな言語モデルをさらに改善する。 現実世界のアプリケーションにおける大規模言語モデルの採用が増加していることを考えると、我々の発見は特に重要であり、将来の改善に向けたユニークな方向性を示している。

We present a new challenge to examine whether large language models understand social norms. In contrast to existing datasets, our dataset requires a fundamental understanding of social norms to solve. Our dataset features the largest set of social norm skills, consisting of 402 skills and 12,383 questions covering a wide set of social norms ranging from opinions and arguments to culture and laws. We design our dataset according to the K-12 curriculum. This enables the direct comparison of the social understanding of large language models to humans, more specifically, elementary students. While prior work generates nearly random accuracy on our benchmark, recent large language models such as GPT3.5-Turbo and LLaMA2-Chat are able to improve the performance significantly, only slightly below human performance. We then propose a multi-agent framework based on large language models to improve the models' ability to understand social norms. This method further improves large language models to be on par with humans. Given the increasing adoption of large language models in real-world applications, our finding is particularly important and presents a unique direction for future improvements.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-22
# BAdam:大規模言語モデルのためのメモリ効率の良い全パラメータ最適化手法

BAdam: A Memory Efficient Full Parameter Optimization Method for Large Language Models ( http://arxiv.org/abs/2404.02827v2 )

ライセンス: Link先を確認
Qijun Luo, Hengxu Yu, Xiao Li, (参考訳) 本研究は、ブロック座標降下フレームワークを内部解法として活用する最適化手法であるBAdamを提示する。 BAdamは、大きな言語モデルの完全なパラメータ微調整に対するメモリ効率のよいアプローチを提供する。 決定論的ケースでは, BAdamの理論的収束解析を行う。 実験では,1つのRTX3090-24GB GPUを用いて,Llama 2-7BとLlama 3-8BモデルにBAdamを適用した。 その結果,メモリとランニング時間の観点から,BAdamの効率性を確認した。 さらに、収束検証は、BAdamがLoRAよりも優れた収束挙動を示すことを示している。 さらに, MTベンチを用いた下流性能評価の結果, BAdamはLoRAをわずかに上回り, LOMOを大幅に上回っていることがわかった。 最後に、中規模のタスク、すなわちSuperGLUEベンチマークでRoBERTa-largeを微調整するタスクでBAdamとAdamを比較した。 その結果、BAdamはLoRAよりも効果的にAdamのパフォーマンスギャップを狭めることができることがわかった。 私たちのコードはhttps://github.com/Ledzy/BAdam.comで公開されています。

This work presents BAdam, an optimization method that leverages the block coordinate descent framework with Adam as the inner solver. BAdam offers a memory efficient approach to the full parameter finetuning of large language models. We conduct theoretical convergence analysis for BAdam in the deterministic case. Experimentally, we apply BAdam to instruction-tune the Llama 2-7B and Llama 3-8B models using a single RTX3090-24GB GPU. The results confirm BAdam's efficiency in terms of memory and running time. Additionally, the convergence verification indicates that BAdam exhibits superior convergence behavior compared to LoRA. Furthermore, the downstream performance evaluation using the MT-bench shows that BAdam modestly surpasses LoRA and more substantially outperforms LOMO. Finally, we compare BAdam with Adam on a medium-sized task, i.e., finetuning RoBERTa-large on the SuperGLUE benchmark. The results demonstrate that BAdam is capable of narrowing the performance gap with Adam more effectively than LoRA. Our code is available at https://github.com/Ledzy/BAdam.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-22
# ReFT:言語モデルのための表現ファインタニング

ReFT: Representation Finetuning for Language Models ( http://arxiv.org/abs/2404.03592v3 )

ライセンス: Link先を確認
Zhengxuan Wu, Aryaman Arora, Zheng Wang, Atticus Geiger, Dan Jurafsky, Christopher D. Manning, Christopher Potts, (参考訳) パラメータ効率ファインタニング(PEFT)法は、少数の重みを更新することで大きなニューラルモデルを適応させようとする。 しかし、それ以前の解釈可能性の研究は、表現がリッチな意味情報をエンコードしていることを示し、表現の編集がより強力な代替手段である可能性を示唆している。 本稿では,Representation Finetuning(ReFT)手法のファミリーを開発することで,この仮説を追求する。 ReFTメソッドはフリーズベースモデル上で動作し、隠れた表現に対するタスク固有の介入を学ぶ。 我々は、ReFTファミリーの強力なインスタンスであるLoReFT(Lo-rank Linear Subspace ReFT)を定義し、効率を上げるためにいくつかの性能を交換するこの手法のアブレーションを特定する。 どちらも既存のPEFTのドロップイン置換であり、LoRAよりも15倍から65倍高いパラメータ効率の介入を学ぶ。 我々は,8つの常識推論タスク,4つの算術推論タスク,命令チューニング,GLUEについてLoReFTを紹介する。 これらすべての評価において、我々のReFTは効率と性能の最良のバランスを提供し、ほぼ常に最先端のPEFTよりも優れています。 ReFTトレーニングライブラリをhttps://github.com/stanfordnlp/pyreft.comで公開しています。

Parameter-efficient finetuning (PEFT) methods seek to adapt large neural models via updates to a small number of weights. However, much prior interpretability work has shown that representations encode rich semantic information, suggesting that editing representations might be a more powerful alternative. We pursue this hypothesis by developing a family of Representation Finetuning (ReFT) methods. ReFT methods operate on a frozen base model and learn task-specific interventions on hidden representations. We define a strong instance of the ReFT family, Low-rank Linear Subspace ReFT (LoReFT), and we identify an ablation of this method that trades some performance for increased efficiency. Both are drop-in replacements for existing PEFTs and learn interventions that are 15x--65x more parameter-efficient than LoRA. We showcase LoReFT on eight commonsense reasoning tasks, four arithmetic reasoning tasks, instruction-tuning, and GLUE. In all these evaluations, our ReFTs deliver the best balance of efficiency and performance, and almost always outperform state-of-the-art PEFTs. We release a generic ReFT training library publicly at https://github.com/stanfordnlp/pyreft.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-22
# 情報抽出の品質評価

Assessing the quality of information extraction ( http://arxiv.org/abs/2404.04068v2 )

ライセンス: Link先を確認
Filip Seitl, Tomáš Kovářík, Soheyla Mirshahi, Jan Kryštůfek, Rastislav Dujava, Matúš Ondreička, Herbert Ullrich, Petr Gronat, (参考訳) 大規模言語モデルの進歩は、構造化されていない、あるいは半構造化されていないデータソースからの情報抽出の効率を著しく向上させた。 これらの技術が様々な応用に不可欠なものとなるにつれて、情報抽出の質の客観的な尺度を確立することが不可欠となる。 しかし、ラベル付きデータの不足は、この取り組みに重大な課題をもたらしている。 本稿では,情報抽出/検索の質と完全性を評価するための自動フレームワークを提案する。 このフレームワークは、エンティティの形式での情報抽出とその特性に焦点を当てている。 本稿では,大規模言語モデルの入力/出力サイズ制限の扱い方と,情報抽出時の性能分析について論じる。 特に,抽出の質を評価するためのスコアを導入し,その解釈方法について広範な議論を行う。

Advances in large language models have notably enhanced the efficiency of information extraction from unstructured and semi-structured data sources. As these technologies become integral to various applications, establishing an objective measure for the quality of information extraction becomes imperative. However, the scarcity of labeled data presents significant challenges to this endeavor. In this paper, we introduce an automatic framework to assess the quality of the information extraction/retrieval and its completeness. The framework focuses on information extraction in the form of entity and its properties. We discuss how to handle the input/output size limitations of the large language models and analyze their performance when extracting the information. In particular, we introduce scores to evaluate the quality of the extraction and provide an extensive discussion on how to interpret them.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-22
# 評価を誰が評価するか : T2IScoreScore (TS2) を用いたテキスト・イメージ・プロンプト・コヒーレンス・メトリクスの客観的な評価

Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) ( http://arxiv.org/abs/2404.04251v2 )

ライセンス: Link先を確認
Michael Saxon, Fatima Jahara, Mahsa Khoshnoodi, Yujie Lu, Aditya Sharma, William Yang Wang, (参考訳) テキスト・ツー・イメージ(T2I)モデルの品質向上に伴い、生成した画像のセマンティック・コヒーレンス(セマンティック・コヒーレンス)を条件付きプロンプトに即時忠実度をベンチマークすることに興味が持たれている。 クロスモーダルな埋め込みと視覚言語モデル(VLM)の進歩を活用するため、様々なT2I忠実度指標が提案されている。 しかし、これらの指標は厳密な比較やベンチマークではなく、一見弱いベースラインに対して識別しやすい画像のセットに対して、人間のLikertスコアと相関して示される。 T2IScoreScore (TS2) はプロンプトとセットの誤画像を含む意味的誤りグラフのキュレートされた集合である。 これにより、確立された統計的検定から得られたメタメトリックスコアを用いて、与えられた素早い忠実度メトリックが、客観的なエラー数に対して正しく画像を順序付けし、異なるエラーノード間で顕著に識別できるかどうかを厳格に判断することができる。 驚いたことに、私たちがテストした最先端のVLMベースのメトリクス(例えば、TIFA、DSG、LLMScore、VIEScore)は、CLIPScoreのような単純な(そして、最悪の)機能ベースのメトリクス、特に自然に発生するT2Iモデルエラーのハードサブセットを著しく上回りません。 TS2は、目標条件下での予測順序と分離との整合性をより厳密に比較することで、より良いT2Iの信頼度指標の開発を可能にする。

With advances in the quality of text-to-image (T2I) models has come interest in benchmarking their prompt faithfulness-the semantic coherence of generated images to the prompts they were conditioned on. A variety of T2I faithfulness metrics have been proposed, leveraging advances in cross-modal embeddings and vision-language models (VLMs). However, these metrics are not rigorously compared and benchmarked, instead presented with correlation to human Likert scores over a set of easy-to-discriminate images against seemingly weak baselines. We introduce T2IScoreScore (TS2), a curated set of semantic error graphs containing a prompt and a set increasingly erroneous images. These allow us to rigorously judge whether a given prompt faithfulness metric can correctly order images with respect to their objective error count and significantly discriminate between different error nodes, using meta-metric scores derived from established statistical tests. Surprisingly, we find that the state-of-the-art VLM-based metrics (e.g., TIFA, DSG, LLMScore, VIEScore) we tested fail to significantly outperform simple (and supposedly worse) feature-based metrics like CLIPScore, particularly on a hard subset of naturally-occurring T2I model errors. TS2 will enable the development of better T2I prompt faithfulness metrics through more rigorous comparison of their conformity to expected orderings and separations under objective criteria.
翻訳日:2024-05-25 05:50:08 公開日:2024-05-22
# Co-Occ:マルチモーダル3次元セマンティック動作予測のためのボリュームレンダリング規則化による明示的特徴融合の結合

Co-Occ: Coupling Explicit Feature Fusion with Volume Rendering Regularization for Multi-Modal 3D Semantic Occupancy Prediction ( http://arxiv.org/abs/2404.04561v3 )

ライセンス: Link先を確認
Jingyi Pan, Zipeng Wang, Lin Wang, (参考訳) 3Dセマンティック占有予測は、自動運転分野における重要な課題である。 近年のアプローチは、単一モードでの3Dセマンティック占有率予測に大きな進歩をもたらした。 しかし、マルチモーダルなセマンティック占有予測手法は、異なるモダリティデータの融合時に生じるモダリティの不均一性、モダリティの不整合、および不十分なモダリティ相互作用に対処する上で困難に直面しており、重要な幾何学的およびセマンティックな情報が失われる可能性がある。 この手紙は、新しいマルチモーダル、すなわちCo-Occと呼ばれるLiDAR-camera 3Dセマンティック占有予測フレームワークを提示し、これは暗黙のボリュームレンダリング規則化と明示的なLiDAR-camera特徴融合を結合している。 キーとなる洞察は、機能空間におけるボリュームレンダリングは、3D LiDARスイープと2D画像のギャップを十分に埋めると同時に、LiDARカメラで融合したボリューム表現を強化する物理的な正規化として機能するということである。 具体的には、K-nearest neighbors (KNN)サーチにより、隣接するカメラ機能を組み込むことで、LiDAR機能を明示的に拡張するGeometric- and Semantic-aware Fusion (GSFusion)モジュールを提案する。 次に,画像面に融合した特徴を投影するためにボリュームレンダリングを用い,色と深度マップを再構成する。 これらのマップは、カメラからの入力画像と、LiDARから導出される深さ推定によって監視される。 一般的なnuScenesとSemanticKITTIベンチマークの大規模な実験により、我々のCo-Occの3Dセマンティック占有予測の有効性が検証された。 プロジェクトのページはhttps://rorisis.github.io/Co-Occ_project-page/.comで公開されている。

3D semantic occupancy prediction is a pivotal task in the field of autonomous driving. Recent approaches have made great advances in 3D semantic occupancy predictions on a single modality. However, multi-modal semantic occupancy prediction approaches have encountered difficulties in dealing with the modality heterogeneity, modality misalignment, and insufficient modality interactions that arise during the fusion of different modalities data, which may result in the loss of important geometric and semantic information. This letter presents a novel multi-modal, i.e., LiDAR-camera 3D semantic occupancy prediction framework, dubbed Co-Occ, which couples explicit LiDAR-camera feature fusion with implicit volume rendering regularization. The key insight is that volume rendering in the feature space can proficiently bridge the gap between 3D LiDAR sweeps and 2D images while serving as a physical regularization to enhance LiDAR-camera fused volumetric representation. Specifically, we first propose a Geometric- and Semantic-aware Fusion (GSFusion) module to explicitly enhance LiDAR features by incorporating neighboring camera features through a K-nearest neighbors (KNN) search. Then, we employ volume rendering to project the fused feature back to the image planes for reconstructing color and depth maps. These maps are then supervised by input images from the camera and depth estimations derived from LiDAR, respectively. Extensive experiments on the popular nuScenes and SemanticKITTI benchmarks verify the effectiveness of our Co-Occ for 3D semantic occupancy prediction. The project page is available at https://rorisis.github.io/Co-Occ_project-page/.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-22
# UniFL: 統一フィードバック学習による安定拡散の改善

UniFL: Improve Stable Diffusion via Unified Feedback Learning ( http://arxiv.org/abs/2404.05595v2 )

ライセンス: Link先を確認
Jiacheng Zhang, Jie Wu, Yuxi Ren, Xin Xia, Huafeng Kuang, Pan Xie, Jiashi Li, Xuefeng Xiao, Min Zheng, Lean Fu, Guanbin Li, (参考訳) 拡散モデルは画像生成の分野に革命をもたらし、高品質なモデルや様々な下流アプリケーションの普及につながった。 しかし、これらの顕著な進歩にもかかわらず、現在の競合ソリューションは、視力の劣る品質、美的魅力の欠如、非効率な推論など、包括的な解決策を目にせず、いくつかの制限に悩まされている。 これらの課題に対処するために,フィードバック学習を活用して拡張モデルを包括的に拡張する統合フレームワークUniFLを提案する。 UniFL は、SD1.5 や SDXL といった様々な拡散モデルに適用できる普遍的で効果的で一般化可能な解である。 視覚的品質を高める知覚フィードバック学習、美的魅力を改善する分離されたフィードバック学習、推論速度を最適化する敵対的フィードバック学習である。 詳細な実験と広範囲なユーザスタディにより,生成したモデルの品質と高速化の両面において,提案手法の優れた性能が検証された。 たとえば、UniFLは、生成品質の点でImageRewardを17%上回り、LCMとSDXL Turboを57%上回り、4段階推論では20%上回る。 さらに、Lora、ControlNet、AnimateDiffといった下流タスクにおけるアプローチの有効性を検証する。

Diffusion models have revolutionized the field of image generation, leading to the proliferation of high-quality models and diverse downstream applications. However, despite these significant advancements, the current competitive solutions still suffer from several limitations, including inferior visual quality, a lack of aesthetic appeal, and inefficient inference, without a comprehensive solution in sight. To address these challenges, we present UniFL, a unified framework that leverages feedback learning to enhance diffusion models comprehensively. UniFL stands out as a universal, effective, and generalizable solution applicable to various diffusion models, such as SD1.5 and SDXL. Notably, UniFL incorporates three key components: perceptual feedback learning, which enhances visual quality; decoupled feedback learning, which improves aesthetic appeal; and adversarial feedback learning, which optimizes inference speed. In-depth experiments and extensive user studies validate the superior performance of our proposed method in enhancing both the quality of generated models and their acceleration. For instance, UniFL surpasses ImageReward by 17% user preference in terms of generation quality and outperforms LCM and SDXL Turbo by 57% and 20% in 4-step inference. Moreover, we have verified the efficacy of our approach in downstream tasks, including Lora, ControlNet, and AnimateDiff.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-22
# 無線ネットワーク上での協調マルチタスク処理のための意味コミュニケーション

Semantic Communication for Cooperative Multi-Task Processing over Wireless Networks ( http://arxiv.org/abs/2404.08483v3 )

ライセンス: Link先を確認
Ahmad Halimi Razlighi, Carsten Bockelmann, Armin Dekorsy, (参考訳) 本稿では,複数のタスクを同時に処理できるより汎用的なシステムに,ひとつのタスクの処理に限定したセマンティックコミュニケーションの現状を拡張した。 そこで我々はまず「意味源」の定義を導入し、一つの観察に基づく複数の意味論の解釈を可能にした。 次にセマンティックエンコーダの設計を導入し、エンコーダを共通ユニットに分割し、協調マルチタスク処理を可能にする複数の特定ユニットを特徴とする。 シミュレーションの結果,提案するセマンティックソースの有効性とシステム設計の有効性が示された。 当社のアプローチでは,情報最大化(infomax)とエンドツーエンド設計の原則を採用しています。

In this paper, we have expanded the current status of semantic communication limited to processing one task to a more general system that can handle multiple tasks concurrently. In pursuit of this, we first introduced our definition of the "semantic source", enabling the interpretation of multiple semantics based on a single observation. A semantic encoder design is then introduced, featuring the division of the encoder into a common unit and multiple specific units enabling cooperative multi-task processing. Simulation results demonstrate the effectiveness of the proposed semantic source and the system design. Our approach employs information maximization (infomax) and end-to-end design principles.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-22
# 分散データを用いたオンラインモデル選択における協調の必要性について

On the Necessity of Collaboration in Online Model Selection with Decentralized Data ( http://arxiv.org/abs/2404.09494v3 )

ライセンス: Link先を確認
Junfan Li, Zenglin Xu, Zheshun Wu, Irwin King, (参考訳) 我々は,100万ドル以上の分散データを用いたオンラインモデル選択について検討し,クライアント間のコラボレーションの必要性について検討する。 従来の研究は,計算制約の新たな視点から質問に答える一方で,その必要性を示さずに,様々なフェデレーションアルゴリズムを提案した。 我々は, 後悔の少ない境界を証明し, 連合アルゴリズムを提案し, 上界を解析する。 私たちの結果は 一 クライアントの計算上の制約がない場合には、協力は不要である。 (ii)各クライアントの計算コストが$o(K)$に制限されている場合、$K$は仮説空間の候補数である。 分散オンラインマルチカーネル学習における従来のフェデレーションアルゴリズムにおける協調の不要な性質を明らかにするとともに,計算・通信コストの低減を図る。 我々のアルゴリズムは、マーチンゲールに対するバーンスタインの不平等の改善、フェデレートされたオンラインミラー降下フレームワーク、モデル選択と予測の分離を含む3つの新しい手法に依存している。

We consider online model selection with decentralized data over $M$ clients, and study the necessity of collaboration among clients. Previous work proposed various federated algorithms without demonstrating their necessity, while we answer the question from a novel perspective of computational constraints. We prove lower bounds on the regret, and propose a federated algorithm and analyze the upper bound. Our results show (i) collaboration is unnecessary in the absence of computational constraints on clients; (ii) collaboration is necessary if the computational cost on each client is limited to $o(K)$, where $K$ is the number of candidate hypothesis spaces. We clarify the unnecessary nature of collaboration in previous federated algorithms for distributed online multi-kernel learning, and improve the regret bounds at a smaller computational and communication cost. Our algorithm relies on three new techniques including an improved Bernstein's inequality for martingale, a federated online mirror descent framework, and decoupling model selection and prediction, which might be of independent interest.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-22
# Many-Shot In-Context Learning

Many-Shot In-Context Learning ( http://arxiv.org/abs/2404.11018v2 )

ライセンス: Link先を確認
Rishabh Agarwal, Avi Singh, Lei M. Zhang, Bernd Bohnet, Luis Rosias, Stephanie Chan, Biao Zhang, Ankesh Anand, Zaheer Abbas, Azade Nova, John D. Co-Reyes, Eric Chu, Feryal Behbahani, Aleksandra Faust, Hugo Larochelle, (参考訳) 大規模言語モデル(LLM)は、数ショットのインコンテキスト学習(ICL)で優れている -- 重み付けの更新なしに、推論で提供されるいくつかの例から学習する。新たに拡張されたコンテキストウィンドウにより、数百から数千の例でICLを調査できる — 多ショットの仕組みである。 数ショットから多ショットに進むことで、さまざまな生成的および差別的なタスクにおいて、大幅なパフォーマンス向上が観測される。 有望ではあるが、多発型ICLは、人間が生成したサンプルの利用可能な量によってボトルネックになる可能性がある。 この制限を軽減するために、ReinforcedとUnsupervised ICLという2つの新しい設定を検討します。 Reinforced ICLは、人間の例の代わりにモデル生成の連鎖論理を用いる。 教師なしのICLは、プロンプトから合理性を完全に取り除き、ドメイン固有の質問でのみモデルにプロンプトする。 Reinforced と Unsupervised ICL の両者は、特に複雑な推論タスクにおいて、多ショット方式において非常に効果的であることがわかった。 最後に、少数ショット学習とは異なり、多ショット学習は事前学習バイアスのオーバーライドに有効であり、数値入力で高次元関数を学習でき、微調整に相容れない性能を示す。 また, 下流ICL性能の指標として, 次点予測損失の限界を明らかにした。

Large language models (LLMs) excel at few-shot in-context learning (ICL) -- learning from a few examples provided in context at inference, without any weight updates. Newly expanded context windows allow us to investigate ICL with hundreds or thousands of examples -- the many-shot regime. Going from few-shot to many-shot, we observe significant performance gains across a wide variety of generative and discriminative tasks. While promising, many-shot ICL can be bottlenecked by the available amount of human-generated examples. To mitigate this limitation, we explore two new settings: Reinforced and Unsupervised ICL. Reinforced ICL uses model-generated chain-of-thought rationales in place of human examples. Unsupervised ICL removes rationales from the prompt altogether, and prompts the model only with domain-specific questions. We find that both Reinforced and Unsupervised ICL can be quite effective in the many-shot regime, particularly on complex reasoning tasks. Finally, we demonstrate that, unlike few-shot learning, many-shot learning is effective at overriding pretraining biases, can learn high-dimensional functions with numerical inputs, and performs comparably to fine-tuning. Our analysis also reveals the limitations of next-token prediction loss as an indicator of downstream ICL performance.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-22
# NeuroHash:空間認識による画像ハッシュと検索のための超次元神経シンボリックフレームワーク

NeuroHash: A Hyperdimensional Neuro-Symbolic Framework for Spatially-Aware Image Hashing and Retrieval ( http://arxiv.org/abs/2404.11025v3 )

ライセンス: Link先を確認
Sanggeon Yun, Ryozo Masukawa, SungHeon Jeong, Mohsen Imani, (参考訳) 大規模なデータセットからのカスタマイズ可能な画像検索は、特に画像内の空間的関係を保存する場合、依然として重要な課題である。 従来のハッシュ法は、主に深層学習に基づいており、空間情報を適切に捉えることができず、透明性が欠如していることが多い。 本稿では,高次元コンピューティング(HDC)を活用し,高度にカスタマイズ可能な空間認識画像検索を実現するニューロハッシュについて紹介する。 NeuroHashは、事前トレーニングされたディープニューラルネットワークモデルとHDCベースのシンボリックモデルを組み合わせることで、条件付き画像検索をサポートするためにハッシュ値の柔軟な操作を可能にする。 提案手法は, 自己制御型コンテキスト対応HDCエンコーダと, マルチ線形超平面を用いた低次元双極子ハッシュの最適化のための新しい損失項を含む。 我々は2つのベンチマークデータセット上でNeuroHashを評価し、mAP@5Kスコアと新たに導入されたmAP@5Krによって測定された、最先端のハッシュ手法よりも優れた性能を示す。 結果は、NeuroHashが競争力のあるパフォーマンスを実現する能力を強調し、柔軟性とカスタマイズの面で大きな利点を提供し、より高度で汎用的な画像検索システムへの道を開いた。

Customizable image retrieval from large datasets remains a critical challenge, particularly when preserving spatial relationships within images. Traditional hashing methods, primarily based on deep learning, often fail to capture spatial information adequately and lack transparency. In this paper, we introduce NeuroHash, a novel neuro-symbolic framework leveraging Hyperdimensional Computing (HDC) to enable highly customizable, spatially-aware image retrieval. NeuroHash combines pre-trained deep neural network models with HDC-based symbolic models, allowing for flexible manipulation of hash values to support conditional image retrieval. Our method includes a self-supervised context-aware HDC encoder and novel loss terms for optimizing lower-dimensional bipolar hashing using multilinear hyperplanes. We evaluate NeuroHash on two benchmark datasets, demonstrating superior performance compared to state-of-the-art hashing methods, as measured by mAP@5K scores and our newly introduced metric, mAP@5Kr, which assesses spatial alignment. The results highlight NeuroHash's ability to achieve competitive performance while offering significant advantages in flexibility and customization, paving the way for more advanced and versatile image retrieval systems.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-22
# Hyper-SD:効率的な画像合成のための軌道分割一貫性モデル

Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis ( http://arxiv.org/abs/2404.13686v2 )

ライセンス: Link先を確認
Yuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao, (参考訳) 近年,拡散モデル(DM)の多段階推論プロセスに伴う計算オーバーヘッドを軽減するために,拡散対応蒸留アルゴリズムが出現している。 現在の蒸留技術は、しばしば2つの異なる側面に二分される。 一 腺軌道保存 二 ODE軌道の改定 しかし、これらのアプローチは厳しいパフォーマンス劣化やドメインシフトに悩まされる。 これらの制約に対処するため,ステップ圧縮時にほぼ無作為な性能を維持しつつ,ODEトラジェクトリ保存と改革の利点を相乗的に満たす新しいフレームワークであるHyper-SDを提案する。 まず, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入し, 高次視点からのオリジナルODEトラジェクトリの保存を容易にし, あらかじめ定義された時間ステップセグメント内で一貫した蒸留を行う。 第2に,人間のフィードバック学習を取り入れて,低段階のシステムにおけるモデルの性能向上と,蒸留プロセスによって生じる性能損失の軽減を図る。 第3に,モデルの低ステップ生成能力を向上するためにスコア蒸留を統合し,全てのステップで推論プロセスをサポートするために,統一されたLoRAを活用するための最初の試みを提供する。 大規模な実験とユーザスタディにより、Hyper-SDはSDXLとSD1.5の両方で1から8の推論ステップでSOTA性能を達成することが示された。 例えば、Hyper-SDXLはCLIP Scoreで+0.68、Aes Scoreで+0.51、SDXL-Lightningで+0.68を上回っている。

Recently, a series of diffusion-aware distillation algorithms have emerged to alleviate the computational overhead associated with the multi-step inference process of Diffusion Models (DMs). Current distillation techniques often dichotomize into two distinct aspects: i) ODE Trajectory Preservation; and ii) ODE Trajectory Reformulation. However, these approaches suffer from severe performance degradation or domain shifts. To address these limitations, we propose Hyper-SD, a novel framework that synergistically amalgamates the advantages of ODE Trajectory Preservation and Reformulation, while maintaining near-lossless performance during step compression. Firstly, we introduce Trajectory Segmented Consistency Distillation to progressively perform consistent distillation within pre-defined time-step segments, which facilitates the preservation of the original ODE trajectory from a higher-order perspective. Secondly, we incorporate human feedback learning to boost the performance of the model in a low-step regime and mitigate the performance loss incurred by the distillation process. Thirdly, we integrate score distillation to further improve the low-step generation capability of the model and offer the first attempt to leverage a unified LoRA to support the inference process at all steps. Extensive experiments and user studies demonstrate that Hyper-SD achieves SOTA performance from 1 to 8 inference steps for both SDXL and SD1.5. For example, Hyper-SDXL surpasses SDXL-Lightning by +0.68 in CLIP Score and +0.51 in Aes Score in the 1-step inference.
翻訳日:2024-05-25 05:40:24 公開日:2024-05-22
# GlobalBuildingMap - グローバルなビルの謎を解き明かす

GlobalBuildingMap -- Unveiling the Mystery of Global Buildings ( http://arxiv.org/abs/2404.13911v2 )

ライセンス: Link先を確認
Xiao Xiang Zhu, Qingyu Li, Yilei Shi, Yuanyuan Wang, Adam Stewart, Jonathan Prexl, (参考訳) 世界中の建物がどのように分布しているかを理解することは、地球上の人間の足跡を明らかにする上で非常に重要です。 この構築された環境は、気候、地表面アルベド、資源分布など、健康や人間の健康に影響を及ぼす重要な要素に影響を及ぼす。 それにもかかわらず、世界中の建物の分布と特性に関する定量的かつ包括的なデータは欠落している。 この目的のために、ビッグデータ分析アプローチと80万近い衛星画像を使用することで、これまでに作成された最も高解像度かつ高精度なビルディングマップであるGlobalBuildingMap(GBM)を生成しました。 ビルマップと太陽ポテンシャルの合同分析により、屋上太陽エネルギーは、合理的なコストで地球規模のエネルギー消費の需要を供給できることが示されている。 具体的には、すべての建物の屋根にソーラーパネルを設置すれば、2020年の世界のエネルギー消費は1.1~3.3倍となる。 また,建築領域と重要な社会経済変数との空間的相関を明確化し,グローバルな建築地図がグローバルな社会経済ニーズとドライバをモデル化するための重要なインプットとなることを示す。

Understanding how buildings are distributed globally is crucial to revealing the human footprint on our home planet. This built environment affects local climate, land surface albedo, resource distribution, and many other key factors that influence well-being and human health. Despite this, quantitative and comprehensive data on the distribution and properties of buildings worldwide is lacking. To this end, by using a big data analytics approach and nearly 800,000 satellite images, we generated the highest resolution and highest accuracy building map ever created: the GlobalBuildingMap (GBM). A joint analysis of building maps and solar potentials indicates that rooftop solar energy can supply the global energy consumption need at a reasonable cost. Specifically, if solar panels were placed on the roofs of all buildings, they could supply 1.1-3.3 times -- depending on the efficiency of the solar device -- the global energy consumption in 2020, which is the year with the highest consumption on record. We also identified a clear geospatial correlation between building areas and key socioeconomic variables, which indicates our global building map can serve as an important input to modeling global socioeconomic needs and drivers.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-22
# FMint:微分方程式基礎モデルのための人間設計とデータ事前学習モデル

FMint: Bridging Human Designed and Data Pretrained Models for Differential Equation Foundation Model ( http://arxiv.org/abs/2404.14688v2 )

ライセンス: Link先を確認
Zezheng Song, Jiaxin Yuan, Haizhao Yang, (参考訳) 本稿では,様々な微分方程式の大規模シミュレーションを高精度に高速化するために,事前学習した基礎モデルである \textbf{FMint} (\textbf{F}oundation \textbf{M}odel を提案する。 人間の設計したシミュレーションアルゴリズムは、工学的問題の基本的な物理を捉えるのに優れているが、精度と効率のトレードオフをバランスさせる必要があることが多い。 ディープラーニングの手法は多くの科学分野に革新的な解決策を提供しているが、ドメイン固有の知識に乏しいことが多い。 FMintは、従来の人間設計アルゴリズムから得られた粗い解を条件付けすることでこれらのギャップを埋め、様々な微分方程式の洗練された解を得るように訓練した。 大規模言語モデルのバックボーンに基づいて,与えられた粗い解列から動的システムの普遍的誤り訂正法を学習するために,文脈内学習方式を適用する。 モデルは600Kの常微分方程式(ODE)のコーパス上で事前学習され、分布内および分布外の両方のタスクについて広範な実験を行う。 FMintは大規模シミュレーションにおいて様々なベースラインを上回り、未確認ODEへの一般化の能力を示す。 提案手法は,最新の動的システムシミュレータよりも1~2桁の精度向上を実現し,従来の数値アルゴリズムと比較して5倍の高速化を実現している。

In this paper, we propose a pre-trained foundation model \textbf{FMint} (\textbf{F}oundation \textbf{M}odel based on \textbf{In}i\textbf{t}ialization), designed to speed up large-scale simulations of various differential equations with high accuracy via error correction. Human-designed simulation algorithms excel at capturing the fundamental physics of engineering problems, but often need to balance the trade-off between accuracy and efficiency. While deep learning methods offer innovative solutions across numerous scientific fields, they frequently fall short in domain-specific knowledge. FMint bridges these gaps through conditioning on the initial coarse solutions obtained from conventional human-designed algorithms, and trained to obtain refined solutions for various differential equations. Based on the backbone of large language models, we adapt the in-context learning scheme to learn a universal error correction method for dynamical systems from given prompted sequences of coarse solutions. The model is pre-trained on a corpus of 600K ordinary differential equations (ODEs), and we conduct extensive experiments on both in-distribution and out-of-distribution tasks. FMint outperforms various baselines on large-scale simulation, and demonstrates its capability in generalization to unseen ODEs. Our approach achieves an accuracy improvement of 1 to 2 orders of magnitude over state-of-the-art dynamical system simulators, and delivers a 5X speedup compared to traditional numerical algorithms.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-22
# CORE-BEHRT: 慎重に最適化され、厳格に評価されるBEHRT

CORE-BEHRT: A Carefully Optimized and Rigorously Evaluated BEHRT ( http://arxiv.org/abs/2404.15201v3 )

ライセンス: Link先を確認
Mikkel Odgaard, Kiril Vadimovic Klein, Sanne Møller Thysen, Espen Jimenez-Solem, Martin Sillesen, Mads Nielsen, (参考訳) BERTベースのElectronic Health Records(EHR)モデルはBEHRTとMed-BERTのリリース以降、人気が高まっている。 その後のモデルは主にこれらの基礎の上に構築されてきたが、これらの先駆的なモデルの基本設計選択は未調査のままである。 この問題に対処するために、ケアリー・オプティマイズとリゴリズ・評価されたBEHRTであるCORE-BEHRTを紹介する。 インクリメンタルな最適化を通じて、重要な設計選択のための改善の源泉を分離し、データ表現と個々の技術コンポーネントがパフォーマンスに与える影響について洞察する。 一連の総合的な課題(死、痛み治療、一般感染)で評価した結果、データ表現の改善は、主に薬品やタイムスタンプを含む場合、平均下流性能を0.785AUROCから0.797AUROCに向上させることができることがわかった。 アーキテクチャとトレーニングプロトコルの改善により、平均ダウンストリーム性能は0.801 AUROCに向上した。 次に,25種類の臨床予測課題に対して厳密な評価を行うことで,最適化の整合性を実証した。 その結果,25タスク中17タスクが顕著に向上し,24タスクが改善した。 本研究は,今後の研究の基盤となるとともに,BERTベースのEHRモデルの信頼性向上をめざすものである。

BERT-based models for Electronic Health Records (EHR) have surged in popularity following the release of BEHRT and Med-BERT. Subsequent models have largely built on these foundations despite the fundamental design choices of these pioneering models remaining underexplored. To address this issue, we introduce CORE-BEHRT, a Carefully Optimized and Rigorously Evaluated BEHRT. Through incremental optimization, we isolate the sources of improvement for key design choices, giving us insights into the effect of data representation and individual technical components on performance. Evaluating this across a set of generic tasks (death, pain treatment, and general infection), we showed that improving data representation can increase the average downstream performance from 0.785 to 0.797 AUROC, primarily when including medication and timestamps. Improving the architecture and training protocol on top of this increased average downstream performance to 0.801 AUROC. We then demonstrated the consistency of our optimization through a rigorous evaluation across 25 diverse clinical prediction tasks. We observed significant performance increases in 17 out of 25 tasks and improvements in 24 tasks, highlighting the generalizability of our findings. Our findings provide a strong foundation for future work and aim to increase the trustworthiness of BERT-based EHR models.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-22
# Wiki-LLaVA:マルチモーダルLLMのための階層型検索型生成

Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs ( http://arxiv.org/abs/2404.15406v2 )

ライセンス: Link先を確認
Davide Caffagni, Federico Cocchi, Nicholas Moratelli, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, (参考訳) マルチモーダル LLM は LLM の自然な進化であり、その能力を純粋にテキストのモダリティを超えて機能するように拡張する。 本稿では、新しいアーキテクチャや視覚・言語対応のアダプタを設計するために研究が進められているため、外部知識を必要とする疑問に答える能力を備えたモデルの提供に焦点をあてる。 我々のアプローチはWiki-LLaVAと呼ばれ、階層的な検索パイプラインを通してアクセスされるマルチモーダル文書の外部知識ソースを統合することを目的としている。 この手法を用いて、関連するパスを外部知識ソースから検索し、LLMのための追加コンテキストとして使用し、生成された対話の有効性と精度を高める。 我々は,外部データによる視覚的質問応答に適したデータセットについて広範な実験を行い,その妥当性を実証する。

Multimodal LLMs are the natural evolution of LLMs, and enlarge their capabilities so as to work beyond the pure textual modality. As research is being carried out to design novel architectures and vision-and-language adapters, in this paper we concentrate on endowing such models with the capability of answering questions that require external knowledge. Our approach, termed Wiki-LLaVA, aims at integrating an external knowledge source of multimodal documents, which is accessed through a hierarchical retrieval pipeline. Relevant passages, using this approach, are retrieved from the external knowledge source and employed as additional context for the LLM, augmenting the effectiveness and precision of generated dialogues. We conduct extensive experiments on datasets tailored for visual question answering with external data and demonstrate the appropriateness of our approach.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-22
# 医療産業における大規模言語モデル応用の評価に関する総合的研究

A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry ( http://arxiv.org/abs/2404.15777v3 )

ライセンス: Link先を確認
Yining Huang, Keke Tang, Meilian Chen, (参考訳) 2017年のTransformerアーキテクチャの開始以来、GPTやBERTのような大規模言語モデル(LLM)は大幅に進化し、言語理解と生成の高度な能力を持つ様々な産業に影響を与えた。 これらのモデルは、医療分野を変革する可能性を示し、その効果的かつ倫理的な展開を保証するための特別な評価フレームワークの必要性を強調している。 この包括的調査は、医療におけるLSMの広範な適用と必要な評価を概説し、医療の成果を高める上で、その能力を完全に活用するための実証的検証の重要性を強調した。 本調査は,臨床環境,医療用テキストデータ処理,研究,教育,公衆衛生への意識といった分野におけるLCM応用の詳細な分析を行うために構成されている。 まず,臨床診断,医用テキストデータ処理,情報検索,データ分析,教育コンテンツ生成などのタスクにおける評価結果に基づいて,様々な医療応用におけるLCMの役割を探求することから始める。 その後のセクションでは、モデル、評価者、比較実験を含む、採用される評価方法とメトリクスについて包括的な議論がなされている。 さらに,これらの評価に用いたベンチマークとデータセットについて検討し,質問応答,要約,情報抽出,バイオインフォマティクス,情報検索,総合ベンチマークなどのタスクのベンチマークを分類した記述を提供する。 この構造は、医療領域におけるLSMの有効性、正確性、ユーザビリティ、倫理的整合性についてどのように評価されるか、徹底的に理解することを保証する。 はぁ...。

Since the inception of the Transformer architecture in 2017, Large Language Models (LLMs) such as GPT and BERT have evolved significantly, impacting various industries with their advanced capabilities in language understanding and generation. These models have shown potential to transform the medical field, highlighting the necessity for specialized evaluation frameworks to ensure their effective and ethical deployment. This comprehensive survey delineates the extensive application and requisite evaluation of LLMs within healthcare, emphasizing the critical need for empirical validation to fully exploit their capabilities in enhancing healthcare outcomes. Our survey is structured to provide an in-depth analysis of LLM applications across clinical settings, medical text data processing, research, education, and public health awareness. We begin by exploring the roles of LLMs in various medical applications, detailing their evaluation based on performance in tasks such as clinical diagnosis, medical text data processing, information retrieval, data analysis, and educational content generation. The subsequent sections offer a comprehensive discussion on the evaluation methods and metrics employed, including models, evaluators, and comparative experiments. We further examine the benchmarks and datasets utilized in these evaluations, providing a categorized description of benchmarks for tasks like question answering, summarization, information extraction, bioinformatics, information retrieval and general comprehensive benchmarks. This structure ensures a thorough understanding of how LLMs are assessed for their effectiveness, accuracy, usability, and ethical alignment in the medical domain. ...
翻訳日:2024-05-25 05:30:39 公開日:2024-05-22
# 弱-ストロング外挿処理の迅速化

Weak-to-Strong Extrapolation Expedites Alignment ( http://arxiv.org/abs/2404.16792v2 )

ライセンス: Link先を確認
Chujie Zheng, Ziqi Wang, Heng Ji, Minlie Huang, Nanyun Peng, (参考訳) オープンソースコミュニティは、指示に従うように訓練され、人間の好みに合わせている大規模な言語モデル(LLM)のリリースが急増している。 しかし、それらを改善するためのさらなるトレーニングには、高価な計算リソースとデータアノテーションが必要である。 追加のトレーニングを回避し、コスト効率のよいモデルを取得することは可能か? モデル補間に関する文献に触発されて,人間の好みに合わせたLLMのアライメントを高めるためのExPOと呼ばれる簡単な手法を提案する。 例えば、アライメントトレーニングを受けたモデル(例えば、DPOまたはRLHF)とその初期SFTチェックポイントを使用して、ExPOは、初期モデルとアライメントモデルの重みから外挿することで、アライメント目標を1次近似によって暗黙的に最適化することで、直列モデルを得る。 HuggingFace上での12のオープンソースLLMによる実験により、主要なLLMベンチマークAlpacaEval 2.0とMT-Benchで評価されるように、ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。 さらに、ExPOは、さまざまなモデルサイズ(1.8Bから70Bまで)と機能に優れたスケーラビリティを示しています。 制御実験とさらなる実験分析により,アライメントトレーニング中に学習した報酬信号を増幅するExPOの本質に光を当てた。 本研究は,LLMと人間の嗜好の一致を早めるためのモデル外挿法の有効性を実証し,今後の研究に期待できる方向を示唆する。

The open-source community is experiencing a surge in the release of large language models (LLMs) that are trained to follow instructions and align with human preference. However, further training to improve them still requires expensive computational resources and data annotations. Is it possible to bypass additional training and cost-effectively acquire better-aligned models? Inspired by the literature on model interpolation, we propose a simple method called ExPO to boost LLMs' alignment with human preference. Utilizing a model that has undergone alignment training (e.g., via DPO or RLHF) and its initial SFT checkpoint, ExPO directly obtains a better-aligned model by extrapolating from the weights of the initial and the aligned models, which implicitly optimizes the alignment objective via first-order approximation. Through experiments with twelve open-source LLMs on HuggingFace, we demonstrate that ExPO consistently improves off-the-shelf DPO/RLHF models, as evaluated on the mainstream LLM benchmarks AlpacaEval 2.0 and MT-Bench. Moreover, ExPO exhibits remarkable scalability across various model sizes (from 1.8B to 70B) and capabilities. Through controlled experiments and further empirical analyses, we shed light on the essence of ExPO amplifying the reward signal learned during alignment training. Our work demonstrates the efficacy of model extrapolation in expediting the alignment of LLMs with human preference, suggesting a promising direction for future research.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-22
# マルチフィンガーハンドによるヴァイオタクティルスキルの学習

Learning Visuotactile Skills with Two Multifingered Hands ( http://arxiv.org/abs/2404.16823v2 )

ライセンス: Link先を確認
Toru Lin, Yu Zhang, Qiyang Li, Haozhi Qi, Brent Yi, Sergey Levine, Jitendra Malik, (参考訳) 人のような器用さ,知覚経験,動作パターンを再現することを目的として,多指ハンドとビゾタクタクタブルデータを用いたバイマダルシステムを用いて,人間の実演からの学習を探索する。 2つの大きな課題は、マルチフィンガーハンドを備えたデュアルアーム設定に適した安価な遠隔操作システムがないこと、タッチセンサーを備えたマルチフィンガーハンドハードウェアの不足である。 最初の課題に取り組むために、私たちは、市販の電子機器を活用する低コストのハンドアーム遠隔操作システムであるHATOを開発し、効率的なデータ収集を可能にするソフトウェアスイートを補完し、包括的なソフトウェアスイートはマルチモーダルデータ処理、スケーラブルなポリシー学習、スムーズなポリシー展開もサポートしています。 後者の課題に対処するために, タッチセンサを備えた2本の義手を再使用し, 新たなハードウェア適応を導入する。 本システムから収集した粘菌データを用いて,マルチフィンガードデキスタリティやタッチフィードバックを伴わずに達成し難い長時間の高精度タスクを完遂する技術を学ぶ。 さらに,データサイズ,モダリティ,視覚入力前処理が政策学習に与える影響を実証的に検討した。 以上の結果から,バイスオタクティブルデータからの両指多指操作における有望な進歩が示唆された。 ビデオ、コード、データセットはhttps://toruowo.github.io/hato/で見ることができる。

Aiming to replicate human-like dexterity, perceptual experiences, and motion patterns, we explore learning from human demonstrations using a bimanual system with multifingered hands and visuotactile data. Two significant challenges exist: the lack of an affordable and accessible teleoperation system suitable for a dual-arm setup with multifingered hands, and the scarcity of multifingered hand hardware equipped with touch sensing. To tackle the first challenge, we develop HATO, a low-cost hands-arms teleoperation system that leverages off-the-shelf electronics, complemented with a software suite that enables efficient data collection; the comprehensive software suite also supports multimodal data processing, scalable policy learning, and smooth policy deployment. To tackle the latter challenge, we introduce a novel hardware adaptation by repurposing two prosthetic hands equipped with touch sensors for research. Using visuotactile data collected from our system, we learn skills to complete long-horizon, high-precision tasks which are difficult to achieve without multifingered dexterity and touch feedback. Furthermore, we empirically investigate the effects of dataset size, sensing modality, and visual input preprocessing on policy learning. Our results mark a promising step forward in bimanual multifingered manipulation from visuotactile data. Videos, code, and datasets can be found at https://toruowo.github.io/hato/ .
翻訳日:2024-05-25 05:30:39 公開日:2024-05-22
# 量子ダイヤモンド顕微鏡によるマイクロマグネットの極低交流感受性の観察

Observation of Ultra-low AC Susceptibility in Micro-magnets Using Quantum Diamond Microscope ( http://arxiv.org/abs/2404.17376v2 )

ライセンス: Link先を確認
Dasika Shishir, Matthew L. Markham, Kasturi Saha, (参考訳) 静電気サセプティメトリーとは異なり、交流サセプティメトリーは磁気材料について深い洞察を与える。 交流感受性測定を利用することで、磁気力学に関する重要な詳細を把握できる。 それにもかかわらず、従来の交流感受性計は、テラあたり数ナノジュールの範囲内の磁気モーメントの変化を測定することに制約されている。 さらに、空間分解能は著しく制限されており、バルクサンプルのみに適用できる。 本研究では,NV中心型量子ダイヤモンド顕微鏡を用いて,ミクロンスケールの強磁性試料の交流感受性をマッピングする手法を提案する。 我々はコヒーレントパルスシーケンスを用いて,70マイクロメートルの視野内の試料から,その大きさと位相を抽出し,分解能を1マイクロメートルとした。 さらに,数百kヘルツに達する周波数での励起によって誘発されるテラ毎のフェムトジュールの順序による双極子モーメントの変化を定量化する。

AC susceptometry, unlike static susceptometry, offers a deeper insight into magnetic materials. By employing AC susceptibility measurements, one can glean into crucial details regarding magnetic dynamics. Nevertheless, traditional AC susceptometers are constrained to measuring changes in magnetic moments within the range of a few nano-joules per tesla. Additionally, their spatial resolution is severely limited, confining their application to bulk samples only. In this study, we introduce the utilization of a Nitrogen Vacancy (NV) center-based quantum diamond microscope for mapping the AC susceptibility of micron-scale ferromagnetic specimens. By employing coherent pulse sequences, we extract both magnitude and the phase of the field from samples within a field of view spanning 70 micro-meters while achieving a resolution of 1 micro-meter. Furthermore, we quantify changes in dipole moment on the order of a femto-joules per tesla induced by excitations at frequencies reaching several hundred kilohertz.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-22
# BlenderAlchemy:ビジョンランゲージモデルによる3Dグラフィックの編集

BlenderAlchemy: Editing 3D Graphics with Vision-Language Models ( http://arxiv.org/abs/2404.17672v2 )

ライセンス: Link先を確認
Ian Huang, Guandao Yang, Leonidas Guibas, (参考訳) グラフィックデザインは、映画制作やゲームデザインなど様々な用途において重要である。 高品質なシーンを作るためには、デザイナーは通常、Blenderのようなソフトウェアに何時間も費やす必要がある。 さらに、わずかに異なる設計目標には、完全に異なるシーケンスが必要になる可能性があるため、自動化が難しくなる。 本稿では,GPT-4Vのような視覚言語モデル(VLM)を利用して,ユーザの意図を満足できる回答に到達するための設計行動空間をインテリジェントに探索するシステムを提案する。 具体的には、視覚に基づく編集生成器と状態評価器を協調して設計し、その目標を達成するためのアクションの正しいシーケンスを見つける。 人間のデザインプロセスにおける視覚的想像力の役割に触発されて、VLMの視覚的推論能力と画像生成モデルからの「想像」参照イメージを補完し、抽象言語記述の視覚的基盤を提供する。 本稿では,テキストや参照画像からのプロシージャ資料の編集や複雑なシーンにおける製品レンダリングの照明構成の調整といったタスクに対して,簡単なが退屈なブレンダー編集シーケンスを生成できることを示す実証的証拠を提供する。

Graphics design is important for various applications, including movie production and game design. To create a high-quality scene, designers usually need to spend hours in software like Blender, in which they might need to interleave and repeat operations, such as connecting material nodes, hundreds of times. Moreover, slightly different design goals may require completely different sequences, making automation difficult. In this paper, we propose a system that leverages Vision-Language Models (VLMs), like GPT-4V, to intelligently search the design action space to arrive at an answer that can satisfy a user's intent. Specifically, we design a vision-based edit generator and state evaluator to work together to find the correct sequence of actions to achieve the goal. Inspired by the role of visual imagination in the human design process, we supplement the visual reasoning capabilities of VLMs with "imagined" reference images from image-generation models, providing visual grounding of abstract language descriptions. In this paper, we provide empirical evidence suggesting our system can produce simple but tedious Blender editing sequences for tasks such as editing procedural materials from text and/or reference images, as well as adjusting lighting configurations for product renderings in complex scenes.
翻訳日:2024-05-25 05:30:39 公開日:2024-05-22
# SCorP: 統計インフォームド・デンス対応予測

SCorP: Statistics-Informed Dense Correspondence Prediction Directly from Unsegmented Medical Images ( http://arxiv.org/abs/2404.17967v2 )

ライセンス: Link先を確認
Krithika Iyer, Jadie Adams, Shireen Y. Elhabian, (参考訳) 統計形状モデリング(SSM)は、解剖学的構造の幾何学的変動を定量化し分析するための強力な計算フレームワークであり、医学研究、診断、治療計画の進歩を促進する。 画像データから形状モデリングを行う従来の手法は、重要なマニュアルや計算資源を必要とする。 さらに、これらの手法は、新しいデータに対して形状記述子(例えば、表面上の点対応)を導出するために、モデリングパイプライン全体を繰り返す必要がある。 ディープラーニングのアプローチは、新しいデータに基づくSSMの構築の合理化を約束する一方で、深層ネットワークのトレーニングを監督する従来の技術に依存している。 さらに、従来のアプローチの線形性仮定は有効性を制限し、最適化/確立された対応を用いて訓練されたディープラーニングモデルにも制限が受け継がれている。 その結果、複雑な解剖の表現が困難になる。 これらの制約に対処するため,SCorPは,非分割画像から直接表面上の対応を予測できる新しいフレームワークである。 表面メッシュから直接学習した形状を教師なしで活用することにより、トレーニングの監督のために最適化された形状モデルの必要性を解消する。 前の強い形状は教師として機能し、学生ネットワークの特徴学習を規則化し、表面の対応を予測できる画像に基づく特徴の学習に役立てる。 線形性仮定を緩和しつつ、対応予測タスクの監督を取り除き、トレーニングと推論フェーズを合理化する。

Statistical shape modeling (SSM) is a powerful computational framework for quantifying and analyzing the geometric variability of anatomical structures, facilitating advancements in medical research, diagnostics, and treatment planning. Traditional methods for shape modeling from imaging data demand significant manual and computational resources. Additionally, these methods necessitate repeating the entire modeling pipeline to derive shape descriptors (e.g., surface-based point correspondences) for new data. While deep learning approaches have shown promise in streamlining the construction of SSMs on new data, they still rely on traditional techniques to supervise the training of the deep networks. Moreover, the predominant linearity assumption of traditional approaches restricts their efficacy, a limitation also inherited by deep learning models trained using optimized/established correspondences. Consequently, representing complex anatomies becomes challenging. To address these limitations, we introduce SCorP, a novel framework capable of predicting surface-based correspondences directly from unsegmented images. By leveraging the shape prior learned directly from surface meshes in an unsupervised manner, the proposed model eliminates the need for an optimized shape model for training supervision. The strong shape prior acts as a teacher and regularizes the feature learning of the student network to guide it in learning image-based features that are predictive of surface correspondences. The proposed model streamlines the training and inference phases by removing the supervision for the correspondence prediction task while alleviating the linearity assumption.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-22
# Holmes: 言語モデルの言語能力のベンチマーク

Holmes: Benchmark the Linguistic Competence of Language Models ( http://arxiv.org/abs/2404.18923v2 )

ライセンス: Link先を確認
Andreas Waldis, Yotam Perlitz, Leshem Choshen, Yufang Hou, Iryna Gurevych, (参考訳) 言語モデル(LM)の言語能力を評価するためのベンチマークであるHolmesを紹介した。 事前のプロンプトに基づく評価とは異なり、ホームズは分類器に基づく探索を用いて内部表現を通してLMの言語能力を評価する。 そこで本研究では,テキストによる指示に従うような認知能力から,特定の現象(例えば,単語の一部)を解き放つとともに,LMの言語能力の独立性を評価するための近年の呼びかけに答える。 ホームズによる250以上の探索研究を概観し,200以上のデータセットを特徴付け,構文,形態,意味論,推論,談話現象を評価する。 50 LM以上を分析してみると、既知の傾向に合わせて、言語能力はモデルのサイズと相関していることがわかる。 しかし、驚くべきことに、モデルアーキテクチャと命令チューニングは、特に形態学や構文において、パフォーマンスにも大きな影響を与えている。 最後に,FlashHolmesを提案する。Holmesの合理化バージョンは高い計算負荷を低減し,高い精度を維持しつつ,高い計算負荷を低減できる。

We introduce Holmes, a benchmark to assess the linguistic competence of language models (LMs) - their ability to grasp linguistic phenomena. Unlike prior prompting-based evaluations, Holmes assesses the linguistic competence of LMs via their internal representations using classifier-based probing. In doing so, we disentangle specific phenomena (e.g., part-of-speech of words) from other cognitive abilities, like following textual instructions, and meet recent calls to assess LMs' linguistic competence in isolation. Composing Holmes, we review over 250 probing studies and feature more than 200 datasets to assess syntax, morphology, semantics, reasoning, and discourse phenomena. Analyzing over 50 LMs reveals that, aligned with known trends, their linguistic competence correlates with model size. However, surprisingly, model architecture and instruction tuning also significantly influence performance, particularly in morphology and syntax. Finally, we propose FlashHolmes, a streamlined version of Holmes designed to lower the high computation load while maintaining high-ranking precision.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-22
# 言語へのニューロビジョン:脳記録による視覚再構成と言語相互作用の強化

Neuro-Vision to Language: Enhancing Visual Reconstruction and Language Interaction through Brain Recordings ( http://arxiv.org/abs/2404.19438v3 )

ライセンス: Link先を確認
Guobin Shen, Dongcheng Zhao, Xiang He, Linghao Feng, Yiting Dong, Jihang Wang, Qian Zhang, Yi Zeng, (参考訳) 非侵襲的な脳記録の復号は、人間の認知の理解を促進する上で重要であるが、個人差や複雑な神経信号の表現による課題に直面している。 伝統的な手法は、しばしばカスタマイズされたモデルと広範囲な試行を必要とし、視覚的再構成タスクの解釈性に欠ける。 本研究では,視覚変換器を用いた3次元脳構造と視覚的意味論を統合した。 この統合された特徴抽出器は、fMRI機能を複数のレベルの視覚的埋め込みと効率的に整合させ、被検体固有のモデルの必要性を排除し、単検体データからの抽出を可能にする。 抽出器は複数レベルの視覚的特徴を1つのネットワークに統合し、Large Language Models (LLMs)との統合を簡素化する。 さらに,マルチモーダル大規模モデル開発を支援するために,fMRI画像関連テキストデータを用いたfMRIデータセットを拡張した。 LLMとの統合はデコード機能を強化し、脳のキャプション、複雑な推論、概念のローカライゼーション、視覚的再構成といったタスクを可能にする。 提案手法は,脳信号内の言語に基づく概念を正確に同定し,解釈可能性を高め,ニューラルプロセスに対する深い洞察を提供する。 これらの進歩は、神経科学と人間とコンピュータの相互作用における非侵襲的な脳デコーディングの適用性を著しく拡大し、先進的な脳とコンピュータのインターフェースと認知モデルのためのステージを設定した。

Decoding non-invasive brain recordings is pivotal for advancing our understanding of human cognition but faces challenges due to individual differences and complex neural signal representations. Traditional methods often require customized models and extensive trials, lacking interpretability in visual reconstruction tasks. Our framework integrates 3D brain structures with visual semantics using a Vision Transformer 3D. This unified feature extractor efficiently aligns fMRI features with multiple levels of visual embeddings, eliminating the need for subject-specific models and allowing extraction from single-trial data. The extractor consolidates multi-level visual features into one network, simplifying integration with Large Language Models (LLMs). Additionally, we have enhanced the fMRI dataset with diverse fMRI-image-related textual data to support multimodal large model development. Integrating with LLMs enhances decoding capabilities, enabling tasks such as brain captioning, complex reasoning, concept localization, and visual reconstruction. Our approach demonstrates superior performance across these tasks, precisely identifying language-based concepts within brain signals, enhancing interpretability, and providing deeper insights into neural processes. These advances significantly broaden the applicability of non-invasive brain decoding in neuroscience and human-computer interaction, setting the stage for advanced brain-computer interfaces and cognitive models.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-22
# 超音波ナビゲーション誘導のためのゴール条件強化学習

Goal-conditioned reinforcement learning for ultrasound navigation guidance ( http://arxiv.org/abs/2405.01409v2 )

ライセンス: Link先を確認
Abdoul Aziz Amadou, Vivek Singh, Florin C. Ghesu, Young-Ho Kim, Laura Stanciulescu, Harshitha P. Sai, Puneet Sharma, Alistair Young, Ronak Rajani, Kawal Rhode, (参考訳) 経食道心エコー法(TEE)は, 診断・介入術において重要な役割を担っている。 しかし、画像の取得と解釈の複雑な性質のため、効果的に広範囲な訓練が必要である。 初心者ソノグラフィーの効率を高め,スキャン取得における可変性を低減するため,目標条件強化学習(GCRL)としてコントラスト学習に基づく超音波ナビゲーション支援手法を提案する。 我々は,新しいコントラスト的患者バッチリング法 (CPB) とデータ拡張型コントラスト的損失を用いて,従来の枠組みを拡張した。 提案するフレームワークは,標準的な診断と,単一モデルによる複雑な介入ビューの両立を可能にする。 提案手法は789名の患者を対象とした大規模データセットを用いて開発され,140名の患者を対象に平均6.56mm,9.36°の角度での誤差を得た。 さらに,LAA閉鎖に使用される左心房アプリケージ(LAA)ビューのような介入的視点にナビゲートする手法の能力を定量的に検証した。 本手法は,経食道超音波検査において有意義なガイダンスを提供することを約束し,心超音波検査者に対する技術習得の進展に寄与する。

Transesophageal echocardiography (TEE) plays a pivotal role in cardiology for diagnostic and interventional procedures. However, using it effectively requires extensive training due to the intricate nature of image acquisition and interpretation. To enhance the efficiency of novice sonographers and reduce variability in scan acquisitions, we propose a novel ultrasound (US) navigation assistance method based on contrastive learning as goal-conditioned reinforcement learning (GCRL). We augment the previous framework using a novel contrastive patient batching method (CPB) and a data-augmented contrastive loss, both of which we demonstrate are essential to ensure generalization to anatomical variations across patients. The proposed framework enables navigation to both standard diagnostic as well as intricate interventional views with a single model. Our method was developed with a large dataset of 789 patients and obtained an average error of 6.56 mm in position and 9.36 degrees in angle on a testing dataset of 140 patients, which is competitive or superior to models trained on individual views. Furthermore, we quantitatively validate our method's ability to navigate to interventional views such as the Left Atrial Appendage (LAA) view used in LAA closure. Our approach holds promise in providing valuable guidance during transesophageal ultrasound examinations, contributing to the advancement of skill acquisition for cardiac ultrasound practitioners.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-22
# 低リソース言語におけるクローン病放射線学レポートからの構造化情報抽出のためのプロンプト学習の活用

Leveraging Prompt-Learning for Structured Information Extraction from Crohn's Disease Radiology Reports in a Low-Resource Language ( http://arxiv.org/abs/2405.01682v2 )

ライセンス: Link先を確認
Liam Hazan, Gili Focht, Naama Gavrielov, Roi Reichart, Talar Hagopian, Mary-Louise C. Greer, Ruth Cytter Kuint, Dan Turner, Moti Freiman, (参考訳) 自然言語処理(NLP)技術を用いた自由テキストラジオグラフィーレポートの構造化データへの自動変換は,大規模に疾患を解析するために重要である。 英語のような広く話されている言語でのタスクに効果的であるが、生成的大言語モデル(LLM)は一般的にあまり一般的でない言語でパフォーマンスが低く、患者のプライバシーに潜在的なリスクをもたらす可能性がある。 微調整されたローカルNLPモデルは、希少な発見が重要なデータ不均衡を示す現実世界の医療データセットの歪んだ性質によって妨げられている。 SMP-BERTは,これらの課題を克服するために,レポートの構造的性質を活用する新しいプロンプト学習手法である。 ヘブライ語におけるクローン病の放射線学レポート(8000人以上、10,000人以上)の収集に関する本研究では、SMP-BERTが従来の微調整法を大幅に上回り、特に頻度の低い状況(AUC: 0.99対0.94、F1: 0.84対0.34)が検出された。 SMP-BERTは、低リソース言語で利用可能なより正確なAI診断を可能にする。

Automatic conversion of free-text radiology reports into structured data using Natural Language Processing (NLP) techniques is crucial for analyzing diseases on a large scale. While effective for tasks in widely spoken languages like English, generative large language models (LLMs) typically underperform with less common languages and can pose potential risks to patient privacy. Fine-tuning local NLP models is hindered by the skewed nature of real-world medical datasets, where rare findings represent a significant data imbalance. We introduce SMP-BERT, a novel prompt learning method that leverages the structured nature of reports to overcome these challenges. In our studies involving a substantial collection of Crohn's disease radiology reports in Hebrew (over 8,000 patients and 10,000 reports), SMP-BERT greatly surpassed traditional fine-tuning methods in performance, notably in detecting infrequent conditions (AUC: 0.99 vs 0.94, F1: 0.84 vs 0.34). SMP-BERT empowers more accurate AI diagnostics available for low-resource languages.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-22
# 均一暗号を用いたクラウド上の安全かつ効率的な一般行列乗算

Secure and Efficient General Matrix Multiplication On Cloud Using Homomorphic Encryption ( http://arxiv.org/abs/2405.02238v2 )

ライセンス: Link先を確認
Yang Gao, Gang Quan, Soamar Homsi, Wujie Wen, Liqiang Wang, (参考訳) クラウドの技術的および経済的アドバンテージにもかかわらず、セキュリティとプライバシはクラウドコンピューティング機能を採用する上で、特に高いセキュリティ要件を持つ政府機関や商業部門において、常に主要な関心事となっている。 ホモモルフィック暗号化(HE)は、最近、暗号化されたデータ上でのコンピューティングを可能にすることで、機密性の高いアプリケーションのプライバシとセキュリティを確保する効果的なツールとして登場した。 しかし、HEベースの計算を採用する上での大きな障害は計算コストの過大さである。 本稿では,HE方式がサポートする単一命令多重データ(SIMD)演算を活用することで,汎用的行列乗法(MM)の基本構築ブロックであるHEベースの計算コストの削減方法について議論する。 具体的には、一般化行列乗算のための新しい要素ワイドアルゴリズムを開発し、HEに基づく2つの一般行列乗算(HEGMM)アルゴリズムを提案し、HE計算コストを削減した。 実験の結果,我々のアルゴリズムはHEベースの行列乗算の最先端手法よりも大幅に優れていることがわかった。

Despite the cloud enormous technical and financial advantages, security and privacy have always been the primary concern for adopting cloud computing facility, especially for government agencies and commercial sectors with high-security requirements. Homomorphic Encryption (HE) has recently emerged as an effective tool in assuring privacy and security for sensitive applications by allowing computing on encrypted data. One major obstacle to employing HE-based computation, however, is its excessive computational cost, which is multiple magnitudes higher than its counterpart based on the plaintext. In this paper, we study the problem of how to reduce the HE-based computational cost for general Matrix Multiplication (MM), i.e., a fundamental building block for numerous practical applications, by taking advantage of the Single Instruction Multiple Data (SIMD) operation supported by HE schemes. Specifically, we develop a novel element-wise algorithm for general matrix multiplication, based on which we propose two HE-based General Matrix Multiplication (HEGMM) algorithms to reduce the HE computation cost. Our experimental results show that our algorithms can significantly outperform the state-of-the-art approaches of HE-based matrix multiplication.
翻訳日:2024-05-25 05:20:55 公開日:2024-05-22
# 自動プラグマ挿入とコード変換フレームワークによる高レベル合成の強化

Enhancing High-Level Synthesis with Automated Pragma Insertion and Code Transformation Framework ( http://arxiv.org/abs/2405.03058v3 )

ライセンス: Link先を確認
Stéphane Pouget, Louis-Noël Pouchet, Jason Cong, (参考訳) 高レベルの合成、ソース・ソース・コンパイラ、およびプラグマ挿入のための様々な設計空間探索技術により、生成された設計結果の品質が大幅に向上した。 これらのツールは、開発時間を短縮し、パフォーマンスを向上するといった利点を提供する。 しかしながら、高品質な結果を達成するには、通常、個別または前処理ステップとして実行される、追加の手動コード変換とタイリング選択が必要になることが多い。 DSE技術は前もってコード変換を可能にするが、検索空間の広大な部分で可能なすべてのコード変換の探索が制限されることが多く、どの変換が必要なのかを判断することは困難である。 さらに、特に複雑な変換や最適化において、正確性を保証することは依然として困難である。 この障害に対処するため,我々はまず,HLSコンパイラを活用した包括的なフレームワークを提案する。 本システムでは,並列化の強化,特に計算バウンドカーネルに有用な並列化の実現を目的として,オンチップデータキャッシングにおけるコード変換,プラグマ挿入,タイルサイズ選択を合理化している。 新たな非線形プログラミング(NLP)アプローチを採用し、正規ループベースのカーネルに焦点をあて、変換、プラグマ、タイルサイズを同時に確認する。 我々の評価は、変換が不要なシナリオを含む、我々のフレームワークが適切に適切な変換を識別し、良好な結果の質を達成するためにプラグマを挿入することを示しています。

High-level synthesis, source-to-source compilers, and various Design Space Exploration techniques for pragma insertion have significantly improved the Quality of Results of generated designs. These tools offer benefits such as reduced development time and enhanced performance. However, achieving high-quality results often requires additional manual code transformations and tiling selections, which are typically performed separately or as pre-processing steps. Although DSE techniques enable code transformation upfront, the vastness of the search space often limits the exploration of all possible code transformations, making it challenging to determine which transformations are necessary. Additionally, ensuring correctness remains challenging, especially for complex transformations and optimizations. To tackle this obstacle, we first propose a comprehensive framework leveraging HLS compilers. Our system streamlines code transformation, pragma insertion, and tiles size selection for on-chip data caching through a unified optimization problem, aiming to enhance parallelization, particularly beneficial for computation-bound kernels. Them employing a novel Non-Linear Programming (NLP) approach, we simultaneously ascertain transformations, pragmas, and tile sizes, focusing on regular loop-based kernels. Our evaluation demonstrates that our framework adeptly identifies the appropriate transformations, including scenarios where no transformation is necessary, and inserts pragmas to achieve a favorable Quality of Results.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-22
# 音楽のディープフェイク検出は簡単だけど難しい

Detecting music deepfakes is easy but actually hard ( http://arxiv.org/abs/2405.04181v2 )

ライセンス: Link先を確認
Darius Afchar, Gabriel Meseguer-Brocal, Romain Hennequin, (参考訳) 生成モデルの新たな時代に直面して、人工的に生成されたコンテンツの検出が最も重要になっている。 ユーザーフレンドリーなプラットフォーム上で数秒で、信頼できる分間の音楽ディープフェイクを作る能力は、ストリーミングサービスに対する詐欺や、人間のアーティストに対する不公平な競争の脅威をもたらす。 本稿では、実際の音声と偽の再構成を含むデータセット上でのトレーニング分類器の可能性(および驚くほど容易)を示し、99.8%の精度を実現する。 私たちの知る限り、これは音楽の偽造を規制するツールである音楽のディープフェイク検知器を初めて発表したことを意味している。 しかし、他の分野における偽造検出に関する何十年もの文献から、良いテストスコアは物語の終わりではないと強調されている。 私たちは、単純なMLフレームワークから離れ、キャリブレーション、オーディオ操作に対する堅牢性、目に見えないモデルへの一般化、解釈可能性、リコースの可能性といった、このようなデプロイされたディテクターで問題となる可能性のある多くのファセットを公開します。 この第2部は、この分野における今後の研究の歩みと、偽コンテンツチェッカーの繁栄市場への注意点として機能する。

In the face of a new era of generative models, the detection of artificially generated content has become a matter of utmost importance. The ability to create credible minute-long music deepfakes in a few seconds on user-friendly platforms poses a real threat of fraud on streaming services and unfair competition to human artists. This paper demonstrates the possibility (and surprising ease) of training classifiers on datasets comprising real audio and fake reconstructions, achieving a convincing accuracy of 99.8%. To our knowledge, this marks the first publication of a music deepfake detector, a tool that will help in the regulation of music forgery. Nevertheless, informed by decades of literature on forgery detection in other fields, we stress that a good test score is not the end of the story. We step back from the straightforward ML framework and expose many facets that could be problematic with such a deployed detector: calibration, robustness to audio manipulation, generalisation to unseen models, interpretability and possibility for recourse. This second part acts as a position for future research steps in the field and a caveat to a flourishing market of fake content checkers.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-22
# 深部回帰のための不確かさ定量化指標

Uncertainty Quantification Metrics for Deep Regression ( http://arxiv.org/abs/2405.04278v3 )

ライセンス: Link先を確認
Simon Kristoffersson Lind, Ziliang Xiong, Per-Erik Forssén, Volker Krüger, (参考訳) ロボットや他の物理システムにディープニューラルネットワークをデプロイする場合、学習モデルは予測の不確実性を確実に定量化する必要がある。 確実な不確実性により、下流モジュールはその動作の安全性を推論することができる。 本研究では,このような不確実性を評価するための指標について述べる。 具体的には、回帰タスクに着目し、AUSE(Area Under Sparsification Error)、Calibration Error(Calibration Error)、Spearman's Rank correlation(Spearman's Rank correlation)、NLL(Negative Log-Likelihood)を調査する。 合成回帰データセットを用いて、これらの指標が4つの典型的な不確実性、テストセットのサイズに関する安定性、強みと弱点の下でどのように振る舞うかを考察する。 その結果,キャリブレーションエラーが最も安定かつ解釈可能な指標であることが示唆されたが,AUSEとNLLにはそれぞれのユースケースがある。 我々は、不確実性を評価するためにSpearman's Rank correlationの使用を禁止し、AUSEに置き換えることを推奨する。

When deploying deep neural networks on robots or other physical systems, the learned model should reliably quantify predictive uncertainty. A reliable uncertainty allows downstream modules to reason about the safety of its actions. In this work, we address metrics for evaluating such an uncertainty. Specifically, we focus on regression tasks, and investigate Area Under Sparsification Error (AUSE), Calibration Error, Spearman's Rank Correlation, and Negative Log-Likelihood (NLL). Using synthetic regression datasets, we look into how those metrics behave under four typical types of uncertainty, their stability regarding the size of the test set, and reveal their strengths and weaknesses. Our results indicate that Calibration Error is the most stable and interpretable metric, but AUSE and NLL also have their respective use cases. We discourage the usage of Spearman's Rank Correlation for evaluating uncertainties and recommend replacing it with AUSE.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-22
# FlexEControl:テキスト・画像生成のための柔軟で効率的なマルチモーダル制御

FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation ( http://arxiv.org/abs/2405.04834v2 )

ライセンス: Link先を確認
Xuehai He, Jian Zheng, Jacob Zhiyuan Fang, Robinson Piramuthu, Mohit Bansal, Vicente Ordonez, Gunnar A Sigurdsson, Nanyun Peng, Xin Eric Wang, (参考訳) 制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。 しかしながら、現在の制御可能なT2I法は、特に同一または多種多様なモダリティから複数の入力を条件付けする場合、効率と忠実性に関連する課題に直面するのが一般的である。 本稿では,制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。 FlexEControlの中核にはユニークな重み分解戦略があり、様々な入力型の合理化を可能にする。 このアプローチは、生成した画像の忠実度を制御に高めるだけでなく、マルチモーダル条件付けに関連する計算オーバーヘッドを大幅に削減する。 提案手法は,Uni-ControlNetと比較して,トレーニング可能なパラメータの41%,メモリ使用率の30%の削減を実現している。 さらに、データの効率を2倍にし、様々なモードの複数の入力条件のガイダンスの下で、柔軟に画像を生成できる。

Controllable text-to-image (T2I) diffusion models generate images conditioned on both text prompts and semantic inputs of other modalities like edge maps. Nevertheless, current controllable T2I methods commonly face challenges related to efficiency and faithfulness, especially when conditioning on multiple inputs from either the same or diverse modalities. In this paper, we propose a novel Flexible and Efficient method, FlexEControl, for controllable T2I generation. At the core of FlexEControl is a unique weight decomposition strategy, which allows for streamlined integration of various input types. This approach not only enhances the faithfulness of the generated image to the control, but also significantly reduces the computational overhead typically associated with multimodal conditioning. Our approach achieves a reduction of 41% in trainable parameters and 30% in memory usage compared with Uni-ControlNet. Moreover, it doubles data efficiency and can flexibly generate images under the guidance of multiple input conditions of various modalities.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-22
# カスタムグラディエント推定器はディフューズにおけるストレートスルー推定器である

Custom Gradient Estimators are Straight-Through Estimators in Disguise ( http://arxiv.org/abs/2405.05171v3 )

ライセンス: Link先を確認
Matt Schoenbauer, Daniele Moro, Lukasz Lew, Andrew Howard, (参考訳) 量子化を意識したトレーニングには根本的な課題が伴う: 丸めのような量子化関数の微分は、ほぼ至る所でゼロであり、他の場所では存在しない。 量子化関数の様々な微分可能近似がこの問題に対処するために提案されている。 本稿では,学習速度が十分に小さい場合,重み付け勾配推定器の大規模なクラスは,ストレート・スルー・スルー・スルー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・スリー・ス 具体的には、STEを交換し、SGDの重量初期化と学習率を調整した後、モデルは元の勾配推定器とほぼ同じように訓練する。 さらに、Adamのような適応学習率アルゴリズムでは、重み付け初期化や学習率を変更することなく、同じ結果が得られることを示す。 これらの結果は、MNISTデータセットでトレーニングされた小さな畳み込みモデルと、ImageNetでトレーニングされたResNet50モデルの両方に対して有効であることを示す。

Quantization-aware training comes with a fundamental challenge: the derivative of quantization functions such as rounding are zero almost everywhere and nonexistent elsewhere. Various differentiable approximations of quantization functions have been proposed to address this issue. In this paper, we prove that when the learning rate is sufficiently small, a large class of weight gradient estimators is equivalent with the straight through estimator (STE). Specifically, after swapping in the STE and adjusting both the weight initialization and the learning rate in SGD, the model will train in almost exactly the same way as it did with the original gradient estimator. Moreover, we show that for adaptive learning rate algorithms like Adam, the same result can be seen without any modifications to the weight initialization and learning rate. We experimentally show that these results hold for both a small convolutional model trained on the MNIST dataset and for a ResNet50 model trained on ImageNet.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-22
# 1/e$を超えている: 部分モジュラー最大化のためのガイド付きコンビネーションアルゴリズム

Discretely Beyond $1/e$: Guided Combinatorial Algorithms for Submodular Maximization ( http://arxiv.org/abs/2405.05202v2 )

ライセンス: Link先を確認
Yixin Chen, Ankur Nath, Chunli Peng, Alan Kuhnle, (参考訳) 制約付き、必ずしも単調な部分モジュラー最大化に対しては、1/e$以上の比を持つ既知の近似アルゴリズムは、部分モジュラー函数の多重線型拡大へのクエリやその勾配のような連続的なアイデアを必要とする。 組合せアルゴリズムでは, Buchbinder et al [9]: $1/e \approx 0.367$ for size constraintst and $0.281$ for the matroid constraint in $\mathcal O (kn)$ query, where $k$ is the rank of the matroid。 本研究は,1/e$障壁を破る最初の組合せアルゴリズムを開発する。近似比が$0.385$ in $\mathcal O (kn)$で,サイズ制約に対する部分モジュラ集合関数へのクエリが$0.305$であり,一般のマトロイド制約に対して$0.305$である。 これらは、高速局所探索アルゴリズムを用いてランダム化グレディアルゴリズムを導くことで達成される。 さらに、これらのアルゴリズムの決定論的バージョンを開発し、同じ比率と漸近時間の複雑さを維持した。 最後に,その比が0.377$である決定論的ほぼ線形時間アルゴリズムを開発した。

For constrained, not necessarily monotone submodular maximization, all known approximation algorithms with ratio greater than $1/e$ require continuous ideas, such as queries to the multilinear extension of a submodular function and its gradient, which are typically expensive to simulate with the original set function. For combinatorial algorithms, the best known approximation ratios for both size and matroid constraint are obtained by a simple randomized greedy algorithm of Buchbinder et al. [9]: $1/e \approx 0.367$ for size constraint and $0.281$ for the matroid constraint in $\mathcal O (kn)$ queries, where $k$ is the rank of the matroid. In this work, we develop the first combinatorial algorithms to break the $1/e$ barrier: we obtain approximation ratio of $0.385$ in $\mathcal O (kn)$ queries to the submodular set function for size constraint, and $0.305$ for a general matroid constraint. These are achieved by guiding the randomized greedy algorithm with a fast local search algorithm. Further, we develop deterministic versions of these algorithms, maintaining the same ratio and asymptotic time complexity. Finally, we develop a deterministic, nearly linear time algorithm with ratio $0.377$.
翻訳日:2024-05-25 05:11:11 公開日:2024-05-22
# フェアミックスエフェクト支援ベクトルマシン

Fair Mixed Effects Support Vector Machine ( http://arxiv.org/abs/2405.06433v2 )

ライセンス: Link先を確認
João Vitor Pamplona, Jan Pablo Burgard, (参考訳) 偏見のない倫理的自動予測を保証するためには、公正性は機械学習アプリケーションにおける中核的な原則でなければならない。 機械学習の公正性は、トレーニングデータに存在するバイアスを緩和し、差別的な結果につながる可能性のある欠陥をモデル化することを目的としている。 これは、モデルが民族性や性的指向といった繊細な特徴に基づいて決定するのを防ぐことで達成される。 機械学習の基本的な前提は観察の独立である。 しかし、この仮定は、しばしばデータポイントがクラスタ化された社会現象を記述するデータには当てはまらないことが多い。 したがって、機械学習モデルがクラスタ相関を考慮していない場合、結果はバイアスを受ける可能性がある。 特に、クラスタ割り当てが関心の変数と相関している場合のバイアスが高い。 両問題を同時に処理できるベクターマシンアルゴリズムを提案する。 再現可能なシミュレーション研究により、クラスタ化されたデータが公正な機械学習予測の品質に与える影響を実証する。

To ensure unbiased and ethical automated predictions, fairness must be a core principle in machine learning applications. Fairness in machine learning aims to mitigate biases present in the training data and model imperfections that could lead to discriminatory outcomes. This is achieved by preventing the model from making decisions based on sensitive characteristics like ethnicity or sexual orientation. A fundamental assumption in machine learning is the independence of observations. However, this assumption often does not hold true for data describing social phenomena, where data points are often clustered based. Hence, if the machine learning models do not account for the cluster correlations, the results may be biased. Especially high is the bias in cases where the cluster assignment is correlated to the variable of interest. We present a fair mixed effects support vector machine algorithm that can handle both problems simultaneously. With a reproducible simulation study we demonstrate the impact of clustered data on the quality of fair machine learning predictions.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-22
# Federated Document Visual Question Answering: パイロットスタディ

Federated Document Visual Question Answering: A Pilot Study ( http://arxiv.org/abs/2405.06636v2 )

ライセンス: Link先を確認
Khanh Nguyen, Dimosthenis Karatzas, (参考訳) 文書分析研究の重要な利点は、文書は著作権や私的な情報を含む傾向にあり、公開を禁止し、大規模な文書データセットを集中的に作成することである。 その代わりに、ドキュメントはプライベートデータサイロに分散され、異種データに対する広範なトレーニングが面倒な作業になる。 本研究では,分散化されたプライベート文書データ上での共有モデルの学習方法として,FL(Federated Learning)スキームの利用について検討する。 このアプローチに特に適したタスクであるDocument VQAの問題に注目する。 異種文書データセットによるトレーニングはDocVQAモデルを大幅に強化することができる。 既存のDocVQAデータセットをさまざまなドメインから収集し、実世界のアプリケーションにおけるデータの均一性を反映する。 このマルチモーダル環境では、事前トレーニングと微調整の両方に同じデータが使用され、プライバシー保護に関係している。 さらに,FedAvgベースラインを上回る集中型適応最適化を用いて,自己事前学習とFederated DocVQAトレーニングの併用を提案する。 広範に実験を行った結果,FLを用いたDocVQAモデルの学習における多面的解析結果が得られた。 我々は,さまざまなDocVQAデータセットを用いたフェデレーショントレーニングにおいて,事前学習戦略が効果的に学習し,スケールアップできることを示し,ハイパーパラメータをチューニングすることが,フェデレーション下の実用的な文書タスクに不可欠であることを示す。

An important handicap of document analysis research is that documents tend to be copyrighted or contain private information, which prohibits their open publication and the creation of centralised, large-scale document datasets. Instead, documents are scattered in private data silos, making extensive training over heterogeneous data a tedious task. In this work, we explore the use of a federated learning (FL) scheme as a way to train a shared model on decentralised private document data. We focus on the problem of Document VQA, a task particularly suited to this approach, as the type of reasoning capabilities required from the model can be quite different in diverse domains. Enabling training over heterogeneous document datasets can thus substantially enrich DocVQA models. We assemble existing DocVQA datasets from diverse domains to reflect the data heterogeneity in real-world applications. We explore the self-pretraining technique in this multi-modal setting, where the same data is used for both pretraining and finetuning, making it relevant for privacy preservation. We further propose combining self-pretraining with a Federated DocVQA training method using centralized adaptive optimization that outperforms the FedAvg baseline. With extensive experiments, we also present a multi-faceted analysis on training DocVQA models with FL, which provides insights for future research on this task. We show that our pretraining strategies can effectively learn and scale up under federated training with diverse DocVQA datasets and tuning hyperparameters is essential for practical document tasks under federation.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-22
# OpenFOAM組み込みディープラーニングフレームワークを用いた粗大CFDシミュレーションにおける空間離散化誤差の低減

Reducing Spatial Discretization Error on Coarse CFD Simulations Using an OpenFOAM-Embedded Deep Learning Framework ( http://arxiv.org/abs/2405.07441v2 )

ライセンス: Link先を確認
Jesus Gonzalez-Sieiro, David Pardo, Vincenzo Nava, Victor M. Calo, Markus Towara, (参考訳) 粗い計算流体力学(CFD)問題における空間的離散化誤差を,高品質なデータを入力したディープラーニングモデルを用いて,低分解能シミュレーションの品質を高めることによって低減する手法を提案する。 我々は、セル中心から顔の値への速度を補間するフィードフォワードニューラルネットワークにより、対流項のデフォルトの差分法を置き換え、精細なデータをよく近似する速度を生成する。 ディープラーニングフレームワークには、オープンソースのCFDコードOpenFOAMが組み込まれており、エンドツーエンドの差別化モデルとなっている。 我々は、離散随伴符号バージョンを用いてCFD物理を自動的に区別する。 トレーニングプロセスを高速化するTensorFlow(Python)とOpenFOAM(c++)の高速通信方式を提案する。 8x粗いメッシュを用いたx-およびy-速度成分の従来の解法と比較して, トレーニング分布外のシミュレーションでは, 誤差を約50%削減した。 アーキテクチャは物理の局所的な特徴を利用しながら、中期シミュレーションの安定した予測を生成するため、時間とデータサンプルの観点からは、このトレーニングは安価である。

We propose a method for reducing the spatial discretization error of coarse computational fluid dynamics (CFD) problems by enhancing the quality of low-resolution simulations using a deep learning model fed with high-quality data. We substitute the default differencing scheme for the convection term by a feed-forward neural network that interpolates velocities from cell centers to face values to produce velocities that approximate the fine-mesh data well. The deep learning framework incorporates the open-source CFD code OpenFOAM, resulting in an end-to-end differentiable model. We automatically differentiate the CFD physics using a discrete adjoint code version. We present a fast communication method between TensorFlow (Python) and OpenFOAM (c++) that accelerates the training process. We applied the model to the flow past a square cylinder problem, reducing the error to about 50% for simulations outside the training distribution compared to the traditional solver in the x- and y-velocity components using an 8x coarser mesh. The training is affordable in terms of time and data samples since the architecture exploits the local features of the physics while generating stable predictions for mid-term simulations.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-22
# PeRFlow:Universal Plug-and-Play AcceleratorとしてのPiecewise Rectified Flow

PeRFlow: Piecewise Rectified Flow as Universal Plug-and-Play Accelerator ( http://arxiv.org/abs/2405.07510v2 )

ライセンス: Link先を確認
Hanshu Yan, Xingchao Liu, Jiachun Pan, Jun Hao Liew, Qiang Liu, Jiashi Feng, (参考訳) 拡散モデルを高速化するフローベース手法であるPecewise Rectified Flow(PeRFlow)を提案する。 PeRFlowは、生成フローのサンプリングプロセスを複数の時間ウィンドウに分割し、リフロー操作を通じて各間隔の軌跡を直線化し、断片的な線形フローに近づく。 PeRFlowは数ステップの世代で優れたパフォーマンスを達成する。 さらに、専用のパラメータ化を通じて、PeRFlowモデルは事前訓練された拡散モデルから知識を継承する。 このように、トレーニングは高速に収束し、得られたモデルは、事前訓練された拡散モデルに基づいて様々なワークフローと互換性のある普遍的なプラグアンドプレイアクセラレータとして機能する、有利な転送能力を示す。 トレーニングと推論のためのコードも公開されている。 https://github.com/magic-research/piecewise-rectified-flow

We present Piecewise Rectified Flow (PeRFlow), a flow-based method for accelerating diffusion models. PeRFlow divides the sampling process of generative flows into several time windows and straightens the trajectories in each interval via the reflow operation, thereby approaching piecewise linear flows. PeRFlow achieves superior performance in a few-step generation. Moreover, through dedicated parameterizations, the PeRFlow models inherit knowledge from the pretrained diffusion models. Thus, the training converges fast and the obtained models show advantageous transfer ability, serving as universal plug-and-play accelerators that are compatible with various workflows based on the pre-trained diffusion models. Codes for training and inference are publicly released. https://github.com/magic-research/piecewise-rectified-flow
翻訳日:2024-05-25 05:01:27 公開日:2024-05-22
# AgentClinic: シミュレーションされた臨床環境でAIを評価するマルチモーダルエージェントベンチマーク

AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments ( http://arxiv.org/abs/2405.07960v2 )

ライセンス: Link先を確認
Samuel Schmidgall, Rojin Ziaei, Carl Harris, Eduardo Reis, Jeffrey Jopling, Michael Moor, (参考訳) 患者の診断と管理は複雑でシーケンシャルな意思決定プロセスであり、医師は情報を得る必要がある。 人工知能(AI)と大規模言語モデル(LLM)の最近の進歩は、臨床医療に大きな影響を与えることを約束している。 しかし、現在の評価スキームは静的な医学的質問答えベンチマークに過度に頼っており、実際の臨床研究に必要な対話的な意思決定には不足している。 本稿では, LLMs をシミュレートされた臨床環境において, エージェントとして操作する能力を評価するマルチモーダルベンチマークである AgentClinic を提案する。 本ベンチマークでは,医師は対話や活動的データ収集を通じて患者の診断を明らかにする必要がある。 本稿では,マルチモーダル画像と対話環境であるAgentClinic-NEJMと,対話専用環境であるAgentClinic-MedQAの2つのオープンメディカルエージェントベンチマークを提案する。 患者エージェントと医師エージェントの両方に認知バイアスと暗黙バイアスを組み込んで、偏見のあるエージェント間の現実的な相互作用をエミュレートする。 偏見の導入は, 医師の診断精度を大幅に低下させるとともに, 患者エージェントのコンプライアンス, 信頼度, フォローアップ相談意欲を低下させる。 MedQAのようなベンチマークで優れているいくつかのモデルが、AgentClinic-MedQAでは不十分であることが判明した。 我々は,患者エージェントで使用するLSMが,AgentClinicベンチマークにおけるパフォーマンスの重要な要因であることが判明した。 本研究は, 医師エージェントの診断精度を低下させるとともに, 相互作用が限定的であり, 相互作用が多すぎることも示している。 この作業のコードとデータはhttps://AgentClinic.github.io.comで公開されている。

Diagnosing and managing a patient is a complex, sequential decision making process that requires physicians to obtain information -- such as which tests to perform -- and to act upon it. Recent advances in artificial intelligence (AI) and large language models (LLMs) promise to profoundly impact clinical care. However, current evaluation schemes overrely on static medical question-answering benchmarks, falling short on interactive decision-making that is required in real-life clinical work. Here, we present AgentClinic: a multimodal benchmark to evaluate LLMs in their ability to operate as agents in simulated clinical environments. In our benchmark, the doctor agent must uncover the patient's diagnosis through dialogue and active data collection. We present two open medical agent benchmarks: a multimodal image and dialogue environment, AgentClinic-NEJM, and a dialogue-only environment, AgentClinic-MedQA. We embed cognitive and implicit biases both in patient and doctor agents to emulate realistic interactions between biased agents. We find that introducing bias leads to large reductions in diagnostic accuracy of the doctor agents, as well as reduced compliance, confidence, and follow-up consultation willingness in patient agents. Evaluating a suite of state-of-the-art LLMs, we find that several models that excel in benchmarks like MedQA are performing poorly in AgentClinic-MedQA. We find that the LLM used in the patient agent is an important factor for performance in the AgentClinic benchmark. We show that both having limited interactions as well as too many interaction reduces diagnostic accuracy in doctor agents. The code and data for this work is publicly available at https://AgentClinic.github.io.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-22
# モノのインターネットからビジネスプロセスへ:課題とフレームワーク

From Internet of Things Data to Business Processes: Challenges and a Framework ( http://arxiv.org/abs/2405.08528v2 )

ライセンス: Link先を確認
Juergen Mangler, Ronny Seiger, Janik-Vasily Benzin, Joscha Grüger, Yusuf Kirikkayis, Florian Gallik, Lukas Malburg, Matthias Ehrendorfer, Yannis Bertrand, Marco Franceschetti, Barbara Weber, Stefanie Rinderle-Ma, Ralph Bergmann, Estefanía Serral Asensio, Manfred Reichert, (参考訳) IoTとビジネスプロセス管理(BPM)コミュニティは、製造業や医療など、多くの共有アプリケーションドメインに共存しています。 BPMコミュニティは、主にプロセス内のIoTデバイス間の構造化された相互作用を発見し、制御し、拡張することに焦点を当てています。 プロセスマイニングの分野はプロセスモデルの抽出とプロセスイベントログからのプロセス分析を扱うが、IoTセンサによって生成されたデータは、プロセスレベルのイベントよりも粒度が低いことが多い。 IoTセンサ値のストリームからのプロセス関連データの抽出と抽象化に関する基本的な質問は,(1)プロセスイベントの一部として,どのセンサ値をクラスタ化できるのか? , (2)そのようなイベントの開始と終了を表すセンサ値は? ,(3)どのセンサ値が関係するが必須ではないか? 本研究では,低レベルのIoTセンサデータをプロセスマイニングに適した高レベルのプロセスイベントに変換するための,構造化ステップの半自動実行フレームワークを提案する。 このフレームワークは、イベント抽出、抽象化、相関を導くための抽象ステップの一般的なシーケンスを提供することを目的としており、各ステップごとに特定の分析テクニックとアルゴリズムをプラグインするための変分ポイントを提供する。 フレームワークの完全性を評価するため、我々は、フレームワークを通してどのように取り組まなければならないか、そしてスマート製造の分野から実世界の実演でフレームワークをインスタンス化する方法の例を示す。 この枠組みに基づいて、個々のステップを精錬し改善することで、将来的な研究を構造化された方法で行うことができる。

The IoT and Business Process Management (BPM) communities co-exist in many shared application domains, such as manufacturing and healthcare. The IoT community has a strong focus on hardware, connectivity and data; the BPM community focuses mainly on finding, controlling, and enhancing the structured interactions among the IoT devices in processes. While the field of Process Mining deals with the extraction of process models and process analytics from process event logs, the data produced by IoT sensors often is at a lower granularity than these process-level events. The fundamental questions about extracting and abstracting process-related data from streams of IoT sensor values are: (1) Which sensor values can be clustered together as part of process events?, (2) Which sensor values signify the start and end of such events?, (3) Which sensor values are related but not essential? This work proposes a framework to semi-automatically perform a set of structured steps to convert low-level IoT sensor data into higher-level process events that are suitable for process mining. The framework is meant to provide a generic sequence of abstract steps to guide the event extraction, abstraction, and correlation, with variation points for plugging in specific analysis techniques and algorithms for each step. To assess the completeness of the framework, we present a set of challenges, how they can be tackled through the framework, and an example on how to instantiate the framework in a real-world demonstration from the field of smart manufacturing. Based on this framework, future research can be conducted in a structured manner through refining and improving individual steps.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-22
# 公正一般化線形混合モデル

Fair Generalized Linear Mixed Models ( http://arxiv.org/abs/2405.09273v2 )

ライセンス: Link先を確認
Jan Pablo Burgard, João Vitor Pamplona, (参考訳) 自動予測に機械学習を用いる場合、予測の公平性を考慮することが重要である。 機械学習の公正性は、データとモデルの不正確さのバイアスが差別的な決定に結びつかないことを保証することを目的としている。 例えば、公正な機械学習モデルからの予測は、性的指向や民族性のような敏感な変数に対して差別するべきではない。 トレーニングデータは、しばしば社会調査から取得される。 ソーシャルサーベイでは、しばしばデータ収集のプロセスは、コスト制限のため、ストラタサンプリングである。 成層圏のサンプルでは、観測間の独立性の仮定は満たされない。 したがって、機械学習モデルが成層相関を考慮しなければ、結果はバイアスを受ける可能性がある。 特に、階層割当が興味の変数と相関している場合のバイアスが高い。 本稿では,両問題を同時に処理できるアルゴリズムを提案し,再現可能なシミュレーション研究において,階層化サンプリングが公正な機械学習予測の品質に与える影響を実証する。

When using machine learning for automated prediction, it is important to account for fairness in the prediction. Fairness in machine learning aims to ensure that biases in the data and model inaccuracies do not lead to discriminatory decisions. E.g., predictions from fair machine learning models should not discriminate against sensitive variables such as sexual orientation and ethnicity. The training data often in obtained from social surveys. In social surveys, oftentimes the data collection process is a strata sampling, e.g. due to cost restrictions. In strata samples, the assumption of independence between the observation is not fulfilled. Hence, if the machine learning models do not account for the strata correlations, the results may be biased. Especially high is the bias in cases where the strata assignment is correlated to the variable of interest. We present in this paper an algorithm that can handle both problems simultaneously, and we demonstrate the impact of stratified sampling on the quality of fair machine learning predictions in a reproducible simulation study.
翻訳日:2024-05-25 05:01:27 公開日:2024-05-22
# C-Learner:因果推論と半パラメトリック統計のための制約付き学習

C-Learner: Constrained Learning for Causal Inference and Semiparametric Statistics ( http://arxiv.org/abs/2405.09493v2 )

ライセンス: Link先を確認
Tiffany Tianhui Cai, Yuri Fonseca, Kaiwen Hou, Hongseok Namkoong, (参考訳) 因果推定(平均処理効果のeg)は複雑なニュアンスパラメータ(eg結果モデル)を推定する必要がある。 ニュアンスパラメータ推定における誤差の調整を行うため, ニュアンスパラメータ推定に対する推定器の1次誤差がゼロであるという制約の下で, 最適なプラグイン推定器の誤差を補正する手法を提案する。 制約付き学習フレームワークは,一段階推定(拡張逆確率重み付け)やターゲット推定(ターゲット最大推定)を含む一階補正アプローチの統一的な視点を提供する。 私たちの半パラメトリック推論アプローチは、ニューラルネットワークやツリーアンサンブルといった現代的な機械学習手法で実装することができ、半パラメトリック効率や二重ロバスト性といった標準的な保証を享受できます。 実験では、微調整言語モデルを必要とするテキスト機能を含む、いくつかのデータセットに対するアプローチを実証する。 我々は、C-Learnerの一致を観測し、他の漸近的最適推定器より優れ、推定重複を少なくした設定における性能が向上する。

Causal estimation (e.g. of the average treatment effect) requires estimating complex nuisance parameters (e.g. outcome models). To adjust for errors in nuisance parameter estimation, we present a novel correction method that solves for the best plug-in estimator under the constraint that the first-order error of the estimator with respect to the nuisance parameter estimate is zero. Our constrained learning framework provides a unifying perspective to prominent first-order correction approaches including one-step estimation (a.k.a. augmented inverse probability weighting) and targeting (a.k.a. targeted maximum likelihood estimation). Our semiparametric inference approach, which we call the "C-Learner", can be implemented with modern machine learning methods such as neural networks and tree ensembles, and enjoys standard guarantees like semiparametric efficiency and double robustness. Empirically, we demonstrate our approach on several datasets, including those with text features that require fine-tuning language models. We observe the C-Learner matches or outperforms other asymptotically optimal estimators, with better performance in settings with less estimated overlap.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-22
# 線形ガウス力学系による残響を考慮したレスレスバンド問題

Restless Bandit Problem with Rewards Generated by a Linear Gaussian Dynamical System ( http://arxiv.org/abs/2405.09584v2 )

ライセンス: Link先を確認
Jonathan Gornet, Bruno Sinopoli, (参考訳) 不確実性の下での意思決定は、頻繁に発生する根本的な問題であり、確率的マルチアームバンディット問題として定式化することができる。 問題では、学習者は各ラウンドでのアクションを選択し、ラウンドが相互作用のインスタンスである環境と対話する。 反応として,確率過程からサンプル化した報酬を学習者に提示する。 学習者の目標は累積報酬を最大化することである。 この研究において、報酬は作用ベクトルの内部積であり、線型ガウス力学系によって生成される状態ベクトルであると仮定する。 本研究では,各行動に対する報酬を予測するために,事前に観測した報酬を線形に組み合わせて各行動の次の報酬を予測する手法を提案する。 例えば、ラウンド$t-1$のアクション1でサンプルされた報酬は、ラウンド$t$のアクション2ドルの報酬を予測できる。 これは、報酬予測のために学習可能な行列表現を備えた修正カルマンフィルタを設計することで達成される。 線形ガウス力学系上で数値評価を行い、他の2つの有名な確率的マルチアームバンディットアルゴリズムと比較する。

Decision-making under uncertainty is a fundamental problem encountered frequently and can be formulated as a stochastic multi-armed bandit problem. In the problem, the learner interacts with an environment by choosing an action at each round, where a round is an instance of an interaction. In response, the environment reveals a reward, which is sampled from a stochastic process, to the learner. The goal of the learner is to maximize cumulative reward. In this work, we assume that the rewards are the inner product of an action vector and a state vector generated by a linear Gaussian dynamical system. To predict the reward for each action, we propose a method that takes a linear combination of previously observed rewards for predicting each action's next reward. We show that, regardless of the sequence of previous actions chosen, the reward sampled for any previously chosen action can be used for predicting another action's future reward, i.e. the reward sampled for action 1 at round $t-1$ can be used for predicting the reward for action $2$ at round $t$. This is accomplished by designing a modified Kalman filter with a matrix representation that can be learned for reward prediction. Numerical evaluations are carried out on a set of linear Gaussian dynamical systems and are compared with 2 other well-known stochastic multi-armed bandit algorithms.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-22
# インスタンス分割のためのSynth-to-Realunsupervised Domain Adaptation

Synth-to-Real Unsupervised Domain Adaptation for Instance Segmentation ( http://arxiv.org/abs/2405.09682v2 )

ライセンス: Link先を確認
Yachan Guo, Yi Xiao, Danna Xue, Jose Luis Gomez Zurita, Antonio M. López, (参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインから未ラベルのターゲットドメインに学習した知識を転送することを目的としている。 UDA法は, 意味的セグメンテーションやオブジェクト検出などのタスクにおいて顕著な性能を示すが, インスタンスセグメンテーションタスクでは極めて少ない。 本稿では,自律運転におけるインスタンスセグメント化のための合成現実UDAモデルであるUDA4Instを紹介する。 本稿では、ソースドメインとターゲットドメインの両方からのデータを完全に活用するために、インスタンスレベルでの新しいドメイン間双方向データ混合手法を提案する。 希少なクラスバランスとカテゴリモジュールのトレーニングも、パフォーマンスの向上のために採用されている。 このベンチマークはUrbanSyn->Cityscapesで39.0 mAP、Synscapes->Cityscapesで35.7 mAPである。 UDA4Instはまた、最新のアプローチよりも31.3 mAP, +15.6高いSynTHIA->Cityscapesの最先端の結果も達成している。 私たちのコードは解放されます。

Unsupervised Domain Adaptation (UDA) aims to transfer knowledge learned from a labeled source domain to an unlabeled target domain. While UDA methods for synthetic to real-world domains (synth-to-real) show remarkable performance in tasks such as semantic segmentation and object detection, very few were proposed for the instance segmentation task. In this paper, we introduce UDA4Inst, a model of synth-to-real UDA for instance segmentation in autonomous driving. We propose a novel cross-domain bidirectional data mixing method at the instance level to fully leverage the data from both source and target domains. Rare-class balancing and category module training are also employed to further improve the performance. It is worth noting that we are the first to demonstrate results on two new synth-to-real instance segmentation benchmarks, with 39.0 mAP on UrbanSyn->Cityscapes and 35.7 mAP on Synscapes->Cityscapes. UDA4Inst also achieves the state-of-the-art result on SYNTHIA->Cityscapes with 31.3 mAP, +15.6 higher than the latest approach. Our code will be released.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-22
# 多項ロジスティック帯域に対する極小最小レグレット

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit ( http://arxiv.org/abs/2405.09831v2 )

ライセンス: Link先を確認
Joongkyu Lee, Min-hwan Oh, (参考訳) 本稿では,学習エージェントがコンテキスト情報に基づいて順にアソシエーションを選択し,ユーザからのフィードバックがMNL選択モデルに従うという,コンテキスト多項ロジット(MNL)バンディット問題について検討する。 特に特徴次元$d$と最大配置サイズ$K$については、下限と上限の差が顕著である。 さらに、これらの境界の間の報酬構造の変化は、最適性の探求を複雑にする。 すべてのアイテムが同じ期待される報酬を持つ一様報酬の下で、後悔の少ない$\Omega(d\sqrt{\smash[b]{T/K}})$を確立し、一致する上限の$\tilde{O}(d\sqrt{\smash[b]{T/K}})$を達成する定数時間アルゴリズム OFU-MNL+を提案する。 非一様報酬の下では、$\Omega(d\sqrt{T})$の下位境界と$\tilde{O}(d\sqrt{T})$の上限を証明し、OFU-MNL+によっても達成できる。 我々の実証研究はこれらの理論的な発見を支持している。 我々の知る限りでは、これは文脈的 MNL バンディット文学において、一様あるいは一様でない報酬設定に対して最小の最適性を証明し、この最適性を対数的要因まで達成する計算効率の良いアルゴリズムを提案する最初の作品である。

In this paper, we study the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the feature dimension $d$ and the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $\Omega(d\sqrt{\smash[b]{T/K}})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{O}(d\sqrt{\smash[b]{T/K}})$. Under non-uniform rewards, we prove a lower bound of $\Omega(d\sqrt{T})$ and an upper bound of $\tilde{O}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the contextual MNL bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-22
# ブラックボックス除去攻撃で箱なしのモデルウォーターマークが見つかる

Box-Free Model Watermarks Are Prone to Black-Box Removal Attacks ( http://arxiv.org/abs/2405.09863v2 )

ライセンス: Link先を確認
Haonan An, Guang Hua, Zhiping Lin, Yuguang Fang, (参考訳) ボックスフリーなモデル透かしは、ディープラーニングモデルの知的特性、特に低レベルの画像処理タスクを保護するための新興技術である。 既存の研究はいくつかの面でその有効性を検証し改善してきた。 しかし,本稿では,保護されたモデルと透かし抽出器がブラックボックス内にあるような現実世界の脅威モデル下であっても,ボックスフリーなモデル透かしが攻撃を除去する傾向があることを明らかにした。 この設定で、我々は3つの研究を行う。 1) 抽出器のEGG除去装置を開発し, 抽出器がReLU活性化のみを使用する場合の有効性を示した。 2) より一般的には, 未知の抽出器に対して, 敵攻撃を活用し, 推定勾配に基づいてEGG除去器を設計する。 3) 抽出器がアクセス不能な最も厳密な条件下では, 一連のプライベートプロキシモデルに基づいて, 転送可能な除去器を設計する。 いずれの場合も,提案する除去器は,処理画像の品質を維持しつつ,埋め込み透かしの除去に成功し,またEGG除去器は透かしの交換も可能であることを示す。 大規模な実験により、提案攻撃の有効性と一般化性を検証し、既存のボックスフリー手法の脆弱性を明らかにし、さらなる研究を要求した。

Box-free model watermarking is an emerging technique to safeguard the intellectual property of deep learning models, particularly those for low-level image processing tasks. Existing works have verified and improved its effectiveness in several aspects. However, in this paper, we reveal that box-free model watermarking is prone to removal attacks, even under the real-world threat model such that the protected model and the watermark extractor are in black boxes. Under this setting, we carry out three studies. 1) We develop an extractor-gradient-guided (EGG) remover and show its effectiveness when the extractor uses ReLU activation only. 2) More generally, for an unknown extractor, we leverage adversarial attacks and design the EGG remover based on the estimated gradients. 3) Under the most stringent condition that the extractor is inaccessible, we design a transferable remover based on a set of private proxy models. In all cases, the proposed removers can successfully remove embedded watermarks while preserving the quality of the processed images, and we also demonstrate that the EGG remover can even replace the watermarks. Extensive experimental results verify the effectiveness and generalizability of the proposed attacks, revealing the vulnerabilities of the existing box-free methods and calling for further research.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-22
# 医療機器のリスク管理 : リスクマンオントロジーと形状を通して

A Farewell to Harms: Risk Management for Medical Devices via the Riskman Ontology & Shapes ( http://arxiv.org/abs/2405.09875v2 )

ライセンス: Link先を確認
Piotr Gorczyca, Dörthe Arndt, Martin Diller, Pascal Kettmann, Stephan Mennicke, Hannes Strass, (参考訳) 医療機器のリスク管理に関する情報を表現・分析するためのリスクマンオントロジーと形状を紹介する。 リスク管理は、医療機器がユーザや環境に害を与えないように、必要な予防措置をとることに関心がある。 現在までに、リスク管理文書は、半構造化された自然言語テキストの形式で(認証のために)通知された機関に提出されている。 本稿では、リスクマンオントロジーのクラスを用いてリスク管理文書を論理的にモデル化し、含めたSHACL制約を用いて、構文的完全性と関連する標準への適合性をチェックすることを提案する。 特に、オントロジーはISO 14971と最近発表されたVDE Spec 90025からモデル化されている。 提案手法は, リスク管理資料作成時) と通知機関(認定申請時の評価時) の双方にとって多くの人的時間を節約できる可能性があり, 医療や社会全体にも大きなメリットがある。

We introduce the Riskman ontology & shapes for representing and analysing information about risk management for medical devices. Risk management is concerned with taking necessary precautions so a medical device does not cause harms for users or the environment. To date, risk management documentation is submitted to notified bodies (for certification) in the form of semi-structured natural language text. We propose to use classes from the Riskman ontology to logically model risk management documentation and to use the included SHACL constraints to check for syntactic completeness and conformity to relevant standards. In particular, the ontology is modelled after ISO 14971 and the recently published VDE Spec 90025. Our proposed methodology has the potential to save many person-hours for both manufacturers (when creating risk management documentation) as well as notified bodies (when assessing submitted applications for certification), and thus offers considerable benefits for healthcare and, by extension, society as a whole.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-22
# MiniMaxAD: 特徴リッチ異常検出のための軽量オートエンコーダ

MiniMaxAD: A Lightweight Autoencoder for Feature-Rich Anomaly Detection ( http://arxiv.org/abs/2405.09933v2 )

ライセンス: Link先を確認
Fengjie Wang, Chengming Liu, Lei Shi, Pang Haibo, (参考訳) 例えば、データセット内のクラスには複数のサブクラスが含まれており、FRAD(Feature-Rich Anomaly Detection Datasets)に分類される。 この課題は、統合された設定や無人スーパーマーケットのシナリオのようなアプリケーションで明らかである。 この課題に対処するために,通常の画像から広範囲の情報を効率よく圧縮・記憶する軽量オートエンコーダMiniMaxADを開発した。 本モデルでは,特徴量の多様性を向上し,ネットワークの有効容量限界を増大させる手法を用いている。 また、大きなカーネルの畳み込みを利用して高度に抽象的なパターンを抽出し、効率的でコンパクトな特徴埋め込みに寄与する。 さらに、グローバルなコサイン距離損失の限界に対処するため、FRADに特化してアダプティブ・コントラクト・ロス(ADCLoss)を導入する。 我々の手法では、どんなデータセットも機能豊富な異常検出の枠組みの下で統一することができる。 MiniMaxADは6つの挑戦的 UAD ベンチマークを総合的にテストし、最先端の結果が得られた。 特に,本モデルでは,無人スーパーマーケットタスクの最先端性能だけでなく,従来の最良手法の37倍の推論速度を示し,複雑なUADタスクの有効性を示した。

Previous unsupervised anomaly detection (UAD) methods often struggle with significant intra-class diversity; i.e., a class in a dataset contains multiple subclasses, which we categorize as Feature-Rich Anomaly Detection Datasets (FRADs). This challenge is evident in applications such as unified setting and unmanned supermarket scenarios. To address this challenge, we developed MiniMaxAD, a lightweight autoencoder designed to efficiently compress and memorize extensive information from normal images. Our model employs a technique that enhances feature diversity, thereby increasing the effective capacity limit of the network. It also utilizes large kernel convolution to extract highly abstract patterns, which contribute to efficient and compact feature embedding. Moreover, we introduce an Adaptive Contraction Loss (ADCLoss), specifically tailored to FRADs, to address the limitations of the global cosine distance loss. In our methodology, any dataset can be unified under the framework of feature-rich anomaly detection, in a way that the benefits far outweigh the drawbacks. MiniMaxAD underwent comprehensive testing across six challenging UAD benchmarks, achieving state-of-the-art results in four and highly competitive outcomes in the remaining two. Notably, our model not only achieved state-of-the-art performance in unmanned supermarket tasks but also exhibited an inference speed 37 times faster than the previous best method, demonstrating its effectiveness in complex UAD tasks.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-22
# LaT-PFN: コンテキスト内時系列予測のための予測アーキテクチャ

LaT-PFN: A Joint Embedding Predictive Architecture for In-context Time-series Forecasting ( http://arxiv.org/abs/2405.10093v2 )

ライセンス: Link先を確認
Stijn Verdenius, Andrea Zerio, Roy L. M. Wang, (参考訳) ゼロショット予測を可能にする強力な埋め込み空間を持つ基本時系列モデルであるLatntTimePFN(LaT-PFN)を紹介する。 そこで我々は,PFN(Presideed Data Fitted Networks)とJEPA(Joint Embedding Predictive Architecture)フレームワークの新たな統合を利用して,潜在空間におけるコンテキスト内学習を行う。 我々はJEPAフレームワークを利用して、時系列を生成し、それを文脈学習と組み合わせ、PFNを用いて、基礎となる確率過程の予測最適化潜在表現を作成する。 さらに、関連時系列を文脈として利用し、正規化された抽象時間軸を導入することにより、先行作業を改善する。 これにより、トレーニング時間を短縮し、任意の時間的粒度と予測水平線を許容することにより、モデルの汎用性を高めることができる。 その結果,既存のベースラインに比べてゼロショット予測が優れていることがわかった。 また、我々の潜伏空間は、各時間ステップと全系列の固定長サマリーの両方の情報埋め込みを生成することを示した。 最後に,マルチステップパッチ埋め込みの出現を明示的なトレーニングなしで観察し,視覚変換器に類似したデータ中の局所構造を符号化する離散トークンを積極的に学習することを提案する。

We introduce LatentTimePFN (LaT-PFN), a foundational Time Series model with a strong embedding space that enables zero-shot forecasting. To achieve this, we perform in-context learning in latent space utilizing a novel integration of the Prior-data Fitted Networks (PFN) and Joint Embedding Predictive Architecture (JEPA) frameworks. We leverage the JEPA framework to create a prediction-optimized latent representation of the underlying stochastic process that generates time series and combines it with contextual learning, using a PFN. Furthermore, we improve on preceding works by utilizing related time series as a context and introducing a normalized abstract time axis. This reduces training time and increases the versatility of the model by allowing any time granularity and forecast horizon. We show that this results in superior zero-shot predictions compared to established baselines. We also demonstrate our latent space produces informative embeddings of both individual time steps and fixed-length summaries of entire series. Finally, we observe the emergence of multi-step patch embeddings without explicit training, suggesting the model actively learns discrete tokens that encode local structures in the data, analogous to vision transformers.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-22
# PRISM:スライドレベル病理組織学のための多モード生成基盤モデル

PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology ( http://arxiv.org/abs/2405.10254v2 )

ライセンス: Link先を確認
George Shaikovski, Adam Casson, Kristen Severson, Eric Zimmermann, Yi Kan Wang, Jeremy D. Kunz, Juan A. Retamero, Gerard Oakley, David Klimstra, Christopher Kanan, Matthew Hanna, Michal Zelechowski, Julian Viret, Neil Tenenholtz, James Hall, Nicolo Fusi, Razik Yousfi, Peter Hamilton, William A. Moye, Eugene Vorontsov, Siqi Liu, Thomas J. Fuchs, (参考訳) 計算病理学の基礎モデルは、新しい臨床決定支援システムと精密医療のためのモデルの開発を解き放つことを約束する。 しかし、1つ以上のスライド画像のレベルで定義されるほとんどの臨床分析と、スライド画像全体に含まれる数千もの画像タイルを別々に処理する基礎モデルとの間にはミスマッチがある。 多数のタイルにまたがる情報を複数のスライド画像に集約するためにネットワークを訓練する必要があるため、これらのモデルへの影響は制限される。 本研究では,Virchhowタイルの埋め込みをベースとしたH&E-Stained Histopathology (PRISM) のスライドレベル基盤モデルを提案し,臨床報告テキストを事前学習に活用する。 タイルの埋め込みを用いて、PRISMは臨床報告を生成できるスライドレベルの埋め込みを生成し、いくつかのモードで使用することができる。 テキストプロンプトを用いて、PRISMはゼロショットがん検出とサブタイピング性能を、教師付きアグリゲータモデルのそれより上回るように達成する。 線形分類器を用いたスライド埋め込みを用いて、PRISMは教師付きアグリゲータモデルを上回る。 さらに、PRISMスライドエンコーダの微調整により、通常、トレーニングデータの低可用性に悩まされるタスクであるバイオマーカー予測のためのラベル効率のよいトレーニングが得られ、トレーニングデータの10%を初期化してトレーニングしたアグリゲータは、すべてのデータを使用する教師付きベースラインよりも優れていることを示す。

Foundation models in computational pathology promise to unlock the development of new clinical decision support systems and models for precision medicine. However, there is a mismatch between most clinical analysis, which is defined at the level of one or more whole slide images, and foundation models to date, which process the thousands of image tiles contained in a whole slide image separately. The requirement to train a network to aggregate information across a large number of tiles in multiple whole slide images limits these models' impact. In this work, we present a slide-level foundation model for H&E-stained histopathology, PRISM, that builds on Virchow tile embeddings and leverages clinical report text for pre-training. Using the tile embeddings, PRISM produces slide-level embeddings with the ability to generate clinical reports, resulting in several modes of use. Using text prompts, PRISM achieves zero-shot cancer detection and sub-typing performance approaching and surpassing that of a supervised aggregator model. Using the slide embeddings with linear classifiers, PRISM surpasses supervised aggregator models. Furthermore, we demonstrate that fine-tuning of the PRISM slide encoder yields label-efficient training for biomarker prediction, a task that typically suffers from low availability of training data; an aggregator initialized with PRISM and trained on as little as 10% of the training data can outperform a supervised baseline that uses all of the data.
翻訳日:2024-05-25 04:51:43 公開日:2024-05-22
# Hypergraph: 統一かつ統一された定義と化学ハイパーグラフへの応用

Hypergraph: A Unified and Uniform Definition with Application to Chemical Hypergraph ( http://arxiv.org/abs/2405.12235v2 )

ライセンス: Link先を確認
Daniel T. Chang, (参考訳) 従来のハイパーグラフの定義には、(1)有向ハイパーグラフの標準的な定義がなく、(2)有向ハイパーグラフの正式な定義がない、という2つの大きな問題がある。 これらの問題を解決するために, ハイパーグラフの概念を統一するハイパーグラフの新たな定義を提案し, ノードとハイパーエッジの高次相関を表す単一の構造としてハイパーエッジを用いる場合の統一性について述べる。 具体的には、ハイパーエッジを単純なハイパーエッジ、ネストハイパーエッジ、あるいは有向ハイパーエッジと定義する。 この新しい定義では、ハイパーグラフはネストするハイパーエッジ(s)がある場合はネストされ、指示されたハイパーエッジ(s)がある場合は方向付けされる。 そうでなければ、ハイパーグラフは単純なハイパーグラフである。 この新定義の統一性とパワーは、可視化とともに、一般および化学系における(階層的な)高次相関を表現するためのハイパーグラフの使用を促進すべきである。 グラフは、分子構造と3次元分子幾何学の機械学習のための数学的構造として広く利用されている。 しかし、グラフには大きな制限があり、ノード間のペアワイズ相関しか表現できない。 Hypergraphはノード間の高次相関でグラフを拡張する。 この拡張は化学系の機械学習に重要であるか、不可欠である。 分子にとって、これは多中心結合と分子サブ構造を直接的かつ明示的に表現できるため重要である。 化学反応では、ほとんどの化学反応は複数の参加者を含むため、これは必須である。 本稿では, 化学系を表現するための単一の数学的構造として, 単純, ネスト, 指向のハイパーエッジを持つマルチレベルハイパーグラフであるケミカルハイパーグラフを提案する。 化学ハイパーグラフの新しい定義を化学ハイパーグラフに適用し,分子ハイパーグラフと化学反応ハイパーグラフを簡易化した。

The conventional definition of hypergraph has two major issues: (1) there is not a standard definition of directed hypergraph and (2) there is not a formal definition of nested hypergraph. To resolve these issues, we propose a new definition of hypergraph that unifies the concepts of undirected, directed and nested hypergraphs, and that is uniform in using hyperedge as a single construct for representing high-order correlations among things, i.e., nodes and hyperedges. Specifically, we define a hyperedge to be a simple hyperedge, a nesting hyperedge, or a directed hyperedge. With this new definition, a hypergraph is nested if it has nesting hyperedge(s), and is directed if it has directed hyperedge(s). Otherwise, a hypergraph is a simple hypergraph. The uniformity and power of this new definition, with visualization, should facilitate the use of hypergraph for representing (hierarchical) high-order correlations in general and chemical systems in particular. Graph has been widely used as a mathematical structure for machine learning on molecular structures and 3D molecular geometries. However, graph has a major limitation: it can represent only pairwise correlations between nodes. Hypergraph extends graph with high-order correlations among nodes. This extension is significant or essential for machine learning on chemical systems. For molecules, this is significant as it allows the direct, explicit representation of multicenter bonds and molecular substructures. For chemical reactions, this is essential since most chemical reactions involve multiple participants. We propose the use of chemical hypergraph, a multilevel hypergraph with simple, nesting and directed hyperedges, as a single mathematical structure for representing chemical systems. We apply the new definition of hypergraph to chemical hypergraph and, as simplified versions, molecular hypergraph and chemical reaction hypergraph.
翻訳日:2024-05-25 04:41:59 公開日:2024-05-22
# 監視カメラ画像の強化学習とリアルタイム処理による信号機のインテリジェントタイミングによる交通制御

Traffic control using intelligent timing of traffic lights with reinforcement learning technique and real-time processing of surveillance camera images ( http://arxiv.org/abs/2405.13256v1 )

ライセンス: Link先を確認
Mahdi Jamebozorg, Mohsen Hami, Sajjad Deh Deh Jani, (参考訳) 交通光タイミングの最適管理は、都市交通を減らす上で最も効果的な要因の1つである。 ほとんどの古いシステムでは、時間とコストの面であまり効率的ではない交通を制御するために、人間の要因とともに固定タイミングが使われた。 今日では、交通管理の分野での手法は人工知能の利用に基づいている。 本手法では、映像監視カメラ画像のリアルタイム処理と強化学習を用いて、信号機の最適タイミングを判定し、複数のパラメータに従って適用する。 本研究では, YOLOv9-Cモデルを用いた車両検出において, 車両の速度などの特性を推定するためにディープラーニング手法を用いた。 最後に、多要素強化学習とDQNレインボーアルゴリズムを用いて、OpenAI Gymの都市環境シミュレーターで車両をモデル化することにより、交差点の信号機にタイミングを適用する。 さらに、イランの車の画像上でモデルの再訓練とともにトランスファーラーニングを使用することで、モデルの精度が向上した。 提案手法は,監視カメラ解析と最適タイミングの両部分において合理的に精度の高いモデルを示し,従来研究よりも精度が高いことを示した。

Optimal management of traffic light timing is one of the most effective factors in reducing urban traffic. In most old systems, fixed timing was used along with human factors to control traffic, which is not very efficient in terms of time and cost. Nowadays, methods in the field of traffic management are based on the use of artificial intelligence. In this method, by using real-time processing of video surveillance camera images along with reinforcement learning, the optimal timing of traffic lights is determined and applied according to several parameters. In the research, deep learning methods were used in vehicle detection using the YOLOv9-C model to estimate the number and other characteristics of vehicles such as speed. Finally, by modeling vehicles in an urban environment simulator at OpenAI Gym using multi-factor reinforcement learning and the DQN Rainbow algorithm, timing is applied to traffic lights at intersections. Additionally, the use of transfer learning along with retraining the model on images of Iranian cars has increased the accuracy of the model. The results of the proposed method show a model that is reasonably accurate in both parts of analyzing surveillance cameras and finding the optimal timing, and it has been observed that it has better accuracy than previous research.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-22
# 非効率な量子エミッタを用いた有理グラフ状態

Heralded arbitrary graph states with inefficient quantum emitters ( http://arxiv.org/abs/2405.13263v1 )

ライセンス: Link先を確認
Maxwell Gold, Jianlong Lin, Eric Chitambar, Elizabeth A. Goldschmidt, (参考訳) フォトニックグラフ状態を生成するための量子エミッタベースのスキームは、短期ハードウェア上で分散量子計算と通信プロトコルを実現するための有望でリソース効率の良い方法論を提供する。 我々は、最先端のコヒーレントな量子エミッタからの典型的な貧弱な光子収集と互換性のあるフォトニックグラフ状態を作成するための隠蔽スキームを提案する。 本研究では,光子収集効率を決定論的に仮定した現在のエミッタベーススキームの指数的スケーリングと比較して,大きなグラフ状態の構築時間は,光子収集効率の多項式となることを示した。 この利点を達成するための追加のオーバーヘッドは、余分なスピン系と、グラフに追加される光子当たりのスピンスピンエンタングゲートからなる。 提案手法は任意のアプリケーションに対してグラフ状態の生成を可能にするが、測定に基づく計算の特定のタスクに対してさらに単純化する方法を示し、高いレートと特定の計算におけるフォトニックメモリの必要性を解消する。 提案手法の例として,現行のハードウェア上で効率よく実装可能なセキュアな2要素計算プロトコルを構築した。 計算に使用されるグラフ状態を生成するための忠実度の推定は、現在の捕捉されたイオン実験ベンチマークに基づいて行われる。

Quantum emitter-based schemes for the generation of photonic graph states offer a promising, resource efficient methodology for realizing distributed quantum computation and communication protocols on near-term hardware. We present a heralded scheme for making photonic graph states that is compatible with the typically poor photon collection from state-of-the-art coherent quantum emitters. We demonstrate that the construction time for large graph states can be polynomial in the photon collection efficiency, as compared to the exponential scaling of current emitter-based schemes, which assume deterministic photon collection. The additional overhead to achieve this advantage consists of an extra spin system plus one additional spin-spin entangling gate per photon added to the graph. While the proposed scheme enables the generation of graph states for arbitrary applications, we show how it can be further simplified for the specific task of measurement-based computation, leading to significantly higher rates and removing the need for photonic memory in certain computations. As an example use-case of our scheme, we construct a protocol for secure two-party computation that can be implemented efficiently on current hardware. Estimates of the fidelity to produce graph states used in the computation are given, based on current trapped ion experimental benchmarks.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-22
# パートベース熱マップの定量的解析

Part-based Quantitative Analysis for Heatmaps ( http://arxiv.org/abs/2405.13264v1 )

ライセンス: Link先を確認
Osman Tursun, Sinan Kalkan, Simon Denman, Sridha Sridharan, Clinton Fookes, (参考訳) ヒートマップは、深いネットワーク決定を理解するのに役立ち、説明可能なAI(XAI)の一般的なアプローチである。 熱マップの情報性やアクセシビリティの向上には大きな進歩があったが、熱マップ解析は一般に非常に主観的であり、ドメインの専門家に限られている。 そのため、ヒートマップベースのXAIをより客観的に、エンドユーザーフレンドリで、コスト効率の良いものにするための自動、スケーラブル、数値分析手法の開発が不可欠である。 さらに、熱マップの品質を粒度レベルで評価するための総合的な評価指標も必要である。

Heatmaps have been instrumental in helping understand deep network decisions, and are a common approach for Explainable AI (XAI). While significant progress has been made in enhancing the informativeness and accessibility of heatmaps, heatmap analysis is typically very subjective and limited to domain experts. As such, developing automatic, scalable, and numerical analysis methods to make heatmap-based XAI more objective, end-user friendly, and cost-effective is vital. In addition, there is a need for comprehensive evaluation metrics to assess heatmap quality at a granular level.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-22
# ホモジン検出は経路交絡コヒーレント状態を持つ量子干渉法に最適である

Homodyne detection is optimal for quantum interferometry with path-entangled coherent states ( http://arxiv.org/abs/2405.13265v1 )

ライセンス: Link先を確認
Z. M. McIntyre, W. A. Coish, (参考訳) 我々は光子数分解検出器に依存しない計測手法を提案するが、それでも干渉計における微分位相シフトを、絡み合ったコヒーレント状態またはqubit-to-path状態(コヒーレント状態のウェーブパケットによって取られた経路が量子ビットの状態と絡み合う状態)で推定するのに最適である。 ここで解析されたホモダイニングスキームは、ウィグナー分布の位相依存干渉縞に対する測定結果の感度を最大化することにより最適性(量子クラム・ラオ境界を飽和させる)を達成する。 光子損失の存在下では、これらのスキームは準最適となるが、それらの性能は測定対象の位相に依存しない。 したがって、光子数パリティ測定や直接光子計数に基づく戦略とは異なり、位相に関する事前情報や測定中に戦略を適用することなく実装することができる。

We present measurement schemes that do not rely on photon-number resolving detectors, but that are nevertheless optimal for estimating a differential phase shift in interferometry with either an entangled coherent state or a qubit-which-path state (where the path taken by a coherent-state wavepacket is entangled with the state of a qubit). The homodyning schemes analyzed here achieve optimality (saturate the quantum Cram\'er-Rao bound) by maximizing the sensitivity of measurement outcomes to phase-dependent interference fringes in a reduced Wigner distribution. In the presence of photon loss, the schemes become suboptimal, but we find that their performance is independent of the phase to be measured. They can therefore be implemented without any prior information about the phase and without adapting the strategy during measurement, unlike strategies based on photon-number parity measurements or direct photon counting.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-22
# FLARE up your data: Diffusion-based Augmentation Method in Astronomical Imaging

FLARE up your data: Diffusion-based Augmentation Method in Astronomical Imaging ( http://arxiv.org/abs/2405.13267v1 )

ライセンス: Link先を確認
Mohammed Talha Alam, Raza Imam, Mohsen Guizani, Fakhri Karray, (参考訳) 天文学とAIの交わりは、ノイズの多い背景、低分解能(LR)、ジェームズ・ウェッブのような先進望遠鏡からの画像のフィルタリングとアーカイブの複雑なプロセスなど、重大な課題に直面している。 特徴空間における原画像の分散を考慮し, \underline{f}eature \underline{l}earning と \underline{a}ugmented \underline{r}esolution \underline{e}nhancement に基づく \textbf{FLARE} というタイトルの \textit{two-stage augmentation framework を提案する。 まず、高分解能(HR)変換に低分解能(LR)を適用する。 第2に,クラス連結プロンプトを用いてサンプルを合成的に生成する拡散手法を統合する。 重み付きパーセンタイルを用いてこれら2つのステージをマージすることにより、特徴空間の分布を把握し、分類モデルによる決定境界の確立を可能にし、ドメイン内およびドメイン外タスクにおける優れた一般化を実現する。 我々は、下流の宇宙データセットと、最適に分散した \textbf{SpaceNet} データセットを8クラスの細粒度および4クラスのマクロ分類タスクで実験した。 FLAREは、類似のベースラインと比較して20.78\%の性能向上を達成したが、異なる分類モデルにおいて、FLAREは平均+15\%という一貫した増加を示している。 この結果は、画像分類の精度を高めるためにFLARE法の有効性を強調し、最終的には天文学的な研究成果の信頼性を高める。 % 私たちのコードとSpaceNetデータセットはまもなく一般公開されます。 私たちのコードとSpaceNetデータセットは、 \href{https://github.com/Razaimam45/PlanetX_Dxb}{\textit{https://github.com/Razaimam45/PlanetX\_Dxb}}で利用可能です。

The intersection of Astronomy and AI encounters significant challenges related to issues such as noisy backgrounds, lower resolution (LR), and the intricate process of filtering and archiving images from advanced telescopes like the James Webb. Given the dispersion of raw images in feature space, we have proposed a \textit{two-stage augmentation framework} entitled as \textbf{FLARE} based on \underline{f}eature \underline{l}earning and \underline{a}ugmented \underline{r}esolution \underline{e}nhancement. We first apply lower (LR) to higher resolution (HR) conversion followed by standard augmentations. Secondly, we integrate a diffusion approach to synthetically generate samples using class-concatenated prompts. By merging these two stages using weighted percentiles, we realign the feature space distribution, enabling a classification model to establish a distinct decision boundary and achieve superior generalization on various in-domain and out-of-domain tasks. We conducted experiments on several downstream cosmos datasets and on our optimally distributed \textbf{SpaceNet} dataset across 8-class fine-grained and 4-class macro classification tasks. FLARE attains the highest performance gain of 20.78\% for fine-grained tasks compared to similar baselines, while across different classification models, FLARE shows a consistent increment of an average of +15\%. This outcome underscores the effectiveness of the FLARE method in enhancing the precision of image classification, ultimately bolstering the reliability of astronomical research outcomes. % Our code and SpaceNet dataset will be released to the public soon. Our code and SpaceNet dataset is available at \href{https://github.com/Razaimam45/PlanetX_Dxb}{\textit{https://github.com/Razaimam45/PlanetX\_Dxb}}.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-22
# 半帯域フィードバックを用いた確率的オンラインコンフォーマル予測

Stochastic Online Conformal Prediction with Semi-Bandit Feedback ( http://arxiv.org/abs/2405.13268v1 )

ライセンス: Link先を確認
Haosen Ge, Hamsa Bastani, Osbert Bastani, (参考訳) コンフォーマル予測は、単一のラベルではなくラベルの集合を出力するモデルを変更することによって、不確実性定量化の効果的な戦略として登場した。 これらの予測セットは、それらが高い確率で真のラベルを含むことを保証する。 しかし、共形予測は通常、例の大規模な校正データセットを必要とする。 実例が時間とともに現れるオンライン学習環境について検討し、その目標は予測セットを動的に構築することである。 既存の作業とは別に、半帯域フィードバックを仮定し、予測セットに含まれる場合のみ真のラベルを観測する。 例えば、文書検索モデルを新しいドメインに校正することを考える。この設定では、ターゲット文書が検索されたドキュメントの予測セットにある場合にのみ、ユーザは真のラベルを提供することができる。 本稿では,この設定を対象とする新しい共形予測アルゴリズムを提案する。 検索タスクと画像分類タスクでアルゴリズムを評価し,その性能を実証的に評価した。

Conformal prediction has emerged as an effective strategy for uncertainty quantification by modifying a model to output sets of labels instead of a single label. These prediction sets come with the guarantee that they contain the true label with high probability. However, conformal prediction typically requires a large calibration dataset of i.i.d. examples. We consider the online learning setting, where examples arrive over time, and the goal is to construct prediction sets dynamically. Departing from existing work, we assume semi-bandit feedback, where we only observe the true label if it is contained in the prediction set. For instance, consider calibrating a document retrieval model to a new domain; in this setting, a user would only be able to provide the true label if the target document is in the prediction set of retrieved documents. We propose a novel conformal prediction algorithm targeted at this setting, and prove that it obtains sublinear regret compared to the optimal conformal predictor. We evaluate our algorithm on a retrieval task and an image classification task, and demonstrate that it empirically achieves good performance.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-22
# ニュース記事フレームのための多言語類似性データセット

A Multilingual Similarity Dataset for News Article Frame ( http://arxiv.org/abs/2405.13272v1 )

ライセンス: Link先を確認
Xi Chen, Mattia Samory, Scott Hale, David Jurgens, Przemyslaw A. Grabowicz, (参考訳) ニュース記事の執筆の枠組みを理解することは、社会問題に取り組む上で不可欠であり、コミュニケーション研究の分野において注目されている。 しかし,ニュースコンテンツ内の包括的ニュアンスを考慮した,具体的で統一された標準データセットが存在しないため,そのようなニュース記事フレームの評価は依然として課題である。 このギャップに対処するため、我々は16,687の新しいラベル付きペアを持つ大規模ラベル付きニュース記事データセットの拡張版を導入する。 本手法は,ニュース記事の相互比較を利用して,従来のニュースフレーム分析研究において,フレームクラスを手動で識別する作業を行う。 全体としては10言語にまたがって26,555のラベル付きニュース記事ペアで利用可能な、最も広範な言語間ニュース記事類似性データセットを紹介します。 それぞれのデータポイントは、ヒューマン・イン・ザ・ループ・フレームワークの下で、ニュースコンテンツの8つの重要な側面を詳述したコードブックに従って慎重に注釈付けされている。 応用例としては、グローバルニュース報道の国内コミュニティの発掘、ニュースメディア間のメディア偏見の暴露、ニュース作成に関連する要因の定量化などが挙げられる。 我々は、このニュース類似性データセットが、国、場所、言語、その他の社会構造における出来事や視点のニュースカバレッジの観点から、メディアエコシステムに対する理解を広げることを期待している。 これにより、社会科学研究や応用方法論の進歩を触媒し、社会に大きな影響を及ぼすことができる。

Understanding the writing frame of news articles is vital for addressing social issues, and thus has attracted notable attention in the fields of communication studies. Yet, assessing such news article frames remains a challenge due to the absence of a concrete and unified standard dataset that considers the comprehensive nuances within news content. To address this gap, we introduce an extended version of a large labeled news article dataset with 16,687 new labeled pairs. Leveraging the pairwise comparison of news articles, our method frees the work of manual identification of frame classes in traditional news frame analysis studies. Overall we introduce the most extensive cross-lingual news article similarity dataset available to date with 26,555 labeled news article pairs across 10 languages. Each data point has been meticulously annotated according to a codebook detailing eight critical aspects of news content, under a human-in-the-loop framework. Application examples demonstrate its potential in unearthing country communities within global news coverage, exposing media bias among news outlets, and quantifying the factors related to news creation. We envision that this news similarity dataset will broaden our understanding of the media ecosystem in terms of news coverage of events and perspectives across countries, locations, languages, and other social constructs. By doing so, it can catalyze advancements in social science research and applied methodologies, thereby exerting a profound impact on our society.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-22
# 入力からのdequantizability

Dequantizability from inputs ( http://arxiv.org/abs/2405.13273v1 )

ライセンス: Link先を確認
Tae-Won Kim, Byung-Soo Choi, (参考訳) 本研究では,[1-4]によるブロック符号化の構成を比較することにより,[5]のように唐が主導した復号化手法の進歩から復号化性を抽出する方法を提案する。 そして、この概念を、一般にBQP完全であることが知られているスパースアクセス入力モデルに適用し、したがって、不等化であると考えられる。 我々の目標は、スパースアクセス入力モデルのインスタンス、特に入力行列を調べることで、この信念を分解することである。 結論として,本論文は,入力が与えられるたびに適用可能な復号化可能性検証スキームを形成する。

By comparing constructions of block encoding given by [1-4], we propose a way to extract dequantizability from advancements in dequantization techniques that have been led by Tang, as in [5]. Then we apply this notion to the sparse-access input model that is known to be BQP-complete in general, thereby conceived to be un-dequantizable. Our goal is to break down this belief by examining the sparse-access input model's instances, particularly their input matrices. In conclusion, this paper forms a dequantizability-verifying scheme that can be applied whenever an input is given.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-22
# DiffNorm:非自己回帰音声音声合成のための自己監督正規化

DiffNorm: Self-Supervised Normalization for Non-autoregressive Speech-to-speech Translation ( http://arxiv.org/abs/2405.13274v1 )

ライセンス: Link先を確認
Weiting Tan, Jingyu Zhang, Lingfeng Shen, Daniel Khashabi, Philipp Koehn, (参考訳) 非自己回帰変換器(NAT)は、最近、中間テキストデータなしで異なる言語間で音声を変換する音声から音声への直接変換システムに応用されている。 NATは、高品質な出力を生成し、自己回帰モデルよりも高速な推論を提供するが、複雑なデータ分布(例えば、音声における音響的および言語的バリエーション)のために、一貫性のない反復的な結果を生成する傾向がある。 本研究では,NATモデルをトレーニングするためのデータ分散を簡略化する拡散型正規化戦略であるDiffNormを紹介する。 DiffNormは、自己教師型雑音推定目標を用いて訓練した後、合成劣化した音声特徴を認知することで正規化対象データを構築する。 さらに,学習中のソース情報をランダムに削除することで,NATを分類不要なガイダンスで正規化し,モデルロバスト性や翻訳品質を向上させることを提案する。 CVSSベンチマークでは,英語・スペイン語(En-Es)では+7ASR-BLEU,英語・フランス語(En-Fr)翻訳では+2ASR-BLEUが,En-Esでは14倍,En-Fr翻訳では5倍に向上した。

Non-autoregressive Transformers (NATs) are recently applied in direct speech-to-speech translation systems, which convert speech across different languages without intermediate text data. Although NATs generate high-quality outputs and offer faster inference than autoregressive models, they tend to produce incoherent and repetitive results due to complex data distribution (e.g., acoustic and linguistic variations in speech). In this work, we introduce DiffNorm, a diffusion-based normalization strategy that simplifies data distributions for training NAT models. After training with a self-supervised noise estimation objective, DiffNorm constructs normalized target data by denoising synthetically corrupted speech features. Additionally, we propose to regularize NATs with classifier-free guidance, improving model robustness and translation quality by randomly dropping out source information during training. Our strategies result in a notable improvement of about +7 ASR-BLEU for English-Spanish (En-Es) and +2 ASR-BLEU for English-French (En-Fr) translations on the CVSS benchmark, while attaining over 14x speedup for En-Es and 5x speedup for En-Fr translations compared to autoregressive baselines.
翻訳日:2024-05-25 01:43:54 公開日:2024-05-22
# 開ディックモデルにおける超ラジカル相転移のリー・ヤン理論

Lee-Yang theory of the superradiant phase transition in the open Dicke model ( http://arxiv.org/abs/2405.13276v1 )

ライセンス: Link先を確認
Fredrik Brange, Neill Lambert, Franco Nori, Christian Flindt, (参考訳) ディックモデル(Dicke model)は、光学キャビティの閉じ込められた光モードに結合された2レベルの原子のアンサンブルを記述する。 臨界結合の上に空洞がマクロ的に占有され、システムは超ラジカル相に入る。 この相転移は、空洞から放出される光子を検出することで観測できるが、実際の実験は有限期間であるのに対して、長い観測時間の限界においてのみ明らかになる。 この問題を回避するために, 有限測定時間で得られた光子放射統計量の因子的累積から超ラジカル相転移を推定できることを示すために, 相転移のリー・ヤン理論の最近の進歩を利用する。 具体的には、因子的累積から、光子放射統計を記述する関数の生成の複雑な特異点を決定でき、それらの位置を長時間の極限まで外挿することで、超ラジカル相転移を検出することができる。 また、収束点が光子電流の大きな偏差統計量のテールを決定することも示している。 我々の研究は、Dickeモデルと他の量子多体系における相転移が、有限持続時間の測定からどのように検出できるかを示す。

The Dicke model describes an ensemble of two-level atoms that are coupled to a confined light mode of an optical cavity. Above a critical coupling, the cavity becomes macroscopically occupied, and the system enters the superradiant phase. This phase transition can be observed by detecting the photons that are emitted from the cavity; however, it only becomes apparent in the limit of long observation times, while actual experiments are of a finite duration. To circumvent this problem, we here make use of recent advances in Lee-Yang theories of phase transitions to show that the superradiant phase transition can be inferred from the factorial cumulants of the photon emission statistics obtained during a finite measurement time. Specifically, from the factorial cumulants, we can determine the complex singularities of generating functions that describe the photon emission statistics, and by extrapolating their positions to the long-time limit, one can detect the superradiant phase transition. We also show that the convergence points determine the tails of the large-deviation statistics of the photon current. Our work demonstrates how phase transitions in the Dicke model and in other quantum many-body systems can be detected from measurements of a finite duration.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# イン・アンド・アウトネットを用いた単一色仮想H&E染色

Single color virtual H&E staining with In-and-Out Net ( http://arxiv.org/abs/2405.13278v1 )

ライセンス: Link先を確認
Mengkun Chen, Yen-Tung Liu, Fadeel Sher Khan, Matthew C. Fox, Jason S. Reichenberg, Fabiana C. P. S. Lopes, Katherine R. Sebastian, Mia K. Markey, James W. Tunnell, (参考訳) 仮想染色は、静止していないまたは異なる染色された画像から染色された画像をデジタル的に生成することにより、従来の染色手順を合理化する。 従来の染色法は時間を要する化学プロセスを含むが、仮想染色は効率的で低インフラの代替となる。 共焦点顕微鏡のような顕微鏡ベースの技術を利用して、研究者は物理的切断を必要とせずに組織分析を迅速化することができる。 しかし、グレースケールや擬似彩色画像の解釈は、病理学者や外科医が従来の組織学的に染色された画像に慣れる上での課題である。 このギャップを埋めるために、様々な研究が標的の組織染色を模倣するためにデジタル的に染色をシミュレートしている。 本稿では,仮想染色タスクに特化して設計された新しいネットワークIn-and-Out Netを提案する。 本モデルは,GAN(Generative Adversarial Networks)に基づいて,反射共焦点顕微鏡(RCM)画像からヘマトキシリン,エオシン(H&E)染色画像へ効率よく変換する。 皮膚組織に対する塩化アルミニウム前処理によるRCM画像の核コントラストを高める。 2つの蛍光チャネルを備えた仮想H\&Eラベルでモデルをトレーニングすることは、画像登録の必要性を排除し、ピクセルレベルの地上真実を提供する。 コントリビューションには、最適トレーニング戦略の提案、最先端のパフォーマンスを示す比較分析、アブレーション研究によるモデルの検証、完全一致する入力画像と基底真実画像の登録なしの収集などが含まれる。 In-and-Out Netは有望な成果を示し、仮想染色タスクのための貴重なツールを提供し、組織像解析の分野を前進させる。

Virtual staining streamlines traditional staining procedures by digitally generating stained images from unstained or differently stained images. While conventional staining methods involve time-consuming chemical processes, virtual staining offers an efficient and low infrastructure alternative. Leveraging microscopy-based techniques, such as confocal microscopy, researchers can expedite tissue analysis without the need for physical sectioning. However, interpreting grayscale or pseudo-color microscopic images remains a challenge for pathologists and surgeons accustomed to traditional histologically stained images. To fill this gap, various studies explore digitally simulating staining to mimic targeted histological stains. This paper introduces a novel network, In-and-Out Net, specifically designed for virtual staining tasks. Based on Generative Adversarial Networks (GAN), our model efficiently transforms Reflectance Confocal Microscopy (RCM) images into Hematoxylin and Eosin (H&E) stained images. We enhance nuclei contrast in RCM images using aluminum chloride preprocessing for skin tissues. Training the model with virtual H\&E labels featuring two fluorescence channels eliminates the need for image registration and provides pixel-level ground truth. Our contributions include proposing an optimal training strategy, conducting a comparative analysis demonstrating state-of-the-art performance, validating the model through an ablation study, and collecting perfectly matched input and ground truth images without registration. In-and-Out Net showcases promising results, offering a valuable tool for virtual staining tasks and advancing the field of histological image analysis.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# 忠実度感受性を用いた正確なモビリティエッジを持つ一般化オーブリー・アンドレモデルの量子臨界度

Quantum criticality of generalized Aubry-André models with exact mobility edges using fidelity susceptibility ( http://arxiv.org/abs/2405.13282v1 )

ライセンス: Link先を確認
Yu-Bin Liu, Wen-Yi Zhang, Tian-Cheng Yi, Liangsheng Li, Maoxin Liu, Wen-Long You, (参考訳) 本研究では,様々な充填状態におけるスケーリング挙動に着目し,一般化 Aubry-Andr\'{e} モデルにおける量子臨界現象について検討する。 提案手法では, 量子フィデリティ・サセプティビリティを用いて, これらの系の移動度エッジを正確に同定する。 フィデリティ感受性の有限スケール解析により、一般化 Aubry-Andr\'{e} モデルの臨界点における相関長臨界指数と動的臨界指数の両方を決定できる。 ディオファントス方程式の予想に基づいて、フィボナッチ列の列の数と、特定の充足率に対する対応するスケーリング関数、および普遍性クラスを決定することができる。 本研究は, 近縁量子シミュレーション実験において, 非従来的量子臨界度解析と準周期系に関する普遍的情報解析に一般化された忠実性感受性を用いることの有効性を実証するものである。

In this study, we explore the quantum critical phenomena in generalized Aubry-Andr\'{e} models, with a particular focus on the scaling behavior at various filling states. Our approach involves using quantum fidelity susceptibility to precisely identify the mobility edges in these systems. Through a finite-size scaling analysis of the fidelity susceptibility, we are able to determine both the correlation-length critical exponent and the dynamical critical exponent at the critical point of the generalized Aubry-Andr\'{e} model. Based on the Diophantine equation conjecture, we can determines the number of subsequences of the Fibonacci sequence and the corresponding scaling functions for a specific filling fraction, as well as the universality class. Our findings demonstrate the effectiveness of employing the generalized fidelity susceptibility for the analysis of unconventional quantum criticality and the associated universal information of quasiperiodic systems in cutting-edge quantum simulation experiments.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# コントラスト学習と不確実性推定によるセンチネル2画像の能動学習の促進

Enhancing Active Learning for Sentinel 2 Imagery through Contrastive Learning and Uncertainty Estimation ( http://arxiv.org/abs/2405.13285v1 )

ライセンス: Link先を確認
David Pogorzelski, Peter Arlinghaus, (参考訳) 本稿では,半教師付き学習(SSL)とアクティブ学習戦略を統合することで,衛星画像解析におけるラベル効率を向上させるための新しい手法を提案する。 提案手法は,モンテカルロ・ドロップアウト(MC Dropout)による不確実性推定と対照的な学習を併用し,特にEurosatデータセットを用いて解析されたSentinel-2画像に着目した。 バランスの取れたクラス分布とバランスの取れていないクラス分布の両方を特徴とするシナリオにおいて,本手法の有効性について検討する。 その結果,非バランスなクラスではランダムな手法よりも優れており,高い分類精度を維持しながらラベル付け作業の大幅な削減が可能であることが示唆された。 これらの知見は、スケーラブルで費用効率の良い衛星画像解析を容易にするアプローチの可能性、特に広範囲の環境モニタリングと土地利用分類タスクに有利であることを示す。 予備的な結果について:本論文は,能動的学習のための新しい手法を提案し,提案手法とランダム選択を比較した実験結果を含む。 これらの結果が予備的なものであることを認めます。 我々は現在さらなる実験を行っており、今後数週間のうちに他の方法との比較を含む追加の知見とともにこの論文を更新する。

In this paper, we introduce a novel method designed to enhance label efficiency in satellite imagery analysis by integrating semi-supervised learning (SSL) with active learning strategies. Our approach utilizes contrastive learning together with uncertainty estimations via Monte Carlo Dropout (MC Dropout), with a particular focus on Sentinel-2 imagery analyzed using the Eurosat dataset. We explore the effectiveness of our method in scenarios featuring both balanced and unbalanced class distributions. Our results show that for unbalanced classes, our method is superior to the random approach, enabling significant savings in labeling effort while maintaining high classification accuracy. These findings highlight the potential of our approach to facilitate scalable and cost-effective satellite image analysis, particularly advantageous for extensive environmental monitoring and land use classification tasks. Note on preliminary results: This paper presents a new method for active learning and includes results from an initial experiment comparing random selection with our proposed method. We acknowledge that these results are preliminary. We are currently conducting further experiments and will update this paper with additional findings, including comparisons with other methods, in the coming weeks.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# 正規回帰問題に対する閾値法の損失関数に関する考察

Remarks on Loss Function of Threshold Method for Ordinal Regression Problem ( http://arxiv.org/abs/2405.13288v1 )

ライセンス: Link先を確認
Ryoya Yamasaki, Toshiyuki Tanaka, (参考訳) 閾値法は、自然な順序関係を持つデータの分類問題である順序回帰問題に人気がある。 彼らは説明変数の観測の1次元変換(1DT)を学び、1DT値を閾値付けすることでラベル予測を観測に割り当てる。 本稿では,基礎となるデータ分布と1DTの学習手順が,理論的考察と数値実験によるしきい値法の分類性能に与える影響について検討する。 その結果、例えば、説明変数の観測で条件付けられた対象変数の確率分布が非一様である場合、典型的な学習手順に基づくしきい値法は、性能が低下する可能性があることがわかった。 もう一つの例は、学習した1DT値が、断片的な線形損失関数に基づいて学習手順の下数点に集中していることであり、データの分類が困難である。

Threshold methods are popular for ordinal regression problems, which are classification problems for data with a natural ordinal relation. They learn a one-dimensional transformation (1DT) of observations of the explanatory variable, and then assign label predictions to the observations by thresholding their 1DT values. In this paper, we study the influence of the underlying data distribution and of the learning procedure of the 1DT on the classification performance of the threshold method via theoretical considerations and numerical experiments. Consequently, for example, we found that threshold methods based on typical learning procedures may perform poorly when the probability distribution of the target variable conditioned on an observation of the explanatory variable tends to be non-unimodal. Another instance of our findings is that learned 1DT values are concentrated at a few points under the learning procedure based on a piecewise-linear loss function, which can make difficult to classify data well.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# AUGlasses: スマートグラスの低消費電力IMUを用いた連続行動単位に基づく顔再構成

AUGlasses: Continuous Action Unit based Facial Reconstruction with Low-power IMUs on Smart Glasses ( http://arxiv.org/abs/2405.13289v1 )

ライセンス: Link先を確認
Yanrong Li, Tengxiang Zhang, Xin Zeng, Yuntao Wang, Haotian Zhang, Yiqiang Chen, (参考訳) 拡張現実(AR)の最近の進歩により、顔の再構成のような応用のために、さまざまなセンサーをスマートグラスに使用することが可能になった。 しかし、スマートグラスのサイズとパワーの制約は、小型で低消費電力のセンシングソリューションを必要とする。 AUGlassesは、顔の側頭領域に慣性測定ユニット(IMU)を配置して、顔の筋肉の動きによって生じる皮膚の変形を捉えることにより、邪魔にならない低出力の顔再構成を実現する。 これらのIMU信号は、顔行動単位(AU)の履歴データとともに、トランスフォーマーベースのディープラーニングモデルによって処理され、リアルタイムでAU強度を推定し、顔再構成に使用される。 以上の結果より,AUGlasses は 0.187 (STD = 0.025) の絶対誤差 (MAE) を持つ14個のキー AU の強度 (0-5スケール) を正確に予測し,1.93 mm (STD = 0.353) のクロスユーザー MAE を用いて顔の再構成を行う。 また、さまざまな前処理とトレーニング技術を統合して、連続センシングのための堅牢なパフォーマンスを確保しました。 マイクロベンチマークテストにより, 微調整型クロスユーザーモデルを用いて連続顔の再現を連続的に行い, AU MAE0.35を達成できた。

Recent advancements in augmented reality (AR) have enabled the use of various sensors on smart glasses for applications like facial reconstruction, which is vital to improve AR experiences for virtual social activities. However, the size and power constraints of smart glasses demand a miniature and low-power sensing solution. AUGlasses achieves unobtrusive low-power facial reconstruction by placing inertial measurement units (IMU) against the temporal area on the face to capture the skin deformations, which are caused by facial muscle movements. These IMU signals, along with historical data on facial action units (AUs), are processed by a transformer-based deep learning model to estimate AU intensities in real-time, which are then used for facial reconstruction. Our results show that AUGlasses accurately predicts the strength (0-5 scale) of 14 key AUs with a cross-user mean absolute error (MAE) of 0.187 (STD = 0.025) and achieves facial reconstruction with a cross-user MAE of 1.93 mm (STD = 0.353). We also integrated various preprocessing and training techniques to ensure robust performance for continuous sensing. Micro-benchmark tests indicate that our system consistently performs accurate continuous facial reconstruction with a fine-tuned cross-user model, achieving an AU MAE of 0.35.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# メタ強化学習の理論分析:一般化境界と収束保証

Theoretical Analysis of Meta Reinforcement Learning: Generalization Bounds and Convergence Guarantees ( http://arxiv.org/abs/2405.13290v1 )

ライセンス: Link先を確認
Cangqing Wang, Mingxiu Sui, Dan Sun, Zecheng Zhang, Yan Zhou, (参考訳) 本稿では,メタ強化学習(Meta RL)について,一般化限界の定義と収束性の確保に焦点をあてた調査を通じて深く研究する。 本稿では,メタRLアルゴリズムの有効性と性能を慎重に評価する,革新的な理論的枠組みを提案する。 本稿では,これらのアルゴリズムが一貫した結果を維持しながら,学習タスクにどの程度適応できるかを,一般化限界の説明を行う。 本稿では,メタRLの適応性に影響を及ぼす要因を解析し,アルゴリズム設計とタスク複雑性の関係を明らかにする。 さらに,メタRL戦略が解へ収束することが保証される条件の証明により収束保証を確立する。 本稿では,Meta RLアルゴリズムの長期的性能の背景にある駆動力の包括的理解を提供するシナリオ間の収束挙動について検討する。 この探索は、これらのアルゴリズムの能力に関する視点を提供する収束とリアルタイムの効率の両方をカバーしている。

This research delves deeply into Meta Reinforcement Learning (Meta RL) through a exploration focusing on defining generalization limits and ensuring convergence. By employing a approach this article introduces an innovative theoretical framework to meticulously assess the effectiveness and performance of Meta RL algorithms. We present an explanation of generalization limits measuring how well these algorithms can adapt to learning tasks while maintaining consistent results. Our analysis delves into the factors that impact the adaptability of Meta RL revealing the relationship, between algorithm design and task complexity. Additionally we establish convergence assurances by proving conditions under which Meta RL strategies are guaranteed to converge towards solutions. We examine the convergence behaviors of Meta RL algorithms across scenarios providing a comprehensive understanding of the driving forces behind their long term performance. This exploration covers both convergence and real time efficiency offering a perspective, on the capabilities of these algorithms.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# ベトナムのEコマースサイトにおけるスパムレビューのためのメタデータ統合

Metadata Integration for Spam Reviews Detection on Vietnamese E-commerce Websites ( http://arxiv.org/abs/2405.13292v1 )

ライセンス: Link先を確認
Co Van Dinh, Son T. Luu, (参考訳) 近年,電子商取引の急速な発展に伴い,スパムレビュー(オピニオン)の発見が注目されている。 スパムレビューは、しばしばコメントコンテンツに基づいて分類されるが、場合によっては、レビューラベルを正確に決定するには不十分である。 本稿では,スパムレビュー分類のための補足属性を統合することを目的として,レビューのメタデータを含むViSpamReviews v2データセットを紹介する。 本稿では,テキスト属性と分類属性を同時に分類モデルに統合する手法を提案する。 実験では,深層ニューラルネットワーク(DNN)モデルと組み合わせることで,製品カテゴリが有効であることが確認された。一方,DNNモデルとモデルの両方でテキスト機能は,ベトナムのeコマースサイトであるPhoBERTでスパムレビューを検出する問題において,最先端のパフォーマンスを達成した。 具体的には、PhoBERTモデルとSentenceBERTの組み合わせであるSPhoBertモデルから生成された製品記述機能と組み合わせることで、最も精度の高いPhoBERTモデルを実現する。 マクロ平均F1スコアを用いてスパムレビューを分類する作業は87.22%(ベースライン比1.64%増)、スパムレビューの種類を特定する作業は73.49%(ベースライン比1.93%増)を達成した。

The problem of detecting spam reviews (opinions) has received significant attention in recent years, especially with the rapid development of e-commerce. Spam reviews are often classified based on comment content, but in some cases, it is insufficient for models to accurately determine the review label. In this work, we introduce the ViSpamReviews v2 dataset, which includes metadata of reviews with the objective of integrating supplementary attributes for spam review classification. We propose a novel approach to simultaneously integrate both textual and categorical attributes into the classification model. In our experiments, the product category proved effective when combined with deep neural network (DNN) models, while text features performed well on both DNN models and the model achieved state-of-the-art performance in the problem of detecting spam reviews on Vietnamese e-commerce websites, namely PhoBERT. Specifically, the PhoBERT model achieves the highest accuracy when combined with product description features generated from the SPhoBert model, which is the combination of PhoBERT and SentenceBERT. Using the macro-averaged F1 score, the task of classifying spam reviews achieved 87.22% (an increase of 1.64% compared to the baseline), while the task of identifying the type of spam reviews achieved an accuracy of 73.49% (an increase of 1.93% compared to the baseline).
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# CoAPライクなメッセージプロトコルのためのダイアレクト

Dialects for CoAP-like Messaging Protocols ( http://arxiv.org/abs/2405.13295v1 )

ライセンス: Link先を確認
Carolyn Talcott, (参考訳) 分散IoTシステムのようなリソース制限されたシステムのメッセージングプロトコルは、時間、メモリ、帯域幅などのリソースを保存するためのセキュリティ選択のため、攻撃に対して脆弱であることが多い。 例えば、DTLSのようなセキュアなレイヤの使用はリソースコストが高く、時にサービス中断を引き起こすことがある。 プロトコル方言は、認証など、選択されたセキュリティ保証を提供するための軽量でモジュラーなメカニズムとして意図されている。 本稿では、CoAPメッセージングプロトコルについて検討し、異なる脆弱性を定式化する2つの攻撃モデルを定義する。 我々は、CoAPメッセージングのための一般的な方言を提案する。 CoAPプロトコル、方言、アタックモデルは、書き換えロジックシステムMaudeで形式化されている。 いくつかのケーススタディでは、この方言を適用した際の脆弱性と効果が報告されている。 我々はまた、CoAPメッセージングアプリケーションと方言バージョン間の(音声による)バイシミュレーションを証明し、方言化がCoAPアプリケーションのLTL特性を(Nextなしで)保持することを保証する。

Messaging protocols for resource limited systems such as distributed IoT systems are often vulnerable to attacks due to security choices made to conserve resources such as time, memory, or bandwidth. For example, use of secure layers such as DTLS are resource expensive and can sometimes cause service disruption. Protocol dialects are intended as a light weight, modular mechanism to provide selected security guarantees, such as authentication. In this report we study the CoAP messaging protocol and define two attack models formalizing different vulnerabilities. We propose a generic dialect for CoAP messaging. The CoAP protocol, dialect, and attack models are formalized in the rewriting logic system Maude. A number of case studies are reported illustrating vulnerabilities and effects of applying the dialect. We also prove (stuttering) bisimulations between CoAP messaging applications and dialected versions, thus ensuring that dialecting preserves LTL properties (without Next) of CoAP applications.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# 制約付き多目的最適化問題に対する効率的な解法

An Efficient Approach for Solving Expensive Constrained Multiobjective Optimization Problems ( http://arxiv.org/abs/2405.13298v1 )

ライセンス: Link先を確認
Kamrul Hasan Rahi, (参考訳) 実世界の高価な制約付き多目的最適化問題 (ECMOP) を解決するために、サロゲート/近似モデルが進化的アルゴリズムに一般的に組み込まれ、予測可能な候補解を事前に選択して評価する。 しかし、既存のアプローチの性能は、制約のないパレートフロント(UPFとCPF)の相対的な位置に依存する。 さらに、代理モデルの不確実性情報は無視されることが多く、探索を誤る可能性がある。 これらの重要な問題を緩和するために、効率的な確率的選択に基づく制約付き多目的EA(PSCMOEA)を提案する。 斬新な要素を包含する。 (a)評価解の実現可能性と収束状況に基づく適応探索境界識別方式 b)モデル平均と不確実性の理論的定式化を背景とした確率的選択法 (c)検索の異なる段階における実現可能性、収束性、多様性のバランスをとるための効率的な単一埋入サンプリングアプローチ (d)特定の探索条件に基づく非制約探索への適応スイッチ。 ECMOPを模擬する低評価予算を用いて, 幅広い制約付き問題に対して, 数値実験を行った。 PSCMOEAのパフォーマンスは、競争力と一貫性のあるパフォーマンスを示すために、5つの競争力のある最先端のアルゴリズムに対してベンチマークされる。

To solve real-world expensive constrained multi-objective optimization problems (ECMOPs), surrogate/approximation models are commonly incorporated in evolutionary algorithms to pre-select promising candidate solutions for evaluation. However, the performance of existing approaches are highly dependent on the relative position of unconstrained and constrained Pareto fronts (UPF and CPF, respectively). In addition, the uncertainty information of surrogate models is often ignored, which can misguide the search. To mitigate these key issues (among others), an efficient probabilistic selection based constrained multi-objective EA is proposed, referred to as PSCMOEA. It comprises novel elements such as (a) an adaptive search bound identification scheme based on the feasibility and convergence status of evaluated solutions (b) a probabilistic selection method backed by theoretical formulations of model mean and uncertainties to conduct search in the predicted space to identify promising solutions (c) an efficient single infill sampling approach to balance feasibility, convergence and diversity across different stages of the search and (d) an adaptive switch to unconstrained search based on certain search conditions. Numerical experiments are conducted on an extensive range of challenging constrained problems using low evaluation budgets to simulate ECMOPs. The performance of PSCMOEA is benchmarked against five competitive state-of-the-art algorithms, to demonstrate its competitive and consistent performance.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# FAITH:時系列予測のための2つのホライズンにおける周波数領域の注意

FAITH: Frequency-domain Attention In Two Horizons for Time Series Forecasting ( http://arxiv.org/abs/2405.13300v1 )

ライセンス: Link先を確認
Ruiqi Li, Maowei Jiang, Kai Wang, Kaiduo Feng, Quangao Liu, Yue Sun, Xiufang Zhou, (参考訳) 時系列予測は、産業機器の保守、気象学、エネルギー消費、交通流、金融投資など、様々な分野で重要な役割を果たしている。 しかし、従来の統計的アプローチよりもかなりの利点があるにもかかわらず、現在のディープラーニングベースの予測モデルは、予測結果と基礎的真実の間に大きなずれを示すことが多い。 この違いは、配列の潜伏情報、特に周波数領域内の大域的な情報、および異なる変数間の関係の抽出が不十分なためである。 そこで本研究では,時系列を時系列と季節成分に分解する2つのホライズンズにおける周波数領域注意モデルを提案する。 FAITHは、周波数チャンネル特徴抽出モジュールと周波数時間特徴抽出モジュールを使用して、シーケンス内のチャネル間関係と時間的グローバル情報をキャプチャし、長期依存や複雑なパターンを扱う能力を大幅に改善する。 さらに、FAITHは時間周波数領域変換法を変更して理論的に線形な複雑性を実現し、計算コストを効果的に削減する。 長期予測のための6つのベンチマークと短期予測のための3つのベンチマークに関する大規模な実験は、FAITHが電気、天気、交通など多くの分野で既存のモデルよりも優れており、長期および短期の時系列予測タスクにおいてその効果と優越性を証明していることを示している。 私たちのコードとデータはhttps://github.com/LRQ577/FAITH.comで公開されています。

Time Series Forecasting plays a crucial role in various fields such as industrial equipment maintenance, meteorology, energy consumption, traffic flow and financial investment. However, despite their considerable advantages over traditional statistical approaches, current deep learning-based predictive models often exhibit a significant deviation between their forecasting outcomes and the ground truth. This discrepancy is largely due to an insufficient emphasis on extracting the sequence's latent information, particularly its global information within the frequency domain and the relationship between different variables. To address this issue, we propose a novel model Frequency-domain Attention In Two Horizons, which decomposes time series into trend and seasonal components using a multi-scale sequence adaptive decomposition and fusion architecture, and processes them separately. FAITH utilizes Frequency Channel feature Extraction Module and Frequency Temporal feature Extraction Module to capture inter-channel relationships and temporal global information in the sequence, significantly improving its ability to handle long-term dependencies and complex patterns. Furthermore, FAITH achieves theoretically linear complexity by modifying the time-frequency domain transformation method, effectively reducing computational costs. Extensive experiments on 6 benchmarks for long-term forecasting and 3 benchmarks for short-term forecasting demonstrate that FAITH outperforms existing models in many fields, such as electricity, weather and traffic, proving its effectiveness and superiority both in long-term and short-term time series forecasting tasks. Our codes and data are available at https://github.com/LRQ577/FAITH.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# Ollivier-Ricci曲線下界の加速評価:ブリッジ理論と計算

Accelerated Evaluation of Ollivier-Ricci Curvature Lower Bounds: Bridging Theory and Computation ( http://arxiv.org/abs/2405.13302v1 )

ライセンス: Link先を確認
Wonwoo Kang, Heehyun Park, (参考訳) 曲線は強力な記述不変量として機能し、その有効性は理論上も実際上もグラフ理論内で検証される。 我々は、Ollivierによって提唱された一般化リッチ曲率の定義を用い、LinとYauは後にOllivier-Ricci曲率(ORC)として知られるグラフ理論に適応した。 ORCはワッサーシュタイン距離を用いて曲率を測り、幾何学的概念と確率論と最適輸送を統合する。 ジョストとリューは以前、ワッサーシュタイン距離の上界を示すことによってORCの下界について議論した。 我々はこれらの境界の適用性を、整数、特にハイパーグラフ上のメトリクスを持つ離散空間に拡張する。 計算問題に直面したCoupette, Dalleiger, RieckによるハイパーグラフにおけるORCに関する以前の研究と比較すると, 線形計算の複雑化を伴う単純化されたアプローチを導入し, 大規模ネットワークの解析に特に適している。 人工および実世界のデータセットへの広範なシミュレーションと応用を通じて、ORCの評価において我々の方法がもたらす重要な改善を実証する。

Curvature serves as a potent and descriptive invariant, with its efficacy validated both theoretically and practically within graph theory. We employ a definition of generalized Ricci curvature proposed by Ollivier, which Lin and Yau later adapted to graph theory, known as Ollivier-Ricci curvature (ORC). ORC measures curvature using the Wasserstein distance, thereby integrating geometric concepts with probability theory and optimal transport. Jost and Liu previously discussed the lower bound of ORC by showing the upper bound of the Wasserstein distance. We extend the applicability of these bounds to discrete spaces with metrics on integers, specifically hypergraphs. Compared to prior work on ORC in hypergraphs by Coupette, Dalleiger, and Rieck, which faced computational challenges, our method introduces a simplified approach with linear computational complexity, making it particularly suitable for analyzing large-scale networks. Through extensive simulations and application to synthetic and real-world datasets, we demonstrate the significant improvements our method offers in evaluating ORC.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# 脳腫瘍分離のためのハイブリッドマルチヘッド検出Unet-3D

Hybrid Multihead Attentive Unet-3D for Brain Tumor Segmentation ( http://arxiv.org/abs/2405.13304v1 )

ライセンス: Link先を確認
Muhammad Ansab Butt, Absaar Ul Jabbar, (参考訳) 脳腫瘍のセグメンテーションは、医療画像解析において重要な課題であり、脳腫瘍患者の診断と治療計画を支援する。 自動化された正確な脳腫瘍セグメンテーションの重要性は過大評価できない。 医療専門家は腫瘍領域を正確に切り離し、腫瘍の成長または退縮を評価し、標的とする治療を計画できる。 この分野では様々な深層学習に基づく手法が大きな進歩を遂げているが、脳腫瘍形態の複雑で変動的な性質のため、精度の面ではまだ限界に直面している。 本稿では,脳腫瘍の正確なセグメンテーションの課題に対処し,複雑な空間的関係と微妙な腫瘍境界を捉えるために,新しいハイブリッドマルチヘッド監視型U-Netアーキテクチャを提案する。 U-Netアーキテクチャは、コンテキスト情報と特徴表現をキャプチャする上で有効であることが証明され、一方で注意機構は、情報領域に集中し、セグメンテーション境界を洗練するモデルの能力を高める。 これら2つの要素を統合することで,脳腫瘍のセグメント化の精度が向上する。 提案したモデルをBraTS 2020ベンチマークデータセット上でテストし,その性能を最先端のSegNet,FCN-8s,Dense121 U-Netアーキテクチャと比較した。 その結果,評価結果から,提案モデルが他のモデルよりも優れていることがわかった。

Brain tumor segmentation is a critical task in medical image analysis, aiding in the diagnosis and treatment planning of brain tumor patients. The importance of automated and accurate brain tumor segmentation cannot be overstated. It enables medical professionals to precisely delineate tumor regions, assess tumor growth or regression, and plan targeted treatments. Various deep learning-based techniques proposed in the literature have made significant progress in this field, however, they still face limitations in terms of accuracy due to the complex and variable nature of brain tumor morphology. In this research paper, we propose a novel Hybrid Multihead Attentive U-Net architecture, to address the challenges in accurate brain tumor segmentation, and to capture complex spatial relationships and subtle tumor boundaries. The U-Net architecture has proven effective in capturing contextual information and feature representations, while attention mechanisms enhance the model's ability to focus on informative regions and refine the segmentation boundaries. By integrating these two components, our proposed architecture improves accuracy in brain tumor segmentation. We test our proposed model on the BraTS 2020 benchmark dataset and compare its performance with the state-of-the-art well-known SegNet, FCN-8s, and Dense121 U-Net architectures. The results show that our proposed model outperforms the others in terms of the evaluated performance metrics.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# Bytes to Schlep? FEPを使う: 完全に暗号化されたプロトコルでプロトコルメタデータを格納する

Bytes to Schlep? Use a FEP: Hiding Protocol Metadata with Fully Encrypted Protocols ( http://arxiv.org/abs/2405.13310v1 )

ライセンス: Link先を確認
Ellis Fenske, Aaron Johnson, (参考訳) FEP(Fully Encrypted Protocols)は、ネットワーク検閲を回避する技術として実際に登場したプロトコルである。 このようなプロトコルは完全にランダムに見えるメッセージを生成するように設計されている。 この設計は、バージョンや長さフィールドなどの通信メタデータを隠蔽し、どのプロトコルが使われているかを特定することさえ困難にする。 さらに、これらのプロトコルは、しばしばパディングをサポートし、プロトコルフィールドの長さとメッセージを含むメッセージを隠蔽する。 プロトコルメタデータの保護は、すべてのインターネット通信に対して、セキュリティとプライバシのメリットを持つ。 FEP設計のセキュリティは暗号的な仮定に依存するが、セキュリティ定義や証明は存在しない。 FEPのメタデータ保護の目標を捉える新しいセキュリティ定義を提供する。 我々の定義は、プロトコルデザイナが利用可能なユビキタスTCPおよびUDPインターフェースをモデル化するデータストリームとデータグラムの設定の両方で与えられる。 これらの新しい概念と既存のセキュリティ定義の関連性を証明する。 さらに、新たなFEP構造を提示し、その安全性を証明します。 最後に、既存のFEP候補を調査し、FEPのセキュリティを満たす程度を特徴付ける。 データエラー発生に対する応答や,最小のプロトコルメッセージのサイズなど,これらのプロトコルが識別可能な新しい方法を特定する。

Fully Encrypted Protocols (FEPs) have arisen in practice as a technique to avoid network censorship. Such protocols are designed to produce messages that appear completely random. This design hides communications metadata, such as version and length fields, and makes it difficult to even determine what protocol is being used. Moreover, these protocols frequently support padding to hide the length of protocol fields and the contained message. These techniques have relevance well beyond censorship circumvention, as protecting protocol metadata has security and privacy benefits for all Internet communications. The security of FEP designs depends on cryptographic assumptions, but neither security definitions nor proofs exist for them. We provide novel security definitions that capture the metadata-protection goals of FEPs. Our definitions are given in both the datastream and datagram settings, which model the ubiquitous TCP and UDP interfaces available to protocol designers. We prove relations among these new notions and existing security definitions. We further present new FEP constructions and prove their security. Finally, we survey existing FEP candidates and characterize the extent to which they satisfy FEP security. We identify novel ways in which these protocols are identifiable, including their responses to the introduction of data errors and the sizes of their smallest protocol messages.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# 「これを読めばいい」:テキストのヘッジ検出

''You should probably read this'': Hedge Detection in Text ( http://arxiv.org/abs/2405.13319v1 )

ライセンス: Link先を確認
Denys Katerenchuk, Rivka Levitan, (参考訳) 人間は言語を通して考え、信念、言明を表現する。 表現の仕方は、著者の発言に対する信頼度を示す情報を運ぶことができる。 クレームの確実性を理解することは、医療、金融、工学、その他多くの分野において、エラーが破滅的な結果をもたらす可能性がある分野において重要である。 本研究では,テキスト中のヘッジ検出を改善し,CoNLL-2010ウィキペディアコーパスの新たなトップスコアを得るために,単語と音声タグを活用するジョイントモデルを適用した。

Humans express ideas, beliefs, and statements through language. The manner of expression can carry information indicating the author's degree of confidence in their statement. Understanding the certainty level of a claim is crucial in areas such as medicine, finance, engineering, and many others where errors can lead to disastrous results. In this work, we apply a joint model that leverages words and part-of-speech tags to improve hedge detection in text and achieve a new top score on the CoNLL-2010 Wikipedia corpus.
翻訳日:2024-05-25 01:34:09 公開日:2024-05-22
# 教師の集まりの適応的知識の融合による対人訓練

Adversarial Training via Adaptive Knowledge Amalgamation of an Ensemble of Teachers ( http://arxiv.org/abs/2405.13324v1 )

ライセンス: Link先を確認
Shayan Mohajer Hamidi, Linfeng Ye, (参考訳) Adversarial Training (AT)は、強力なディープニューラルネットワーク(DNN)を敵の攻撃に対して訓練する一般的な方法である。 しかし、ATは2つの欠点に悩まされている。 (i)ATが訓練したDNNのロバスト性は、DNNのサイズと密接に絡み合っており、小型モデルでロバスト性を達成する上での課題を提起している。 (II)ATプロセスで使用した敵のサンプルは、DNNが予期せぬ攻撃タイプに弱いままで、一般化が不十分である。 これら2つの課題に対処するために,教師のアンサンブル(AT-AKA)の適応的知識アマルガメーションによる対人訓練を提案する。 特に,教師のアンサンブルへの入力として多種多様な対人サンプルを生成し,これらの教師の対数と適応的にアマルガメートして,一般の難解な生徒を訓練する。 包括的実験を通じて,既存のAT法よりもAT-AKAが優れていること,およびオートアタックを含む最先端攻撃に対する対向ロバストネス蒸留技術について述べる。

Adversarial training (AT) is a popular method for training robust deep neural networks (DNNs) against adversarial attacks. Yet, AT suffers from two shortcomings: (i) the robustness of DNNs trained by AT is highly intertwined with the size of the DNNs, posing challenges in achieving robustness in smaller models; and (ii) the adversarial samples employed during the AT process exhibit poor generalization, leaving DNNs vulnerable to unforeseen attack types. To address these dual challenges, this paper introduces adversarial training via adaptive knowledge amalgamation of an ensemble of teachers (AT-AKA). In particular, we generate a diverse set of adversarial samples as the inputs to an ensemble of teachers; and then, we adaptively amalgamate the logtis of these teachers to train a generalized-robust student. Through comprehensive experiments, we illustrate the superior efficacy of AT-AKA over existing AT methods and adversarial robustness distillation techniques against cutting-edge attacks, including AutoAttack.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# DEGAP: スロットクエリによるテンプレートベースのイベント引数抽出モデルのためのデュアルイベントガイド型アダプティブプリフィックス

DEGAP: Dual Event-Guided Adaptive Prefixes for Templated-Based Event Argument Extraction Model with Slot Querying ( http://arxiv.org/abs/2405.13325v1 )

ライセンス: Link先を確認
Guanghui Wang, Dexi Liu, Qizhi Wan, Xiping Liu, Wanlong Liu, (参考訳) イベント引数抽出(EAE)の最近の進歩は、検索されたインスタンスやイベントテンプレートなど、トレーニングおよび推論中に有効な補助情報をモデルに組み込むことである。 さらに、学習可能なプレフィックスベクトルをモデルに導入する研究もある。 これらの手法は,(1)検索の欠如による関連するイベントインスタンスの利用不足,(2)関連するイベントテンプレートが提供する重要な情報の無視,(3)AEの特定の情報要求を満たすことができないことによるプレフィックスの利点の制約,という3つの課題に直面している。 本研究では,(1) インスタンス指向のプレフィックスとテンプレート指向のプレフィックスがそれぞれ異なるイベントインスタンスとテンプレートから情報を学習するために訓練された二重プレフィックスと,(2) 対象イベントに基づいてプレフィックスをガイドするイベント誘導適応ゲーティング機構の2つを用いて,上記の課題に対処するDEGAPを提案する。 4つのデータセット(ACE05, RAMS, WIKIEVENTS, MLEE)に対して,本手法が新たな最先端性能を実現することを示す。 さらに,提案する設計の重要性と主成分の有効性を検証した。

Recent advancements in event argument extraction (EAE) involve incorporating beneficial auxiliary information into models during training and inference, such as retrieved instances and event templates. Additionally, some studies introduce learnable prefix vectors to models. These methods face three challenges: (1) insufficient utilization of relevant event instances due to deficiencies in retrieval; (2) neglect of important information provided by relevant event templates; (3) the advantages of prefixes are constrained due to their inability to meet the specific informational needs of EAE. In this work, we propose DEGAP, which addresses the above challenges through two simple yet effective components: (1) dual prefixes, where the instance-oriented prefix and template-oriented prefix are trained to learn information from different event instances and templates, respectively, and then provide relevant information as cues to EAE model without retrieval; (2) event-guided adaptive gating mechanism, which guides the prefixes based on the target event to fully leverage their advantages. Extensive experiments demonstrate that our method achieves new state-of-the-art performance on four datasets (ACE05, RAMS, WIKIEVENTS, and MLEE). Further analysis verifies the importance of the proposed design and the effectiveness of the main components.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# Mosaic IT: データモザイクによるインストラクションチューニングの強化

Mosaic IT: Enhancing Instruction Tuning with Data Mosaics ( http://arxiv.org/abs/2405.13326v1 )

ライセンス: Link先を確認
Ming Li, Pei Chen, Chenguang Wang, Hongyu Zhao, Yijun Liang, Yupeng Hou, Fuxiao Liu, Tianyi Zhou, (参考訳) 様々な命令-応答ペアで大きな言語モデルを微調整することで、命令を理解し、従う能力が向上した。 現在のインストラクションチューニングは、主に教師モデルや人間の介入に依存して、コストがかかり、持続不可能であり、多様性に欠ける命令と応答を生成し、洗練する。 本稿では,既存の命令チューニングデータから多種多様な拡張を効率的に生成し,複数の命令データをランダムに1つに結合し,事前定義された高レベルなメタ命令で対応する応答を生成するようモデルにトレーニングする,モザイク・インストラクション・チューニング(Mosaic-IT)について紹介する。 本研究は,Mosaic-ITの性能と訓練効率を向上し,様々なベンチマークに対して一貫した性能向上を実現し,トレーニングコストの80%削減を実現した。 私たちのコードとデータはhttps://github.com/tianyi-lab/Mosaic-IT.comで公開されています。

Finetuning large language models with a variety of instruction-response pairs has enhanced their capability to understand and follow instructions. Current instruction tuning primarily relies on teacher models or human intervention to generate and refine the instructions and responses, which are costly, non-sustainable, and may lack diversity. In this paper, we introduce Mosaic Instruction Tuning (Mosaic-IT), a human/model-free method that can efficiently create rich and diverse augmentations from existing instruction tuning data to enhance the finetuned LLM.Mosaic-IT randomly concatenates multiple instruction data into one and trains the model to produce the corresponding responses with predefined higher-level meta-instructions to strengthen its multi-step instruction-following and format-following skills. Our extensive evaluations demonstrate a superior performance and training efficiency of Mosaic-IT, which achieves consistent performance improvements over various benchmarks and an 80% reduction in training costs compared with original instruction tuning. Our codes and data are available at https://github.com/tianyi-lab/Mosaic-IT.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# クロスオブジェクトトレーニングによるGPT2単語予測を用いた高性能P300スパラ

High Performance P300 Spellers Using GPT2 Word Prediction With Cross-Subject Training ( http://arxiv.org/abs/2405.13329v1 )

ライセンス: Link先を確認
Nithin Parthasarathy, James Soetedjo, Saarang Panchavati, Nitya Parthasarathy, Corey Arnold, Nader Pouratian, William Speier, (参考訳) 筋萎縮性側索硬化症 (Amyotrophic lateral sclerosis, ALS) は、患者のコミュニケーション能力が著しく低下し、診断後数年で生活の質が低下する。 P300スペル・ブレイン・コンピュータ・インタフェース(BCI)は、グリッド・インタフェースに表示される文字に対して被験者の脳波応答を解釈することで、代替的な通信手段を提供する。 本稿では, 効率的なP300ベース多目的分類器の学習において発生する共通速度制限について, 革新的な「多目的分類器」を導入して検討する。 我々は,第2世代の生成事前学習変換器(GPT2)とDijkstraのアルゴリズムを組み合わせることで,入力履歴に基づいて,刺激の最適化と単語補完の選択を提案する。 さらに,語彙外(OOV)単語に対応するために,多層平滑化手法を用いる。 被験者からの脳波データのランダムサンプリングを含む広範囲なシミュレーションを通じて、希少な単語とOOV単語を含むタイピングパスにおいて、顕著な速度向上を示す。 これらの最適化により、文字レベルのタイピング速度が約10%向上し、マルチワード予測が最大40%向上する。 階層化単語予測による標準行/列強調手法の強化により、最適性能が向上することが実証された。 さらに、"within-subject"と"across-subject"の両方のトレーニング手法について検討し、両方のアプローチでスピード改善が整合していることを示した。

Amyotrophic lateral sclerosis (ALS) severely impairs patients' ability to communicate, often leading to a decline in their quality of life within a few years of diagnosis. The P300 speller brain-computer interface (BCI) offers an alternative communication method by interpreting a subject's EEG response to characters presented on a grid interface. This paper addresses the common speed limitations encountered in training efficient P300-based multi-subject classifiers by introducing innovative "across-subject" classifiers. We leverage a combination of the second-generation Generative Pre-Trained Transformer (GPT2) and Dijkstra's algorithm to optimize stimuli and suggest word completion choices based on typing history. Additionally, we employ a multi-layered smoothing technique to accommodate out-of-vocabulary (OOV) words. Through extensive simulations involving random sampling of EEG data from subjects, we demonstrate significant speed enhancements in typing passages containing rare and OOV words. These optimizations result in approximately 10% improvement in character-level typing speed and up to 40% improvement in multi-word prediction. We demonstrate that augmenting standard row/column highlighting techniques with layered word prediction yields close-to-optimal performance. Furthermore, we explore both "within-subject" and "across-subject" training techniques, showing that speed improvements are consistent across both approaches.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# 農業・生物応用のための深層学習を用いたハイパースペクトル画像再構成の比較解析

Comparative Analysis of Hyperspectral Image Reconstruction Using Deep Learning for Agricultural and Biological Applications ( http://arxiv.org/abs/2405.13331v1 )

ライセンス: Link先を確認
Md. Toukir Ahmed, Mohammed Kamruzzaman, (参考訳) ハイパースペクトルイメージング(HSI)は、様々な分野で非侵襲的な品質評価の鍵となる技術となり、空間的およびスペクトル的データを通じて詳細な洞察を提供する。 有効性にもかかわらず、HSIシステムの複雑さと高いコストは、広く採用されるのを妨げている。 本研究は,RGB(赤,緑,青)画像からの深層学習に基づくハイパースペクトル画像再構成,特に農産物の探索により,これらの課題に対処した。 具体的には,高スペクトル畳み込みニューラルネットワーク-Dense (HSCNN-D), High-Resolution Network (HRNET), Multi-Scale Transformer Plus (MST++) などの様々なハイパースペクトル再構成アルゴリズムを比較し,サツマイモの乾物含量評価を行った。 HRNETは高い性能を示し,0.07の平均絶対誤差(MRAE),0.03の平均二乗誤差(RMSE),32.28デシベル(dB)のピーク信号-雑音比(PSNR)を達成した。 遺伝的アルゴリズム(GA)を用いていくつかの重要な特徴が選択され、その重要性は説明可能な人工知能(XAI)を用いて解釈された。 部分最小二乗回帰(PLSR)モデルは、RGB、再構成、地上真実(GT)データを用いて開発された。 これらの再構成手法の視覚的, スペクトル的品質をGTデータと比較し, 予測マップを作成した。 その結果, 農業・生物応用のための費用対効果・効率の高い品質評価ツールとして, 深層学習に基づくハイパースペクトル画像再構成が期待できることが明らかになった。

Hyperspectral imaging (HSI) has become a key technology for non-invasive quality evaluation in various fields, offering detailed insights through spatial and spectral data. Despite its efficacy, the complexity and high cost of HSI systems have hindered their widespread adoption. This study addressed these challenges by exploring deep learning-based hyperspectral image reconstruction from RGB (Red, Green, Blue) images, particularly for agricultural products. Specifically, different hyperspectral reconstruction algorithms, such as Hyperspectral Convolutional Neural Network - Dense (HSCNN-D), High-Resolution Network (HRNET), and Multi-Scale Transformer Plus Plus (MST++), were compared to assess the dry matter content of sweet potatoes. Among the tested reconstruction methods, HRNET demonstrated superior performance, achieving the lowest mean relative absolute error (MRAE) of 0.07, root mean square error (RMSE) of 0.03, and the highest peak signal-to-noise ratio (PSNR) of 32.28 decibels (dB). Some key features were selected using the genetic algorithm (GA), and their importance was interpreted using explainable artificial intelligence (XAI). Partial least squares regression (PLSR) models were developed using the RGB, reconstructed, and ground truth (GT) data. The visual and spectra quality of these reconstructed methods was compared with GT data, and predicted maps were generated. The results revealed the prospect of deep learning-based hyperspectral image reconstruction as a cost-effective and efficient quality assessment tool for agricultural and biological applications.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# スパーススキャンプリエントを用いた視覚変換器

Vision Transformer with Sparse Scan Prior ( http://arxiv.org/abs/2405.13335v1 )

ライセンス: Link先を確認
Qihang Fan, Huaibo Huang, Mingrui Chen, Ran He, (参考訳) 近年、トランスフォーマーはコンピュータビジョンタスクにおいて顕著な進歩を遂げている。 しかし、そのグローバルなモデリングは、人間の目の効率的な情報処理とは対照的に、かなり計算上のオーバーヘッドが伴うことが多い。 人間の眼のスパース・スキャニング・メカニズムにインスパイアされ,<textbf{S}parse \textbf{S}can \textbf{S}elf-\textbf{A}ttention mechanism(\rm{S}^3\rm{A}$)を提案する。 このメカニズムはトークンごとに一連のAnchor of Interestを事前定義し、局所的な注意を払い、これらのアンカー周辺の空間情報を効率的にモデル化し、冗長なグローバルモデリングを避け、局所的な情報に過度にフォーカスする。 このアプローチは人間の目の機能を反映し、視覚モデルの計算負荷を大幅に削減する。 ここでは、$\rm{S}^3\rm{A}$上に構築し、 \textbf{S}parse \textbf{S}can \textbf{Vi}sion \textbf{T}ransformer (SSViT)を導入する。 広範な実験は、様々なタスクにわたるSSViTの卓越した性能を実証している。 具体的には、ImageNet分類において、追加の監督データやトレーニングデータなしで、SSViTは \textbf{84.4\%/85.7\%} と \textbf{4.4G/18.2G} FLOPs の最高1の精度を達成している。 SSViTは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションといった下流タスクも優れている。 その堅牢性は、さまざまなデータセットでさらに検証されている。 コードは \url{https://github.com/qhfan/SSViT} で入手できる。

In recent years, Transformers have achieved remarkable progress in computer vision tasks. However, their global modeling often comes with substantial computational overhead, in stark contrast to the human eye's efficient information processing. Inspired by the human eye's sparse scanning mechanism, we propose a \textbf{S}parse \textbf{S}can \textbf{S}elf-\textbf{A}ttention mechanism ($\rm{S}^3\rm{A}$). This mechanism predefines a series of Anchors of Interest for each token and employs local attention to efficiently model the spatial information around these anchors, avoiding redundant global modeling and excessive focus on local information. This approach mirrors the human eye's functionality and significantly reduces the computational load of vision models. Building on $\rm{S}^3\rm{A}$, we introduce the \textbf{S}parse \textbf{S}can \textbf{Vi}sion \textbf{T}ransformer (SSViT). Extensive experiments demonstrate the outstanding performance of SSViT across a variety of tasks. Specifically, on ImageNet classification, without additional supervision or training data, SSViT achieves top-1 accuracies of \textbf{84.4\%/85.7\%} with \textbf{4.4G/18.2G} FLOPs. SSViT also excels in downstream tasks such as object detection, instance segmentation, and semantic segmentation. Its robustness is further validated across diverse datasets. Code will be available at \url{https://github.com/qhfan/SSViT}.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# セマンティック・エクイタブル・クラスタリング:視覚変換器のシンプルで高速で効果的な戦略

Semantic Equitable Clustering: A Simple, Fast and Effective Strategy for Vision Transformer ( http://arxiv.org/abs/2405.13337v1 )

ライセンス: Link先を確認
Qihang Fan, Huaibo Huang, Mingrui Chen, Ran He, (参考訳) Vision Transformer (ViT)は、優れたリレーショナルモデリング技術で有名になった。 しかし、そのグローバルな注意機構の二次的な複雑さは、かなりの計算上の負担をもたらす。 一般的な治療法は、自己注意のためのトークンを空間的にグループ化し、計算要求を減少させる。 にもかかわらず、この戦略はトークンのセマンティック情報を無視し、意味的にリンクされたトークンを異なるグループに分散させ、トークン間の依存関係をモデル化するための自己意図の有効性を損なう。 これらの知見に触発され、高速かつバランスの取れたクラスタリング手法である \textbf{S}emantic \textbf{E}quitable \textbf{C}lustering (SEC) を導入する。 SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。 複数の反復を必要とする従来のクラスタリング手法とは対照的に,本手法はトークンクラスタリングを1回のパスで達成する。 さらに、SECはクラスタ単位のトークン数を規制し、さらなる最適化を必要とせず、現在の計算プラットフォーム上で効果的な並列処理のためのバランスの取れた分散を保証する。 SECに出資し、多目的ビジョンバックボーンであるSecViTを提案する。 イメージ分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションにおける総合的な実験は、SecViTの有効性を検証する。 注目すべきは、SecViTが印象的な \textbf{84.2\%} 画像分類精度を、追加の監督やデータを必要としないように、 \textbf{27M} パラメータと \textbf{4.4G} FLOPsのみで達成したことである。 コードは \url{https://github.com/qhfan/SecViT} で入手できる。

The Vision Transformer (ViT) has gained prominence for its superior relational modeling prowess. However, its global attention mechanism's quadratic complexity poses substantial computational burdens. A common remedy spatially groups tokens for self-attention, reducing computational requirements. Nonetheless, this strategy neglects semantic information in tokens, possibly scattering semantically-linked tokens across distinct groups, thus compromising the efficacy of self-attention intended for modeling inter-token dependencies. Motivated by these insights, we introduce a fast and balanced clustering method, named \textbf{S}emantic \textbf{E}quitable \textbf{C}lustering (SEC). SEC clusters tokens based on their global semantic relevance in an efficient, straightforward manner. In contrast to traditional clustering methods requiring multiple iterations, our method achieves token clustering in a single pass. Additionally, SEC regulates the number of tokens per cluster, ensuring a balanced distribution for effective parallel processing on current computational platforms without necessitating further optimization. Capitalizing on SEC, we propose a versatile vision backbone, SecViT. Comprehensive experiments in image classification, object detection, instance segmentation, and semantic segmentation validate to the effectiveness of SecViT. Remarkably, SecViT attains an impressive \textbf{84.2\%} image classification accuracy with only \textbf{27M} parameters and \textbf{4.4G} FLOPs, without the need for for additional supervision or data. Code will be available at \url{https://github.com/qhfan/SecViT}.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# 動的語彙を用いた文脈自動音声認識

Contextualized Automatic Speech Recognition with Dynamic Vocabulary ( http://arxiv.org/abs/2405.13344v1 )

ライセンス: Link先を確認
Yui Sudo, Yosuke Fukumoto, Muhammad Shakeel, Yifan Peng, Shinji Watanabe, (参考訳) ディープバイアス(DB)は、バイアスリストを用いて、まれな単語や文脈句に対するエンドツーエンドの自動音声認識(E2E-ASR)の性能を改善する。 しかし、既存のほとんどのメソッドは、バイアスフレーズを、定義済みの静的語彙のサブワードのシーケンスとして扱うため、サブワード間の依存関係の非効率な学習につながる可能性がある。 より高度な技術は、追加のテキストデータを組み込むことでこの問題に対処し、全体の作業量を増加させる。 本稿では,推論フェーズ中にフレーズレベルのバイアストークンを追加可能な動的語彙を提案する。 各バイアストークンは、単一のトークン内のすべてのバイアスフレーズを表すため、バイアスフレーズ内のサブワード間の依存関係を学ぶ必要がなくなる。 この方法は、一般的なE2E-ASRアーキテクチャにおける埋め込み層と出力層のみを拡張するため、様々なアーキテクチャに適用できる。 実験の結果,提案手法は,英語と日本語のデータセット上でのバイアスフレーズの性能を向上させることがわかった。

Deep biasing (DB) improves the performance of end-to-end automatic speech recognition (E2E-ASR) for rare words or contextual phrases using a bias list. However, most existing methods treat bias phrases as sequences of subwords in a predefined static vocabulary, which can result in ineffective learning of the dependencies between subwords. More advanced techniques address this problem by incorporating additional text data, which increases the overall workload. This paper proposes a dynamic vocabulary where phrase-level bias tokens can be added during the inference phase. Each bias token represents an entire bias phrase within a single token, thereby eliminating the need to learn the dependencies between the subwords within the bias phrases. This method can be applied to various architectures because it only extends the embedding and output layers in common E2E-ASR architectures. Experimental results demonstrate that the proposed method improves the performance of bias phrases on English and Japanese datasets.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# 最小限の人間介入による自律走行車両の訓練アルゴリズム

Autonomous Algorithm for Training Autonomous Vehicles with Minimal Human Intervention ( http://arxiv.org/abs/2405.13345v1 )

ライセンス: Link先を確認
Sang-Hyun Lee, Daehyeok Kwon, Seung-Woo Seo, (参考訳) 強化学習(Reinforcement Learning, RL)は、自動運転車が自身の運転行動の学習と改善を続けることを可能にする、魅力的なフレームワークを提供する。 しかし、現在のRLアルゴリズムによる現実の自動運転車のトレーニングにはいくつかの課題がある。 重要な課題は、しばしばこれらのアルゴリズムで見落とされ、各エピソード間で運転環境をリセットする必要があることである。 各エピソードの後に環境をリセットすることは、シミュレーションされた設定では簡単なことだが、現実の世界では人間の介入がかなり必要である。 本稿では,人間による介入を最小限に抑えた自動運転車の訓練を可能にする,新しい自律アルゴリズムを提案する。 我々のアルゴリズムは、安全でない状態に入る前にいつエピソードを中止するかを判断し、後続のエピソードにリセットし、情報的遷移を収集するために、自動運転車の学習の進捗を考慮に入れている。 学習の進展は、現在の状態と将来の状態の両方の新規性に基づいて推定される。 また、ルールベースの自動運転アルゴリズムを利用して、自動運転車を初期状態に安全にリセットする。 多様な都市運転タスクのベースラインに対するアルゴリズムの評価を行った。 実験結果から,本アルゴリズムはタスク非依存であり,ベースラインよりも手動リセットが少なく,運転性能が向上することが示された。

Reinforcement learning (RL) provides a compelling framework for enabling autonomous vehicles to continue to learn and improve diverse driving behaviors on their own. However, training real-world autonomous vehicles with current RL algorithms presents several challenges. One critical challenge, often overlooked in these algorithms, is the need to reset a driving environment between every episode. While resetting an environment after each episode is trivial in simulated settings, it demands significant human intervention in the real world. In this paper, we introduce a novel autonomous algorithm that allows off-the-shelf RL algorithms to train an autonomous vehicle with minimal human intervention. Our algorithm takes into account the learning progress of the autonomous vehicle to determine when to abort episodes before it enters unsafe states and where to reset it for subsequent episodes in order to gather informative transitions. The learning progress is estimated based on the novelty of both current and future states. We also take advantage of rule-based autonomous driving algorithms to safely reset an autonomous vehicle to an initial state. We evaluate our algorithm against baselines on diverse urban driving tasks. The experimental results show that our algorithm is task-agnostic and achieves better driving performance with fewer manual resets than baselines.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# 平均場制御問題に対するディープ・ガレルキン法の収束性

Convergence of the Deep Galerkin Method for Mean Field Control Problems ( http://arxiv.org/abs/2405.13346v1 )

ライセンス: Link先を確認
William Hofgard, Jingruo Sun, Asaf Cohen, (参考訳) 我々は、平均場制御問題(MFCP)の研究から生じるハミルトン・ヤコビ・ベルマン方程式(HJB)に対して、高次元非線形PDEを解くためのディープラーニングベースのスキームであるディープ・ガレルキン法(DGM)の収束を確立する。 近年,MFCP の値関数を単純体上の HJB 方程式の特異な粘性解として特徴づけることから,DGM の存在と収束結果の両立を図った。 まず、MFCPの値関数が十分な正則性を持つので、DGMの損失関数を任意に小さくすることができることを示す。 そして、DGMの損失関数が0に収束した場合、対応するニューラルネットワーク近似器は、単純度上の真の値関数に一様に収束しなければならないことを示す。 また,DGMの高次元HJB方程式への一般化能力を示す数値実験を行った。

We establish the convergence of the deep Galerkin method (DGM), a deep learning-based scheme for solving high-dimensional nonlinear PDEs, for Hamilton-Jacobi-Bellman (HJB) equations that arise from the study of mean field control problems (MFCPs). Based on a recent characterization of the value function of the MFCP as the unique viscosity solution of an HJB equation on the simplex, we establish both an existence and convergence result for the DGM. First, we show that the loss functional of the DGM can be made arbitrarily small given that the value function of the MFCP possesses sufficient regularity. Then, we show that if the loss functional of the DGM converges to zero, the corresponding neural network approximators must converge uniformly to the true value function on the simplex. We also provide numerical experiments demonstrating the DGM's ability to generalize to high-dimensional HJB equations.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# Memristor-based Reservoir System を用いた時系列予測とシーケンス学習

Time-Series Forecasting and Sequence Learning Using Memristor-based Reservoir System ( http://arxiv.org/abs/2405.13347v1 )

ライセンス: Link先を確認
Abdullah M. Zyarah, Dhireesha Kudithipudi, (参考訳) 長寿命エッジデバイスにおける時系列情報処理のフロンティアは、システムの情報処理能力とデバイス上でローカルに学習する能力によって妨げられている。 ローカル処理と学習は通常、情報を取得し、数百のパラメータを時間内に調整するので、集中的な計算と大量のストレージを必要とする。 本研究では,効率的な時間的データ処理とオンライン学習を両立させる,メムリスタベースのエコー状態ネットワークアクセラレータを開発した。 提案した設計は、負荷エネルギー消費と気象条件の予測など、実世界のタスクを含む様々なデータセットを用いてベンチマークされる。 実験結果から、ハードウェアモデルはソフトウェアモデルと比較して性能の限界劣化(約4.8%)を経験していることが示されている。 これは主に、memristor デバイスをエミュレートする際に、限られた精度とネットワークパラメータの動的範囲に起因する。 提案システムは, 寿命, 頑健性, エネルギー遅延生成物について評価した。 このシステムはデバイス故障に対して10%以下で合理的な堅牢性を示すことが観察された。 さらに、同じ技術ノードで実装されたカスタムCMOSデジタル設計と比較して、消費電力の246倍削減を実現する。

Pushing the frontiers of time-series information processing in ever-growing edge devices with stringent resources has been impeded by the system's ability to process information and learn locally on the device. Local processing and learning typically demand intensive computations and massive storage as the process involves retrieving information and tuning hundreds of parameters back in time. In this work, we developed a memristor-based echo state network accelerator that features efficient temporal data processing and in-situ online learning. The proposed design is benchmarked using various datasets involving real-world tasks, such as forecasting the load energy consumption and weather conditions. The experimental results illustrate that the hardware model experiences a marginal degradation (~4.8%) in performance as compared to the software model. This is mainly attributed to the limited precision and dynamic range of network parameters when emulated using memristor devices. The proposed system is evaluated for lifespan, robustness, and energy-delay product. It is observed that the system demonstrates a reasonable robustness for device failure below 10%, which may occur due to stuck-at faults. Furthermore, 246X reduction in energy consumption is achieved when compared to a custom CMOS digital design implemented at the same technology node.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# 人身売買リスクと組織活動を評価するための商業性情報分析のためのデータセット作成の課題

On the Challenges of Creating Datasets for Analyzing Commercial Sex Advertisements to Assess Human Trafficking Risk and Organized Activity ( http://arxiv.org/abs/2405.13348v1 )

ライセンス: Link先を確認
Pablo Rivas, Tomas Cerny, Alejandro Rodriguez Perez, Javier Turek, Laurie Giddens, Gisela Bichler, Stacie Petter, (参考訳) 本研究は、商業性広告を通じて、組織的活動や人身売買に関連するリスクを理解するためにデータセットを構築することの課題に対処する。 これらの課題には、データの不足、迅速な陳腐化、プライバシの懸念などが含まれる。 自動化されておらず、再現が難しい従来のアプローチは、これらの問題に対処するのに不足しています。 我々は,500万件の広告を再現可能かつ自動で分析する手法を開発した。 このプロセスでは、このセンシティブなドメイン内でデータセットを作成する際のさらなる課題を特定した。 本稿では,研究者が組織犯罪と戦うための効果的なデータセットの構築を支援し,検出技術の進歩に焦点を合わせるための合理化手法を提案する。

Our study addresses the challenges of building datasets to understand the risks associated with organized activities and human trafficking through commercial sex advertisements. These challenges include data scarcity, rapid obsolescence, and privacy concerns. Traditional approaches, which are not automated and are difficult to reproduce, fall short in addressing these issues. We have developed a reproducible and automated methodology to analyze five million advertisements. In the process, we identified further challenges in dataset creation within this sensitive domain. This paper presents a streamlined methodology to assist researchers in constructing effective datasets for combating organized crime, allowing them to focus on advancing detection technologies.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# 未表現言語における聖書テキストの多言語翻訳におけるByteT5の有効性

Efficacy of ByteT5 in Multilingual Translation of Biblical Texts for Underrepresented Languages ( http://arxiv.org/abs/2405.13350v1 )

ライセンス: Link先を確認
Corinne Aars, Lauren Adams, Xiaokan Tian, Zhaoyu Wang, Colton Wismer, Jason Wu, Pablo Rivas, Korn Sooksatra, Matthew Fendt, (参考訳) 本研究では,聖書を表現不足言語に翻訳するためのByteT5に基づく多言語翻訳モデルの開発と評価について述べる。 包括的Johns Hopkins University Bible Corpusを利用して、私たちはこのモデルを訓練し、文字ベースおよび形態学的にリッチな言語の複雑なニュアンスを捉えました。 BLEUスコアで測定し,サンプル翻訳を補足した結果,本モデルが神文へのアクセシビリティを向上させることが示唆された。 独特な聖書の語彙と構造を効果的に扱い、言語的な分割をブリッジする。 この研究はまた、このモデルの限界についても論じ、言語境界を越えて神聖な文献へのアクセスを拡大することに焦点を当て、将来の拡張の道筋を提案する。

This study presents the development and evaluation of a ByteT5-based multilingual translation model tailored for translating the Bible into underrepresented languages. Utilizing the comprehensive Johns Hopkins University Bible Corpus, we trained the model to capture the intricate nuances of character-based and morphologically rich languages. Our results, measured by the BLEU score and supplemented with sample translations, suggest the model can improve accessibility to sacred texts. It effectively handles the distinctive biblical lexicon and structure, thus bridging the linguistic divide. The study also discusses the model's limitations and suggests pathways for future enhancements, focusing on expanding access to sacred literature across linguistic boundaries.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# 量子(インスパイアされた)$D^2$-sampling with Applications

Quantum (Inspired) $D^2$-sampling with Applications ( http://arxiv.org/abs/2405.13351v1 )

ライセンス: Link先を確認
Ragesh Jaiswal, Poojan Shah, (参考訳) $D^2$-samplingは、$k$-means++のようなサンプリングベースのクラスタリングアルゴリズムの基本コンポーネントである。 データセット $V \subset \mathbb{R}^d$ に$N$ポイントとセンターセット $C \subset \mathbb{R}^d$ が与えられたとき、$D^2$-sampling は、ある点のサンプリング確率が$C$の最も近い中心から2乗距離に比例する$V$から点を選ぶことを指す。 空の$C$から始まり、反復的に$D^2$-samplingし、$k$のラウンドで$C$を更新すると、正確に$k$-means++シードで、$O(Nkd)$ timeで実行され、$k$-means問題に期待して$O(\log{k})$-approximationを与える。 QRAMモデルにおける(近似的な)$D^2$-samplingの量子アルゴリズムを与え、その結果、$k$-means++の量子実装が、時間で$\tilde{O}(\zeta^2 k^2)$で実行される。 ここで、$\zeta$はアスペクト比(すなわち、最大から最小のインターポイント距離)であり、$\tilde{O}$はポリ対数因子を$N, d, k$に隠す。 これは、量子バージョンが$O(\log{k})$近似を保証する$k$-means++の堅牢な近似解析によって示される。 さらに,Tang(PhD Thesis, Ewin Tang, University of Washington, 2023)のサンプルクエリアクセスモデルを用いて,D^2$-samplingの量子アルゴリズムを'復号化'できることを示す。 これはQI-$k$-means++と呼ばれ、実行時間$O(Nd) + \tilde{O}(\zeta^2k^2d)$である。 実験により,境界アスペクト比を持つ大規模データセット上でのQI-$k$-means++の有望な結果が示された。 最後に、既知の$D^2$-sampling-based classical approximation scheme(例えば$(1+\varepsilon)$-approximation for any given $\varepsilon>0$)を用いて、$k$-means問題に対する最初の量子近似スキームを得る。

$D^2$-sampling is a fundamental component of sampling-based clustering algorithms such as $k$-means++. Given a dataset $V \subset \mathbb{R}^d$ with $N$ points and a center set $C \subset \mathbb{R}^d$, $D^2$-sampling refers to picking a point from $V$ where the sampling probability of a point is proportional to its squared distance from the nearest center in $C$. Starting with empty $C$ and iteratively $D^2$-sampling and updating $C$ in $k$ rounds is precisely $k$-means++ seeding that runs in $O(Nkd)$ time and gives $O(\log{k})$-approximation in expectation for the $k$-means problem. We give a quantum algorithm for (approximate) $D^2$-sampling in the QRAM model that results in a quantum implementation of $k$-means++ that runs in time $\tilde{O}(\zeta^2 k^2)$. Here $\zeta$ is the aspect ratio (i.e., largest to smallest interpoint distance), and $\tilde{O}$ hides polylogarithmic factors in $N, d, k$. It can be shown through a robust approximation analysis of $k$-means++ that the quantum version preserves its $O(\log{k})$ approximation guarantee. Further, we show that our quantum algorithm for $D^2$-sampling can be 'dequantized' using the sample-query access model of Tang (PhD Thesis, Ewin Tang, University of Washington, 2023). This results in a fast quantum-inspired classical implementation of $k$-means++, which we call QI-$k$-means++, with a running time $O(Nd) + \tilde{O}(\zeta^2k^2d)$, where the $O(Nd)$ term is for setting up the sample-query access data structure. Experimental investigations show promising results for QI-$k$-means++ on large datasets with bounded aspect ratio. Finally, we use our quantum $D^2$-sampling with the known $ D^2$-sampling-based classical approximation scheme (i.e., $(1+\varepsilon)$-approximation for any given $\varepsilon>0$) to obtain the first quantum approximation scheme for the $k$-means problem with polylogarithmic running time dependence on $N$.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# AI研究者のための「トレーニングテスト」

"Turing Tests" For An AI Scientist ( http://arxiv.org/abs/2405.13352v1 )

ライセンス: Link先を確認
Xiaoxin Yin, (参考訳) LLMは数学やコーディングの問題を解くのに素晴らしい能力を示してきたが、科学的な発見を行う能力はいまだに独特な課題である。 本稿では、AIエージェントが人為的な知識に頼ることなく、科学研究を独立して行うことができるかどうかを評価する「AI科学者の学習試験」を提案する。 科学の歴史的発展からインスピレーションを得て,AIエージェントが様々な科学領域で画期的な発見を行う能力を評価する7つのベンチマークテストを提案する。 これらのテストには、天体観測からヘリオ中心モデルを推定すること、模擬環境での運動法則の発見、振動弦を規定する微分方程式の導出、電気力学シミュレーションからマクスウェルの方程式を推定すること、初期値問題の数値解法を発明すること、データ圧縮のためのハフマン符号の発見、効率的なソートアルゴリズムの開発が含まれる。 これらのテストの有効性を保証するため、AIエージェントは、ターゲットの発見に関する情報を含む可能性がある人間の知識にアクセスすることなく、各問題に特有の対話型ライブラリまたはデータセットを提供する。 究極のゴールは、斬新でインパクトのある科学的発見を創り出すことができるAI科学者を作ることだ。 これらの「チューリングテスト」は中間的なマイルストーンとして機能し、AIエージェントが当時画期的な発見を行う能力を評価する。 もしAIエージェントがこれらの7つのテストの大部分をパスできれば、AI科学者を構築するための大きな進歩が示され、将来の自律的な科学的発見への道が開けることになる。 本稿では、科学研究におけるAIの能力のベンチマークを確立し、このエキサイティングな分野におけるさらなる研究を促進することを目的とする。

While LLMs have shown impressive capabilities in solving math or coding problems, the ability to make scientific discoveries remains a distinct challenge. This paper proposes a "Turing test for an AI scientist" to assess whether an AI agent can conduct scientific research independently, without relying on human-generated knowledge. Drawing inspiration from the historical development of science, we propose seven benchmark tests that evaluate an AI agent's ability to make groundbreaking discoveries in various scientific domains. These tests include inferring the heliocentric model from celestial observations, discovering the laws of motion in a simulated environment, deriving the differential equation governing vibrating strings, inferring Maxwell's equations from electrodynamics simulations, inventing numerical methods for initial value problems, discovering Huffman coding for data compression, and developing efficient sorting algorithms. To ensure the validity of these tests, the AI agent is provided with interactive libraries or datasets specific to each problem, without access to human knowledge that could potentially contain information about the target discoveries. The ultimate goal is to create an AI scientist capable of making novel and impactful scientific discoveries, surpassing the best human experts in their respective fields. These "Turing tests" serve as intermediate milestones, assessing the AI agent's ability to make discoveries that were groundbreaking in their time. If an AI agent can pass the majority of these seven tests, it would indicate significant progress towards building an AI scientist, paving the way for future advancements in autonomous scientific discovery. This paper aims to establish a benchmark for the capabilities of AI in scientific research and to stimulate further research in this exciting field.
翻訳日:2024-05-25 01:24:25 公開日:2024-05-22
# モデル複雑度に関する事前仕様付き適応ベイズ多変量スプラインノット推論

Adaptive Bayesian Multivariate Spline Knot Inference with Prior Specifications on Model Complexity ( http://arxiv.org/abs/2405.13353v1 )

ライセンス: Link先を確認
Junhui He, Ying Yang, Jian Kang, (参考訳) 多変量スプライン回帰では、結び目の数と位置が性能と解釈可能性に大きな影響を及ぼす。 しかし、非微分可能性や異なる次元のため、結び目に対する推論を行うための望ましい頻繁な手法は存在しない。 本稿では,多変量スプライン回帰における結び目推論のための完全ベイズ的手法を提案する。 既存のベイズ法は、しばしばBICを用いて後部を計算するが、BICはリベラルすぎるため、候補モデル空間が大きすぎると結び目数を過大評価する。 モデル空間の複雑さを考慮し、正規モデルにおける解析式を導出するために、結び目数に関する新しい事前条件を定める。 非正規の場合、拡張ベイズ情報基準を用いて後部密度を近似する。 サンプルは可逆ジャンプマルコフ連鎖モンテカルロによって異なる次元の空間でシミュレートされる。 提案手法を結び目推論および多様体認知に適用する。 実験は、特にジャンプ不連続性に適合する関数において、アルゴリズムの素晴らしい能力を示す。

In multivariate spline regression, the number and locations of knots influence the performance and interpretability significantly. However, due to non-differentiability and varying dimensions, there is no desirable frequentist method to make inference on knots. In this article, we propose a fully Bayesian approach for knot inference in multivariate spline regression. The existing Bayesian method often uses BIC to calculate the posterior, but BIC is too liberal and it will heavily overestimate the knot number when the candidate model space is large. We specify a new prior on the knot number to take into account the complexity of the model space and derive an analytic formula in the normal model. In the non-normal cases, we utilize the extended Bayesian information criterion to approximate the posterior density. The samples are simulated in the space with differing dimensions via reversible jump Markov chain Monte Carlo. We apply the proposed method in knot inference and manifold denoising. Experiments demonstrate the splendid capability of the algorithm, especially in function fitting with jumping discontinuity.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# シフトベクトルの測地的性質と量子化

Geodesic nature and quantization of shift vector ( http://arxiv.org/abs/2405.13355v1 )

ライセンス: Link先を確認
Hua Wang, Kai Chang, (参考訳) 近年、Xuらは時間依存量子システムのためのバンド間文字の概念を導入した。 この量はゲージ不変であり、滑らかな境界を持つ多様体に対するガウス・ボンネットの定理に基づくオイラー特性に類似した整数値として量子化される。 本研究では、バルク光電効果におけるシフト電流からの運動量空間における幾何シフトベクトルが、量子幾何学ポテンシャルと等価であり、パラメータ空間がブロッホ運動量である量子系の測地曲率の役割を担っていることを明らかにする。 シフトベクトル,ベリー曲率,量子計量などの幾何量間の複雑な関係を明らかにする。 さらに、量子化されたバンド間文字に対するウィルソン表現を示し、非垂直遷移を持つボゾン光子およびフォノンドラッグシフトベクトルに解析を拡張する。 Wilson ループ法の適用により、第一原理計算が容易となり、これらのバンド間ゲージ不変量の幾何学的基盤に関する洞察を与え、実材料における非線形光学的現象に光を遮蔽する。

Recently, Xu et al. introduced the concept of an interband character for a time-dependent quantum system. This quantity is gauge invariant and quantized as integer values, analogous to the Euler characteristic based on the Gauss-Bonnet theorem for a manifold with a smooth boundary. In this work, we find that the geometric shift vector in momentum space from shift currents in the bulk photovoltaic effect is equivalent to the quantum geometric potential and plays the role of geodesic curvature, that is, of a quantum system whose parameter space is the Bloch momentum. We reveal the intricate relationships among geometric quantities such as the shift vector, Berry curvature, and quantum metric. Additionally, we present the Wilson representation for the quantized interband character and extend our analysis to bosonic photon and phonon drag shift vectors with non-vertical transitions. The application of Wilson loop method facilitates first-principles calculations, providing insights into the geometric underpinnings of these interband gauge invariant quantities and shedding light on their nonlinear optical manifestations in real materials.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# 都市域における大規模言語モデル(LLM)による無線ネットワークの展開

Large Language Models (LLMs) Assisted Wireless Network Deployment in Urban Settings ( http://arxiv.org/abs/2405.13356v1 )

ライセンス: Link先を確認
Nurullah Sevim, Mostafa Ibrahim, Sabit Ekin, (参考訳) LLM(Large Language Models)の出現は、言語理解とヒューマンライクなテキスト生成に革命をもたらし、この疑問を念頭に置いて、他の多くの分野から関心を集めている。 広く採用されているにもかかわらず、現在進行中の研究は、LSMを多様なシステムに統合する新しい方法を模索している。 本稿では,6G(第6世代)無線通信技術におけるLCMのパワーを活用するための新しい手法について検討する。 LLMのドメイン固有のタスクへの固有の適応性は、それらを6Gランドスケープにおける無線システムを強化するための主要な候補として位置づけている。 無線通信におけるネットワーク展開にLLMを利用する新しい強化学習(RL)フレームワークを提案する。 本手法では,都市環境下でLLMをコアとしてRLエージェントを訓練し,カバー範囲を最大化する。 エージェントの目的は、都市環境の複雑さをナビゲートし、最適なエリアカバレッジのためのネットワークパラメータを特定することである。 さらに、LLMを畳み込みニューラルネットワーク(CNN)と統合して、制限を緩和しながら、その強みを活かします。 Deep Deterministic Policy Gradient (DDPG)アルゴリズムは、トレーニング目的に使用される。 以上の結果から,LLM支援モデルはCNNモデルよりも優れ,少なくとも他のモデルよりも優れる可能性が示唆された。

The advent of Large Language Models (LLMs) has revolutionized language understanding and human-like text generation, drawing interest from many other fields with this question in mind: What else are the LLMs capable of? Despite their widespread adoption, ongoing research continues to explore new ways to integrate LLMs into diverse systems. This paper explores new techniques to harness the power of LLMs for 6G (6th Generation) wireless communication technologies, a domain where automation and intelligent systems are pivotal. The inherent adaptability of LLMs to domain-specific tasks positions them as prime candidates for enhancing wireless systems in the 6G landscape. We introduce a novel Reinforcement Learning (RL) based framework that leverages LLMs for network deployment in wireless communications. Our approach involves training an RL agent, utilizing LLMs as its core, in an urban setting to maximize coverage. The agent's objective is to navigate the complexities of urban environments and identify the network parameters for optimal area coverage. Additionally, we integrate LLMs with Convolutional Neural Networks (CNNs) to capitalize on their strengths while mitigating their limitations. The Deep Deterministic Policy Gradient (DDPG) algorithm is employed for training purposes. The results suggest that LLM-assisted models can outperform CNN-based models in some cases while performing at least as well in others.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# AdpQ: LLMのゼロショット校正自由適応ポストトレーニング量子化法

AdpQ: A Zero-shot Calibration Free Adaptive Post Training Quantization Method for LLMs ( http://arxiv.org/abs/2405.13358v1 )

ライセンス: Link先を確認
Alireza Ghaffari, Sharareh Younesian, Vahid Partovi Nia, Boxing Chen, Masoud Asgharian, (参考訳) LLM(Large Language Models)の継続的な計算複雑性は、効率的なデプロイメント戦略を必要とする。 ポストトレーニング量子化(PTQ)に対する現在の最先端のアプローチは、しばしば所望の精度を達成するためにキャリブレーションを必要とする。 本稿では, キャリブレーションデータを必要としない低精度量子化(eg-3bit)における最先端性能を実現する, LLMのゼロショット適応型PTQ手法であるAdpQを提案する。 適応型LASSO回帰モデルにインスパイアされた提案手法は,適応型ソフトスレッショルド法を用いてサリエントウェイトを分離することにより,オフリヤアクティベーションの課題に対処する。 Adaptive LASSOによって導かれたこの手法は、量子化された重み分布がもともと訓練された重みに密接に従うことを保証し、キャリブレーションデータを完全に排除し、SpQRやAWQのような一般的なアプローチとは分離する。 さらに, キャリブレーションやトレーニングデータを排除することにより, プライバシー保護の観点からさらなるメリットが得られる。 また,提案手法の情報理論的基盤を深く掘り下げる。 我々は、適応LASSOを利用して、量子化された重みと元々訓練された重みの間のクルバック・リーブラーのばらつきを最小化することを示した。 この最小化は、量子化されたモデルが元のモデルのシャノン情報内容を大幅に保持し、精度や情報を犠牲にすることなく効率的な配置を保証する。 その結果,従来のLLMベンチマークと同様の精度が得られ,量子化時間も少なくとも10倍削減され,LLMの効率とプライバシ保護への貢献が確固たるものとなった。

The ever-growing computational complexity of Large Language Models (LLMs) necessitates efficient deployment strategies. The current state-of-the-art approaches for Post-training Quantization (PTQ) often require calibration to achieve the desired accuracy. This paper presents AdpQ, a novel zero-shot adaptive PTQ method for LLMs that achieves the state-of-the-art performance in low-precision quantization (e.g. 3-bit) without requiring any calibration data. Inspired by Adaptive LASSO regression model, our proposed approach tackles the challenge of outlier activations by separating salient weights using an adaptive soft-thresholding method. Guided by Adaptive LASSO, this method ensures that the quantized weights distribution closely follows the originally trained weights and eliminates the need for calibration data entirely, setting our method apart from popular approaches such as SpQR and AWQ. Furthermore, our method offers an additional benefit in terms of privacy preservation by eliminating any calibration or training data. We also delve deeper into the information-theoretic underpinnings of the proposed method. We demonstrate that it leverages the Adaptive LASSO to minimize the Kullback-Leibler divergence between the quantized weights and the originally trained weights. This minimization ensures the quantized model retains the Shannon information content of the original model to a great extent, guaranteeing efficient deployment without sacrificing accuracy or information. Our results achieve the same accuracy as the existing methods on various LLM benchmarks while the quantization time is reduced by at least 10x, solidifying our contribution to efficient and privacy-preserving LLM deployment.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# 1+1)次元における類似半古典重力に関する一考察

A note on analogue semi-classical gravity in (1+1) dimensions ( http://arxiv.org/abs/2405.13359v1 )

ライセンス: Link先を確認
Akshat Pandey, (参考訳) 音響時空はブラックホール物理学と宇宙論の類似モデルとして知られている。 この文脈の中では、曲線化された時空におけるアナログ量子場理論の側面が研究される。 特に、結果の迅速な導出を含む、アナログホーキング温度に関するいくつかの新しいコメントが作成されている。 さらに、アナログ宇宙論を探求し、その中でパーカー・トムスモデルの音響バージョンを提案し、対応する量を計算した。 音響アナログの限界が強調される。

Acoustic spacetimes have been known to offer analogue models for black hole physics and cosmology. Within this context, aspects of analogue quantum field theories in curved spacetime are studied. In particular some new comments have been made on the analogue Hawking temperature including a quick derivation of the result. Further, analogue cosmology is explored, within which, an acoustic version of the Parker-Toms model is proposed and the corresponding quantities have been calculated. The limits of the acoustic analogue are emphasised.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# 人工透かしのない潜在生成モデル生成画像の追跡法

How to Trace Latent Generative Model Generated Images without Artificial Watermark? ( http://arxiv.org/abs/2405.13360v1 )

ライセンス: Link先を確認
Zhenting Wang, Vikash Sehwag, Chen Chen, Lingjuan Lyu, Dimitris N. Metaxas, Shiqing Ma, (参考訳) 遅延生成モデル(例えば、安定拡散)はますます普及しているが、これらのモデルによって生成された画像に関する潜在的な誤用に関する懸念が持ち上がっている。 したがって、特定の画像が特定の潜伏生成モデルによって生成されたかどうかを推測することにより、画像の起源を分析する必要がある。 既存のほとんどの方法(画像透かしやモデル指紋など)は、トレーニングや生成に余分なステップを必要とする。 これらの要件は、そのような余分な操作なしで生成された画像の使用を制限するものであり、追加の要求された操作は生成された画像の品質を損なう可能性がある。 本研究では、上記の要件を満たさずに、特定の潜在生成モデルによって生成された画像を効果的かつ効率的に追跡できるかどうかを問う。 そこで本研究では,LatentTracerと呼ばれる遅延インバージョンに基づく手法を設計し,検査した画像が逆潜時入力で適切に再構成可能かどうかを確認することで,検査対象モデルの生成画像をトレースする。 我々は勾配に基づく潜伏反転を活用し、エンコーダに基づく初期化を同定し、我々のアプローチの成功に不可欠である。 安定拡散のような最先端の潜伏生成モデルに関する実験により,検査したモデルと他の画像から生成された画像とを高精度かつ効率的に識別できることが示唆された。 以上の結果から,現在の遅延生成生成画像は,ソースモデルで使用されるデコーダによって自然にウォーターマークされている可能性が示唆された。 コード:https://github.com/ZhentingWang/LatentTracer。

Latent generative models (e.g., Stable Diffusion) have become more and more popular, but concerns have arisen regarding potential misuse related to images generated by these models. It is, therefore, necessary to analyze the origin of images by inferring if a particular image was generated by a specific latent generative model. Most existing methods (e.g., image watermark and model fingerprinting) require extra steps during training or generation. These requirements restrict their usage on the generated images without such extra operations, and the extra required operations might compromise the quality of the generated images. In this work, we ask whether it is possible to effectively and efficiently trace the images generated by a specific latent generative model without the aforementioned requirements. To study this problem, we design a latent inversion based method called LatentTracer to trace the generated images of the inspected model by checking if the examined images can be well-reconstructed with an inverted latent input. We leverage gradient based latent inversion and identify a encoder-based initialization critical to the success of our approach. Our experiments on the state-of-the-art latent generative models, such as Stable Diffusion, show that our method can distinguish the images generated by the inspected model and other images with a high accuracy and efficiency. Our findings suggest the intriguing possibility that today's latent generative generated images are naturally watermarked by the decoder used in the source models. Code: https://github.com/ZhentingWang/LatentTracer.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# Lusifer:オンラインレコメンダシステムのためのLLMベースのユーザシミュレートフィードバック環境

Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems ( http://arxiv.org/abs/2405.13362v1 )

ライセンス: Link先を確認
Danial Ebrat, Luis Rueda, (参考訳) 強化学習に基づく推薦システムは、動的で現実的なユーザーインタラクションの欠如によってしばしば妨げられる。 Lusiferは、LLM(Large Language Models)を利用した新しい環境であり、シミュレーションされたユーザフィードバックを生成することで、この制限に対処する。 ユーザープロファイルとインタラクション履歴を合成し、推奨アイテムに対する反応と振る舞いをシミュレートする。 さらに、ユーザプロファイルは、各レーティング後に更新され、進化するユーザ特性を反映する。 MovieLens100Kデータセットを概念実証として、Lugifer氏は、ユーザの振る舞いと好みの正確なエミュレーションをデモしている。 本稿では、即時生成と反復的なユーザプロファイル更新を含むLulsiferの運用パイプラインについて述べる。 Lusiferが現実的な動的フィードバックを生み出す能力を検証する一方で、将来の研究は、この環境を利用して強化学習システムのトレーニングを行い、オンラインレコメンデータシステムにおけるユーザシミュレーションのためのスケーラブルで調整可能なフレームワークを提供する。

Training reinforcement learning-based recommender systems are often hindered by the lack of dynamic and realistic user interactions. Lusifer, a novel environment leveraging Large Language Models (LLMs), addresses this limitation by generating simulated user feedback. It synthesizes user profiles and interaction histories to simulate responses and behaviors toward recommended items. In addition, user profiles are updated after each rating to reflect evolving user characteristics. Using the MovieLens100K dataset as proof of concept, Lusifer demonstrates accurate emulation of user behavior and preferences. This paper presents Lusifer's operational pipeline, including prompt generation and iterative user profile updates. While validating Lusifer's ability to produce realistic dynamic feedback, future research could utilize this environment to train reinforcement learning systems, offering a scalable and adjustable framework for user simulation in online recommender systems.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# コミュニケーション効率のよいフェデレーション学習のための一様量子化器

Clipped Uniform Quantizers for Communication-Efficient Federated Learning ( http://arxiv.org/abs/2405.13365v1 )

ライセンス: Link先を確認
Zavareh Bozorgasl, Hao Chen, (参考訳) 本稿では, コミュニケーションオーバーヘッドを低減し, 精度を損なうことなく, モデル効率を向上させることを目的とした, 統合学習環境におけるクリップ付き均一量子化手法を提案する。 最適クリッピングしきい値と適応量子化方式を用いることで、クライアントとサーバ間のモデル重み伝達のビット要求を著しく削減する。 我々は,対称クリッピングと一様量子化がモデル性能に与える影響を考察し,量子化アーティファクトを緩和し,モデルロバスト性を向上させるための確率量子化の有用性を強調した。 MNISTデータセットの広範囲なシミュレーションにより,提案手法は通信の大幅な節約を図りながら,ほぼ精度の高い性能を実現することを示した。 具体的には,通信効率とモデル精度のトレードオフを効果的にバランスさせることにより,量子化誤差に基づく効率的な重量平均化を実現する。 従来の量子化法との比較分析により,本手法の優位性をさらに確認する。

This paper introduces an approach to employ clipped uniform quantization in federated learning settings, aiming to enhance model efficiency by reducing communication overhead without compromising accuracy. By employing optimal clipping thresholds and adaptive quantization schemes, our method significantly curtails the bit requirements for model weight transmissions between clients and the server. We explore the implications of symmetric clipping and uniform quantization on model performance, highlighting the utility of stochastic quantization to mitigate quantization artifacts and improve model robustness. Through extensive simulations on the MNIST dataset, our results demonstrate that the proposed method achieves near full-precision performance while ensuring substantial communication savings. Specifically, our approach facilitates efficient weight averaging based on quantization errors, effectively balancing the trade-off between communication efficiency and model accuracy. The comparative analysis with conventional quantization methods further confirms the superiority of our technique.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# 長距離量子ネットワークのためのクロストークフリーマルチイオンノードの実現

Realization of a crosstalk-free multi-ion node for long-distance quantum networking ( http://arxiv.org/abs/2405.13369v1 )

ライセンス: Link先を確認
P. -C. Lai, Y. Wang, J. -X. Shi, Z. -B. Cui, Z. -Q. Wang, S. Zhang, P. -Y. Liu, Z. -C. Tian, Y. -D. Sun, X. -Y. Chang, B. -X. Qi, Y. -Y. Huang, Z. -C. Zhou, Y. -K. Wu, Y. Xu, Y. -F. Pu, L. -M. Duan, (参考訳) トラップされた原子イオンは、大規模量子ネットワークを実現するために量子リピータノードを構築するための主要な物理プラットフォームの一つである。 長距離トラップイオン量子ネットワークでは、通信量子ビットと呼ばれるクロストークのない2種類の量子ビットを持つことが不可欠であり、通信量子ビットと呼ばれる1つのタイプは、通信光子との絡み合うインターフェースを確立することであり、もう1つのタイプは、メモリ量子ビットと呼ばれ、絡み合う試みの下で光子散乱から免疫される量子情報を記憶することである。 本稿では,2つのトラップされた$^{40}$Ca$^{+}$イオンをベースとした,通信互換かつクロストークのない量子ネットワークノードの試作実装について報告する。 メモリキュービットは、同じイオン種の別の部分空間に符号化された通信キュービットとのクロストークを避けるために、長寿命のメタスタブルレベルで符号化され、量子波長変換モジュールを用いて、12,000円の繊維を密閉した形でイオン光子絡みを発生させる。 したがって、我々の研究は、量子リピータと長距離量子ネットワークの実現に向けた重要なステップとなる。

Trapped atomic ions constitute one of the leading physical platforms for building the quantum repeater nodes to realize large-scale quantum networks. In a long-distance trapped-ion quantum network, it is essential to have crosstalk-free dual-type qubits: one type, called the communication qubit, to establish entangling interface with telecom photons; and the other type, called the memory qubit, to store quantum information immune from photon scattering under entangling attempts. Here, we report the first experimental implementation of a telecom-compatible and crosstalk-free quantum network node based on two trapped $^{40}$Ca$^{+}$ ions. The memory qubit is encoded on a long-lived metastable level to avoid crosstalk with the communication qubit encoded in another subspace of the same ion species, and a quantum wavelength conversion module is employed to generate ion-photon entanglement over a $12\,$km fiber in a heralded style. Our work therefore constitutes an important step towards the realization of quantum repeaters and long-distance quantum networks.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# 知識蒸留とマルチタスク学習による低分解能胸部X線分類

Low-Resolution Chest X-ray Classification via Knowledge Distillation and Multi-task Learning ( http://arxiv.org/abs/2405.13370v1 )

ライセンス: Link先を確認
Yasmeena Akhter, Rishabh Ranjan, Richa Singh, Mayank Vatsa, (参考訳) 本研究は、低解像度で胸部X線(CXR)を診断することの課題に対処する。 高分解能CXRイメージングは、結節や不透明など、小さなが重要な異常を識別するために重要である。 しかし,CAD(Computer-Aided diagnosis)システムでは,画像の処理サイズが小さくなると,空間的詳細や受容領域が失われ,診断精度が低下する。 そこで本稿では,MLCAK(Multilevel Collaborative Attention Knowledge)手法を提案する。 このアプローチは、視覚変換器(ViT)の自己注意機構を利用して、高解像度画像から重要な診断知識を伝達し、低解像度CXRの診断効果を高める。 MLCAKは,低分解能CXR解析に適したマルチタスクフレームワークにおいて,より正確なグローバル予測を可能にするため,局所的な病理所見を取り入れたモデル説明可能性の向上を実現している。 Vindr CXRデータセットを用いて、低解像度画像(eg28 x 28)から病気を診断する能力を大幅に向上させ、従来の高解像度画像(eg224 x 224)への依存から重要な変化を示唆した。

This research addresses the challenges of diagnosing chest X-rays (CXRs) at low resolutions, a common limitation in resource-constrained healthcare settings. High-resolution CXR imaging is crucial for identifying small but critical anomalies, such as nodules or opacities. However, when images are downsized for processing in Computer-Aided Diagnosis (CAD) systems, vital spatial details and receptive fields are lost, hampering diagnosis accuracy. To address this, this paper presents the Multilevel Collaborative Attention Knowledge (MLCAK) method. This approach leverages the self-attention mechanism of Vision Transformers (ViT) to transfer critical diagnostic knowledge from high-resolution images to enhance the diagnostic efficacy of low-resolution CXRs. MLCAK incorporates local pathological findings to boost model explainability, enabling more accurate global predictions in a multi-task framework tailored for low-resolution CXR analysis. Our research, utilizing the Vindr CXR dataset, shows a considerable enhancement in the ability to diagnose diseases from low-resolution images (e.g. 28 x 28), suggesting a critical transition from the traditional reliance on high-resolution imaging (e.g. 224 x 224).
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# Ada-HGNN: スケーラブルハイパーグラフニューラルネットワークの適応サンプリング

Ada-HGNN: Adaptive Sampling for Scalable Hypergraph Neural Networks ( http://arxiv.org/abs/2405.13372v1 )

ライセンス: Link先を確認
Shuai Wang, David W. Zhang, Jia-Hong Huang, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring, (参考訳) ハイパーグラフは、社会的から生物学的ネットワークに至るまで、様々な現実世界のシナリオにおける複雑な接続を描写するための効果的なモデルとして機能する。 ハイパーグラフニューラルネットワーク(HGNN)の開発は、メモリ制限のためにスケーラビリティが顕著な課題であるが、データ内の複雑な関連を管理する貴重な方法として登場した。 本研究では,ハイパーグラフに特化して設計された新しい適応サンプリング手法を提案する。 また,RHA(Random Hyperedge Augmentation)技術とMLP(Multilayer Perceptron)モジュールを付加して,提案手法の堅牢性と一般化性を向上させる。 実世界のデータセットを用いた詳細な実験により,従来のHGNNなどのベースラインモデルに類似した性能を維持しつつ,計算とメモリの要求を著しく低減し,本手法の有効性が証明された。 本研究は,大規模アプリケーションにおけるHGNNのスケーラビリティと有効性を両立させる方法である。 また、コードベースの公開も行います。

Hypergraphs serve as an effective model for depicting complex connections in various real-world scenarios, from social to biological networks. The development of Hypergraph Neural Networks (HGNNs) has emerged as a valuable method to manage the intricate associations in data, though scalability is a notable challenge due to memory limitations. In this study, we introduce a new adaptive sampling strategy specifically designed for hypergraphs, which tackles their unique complexities in an efficient manner. We also present a Random Hyperedge Augmentation (RHA) technique and an additional Multilayer Perceptron (MLP) module to improve the robustness and generalization capabilities of our approach. Thorough experiments with real-world datasets have proven the effectiveness of our method, markedly reducing computational and memory demands while maintaining performance levels akin to conventional HGNNs and other baseline models. This research paves the way for improving both the scalability and efficacy of HGNNs in extensive applications. We will also make our codebase publicly accessible.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# 半教師対象検出のための教師の協調

Collaboration of Teachers for Semi-supervised Object Detection ( http://arxiv.org/abs/2405.13374v1 )

ライセンス: Link先を確認
Liyu Chen, Huaao Tang, Yi Wen, Hanting Chen, Wei Li, Junchao Liu, Jie Hu, (参考訳) 最近の半教師付き物体検出(SSOD)は、ラベルのないデータをトレーニングに活用することで、目覚ましい進歩を遂げている。 メインストリームSSOD法は、周期データフローを形成するConsistency Regularization法とExponential moving Average (EMA)に依存している。 しかし,EMA更新トレーニングアプローチは,教師モデルと学生モデルとの重み結合に繋がる。 この循環データフローのカップリングは、低品質または誤った擬似ラベルに対する未ラベルデータ情報の利用率と確認バイアスを低下させる。 これらの課題に対処するために,教師と学生の複数対のモデルからなるCTF(Collaboration of Teachers Framework)を提案する。 CTFの学習過程において、DPCO(Data Performance Consistency Optimization Module)は、過去の学習過程において最適な擬似ラベルを持つ教師の最良のペアを通知する。 その結果、このフレームワークはラベルのないデータの利用を大幅に改善し、信頼できない擬似ラベルの肯定的なフィードバックサイクルを防ぐことができる。 CTFは多くのSSODデータセットに対して、10%の注釈付きCOCOデータセットに対する0.71%のmAP改善、VOCデータセットに対する0.89%のmAP改善など、優れた結果を達成している。 さらに、CTFはプラグアンドプレイであり、他のメインストリームのSSODメソッドと統合することができる。

Recent semi-supervised object detection (SSOD) has achieved remarkable progress by leveraging unlabeled data for training. Mainstream SSOD methods rely on Consistency Regularization methods and Exponential Moving Average (EMA), which form a cyclic data flow. However, the EMA updating training approach leads to weight coupling between the teacher and student models. This coupling in a cyclic data flow results in a decrease in the utilization of unlabeled data information and the confirmation bias on low-quality or erroneous pseudo-labels. To address these issues, we propose the Collaboration of Teachers Framework (CTF), which consists of multiple pairs of teacher and student models for training. In the learning process of CTF, the Data Performance Consistency Optimization module (DPCO) informs the best pair of teacher models possessing the optimal pseudo-labels during the past training process, and these most reliable pseudo-labels generated by the best performing teacher would guide the other student models. As a consequence, this framework greatly improves the utilization of unlabeled data and prevents the positive feedback cycle of unreliable pseudo-labels. The CTF achieves outstanding results on numerous SSOD datasets, including a 0.71% mAP improvement on the 10% annotated COCO dataset and a 0.89% mAP improvement on the VOC dataset compared to LabelMatch and converges significantly faster. Moreover, the CTF is plug-and-play and can be integrated with other mainstream SSOD methods.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# 成長データに対する適応的データ解析

Adaptive Data Analysis for Growing Data ( http://arxiv.org/abs/2405.13375v1 )

ライセンス: Link先を確認
Neil G. Marchant, Benjamin I. P. Rubinstein, (参考訳) 適応ワークフローにおけるデータの再利用は、過度な適合と結果の統計的妥当性に関する課題を引き起こす。 従来の研究は、微分プライベートアルゴリズムによるデータとの相互作用が過度な適合を緩和し、漸近的に最適なデータ要求による最悪の一般化保証を達成することを実証してきた。 しかし、そのような過去の作業は、データが静的であり、時間が経つにつれてデータが成長する状況に適応できないと仮定している。 本稿では、このギャップに対処し、動的データ設定における適応解析のための第1の一般化境界を示す。 我々は、アナリストが、以前のクエリやレスポンスに加えて、現在のデータサイズで条件付きクエリを適応的にスケジュールできるようにします。 また、時間的に異なる経験的精度境界とメカニズムを導入し、データが蓄積されるにつれて、より厳密な保証を可能にします。 バッチクエリ設定では、我々の境界の漸近的なデータ要求は、適応的なクエリの数の二乗根によって増大し、静的設定のためのデータ分割よりも前の作業の改善と一致する。 統計的クエリのバウンダリをクリッピングしたガウス機構でインスタンス化し、静的なバウンダリからなるベースラインを実証的に上回る。

Reuse of data in adaptive workflows poses challenges regarding overfitting and the statistical validity of results. Previous work has demonstrated that interacting with data via differentially private algorithms can mitigate overfitting, achieving worst-case generalization guarantees with asymptotically optimal data requirements. However, such past work assumes data is static and cannot accommodate situations where data grows over time. In this paper we address this gap, presenting the first generalization bounds for adaptive analysis in the dynamic data setting. We allow the analyst to adaptively schedule their queries conditioned on the current size of the data, in addition to previous queries and responses. We also incorporate time-varying empirical accuracy bounds and mechanisms, allowing for tighter guarantees as data accumulates. In a batched query setting, the asymptotic data requirements of our bound grows with the square-root of the number of adaptive queries, matching prior works' improvement over data splitting for the static setting. We instantiate our bound for statistical queries with the clipped Gaussian mechanism, where it empirically outperforms baselines composed from static bounds.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# マーカーレスレトロ識別は、生物学的実験のアーカイブ画像データにおける昆虫個体の再同定を補完する

Markerless retro-identification complements re-identification of individual insect subjects in archived image data of biological experiments ( http://arxiv.org/abs/2405.13376v1 )

ライセンス: Link先を確認
Asaduz Zaman, Vanessa Kellermann, Alan Dorin, (参考訳) 本研究は, 古来の前方形態の時系列的再同定手法を補完する, 記録データ中の生物の過去の発生を識別する新しい概念と実践的手法である, 動物のマーカーレス再同定を紹介した。 複数の被験者の鍵となる個体の同定は、未分化な演奏の後に興味深い行動によって明らかになる場合、実験の後半に起こる可能性がある。 しばしば、縦断的研究は実験中に主観的な誘惑に遭遇する。 ソフトウェアモデルをトレーニングして、そのような個人を認識し、追跡することは、実験を完了できなければ無駄になる。 理想的には、画像分類ソフトウェアのトレーニングに計算リソースを投資する前に、実験を完了し、興味深い行動を通じて自分自身を区別する個人を選択できるでしょう。 この目的を達成するために,モデルトレーニングの逆同定を提案する。 これにより、手動のアノテーションの労力と計算資源を減らし、被写体が遅刻した後にのみ識別し、実験の結論に達する。 本研究データセットは, 形態学的に類似したミツバチ(\textit{Exoneura robusta})を5日間にわたって観察した。 本研究は, 最終日から5日間のトレーニング, 前日連続試験, および1日目の通常の時系列評価との比較により, モデル性能を評価した。 その結果,モデル間に有意な精度差は認められなかった。 このことは、縦断的動物研究における資源効率の向上における再同定の価値を浮き彫りにしている。

This study introduces markerless retro-identification of animals, a novel concept and practical technique to identify past occurrences of organisms in archived data, that complements traditional forward-looking chronological re-identification methods in longitudinal behavioural research. Identification of a key individual among multiple subjects may occur late in an experiment if it reveals itself through interesting behaviour after a period of undifferentiated performance. Often, longitudinal studies also encounter subject attrition during experiments. Effort invested in training software models to recognise and track such individuals is wasted if they fail to complete the experiment. Ideally, we would be able to select individuals who both complete an experiment and/or differentiate themselves via interesting behaviour, prior to investing computational resources in training image classification software to recognise them. We propose retro-identification for model training to achieve this aim. This reduces manual annotation effort and computational resources by identifying subjects only after they differentiate themselves late, or at an experiment's conclusion. Our study dataset comprises observations made of morphologically similar reed bees (\textit{Exoneura robusta}) over five days. We evaluated model performance by training on final day five data, testing on the sequence of preceding days, and comparing results to the usual chronological evaluation from day one. Results indicate no significant accuracy difference between models. This underscores retro-identification's value in improving resource efficiency in longitudinal animal studies.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# FedCache 2.0:知識キャッシュ駆動型フェデレーションラーニングにおける蒸留データの可能性の爆発

FedCache 2.0: Exploiting the Potential of Distilled Data in Knowledge Cache-driven Federated Learning ( http://arxiv.org/abs/2405.13378v1 )

ライセンス: Link先を確認
Quyang Pan, Sheng Sun, Zhiyuan Wu, Yuwei Wang, Min Liu, Bo Gao, (参考訳) Federated Edge Learning (FEL)は、エッジデバイスがデータのプライバシを保持しながら機械学習モデルを協調的にトレーニング可能にするための、有望なアプローチとして登場した。 その利点にもかかわらず、実用的なFELデプロイメントはデバイス制約やデバイスとサーバのインタラクションに関連する重大な課題に直面し、不均一で不確実な通信を伴うユーザ適応型モデルトレーニングを必要とします。 本稿では,FedCache 2.0について紹介する。FedCache 2.0は,これらの課題に同時に対処する,新規なパーソナライズされたFELアーキテクチャである。 FedCache 2.0は、データセットの蒸留と知識キャッシュ駆動のフェデレーション学習の両方の利点を、サーバサイドのナレッジキャッシュに、蒸留データを知識として格納し、整理することで生かしている。 さらに、制御された通信帯域内で個々のデバイスに対して転送された知識を調整するために、デバイス中心のキャッシュサンプリング戦略を導入する。 画像認識,音声理解,およびモバイルセンサデータマイニングタスクを含む5つのデータセットに対する大規模な実験により,(1)FedCache 2.0は,モデル構造,データ分布,モダリティに関わらず,最先端の手法を著しく上回っていることが示された。 2) FedCache 2.0は、少なくとも$\times$28.6の通信効率改善で、すばらしいパーソナライズされたオンデバイスモデルをトレーニングできる。

Federated Edge Learning (FEL) has emerged as a promising approach for enabling edge devices to collaboratively train machine learning models while preserving data privacy. Despite its advantages, practical FEL deployment faces significant challenges related to device constraints and device-server interactions, necessitating heterogeneous, user-adaptive model training with limited and uncertain communication. In this paper, we introduce FedCache 2.0, a novel personalized FEL architecture that simultaneously addresses these challenges. FedCache 2.0 incorporates the benefits of both dataset distillation and knowledge cache-driven federated learning by storing and organizing distilled data as knowledge in the server-side knowledge cache. Moreover, a device-centric cache sampling strategy is introduced to tailor transferred knowledge for individual devices within controlled communication bandwidth. Extensive experiments on five datasets covering image recognition, audio understanding, and mobile sensor data mining tasks demonstrate that (1) FedCache 2.0 significantly outperforms state-of-the-art methods regardless of model structures, data distributions, and modalities. (2) FedCache 2.0 can train splendid personalized on-device models with at least $\times$28.6 improvement in communication efficiency.
翻訳日:2024-05-25 01:14:40 公開日:2024-05-22
# スウェーデンのL1話者とL2話者のASR結果の比較

You don't understand me!: Comparing ASR results for L1 and L2 speakers of Swedish ( http://arxiv.org/abs/2405.13379v1 )

ライセンス: Link先を確認
Ronald Cumbal, Birger Moell, Jose Lopes, Olof Engwall, (参考訳) ASR(Automatic Speech Recognition)システムの性能は、最先端の開発において常に向上している。 しかし、より困難な状況(例えば、背景雑音、複数話者の社会的会話)や、より非典型的な話者(例えば、子供、母国語話者、言語障害のある人々)では、パフォーマンスが著しく低下する傾向にある。 本研究では,母国語,非母国語,読み,自発語,スウェーデン語の音声認識結果の差に着目した。 単語誤り率を用いて認識結果を比較し、観察された転写誤りを生じる可能性のある言語的要因を解析する。

The performance of Automatic Speech Recognition (ASR) systems has constantly increased in state-of-the-art development. However, performance tends to decrease considerably in more challenging conditions (e.g., background noise, multiple speaker social conversations) and with more atypical speakers (e.g., children, non-native speakers or people with speech disorders), which signifies that general improvements do not necessarily transfer to applications that rely on ASR, e.g., educational software for younger students or language learners. In this study, we focus on the gap in performance between recognition results for native and non-native, read and spontaneous, Swedish utterances transcribed by different ASR services. We compare the recognition results using Word Error Rate and analyze the linguistic factors that may generate the observed transcription errors.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# 匿名のイリュージョン:Web3ソーシャルエコシステムにおけるユーザの行動がプライバシに与える影響を明らかにする

The Illusion of Anonymity: Uncovering the Impact of User Actions on Privacy in Web3 Social Ecosystems ( http://arxiv.org/abs/2405.13380v1 )

ライセンス: Link先を確認
Bin Wang, Tianjian Liu, Wenqi Wang, Yuan Weng, Chao Li, Guangquan Xu, Meng Shen, Sencun Zhu, Wei Wang, (参考訳) Web3ソーシャルエコシステムの台頭は、デジタルインタラクションの新しい章の夜明けを告げ、ユーザエンゲージメントと財政的進歩の大きな可能性を示している。 これらのプラットフォームは、既存のWeb2.0ソーシャルメディアアカウントと頻繁に統合され、ユーザのプライバシーリスクが増大する。 本研究では,Web3ソーシャルプラットフォーム上でのユーザエンゲージメントと,それに伴うプライバシー問題との相違点について検討する。 我々は、人気を模倣するボグズアカウントの確立や、金銭的な報酬を得るために、一部の個人による社会的交流の意図的な歪曲を含む、製造活動の広範な現象を精査する。 このような偽装的な操作は、アクティブなユーザベースの真の尺度を歪ませるだけでなく、ユーザコミュニティのすべてのメンバに対するプライバシーの脅威を増幅する。 また、ソーシャルな露出を制限する試みにもかかわらず、ユーザーはプライバシーの脆弱性に悩まされていることもわかりました。 非常に熱心なユーザーの行動は、少数派であることが多いが、大集団のプライバシーを不当に侵害する可能性がある。 ユーザエンゲージメントや金銭的モチベーション,プライバシ問題との微妙な相互作用に光を当てることで,Web3ソーシャル・ミリューに存在する本質的な課題とハザードを包括的に検証する。 我々は、急速に発展するWeb3における複雑な社会交流と金融野望をナビゲートするために、より厳格なプライバシー対策と倫理的プロトコルが緊急に必要である点を強調します。

The rise of Web3 social ecosystems signifies the dawn of a new chapter in digital interaction, offering significant prospects for user engagement and financial advancement. Nonetheless, this progress is shadowed by potential privacy concessions, especially as these platforms frequently merge with existing Web2.0 social media accounts, amplifying data privacy risks for users. In this study, we investigate the nuanced dynamics between user engagement on Web3 social platforms and the consequent privacy concerns. We scrutinize the widespread phenomenon of fabricated activities, which encompasses the establishment of bogus accounts aimed at mimicking popularity and the deliberate distortion of social interactions by some individuals to gain financial rewards. Such deceptive maneuvers not only distort the true measure of the active user base but also amplify privacy threats for all members of the user community. We also find that, notwithstanding their attempts to limit social exposure, users remain entangled in privacy vulnerabilities. The actions of those highly engaged users, albeit often a minority group, can inadvertently breach the privacy of the larger collective. By casting light on the delicate interplay between user engagement, financial motives, and privacy issues, we offer a comprehensive examination of the intrinsic challenges and hazards present in the Web3 social milieu. We highlight the urgent need for more stringent privacy measures and ethical protocols to navigate the complex web of social exchanges and financial ambitions in the rapidly evolving Web3.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# 検索広告戦略の最適化:強化広告ランキングと入札のための強化強化学習と一般第二価格オークションの統合

Optimizing Search Advertising Strategies: Integrating Reinforcement Learning with Generalized Second-Price Auctions for Enhanced Ad Ranking and Bidding ( http://arxiv.org/abs/2405.13381v1 )

ライセンス: Link先を確認
Chang Zhou, Yang Zhao, Jin Cao, Yi Shen, Jing Gao, Xiaoling Cui, Chiyu Cheng, Hao Liu, (参考訳) 本稿では,Eコマースプラットフォームにおける広告ランキングと入札機構に着目し,検索広告における戦略的最適化手法の統合について検討する。 強化学習と進化戦略の組み合わせを用いて,多様なユーザインタラクションに適応し,広告主コスト,ユーザ関連性,プラットフォーム収益のバランスを最適化する動的モデルを提案する。 提案手法は,広告の配置精度とコスト効率を大幅に向上させ,実際のシナリオにおけるモデルの適用性を示すものである。

This paper explores the integration of strategic optimization methods in search advertising, focusing on ad ranking and bidding mechanisms within E-commerce platforms. By employing a combination of reinforcement learning and evolutionary strategies, we propose a dynamic model that adjusts to varying user interactions and optimizes the balance between advertiser cost, user relevance, and platform revenue. Our results suggest significant improvements in ad placement accuracy and cost efficiency, demonstrating the model's applicability in real-world scenarios.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# VTG-LLM:タイムスタンプ知識をビデオLLMに統合したビデオ時間グラウンドの強化

VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding ( http://arxiv.org/abs/2405.13382v1 )

ライセンス: Link先を確認
Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Xi Chen, Bo Zhao, (参考訳) ビデオ時間グラウンド(VTG)は、言語クエリに基づいて特定のビデオ内のイベントタイムスタンプを正確に識別することに焦点を当て、ビデオブラウジングや編集などの下流タスクにおいて重要な役割を果たす。 ビデオ大言語モデル(ビデオLLM)は、ビデオコンテンツを理解する上で大きな進歩を遂げているが、ビデオ内のタイムスタンプを正確に特定することは困難であり、VTGタスクのパフォーマンスを制限している。 したがって,ビデオLLMのタイムスタンプを効果的に見つける能力を向上させるためには,2つの重要な側面を強化する必要がある。 第一に、主流のVTGタスクを含む高品質な命令チューニングデータセットを持つことが不可欠である。 第2に、タイムスタンプの知識を直接ビデオLLMに組み込むことが重要である。 VTG-IT-120Kは、モーメント検索、高密度ビデオキャプション、ビデオ要約、ビデオハイライト検出などのVTGタスクをカバーする、高品質で総合的な命令チューニングデータセットである。 さらに、VTGタスクのための特別設計ビデオLLMモデルVTG-LLMを提案し、(1)タイムスタンプ知識を視覚トークンに効果的に統合し、(2)タイムスタンプ知識を専門に扱う絶対時間トークンを導入し、概念シフトを回避し、(3)より多くのビデオフレームのサンプリングを容易にする軽量かつ高性能なスロットベースのトークン圧縮方法を提案する。 総合実験では、様々なVTGタスクにおける他のビデオLLM手法と比較して、VTG-LLMの優れた性能を示す。 コードとデータセットは \url{https://github.com/gyxxyg/VTG-LLM} で公開されています。

Video Temporal Grounding (VTG) focuses on accurately identifying event timestamps within a particular video based on a linguistic query, playing a vital role in downstream tasks such as video browsing and editing. While Video Large Language Models (video LLMs) have made significant progress in understanding video content, they often face challenges in accurately pinpointing timestamps within videos, which limits their performance on VTG tasks. Therefore, to improve video LLMs' ability to effectively locate timestamps, we argue that two critical aspects need to be enhanced. First, it is essential to have high-quality instructional tuning datasets that encompass mainstream VTG tasks. Second, directly incorporating timestamp knowledge into video LLMs is crucial, as it enables models to efficiently comprehend timestamp information. To address these needs, we first introduce VTG-IT-120K, a high-quality and comprehensive instruction tuning dataset that covers VTG tasks such as moment retrieval, dense video captioning, video summarization, and video highlight detection. Furthermore, we propose a specially designed video LLM model for VTG tasks, VTG-LLM, which (1) effectively integrates timestamp knowledge into visual tokens; (2) incorporates absolute-time tokens that specifically handle timestamp knowledge, thereby avoiding concept shifts; and (3) introduces a lightweight, high-performance slot-based token compression method to facilitate the sampling of more video frames. Comprehensive experiments showcase the superior performance of VTG-LLM in comparison to other video LLM methods across various VTG tasks. Our code and datasets are available at \url{https://github.com/gyxxyg/VTG-LLM}.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# パラメータ効率のよい連続学習のための勾配投影法

Gradient Projection For Parameter-Efficient Continual Learning ( http://arxiv.org/abs/2405.13383v1 )

ライセンス: Link先を確認
Jingyang Qiao, Zhizhong Zhang, Xin Tan, Yanyun Qu, Wensheng Zhang, Yuan Xie, (参考訳) 破滅的な忘れ物は、継続的な学習における主要な課題である。 近年,パラメータ効率チューニング(PET)に基づく手法は,連続学習において顕著な性能を示した。 しかし、これらの手法は相変わらず共通の問題に直面しており、連続的なタスクの微調整は既存のパラメータ分布を乱し、忘れてしまう可能性がある。 近年の進歩は, 効率的なチューニング工学を実証的に設計すること, 生成機構の忘れ方, 偽造防止基準, 理論的支援の欠如に主眼を置いている。 さらに、新しいコンテンツを学ぶことと古い知識を保護することの間の未解決のトレードオフは、これらの課題をさらに複雑にします。 勾配予測手法は、古い特徴空間の直交方向の勾配更新を制限し、更新中にパラメータの分布が損傷されることを防止し、忘れを著しく抑制する。 そこで本研究では,Adapter,LoRA,Prefix,Promptを勾配投影の観点から連続的な学習環境に再構成し,パラメータ効率勾配投影(PEGP)と呼ばれる統一的なフレームワークを提案する。 従来のタスクはモデル更新後に同じ結果を得るべきだという仮説に基づいて,異なるPETパラダイムに直交勾配投影を導入し,その直交勾配条件がPETに基づく連続的手法の忘れ込みに効果的に抵抗できることを理論的に実証する。 特に、PEGPは、異なるチューニングパラダイムのための数学的実演を備えたアンチフォッゲッティングメカニズムを提供するための最初の統一手法である。 多様なデータセット上で異なるバックボーンを用いて本手法を広範囲に評価し,様々な段階的設定における忘れの低減効果を実証する実験を行った。

Catastrophic forgetting poses the primary challenge in the continual learning. Nowadays, methods based on parameter-efficient tuning (PET) have demonstrated impressive performance in continual learning. However, these methods are still confronted with a common problem: fine-tuning on consecutive distinct tasks can disrupt the existing parameter distribution and lead to forgetting. Recent progress mainly focused in empirically designing efficient tuning engineering, lacking investigation of forgetting generation mechanism, anti-forgetting criteria and providing theoretical support. Additionally, the unresolved trade-off between learning new content and protecting old knowledge further complicates these challenges. The gradient projection methodology restricts gradient updates to the orthogonal direction of the old feature space, preventing distribution of the parameters from being damaged during updating and significantly suppressing forgetting. Developing on it, in this paper, we reformulate Adapter, LoRA, Prefix, and Prompt to continual learning setting from the perspective of gradient projection, and propose a unified framework called Parameter Efficient Gradient Projection (PEGP). Based on the hypothesis that old tasks should have the same results after model updated, we introduce orthogonal gradient projection into different PET paradigms and theoretically demonstrate that the orthogonal condition for the gradient can effectively resist forgetting in PET-based continual methods. Notably, PEGP is the first unified method to provide an anti-forgetting mechanism with mathematical demonstration for different tuning paradigms. We extensively evaluate our method with different backbones on diverse datasets, and experiments demonstrate its efficiency in reducing forgetting in various incremental settings.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# 360 Zhinao 技術報告

360Zhinao Technical Report ( http://arxiv.org/abs/2405.13386v1 )

ライセンス: Link先を確認
360Zhinao Team, (参考訳) パラメータサイズが7B、コンテキスト長が4K、32K、360Kで、すべてhttps://github.com/Qihoo360/360zhinaoで利用可能である。 プレトレーニングにおける迅速な開発のために,実験を最小限のモデルサイズで評価・比較するために,安定かつ敏感なアブレーション環境を構築した。 このようなガイダンスの下で、私たちは3.4Tトークン上で$\texttt{360Zhinao-7B-Base}をプリトレーニングするために、データのクリーニングとコンポジション戦略を完成させます。 また、アライメント中のデータにも重点を置いています。そこでは、フィルタリングとリカッティングで量と品質のバランスを保とうとしています。 調整されたデータにより、360Zhinao-7Bのコンテキストウィンドウは32Kと360Kに容易に拡張できる。 RMとRLHFはSFTに従って訓練され、特定のタスクに確実に適用される。 これらの貢献により、同じ大きさのモデル間での360度Zhinao-7Bの競争性能が向上した。

We present 360Zhinao models with 7B parameter size and context lengths spanning 4K, 32K and 360K, all available at https://github.com/Qihoo360/360zhinao. For rapid development in pretraining, we establish a stable and sensitive ablation environment to evaluate and compare experiment runs with minimal model size. Under such guidance, we perfect our data cleaning and composition strategies to pretrain $\texttt{360Zhinao-7B-Base}$ on 3.4T tokens. We also mainly emphasize data during alignment, where we strive to balance quantity and quality with filtering and reformatting. With tailored data, 360Zhinao-7B's context window is easily extended to 32K and 360K. RMs and RLHF are trained following SFT and credibly applied to specific tasks. All together these contributions lead to 360Zhinao-7B's competitive performance among models of similar size.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# 低データインスタンスセグメンテーションのための言語ビジョンプロンプトによる教師なし事前学習

Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation ( http://arxiv.org/abs/2405.13388v1 )

ライセンス: Link先を確認
Dingwen Zhang, Hao Li, Diqi He, Nian Liu, Lechao Cheng, Jingdong Wang, Junwei Han, (参考訳) 近年、DETR(Detection TRansformer)のパラダイムに従って、クエリベースのエンドツーエンドインスタンスセグメンテーション(QEIS)手法は、特に大規模データセットでトレーニングされた場合、CNNベースのモデルよりも優れたパフォーマンスを示した。 しかし,これらのQEIS手法の有効性は,限られたトレーニングデータに直面すると著しく低下する。 この制限は、大規模なデータボリュームに依存して、ローカライゼーションと形状の事前取得に不可欠な、重要なクエリ/カーネルを効果的に訓練することから生じる。 そこで本研究では,低データ体制下での教師なし事前学習のための新しい手法を提案する。 最近成功したプロンプト技術に触発されて,クエリ/カーネルに言語ビジョンプロンプトを導入することで,QEISモデルのインスタンスセグメンテーションを改善する新しい手法であるUnsupervised Pre-training with Language-Vision Prompts (UPLVP)を導入する。 提案手法は,(1)マスクの提案:言語ビジョンモデルを用いて,ラベルのない画像に基づいて擬似マスクを生成する。 2) Prompt-Kernel Matching: 擬似マスクをプロンプトに変換し、最も整合したローカライゼーションと形状特徴を対応するカーネルに注入する。 (3)カーネル・スーパービジョン: 堅牢な学習を保証するために、カーネルレベルで事前学習するためのフォーミュラを監督する。 我々の事前学習手法の助けを借りて、QEISモデルはより高速に収束し、低データレシエーションにおけるCNNベースのモデルよりも優れた性能を発揮する。 MSCOCO,Cityscapes,CTW1500データセットを用いた実験結果から,本手法の事前学習によりQEISモデルの性能が有意に向上することが示唆された。 コードは、https://github.com/lifuguan/UPLVP.comから入手できる。

In recent times, following the paradigm of DETR (DEtection TRansformer), query-based end-to-end instance segmentation (QEIS) methods have exhibited superior performance compared to CNN-based models, particularly when trained on large-scale datasets. Nevertheless, the effectiveness of these QEIS methods diminishes significantly when confronted with limited training data. This limitation arises from their reliance on substantial data volumes to effectively train the pivotal queries/kernels that are essential for acquiring localization and shape priors. To address this problem, we propose a novel method for unsupervised pre-training in low-data regimes. Inspired by the recently successful prompting technique, we introduce a new method, Unsupervised Pre-training with Language-Vision Prompts (UPLVP), which improves QEIS models' instance segmentation by bringing language-vision prompts to queries/kernels. Our method consists of three parts: (1) Masks Proposal: Utilizes language-vision models to generate pseudo masks based on unlabeled images. (2) Prompt-Kernel Matching: Converts pseudo masks into prompts and injects the best-matched localization and shape features to their corresponding kernels. (3) Kernel Supervision: Formulates supervision for pre-training at the kernel level to ensure robust learning. With the help of our pre-training method, QEIS models can converge faster and perform better than CNN-based models in low-data regimes. Experimental evaluations conducted on MS COCO, Cityscapes, and CTW1500 datasets indicate that the QEIS models' performance can be significantly improved when pre-trained with our method. Code will be available at: https://github.com/lifuguan/UPLVP.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# HR-INR:イベントカメラによる連続宇宙時間ビデオ超解像

HR-INR: Continuous Space-Time Video Super-Resolution via Event Camera ( http://arxiv.org/abs/2405.13389v1 )

ライセンス: Link先を確認
Yunfan Lu, Zipeng Wang, Yusheng Wang, Hui Xiong, (参考訳) 連続時空ビデオ超解像(C-STVSR)は、任意のスケールでビデオ解像度とフレームレートを同時に向上することを目的としている。 近年、暗黙的ニューラル表現(INR)がビデオ復元に応用され、ビデオは任意のスケールでデコードできる暗黙的フィールドとして表現されている。 しかし、C-STVSRの極めて誤った性質は、フレーム間の線形運動を仮定し、補間や特徴ワープを用いて、2つの連続するフレームを持つ任意の時空間位置で特徴を生成するという、現在のINRベースの方法の有効性を制限している。 これによりC-STVSRは、複雑なダイナミックシーンにおいて、迅速かつ非線形な動きと長期依存(2フレーム以上を含む)をキャプチャすることを抑制する。 本稿では, HR-INRと呼ばれる新しいC-STVSRフレームワークを提案する。 イベントカメラは、高時間分解能と低レイテンシで有名な新しいセンサーである。 イベントからの豊富な時間的情報をフル活用するために,(1)イベント特徴抽出器を,(1)イベントの時間的ピラミッド表現を介してイベントを入力として取り出し,その領域の非線形な動きを捉える機能抽出器を設計し,(2)長期的依存と連続的な動きのための総合的なイベントフレーム特徴抽出器を設計する。 そこで我々は,時空間認識場を大きくして長期依存を捉えるために,時空間埋め込みを用いた新しいINRデコーダを提案する。 本手法の有効性と一般化を4つのデータセット(シミュレーションデータと実データの両方)で検証し,本手法の優位性を示した。

Continuous space-time video super-resolution (C-STVSR) aims to simultaneously enhance video resolution and frame rate at an arbitrary scale. Recently, implicit neural representation (INR) has been applied to video restoration, representing videos as implicit fields that can be decoded at an arbitrary scale. However, the highly ill-posed nature of C-STVSR limits the effectiveness of current INR-based methods: they assume linear motion between frames and use interpolation or feature warping to generate features at arbitrary spatiotemporal positions with two consecutive frames. This restrains C-STVSR from capturing rapid and nonlinear motion and long-term dependencies (involving more than two frames) in complex dynamic scenes. In this paper, we propose a novel C-STVSR framework, called HR-INR, which captures both holistic dependencies and regional motions based on INR. It is assisted by an event camera, a novel sensor renowned for its high temporal resolution and low latency. To fully utilize the rich temporal information from events, we design a feature extraction consisting of (1) a regional event feature extractor - taking events as inputs via the proposed event temporal pyramid representation to capture the regional nonlinear motion and (2) a holistic event-frame feature extractor for long-term dependence and continuity motion. We then propose a novel INR-based decoder with spatiotemporal embeddings to capture long-term dependencies with a larger temporal perception field. We validate the effectiveness and generalization of our method on four datasets (both simulated and real data), showing the superiority of our method.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# カーネル学習FBSDEフィルタの収束解析

Convergence analysis of kernel learning FBSDE filter ( http://arxiv.org/abs/2405.13390v1 )

ライセンス: Link先を確認
Yunzheng Lyu, Feng Bao, (参考訳) カーネル学習 後方SDEフィルタは、非線形フィルタリング問題を解決するための反復的かつ適応的なメッシュフリーアプローチである。 状態変数の進化密度を定義するフォッカー・プランカー方程式の前方後方SDEから構築され、KDEを用いて密度を近似する。 このアルゴリズムは、高次元問題の収束速度と効率の両方において、主流粒子フィルタ法よりも優れた性能を示している。 しかし、この方法は経験的にのみ収束することが示されている。 本稿では,その局所的および大域的収束を示す厳密な解析を行い,実験結果に対する理論的支援を提供する。

Kernel learning forward backward SDE filter is an iterative and adaptive meshfree approach to solve the nonlinear filtering problem. It builds from forward backward SDE for Fokker-Planker equation, which defines evolving density for the state variable, and employs KDE to approximate density. This algorithm has shown more superior performance than mainstream particle filter method, in both convergence speed and efficiency of solving high dimension problems. However, this method has only been shown to converge empirically. In this paper, we present a rigorous analysis to demonstrate its local and global convergence, and provide theoretical support for its empirical results.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# 格子ボルツマン法のユニタリ量子アルゴリズム

Unitary Quantum Algorithm for the Lattice-Boltzmann Method ( http://arxiv.org/abs/2405.13391v1 )

ライセンス: Link先を確認
David Wawrzyniak, Josef Winter, Steffen Schmidt, Thomas Indinger, Uwe Schramm, Christian Janßen, Nikolaus A. Adams, (参考訳) 本稿では,Lattice-Boltzmann法に基づく計算流体力学の量子アルゴリズムを提案する。 本手法は,一段階の局所平衡に完全に緩和されることを前提として,新しい符号化戦略と改良型衝突演算子を包含する。 我々の量子アルゴリズムは、線形化の場合、特に全状態測定を必要とする前に、対流拡散方程式を解くために、複数の時間ステップの計算を可能にする。 さらに,本定式化は,測定に要するアルゴリズム的なステップとして利用して,測定に先立って1段階の非線形平衡分布関数を計算するために拡張することができる。 しかし、非線形の場合、分布関数のモーメントを計算するためには古典的な後処理ステップが必要である。 ガウス丘の1次元の対流拡散を解くことでアルゴリズムを検証する。 我々の量子アルゴリズムは非線形性を捉えている。

We present a quantum algorithm for computational fluid dynamics based on the Lattice-Boltzmann method. Our approach involves a novel encoding strategy and a modified collision operator, assuming full relaxation to the local equilibrium within a single time step. Our quantum algorithm enables the computation of multiple time steps in the linearized case, specifically for solving the advection-diffusion equation, before necessitating a full state measurement. Moreover, our formulation can be extended to compute the non-linear equilibrium distribution function for a single time step prior to measurement, utilizing the measurement as an essential algorithmic step. However, in the non-linear case, a classical postprocessing step is necessary for computing the moments of the distribution function. We validate our algorithm by solving the one dimensional advection-diffusion of a Gaussian hill. Our results demonstrate that our quantum algorithm captures non-linearity.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# リーマン多様体上の微分可能な平衡へのmin-maxアルゴリズムの局所収束

Local convergence of min-max algorithms to differentiable equilibrium on Riemannian manifold ( http://arxiv.org/abs/2405.13392v1 )

ライセンス: Link先を確認
Sixin Zhang, (参考訳) 我々は、リーマン多様体上のゼロサム微分可能なゲームを解決するために、min-maxアルゴリズムを研究する。 ユークリッド空間における微分可能なスタックルバーグ均衡と微分可能なナッシュ均衡の概念は、多様体の局所座標チャートの選択に依存しない内在的定義を通じてリーマン多様体に一般化される。 次に、スペクトル分析に基づく一般的な手法を用いて、決定論的同時アルゴリズム $\tau$-GDA と $\tau$-SGA の局所収束に十分な条件を与える。 これらのアルゴリズムは確率勾配で拡張され、ワッサーシュタイン GAN の訓練に適用される。 GAN の判別器は、スティフェル多様体に基づくリプシッツ連続函数から構成される。 局所収束解析から得られた知見がGANモデルの改善にどのように寄与するかを数値的に示す。

We study min-max algorithms to solve zero-sum differentiable games on Riemannian manifold. The notions of differentiable Stackelberg equilibrium and differentiable Nash equilibrium in Euclidean space are generalized to Riemannian manifold, through an intrinsic definition which does not depend on the choice of local coordinate chart of manifold. We then provide sufficient conditions for the local convergence of the deterministic simultaneous algorithms $\tau$-GDA and $\tau$-SGA near such equilibrium, using a general methodology based on spectral analysis. These algorithms are extended with stochastic gradients and applied to the training of Wasserstein GAN. The discriminator of GAN is constructed from Lipschitz-continuous functions based on Stiefel manifold. We show numerically how the insights obtained from the local convergence analysis may lead to an improvement of GAN models.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# NFCL:短期多変量予測のための単純な解釈可能なニューラルネットワーク

NFCL: Simply interpretable neural networks for a short-term multivariate forecasting ( http://arxiv.org/abs/2405.13393v1 )

ライセンス: Link先を確認
Wonkeun Jo, Dongil Kim, (参考訳) 多変量時系列予測(MTSF)は、機械学習コミュニティにおいて魅力的な分野である。 MTSFアプリケーションにデプロイされた様々なニューラルネットワークに基づく手法は、可換性を示す。 モデル性能の進歩にもかかわらず、モデルの振る舞いの背後にある理論的根拠を理解することは謎のままである。 提案するモデルであるNural ForeCasting Layer (NFCL) では,ニューラルネットワークの直接アマルガメーションを採用している。 この複雑でない統合は、各ニューラルネットワークが他の入力からの干渉を伴わず、独立して入力と予測に寄与することを保証します。 その結果,このモデルにより予測結果の透過的な説明が容易となった。 本稿ではNFCLとその拡張について紹介する。 NFCLの優れたパフォーマンスを、利用可能な15のオープンデータセットにわたる9つのベンチマークモデルと比較すると、実証的な結果が裏付けている。 特に、NFCLはライバルを上回るだけでなく、その予測の解明も提供する。 さらに、多様なモデル構造を含む厳密な実験により、NFCLのユニークな構成の正当化が促進される。

Multivariate time-series forecasting (MTSF) stands as a compelling field within the machine learning community. Diverse neural network based methodologies deployed in MTSF applications have demonstrated commendable efficacy. Despite the advancements in model performance, comprehending the rationale behind the model's behavior remains an enigma. Our proposed model, the Neural ForeCasting Layer (NFCL), employs a straightforward amalgamation of neural networks. This uncomplicated integration ensures that each neural network contributes inputs and predictions independently, devoid of interference from other inputs. Consequently, our model facilitates a transparent explication of forecast results. This paper introduces NFCL along with its diverse extensions. Empirical findings underscore NFCL's superior performance compared to nine benchmark models across 15 available open datasets. Notably, NFCL not only surpasses competitors but also provides elucidation for its predictions. In addition, Rigorous experimentation involving diverse model structures bolsters the justification of NFCL's unique configuration.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# 神経エミュレータの理論

A theory of neural emulators ( http://arxiv.org/abs/2405.13394v1 )

ライセンス: Link先を確認
Catalin C. Mitelut, (参考訳) 神経科学の中心的な目標は、動物の神経システムが意識などの行動や認知状態をいかに生み出すかを説明することであり、人工知能(AI)と機械学習(ML)は予測がより良くなるモデルを提供しようとしている。 何十年にもわたっての研究にもかかわらず、我々は神経科学の説明を提供するための限られた進歩を遂げてきたが、行動や認知状態の予測にAIとMLメソッドが使われている。 本稿では,脳活動の回路およびスケールに依存しない予測モデルとしてのエミュレータ理論(ET)と神経科学の代替研究パラダイムとしてエミュレータ理論(ET)を提案する。 ETは、神経力学と行動のみに訓練された予測モデルは、その情報源から機能的に区別できないシステムを生成することができる、と提案している。 つまり、それらがモデル化する生物と比較すると、エミュレータは機械的な説明なしに、無差別な行動や認知状態(意識を含む)を達成することができる。 いくつかの予想を通じてETを仮定し、神経回路の内因性および外因性活性化の性質について論じ、現象状態の神経因性について論じる。 ETは、慣用的に進化した神経系の明示的な表現なしで、神経力学と行動の予測に基づくモデルに対する概念的で経験的なフレームワークを提供する。

A central goal in neuroscience is to provide explanations for how animal nervous systems can generate actions and cognitive states such as consciousness while artificial intelligence (AI) and machine learning (ML) seek to provide models that are increasingly better at prediction. Despite many decades of research we have made limited progress on providing neuroscience explanations yet there is an increased use of AI and ML methods in neuroscience for prediction of behavior and even cognitive states. Here we propose emulator theory (ET) and neural emulators as circuit- and scale-independent predictive models of biological brain activity and emulator theory (ET) as an alternative research paradigm in neuroscience. ET proposes that predictive models trained solely on neural dynamics and behaviors can generate functionally indistinguishable systems from their sources. That is, compared to the biological organisms which they model, emulators may achieve indistinguishable behavior and cognitive states - including consciousness - without any mechanistic explanations. We posit ET via several conjectures, discuss the nature of endogenous and exogenous activation of neural circuits, and discuss neural causality of phenomenal states. ET provides the conceptual and empirical framework for prediction-based models of neural dynamics and behavior without explicit representations of idiosyncratically evolved nervous systems.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# 文脈内学習変換器がタブラリデータ分類器である理由

Why In-Context Learning Transformers are Tabular Data Classifiers ( http://arxiv.org/abs/2405.13396v1 )

ライセンス: Link先を確認
Felix den Breejen, Sangmin Bae, Stephen Cha, Se-Young Yun, (参考訳) 最近導入されたTabPFNは、合成データにICL(In-Context Learning)変換器を事前訓練して、表形式のデータ分類を行う。 合成データは実世界のデータと特徴やラベルを共有しないため、この手法の成功に寄与する基盤となるメカニズムはいまだ不明である。 本研究は、ICL変換器が事前学習中に複雑な決定境界を生成できることを実証することによって説明する。 筆者らの主張を検証するため,非現実的だが複雑な決定境界を持つデータセットを生成する新しい森林データセット生成装置を開発した。 このデータを用いたICL変換器の有効性を実験により検証した。 さらに、原型であるTabPFN合成データセットジェネレータと森林データセットジェネレータの両方で事前訓練されたICL変換器であるTabForestPFNを作成する。 このモデルを微調整することで、表形式のデータ分類の最先端に到達する。 コードはhttps://github.com/FelixdenBreejen/TabForestPFNで公開されている。

The recently introduced TabPFN pretrains an In-Context Learning (ICL) transformer on synthetic data to perform tabular data classification. As synthetic data does not share features or labels with real-world data, the underlying mechanism that contributes to the success of this method remains unclear. This study provides an explanation by demonstrating that ICL-transformers acquire the ability to create complex decision boundaries during pretraining. To validate our claim, we develop a novel forest dataset generator which creates datasets that are unrealistic, but have complex decision boundaries. Our experiments confirm the effectiveness of ICL-transformers pretrained on this data. Furthermore, we create TabForestPFN, the ICL-transformer pretrained on both the original TabPFN synthetic dataset generator and our forest dataset generator. By fine-tuning this model, we reach the current state-of-the-art on tabular data classification. Code is available at https://github.com/FelixdenBreejen/TabForestPFN.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# ホログラフィー投影によるアイスホッケーにおけるマルチプレイヤー追跡

Multi Player Tracking in Ice Hockey with Homographic Projections ( http://arxiv.org/abs/2405.13397v1 )

ライセンス: Link先を確認
Harish Prakash, Jia Cheng Shang, Ken M. Nsiempba, Yuhao Chen, David A. Clausi, John S. Zelek, (参考訳) アイスホッケーにおけるマルチオブジェクト追跡(MOT)は、選手の身元を維持するために、特定のシーケンスにまたがるプレイヤーのローカライズとアソシエイトという複合的なタスクを追求する。 モノクラーブロードキャストフィードからプレイヤーを追跡することは、様々なダウンストリーム分析と拡張された視聴者体験を提供するコンピュータビジョンの重要な問題である。 しかし、既存のトラッカーは、放送フィードでよく見られるオクルージョン、ボケ、アジャイルプレーヤーの動きに対処する上で、重大な困難に直面している。 そこで本研究では,MOTを二部グラフマッチング問題として定式化する手法を提案する。 我々は,足のキーポイントを頭上リンクテンプレートにマッピングし,これらの投影された位置をグラフネットワークにエンコードすることで,放送ビューにおけるOccludedとOverlappingのプレイヤーの位置表現を解き放つ。 これにより、一貫したプレイヤー追跡とアンフラグメントされたトラックレット予測のための信頼性の高い空間コンテキストが保証される。 この結果から,2つの放送アイスホッケーデータセットにおけるIDswとIDF1の測定値に大きな改善が認められた。

Multi Object Tracking (MOT) in ice hockey pursues the combined task of localizing and associating players across a given sequence to maintain their identities. Tracking players from monocular broadcast feeds is an important computer vision problem offering various downstream analytics and enhanced viewership experience. However, existing trackers encounter significant difficulties in dealing with occlusions, blurs, and agile player movements prevalent in telecast feeds. In this work, we propose a novel tracking approach by formulating MOT as a bipartite graph matching problem infused with homography. We disentangle the positional representations of occluded and overlapping players in broadcast view, by mapping their foot keypoints to an overhead rink template, and encode these projected positions into the graph network. This ensures reliable spatial context for consistent player tracking and unfragmented tracklet prediction. Our results show considerable improvements in both the IDsw and IDF1 metrics on the two available broadcast ice hockey datasets.
翻訳日:2024-05-25 01:04:57 公開日:2024-05-22
# TrojanRAG: 大規模言語モデルでは,検索可能な生成がバックドアドライバになる

TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models ( http://arxiv.org/abs/2405.13401v1 )

ライセンス: Link先を確認
Pengzhou Cheng, Yidong Ding, Tianjie Ju, Zongru Wu, Wei Du, Ping Yi, Zhuosheng Zhang, Gongshen Liu, (参考訳) 大規模言語モデル (LLM) は、自然言語処理 (NLP) で顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。 バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。 LLMを攻撃することは、セキュリティレビューにおいて本質的に危険であるが、違法に高価である。 さらに、LLMの連続的なイテレーションは、バックドアの堅牢性を低下させます。 本稿では,Retrieval-Augmented Generationにおける共同バックドア攻撃を利用したTrojanRAGを提案する。 具体的には、敵は、精巧なターゲットコンテキストとトリガーセットを構成する。 複数のバックドアショートカットは、コントラスト学習によって直交的に最適化されるため、トリガー条件をパラメータ部分空間に制約し、マッチングを改善する。 対象コンテキストに対するRAGのリコールを改善するため,構造化データを構築するための知識グラフを導入し,きめ細かいレベルでのハードマッチングを実現する。 さらに, LLMのバックドアシナリオを正規化し, 攻撃者の視点とユーザ視点の両方からバックドアが引き起こす本当の害を分析し, さらに, ジェイルブレイクモデルに適したツールであるかどうかを検証した。 真理性、言語理解、有害性に関する広範な実験結果から、TrojanRAGは通常のクエリの検索能力を保ちながら、万能性の脅威を示すことが示された。

Large language models (LLMs) have raised concerns about potential security threats despite performing significantly in Natural Language Processing (NLP). Backdoor attacks initially verified that LLM is doing substantial harm at all stages, but the cost and robustness have been criticized. Attacking LLMs is inherently risky in security review, while prohibitively expensive. Besides, the continuous iteration of LLMs will degrade the robustness of backdoors. In this paper, we propose TrojanRAG, which employs a joint backdoor attack in the Retrieval-Augmented Generation, thereby manipulating LLMs in universal attack scenarios. Specifically, the adversary constructs elaborate target contexts and trigger sets. Multiple pairs of backdoor shortcuts are orthogonally optimized by contrastive learning, thus constraining the triggering conditions to a parameter subspace to improve the matching. To improve the recall of the RAG for the target contexts, we introduce a knowledge graph to construct structured data to achieve hard matching at a fine-grained level. Moreover, we normalize the backdoor scenarios in LLMs to analyze the real harm caused by backdoors from both attackers' and users' perspectives and further verify whether the context is a favorable tool for jailbreaking models. Extensive experimental results on truthfulness, language understanding, and harmfulness show that TrojanRAG exhibits versatility threats while maintaining retrieval capabilities on normal queries.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# 変圧器の動的文脈適応と情報フロー制御:評価器調整器ユニットの導入と残差接続

Dynamic Context Adaptation and Information Flow Control in Transformers: Introducing the Evaluator Adjuster Unit and Gated Residual Connections ( http://arxiv.org/abs/2405.13407v1 )

ライセンス: Link先を確認
Sahil Rajesh Dhayalkar, (参考訳) トランスフォーマーは、データ内の長距離依存をモデル化するユニークな能力のために、人工知能のさまざまな領域に革命をもたらした。 しかし、それらにはニュアンスがあり、コンテキストに依存した特徴や情報の流れの調節が欠けている。 本稿では,これらの制約に対処するために,Evaluator Adjuster Unit (EAU) と Gated Residual Connections (GRC) という,トランスフォーマーアーキテクチャの2つの重要な拡張を紹介する。 EAUは、入力コンテキストの関連性に基づいて注意出力を動的に調整し、より適応的な応答パターンを可能にする。 同時に、GRCは、情報フローを選択的に制御するゲーティング機構を通じてトランスフォーマーの残コネクションを変更することにより、コンテキスト的に重要な特徴にフォーカスするネットワークの能力を向上する。 自然言語処理におけるこれらの拡張性能を,いくつかのベンチマークで評価した。 その結果,適応性と効率性が向上し,フレキシブル・コンテクスト対応トランスフォーマーモデルの設計に新たな標準が設定できることが示唆された。

Transformers have revolutionized various domains of artificial intelligence due to their unique ability to model long-range dependencies in data. However, they lack in nuanced, context-dependent modulation of features and information flow. This paper introduces two significant enhancements to the transformer architecture - the Evaluator Adjuster Unit (EAU) and Gated Residual Connections (GRC) - designed to address these limitations. The EAU dynamically modulates attention outputs based on the relevance of the input context, allowing for more adaptive response patterns. Concurrently, the GRC modifies the transformer's residual connections through a gating mechanism that selectively controls the information flow, thereby enhancing the network's ability to focus on contextually important features. We evaluate the performance of these enhancements across several benchmarks in natural language processing. Our results demonstrate improved adaptability and efficiency, suggesting that these modifications could set new standards for designing flexible and context-aware transformer models.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# 非マルコフ力学における真の多部絡み合いの急激な変化

Sudden change of genuine multipartite entanglement in non-Markovian dynamics ( http://arxiv.org/abs/2405.13412v1 )

ライセンス: Link先を確認
Mazhar Ali, (参考訳) マルコフ近似を超越した双分極系および多分極系の絡み合いダイナミクスについて検討する。 キャビティ・キャビティ・キュービットと貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水池・貯水・貯水池・貯水・貯水・貯水・貯水・貯水)の2組の2組について検討した。 キャビティキャビティ量子ビットの場合、非マルコビアン性は崩壊・復活現象以外の絡み合いの寿命を延ばす。 貯水池・貯水池のクビットでは、振動とともに絡み合った突然の出生が遅れる。 特定の初期状態を持つ4つの量子ビット全てに対して、真の絡み合いは徐々に発展し、最大定数に達し、崩壊する前にしばらくの間この値で凍結する。 この真の絡み合いの急激な変化は、キャビティや貯水池が絡まっていない時間帯に起こる。 マルコフ過程とは対照的に、突然の変化現象は非マルコフ過程において繰り返されることがある。

We investigate entanglement dynamics of bipartite as well multipartite systems beyond Markov approximation. We study two pairs of cavity-reservoir systems, modeled as four qubits and track the change of entanglement among cavity-cavity qubits, reservoir-reservoir qubits, and also for genuine entanglement of all four qubits. For cavity-cavity qubits, we find that non-Markovianity prolongs the life of entanglement besides collapse/revival phenomenon. For reservoir-reservoir qubits, entanglement sudden birth is delayed accordingly along with oscillations. For all four qubits, with a specific initial state, we find that genuine entanglement develops gradually, reaches to a maximum constant value and then freezes at this value for some time before decaying. This sudden change in dynamics of genuine entanglement occurs for a time window where neither cavities nor reservoirs are entangled. In contrast to Markov process, sudden change phenomenon may be recurrent in non-Markovian regime.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# 強化ニューラルデコーダ:6Gネットワーク用LDPCコードの極度信頼性を実現する

Boosted Neural Decoders: Achieving Extreme Reliability of LDPC Codes for 6G Networks ( http://arxiv.org/abs/2405.13413v1 )

ライセンス: Link先を確認
Hee-Youl Kwak, Dae-Young Yun, Yongjune Kim, Sang-Hyo Kim, Jong-Seon No, (参考訳) 6Gネットワークにおけるチャネル符号化には、極めて高い信頼性を確保することが不可欠である。 6Gネットワーク内の超信頼性・低遅延通信(xURLLC)の次世代シナリオでは、フレームエラー率(FER)が10~9以下である。 しかし、低密度パリティチェック(LDPC)符号は5Gニューラジオ(NR)の標準規格であり、エラーフロア現象と呼ばれる問題に遭遇し、そのような低レートを達成するのを妨げている。 この問題に対処するため,ニューラルミンサム(NMS)デコーダの高速化という,革新的なソリューションを導入する。 このデコーダは、従来のNMSデコーダと同一動作であるが、以下を含む新しい訓練方法によって訓練されている。 一 不正なベクトルによる学習の促進 二 消滅する勾配問題に対処するためのブロック単位の訓練スケジュール 三 トレーニング可能な重量の数を最小にするため、動的重量共有 四 必要なサンプル数を減らすための伝達学習及び 五 サンプリング処理の迅速化のためのデータ拡張 これらのトレーニング戦略を活用することで、強化されたNMSデコーダは、エラーフロアを低減し、優れたウォーターフォールパフォーマンスを実現する。 注目すべきは、5G LDPC符号の6G xURLLC要件を重大エラーフロアなしで満たすことである。 さらに、強化されたNMSデコーダは、一度重みが訓練されると、追加モジュールなしでデコードを実行でき、即時適用に非常に実用的である。

Ensuring extremely high reliability is essential for channel coding in 6G networks. The next-generation of ultra-reliable and low-latency communications (xURLLC) scenario within 6G networks requires a frame error rate (FER) below 10-9. However, low-density parity-check (LDPC) codes, the standard in 5G new radio (NR), encounter a challenge known as the error floor phenomenon, which hinders to achieve such low rates. To tackle this problem, we introduce an innovative solution: boosted neural min-sum (NMS) decoder. This decoder operates identically to conventional NMS decoders, but is trained by novel training methods including: i) boosting learning with uncorrected vectors, ii) block-wise training schedule to address the vanishing gradient issue, iii) dynamic weight sharing to minimize the number of trainable weights, iv) transfer learning to reduce the required sample count, and v) data augmentation to expedite the sampling process. Leveraging these training strategies, the boosted NMS decoder achieves the state-of-the art performance in reducing the error floor as well as superior waterfall performance. Remarkably, we fulfill the 6G xURLLC requirement for 5G LDPC codes without the severe error floor. Additionally, the boosted NMS decoder, once its weights are trained, can perform decoding without additional modules, making it highly practical for immediate application.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# 正写像のモーメントによる絡み合いの検出

Detection of entanglement via moments of positive maps ( http://arxiv.org/abs/2405.13417v1 )

ライセンス: Link先を確認
Mazhar Ali, (参考訳) 我々は、これらのモーメントに基づいて、正の地図のモーメントと基準を再検討し、絡みを検知した。 2つのキュービットに対して、還元写像は、結果の行列が同じ固有値の集合を持つが、どちらの行列も同じ計算ベースで異なるように見えるので、部分的転置写像と等価であることを示した。 したがって、両方の地図の検知能力は同じである。 2 \otimes 4$システムの場合、還元写像のモーメントは束縛された絡み合った状態の族を検出することができる。 量子四重項系では、還元写像のモーメントが有界な絡み合った状態の2つのよく知られた族を検出できることが示される。 別の正の写像のモーメントは特定の量子状態の族に対する完全な絡み合いを検出できるが、初期の基準は少数の絡み合いのある状態を検出するのに失敗する。 3つのキュービット系に対して、その1つのキュービットに還元写像を適用することは部分的転置演算と等価である。 特に、GHZ状態とW状態にホワイトノイズが混ざった場合、還元写像のすべてのモーメントは部分転置写像のモーメントと全く同じである。

We have reexamined the moments of positive maps and the criterion based on these moments to detect entanglement. For two qubits, we observed that reduction map is equivalent to partial transpose map as the resulting matrices have the same set of eigenvalues although both matrices look different in same computational basis. Consequently, the detection power of both maps is same. For $2 \otimes 4$ systems, we find that moments of reduction map are capable to detect a family of bound entangled states. For qutrit-qutrit systems, we show that moments of reduction map can detect two well known families of bound entangled states. The moments of another positive map can detect the complete range of entanglement for a specific family of quantum states, whereas the earlier criterion fails to detect a small range of entangled states. For three qubits system, we find that applying reduction map to one of the qubit is equivalent to partial transpose operation. In particularly, for GHZ state and W state mixed with white noise, all the moments of a reduction map are exactly the same as the moments of partial transpose map.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# ヒューマンファクター工学の新時代:大規模マルチモーダルモデルの適用と展望

A New Era in Human Factors Engineering: A Survey of the Applications and Prospects of Large Multimodal Models ( http://arxiv.org/abs/2405.13426v1 )

ライセンス: Link先を確認
Li Fan, Lee Ching-Hung, Han Su, Feng Shanshan, Jiang Zhuoxuan, Sun Zhu, (参考訳) 近年、医療、社会心理学、産業デザインなどの分野におけるLMM(Large Multimodal Models)の潜在的な応用は、人間の因子研究の新しい方向性として広く研究の注目を集めている。 例えば、LMMベースのスマートシステムは、人間の因子研究の新しい研究課題となり、LMMはこの分野に新しい研究パラダイムと方法論を導入している。 そこで本稿は,LMMと専門家による文献レビューを通じて,人的要因と人間工学の分野におけるLMMの適用,課題,今後の展望を探求することを目的とする。 具体的には, 新たな文献レビュー手法を提案し, LMMに基づく事故解析, 人体モデリング, 介入設計に関する研究を行った。 その後,LMMの時代における研究パラダイムの今後の動向と人的要因と人間工学研究の課題について論じる。 本研究は,人的要因を人工知能と統合するための基準として,貴重な視点を提供することができると期待されている。

In recent years, the potential applications of Large Multimodal Models (LMMs) in fields such as healthcare, social psychology, and industrial design have attracted wide research attention, providing new directions for human factors research. For instance, LMM-based smart systems have become novel research subjects of human factors studies, and LMM introduces new research paradigms and methodologies to this field. Therefore, this paper aims to explore the applications, challenges, and future prospects of LMM in the domain of human factors and ergonomics through an expert-LMM collaborated literature review. Specifically, a novel literature review method is proposed, and research studies of LMM-based accident analysis, human modelling and intervention design are introduced. Subsequently, the paper discusses future trends of the research paradigm and challenges of human factors and ergonomics studies in the era of LMMs. It is expected that this study can provide a valuable perspective and serve as a reference for integrating human factors with artificial intelligence.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# グラフ埋め込みによる適応型ファジィC-平均

Adaptive Fuzzy C-Means with Graph Embedding ( http://arxiv.org/abs/2405.13427v1 )

ライセンス: Link先を確認
Qiang Chen, Weizhong Yu, Feiping Nie, Xuelong Li, (参考訳) ファジィクラスタリングアルゴリズムは、大まかに2つの主要なグループに分類できる: ファジィC平均法(FCM)と混合モデルに基づく方法。 しかし、既存のほとんどのFCMベースの手法では、適切なメンバシップ度ハイパーパラメータ値を自動選択する方法は難しい問題であり、未解決である。 混合モデルに基づく手法は、FCMに基づく手法に固有のメンバーシップ度ハイパーパラメータを手動で調整することの難しさを回避する一方で、ガウス分布のような特定の分布を優先することも多い。 本稿では,FCMに基づくクラスタリングモデルを提案する。このモデルでは,適切なメンバシップ度ハイパーパラメータ値を自動的に学習し,非ガウスクラスタでデータを処理することができる。 さらに、グラフ埋め込み正規化を除去することにより、提案したFCMモデルは単純化された一般化されたガウス混合モデルに退化することができる。 したがって、提案したFCMモデルはグラフ埋め込みを伴う一般化されたガウス混合モデルと見なすことができる。 提案モデルの有効性を実証するために,合成データセットと実世界のデータセットの両方で大規模な実験を行った。

Fuzzy clustering algorithms can be roughly categorized into two main groups: Fuzzy C-Means (FCM) based methods and mixture model based methods. However, for almost all existing FCM based methods, how to automatically selecting proper membership degree hyper-parameter values remains a challenging and unsolved problem. Mixture model based methods, while circumventing the difficulty of manually adjusting membership degree hyper-parameters inherent in FCM based methods, often have a preference for specific distributions, such as the Gaussian distribution. In this paper, we propose a novel FCM based clustering model that is capable of automatically learning an appropriate membership degree hyper-parameter value and handling data with non-Gaussian clusters. Moreover, by removing the graph embedding regularization, the proposed FCM model can degenerate into the simplified generalized Gaussian mixture model. Therefore, the proposed FCM model can be also seen as the generalized Gaussian mixture model with graph embedding. Extensive experiments are conducted on both synthetic and real-world datasets to demonstrate the effectiveness of the proposed model.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# Disperse-Then-Merge:調整税減税による指導訓練の限界を推し進める

Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction ( http://arxiv.org/abs/2405.13432v1 )

ライセンス: Link先を確認
Tingchen Fu, Deng Cai, Lemao Liu, Shuming Shi, Rui Yan, (参考訳) 命令追従コーパスの教師付き微調整(SFT)は,大規模言語モデル(LLM)のアライメントに向けた重要なアプローチである。 しかしながら、標準知識および推論ベンチマークにおけるLCMの性能は、SFTプロセス後期の劣化に悩まされがちであり、アライメント税の現象を反映している。 パイロット研究を通じて、データバイアスはおそらくこの現象の背後にある1つの原因である、という仮説を立てました。 この問題に対処するため,簡単な分散統合フレームワークを導入する。 具体的には、命令追従データを部分に分散し、異なるデータ部分を用いて複数のサブモデルを訓練する。 次に、モデルのマージ技術を通じて、複数のモデルをひとつのモデルにマージします。 その単純さにもかかわらず、我々のフレームワークは、一連の標準的な知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。

Supervised fine-tuning (SFT) on instruction-following corpus is a crucial approach toward the alignment of large language models (LLMs). However, the performance of LLMs on standard knowledge and reasoning benchmarks tends to suffer from deterioration at the latter stage of the SFT process, echoing the phenomenon of alignment tax. Through our pilot study, we put a hypothesis that the data biases are probably one cause behind the phenomenon. To address the issue, we introduce a simple disperse-then-merge framework. To be concrete, we disperse the instruction-following data into portions and train multiple sub-models using different data portions. Then we merge multiple models into a single one via model merging techniques. Despite its simplicity, our framework outperforms various sophisticated methods such as data curation and training regularization on a series of standard knowledge and reasoning benchmarks.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# 探究的品質多様性景観分析に向けて

Towards Exploratory Quality Diversity Landscape Analysis ( http://arxiv.org/abs/2405.13433v1 )

ライセンス: Link先を確認
Kyriacos Mosphilis, Vassilis Vassiliades, (参考訳) 本研究は,品質多様性 (QD) 問題に対する探索的景観解析 (ELA) の利用に関する予備的研究である。 我々は,QDアルゴリズム選択の自動化にむけて,QD問題の特徴付けにERAの機能を利用することができるかどうかを考察する。 ELAの特徴は, ランダムサンプリングと異なり, より具体的には, 変動演算子, 振舞い関数, アーカイブサイズ, 問題次元の選び方によって, QD の最適化が異なることが示唆された。

This work is a preliminary study on using Exploratory Landscape Analysis (ELA) for Quality Diversity (QD) problems. We seek to understand whether ELA features can potentially be used to characterise QD problems paving the way for automating QD algorithm selection. Our results demonstrate that ELA features are affected by QD optimisation differently than random sampling, and more specifically, by the choice of variation operator, behaviour function, archive size and problem dimensionality.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# パーキンソン病検出のための動的に拡張された静的手書き表現

Dynamically enhanced static handwriting representation for Parkinson's disease detection ( http://arxiv.org/abs/2405.13438v1 )

ライセンス: Link先を確認
Moises Diaz, Miguel Angel Ferrer, Donato Impedovo, Giuseppe Pirlo, Gennaro Vessio, (参考訳) コンピュータ支援診断システムは、臨床医を支援するために非侵襲的で低コストのツールを提供することができる。 これらのシステムは神経変性疾患、特にパーキンソン病(PD)の診断とモニタリングを支援する可能性がある。 PDアセスメントの文脈において、手書き文字は特別な役割を果たす。 本稿では,手書き文字の「動的に強化された」静的画像の識別能力について検討する。 増強された画像は、手書きの静的特性と動的特性を同時に利用して合成される。 具体的には、次のように動的情報を埋め込む静的表現を提案する。 一 サンプルの点をリンクする代わりに、時間的・速度的な情報を保持するために描画すること。 (二)同じ目的のために年金を加えること。 新しい手書き表現の有効性を評価するため,この手法と静的および動的手書きに基づく最先端手法との公正な比較を同一データセット,すなわちPaHaW上で行う。 分類ワークフローでは、入力データの複数の表現から意味のある特徴を抽出するために転送学習を用いる。 最終的な予測を達成するために、異なる分類器のアンサンブルが使用される。 動的に強化された静的手書きは、静的手書きと動的手書きを別々に使用することによって得られる結果より優れている。

Computer aided diagnosis systems can provide non-invasive, low-cost tools to support clinicians. These systems have the potential to assist the diagnosis and monitoring of neurodegenerative disorders, in particular Parkinson's disease (PD). Handwriting plays a special role in the context of PD assessment. In this paper, the discriminating power of "dynamically enhanced" static images of handwriting is investigated. The enhanced images are synthetically generated by exploiting simultaneously the static and dynamic properties of handwriting. Specifically, we propose a static representation that embeds dynamic information based on: (i) drawing the points of the samples, instead of linking them, so as to retain temporal/velocity information; and (ii) adding pen-ups for the same purpose. To evaluate the effectiveness of the new handwriting representation, a fair comparison between this approach and state-of-the-art methods based on static and dynamic handwriting is conducted on the same dataset, i.e. PaHaW. The classification workflow employs transfer learning to extract meaningful features from multiple representations of the input data. An ensemble of different classifiers is used to achieve the final predictions. Dynamically enhanced static handwriting is able to outperform the results obtained by using static and dynamic handwriting separately.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# 物理インフォームドニューラルネットワークによる量子アンハーモニック振動子の非摂動レギュムの対応

Addressing the Non-perturbative Regime of the Quantum Anharmonic Oscillator by Physics-Informed Neural Networks ( http://arxiv.org/abs/2405.13442v1 )

ライセンス: Link先を確認
Lorenzo Brevi, Antonio Mandarino, Enrico Prati, (参考訳) 物理科学におけるディープラーニングの利用により、研究者は分析的な知見がほとんど、あるいは全く得られない物理的システムに取り組むことができるようになった。 近年,物理インフォームドニューラルネットワーク (PINN) は,いくつかの物理的制約によって導かれる微分方程式の系を解く最も有望なツールの1つとして紹介されている。 量子領域において、そのようなアプローチは、非可積分系に対するシュレーディンガー方程式を解く新しいアプローチへの道を開く。 非教師なし学習アプローチに従うことで、位置座標の4番目のパワーに比例する相互作用項が存在する無調波発振器にPINNを適用する。 我々は、クォート相互作用の重みを変化させながら、固有エネルギーと対応する固有関数を計算する。 我々は、摂動と強い結合理論の両方が機能する体制に解を橋渡しし、純粋なクォート振動子を含む。 実数および虚数周波数のシステムについて検討し、量子場理論に現れる問題に対処するための新しい数値法の基礎を築いた。

The use of deep learning in physical sciences has recently boosted the ability of researchers to tackle physical systems where little or no analytical insight is available. Recently, the Physics-Informed Neural Networks (PINNs) have been introduced as one of the most promising tools to solve systems of differential equations guided by some physically grounded constraints. In the quantum realm, such approach paves the way to a novel approach to solve the Schroedinger equation for non-integrable systems. By following an unsupervised learning approach, we apply the PINNs to the anharmonic oscillator in which an interaction term proportional to the fourth power of the position coordinate is present. We compute the eigenenergies and the corresponding eigenfunctions while varying the weight of the quartic interaction. We bridge our solutions to the regime where both the perturbative and the strong coupling theory work, including the pure quartic oscillator. We investigate systems with real and imaginary frequency, laying the foundation for novel numerical methods to tackle problems emerging in quantum field theory.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# フェデレートスプリットトレーニングによる多種エージェント制御のためのタスク非依存決定変換器

Task-agnostic Decision Transformer for Multi-type Agent Control with Federated Split Training ( http://arxiv.org/abs/2405.13445v1 )

ライセンス: Link先を確認
Zhiyuan Wang, Bokui Chen, Xiaoyang Qu, Zhenhou Hong, Jing Xiao, Jianzong Wang, (参考訳) 人工知能の急速な進歩により、知識とパーソナライズされたエージェントの開発がますます広まりつつある。 しかし、個人化されたエージェント間の状態変数や行動空間の固有の変動は、従来のフェデレート学習アルゴリズムに重大な集約的課題をもたらす。 これらの課題に対処するために、AIエージェント決定タスク用に明示的に設計された革新的なフレームワークであるFSDT(Federated Split Decision Transformer)を導入する。 FSDTフレームワークは、データプライバシを保持しながら、トレーニングのために分散データを活用することにより、パーソナライズされたエージェントの複雑さをナビゲートする。 クライアントエージェントへのローカル埋め込みと予測モデル、サーバ上のグローバルトランスフォーマーデコーダモデルを備えた、2段階のトレーニングプロセスを採用している。 D4RLデータセットを用いた包括的評価は、従来の集中型トレーニングアプローチと比較して、コミュニケーションと計算オーバーヘッドの大幅な削減と相まって、パーソナライズされたエージェントに対するフェデレーション分割学習におけるアルゴリズムの優れた性能を強調している。 FSDTフレームワークは、自律運転意思決定システムのようなアプリケーションにおいて、効率的でプライバシ保護の協調学習を可能にする強力な可能性を示している。 本研究は、分散オフライン強化学習データを効果的に活用し、強力なマルチタイプエージェント決定システムを実現するためのFSDTフレームワークの有効性を裏付けるものである。

With the rapid advancements in artificial intelligence, the development of knowledgeable and personalized agents has become increasingly prevalent. However, the inherent variability in state variables and action spaces among personalized agents poses significant aggregation challenges for traditional federated learning algorithms. To tackle these challenges, we introduce the Federated Split Decision Transformer (FSDT), an innovative framework designed explicitly for AI agent decision tasks. The FSDT framework excels at navigating the intricacies of personalized agents by harnessing distributed data for training while preserving data privacy. It employs a two-stage training process, with local embedding and prediction models on client agents and a global transformer decoder model on the server. Our comprehensive evaluation using the benchmark D4RL dataset highlights the superior performance of our algorithm in federated split learning for personalized agents, coupled with significant reductions in communication and computational overhead compared to traditional centralized training approaches. The FSDT framework demonstrates strong potential for enabling efficient and privacy-preserving collaborative learning in applications such as autonomous driving decision systems. Our findings underscore the efficacy of the FSDT framework in effectively leveraging distributed offline reinforcement learning data to enable powerful multi-type agent decision systems.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# タスク対応カリキュラムプランニングによる大規模言語モデルの蒸留命令追従能力

Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning ( http://arxiv.org/abs/2405.13448v1 )

ライセンス: Link先を確認
Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang, (参考訳) インストラクションチューニングのプロセスは、事前訓練された大規模言語モデル(LLM)にオープンドメイン命令と人間優先応答をアライメントする。 いくつかの研究はChatGPTのようなより強力なLLMからの指示を蒸留し、注釈付けするための自律的なアプローチを研究してきたが、それらはしばしばタスク分布の影響や訓練セットの指示の難しさを無視している。 この監視は、小学生のLLMの不均衡な知識能力や一般化能力に繋がる可能性がある。 この課題に対処するために、バランスの取れたタスク分布と動的難易度調整を備えた多層蒸留フレームワークであるTAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。 このアプローチでは,学生のLLMがタスク分布のバランスを保った命令を追従し,蒸留することが困難な命令を選択するために,オラクル LLM を用いる。 カリキュラムプランニングを取り入れることで,難易度を体系的に増大させ,学生LLMの能力を向上させる。 AlpacaEval 2.0 や MT-Bench など,広く知られている2つのベンチマークを用いて,TAPIR を厳格に評価した。 実験結果から,本手法で学習した学生のLLMは,学習データが少なく,より大きな指導訓練モデルと強い蒸留ベースラインに優れていたことが示唆された。 この改善は、論理的推論やコード生成といった複雑なタスクで特に顕著である。

The process of instruction tuning aligns pre-trained large language models (LLMs) with open-domain instructions and human-preferred responses. While several studies have explored autonomous approaches to distilling and annotating instructions from more powerful proprietary LLMs, such as ChatGPT, they often neglect the impact of task distributions and the varying difficulty of instructions of the training sets. This oversight can lead to imbalanced knowledge capabilities and poor generalization powers of small student LLMs. To address this challenge, we introduce Task-Aware Curriculum Planning for Instruction Refinement (TAPIR), a multi-round distillation framework with balanced task distributions and dynamic difficulty adjustment. This approach utilizes an oracle LLM to select instructions that are difficult for a student LLM to follow and distill instructions with balanced task distributions. By incorporating curriculum planning, our approach systematically escalates the difficulty levels, progressively enhancing the student LLM's capabilities. We rigorously evaluate TAPIR using two widely recognized benchmarks, including AlpacaEval 2.0 and MT-Bench. The empirical results demonstrate that the student LLMs, trained with our method and less training data, outperform larger instruction-tuned models and strong distillation baselines. The improvement is particularly notable in complex tasks, such as logical reasoning and code generation.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# 行列分解のための入力誘導多重デコンストラクション単一再構成ニューラルネットワークモデル

Input Guided Multiple Deconstruction Single Reconstruction neural network models for Matrix Factorization ( http://arxiv.org/abs/2405.13449v1 )

ライセンス: Link先を確認
Prasun Dutta, Rajat K. De, (参考訳) 階層学習の過程で原文を参照することは、学習の正しい方向を保証する共通の人間の特性である。 本稿では,非負行列因子化(NMF)の概念に基づくモデルについて述べる。 彼らは、一対の係数行列を定め、その低階近似を発見して高次元データを扱うことを目指している。 このモデルは、非負行列因子分解(IG-MDSR-NMF)のための入力誘導多重デコンストラクション単一再構成ニューラルネットワークと呼ばれ、両因子の非負性制約を保証する。 Relaxed Non- negative Matrix Factorization (IG-MDSR-RNMF) のための入力誘導多重デコンストラクション単一再構成ニューラルネットワークは、非負性基準に固執する基底行列のみによる因子化の新たな考え方を導入する。 この緩和されたバージョンは、モデルが元のデータマトリックスのよりリッチな低次元埋め込みを学ぶのに役立つ。 両モデルが生成する低ランク埋め込みにおけるデータの局所的構造を保存する能力は適切に検証されている。 次元削減の必要性を正当化する原データよりも低次元埋め込みの方が優れていることが確認された。 両方のモデルの優位性はまた、5つの一般的なデータセット上の9つの確立された次元削減アルゴリズムと、それらの性能を別々に比較することによって検証されている。 さらに、モデルの計算複雑性と収束解析も、モデルの優越性を証明している。

Referring back to the original text in the course of hierarchical learning is a common human trait that ensures the right direction of learning. The models developed based on the concept of Non-negative Matrix Factorization (NMF), in this paper are inspired by this idea. They aim to deal with high-dimensional data by discovering its low rank approximation by determining a unique pair of factor matrices. The model, named Input Guided Multiple Deconstruction Single Reconstruction neural network for Non-negative Matrix Factorization (IG-MDSR-NMF), ensures the non-negativity constraints of both factors. Whereas Input Guided Multiple Deconstruction Single Reconstruction neural network for Relaxed Non-negative Matrix Factorization (IG-MDSR-RNMF) introduces a novel idea of factorization with only the basis matrix adhering to the non-negativity criteria. This relaxed version helps the model to learn more enriched low dimensional embedding of the original data matrix. The competency of preserving the local structure of data in its low rank embedding produced by both the models has been appropriately verified. The superiority of low dimensional embedding over that of the original data justifying the need for dimension reduction has been established. The primacy of both the models has also been validated by comparing their performances separately with that of nine other established dimension reduction algorithms on five popular datasets. Moreover, computational complexity of the models and convergence analysis have also been presented testifying to the supremacy of the models.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# マルチラベルリモートセンシング画像分類におけるカットミクスのラベル伝搬戦略

A Label Propagation Strategy for CutMix in Multi-Label Remote Sensing Image Classification ( http://arxiv.org/abs/2405.13451v1 )

ライセンス: Link先を確認
Tom Burgert, Tim Siebert, Kai Norman Clasen, Begüm Demir, (参考訳) マルチラベルシーン分類(MLC)のための教師付き深層学習手法の開発は、リモートセンシング(RS)における顕著な研究方向の1つである。 しかし、大規模なRS画像アーカイブのためのアノテーションの収集には時間と費用がかかる。 この問題に対処するため、RSにいくつかのデータ拡張手法が導入されている。 中でも、既存の2つのトレーニング画像の一部を組み合わせて強化画像を生成する、データ拡張技術であるCutMixは、特に効果的なアプローチとして際立っている。 しかし、RS MLCにおけるCutMixの直接適用は、拡張訓練画像におけるクラスラベル(ラベルノイズ)の消去や追加につながる可能性がある。 この問題に対処するために,ラベルノイズの影響を受けずに,RSのLC問題にCutMixを効果的に適用するラベル伝搬(LP)戦略を導入する。 この目的のために,提案するLPストラテジーでは,画素レベルのクラス位置情報を活用して,拡張トレーニング画像のマルチラベルを更新する。 本稿では,各トレーニングイメージ(テーマ製品など)に関連する参照マップや,参照マップが存在しない場合の説明方法によって提供されるクラス説明マスクから,そのようなクラス位置情報にアクセスすることを提案する。 2つのトレーニング画像のペアリングと同様に、我々のLP戦略は、拡張画像の更新されたマルチラベルを導出するために、関連するピクセルレベルのクラス位置情報をペアリングする操作を行う。 実験結果から,特にノイズのあるクラス位置情報を持つ各種シナリオにおけるLP戦略の有効性と,その堅牢性が確認された。

The development of supervised deep learning-based methods for multi-label scene classification (MLC) is one of the prominent research directions in remote sensing (RS). Yet, collecting annotations for large RS image archives is time-consuming and costly. To address this issue, several data augmentation methods have been introduced in RS. Among others, the data augmentation technique CutMix, which combines parts of two existing training images to generate an augmented image, stands out as a particularly effective approach. However, the direct application of CutMix in RS MLC can lead to the erasure or addition of class labels (i.e., label noise) in the augmented (i.e., combined) training image. To address this problem, we introduce a label propagation (LP) strategy that allows the effective application of CutMix in the context of MLC problems in RS without being affected by label noise. To this end, our proposed LP strategy exploits pixel-level class positional information to update the multi-label of the augmented training image. We propose to access such class positional information from reference maps associated to each training image (e.g., thematic products) or from class explanation masks provided by an explanation method if no reference maps are available. Similarly to pairing two training images, our LP strategy carries out a pairing operation on the associated pixel-level class positional information to derive the updated multi-label for the augmented image. Experimental results show the effectiveness of our LP strategy in general and its robustness in the case of various simulated and real scenarios with noisy class positional information in particular.
翻訳日:2024-05-25 00:55:07 公開日:2024-05-22
# ユーザレベルの差分プライバシーに基づく平均推定におけるハマーの最小化手法

A Huber Loss Minimization Approach to Mean Estimation under User-level Differential Privacy ( http://arxiv.org/abs/2405.13453v1 )

ライセンス: Link先を確認
Puning Zhao, Lifeng Lai, Li Shen, Qingming Li, Jiafei Wu, Zhe Liu, (参考訳) 分散システムでは,サンプル全体のプライバシ保護が重要である。 最も効果的なアプローチは、2段階のスキームであり、まず小さな間隔を見つけ、次にサンプルをその間隔にクリップすることで洗練された推定値を得る。 しかし, 切断操作は, 試料分布に重みを付けた場合, 偏りを生じさせる。 また,局所的なサンプルサイズが大きいユーザは感度をはるかに大きくすることができるため,不均衡なユーザには適さない。 これらの課題に乗じて,ユーザレベルの差分プライバシに基づく推定を平均化するためのハマー損失最小化手法を提案する。 ハマー損失の接続ポイントは、不均衡なユーザに対応するために適応的に調整できる。 さらに、クリッピング操作を回避し、2段階のアプローチと比較してバイアスを大幅に低減する。 提案手法の理論的解析により,プライバシー保護に必要な雑音強度と平均二乗誤差の有界性が得られる。 その結果,本手法は,ユーザワイドのサンプルサイズとサンプル分布のテールの不均衡に対して,はるかに敏感であることがわかった。 最後に,理論解析の検証のための数値実験を行った。

Privacy protection of users' entire contribution of samples is important in distributed systems. The most effective approach is the two-stage scheme, which finds a small interval first and then gets a refined estimate by clipping samples into the interval. However, the clipping operation induces bias, which is serious if the sample distribution is heavy-tailed. Besides, users with large local sample sizes can make the sensitivity much larger, thus the method is not suitable for imbalanced users. Motivated by these challenges, we propose a Huber loss minimization approach to mean estimation under user-level differential privacy. The connecting points of Huber loss can be adaptively adjusted to deal with imbalanced users. Moreover, it avoids the clipping operation, thus significantly reducing the bias compared with the two-stage approach. We provide a theoretical analysis of our approach, which gives the noise strength needed for privacy protection, as well as the bound of mean squared error. The result shows that the new method is much less sensitive to the imbalance of user-wise sample sizes and the tail of sample distributions. Finally, we perform numerical experiments to validate our theoretical analysis.
翻訳日:2024-05-25 00:45:23 公開日:2024-05-22
# 回帰のための深い線形ネットワークは、平らなミニマに向けて暗黙的に正規化される

Deep linear networks for regression are implicitly regularized towards flat minima ( http://arxiv.org/abs/2405.13456v1 )

ライセンス: Link先を確認
Pierre Marion, Lénaïc Chizat, (参考訳) ニューラルネットワークのHessianの最大の固有値(シャープネス)は、最適化のダイナミクスを理解するための重要な量である。 本稿では,過度に決定された単変量回帰に対する深部線形ネットワークのシャープさについて検討する。 最小化器は任意に大きいシャープ性を持つが、任意に小さいものは持たない。 実際、我々は最小化器のシャープネスの低い境界を示し、深さとともに線形に成長する。 次に, 勾配流から得られる最小化器の特性について検討し, 学習速度の低下に伴う勾配降下の限界について検討した。 平らなミニマに対して暗黙の正則性を示す: 最小化器の鋭さは下界の1倍以下である。 定数はデータ共分散行列の条件数に依存するが、幅や深さには依存しない。 この結果は、小規模初期化と残留初期化の両方で証明されている。 どちらの場合においても、独立した利害関係の結果が示される。 小型初期化では、学習したウェイト行列がほぼランク1であり、それらの特異ベクトルが整列していることが示される。 残留初期化には、残留ネットワークのガウス初期化に対する勾配流の収束が証明される。 数値実験では, 実験結果を例示し, 非消滅学習率で勾配降下に接続する。

The largest eigenvalue of the Hessian, or sharpness, of neural networks is a key quantity to understand their optimization dynamics. In this paper, we study the sharpness of deep linear networks for overdetermined univariate regression. Minimizers can have arbitrarily large sharpness, but not an arbitrarily small one. Indeed, we show a lower bound on the sharpness of minimizers, which grows linearly with depth. We then study the properties of the minimizer found by gradient flow, which is the limit of gradient descent with vanishing learning rate. We show an implicit regularization towards flat minima: the sharpness of the minimizer is no more than a constant times the lower bound. The constant depends on the condition number of the data covariance matrix, but not on width or depth. This result is proven both for a small-scale initialization and a residual initialization. Results of independent interest are shown in both cases. For small-scale initialization, we show that the learned weight matrices are approximately rank-one and that their singular vectors align. For residual initialization, convergence of the gradient flow for a Gaussian initialization of the residual network is proven. Numerical experiments illustrate our results and connect them to gradient descent with non-vanishing learning rate.
翻訳日:2024-05-25 00:45:23 公開日:2024-05-22
# ロングテールオープンワールドにおけるマルチモーダル大言語モデルのコンセプトドリフトへの適応

Adapting Multi-modal Large Language Model to Concept Drift in the Long-tailed Open World ( http://arxiv.org/abs/2405.13459v1 )

ライセンス: Link先を確認
Xiaoyu Yang, Jie Lu, En Yu, (参考訳) 実世界のデータは、しばしば極端な不均衡とアウト・オブ・ディストリビューション(OOD)のインスタンスを示し、モデルのトレーニングに大きく偏っている。 視覚と言語領域で研究されているが、長い尾を持つオープンワールドがマルチモーダルな大言語モデル(MLLM)に与える影響は概ね見過ごされている。 本稿では、まず、事前学習と微調整の段階において、テールドリフトとアウト・オブ・ディストリビューション(OOD)ドリフトに起因する重大なバイアスに対する視覚言語モデルの感受性と脆弱性を実証する。 異なるソースからのバイアスを排除するため、我々は、尾行ドリフト適応とOODドリフト検出を統合フレームワークに統合し、概念ドリフト理論をマルチモーダルに拡張する。 具体的には、T分布に基づくドリフトアダプタを提案し、長い尾問題によって引き起こされるバイアスを効果的に軽減し、また、明示的な分布モデルによるOODデータの識別を容易にする。 広範囲な実験により,尾行ドリフトとOODドリフトに適応するモデルの能力は大幅に向上した。 さらに,視覚言語モデルの事前学習における画像テキストアライメントの効率性と精度を高める。 さらに、我々はOpenMMloと呼ばれる複数のモーダルデータセットを作成し、特に長い尾を持つオープンワールドのシナリオに特化して、我々の発見を検証する。 マルチモーダルコミュニティの開発を促進するため、OpenMMloデータセットとコードの両方を、https://github.com/Anonymous0Knight/ConceptDriftMLLMsで公開しました。

Real-world data often exhibit extreme imbalances and out-of-distribution (OOD) instances, which significantly biases the model training. While it has been extensively studied in vision and language domains separately, the impact of long-tailed open worlds on multi-modal large language models (MLLMs) has been largely overlooked. In this paper, we first demonstrate the susceptibility and vulnerability of vision-language models to significant biases caused by tail drift and out-of-distribution (OOD) drift during both the pre-training and fine-tuning stages. To eliminate the bias from different sources, we integrate the tailed drift adaptation and OOD drift detection into a unified framework by extending the concept drift theory to multi-modal. Specifically, a T-distribution-based drift adapter is proposed to effectively mitigate the bias induced by the long-tailed problem, which also facilitates the model in distinguishing OOD data through explicit distribution modelling. Extensive experiments show significant improvements in our model's ability to adapt to tailed drift and OOD drift. Moreover, it enhances the efficiency and accuracy of image-text alignment in vision language model pre-training, particularly in the long-tail open world scenario. Furthermore, we create a set of multi-modal datasets called OpenMMlo, specifically tailored for the long-tailed open world scenario, to validate our findings. To foster the development of the multi-modal community, we have made both OpenMMlo datasets and our code publicly available at: https://github.com/Anonymous0Knight/ConceptDriftMLLMs.
翻訳日:2024-05-25 00:45:23 公開日:2024-05-22
# 分析比II

Analogical proportions II ( http://arxiv.org/abs/2405.13461v1 )

ライセンス: Link先を確認
Christian Antić, (参考訳) アナロジカル推論(アナロジカル推論、英: Analogical reasoning)とは、2つの一見遠い物体や状況の間の平行を検知する能力であり、例えば常識的推論、学習、創造において使用される基本的な人間の能力であり、多くの研究者が人間と人工知能の核にあると信じている。 a$ is to $b$ is to $c$ is to $d$'' at the core of analogical reasoning。 著者は最近、普遍代数学の一般設定の中で類比例の抽象的代数的枠組みを導入した。 本研究の目的は、人工知能の論理プログラム合成にすでにうまく応用されているという事実から、その枠組み内での類比の数学的理論をさらに発展させることである。

Analogical reasoning is the ability to detect parallels between two seemingly distant objects or situations, a fundamental human capacity used for example in commonsense reasoning, learning, and creativity which is believed by many researchers to be at the core of human and artificial general intelligence. Analogical proportions are expressions of the form ``$a$ is to $b$ what $c$ is to $d$'' at the core of analogical reasoning. The author has recently introduced an abstract algebraic framework of analogical proportions within the general setting of universal algebra. It is the purpose of this paper to further develop the mathematical theory of analogical proportions within that framework as motivated by the fact that it has already been successfully applied to logic program synthesis in artificial intelligence.
翻訳日:2024-05-25 00:45:23 公開日:2024-05-22
# ブロックチェーンと人工知能 - シナジーと衝突

Blockchain and Artificial Intelligence: Synergies and Conflicts ( http://arxiv.org/abs/2405.13462v1 )

ライセンス: Link先を確認
Leon Witt, Armando Teles Fortes, Kentaroh Toyoda, Wojciech Samek, Dan Li, (参考訳) ブロックチェーン技術と人工知能(AI)は、それぞれのドメインにトランスフォーメーションフォースとして出現している。 本稿では,この2つの技術間の相乗効果と課題について考察する。 我々の研究は、ブロックチェーンとAIを組み合わせた最大のプロジェクトを市場資本化に基づいて分析し、現代のユースケースと将来のユースケースを分類する新しいフレームワークを導出します。 理論的に互換性があるにも関わらず、ブロックチェーンとAIを組み合わせた現在の現実世界のアプリケーションは、まだ初期段階にある。

Blockchain technology and Artificial Intelligence (AI) have emerged as transformative forces in their respective domains. This paper explores synergies and challenges between these two technologies. Our research analyses the biggest projects combining blockchain and AI, based on market capitalization, and derives a novel framework to categorize contemporary and future use cases. Despite the theoretical compatibility, current real-world applications combining blockchain and AI remain in their infancy.
翻訳日:2024-05-25 00:45:23 公開日:2024-05-22
# AdaFedFR:適応型クラス間表現学習によるフェデレーション顔認識

AdaFedFR: Federated Face Recognition with Adaptive Inter-Class Representation Learning ( http://arxiv.org/abs/2405.13467v1 )

ライセンス: Link先を確認
Di Qiu, Xinyang Lin, Kaiye Wang, Xiangxiang Chu, Pengfei Yan, (参考訳) 顔認識アプリケーションにおけるデータプライバシと通信セキュリティへの注目が高まっているため、フェデレーション学習が導入され、プライバシ保護方式で分散データセットを用いた顔認識モデルが学習されるようになった。 しかし、既存の作業は、パフォーマンスの不満や通信コストの増加、現実のシナリオでの適用可能性の制限といった課題に直面している。 本稿では、汎用顔モデルの一般化と厳密なプライバシー保護下でのフェデレーショントレーニングの効率を高めるために、適応型クラス間表現学習アルゴリズムを考案し、AdaFedFRと呼ばれるシンプルなフェデレーション顔認識フレームワークを提案する。 特に,公共アイデンティティの特徴表現を学習可能な負の知識として微妙に活用して特徴空間内の局所的な目的を最適化し,より強力な表現を学習し,クライアント向けにパーソナライズされたモデルを最適化することを奨励する。 実験結果から,本手法は,3ラウンド未満の通信において,複数の顔認識ベンチマークにおいて,従来の手法よりも優れており,通信に親しみやすく,効率が高いことが示された。

With the growing attention on data privacy and communication security in face recognition applications, federated learning has been introduced to learn a face recognition model with decentralized datasets in a privacy-preserving manner. However, existing works still face challenges such as unsatisfying performance and additional communication costs, limiting their applicability in real-world scenarios. In this paper, we propose a simple yet effective federated face recognition framework called AdaFedFR, by devising an adaptive inter-class representation learning algorithm to enhance the generalization of the generic face model and the efficiency of federated training under strict privacy-preservation. In particular, our work delicately utilizes feature representations of public identities as learnable negative knowledge to optimize the local objective within the feature space, which further encourages the local model to learn powerful representations and optimize personalized models for clients. Experimental results demonstrate that our method outperforms previous approaches on several prevalent face recognition benchmarks within less than 3 communication rounds, which shows communication-friendly and great efficiency.
翻訳日:2024-05-25 00:45:22 公開日:2024-05-22
# クロス相関写像と深部学習を組み合わせた中分解能積分場スペクトルを用いた高コントラスト分光法における外惑星検出のための機械学習

Machine learning for exoplanet detection in high-contrast spectroscopy Combining cross correlation maps and deep learning on medium-resolution integral-field spectra ( http://arxiv.org/abs/2405.13468v1 )

ライセンス: Link先を確認
Rakesh Nath-Ranga, Olivier Absil, Valentin Christiaens, Emily O. Garvin, (参考訳) 高コントラスト撮像装置の出現と中分解能分光法の組み合わせにより、スペクトルと時間次元を空間次元と組み合わせることで、高感度で太陽系外惑星を検出し、潜在的に特徴付けることができる。 我々は,高コントラスト系外惑星に対する検出感度を向上させるために,教師付きディープラーニングアルゴリズムを用いて,積分場分光(IFS)データセットのスペクトル次元と空間次元を効果的に活用する手法を開発した。 IFSデータセットを若いガス巨星のテンプレートスペクトルと相互相関した相関係数テンソルに置き換えるデータ変換を適用することから始める。 この変換されたデータは、機械学習(ML)アルゴリズムのトレーニングに使用される。 データを用いて2D CNNと3D LSTMをトレーニングする。 我々は, arXiv:1810.06895のSTIMマップに基づいて, MLモデルと非MLアルゴリズムを比較した。 我々は、既知の外惑星を含まないデータセットで、シミュレーションされた若いガス巨星のアルゴリズムを試験し、これらの外惑星を異なる放射状分離で1e-3から1e-4までのコントラストで検出するアルゴリズムの感度を探索する。 修正受信器動作特性曲線(mROC)を用いて感度を定量化する。 MLアルゴリズムは,STIMアルゴリズムよりも偽陽性が少なく,真陽性率が高いことが判明し,ラジアル分離の変化により,MLアルゴリズムの真陽性率が低下することが判明した。 速度の次元は重要な微分因子であることがわかった。 本稿では,ICSデータセットにおいて,スペクトル次元を交叉相関演算により放射速度次元に変換した後,検出限界を改良し,直接撮像された惑星の偽陽性を低減できる可能性を示す。

The advent of high-contrast imaging instruments combined with medium-resolution spectrographs allows spectral and temporal dimensions to be combined with spatial dimensions to detect and potentially characterize exoplanets with higher sensitivity. We develop a new method to effectively leverage the spectral and spatial dimensions in integral-field spectroscopy (IFS) datasets using a supervised deep-learning algorithm to improve the detection sensitivity to high-contrast exoplanets. We begin by applying a data transform whereby the IFS datasets are replaced by cross-correlation coefficient tensors obtained by cross-correlating our data with young gas giant spectral template spectra. This transformed data is then used to train machine learning (ML) algorithms. We train a 2D CNN and 3D LSTM with our data. We compare the ML models with a non-ML algorithm, based on the STIM map of arXiv:1810.06895. We test our algorithms on simulated young gas giants in a dataset that contains no known exoplanet, and explore the sensitivity of algorithms to detect these exoplanets at contrasts ranging from 1e-3 to 1e-4 at different radial separations. We quantify the sensitivity using modified receiver operating characteristic curves (mROC). We discover that the ML algorithms produce fewer false positives and have a higher true positive rate than the STIM-based algorithm, and the true positive rate of ML algorithms is less impacted by changing radial separation. We discover that the velocity dimension is an important differentiating factor. Through this paper, we demonstrate that ML techniques have the potential to improve the detection limits and reduce false positives for directly imaged planets in IFS datasets, after transforming the spectral dimension into a radial velocity dimension through a cross-correlation operation.
翻訳日:2024-05-25 00:45:22 公開日:2024-05-22
# 高コントラスト分光における外惑星検出のための機械学習:畳み込みニューラルネットワークを用いた交叉相関スペクトルにおける隠れ分子信号の活用による外惑星の探索

Machine Learning for Exoplanet Detection in High-Contrast Spectroscopy: Revealing Exoplanets by Leveraging Hidden Molecular Signatures in Cross-Correlated Spectra with Convolutional Neural Networks ( http://arxiv.org/abs/2405.13469v1 )

ライセンス: Link先を確認
Emily O. Garvin, Markus J. Bonse, Jean Hayoz, Gabriele Cugno, Jonas Spiller, Polychronis A. Patapis, Dominique Petit Dit de la Roche, Rakesh Nath-Ranga, Olivier Absil, Nicolai F. Meinshausen, Sascha P. Quanz, (参考訳) 次世代の観測機器(VLT/ERIS, JWST, ELT)は、かすかで近縁な太陽系外惑星を検出し特徴付ける堅牢な方法の開発を動機付けている。 分光法における分子マッピングと相互相関は、惑星のスペクトルを主星から分離するために分子テンプレートを用いる。 しかし、信号対雑音比(S/N)の指標に依存すると、ガウス独立性および同一分布ノイズの強い仮定により、発見が遅れる可能性がある。 本研究では,大気中の特定の分子の存在など,外惑星特性の弱い仮定を活用することを目的として,相互相関分光法(MLCCS)の機械学習を導入し,外惑星の検出感度を向上させることを目的とする。 パーセプトロンと一次元畳み込みニューラルネットワークを含むLCCS法は、分子のパターンを識別できるクロスコラージュスペクトル次元で動作する。 我々は、KバンドでSINFONIから実雑音に挿入された合成惑星のモックデータセットをテストする。 MLCCSの結果は著しく改善された。 希薄な合成ガス巨人の格子上の結果は、偽発見率が5%に達すると、パーセプトロンはS/N測定値の約26倍の惑星を検出できることを示している。 この因子は畳み込みニューラルネットワークで77倍に増加し、統計的感度は0.7%から55.5%に変化した。 さらに、MLCCS法は、画像分光における検出信頼性と顕著性を大幅に改善したことを示す。 一度訓練されると、LCCS法は、スペクトル次元における太陽系外惑星とその分子種を敏感かつ迅速に検出する。 体系的なノイズや観測条件に対処し、多くの分光器やモードに適応でき、大気特性に多角的であり、様々な惑星を考古学的・将来のデータで識別することができる。

The new generation of observatories and instruments (VLT/ERIS, JWST, ELT) motivate the development of robust methods to detect and characterise faint and close-in exoplanets. Molecular mapping and cross-correlation for spectroscopy use molecular templates to isolate a planet's spectrum from its host star. However, reliance on signal-to-noise ratio (S/N) metrics can lead to missed discoveries, due to strong assumptions of Gaussian independent and identically distributed noise. We introduce machine learning for cross-correlation spectroscopy (MLCCS); the method aims to leverage weak assumptions on exoplanet characterisation, such as the presence of specific molecules in atmospheres, to improve detection sensitivity for exoplanets. MLCCS methods, including a perceptron and unidimensional convolutional neural networks, operate in the cross-correlated spectral dimension, in which patterns from molecules can be identified. We test on mock datasets of synthetic planets inserted into real noise from SINFONI at K-band. The results from MLCCS show outstanding improvements. The outcome on a grid of faint synthetic gas giants shows that for a false discovery rate up to 5%, a perceptron can detect about 26 times the amount of planets compared to an S/N metric. This factor increases up to 77 times with convolutional neural networks, with a statistical sensitivity shift from 0.7% to 55.5%. In addition, MLCCS methods show a drastic improvement in detection confidence and conspicuity on imaging spectroscopy. Once trained, MLCCS methods offer sensitive and rapid detection of exoplanets and their molecular species in the spectral dimension. They handle systematic noise and challenging seeing conditions, can adapt to many spectroscopic instruments and modes, and are versatile regarding atmospheric characteristics, which can enable identification of various planets in archival and future data.
翻訳日:2024-05-25 00:45:22 公開日:2024-05-22
# テキスト・ツー・イメージモデルの改良のためのクラス・コンディショナル・セルフ・リワード機構

Class-Conditional self-reward mechanism for improved Text-to-Image models ( http://arxiv.org/abs/2405.13473v1 )

ライセンス: Link先を確認
Safouane El Ghazouali, Arnaud Gucciardi, Umberto Michelucci, (参考訳) 最近、自然言語処理(NLP)の分野で強力なツールとしてセルフリワードが登場し、トレーニング中に自分自身の報酬を提供することで、言語モデルが高品質な応答を生成できるようになった。 この革新的な技術は、人間の好みに依存する他の方法の限界に対処する。 本稿では,自己回帰モデルの概念に基づいて,テキスト・ツー・イメージ生成AIモデルに匹敵するビジョンを導入する。 このアプローチは、自己生成した自己判断データセット上での微調整拡散モデルで動作し、より自動化され、データ品質が向上する。 提案機構は,語彙ベースオブジェクト検出や画像キャプションなどの事前学習モデルを利用し,ユーザが生成したデータ品質を改善するために必要なオブジェクトセットによって条件付けされる。 このアプローチは安定拡散に基づいて実装され、微調整され、評価され、既存の商用および研究用テキスト・ツー・イメージモデルよりも少なくとも60%高い性能が評価されている。 さらに、構築された自己回帰機構により、画像の完全自動生成が可能となり、生成した画像の視覚的品質が向上し、プロンプト命令の追従性が向上した。 この作業で使用されるコードはhttps://github.com/safouaneelg/SRT2Iで無料で利用できる。

Self-rewarding have emerged recently as a powerful tool in the field of Natural Language Processing (NLP), allowing language models to generate high-quality relevant responses by providing their own rewards during training. This innovative technique addresses the limitations of other methods that rely on human preferences. In this paper, we build upon the concept of self-rewarding models and introduce its vision equivalent for Text-to-Image generative AI models. This approach works by fine-tuning diffusion model on a self-generated self-judged dataset, making the fine-tuning more automated and with better data quality. The proposed mechanism makes use of other pre-trained models such as vocabulary based-object detection, image captioning and is conditioned by the a set of object for which the user might need to improve generated data quality. The approach has been implemented, fine-tuned and evaluated on stable diffusion and has led to a performance that has been evaluated to be at least 60\% better than existing commercial and research Text-to-image models. Additionally, the built self-rewarding mechanism allowed a fully automated generation of images, while increasing the visual quality of the generated images and also more efficient following of prompt instructions. The code used in this work is freely available on https://github.com/safouaneelg/SRT2I.
翻訳日:2024-05-25 00:45:22 公開日:2024-05-22
# なぜ説明が失敗するのか : タイポロジーとXAIの失敗に関する議論

Why do explanations fail? A typology and discussion on failures in XAI ( http://arxiv.org/abs/2405.13474v1 )

ライセンス: Link先を確認
Clara Bove, Thibault Laugel, Marie-Jeanne Lesot, Charles Tijus, Marcin Detyniecki, (参考訳) 機械学習(ML)モデルは、前例のないレベルのパフォーマンスを達成するため、XAIドメインは、エンドユーザーに対して理解不能な説明をすることで、これらのモデルを理解可能にすることを目指している。 しかし、いくつかの既存のXAIアプローチは期待を満たさない。いくつかの問題が文献で報告されており、一般的に、技術的な制限またはユーザによる誤解を指摘している。 本稿では,既存のアドホックな研究では達成できないXAIの複数の障害が複雑に重複していることから生じる害について論じる。 この研究は、現在のXAI手法の限界とその説明解釈への影響に関する体系的な研究を提示し、全体論的な視点を提唱する。 システム固有の障害とユーザ固有の障害を区別することにより、説明障害の複雑さの曖昧さを明らかにするためのタイプトロジーフレームワークを提案する。 この類型学を活用することで、AI実践者がXAIシステムの限界をよりよく理解し、MLの説明の質を高めるための研究の方向性についても議論する。

As Machine Learning (ML) models achieve unprecedented levels of performance, the XAI domain aims at making these models understandable by presenting end-users with intelligible explanations. Yet, some existing XAI approaches fail to meet expectations: several issues have been reported in the literature, generally pointing out either technical limitations or misinterpretations by users. In this paper, we argue that the resulting harms arise from a complex overlap of multiple failures in XAI, which existing ad-hoc studies fail to capture. This work therefore advocates for a holistic perspective, presenting a systematic investigation of limitations of current XAI methods and their impact on the interpretation of explanations. By distinguishing between system-specific and user-specific failures, we propose a typological framework that helps revealing the nuanced complexities of explanation failures. Leveraging this typology, we also discuss some research directions to help AI practitioners better understand the limitations of XAI systems and enhance the quality of ML explanations.
翻訳日:2024-05-25 00:45:22 公開日:2024-05-22
# 都市における典型的な信号化交差点とは何か? OpenStreetMapによる交差点データ計算パイプライン

What is a typical signalized intersection in a city? A pipeline for intersection data imputation from OpenStreetMap ( http://arxiv.org/abs/2405.13480v1 )

ライセンス: Link先を確認
Ao Qu, Anirudh Valiveru, Catherine Tang, Vindula Jayawardana, Baptiste Freydt, Cathy Wu, (参考訳) 信号化交差点は、おそらく最も複雑な交通シナリオであり、都市移動システムにとって不可欠である。 近年のインテリジェントトランスポート技術の進歩により、信号通信の交差点はより緑く、安全で、より速く交通を届ける大きな可能性を持っている。 交差レベル制御と最適化に焦点を当てたいくつかの研究が実施されている。 しかし、しばしば使用される任意の構造化された信号化交差点は、地上構造分布を表現せず、現実世界の信号化交差点に関する情報を抽出するための標準化された方法が存在しない。 世界最大のオープンソースマップであるOpenStreetMap (OSM)は、多くの交通研究者によって様々な研究に使われてきた。 しかし、OSMデータの質は深刻な問題だった。 本稿では,OSMから信号化交差点に関する情報を効果的に抽出し,包括的データセットを構築するパイプラインを提案する。 我々は、この課題に関する課題を徹底的に議論し、各課題に対する解決策を提案する。 また,ソルトレイクシティを例に,本手法の性能を実演する。 パイプラインはオープンソースのPythonライブラリとして公開されており、誰でも自由にダウンロードして、研究を促進することができる。 この論文は,様々な交通問題に対して,標準化された,体系化されたデータパイプラインを構築するための出発点として機能することが望まれる。

Signalized intersections, arguably the most complicated type of traffic scenario, are essential to urban mobility systems. With recent advancements in intelligent transportation technologies, signalized intersections have great prospects for making transportation greener, safer, and faster. Several studies have been conducted focusing on intersection-level control and optimization. However, arbitrarily structured signalized intersections that are often used do not represent the ground-truth distribution, and there is no standardized way that exists to extract information about real-world signalized intersections. As the largest open-source map in the world, OpenStreetMap (OSM) has been used by many transportation researchers for a variety of studies, including intersection-level research such as adaptive traffic signal control and eco-driving. However, the quality of OSM data has been a serious concern. In this paper, we propose a pipeline for effectively extracting information about signalized intersections from OSM and constructing a comprehensive dataset. We thoroughly discuss challenges related to this task and we propose our solution for each challenge. We also use Salt Lake City as an example to demonstrate the performance of our methods. The pipeline has been published as an open-source Python library so everyone can freely download and use it to facilitate their research. Hopefully, this paper can serve as a starting point that inspires more efforts to build a standardized and systematic data pipeline for various types of transportation problems.
翻訳日:2024-05-25 00:45:22 公開日:2024-05-22
# 公共性を考慮した地域個人推定

Locally Private Estimation with Public Features ( http://arxiv.org/abs/2405.13481v1 )

ライセンス: Link先を確認
Yuheng Ma, Ke Jia, Hanfang Yang, (参考訳) 公的な特徴を持つ地域差分学習(LDP)の研究を開始する。 準機能 LDP の定義では,いくつかの機能が公開されており,残りの機能とラベルは,局所的な差分プライバシーの下で保護が必要である。 半機能 LDP では,非パラメトリック回帰の最小収束速度が従来の LDP に比べて大幅に減少することを示した。 次に、パブリック機能とプライベート機能の両方に含まれる情報を完全に活用する推定器HistOfTreeを提案する。 理論的には、HistOfTreeは極小最大収束率に達する。 HistOfTreeは、合成データと実データの両方で優れたパフォーマンスを実現している。 また、ユーザーが手動で保護機能を選択する柔軟性のあるシナリオについても検討しています。 このような場合、推定器とデータ駆動型パラメータチューニング戦略を提案し、同様の理論的および経験的な結果をもたらす。

We initiate the study of locally differentially private (LDP) learning with public features. We define semi-feature LDP, where some features are publicly available while the remaining ones, along with the label, require protection under local differential privacy. Under semi-feature LDP, we demonstrate that the mini-max convergence rate for non-parametric regression is significantly reduced compared to that of classical LDP. Then we propose HistOfTree, an estimator that fully leverages the information contained in both public and private features. Theoretically, HistOfTree reaches the mini-max optimal convergence rate. Empirically, HistOfTree achieves superior performance on both synthetic and real data. We also explore scenarios where users have the flexibility to select features for protection manually. In such cases, we propose an estimator and a data-driven parameter tuning strategy, leading to analogous theoretical and empirical results.
翻訳日:2024-05-25 00:45:22 公開日:2024-05-22
# 医用画像の連続的学習 : 理論から実践へ:調査と実践的分析

Continual Learning in Medical Imaging from Theory to Practice: A Survey and Practical Analysis ( http://arxiv.org/abs/2405.13482v1 )

ライセンス: Link先を確認
Mohammad Areeb Qazi, Anees Ur Rehman Hashmi, Santosh Sanjeev, Ibrahim Almakky, Numan Saeed, Mohammad Yaqub, (参考訳) Deep Learningは医療画像の再構成で大きな成功を収めているが、幅広い応用を妨げる多くの課題に直面している。 相変わらず進化を続けるデータストリームにおける破滅的な忘れ込みや分散シフトといった問題は、研究とアプリケーションの間のギャップを増大させます。 Continual Learningは、ニューラルネットワークにおける過去の学習を忘れずに、新たな知識のシーケンシャルな獲得を可能にすることで、これらのハードルに対処する上での約束を提供する。 本調査では,医学領域における継続的な学習に関する最近の文献を概観し,最近の傾向を概観し,実際的な問題点を指摘する。 具体的には,医学領域における分類,分節,検出,その他の課題に関する継続的な学習研究について調査する。 さらに、レビュー研究のための分類学を開発し、課題を特定し、それらを克服するための洞察を提供する。 また,医療画像における継続的な学習の現状についても批判的に議論し,オープンな問題を特定し,将来的な方向性を概説する。 この調査は、研究者にこの分野の発展に関する有用な概要を提供し、コミュニティへの関心をさらに高めることを願っている。 この分野での急速な進展に追随するため、私たちは、最新の関連論文をhttps://github.com/BioMedIA-MBzuAI/awesome-cl-in-medical で定期的に更新する予定です。

Deep Learning has shown great success in reshaping medical imaging, yet it faces numerous challenges hindering widespread application. Issues like catastrophic forgetting and distribution shifts in the continuously evolving data stream increase the gap between research and applications. Continual Learning offers promise in addressing these hurdles by enabling the sequential acquisition of new knowledge without forgetting previous learnings in neural networks. In this survey, we comprehensively review the recent literature on continual learning in the medical domain, highlight recent trends, and point out the practical issues. Specifically, we survey the continual learning studies on classification, segmentation, detection, and other tasks in the medical domain. Furthermore, we develop a taxonomy for the reviewed studies, identify the challenges, and provide insights to overcome them. We also critically discuss the current state of continual learning in medical imaging, including identifying open problems and outlining promising future directions. We hope this survey will provide researchers with a useful overview of the developments in the field and will further increase interest in the community. To keep up with the fast-paced advancements in this field, we plan to routinely update the repository with the latest relevant papers at https://github.com/BioMedIA-MBZUAI/awesome-cl-in-medical .
翻訳日:2024-05-25 00:45:22 公開日:2024-05-22
# ジェネレーティブAI:新しい教育の力

Generative AI: The power of the new education ( http://arxiv.org/abs/2405.13487v1 )

ライセンス: Link先を確認
Sergio Altares-López, José M. Bengochea-Guevara, Carlos Ranz, Héctor Montes, Angela Ribeiro, (参考訳) 教育における生成人工知能の効果的な統合は、将来の世代を準備するための基本的な側面である。 本研究では,その生成能力に着目した,人工知能の高速化学習手法を提案する。 それは、教師に新しい技術に取り組み、AIに関連するものだけでなく、あらゆる分野の手法を適応させることの難しさを認識している。 この方法論は、科学、技術、工学、数学への関心を促進するだけでなく、AIに関連する倫理的利用とリスクに対する学生の理解を促進する。 生成的AIに対する学生の認識は、その進化に対する感情、倫理的意味の評価、そしてAIツールの日常的使用に焦点をあてて調査される。 さらに、学生がよく利用するAIアプリケーションとその他の分野への統合について検討した。 この研究は、AIに対する学生の認識と、その社会と将来のキャリアパスとの関連性について、より深く理解した教育者を提供することを目的としている。

The effective integration of generative artificial intelligence in education is a fundamental aspect to prepare future generations. This study proposes an accelerated learning methodology in artificial intelligence, focused on its generative capacity, as a way to achieve this goal. It recognizes the challenge of getting teachers to engage with new technologies and adapt their methods in all subjects, not just those related to AI. This methodology not only promotes interest in science, technology, engineering and mathematics, but also facilitates student understanding of the ethical uses and risks associated with AI. Students' perceptions of generative AI are examined, addressing their emotions towards its evolution, evaluation of its ethical implications, and everyday use of AI tools. In addition, AI applications commonly used by students and their integration into other disciplines are investigated. The study aims to provide educators with a deeper understanding of students' perceptions of AI and its relevance in society and in their future career paths.
翻訳日:2024-05-25 00:45:22 公開日:2024-05-22
# ハイパープロパティ検証のための非決定論的計画法

Non-Deterministic Planning for Hyperproperty Verification ( http://arxiv.org/abs/2405.13488v1 )

ライセンス: Link先を確認
Raven Beutner, Bernd Finkbeiner, (参考訳) 非決定論的計画(英語版)は、行動が不確実な環境において所定の目的を達成する政策を見つけることを目的としており、エージェントが(潜在的に)現在の状態の一部だけを観察することを目的としている。 ハイパープロパティは、システムの複数のパスに関連するプロパティであり、例えば、セキュリティと情報フローポリシーをキャプチャできる。 HyperLTLのような時間的ハイパープロパティを表現する一般的なロジックは、システムの実行に対して選択的な定量化を提供することでLTLを拡張する。 本稿では,ハイパープロパティの自動検証において,計画が強力な中間言語を提供することを示す。 具体的には,ハイパーLTL検証問題を前提として,非決定論的マルチエージェント計画インスタンス(QDec-POMDPの形式で)を構築するアルゴリズムを提案する。 提案手法は,HyperLTLの大きな断片に対して,従来のFOND,あるいはPOND計画問題に対応していることを示す。 プロトタイプ検証ツールに符号化を実装し,実験結果を報告する。

Non-deterministic planning aims to find a policy that achieves a given objective in an environment where actions have uncertain effects, and the agent - potentially - only observes parts of the current state. Hyperproperties are properties that relate multiple paths of a system and can, e.g., capture security and information-flow policies. Popular logics for expressing temporal hyperproperties - such as HyperLTL - extend LTL by offering selective quantification over executions of a system. In this paper, we show that planning offers a powerful intermediate language for the automated verification of hyperproperties. Concretely, we present an algorithm that, given a HyperLTL verification problem, constructs a non-deterministic multi-agent planning instance (in the form of a QDec-POMDP) that, when admitting a plan, implies the satisfaction of the verification problem. We show that for large fragments of HyperLTL, the resulting planning instance corresponds to a classical, FOND, or POND planning problem. We implement our encoding in a prototype verification tool and report on encouraging experimental results.
翻訳日:2024-05-25 00:45:22 公開日:2024-05-22
# セマンティックチャネル等化のための潜時空間アライメント

Latent Space Alignment for Semantic Channel Equalization ( http://arxiv.org/abs/2405.13511v1 )

ライセンス: Link先を確認
Tomás Huttebraucker, Mohamed Sana, Emilio Calvanese Strinati, (参考訳) 我々は,分散タスク解決における言語ミスマッチの効果を探るため,セマンティックおよびゴール指向のコミュニケーションシステムにおけるエージェント間の共用言語の制約を緩和する。 本稿では,エージェントが異なる言語を使用する場合のコミュニケーションで導入された意味的歪みのモデル化と尺度を提供する数学的枠組みを提案する。 そこで我々は, 数値評価により, 有効性を証明した意味チャネル等化手法を提案する。

We relax the constraint of a shared language between agents in a semantic and goal-oriented communication system to explore the effect of language mismatch in distributed task solving. We propose a mathematical framework, which provides a modelling and a measure of the semantic distortion introduced in the communication when agents use distinct languages. We then propose a new approach to semantic channel equalization with proven effectiveness through numerical evaluations.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# 熱界面材料の被覆経路計画

Coverage Path Planning for Thermal Interface Materials ( http://arxiv.org/abs/2405.13512v1 )

ライセンス: Link先を確認
Simon Baeuerle, Andreas Steimer, Ralf Mikut, (参考訳) パワーエレクトロニクスと電子制御ユニットの熱管理は、電力密度の増加と限られた組立スペースの時において不可欠である。 電気自動車と自動運転車は目覚ましい応用分野だ。 熱界面材料は半導体から熱シンクへの熱伝達に用いられる。 半導体にディスペンサー経路に沿って塗布され、ヒートシンクが結合すると表面全体に広がる。 このアプリケーションパスを計画するために、設計エンジニアは通常、精巧なシミュレーションと手動実験の反復的な試行錯誤手順を実行する。 完全自動最適化手法を提案する。これは現在の手動経路計画より明らかに優れており、関連する製造制約をすべて尊重するものである。 最適供給経路は、熱界面の信頼性を高め、材料廃棄物を減らすことにより製造をより持続可能なものにする。 本報告では, 自動車シリーズ生産における実製品について, 実車シリーズ製造装置の実験的検証を含む, 複数の実製品について結果を示す。

Thermal management of power electronics and Electronic Control Units is crucial in times of increasing power densities and limited assembly space. Electric and autonomous vehicles are a prominent application field. Thermal Interface Materials are used to transfer heat from a semiconductor to a heatsink. They are applied along a dispense path onto the semiconductor and spread over its entire surface once the heatsink is joined. To plan this application path, design engineers typically perform an iterative trial-and-error procedure of elaborate simulations and manual experiments. We propose a fully automated optimization approach, which clearly outperforms the current manual path planning and respects all relevant manufacturing constraints. An optimum dispense path increases the reliability of the thermal interface and makes the manufacturing more sustainable by reducing material waste. We show results on multiple real products from automotive series production, including an experimental validation on actual series manufacturing equipment.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# マルチデコーダと知識蒸留を用いたストリーム音声認識と非ストリーム音声認識の併用最適化

Joint Optimization of Streaming and Non-Streaming Automatic Speech Recognition with Multi-Decoder and Knowledge Distillation ( http://arxiv.org/abs/2405.13514v1 )

ライセンス: Link先を確認
Muhammad Shakeel, Yui Sudo, Yifan Peng, Shinji Watanabe, (参考訳) エンドツーエンド(E2E)自動音声認識(ASR)はストリーミングと非ストリーミングの2つのモードで動作することができる。 ストリーミング ASR は受信された音声フレームをリアルタイムで処理し、非ストリーミング ASR は全音声の発声を待つ。 本研究では,マルチデコーダと知識蒸留に基づくストリーミングと非ストリーミングASRの協調最適化を提案する。 主に研究 1) これらのASRモジュールのエンコーダ統合 2)切り換えモードのフレキシブル化と性能向上のための分離デコーダ 3) 2つのモジュールエンコーダとデコーダの類似性保存知識蒸留を取り入れた。 評価結果によると、ストリーミングASRのCSJでは2.6%-5.3%の相対的な文字誤り率(CERR)が減少し、8.3%-9.7%の相対的なCERRは、複数のスタンドアロンモジュールと比較して単一のモデル内での非ストリーミングASRでは相対的なCERRが減少している。

End-to-end (E2E) automatic speech recognition (ASR) can operate in two modes: streaming and non-streaming, each with its pros and cons. Streaming ASR processes the speech frames in real-time as it is being received, while non-streaming ASR waits for the entire speech utterance; thus, professionals may have to operate in either mode to satisfy their application. In this work, we present joint optimization of streaming and non-streaming ASR based on multi-decoder and knowledge distillation. Primarily, we study 1) the encoder integration of these ASR modules, followed by 2) separate decoders to make the switching mode flexible, and enhancing performance by 3) incorporating similarity-preserving knowledge distillation between the two modular encoders and decoders. Evaluation results show 2.6%-5.3% relative character error rate reductions (CERR) on CSJ for streaming ASR, and 8.3%-9.7% relative CERRs for non-streaming ASR within a single model compared to multiple standalone modules.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# テキスト分類のための多スケール核融合量子深部畳み込みニューラルネットワーク

Multi-Scale Feature Fusion Quantum Depthwise Convolutional Neural Networks for Text Classification ( http://arxiv.org/abs/2405.13515v1 )

ライセンス: Link先を確認
Yixiong Chen, Weichuan Fang, (参考訳) 近年、量子機械学習の発展に伴い、自然言語処理(NLP)分野において量子ニューラルネットワーク(QNN)が注目され、将来性のある成果を上げている。 しかし、既存のほとんどのQNNモデルは、量子リカレントニューラルネットワーク(QRNN)と自己認識機構(QSAM)のアーキテクチャに焦点を当てている。 本研究では,量子畳み込みに基づく新しいQNNモデルを提案する。 我々は、パラメータの数を著しく減らし、計算複雑性を下げる量子深度畳み込みを開発する。 また,単語レベルの特徴と文レベルの特徴を統合することで,モデル性能を向上させるマルチスケール機能融合機構を導入する。 さらに,より効率的な埋め込みベクトルを提供する量子単語埋め込みと量子文埋め込みを提案する。 2つのベンチマークテキスト分類データセットの実験を通して、我々のモデルは最先端QNNモデルよりも優れた性能を示す。 特に、我々のモデルはRPデータセット上で96.77%の新しい最先端テスト精度を達成する。 また、より少ないパラメータを用いてテスト精度を向上させる能力において、従来の量子モデルよりも量子モデルの利点を示す。 最後に、アブレーション試験により、マルチスケールの特徴融合機構と量子深度畳み込みによるモデル性能の向上の有効性を確認する。

In recent years, with the development of quantum machine learning, quantum neural networks (QNNs) have gained increasing attention in the field of natural language processing (NLP) and have achieved a series of promising results. However, most existing QNN models focus on the architectures of quantum recurrent neural network (QRNN) and self-attention mechanism (QSAM). In this work, we propose a novel QNN model based on quantum convolution. We develop the quantum depthwise convolution that significantly reduces the number of parameters and lowers computational complexity. We also introduce the multi-scale feature fusion mechanism to enhance model performance by integrating word-level and sentence-level features. Additionally, we propose the quantum word embedding and quantum sentence embedding, which provide embedding vectors more efficiently. Through experiments on two benchmark text classification datasets, we demonstrate our model outperforms a wide range of state-of-the-art QNN models. Notably, our model achieves a new state-of-the-art test accuracy of 96.77% on the RP dataset. We also show the advantages of our quantum model over its classical counterparts in its ability to improve test accuracy using fewer parameters. Finally, an ablation test confirms the effectiveness of the multi-scale feature fusion mechanism and quantum depthwise convolution in enhancing model performance.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# LIRE:リコメンデーションアライメントのためのリストワイド報酬強化

LIRE: listwise reward enhancement for preference alignment ( http://arxiv.org/abs/2405.13516v1 )

ライセンス: Link先を確認
Mingye Zhu, Yi Liu, Lei Zhang, Junbo Guo, Zhendong Mao, (参考訳) 近年,Large Language Models (LLMs) の生成と人的価値の整合を図り,有害な内容や不健康な内容の緩和に努めている。 人間のフィードバックからの強化学習(RLHF)の活用は有効であることが証明され、研究者によって広く採用されている。 しかし、RLHFの実装は複雑であり、ハイパーパラメータに対する感度は安定した性能とスケーラビリティを達成する。 さらに、選好アライメントに対する一般的なアプローチは、主にペアワイズ比較に焦点を合わせ、マルチレスポンスシナリオを限定的に探索することで、候補プール内の潜在的リッチネスを見越すことができる。 リストワイド・リワード・エンハンスメント・フォー・プライス・アライメント(LIRE)は、複数の応答のオフライン報酬を合理化されたリストワイド・フレームワークに組み込んだ、勾配に基づく報酬最適化手法である。 LIREは実装が簡単で、最小限のパラメータチューニングが必要であり、自然にマルチレスポンスシナリオに拡張しながらペアワイズパラダイムとシームレスに整合する。 さらに、トレーニング中に報酬を反復的に精算することを目的とした自己改善アルゴリズムを導入する。 実験の結果、LIREは対話タスクや要約タスクのベンチマークにおいて既存の手法よりも優れており、プロキシ報酬モデルと人間のアノテーションを用いて評価されたアウト・オブ・ディストリビューションデータへの転送性が良好であることがわかった。

Recently, tremendous strides have been made to align the generation of Large Language Models (LLMs) with human values to mitigate toxic or unhelpful content. Leveraging Reinforcement Learning from Human Feedback (RLHF) proves effective and is widely adopted by researchers. However, implementing RLHF is complex, and its sensitivity to hyperparameters renders achieving stable performance and scalability challenging. Furthermore, prevailing approaches to preference alignment primarily concentrate on pairwise comparisons, with limited exploration into multi-response scenarios, thereby overlooking the potential richness within the candidate pool. For the above reasons, we propose a new approach: Listwise Reward Enhancement for Preference Alignment (LIRE), a gradient-based reward optimization approach that incorporates the offline rewards of multiple responses into a streamlined listwise framework, thus eliminating the need for online sampling during training. LIRE is straightforward to implement, requiring minimal parameter tuning, and seamlessly aligns with the pairwise paradigm while naturally extending to multi-response scenarios. Moreover, we introduce a self-enhancement algorithm aimed at iteratively refining the reward during training. Our experiments demonstrate that LIRE consistently outperforms existing methods across several benchmarks on dialogue and summarization tasks, with good transferability to out-of-distribution data, assessed using proxy reward models and human annotators.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# WaterPool: 不可避性、効力性、ロバスト性の間のトレードオフを緩和する透かし

WaterPool: A Watermark Mitigating Trade-offs among Imperceptibility, Efficacy and Robustness ( http://arxiv.org/abs/2405.13517v1 )

ライセンス: Link先を確認
Baizhou Huang, Xiaojun Wan, (参考訳) 日常生活における大きな言語モデル(LLM)の利用の増加に伴い、その潜在的な誤用や社会的影響に関する懸念が浮上している。 ウォーターマーキングは、生成されたテキストにパターンを注入することで、特定のモデルの使用をトレースするために提案される。 理想的な透かしは、テキストが部分的に変更されても高い検出率(有効性)を確保しながら、元のLCMとほとんど区別できない出力を生成するべきである。 提案された多くの方法にもかかわらず、同時に3つの特性をすべて達成しておらず、固有のトレードオフが明らかになっている。 本稿では,キーモジュールとマークモジュールの2つの異なるモジュールに透かしを分解することで,既存の透かし技術を統合するために鍵中心方式を用いる。 この分解を通じて、キーモジュールが先行手法で観測されたトレードオフ問題に大きく貢献することを示す。 具体的には、生成中のキーサンプリング空間のスケールと検出時のキー復元の複雑さの矛盾を反映している。 そこで本研究では,キー復元プロセスを改善するためにセマンティクスに基づく探索を活用しながら,非受容性に要求される完全なキーサンプリング空間を保存できる,シンプルで効果的なキーモジュールである \textbf{WaterPool} を紹介する。 WaterPoolは、ほとんどの透かしと統合でき、プラグインとして機能する。 3つの有名な透かし技術を用いた実験により,WaterPoolは性能を著しく向上し,ほぼ最適不受容性を実現し,有効性と堅牢性(KGWは+12.73\%,EXPは+20.27\%,ITSは+7.27\%)を著しく向上した。

With the increasing use of large language models (LLMs) in daily life, concerns have emerged regarding their potential misuse and societal impact. Watermarking is proposed to trace the usage of specific models by injecting patterns into their generated texts. An ideal watermark should produce outputs that are nearly indistinguishable from those of the original LLM (imperceptibility), while ensuring a high detection rate (efficacy), even when the text is partially altered (robustness). Despite many methods having been proposed, none have simultaneously achieved all three properties, revealing an inherent trade-off. This paper utilizes a key-centered scheme to unify existing watermarking techniques by decomposing a watermark into two distinct modules: a key module and a mark module. Through this decomposition, we demonstrate for the first time that the key module significantly contributes to the trade-off issues observed in prior methods. Specifically, this reflects the conflict between the scale of the key sampling space during generation and the complexity of key restoration during detection. To this end, we introduce \textbf{WaterPool}, a simple yet effective key module that preserves a complete key sampling space required by imperceptibility while utilizing semantics-based search to improve the key restoration process. WaterPool can integrate with most watermarks, acting as a plug-in. Our experiments with three well-known watermarking techniques show that WaterPool significantly enhances their performance, achieving near-optimal imperceptibility and markedly improving efficacy and robustness (+12.73\% for KGW, +20.27\% for EXP, +7.27\% for ITS).
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# PerSense:Dense Imagesにおけるパーソナライズされたインスタンスセグメンテーション

PerSense: Personalized Instance Segmentation in Dense Images ( http://arxiv.org/abs/2405.13518v1 )

ライセンス: Link先を確認
Muhammad Ibraheem Siddiqui, Muhammad Umer Sheikh, Hassan Abid, Muhammad Haris Khan, (参考訳) 大規模な事前トレーニングを活用することで、ビジョン基盤モデルは、顕著なパフォーマンス上のメリットを示します。 近年、セグメンテーションアルゴリズムの大幅な進歩が見られたが、既存のモデルは、密集した混雑したシナリオでパーソナライズされたインスタンスを自動的にセグメンテーションするという課題に直面している。 この制限の背後にある主な要因は、特に濃密な画像を扱う際に、閉塞、背景のぼかし、物体の向きに制約されるボックスベースの検出に起因している。 この目的のために、高密度画像におけるパーソナライズされたインスタンスセグメンテーションに対処するための、エンドツーエンド、トレーニング不要、モデルに依存しないワンショットフレームワークPerSenseを提案する。 このフレームワークの開発に向けて、私たちは下記のコアコントリビューションを行います。 (a) 検出モジュール(IDM)を提案し、新しいベースラインを実現するためにビジョンランゲージモデル、グラウンドオブジェクト検出器、および数ショットオブジェクトカウンタ(FSOC)を利用する。 b)候補点プロンプト内の偽陽性に対処するため,PPSM (Point Prompt Selection Module) を設計する。 IDMとPPSMはどちらも、FSOCからセグメンテーションのためのパーソナライズされたインスタンスレベルのポイントプロンプトに変換し、モデルに依存しないフレームワークにシームレスに統合します。 (c) 従来の選択プロセスの自動化により,PerSenseがFSOCの潜在能力を最大限に活用できるフィードバック機構を導入する。 (d) この比較的未探索なタスクのためのアルゴリズムの進歩と効果的なツールを促進するために、高密度画像のパーソナライズされたインスタンスセグメンテーション専用のデータセットPerSense-Dを導入する。 我々はPerSense-D上の高密度画像におけるパーソナライズされたインスタンスセグメンテーションのタスクに対するPerSenseの有効性とSOTAとの比較を検証した。 さらに,本研究の質的発見は,撮影対象の画像へのフレームワークの適応性を示すものである。

Leveraging large-scale pre-training, vision foundational models showcase notable performance benefits. While recent years have witnessed significant advancements in segmentation algorithms, existing models still face challenges to automatically segment personalized instances in dense and crowded scenarios. The primary factor behind this limitation stems from bounding box-based detections, which are constrained by occlusions, background clutter, and object orientation, particularly when dealing with dense images. To this end, we propose PerSense, an end-to-end, training-free, and model-agnostic one-shot framework to address the personalized instance segmentation in dense images. Towards developing this framework, we make following core contributions. (a) We propose an Instance Detection Module (IDM) and leverage a Vision-Language Model, a grounding object detector, and a few-shot object counter (FSOC) to realize a new baseline. (b) To tackle false positives within candidate point prompts, we design Point Prompt Selection Module (PPSM). Both IDM and PPSM transform density maps from FSOC into personalized instance-level point prompts for segmentation and offer a seamless integration in our model-agnostic framework. (c) We introduce a feedback mechanism which enables PerSense to harness the full potential of FSOC by automating the exemplar selection process. (d) To promote algorithmic advances and effective tools for this relatively underexplored task, we introduce PerSense-D, a dataset exclusive to personalized instance segmentation in dense images. We validate the effectiveness of PerSense on the task of personalized instance segmentation in dense images on PerSense-D and comparison with SOTA. Additionally, our qualitative findings demonstrate the adaptability of our framework to images captured in-the-wild.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# トレンドと周期性を超えて - テキストクイズによる時系列予測のガイド

Beyond Trend and Periodicity: Guiding Time Series Forecasting with Textual Cues ( http://arxiv.org/abs/2405.13522v1 )

ライセンス: Link先を確認
Zhijian Xu, Yuxuan Bian, Jianyuan Zhong, Xiangyu Wen, Qiang Xu, (参考訳) 本研究は,TGTSF(Text-Guided Time Series Forecasting)タスクを紹介する。 TGTSFは、チャネル記述や動的ニュースのようなテキストの手がかりを統合することで、歴史的データに純粋に依存する従来の手法の限界に対処する。 このタスクを支援するために,テキストキューと時系列データを相互アテンション機構を用いて融合する堅牢なベースラインモデルであるTGForecasterを提案する。 次に、簡単な周期データから複雑なイベント駆動の揺らぎまで、提案するフレームワークを検証するために、4つの厳密にキュレートされたベンチマークデータセットを提示します。 総合評価の結果、TGForecasterは、時系列予測にテキスト情報を組み込むことによる変換可能性を強調しながら、常に最先端のパフォーマンスを実現していることがわかった。 この研究は、新しい予測タスクの先駆けとなるだけでなく、将来の研究のための新しいベンチマークを確立し、時系列モデルのためのマルチモーダルデータ統合の進歩を推進している。

This work introduces a novel Text-Guided Time Series Forecasting (TGTSF) task. By integrating textual cues, such as channel descriptions and dynamic news, TGTSF addresses the critical limitations of traditional methods that rely purely on historical data. To support this task, we propose TGForecaster, a robust baseline model that fuses textual cues and time series data using cross-attention mechanisms. We then present four meticulously curated benchmark datasets to validate the proposed framework, ranging from simple periodic data to complex, event-driven fluctuations. Our comprehensive evaluations demonstrate that TGForecaster consistently achieves state-of-the-art performance, highlighting the transformative potential of incorporating textual information into time series forecasting. This work not only pioneers a novel forecasting task but also establishes a new benchmark for future research, driving advancements in multimodal data integration for time series models.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# 仮想ノードを理解する - オーバースムーシング、オーバースキャッシング、ノードの不均一性

Understanding Virtual Nodes: Oversmoothing, Oversquashing, and Node Heterogeneity ( http://arxiv.org/abs/2405.13526v1 )

ライセンス: Link先を確認
Joshua Southern, Francesco Di Giovanni, Michael Bronstein, Johannes F. Lutzeyer, (参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、表現性や長距離相互作用のモデル化に制限があることが示されている。 仮想ノード(VN)でMPNNを拡張することで、レイヤアグリゲーションの局所性制約が取り除かれ、さまざまなベンチマークのパフォーマンスが向上することが判明した。 本稿では,VNの役割の包括的理論的解析と,そのメリットについて,過密化,過密化,感度分析のレンズを用いて検討する。 第一に、以前の信念とは対照的に、VNは表現力を維持するために反平滑化アプローチの複製を避けるのが普通である。 第二に、ネットワークの混合能力にVNが与える改善がいかにして過疎化を緩和するかは、基礎となるトポロジに依存する。 最後に、グラフ変換器(GT)とは異なり、VNの古典的なインスタンス化は、しばしば異なるノードに一様重要性を割り当てるために制約される。 その結果,グラフ構造に基づくノードに対する感度の異なる計算複雑性を持つVNの変種を提案する。 これはグラフレベルのタスクにおいて,極めて効率的かつ計算的に効率的なベースラインであることを示す。

Message passing neural networks (MPNNs) have been shown to have limitations in terms of expressivity and modeling long-range interactions. Augmenting MPNNs with a virtual node (VN) removes the locality constraint of the layer aggregation and has been found to improve performance on a range of benchmarks. We provide a comprehensive theoretical analysis of the role of VNs and benefits thereof, through the lenses of oversmoothing, oversquashing, and sensitivity analysis. First, in contrast to prior belief, we find that VNs typically avoid replicating anti-smoothing approaches to maintain expressive power. Second, we characterize, precisely, how the improvement afforded by VNs on the mixing abilities of the network and hence in mitigating oversquashing, depends on the underlying topology. Finally, we highlight that, unlike Graph-Transformers (GT), classical instantiations of the VN are often constrained to assign uniform importance to different nodes. Consequently, we propose a variant of VN with the same computational complexity, which can have different sensitivity to nodes based on the graph structure. We show that this is an extremely effective and computationally efficient baseline on graph-level tasks.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# 階層的復号化による実世界のポリフォニック・ピアノ音声合成

End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding ( http://arxiv.org/abs/2405.13527v1 )

ライセンス: Link先を確認
Wei Zeng, Xian He, Ye Wang, (参考訳) ピアノ・オーディオ・トゥ・スコア・ライティング(A2S)は、作曲、練習、分析に広く応用される重要な課題であるが、未発見の課題である。 しかし、既存のピアノA2Sシステムはキーや時刻などのバーレベルの情報を取得するのに困難に直面しており、合成データのみを用いて訓練・評価されている。 これらの制約に対処するため,楽譜の階層構造に整合した階層デコーダを用いたシークエンス・ツー・シークエンス(Seq2Seq)モデルを提案する。 合成データと人間の演奏記録のギャップを埋めるために,合成音声上での表現的パフォーマンスレンダリング(EPR)システムを用いてモデルを事前学習する2段階のトレーニング手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。 スコア再構成のための発声構造を維持するために,制約のない音声数で*Kernスコアを前処理する手法を提案する。 提案手法の有効性は, 合成音声データに対する書き起こし性能の両立と, 人間の記録における最初の実験の両面から検証した。

Piano audio-to-score transcription (A2S) is an important yet underexplored task with extensive applications for music composition, practice, and analysis. However, existing end-to-end piano A2S systems faced difficulties in retrieving bar-level information such as key and time signatures, and have been trained and evaluated with only synthetic data. To address these limitations, we propose a sequence-to-sequence (Seq2Seq) model with a hierarchical decoder that aligns with the hierarchical structure of musical scores, enabling the transcription of score information at both the bar and note levels by multi-task learning. To bridge the gap between synthetic data and recordings of human performance, we propose a two-stage training scheme, which involves pre-training the model using an expressive performance rendering (EPR) system on synthetic audio, followed by fine-tuning the model using recordings of human performance. To preserve the voicing structure for score reconstruction, we propose a pre-processing method for **Kern scores in scenarios with an unconstrained number of voices. Experimental results support the effectiveness of our proposed approaches, in terms of both transcription performance on synthetic audio data in comparison to the current state-of-the-art, and the first experiment on human recordings.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# ネイティブな選択と原形質の相関--意味的埋め込みを用いた多言語オノマシーロジカルケーススタディ

The correlation between nativelike selection and prototypicality: a multilingual onomasiological case study using semantic embedding ( http://arxiv.org/abs/2405.13529v1 )

ライセンス: Link先を確認
Huasheng Zhang, (参考訳) ネイティブ話者の語彙選択では、ある概念は別の文法的表現よりも、より容易に表現できる。 これまでの研究では、コロケーションのような任意のチャンクがこの現象に欠かせないと考えられてきた。 しかし,本研究では,NLSと原形質の相関,特にGrondelaersとGeeraertsのオノマシー仮説(2003年,認知オノマシー学の実用モデルに向けて)を探求することにより,いくつかのNLSの背後にある意味的モチベーションと再現性を分析する可能性を検討した。 Hubert Cuyckens, Ren\'e Dirven & John R. Taylor (eds.), Cognitive approach to lexical semantics, 67-92。 ベルリン:ド・グリュイター・ムートン(De Gruyter Mouton)。 彼らは「[a]参照は、その項目で示されるカテゴリの健全なメンバーである場合、語彙項目によってより容易に命名される」と仮定した。 セマンティック埋め込みや言語間比較などの一連の革新的な方法や手順を設計する。 具体的には、トピックモデリング技術を用いた自動探索分析により、潜在的NLSを効率よく発見し、フレームセマンティクスによる手動検査により確認する。 最後に,中国語動詞shang'harm'の言語固有のプロトタイプを明らかにするためにクラスタ分析と行動プロファイル分析を行い,NLSと原型性の相関を裏付ける証拠を提供する。

In native speakers' lexical choices, a concept can be more readily expressed by one expression over another grammatical one, a phenomenon known as nativelike selection (NLS). In previous research, arbitrary chunks such as collocations have been considered crucial for this phenomenon. However, this study examines the possibility of analyzing the semantic motivation and deducibility behind some NLSs by exploring the correlation between NLS and prototypicality, specifically the onomasiological hypothesis of Grondelaers and Geeraerts (2003, Towards a pragmatic model of cognitive onomasiology. In Hubert Cuyckens, Ren\'e Dirven & John R. Taylor (eds.), Cognitive approaches to lexical semantics, 67-92. Berlin: De Gruyter Mouton). They hypothesized that "[a] referent is more readily named by a lexical item if it is a salient member of the category denoted by that item". To provide a preliminary investigation of this important but rarely explored phenomenon, a series of innovative methods and procedures, including the use of semantic embedding and interlingual comparisons, is designed. Specifically, potential NLSs are efficiently discovered through an automatic exploratory analysis using topic modeling techniques, and then confirmed by manual inspection through frame semantics. Finally, to account for the NLS in question, cluster analysis and behavioral profile analysis are conducted to uncover a language-specific prototype for the Chinese verb shang 'harm', providing supporting evidence for the correlation between NLS and prototypicality.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# 視覚言語モデルに良い例は何か?

What Makes Good Few-shot Examples for Vision-Language Models? ( http://arxiv.org/abs/2405.13532v1 )

ライセンス: Link先を確認
Zhaojun Guo, Jinghui Lu, Xuejing Liu, Rui Zhao, ZhenXing Qian, Fei Tan, (参考訳) ダウンストリームタスクに対する数ショットのチューニングを通じて、事前学習された視覚言語(VL)モデルを活用することで達成された顕著な進歩にもかかわらず、我々の詳細な実証的研究は、トレーニング例の慎重に選択する上で、数ショットの学習結果に重大な依存があることを強調している。 本研究では, ランダムサンプリングに頼らず, 数発学習手法を巧妙に選択するための, より効果的な戦略を考案し, 既存の数発学習手法の可能性を高めることを目的とした。 これを実現するために,数発の訓練の文脈において,エントロピーや信頼のマージンといった様々なアクティブラーニング(AL)手法の有効性を評価する。 さらに、事前学習されたVLモデルに対して、ラベル付けのための情報的例を積極的に特定するために、表現性(REPRE)とガウス的モンテカルロ(Montecarlo)という2つの革新的な選択手法を導入する。 その結果,REPREとモンテカルロは,ランダム選択とALベースの戦略の両方を,数ショットのトレーニングシナリオで大きく上回っていることがわかった。 この研究は、これらのインスタンス選択法はモデルに依存しないものであり、幅広い数発の訓練手法に多彩な拡張をもたらすことを強調している。

Despite the notable advancements achieved by leveraging pre-trained vision-language (VL) models through few-shot tuning for downstream tasks, our detailed empirical study highlights a significant dependence of few-shot learning outcomes on the careful selection of training examples - a facet that has been previously overlooked in research. In this study, we delve into devising more effective strategies for the meticulous selection of few-shot training examples, as opposed to relying on random sampling, to enhance the potential of existing few-shot prompt learning methodologies. To achieve this, we assess the effectiveness of various Active Learning (AL) techniques for instance selection, such as Entropy and Margin of Confidence, within the context of few-shot training. Furthermore, we introduce two innovative selection methods - Representativeness (REPRE) and Gaussian Monte Carlo (Montecarlo) - designed to proactively pinpoint informative examples for labeling in relation to pre-trained VL models. Our findings demonstrate that both REPRE and Montecarlo significantly surpass both random selection and AL-based strategies in few-shot training scenarios. The research also underscores that these instance selection methods are model-agnostic, offering a versatile enhancement to a wide array of few-shot training methodologies.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# 一般化ラプラス近似

Generalized Laplace Approximation ( http://arxiv.org/abs/2405.13535v1 )

ライセンス: Link先を確認
Yinsong Chen, Samson S. Yu, Zhong Li, Chee Peng Lim, (参考訳) 近年、ベイズ深層学習の不整合が注目を集めている。 テンペリングされた、あるいは一般化された後続分布は、この問題に対して直接的で効果的な解を与えることが多い。 しかし、その根本原因を理解し、一般化後肢の有効性を評価することは研究の活発な領域に留まっている。 本研究では,ベイズ的不整合を非特異性をモデル化し,不整合をモデル化するための統一的理論的枠組みを提案する。 本研究では, 仮説空間内のモデル上での確率質量の再分配による事前の補正をデータサンプルを用いて行うことにより, 不特定モデルの補正として, 温度因子による後部の一般化を解釈する。 さらに、一般化正規化定数を不変として扱うことを保証するLaplace近似の特異な特徴を強調し、一般ベイズ学習の典型的なシナリオでは、この定数はモデルパラメータの一般化後に変化する。 この知見に基づいて、正規化損失関数のヘッセン行列の計算に簡単な調整を含む一般化されたラプラス近似を提案する。 この方法は、高品質な後部分布を得るためのフレキシブルでスケーラブルなフレームワークを提供する。 我々は、最先端のニューラルネットワークと実世界のデータセット上での一般化されたLaplace近似の性能と特性を評価する。

In recent years, the inconsistency in Bayesian deep learning has garnered increasing attention. Tempered or generalized posterior distributions often offer a direct and effective solution to this issue. However, understanding the underlying causes and evaluating the effectiveness of generalized posteriors remain active areas of research. In this study, we introduce a unified theoretical framework to attribute Bayesian inconsistency to model misspecification and inadequate priors. We interpret the generalization of the posterior with a temperature factor as a correction for misspecified models through adjustments to the joint probability model, and the recalibration of priors by redistributing probability mass on models within the hypothesis space using data samples. Additionally, we highlight a distinctive feature of Laplace approximation, which ensures that the generalized normalizing constant can be treated as invariant, unlike the typical scenario in general Bayesian learning where this constant varies with model parameters post-generalization. Building on this insight, we propose the generalized Laplace approximation, which involves a simple adjustment to the computation of the Hessian matrix of the regularized loss function. This method offers a flexible and scalable framework for obtaining high-quality posterior distributions. We assess the performance and properties of the generalized Laplace approximation on state-of-the-art neural networks and real-world datasets.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# 付加的モデルを学習しない注意メカニズム:トランスフォーマーの特徴的重要性を再考する

Attention Mechanisms Don't Learn Additive Models: Rethinking Feature Importance for Transformers ( http://arxiv.org/abs/2405.13536v1 )

ライセンス: Link先を確認
Tobias Leemann, Alina Fastowski, Felix Pfeiffer, Gjergji Kasneci, (参考訳) 本稿では, 自然言語処理などにおける現在の応用を支配下に置くトランスフォーマーアーキテクチャに, 特徴帰属手法を適用するという重要な課題に対処する。 説明可能なAI(XAI)への従来の帰属法は、モデル出力に対する入力特徴の影響を定量化するために、線形または追加的な代理モデルに明示的にあるいは暗黙的に依存する。 変換器は、特徴帰属のための一般的な代理モデルと整合し、これらの従来の説明手法の基盤を損なう構造的不整合性を正式に証明する。 この相違に対処するために、トランスフォーマーフレームワークに特化して設計された新しい代理モデルであるSoftmax-Linked Additive Log-Odds Model (SLALOM)を導入する。 既存の方法とは異なり、SLALOMは、合成データセットと実世界のデータセットの両方にわたって、忠実で洞察に富んだ説明を提供する能力を示している。 SLALOMから計算した多種多様な説明が、様々なタスクの共通サロゲート説明より優れていることを示すため、一大のアプローチではなく、タスク固有の特徴属性の必要性を強調した。

We address the critical challenge of applying feature attribution methods to the transformer architecture, which dominates current applications in natural language processing and beyond. Traditional attribution methods to explainable AI (XAI) explicitly or implicitly rely on linear or additive surrogate models to quantify the impact of input features on a model's output. In this work, we formally prove an alarming incompatibility: transformers are structurally incapable to align with popular surrogate models for feature attribution, undermining the grounding of these conventional explanation methodologies. To address this discrepancy, we introduce the Softmax-Linked Additive Log-Odds Model (SLALOM), a novel surrogate model specifically designed to align with the transformer framework. Unlike existing methods, SLALOM demonstrates the capacity to deliver a range of faithful and insightful explanations across both synthetic and real-world datasets. Showing that diverse explanations computed from SLALOM outperform common surrogate explanations on different tasks, we highlight the need for task-specific feature attributions rather than a one-size-fits-all approach.
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# 超高速適応トラック検出ネットワーク

Ultra-Fast Adaptive Track Detection Network ( http://arxiv.org/abs/2405.13538v1 )

ライセンス: Link先を確認
Hai Ni, Rui Wang, Scarlett Liu, (参考訳) 鉄道検出は鉄道システムの自動化に不可欠である。 既存のモデルはスピードや精度を優先することが多いが、両方の達成は依然として困難である。 本稿では,異なるカメラ角度からのトラック比の変動に苦慮するアンカー群の制約に対処するため,超高速適応トラック検出ネットワークを提案する。 このネットワークは、バックボーンネットワークと2つの特別なブランチ(水平座標ロケータとパースペクティブ識別子)から構成される。 パースペクティブ同定器は、予め設定されたアンカー群から適切なアンカー群を選択し、鉄道線路の行座標を決定する。 その後、水平座標ロケータは、複数のプリセットアンカー群に基づく行分類結果を提供する。 そして、パースペクティブ識別子の結果を利用して、線路の列座標を生成する。 このネットワークは複数のデータセットで評価されており、軽量バージョンはSRailデータセットで98.68%、検出レートは473 FPSである。 SOTAと比較して、提案モデルは速度と精度の両面で競合する。 データセットとコードはhttps://github.com/idnihai/UFATDで公開されている。

Railway detection is critical for the automation of railway systems. Existing models often prioritize either speed or accuracy, but achieving both remains a challenge. To address the limitations of presetting anchor groups that struggle with varying track proportions from different camera angles, an ultra-fast adaptive track detection network is proposed in this paper. This network comprises a backbone network and two specialized branches (Horizontal Coordinate Locator and Perspective Identifier). The Perspective Identifier selects the suitable anchor group from preset anchor groups, thereby determining the row coordinates of the railway track. Subsequently, the Horizontal Coordinate Locator provides row classification results based on multiple preset anchor groups. Then, utilizing the results from the Perspective Identifier, it generates the column coordinates of the railway track. This network is evaluated on multiple datasets, with the lightweight version achieving an F1 score of 98.68% on the SRail dataset and a detection rate of up to 473 FPS. Compared to the SOTA, the proposed model is competitive in both speed and accuracy. The dataset and code are available at https://github.com/idnihai/UFATD
翻訳日:2024-05-25 00:34:02 公開日:2024-05-22
# 直接拡散モデル

Directly Denoising Diffusion Model ( http://arxiv.org/abs/2405.13540v1 )

ライセンス: Link先を確認
Dan Zhang, Jingjing Wang, Feng Luo, (参考訳) 本稿では,数ステップのサンプリングでリアルな画像を生成するためのシンプルで汎用的な手法である直接分解拡散モデル(DDDM)を提案する。 DDDMは、事前訓練された蒸留モデルに対して、繊細に設計されたサンプリング器や蒸留を必要としない。 DDDMは、以前のトレーニングイテレーションから生成された推定目標に基づいて、拡散モデルをトレーニングします。 画像を生成するには、前回のタイムステップから生成されたサンプルも考慮し、生成プロセスを反復的に導く。 さらにPseudo-LPIPSを提案する。これはハイパーパラメータの様々な値に対してより堅牢な新しい計量損失である。 その単純さにもかかわらず、提案手法はベンチマークデータセットで高いパフォーマンスを達成することができる。 本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。 サンプリングを1000ステップに拡張することで、FIDスコアをさらに1.79に削減し、文献における最先端の手法と整合する。 ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。

In this paper, we present the Directly Denoising Diffusion Model (DDDM): a simple and generic approach for generating realistic images with few-step sampling, while multistep sampling is still preserved for better performance. DDDMs require no delicately designed samplers nor distillation on pre-trained distillation models. DDDMs train the diffusion model conditioned on an estimated target that was generated from previous training iterations of its own. To generate images, samples generated from the previous time step are also taken into consideration, guiding the generation process iteratively. We further propose Pseudo-LPIPS, a novel metric loss that is more robust to various values of hyperparameter. Despite its simplicity, the proposed approach can achieve strong performance in benchmark datasets. Our model achieves FID scores of 2.57 and 2.33 on CIFAR-10 in one-step and two-step sampling respectively, surpassing those obtained from GANs and distillation-based models. By extending the sampling to 1000 steps, we further reduce FID score to 1.79, aligning with state-of-the-art methods in the literature. For ImageNet 64x64, our approach stands as a competitive contender against leading models.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# 言語モデルアライメントのためのアノテーション効率の良い選好最適化

Annotation-Efficient Preference Optimization for Language Model Alignment ( http://arxiv.org/abs/2405.13541v1 )

ライセンス: Link先を確認
Yuu Jinnai, Ukyo Honda, (参考訳) 優先度最適化は、人間の好みに合わせて微調整された大きな言語モデルに対する標準的なアプローチである。 選好データセットの品質、多様性、量は、選好最適化の有効性に不可欠である。 しかし、多くのアプリケーションにおいて、高品質で多様な好みアノテーションを得ることは困難である。 これにより、制限されたアノテーション予算を使用して効果的な選好データセットを作成する方法に関する疑問が提起される。 この目的のために,アノテーション効率の最適化 (AEPO) を提案する。 AEPOは、利用可能なすべてのレスポンステキストに対して完全に注釈付けする代わりに、利用可能なレスポンスから品質と多様性を最大化する応答のサブセットを選択し、選択したレスポンスよりも好みに注釈を付ける。 このように、AEPOは、多様性と高品質のレスポンスの小さなサブセットよりも、好みのラベル付けに重点を置いている。 AEPOを用いてDPO(Direct Preference Optimization)の性能を評価し、同じアノテーション予算で標準DPOを用いてトレーニングしたモデルよりも優れていることを示す。 私たちのコードはhttps://github.com/CyberAgentAILab/annotation- efficient-poで利用可能です。

Preference optimization is a standard approach to fine-tuning large language models to align with human preferences. The quality, diversity, and quantity of the preference dataset are critical to the effectiveness of preference optimization. However, obtaining a large amount of high-quality and diverse preference annotations is difficult in many applications. This raises the question of how to use the limited annotation budget to create an effective preference dataset. To this end, we propose Annotation-Efficient Preference Optimization (AEPO). Instead of exhaustively annotating preference over all available response texts, AEPO selects a subset of responses that maximizes quality and diversity from the available responses, and then annotates preference over the selected ones. In this way, AEPO focuses the annotation budget on labeling preference over a smaller subset of responses with diversity and of high quality. We evaluate the performance of Direct Preference Optimization (DPO) using AEPO and show that it outperforms models trained using a standard DPO with the same annotation budget. Our code is available at https://github.com/CyberAgentAILab/annotation-efficient-po
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# フラクタル量子力学は量子重力現象と一致する

Fractional quantum mechanics meets quantum gravity phenomenology ( http://arxiv.org/abs/2405.13544v1 )

ライセンス: Link先を確認
Gislaine Varão, Iarley P. Lobo, Valdir B. Bezerra, (参考訳) 本稿では、量子重力現象学にインスパイアされた修正Schr\"odinger進化に関する以前の知見を拡張した。 このアプローチと分数量子力学の接続を確立することで、深紫外状態で観察される挙動に似たフラクタル次元の出現を特徴とする、量子重力の潜在的な深い赤外線状態に関する洞察を提供する。 さらに、ボース=アインシュタイン凝縮体を用いて、この体制の実験的研究の要件を簡潔に検討する。 分数量子力学を探索する実験は、量子重力の等価モデルとして機能する可能性がある。 このような系における非局所的な挙動の例を同定し、量子重力における非局所性の類似現象を示唆する。

This paper extends previous findings on the modified Schr\"odinger evolution inspired by quantum gravity phenomenology. By establishing a connection between this approach and fractional quantum mechanics, we provide insights into a potential deep infrared regime of quantum gravity, characterized by the emergence of fractal dimensions, similar to behaviors observed in the deep ultraviolet regime. Additionally, we briefly explore the requirements for experimental investigations of this regime using Bose-Einstein condensates. Notably, our analysis reveals a direct implication of this analogy: experiments probing fractional quantum mechanics may serve as equivalent models of quantum gravity. We identify instances of nonlocal behavior in such systems, suggesting an analogous phenomenon of nonlocality in quantum gravity.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# 知識駆動型クロスドキュメント関係抽出

Knowledge-Driven Cross-Document Relation Extraction ( http://arxiv.org/abs/2405.13546v1 )

ライセンス: Link先を確認
Monika Jain, Raghava Mutharaju, Kuldeep Singh, Ramakanth Kavuluru, (参考訳) 関係抽出(RE)はよく知られたNLPアプリケーションであり、文レベルや文書レベルのタスクとして扱われる。 しかし、最近のいくつかの取り組みはドキュメントやクロスドキュメント設定(CrossDocRE)でそれを探求している。 これは、文書内のテキストが単一のゴールを持つ傾向にあるのに対して、異なる文書がしばしば異なるテーマに焦点を当てているため、単一のドキュメントケースと異なる。 異種文書からの発見と新たな関係の同定をリンクすることは、医学やその他の分野における一般的な文献に基づく知識発見パラダイムの中核である。 現在のCrossDocREの取り組みではドメイン知識は考慮されていない。 本稿では,文書横断型REのための入力テキストにエンティティのドメイン知識を組み込む,新しいアプローチKXDocREを提案する。 提案するフレームワークには,ベースラインよりも3つの大きなメリットがあります。 1) 文書のテキストとともにエンティティのドメイン知識を取り入れる。 2 実体間の関係を予測するための説明文を作成することにより、解釈可能性を提供する。 3) 従来の手法よりも性能が向上する。

Relation extraction (RE) is a well-known NLP application often treated as a sentence- or document-level task. However, a handful of recent efforts explore it across documents or in the cross-document setting (CrossDocRE). This is distinct from the single document case because different documents often focus on disparate themes, while text within a document tends to have a single goal. Linking findings from disparate documents to identify new relationships is at the core of the popular literature-based knowledge discovery paradigm in biomedicine and other domains. Current CrossDocRE efforts do not consider domain knowledge, which are often assumed to be known to the reader when documents are authored. Here, we propose a novel approach, KXDocRE, that embed domain knowledge of entities with input text for cross-document RE. Our proposed framework has three main benefits over baselines: 1) it incorporates domain knowledge of entities along with documents' text; 2) it offers interpretability by producing explanatory text for predicted relations between entities 3) it improves performance over the prior methods.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# ハイウェイLLM:RLインフォームド言語モデルを用いた高速道路走行における意思決定とナビゲーション

HighwayLLM: Decision-Making and Navigation in Highway Driving with RL-Informed Language Model ( http://arxiv.org/abs/2405.13547v1 )

ライセンス: Link先を確認
Mustafa Yildirim, Barkin Dagda, Saber Fallah, (参考訳) 自律運転は、高度な意思決定と制御アルゴリズムを必要とする複雑なタスクである。 自動運転車の判断の根拠を理解することは、高速道路での安全かつ効果的な運転を保証するために不可欠である。 本研究は,大型言語モデル(LLM)の推論能力を利用して,エゴ車両の航法における将来の道程を予測する新しい手法であるHighwayLLMを提案する。 我々のアプローチは、事前訓練された強化学習(RL)モデルも利用して、適切なメタレベルアクションに関する意思決定を行い、ハイレベルプランナーとして機能する。 ハイウェイLLMは、RLモデルからの出力と現在の状態情報を組み合わせて、次の状態に対する安全で衝突のない説明可能な予測を行い、エゴ車両の軌道を構築する。 その後、PIDベースのコントローラが、LLMエージェントによって予測されるウェイポイントに車両を誘導する。 このLLMとRLとPIDの統合は、意思決定プロセスを強化し、高速道路自動運転の解釈可能性を提供する。

Autonomous driving is a complex task which requires advanced decision making and control algorithms. Understanding the rationale behind the autonomous vehicles' decision is crucial to ensure their safe and effective operation on highway driving. This study presents a novel approach, HighwayLLM, which harnesses the reasoning capabilities of large language models (LLMs) to predict the future waypoints for ego-vehicle's navigation. Our approach also utilizes a pre-trained Reinforcement Learning (RL) model to serve as a high-level planner, making decisions on appropriate meta-level actions. The HighwayLLM combines the output from the RL model and the current state information to make safe, collision-free, and explainable predictions for the next states, thereby constructing a trajectory for the ego-vehicle. Subsequently, a PID-based controller guides the vehicle to the waypoints predicted by the LLM agent. This integration of LLM with RL and PID enhances the decision-making process and provides interpretability for highway autonomous driving.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# ECLIPSE: 言語間産業ログ解析のための意味エントロピーLCS

ECLIPSE: Semantic Entropy-LCS for Cross-Lingual Industrial Log Parsing ( http://arxiv.org/abs/2405.13548v1 )

ライセンス: Link先を確認
Wei Zhang, Xianfu Cheng, Yi Zhang, Jian Yang, Hongcheng Guo, Zhoujun Li, Xiaolin Yin, Xiangyuan Guan, Xu Shi, Liangfan Zheng, Bo Zhang, (参考訳) ログ解析(Log parsing)は、ソフトウェアアーキテクチャ内で生成された膨大な複雑なデータを解釈するための重要なタスクであり、学術ベンチマークから産業領域への移行において大きな課題に直面している。 既存のログパーサは、標準化されたパブリックデータセットで非常に効果的だが、実際の産業ログの厳格なスケールと多様性に直面した場合、パフォーマンスと効率を維持するのに苦労している。 これらの課題は2つあります。 1) 巨大なログテンプレート: 多くの既存パーサのパフォーマンスと効率は、増大する量と長さの異なるログで大幅に低下する。 2) 複雑で変更可能なセマンティクス: 従来のテンプレートマッチングアルゴリズムは、類似したセマンティクスを持つクロス言語ログを利用できないため、複雑な産業ログのログテンプレートを正確にマッチングすることはできない。 これらの問題に対処するために,言語間ログが産業ログを頑健に解析できるため,セマンティックエントロピー-LCSによる産業ログ解析の強化であるCLIPSEを提案する。 一方、効率的なデータ駆動型テンプレートマッチングアルゴリズムと、Faissインデクシングを統合している。 一方、Large Language Model(LLM)の強力な意味理解能力によって、ログキーワードの意味を正確に抽出し、検索空間を効果的に削減した。 産業シナリオにおける主流パーサの性能を評価するため,中国とイギリスのクロスプラットフォーム産業ログ解析ベンチマーク ECLIPSE-Bench を立ち上げました。 公開ベンチマークと独自のECLIPSE-Benchデータセットを用いて実施した実験結果から,提案したECLIPSEの優れた性能とロバスト性が確認された。 特に、ECLIPSEは、多様なデータセットの強いベースラインと比較して最先端のパフォーマンスを提供し、処理効率の大きなエッジを保持する。

Log parsing, a vital task for interpreting the vast and complex data produced within software architectures faces significant challenges in the transition from academic benchmarks to the industrial domain. Existing log parsers, while highly effective on standardized public datasets, struggle to maintain performance and efficiency when confronted with the sheer scale and diversity of real-world industrial logs. These challenges are two-fold: 1) massive log templates: The performance and efficiency of most existing parsers will be significantly reduced when logs of growing quantities and different lengths; 2) Complex and changeable semantics: Traditional template-matching algorithms cannot accurately match the log templates of complicated industrial logs because they cannot utilize cross-language logs with similar semantics. To address these issues, we propose ECLIPSE, Enhanced Cross-Lingual Industrial log Parsing with Semantic Entropy-LCS, since cross-language logs can robustly parse industrial logs. On the one hand, it integrates two efficient data-driven template-matching algorithms and Faiss indexing. On the other hand, driven by the powerful semantic understanding ability of the Large Language Model (LLM), the semantics of log keywords were accurately extracted, and the retrieval space was effectively reduced. It is worth noting that we launched a Chinese and English cross-platform industrial log parsing benchmark ECLIPSE-Bench to evaluate the performance of mainstream parsers in industrial scenarios. Our experimental results, conducted across public benchmarks and the proprietary ECLIPSE-Bench dataset, underscore the superior performance and robustness of our proposed ECLIPSE. Notably, ECLIPSE delivers state-of-the-art performance when compared to strong baselines on diverse datasets and preserves a significant edge in processing efficiency.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# 因果グラフ発見に有効な大規模言語モデル

Large Language Models are Effective Priors for Causal Graph Discovery ( http://arxiv.org/abs/2405.13551v1 )

ライセンス: Link先を確認
Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi, (参考訳) 専門家によって提供された背景知識を統合して仮説空間を縮小することにより、観測による因果構造発見を改善することができる。 近年,Large Language Models (LLMs) は,人的専門家に対するクエリコストの低さから,事前情報源として考えられ始めている。 本稿では、まず、下流アルゴリズムとは無関係に因果グラフ発見のためのLCM判定を評価するための指標セットを提案する。 第二に、モデルが因果グラフの構造に関する事前を指定できるように、一連のプロンプト設計を体系的に研究する。 最後に,グラフ探索アルゴリズムにおけるLLM先行値の統合に関する一般的な手法を提案する。 我々の研究は、この問題領域におけるLLMの使用の欠点だけでなく、可能性も強調している。

Causal structure discovery from observations can be improved by integrating background knowledge provided by an expert to reduce the hypothesis space. Recently, Large Language Models (LLMs) have begun to be considered as sources of prior information given the low cost of querying them relative to a human expert. In this work, firstly, we propose a set of metrics for assessing LLM judgments for causal graph discovery independently of the downstream algorithm. Secondly, we systematically study a set of prompting designs that allows the model to specify priors about the structure of the causal graph. Finally, we present a general methodology for the integration of LLM priors in graph discovery algorithms, finding that they help improve performance on common-sense benchmarks and especially when used for assessing edge directionality. Our work highlights the potential as well as the shortcomings of the use of LLMs in this problem space.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# インフルエンサーの次のドア:誤情報作成者はどのようにGenAIを使うか

The Influencer Next Door: How Misinformation Creators Use GenAI ( http://arxiv.org/abs/2405.13554v1 )

ライセンス: Link先を確認
Amelia Hassoun, Ariel Abonizio, Beth Goldberg, Katy Osborn, Cameron Wu, (参考訳) 生成AI(GenAI)の進歩は、人間の生成コンテンツからAI生成コンテンツを検出し、識別することに対する懸念を提起している。 既存の文献の多くは、'専門家'が組織化された偽情報作成者と欠陥のあるAIモデルが'通常の'ユーザーを騙すパラダイムを前提としている。 2022~2023年の間、偽情報作成者や消費者による縦断的エスノグラフィー研究に基づいて、非専門家がGenAIをリミックス、再パッケージ、および(再)コンテンツの制作に利用し、個人のニーズや欲求に応えている。 この研究は4つの重要な発見を導いた: まず、参加者は真理探究ではなく、主に創造のためにGenAIを使用した。 第二に、「インフルエンサー億万長者」という物語が参加者を惹きつけ、GenAIを生産性ツールとして、大量の(しばしば誤形的な)コンテンツを生成した。 第三に、GenAIはコンテンツ制作の参入障壁を減らし、消費者をクリエーターに誘惑し、既存のクリエーターのアウトプットを大幅に増やした。 最後に、参加者はGen AIを使用して、エンゲージメントを拡大し、コンテンツを収益化するためのマーケティング戦略を学び、展開した。 我々は、分析をAIコンテンツの消費者として一般大衆から、GenAIを創造的に利用するブリックルアへとシフトさせ、その基盤技術に関する詳細な理解を必要とせずに、しばしば議論している。 我々は、これらの未調査の創発的なGenAIの使用が、新しいまたは加速された誤情報障害をいかに生み出すか、そしてAI製品、プラットフォーム、ポリシーに与える影響を分析する。

Advances in generative AI (GenAI) have raised concerns about detecting and discerning AI-generated content from human-generated content. Most existing literature assumes a paradigm where 'expert' organized disinformation creators and flawed AI models deceive 'ordinary' users. Based on longitudinal ethnographic research with misinformation creators and consumers between 2022-2023, we instead find that GenAI supports bricolage work, where non-experts increasingly use GenAI to remix, repackage, and (re)produce content to meet their personal needs and desires. This research yielded four key findings: First, participants primarily used GenAI for creation, rather than truth-seeking. Second, a spreading 'influencer millionaire' narrative drove participants to become content creators, using GenAI as a productivity tool to generate a volume of (often misinformative) content. Third, GenAI lowered the barrier to entry for content creation across modalities, enticing consumers to become creators and significantly increasing existing creators' output. Finally, participants used Gen AI to learn and deploy marketing tactics to expand engagement and monetize their content. We argue for shifting analysis from the public as consumers of AI content to bricoleurs who use GenAI creatively, often without a detailed understanding of its underlying technology. We analyze how these understudied emergent uses of GenAI produce new or accelerated misinformation harms, and their implications for AI products, platforms and policies.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# 手書き署名技術の展望分析

A Perspective Analysis of Handwritten Signature Technology ( http://arxiv.org/abs/2405.13555v1 )

ライセンス: Link先を確認
Moises Diaz, Miguel A. Ferrer, Donato Impedovo, Muhammad Imran Malik, Giuseppe Pirlo, Rejean Plamondon, (参考訳) 手書き署名は、科学コミュニティの議論の中心にある生体特性である。 過去40年間で、署名研究への関心は着実に増加し、1989年、2000年、2008年に発表されたレビューによると、自動署名検証の応用が主な参考となっている。 それ以来、過去10年間で手書き署名技術の応用が強く発展し、手書き署名分析と処理に基づくシステムの適用の可能性に多くの研究が焦点を当てている。 数年にわたるこの研究領域のハファザード成長の後、その適用性について現在の展開を評価して、構造的な方向性を推し進める時が来た。 本論では,手書き署名に関する過去10年間の文献の体系的レビューを報告し,研究の最も有望な領域に着目し,今後の研究の方向性を導き出そうとする。

Handwritten signatures are biometric traits at the center of debate in the scientific community. Over the last 40 years, the interest in signature studies has grown steadily, having as its main reference the application of automatic signature verification, as previously published reviews in 1989, 2000, and 2008 bear witness. Ever since, and over the last 10 years, the application of handwritten signature technology has strongly evolved, and much research has focused on the possibility of applying systems based on handwritten signature analysis and processing to a multitude of new fields. After several years of haphazard growth of this research area, it is time to assess its current developments for their applicability in order to draw a structured way forward. This perspective reports a systematic review of the last 10 years of the literature on handwritten signatures with respect to the new scenario, focusing on the most promising domains of research and trying to elicit possible future research directions in this subject.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# MotionCraft:物理ベースのゼロショットビデオ生成

MotionCraft: Physics-based Zero-Shot Video Generation ( http://arxiv.org/abs/2405.13557v1 )

ライセンス: Link先を確認
Luca Savant Aira, Antonio Montanaro, Emanuele Aiello, Diego Valsesia, Enrico Magli, (参考訳) リアルで物理的に可視なモーションでビデオを生成することは、コンピュータビジョンにおける最近の大きな課題の1つだ。 拡散モデルは画像生成において魅力的な結果をもたらす一方、ビデオ拡散モデルは重いトレーニングと巨大なモデルによって制限され、結果としてまだトレーニングデータセットに偏っている。 本研究で提案するMotionCraftは、物理ベースのリアルなビデオを作るためのゼロショットビデオジェネレータだ。 MotionCraftは、物理シミュレーションから導かれた光学フローを適用することで、安定拡散のような画像拡散モデルのノイズ潜在空間をワープすることができる。 ノイズ潜時空間のゆらぎは,所望の動作のコヒーレントな適用をもたらすとともに,シーンの進化に整合した欠落要素を生成できることを示し,それ以外は,フローが画素空間に印加された場合のアーチファクトや欠落内容をもたらすことを示した。 提案手法と最新技術であるText2Video-Zeroによる質的かつ定量的な改善を報告する。 プロジェクトページ: https://mezzelfo.github.io/MotionCraft/

Generating videos with realistic and physically plausible motion is one of the main recent challenges in computer vision. While diffusion models are achieving compelling results in image generation, video diffusion models are limited by heavy training and huge models, resulting in videos that are still biased to the training dataset. In this work we propose MotionCraft, a new zero-shot video generator to craft physics-based and realistic videos. MotionCraft is able to warp the noise latent space of an image diffusion model, such as Stable Diffusion, by applying an optical flow derived from a physics simulation. We show that warping the noise latent space results in coherent application of the desired motion while allowing the model to generate missing elements consistent with the scene evolution, which would otherwise result in artefacts or missing content if the flow was applied in the pixel space. We compare our method with the state-of-the-art Text2Video-Zero reporting qualitative and quantitative improvements, demonstrating the effectiveness of our approach to generate videos with finely-prescribed complex motion dynamics. Project page: https://mezzelfo.github.io/MotionCraft/
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# ChatGPTを用いた会話レコメンダシステムのユーザエクスペリエンスのナビゲート:プロンプトガイダンスとレコメンデーションドメインの効果

Navigating User Experience of ChatGPT-based Conversational Recommender Systems: The Effects of Prompt Guidance and Recommendation Domain ( http://arxiv.org/abs/2405.13560v1 )

ライセンス: Link先を確認
Yizhe Zhang, Yucheng Jin, Li Chen, Ting Yang, (参考訳) 会話レコメンデータシステム(CRS)は、ユーザが好みを明確に表現し、自然言語を通じてフィードバックを提供することを可能にする。 大規模言語モデル (LLMs) の出現に伴い, CRS によるユーザエンゲージメントの向上と LLM 生成コンテンツによるレコメンデーションプロセスの強化が注目されている。 しかし, LLMを用いたCRSの有効性は, プロンプトの使用によって決定され, 推薦品質に対する主観的な認識は, 様々な推奨領域で異なる可能性がある。 そこで我々は,これら2つの要因,即時ガイダンス(PG)とレコメンデーションドメイン(RD)がシステム全体のユーザエクスペリエンスに与える影響を調査するために,ChatGPTベースのCRSを開発した。 オンライン実証研究(N = 100)では、PGの変数のオブジェクト間設計とRDのオブジェクト内設計(書籍レコメンデーションと求人レコメンデーション)を併用した混合手法を用いて、実験を行った。 その結果,PGはシステムの説明可能性,適応性,使いやすさ,透明性を著しく向上させることができることがわかった。 さらに、ユーザは、仕事の推薦ではなく、書籍の推薦という文脈において、より斬新な感覚を知覚し、推奨事項に取り組み、試行する確率を高める傾向にある。 さらに,PGが特定のユーザエクスペリエンス指標および対話行動に与える影響は,2つの要因間の相互作用効果によって証明されるように,レコメンデーションドメインによって変調されているようである。 本研究は,ChatGPTに基づくCRSのユーザ中心評価に寄与する。

Conversational recommender systems (CRS) enable users to articulate their preferences and provide feedback through natural language. With the advent of large language models (LLMs), the potential to enhance user engagement with CRS and augment the recommendation process with LLM-generated content has received increasing attention. However, the efficacy of LLM-powered CRS is contingent upon the use of prompts, and the subjective perception of recommendation quality can differ across various recommendation domains. Therefore, we have developed a ChatGPT-based CRS to investigate the impact of these two factors, prompt guidance (PG) and recommendation domain (RD), on the overall user experience of the system. We conducted an online empirical study (N = 100) by employing a mixed-method approach that utilized a between-subjects design for the variable of PG (with vs. without) and a within-subjects design for RD (book recommendations vs. job recommendations). The findings reveal that PG can substantially enhance the system's explainability, adaptability, perceived ease of use, and transparency. Moreover, users are inclined to perceive a greater sense of novelty and demonstrate a higher propensity to engage with and try recommended items in the context of book recommendations as opposed to job recommendations. Furthermore, the influence of PG on certain user experience metrics and interactive behaviors appears to be modulated by the recommendation domain, as evidenced by the interaction effects between the two examined factors. This work contributes to the user-centered evaluation of ChatGPT-based CRS by investigating two prominent factors and offers practical design guidance.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# コードレビューにおけるAIによるコーディング実践の評価

AI-Assisted Assessment of Coding Practices in Modern Code Review ( http://arxiv.org/abs/2405.13565v1 )

ライセンス: Link先を確認
Manushree Vijayvergiya, Małgorzata Salawa, Ivan Budiselić, Dan Zheng, Pascal Lamblin, Marko Ivanković, Juanjo Carin, Mateusz Lewko, Jovan Andonov, Goran Petrović, Daniel Tarlow, Petros Maniatis, René Just, (参考訳) モダンコードレビュー(Modern code review)は、バージョン管理システムにコミットする前に、1つ以上のピアによってコード作者による漸進的なコードコントリビューションがレビューされるプロセスである。 現代的なコードレビューの重要な要素は、コードコントリビューションがベストプラクティスに準拠していることを検証することである。 これらのベストプラクティスのいくつかは自動的に検証できますが、他の人を検証することは、一般的には人間レビュアーに委ねられます。 本稿では,AutoCommenterの開発,展開,評価について報告する。AutoCommenterは大規模言語モデルによって支援され,コーディングのベストプラクティスを自動的に学習し,強制するシステムである。 我々は,4つのプログラミング言語(C++,Java,Python,Go)に対してAutoCommenterを実装した。 評価の結果,コーディングのベストプラクティスを学習し,強制するためのエンドツーエンドシステムが実現可能であり,開発者のワークフローに肯定的な影響を与えることがわかった。 さらに,このようなシステムを数万の開発者に展開する上での課題と,それに対応する教訓について報告する。

Modern code review is a process in which an incremental code contribution made by a code author is reviewed by one or more peers before it is committed to the version control system. An important element of modern code review is verifying that code contributions adhere to best practices. While some of these best practices can be automatically verified, verifying others is commonly left to human reviewers. This paper reports on the development, deployment, and evaluation of AutoCommenter, a system backed by a large language model that automatically learns and enforces coding best practices. We implemented AutoCommenter for four programming languages (C++, Java, Python, and Go) and evaluated its performance and adoption in a large industrial setting. Our evaluation shows that an end-to-end system for learning and enforcing coding best practices is feasible and has a positive impact on the developer workflow. Additionally, this paper reports on the challenges associated with deploying such a system to tens of thousands of developers and the corresponding lessons learned.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# CPE-Identifier:ディープラーニングとNLPを用いたCPE識別とCVE要約アノテーション

CPE-Identifier: Automated CPE identification and CVE summaries annotation with Deep Learning and NLP ( http://arxiv.org/abs/2405.13568v1 )

ライセンス: Link先を確認
Wanyu Hu, Vrizlynn L. L. Thing, (参考訳) NVDアナリストがCommon Platform Enumeration(CPE)とCommon Vulnerabilities and Exposures(CVE)のサマリーを関連付ける作業は、毎年、National Vulnerability Database(NVD)の新たな脆弱性の数を大幅に増加させています。 この遅延により、脆弱性管理やセキュリティ測定にNVDに依存する組織は、ゼロデイ攻撃に対してより脆弱になる。 したがって、CVE要約中のCPEを正確にかつ迅速に抽出する技術やツールを考案することが不可欠である。 本研究では,CVE要約から自動CPE注釈抽出システムであるCPE-Identifierシステムを提案する。 このシステムは、新しいCVEテキスト入力からCPEエンティティを識別するツールとして使用できる。 さらに,ディープラーニングモデルを用いたデータ生成とラベル付けのプロセスも自動化する。 CVEテキストの複雑さのため、新しい技術用語が頻繁に現れる。 今後のCVEテキストにおける新しい単語を識別するために,NLP (Natural Language Processing) Named Entity Recognition (NER) を用いてテキスト内の新しい技術的用語を識別する。 提案モデルでは,F1スコアが95.48%,精度が99.13%,精度が94.83%,リコールが96.14%である。 自動CVE-CPEラベリングでは、すべてのメトリクスで9%以上性能が向上していることを示す。

With the drastic increase in the number of new vulnerabilities in the National Vulnerability Database (NVD) every year, the workload for NVD analysts to associate the Common Platform Enumeration (CPE) with the Common Vulnerabilities and Exposures (CVE) summaries becomes increasingly laborious and slow. The delay causes organisations, which depend on NVD for vulnerability management and security measurement, to be more vulnerable to zero-day attacks. Thus, it is essential to come out with a technique and tool to extract the CPEs in the CVE summaries accurately and quickly. In this work, we propose the CPE-Identifier system, an automated CPE annotating and extracting system, from the CVE summaries. The system can be used as a tool to identify CPE entities from new CVE text inputs. Moreover, we also automate the data generating and labeling processes using deep learning models. Due to the complexity of the CVE texts, new technical terminologies appear frequently. To identify novel words in future CVE texts, we apply Natural Language Processing (NLP) Named Entity Recognition (NER), to identify new technical jargons in the text. Our proposed model achieves an F1 score of 95.48%, an accuracy score of 99.13%, a precision of 94.83%, and a recall of 96.14%. We show that it outperforms prior works on automated CVE-CPE labeling by more than 9% on all metrics.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# MetaEarth:グローバルなリモートセンシング画像生成のための生成基盤モデル

MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation ( http://arxiv.org/abs/2405.13570v1 )

ライセンス: Link先を確認
Zhiping Yu, Chenyang Liu, Liqin Liu, Zhenwei Shi, Zhengxia Zou, (参考訳) 生成基盤モデルの最近の進歩は、自然画像の領域における画像生成の新たな時代、アートデザイン、エンターテイメント、環境シミュレーションなどの革命をもたらした。 高品質なサンプルを作成するにもかかわらず、既存の手法は限られたスケールでシーンの画像を生成することに制約されている。 本稿では,世界規模,多解像度,非有界,仮想的に制限のないリモートセンシング画像の作成を探求し,画像生成をグローバルレベルに拡大することで障壁を突破する生成基盤モデルであるMetaEarthを提案する。 MetaEarthでは,地理的解像度の広い任意の領域で画像を生成するための自己カスケード型自己カスケード生成フレームワークを提案する。 非有界および任意の大きさの画像生成を実現するために,生成条件と初期雑音を解析して拡散モデルのノイズサンプリング戦略を設計する。 MetaEarthを訓練するために、地理的情報を備えた多解像度光リモートセンシング画像からなる大規模なデータセットを構築した。 実験では,グローバルな画像を生成する上で,本手法の強力な能力を実証した。 さらにMetaEarthは、下流タスクのための高品質でリッチなトレーニングデータを提供するデータエンジンとしても機能する。 我々のモデルは、革新的なオーバヘッドの観点から地球視覚をシミュレートすることで、生成的世界モデルを構築する新たな可能性を開く。

The recent advancement of generative foundational models has ushered in a new era of image generation in the realm of natural images, revolutionizing art design, entertainment, environment simulation, and beyond. Despite producing high-quality samples, existing methods are constrained to generating images of scenes at a limited scale. In this paper, we present MetaEarth, a generative foundation model that breaks the barrier by scaling image generation to a global level, exploring the creation of worldwide, multi-resolution, unbounded, and virtually limitless remote sensing images. In MetaEarth, we propose a resolution-guided self-cascading generative framework, which enables the generating of images at any region with a wide range of geographical resolutions. To achieve unbounded and arbitrary-sized image generation, we design a novel noise sampling strategy for denoising diffusion models by analyzing the generation conditions and initial noise. To train MetaEarth, we construct a large dataset comprising multi-resolution optical remote sensing images with geographical information. Experiments have demonstrated the powerful capabilities of our method in generating global-scale images. Additionally, the MetaEarth serves as a data engine that can provide high-quality and rich training data for downstream tasks. Our model opens up new possibilities for constructing generative world models by simulating Earth visuals from an innovative overhead perspective.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# 産業異常検出におけるクロスモーダル蒸留-効率的なマルチモーダルIADの探索

Cross-Modal Distillation in Industrial Anomaly Detection: Exploring Efficient Multi-Modal IAD ( http://arxiv.org/abs/2405.13571v1 )

ライセンス: Link先を確認
Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau, (参考訳) 点雲とRGB画像に基づく多モード産業異常検出(IAD)の最近の研究は、正確な分類とセグメンテーションのためのモダリティ間の冗長性と相補性を活用することの重要性を示している。 しかし、実用製品ラインでのマルチモーダルIADの実現は、現在のプロセスとの互換性を確保しつつ、新しいモダリティの導入に伴うコストと利益のトレードオフを考慮し、まだ進行中の作業である。 高速インラインインスペクションと高分解能で時間を要するニアラインキャラクタリゼーション技術を組み合わせることで、検出精度を向上させることは、既存の品質管理プロセスに適しているが、高価なニアライン手法でテストできるのはサンプルの一部のみである。 したがって、モデルはマルチモーダルトレーニングを活用でき、推論中に不完全なモダリティを処理できなければならない。 1つの解決策は、モダリティの欠落に対するモダリティ間の知識を伝達するために、モダリティ間の幻覚を生成することである。 本稿では,多モード学習,Few-modal Inference Pipelineの実現可能性を示すため,IAD用クロスモーダル蒸留フレームワークであるCMDIADを提案する。 さらに, 点雲やRGB画像を用いた非対称な性能改善の背景として, 推論の主なモダリティについて検討する。 これにより、製造シナリオから効率的なIDAを実現するための、将来のマルチモーダルデータセット構築の基礎となる。

Recent studies of multi-modal Industrial Anomaly Detection (IAD) based on point clouds and RGB images indicated the importance of exploiting redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multi-modal IAD in practical production lines remains a work in progress that requires consideration of the trade-offs between costs and benefits associated with introducing new modalities, while ensuring compatibility with current processes. Combining fast in-line inspections with high-resolution, time-consuming, near-line characterization techniques to enhance detection accuracy fits well into the existing quality control process, but only part of the samples can be tested with expensive near-line methods. Thus, the model must have the ability to leverage multi-modal training and handle incomplete modalities during inference. One solution is generating cross-modal hallucination to transfer knowledge among modalities for missing modality issues. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of Multi-modal Training, Few-modal Inference pipeline. Moreover, we investigate reasons behind the asymmetric performance improvement using point clouds or RGB images as main modality of inference. This lays the foundation of our future multi-modal dataset construction for efficient IAD from manufacturing scenarios.
翻訳日:2024-05-25 00:24:16 公開日:2024-05-22
# 実行時解析を用いた一般的な進化的多目的アルゴリズムの効率性の図示

Illustrating the Efficiency of Popular Evolutionary Multi-Objective Algorithms Using Runtime Analysis ( http://arxiv.org/abs/2405.13572v1 )

ライセンス: Link先を確認
Duc-Cuong Dang, Andre Opris, Dirk Sudholt, (参考訳) 実行時解析は、厳密な理論基盤を確立するためにNSGA-IIのような一般的な進化的多目的アルゴリズム(EMO)に適用されている。 しかし、ほとんどの分析では、これらのアルゴリズムは単純な(G)SEMOアルゴリズムと同じ性能を保証する。 我々の知る限り、決定論的問題に対する単純なアルゴリズムよりも人気のあるEMOアルゴリズムの利点を示す実行時解析は存在しない。 そのような問題を提案し、(G)SEMOよりも人気のあるEMOアルゴリズムの優位性を示すために使用する: OneTrapZeroTrapは、よく知られたTrap関数を2つの目的に簡単に一般化したものである。 我々は、GSEMOがOneTrapZeroTrapを最適化するために少なくとも$n^n$のフィットネス評価を必要とするのに対し、一般的なEMOアルゴリズムNSGA-II、NSGA-III、SMS-EMOAは、ジェノタイプ重複を避けるための軽度な多様性メカニズムで拡張されているが、期待されるフィットネス評価は$O(n \log n)$である。 我々の分析は、これらの洗練されたアルゴリズムのそれぞれにおいて重要なコンポーネントの重要性を明らかにし、それらの能力のより深い理解に寄与する。

Runtime analysis has recently been applied to popular evolutionary multi-objective (EMO) algorithms like NSGA-II in order to establish a rigorous theoretical foundation. However, most analyses showed that these algorithms have the same performance guarantee as the simple (G)SEMO algorithm. To our knowledge, there are no runtime analyses showing an advantage of a popular EMO algorithm over the simple algorithm for deterministic problems. We propose such a problem and use it to showcase the superiority of popular EMO algorithms over (G)SEMO: OneTrapZeroTrap is a straightforward generalization of the well-known Trap function to two objectives. We prove that, while GSEMO requires at least $n^n$ expected fitness evaluations to optimise OneTrapZeroTrap, popular EMO algorithms NSGA-II, NSGA-III and SMS-EMOA, all enhanced with a mild diversity mechanism of avoiding genotype duplication, only require $O(n \log n)$ expected fitness evaluations. Our analysis reveals the importance of the key components in each of these sophisticated algorithms and contributes to a better understanding of their capabilities.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# 適応MCMCのための強化学習

Reinforcement Learning for Adaptive MCMC ( http://arxiv.org/abs/2405.13574v1 )

ライセンス: Link先を確認
Congye Wang, Wilson Chen, Heishiro Kanagawa, Chris. J. Oates, (参考訳) いくつかの著者による非公式な観察では、マルコフ遷移カーネルの適応設計は強化学習タスクの風味を持っている。 しかし、現在に至るまで、適応MCMCに近代的な強化学習技術を実際に活用する方法は定かではない。 本研究の目的は、理論的に支持され実証的に検証される強化学習メトロポリス-ハスティングと呼ばれる一般的な枠組みを構築することである。 私たちの主な焦点は、高速混合メトロポリス-ハスティングス遷移カーネルの学習です。 学習率の制御は、エルゴディディティの条件を満たすことを確実に保証する。 この手法は、PosteriorDBベンチマークの90 \%のタスクに対して、人気のある勾配のない適応メトロポリス・ハスティングスアルゴリズムを上回り、勾配のないサンプリングシステムを構築するために用いられる。

An informal observation, made by several authors, is that the adaptive design of a Markov transition kernel has the flavour of a reinforcement learning task. Yet, to-date it has remained unclear how to actually exploit modern reinforcement learning technologies for adaptive MCMC. The aim of this paper is to set out a general framework, called Reinforcement Learning Metropolis--Hastings, that is theoretically supported and empirically validated. Our principal focus is on learning fast-mixing Metropolis--Hastings transition kernels, which we cast as deterministic policies and optimise via a policy gradient. Control of the learning rate provably ensures conditions for ergodicity are satisfied. The methodology is used to construct a gradient-free sampler that out-performs a popular gradient-free adaptive Metropolis--Hastings algorithm on $\approx 90 \%$ of tasks in the PosteriorDB benchmark.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# PDMLP:Patch-based Decomposed MLP for Long-Term Time Series Forecastin

PDMLP: Patch-based Decomposed MLP for Long-Term Time Series Forecastin ( http://arxiv.org/abs/2405.13575v1 )

ライセンス: Link先を確認
Peiwang Tang, Weitai Zhang, (参考訳) 近年, Transformer アーキテクチャを改良し, 長期時系列予測(LTSF)タスクの有効性を実証する研究が進められている。 改良された性能を持つ線形予測モデルが数多く存在するが、LTSFの解法としてトランスフォーマーに懐疑的であり続けている。 これらのモデルの有効性は主に、配列の局所性をある程度向上するが、置換不変な自己認識機構に固有の時間情報の損失を完全に解決することができない、採用されたパッチ機構に起因している。 さらに、Patch機構で強化された単純な線形層は、複雑なTransformerベースのLTSFモデルより優れている可能性が示唆されている。 さらに,チャネル独立性を用いたモデルから分岐することで,多変量時系列予測の性能向上における相互変数間相互作用の重要性が浮き彫りになる。 変数間の相互作用情報は極めて貴重であるが、過去の研究では誤適用され、最適準変数モデルが導かれる。 これらの知見に基づいて、LTSF タスクのための新規でシンプルなパッチベース分解型 MLP (PDMLP) を提案する。 具体的には、単純な移動平均を用いて、時系列データから滑らかな成分やノイズを含む残留物を抽出し、チャネルミキシングを通じて意味情報交換を行い、チャネル独立処理によるランダムノイズを専門化する。 PDMLPモデルは、いくつかの実世界のデータセットにおける最先端の結果を一貫して達成する。 この驚くべき発見がLTSF分野の新たな研究方向を刺激し、より効率的で簡潔なソリューションの道を開くことを願っている。

Recent studies have attempted to refine the Transformer architecture to demonstrate its effectiveness in Long-Term Time Series Forecasting (LTSF) tasks. Despite surpassing many linear forecasting models with ever-improving performance, we remain skeptical of Transformers as a solution for LTSF. We attribute the effectiveness of these models largely to the adopted Patch mechanism, which enhances sequence locality to an extent yet fails to fully address the loss of temporal information inherent to the permutation-invariant self-attention mechanism. Further investigation suggests that simple linear layers augmented with the Patch mechanism may outperform complex Transformer-based LTSF models. Moreover, diverging from models that use channel independence, our research underscores the importance of cross-variable interactions in enhancing the performance of multivariate time series forecasting. The interaction information between variables is highly valuable but has been misapplied in past studies, leading to suboptimal cross-variable models. Based on these insights, we propose a novel and simple Patch-based Decomposed MLP (PDMLP) for LTSF tasks. Specifically, we employ simple moving averages to extract smooth components and noise-containing residuals from time series data, engaging in semantic information interchange through channel mixing and specializing in random noise with channel independence processing. The PDMLP model consistently achieves state-of-the-art results on several real-world datasets. We hope this surprising finding will spur new research directions in the LTSF field and pave the way for more efficient and concise solutions.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# FlashRAG: 効率的に検索可能な次世代研究のためのモジュールツールキット

FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research ( http://arxiv.org/abs/2405.13576v1 )

ライセンス: Link先を確認
Jiajie Jin, Yutao Zhu, Xinyu Yang, Chenghao Zhang, Zhicheng Dou, (参考訳) LLM(Large Language Models)の出現により、検索型拡張生成(RAG)技術の可能性はかなりの研究が注目されている。 RAGシステムの様々な側面を強化するために、多くの新しいアルゴリズムとモデルが導入されている。 しかしながら、実装のための標準化されたフレームワークがないことは、本質的に複雑なRAGプロセスと相まって、研究者がこれらのアプローチを一貫した環境で比較し評価することは困難で時間がかかる。 LangChainやLlamaIndexのような既存のRAGツールキットは利用可能だが、しばしば重くて扱いにくいため、研究者のパーソナライズされたニーズを満たすことができない。 この課題に対して,既存のRAG手法の再現や,統一されたフレームワーク内で独自のRAGアルゴリズムの開発を支援するために設計された,効率的でモジュール化されたオープンソースツールキットであるFlashRAGを提案する。 我々のツールキットは、12の高度なRAGメソッドを実装し、32のベンチマークデータセットを収集し、整理した。 私たちのツールキットには、カスタマイズ可能なモジュラーフレームワーク、実装済みRAGワークの豊富なコレクション、包括的なデータセット、効率的な補助的な前処理スクリプト、広範囲で標準的な評価指標など、さまざまな機能があります。 ツールキットとリソースはhttps://github.com/RUC-NLPIR/FlashRAG.comで公開されています。

With the advent of Large Language Models (LLMs), the potential of Retrieval Augmented Generation (RAG) techniques have garnered considerable research attention. Numerous novel algorithms and models have been introduced to enhance various aspects of RAG systems. However, the absence of a standardized framework for implementation, coupled with the inherently intricate RAG process, makes it challenging and time-consuming for researchers to compare and evaluate these approaches in a consistent environment. Existing RAG toolkits like LangChain and LlamaIndex, while available, are often heavy and unwieldy, failing to meet the personalized needs of researchers. In response to this challenge, we propose FlashRAG, an efficient and modular open-source toolkit designed to assist researchers in reproducing existing RAG methods and in developing their own RAG algorithms within a unified framework. Our toolkit implements 12 advanced RAG methods and has gathered and organized 32 benchmark datasets. Our toolkit has various features, including customizable modular framework, rich collection of pre-implemented RAG works, comprehensive datasets, efficient auxiliary pre-processing scripts, and extensive and standard evaluation metrics. Our toolkit and resources are available at https://github.com/RUC-NLPIR/FlashRAG.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# ConTrans: 概念移植による弱在位アライメントエンジニアリング

ConTrans: Weak-to-Strong Alignment Engineering via Concept Transplantation ( http://arxiv.org/abs/2405.13578v1 )

ライセンス: Link先を確認
Weilong Dong, Xinwei Wu, Renren Jin, Shaoyang Xu, Deyi Xiong, (参考訳) 大きな言語モデル(LLM)の保証は、人間の目標、価値観、意図と一貫して振る舞う。 本研究では,LLMのアライメントトレーニング,特に多数のパラメータを持つ場合の計算コストの低減と,学習値アライメントの再活用を目的として,概念移植による弱いアライメント転送を可能にする新しいフレームワークであるConTransを提案する。 表現工学の観点からは、ConTrans はソース LLM (通常は弱いが整列 LLM) から値アライメントの概念ベクトルを洗練する。 精製された概念ベクトルはアフィン変換により目標のLSM(通常は強で不整合なベースLSM)に適応するように再構成される。 第3のステップでは、ConTransは、再構成された概念ベクトルをターゲットLLMの残留ストリームに移植する。 実験では、7Bモデルから13Bモデル、70Bモデルへ、複数のLLMファミリーとLLMファミリーをまたいだ広範囲なアライメント概念の移植に成功した。 正直なところ、ConTransは命令で調整されたモデルを超えている。 LLM-ファミリー間およびLLM-ファミリー内の両方のコンセプト移植の有効性を実験的に検証した。 本研究は,弱いアライメントの一般化と制御を実現するための代替手法の実証に成功している。

Ensuring large language models (LLM) behave consistently with human goals, values, and intentions is crucial for their safety but yet computationally expensive. To reduce the computational cost of alignment training of LLMs, especially for those with a huge number of parameters, and to reutilize learned value alignment, we propose ConTrans, a novel framework that enables weak-to-strong alignment transfer via concept transplantation. From the perspective of representation engineering, ConTrans refines concept vectors in value alignment from a source LLM (usually a weak yet aligned LLM). The refined concept vectors are then reformulated to adapt to the target LLM (usually a strong yet unaligned base LLM) via affine transformation. In the third step, ConTrans transplants the reformulated concept vectors into the residual stream of the target LLM. Experiments demonstrate the successful transplantation of a wide range of aligned concepts from 7B models to 13B and 70B models across multiple LLMs and LLM families. Remarkably, ConTrans even surpasses instruction-tuned models in terms of truthfulness. Experiment results validate the effectiveness of both inter-LLM-family and intra-LLM-family concept transplantation. Our work successfully demonstrates an alternative way to achieve weak-to-strong alignment generalization and control.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# AltChart: マルチテキストタスクによるVLMベースのチャート要約の強化

AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks ( http://arxiv.org/abs/2405.13580v1 )

ライセンス: Link先を確認
Omar Moured, Jiaming Zhang, M. Saquib Sarfraz, Rainer Stiefelhagen, (参考訳) グラフ要約は視覚障害者にとって重要な課題であり、グラフィカルデータにアクセスし解釈する主要な手段である。 高品質な記述を作ることは、視覚的な知覚なしにチャート内で重要な詳細を正確に伝達する必要があるため、難しい。 しかし、多くのチャート解析手法は、視覚障害者の信頼性に影響を与える重要な幻覚を含む可能性のある、短時間で非構造的な応答を生成する。 この課題に対処するため,1)AltChartデータセットを導入し,1万の実際のチャート画像と,長いコンテキストと意味的にリッチなアノテーションを包括的に組み合わせた,3つの重要なコントリビューションを提案する。 2)視覚言語モデル(VLM)を事前学習する手法を提案する。 (3)4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。 私たちのデータセットとコードは、プロジェクトのページで公開されています。

Chart summarization is a crucial task for blind and visually impaired individuals as it is their primary means of accessing and interpreting graphical data. Crafting high-quality descriptions is challenging because it requires precise communication of essential details within the chart without vision perception. Many chart analysis methods, however, produce brief, unstructured responses that may contain significant hallucinations, affecting their reliability for blind people. To address these challenges, this work presents three key contributions: (1) We introduce the AltChart dataset, comprising 10,000 real chart images, each paired with a comprehensive summary that features long-context, and semantically rich annotations. (2) We propose a new method for pretraining Vision-Language Models (VLMs) to learn fine-grained chart representations through training with multiple pretext tasks, yielding a performance gain with ${\sim}2.5\%$. (3) We conduct extensive evaluations of four leading chart summarization models, analyzing how accessible their descriptions are. Our dataset and codes are publicly available on our project page: https://github.com/moured/AltChart.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# 視覚言語モデルのための安全アライメント

Safety Alignment for Vision Language Models ( http://arxiv.org/abs/2405.13581v1 )

ライセンス: Link先を確認
Zhendong Liu, Yuanbi Nie, Yingshui Tan, Xiangyu Yue, Qiushi Cui, Chongjun Wang, Xiaoyong Zhu, Bo Zheng, (参考訳) LLM(Large Language Models)の強力な能力から、LLMに接続された事前訓練されたビジュアルエンコーダモデルにより、ビジョン言語モデル(VLM)を実現することができる。 しかしながら、既存の研究では、VLMの視覚的モダリティが脆弱であることが示されており、攻撃者はLLMの安全アライメントを視覚的モダリティ機能を通して容易に回避して攻撃を開始することができる。 この問題に対処するために,2段階のトレーニングプロセスを通じて安全プロジェクタ,安全トークン,安全ヘッドなどの安全モジュールを追加し,リスク画像に対するモデルの防御性を効果的に向上することにより,既存のVLMの視覚的モダリティ安全アライメントを強化する。 例えば、LLaVA-v1.5モデルに基づいて安全スコア8.26を達成し、Red Teaming Visual Language Models (RTVLM)ベンチマークでGPT-4Vを上回った。 提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。 さらに、我々のアライメント戦略は、一般的に使用されているオープンソースのマルチモーダルデータセットの中で、潜在的に危険なコンテンツを明らかにする。 私たちのコードは匿名レビューの後にオープンソース化されます。

Benefiting from the powerful capabilities of Large Language Models (LLMs), pre-trained visual encoder models connected to an LLMs can realize Vision Language Models (VLMs). However, existing research shows that the visual modality of VLMs is vulnerable, with attackers easily bypassing LLMs' safety alignment through visual modality features to launch attacks. To address this issue, we enhance the existing VLMs' visual modality safety alignment by adding safety modules, including a safety projector, safety tokens, and a safety head, through a two-stage training process, effectively improving the model's defense against risky images. For example, building upon the LLaVA-v1.5 model, we achieve a safety score of 8.26, surpassing the GPT-4V on the Red Teaming Visual Language Models (RTVLM) benchmark. Our method boasts ease of use, high flexibility, and strong controllability, and it enhances safety while having minimal impact on the model's general performance. Moreover, our alignment strategy also uncovers some possible risky content within commonly used open-source multimodal datasets. Our code will be open sourced after the anonymous review.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# 量子ハミルトンパラメータ推定とダイナミクス予測のためのデュアル能力機械学習モデル

Dual-Capability Machine Learning Models for Quantum Hamiltonian Parameter Estimation and Dynamics Prediction ( http://arxiv.org/abs/2405.13582v1 )

ライセンス: Link先を確認
Zheng An, Jiahui Wu, Zidong Lin, Xiaobo Yang, Keren Li, Bei Zeng, (参考訳) 量子ハードウェアと古典計算シミュレーションの最近の進歩は、量子システムデータのアクセシビリティを著しく向上させ、これらのシステムの正確な記述と予測に対する需要が増大した。 量子ハミルトン力学の正確な予測とハミルトンパラメータの同定は、量子シミュレーション、誤り訂正、制御プロトコルの進歩に不可欠である。 量子多体系における局所観測可能量の変化から時間依存ハミルトンパラメータを推定し、ハミルトンパラメータに基づいてこれらの観測可能量の進化を予測する。 モデルの有効性は,様々なシナリオの理論的シミュレーションによって確認され,さらに2つの実験により検証された。 当初、このモデルは核磁気共鳴量子コンピュータに応用され、そこで局所観測装置の力学を正確に予測した。 このモデルは、当初未知のハミルトンパラメータを持つ超伝導量子コンピュータ上でテストされ、それらを推測した。 本研究の目的は,パラメータ推定,ノイズ評価,フィードバックプロセス,量子制御最適化など,様々な量子コンピューティングタスクを強化することである。

Recent advancements in quantum hardware and classical computing simulations have significantly enhanced the accessibility of quantum system data, leading to an increased demand for precise descriptions and predictions of these systems. Accurate prediction of quantum Hamiltonian dynamics and identification of Hamiltonian parameters are crucial for advancements in quantum simulations, error correction, and control protocols. This study introduces a machine learning model with dual capabilities: it can deduce time-dependent Hamiltonian parameters from observed changes in local observables within quantum many-body systems, and it can predict the evolution of these observables based on Hamiltonian parameters. Our model's validity was confirmed through theoretical simulations across various scenarios and further validated by two experiments. Initially, the model was applied to a Nuclear Magnetic Resonance quantum computer, where it accurately predicted the dynamics of local observables. The model was then tested on a superconducting quantum computer with initially unknown Hamiltonian parameters, successfully inferring them. Our approach aims to enhance various quantum computing tasks, including parameter estimation, noise characterization, feedback processes, and quantum control optimization.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# フルクライアント参加をエミュレートする:フェデレートラーニングのための長期クライアント選択戦略

Emulating Full Client Participation: A Long-Term Client Selection Strategy for Federated Learning ( http://arxiv.org/abs/2405.13584v1 )

ライセンス: Link先を確認
Qingming Li, Juzheng Miao, Puning Zhao, Li Zhou, Shouling Ji, Bowen Zhou, Furui Liu, (参考訳) クライアントの選択はシステムの収束効率に大きな影響を与え、連合学習において重要な問題である。 既存の手法では、各ラウンドを個別に評価することでクライアントを選択することが多く、長期最適化の必要性を見落として、パフォーマンスの最適化と潜在的公正性の問題が発生する。 本研究では,フルクライアント参加によって達成されたパフォーマンスをエミュレートする新しいクライアント選択戦略を提案する。 1ラウンドで、クライアントサブセットとフルクライアントセット間の勾配空間推定誤差を最小化し、クライアントを選択する。 複数ラウンド選択において、類似したデータ分布を持つクライアントが選択される頻度に類似することを保証する、新しい個性制約を導入する。 この制約は、長期的な視点からクライアントの選択プロセスを導く。 我々は、クライアントの最適部分集合を効率的に同定するために、リアプノフ最適化と部分モジュラー関数を用い、収束能力を理論的に解析する。 実験により,提案手法は従来手法と比較して精度と公平性を著しく向上すると同時に,最小時間オーバーヘッドを発生させることで効率を向上することを示した。

Client selection significantly affects the system convergence efficiency and is a crucial problem in federated learning. Existing methods often select clients by evaluating each round individually and overlook the necessity for long-term optimization, resulting in suboptimal performance and potential fairness issues. In this study, we propose a novel client selection strategy designed to emulate the performance achieved with full client participation. In a single round, we select clients by minimizing the gradient-space estimation error between the client subset and the full client set. In multi-round selection, we introduce a novel individual fairness constraint, which ensures that clients with similar data distributions have similar frequencies of being selected. This constraint guides the client selection process from a long-term perspective. We employ Lyapunov optimization and submodular functions to efficiently identify the optimal subset of clients, and provide a theoretical analysis of the convergence ability. Experiments demonstrate that the proposed strategy significantly improves both accuracy and fairness compared to previous methods while also exhibiting efficiency by incurring minimal time overhead.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# 多変量時系列のための多物理情報ニューラルネットワークのためのボンドグラフ

Bond Graphs for multi-physics informed Neural Networks for multi-variate time series ( http://arxiv.org/abs/2405.13586v1 )

ライセンス: Link先を確認
Alexis-Raja Brachet, Pierre-Yves Richard, Céline Hudelot, (参考訳) ハイブリッド人工知能(AI)技術の動向の中で、Physic Informed Machine Learningはますます関心を集めている。 それは主に、データ、学習または帰納的バイアスをシミュレーションデータ、部分微分方程式または等分散と不変性で付与することによって機能する。 これらのモデルは流体力学のような1つの物理領域に関わるタスクで大きな成功を収めてきたが、既存の手法は複雑な多分野・多領域現象のタスクで依然として苦戦している。 この課題に対処するために、我々は、グラフニューラルネットワークと共に多物理モデリングアプローチであるボンドグラフを活用することを提案する。 そこで我々は,多物理系に適したモデルに依存しない物理インフォームドエンコーダであるニューラルボンドグラフエンコーダ (NBgE) を提案する。 これは、深層学習モデルで読みやすいグラフエンコーダを備えた、多分野のAIに統一されたフレームワークを提供する。 直流モータと呼吸システムという2つの挑戦的マルチドメイン物理システムに関する実験により,多変量時系列予測タスクにおけるアプローチの有効性を実証した。

In the trend of hybrid Artificial Intelligence (AI) techniques, Physic Informed Machine Learning has seen a growing interest. It operates mainly by imposing a data, learning or inductive bias with simulation data, Partial Differential Equations or equivariance and invariance properties. While these models have shown great success on tasks involving one physical domain such as fluid dynamics, existing methods still struggle on tasks with complex multi-physical and multi-domain phenomena. To address this challenge, we propose to leverage Bond Graphs, a multi-physics modeling approach together with Graph Neural Network. We thus propose Neural Bond Graph Encoder (NBgE), a model agnostic physical-informed encoder tailored for multi-physics systems. It provides an unified framework for any multi-physics informed AI with a graph encoder readable for any deep learning model. Our experiments on two challenging multi-domain physical systems - a Direct Current Motor and the Respiratory system - demonstrate the effectiveness of our approach on a multi-variate time series forecasting task.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# 粗信号駆動確率スパイクニューラルネットワークの厳密な勾配

Exact Gradients for Stochastic Spiking Neural Networks Driven by Rough Signals ( http://arxiv.org/abs/2405.13587v1 )

ライセンス: Link先を確認
Christian Holberg, Cristopher Salvi, (参考訳) 確率的スパイクニューラルネットワーク(SSNN)をイベント不連続性を持つ確率微分方程式(Event SDE)としてモデル化し,c\adl\`ag 粗経路で駆動する,粗経路理論に基づく数学的厳密な枠組みを導入する。 我々の定式化は、解軌跡と駆動雑音の両方に潜在的なジャンプが現れるのに十分である。 次に、解軌跡の経路勾配と事象時間の存在をネットワークのパラメータに対して保証する十分な条件のセットを特定し、これらの勾配が再帰的関係をどのように満たすかを示す。 さらに,c\`adl\`ag rough pathsにインデックスされた新しいシグネチャカーネルのクラスを用いて定義した汎用的損失関数を導入し,SSNNを生成モデルとして訓練する。 Event SDEのためのエンドツーエンドのAutodifferentiable Solutionrを提供し、その実装を$\texttt{diffrax}$ライブラリの一部として利用できるようにする。 我々のフレームワークは、我々の知る限り、スパイクタイミングとネットワークのダイナミクスの両方に影響を与えるノイズを伴うSSNNの勾配に基づくトレーニングを可能にする最初のものである。

We introduce a mathematically rigorous framework based on rough path theory to model stochastic spiking neural networks (SSNNs) as stochastic differential equations with event discontinuities (Event SDEs) and driven by c\`adl\`ag rough paths. Our formalism is general enough to allow for potential jumps to be present both in the solution trajectories as well as in the driving noise. We then identify a set of sufficient conditions ensuring the existence of pathwise gradients of solution trajectories and event times with respect to the network's parameters and show how these gradients satisfy a recursive relation. Furthermore, we introduce a general-purpose loss function defined by means of a new class of signature kernels indexed on c\`adl\`ag rough paths and use it to train SSNNs as generative models. We provide an end-to-end autodifferentiable solver for Event SDEs and make its implementation available as part of the $\texttt{diffrax}$ library. Our framework is, to our knowledge, the first enabling gradient-based training of SSNNs with noise affecting both the spike timing and the network's dynamics.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# ゼノ部分空間におけるハミルトンシミュレーション

Hamiltonian simulation in Zeno subspaces ( http://arxiv.org/abs/2405.13589v1 )

ライセンス: Link先を確認
Kasra Rajabzadeh Dizaji, Ariq Haqq, Alicia B. Magann, Christian Arenz, (参考訳) ハミルトンシミュレーションのための量子アルゴリズムの設計と解析の枠組みとして量子ゼノ効果について検討する。 本研究では, アシラ量子ビットレジスタの頻繁なプロジェクティブ測定により, ターゲット量子ビットレジスタ上の量子力学を, ランダム化アプローチと類似した回路複雑度でシミュレートできることを示す。 後者のアプローチの古典的なサンプリングオーバーヘッドは、Zenoベースのアプローチのアンシラキュービットオーバーヘッドと交換される。 2階のZenoシークエンスは、スケーリングを改善するために開発され、ユニタリキックによる実装が議論されている。 組み合わせレジスタ上の回路は、ポスト・トロッター・ハミルトンシミュレーション法でよく用いられるサブルーチンとして同定できることを示す。 我々はこの観測に基づいて、異なるハミルトンシミュレーションアルゴリズム間の接続を明らかにする。

We investigate the quantum Zeno effect as a framework for designing and analyzing quantum algorithms for Hamiltonian simulation. We show that frequent projective measurements of an ancilla qubit register can be used to simulate quantum dynamics on a target qubit register with a circuit complexity similar to randomized approaches. The classical sampling overhead in the latter approaches is traded for ancilla qubit overhead in Zeno-based approaches. A second-order Zeno sequence is developed to improve scaling and implementations through unitary kicks are discussed. We show that the circuits over the combined register can be identified as a subroutine commonly used in post-Trotter Hamiltonian simulation methods. We build on this observation to reveal connections between different Hamiltonian simulation algorithms.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# 簡単な例と直観的考察によるクリフォードゲートの量子回路の古典的シミュレーション

Exploring Classical Simulation of Quantum Circuits of Clifford Gates through Simple Examples and Intuitive Insights ( http://arxiv.org/abs/2405.13590v1 )

ライセンス: Link先を確認
George Biswas, (参考訳) ゴッテマン・クニルの定理は、クリフォードゲートのみからなる量子回路は古典的に効率的にシミュレートできると主張している。 この定理は、クリフォードゲートがパウリの弦を他のパウリの弦に写し、古典的な計算を用いて構造化されたシミュレーションプロセスを可能にするという事実に基づいている。 本稿では, 行列積, テンソル積, 可換化, 反可換化, 固有値, 固有ベクトルといった概念を生かして, ゴッテマン・クニル定理のステップバイステップの手順を初心者向きに分解する。 重畳現象と絡み合い現象の詳細な例を通して、クリフォードゲート型量子回路の古典的シミュレーションを明確に理解することを目的としている。 定理の正式な証明は提供していないが、必要であれば各段階で直感的な物理的洞察を提供し、この興味深い量子計算の側面を支える基本的な原理を読者に理解させる。

The Gottesman-Knill theorem asserts that quantum circuits composed solely of Clifford gates can be efficiently simulated classically. This theorem hinges on the fact that Clifford gates map Pauli strings to other Pauli strings, thereby allowing for a structured simulation process using classical computations. In this explanation, we break down the step-by-step procedure of the Gottesman-Knill theorem in a beginner-friendly manner, leveraging concepts such as matrix products, tensor products, commutation, anti-commutation, eigenvalues, and eigenvectors of quantum mechanical operators. Through detailed examples illustrating superposition and entanglement phenomena, we aim to provide a clear understanding of the classical simulation of Clifford gate-based quantum circuits. While we do not provide a formal proof of the theorem, we offer intuitive physical insights at each stage where necessary, empowering readers to grasp the fundamental principles underpinning this intriguing aspect of quantum computation.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# 勾配支配下の確率勾配法のほぼ確実に収束率

Almost sure convergence rates of stochastic gradient methods under gradient domination ( http://arxiv.org/abs/2405.13592v1 )

ライセンス: Link先を確認
Simon Weissmann, Sara Klein, Waïss Azizian, Leif Döring, (参考訳) 確率勾配法は、機械学習問題を訓練する上で最も重要なアルゴリズムの一つである。 強い凸性のような古典的な仮定は単純な解析を可能にするが、応用において満たされることはめったにない。 近年,大域的および局所的な勾配支配特性は,強い凸性のより現実的な置き換えであることが示されている。 それらは、強化学習における(単純な)ポリシー勾配法や、分析活性化関数を持つディープニューラルネットワークの訓練など、多様な設定で保持されていることが証明された。 収束率 $f(X_n)-f^*\in o\big(n^{-\frac{1}{4\beta-1}+\epsilon}\big)$ は、大域的および局所的な$\beta$-次支配仮定の下での確率的勾配降下(運動量なし)に対する最後のイテレートである。 ほぼ確実なレートは、予想される最近のレートに任意に近づく。 最後に,教師付き学習と強化学習の両方において,実験結果をトレーニングタスクに適用する方法を示す。

Stochastic gradient methods are among the most important algorithms in training machine learning problems. While classical assumptions such as strong convexity allow a simple analysis they are rarely satisfied in applications. In recent years, global and local gradient domination properties have shown to be a more realistic replacement of strong convexity. They were proved to hold in diverse settings such as (simple) policy gradient methods in reinforcement learning and training of deep neural networks with analytic activation functions. We prove almost sure convergence rates $f(X_n)-f^*\in o\big( n^{-\frac{1}{4\beta-1}+\epsilon}\big)$ of the last iterate for stochastic gradient descent (with and without momentum) under global and local $\beta$-gradient domination assumptions. The almost sure rates get arbitrarily close to recent rates in expectation. Finally, we demonstrate how to apply our results to the training task in both supervised and reinforcement learning.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# 多光子Jaynes-Cummings共鳴における量子ゆらぎ非対称性

Quantum-fluctuation asymmetry in multiphoton Jaynes-Cummings resonances ( http://arxiv.org/abs/2405.13597v1 )

ライセンス: Link先を確認
Th. K. Mavrogordatos, (参考訳) 我々は,コヒーレントに駆動されたJaynes-Cummings (JC) 発振器から発する光の統計的挙動について検討した。 我々は、量子光学相関関数と条件測定の関係に基づいて、前方散乱放射の粒子面と波面を同時に引き出す運用手法を採用する。 まず、2光子JC共鳴のピークにおける強度相関関数の解析式を導出し、詳細バランスの崩壊を実証した。 量子軌道論の量子回帰公式と平行な応用により、多光子共鳴が確立され読み出されるカスケード過程を特徴づける量子ゆらぎにおける時間的非対称性の様々な側面が明らかになった。 条件付きホモダイン検出におけるキャビティ場の異なる4次状態のモニタリングは、連続したフォトンカウンタ ‘Clicks'' の待ち時間に影響し、ホモダイン電流のサンプリングをトリガーする。 定常的なキャビティの占有は光子の順序であるにもかかわらず、2つのデコヒーレンスチャネルに沿って向き付けられた放出の比率にも影響する。

We explore the statistical behavior of the light emanating from a coherently driven Jaynes-Cummings (JC) oscillator operating in the regime of multiphoton blockade with two monitored output channels causing the loss of coherence at equal rates. We do so by adopting an operational approach which draws the particle and wave aspects of the forwards scattered radiation together, building upon the relationship between quantum optical correlation functions and conditional measurements. We first derive an analytical expression of the intensity cross-correlation function at the peak of the two-photon JC resonance to demonstrate the breakdown of detailed balance. The application of quantum trajectory theory in parallel with the quantum regression formula subsequently uncovers various aspects of temporal asymmetry in the quantum fluctuations characterizing the cascaded process through which a multiphoton resonance is established and read out. We find that monitoring different quadratures of the cavity field in conditional homodyne detection affects the times waited between successive photon counter ``clicks'', which in turn trigger the sampling of the homodyne current. Despite the fact that the steady-state cavity occupation is of the order of a photon, monitoring of the developing bimodality also impacts on the ratio between the emissions directed along the two decoherence channels.
翻訳日:2024-05-25 00:14:28 公開日:2024-05-22
# LogRCA: 分散サービスのためのログベースのルート原因分析

LogRCA: Log-based Root Cause Analysis for Distributed Services ( http://arxiv.org/abs/2405.13599v1 )

ライセンス: Link先を確認
Thorsten Wittkopp, Philipp Wiesner, Odej Kao, (参考訳) ITサービス開発者や運用担当者が、ますます複雑なサービス環境を管理するのを支援するため、運用において人工知能を活用する取り組みが増えている。 トラブルシューティングを高速化するため、特にシステム障害の原因を示すログイベントの特定にログ異常検出が注目されている。 しかしながら、障害はしばしばシステム内で広範囲に伝播し、既存のアプローチによって検出される多くの異常を引き起こす可能性がある。 この場合、ユーザが失敗の実際の根本原因を素早く特定することは、依然として非常に困難である。 根本原因を記述した最小限のログ行を識別する新しい方法であるLogRCAを提案する。 LogRCAは、希少で未知のエラーに対処するために、半教師付き学習アプローチを使用し、ノイズの多いデータを扱うように設計されている。 4430万のログ行からなる大規模プロダクションログデータセットに対して,当社のアプローチを評価した。 LogRCAは、深層学習と統計的解析に基づくベースラインの精度とリコールにより、候補の根本原因を検出する。 さらに、配置したデータバランシングアプローチの影響を調査し、稀な障害に対するパフォーマンスの大幅な向上を実証した。

To assist IT service developers and operators in managing their increasingly complex service landscapes, there is a growing effort to leverage artificial intelligence in operations. To speed up troubleshooting, log anomaly detection has received much attention in particular, dealing with the identification of log events that indicate the reasons for a system failure. However, faults often propagate extensively within systems, which can result in a large number of anomalies being detected by existing approaches. In this case, it can remain very challenging for users to quickly identify the actual root cause of a failure. We propose LogRCA, a novel method for identifying a minimal set of log lines that together describe a root cause. LogRCA uses a semi-supervised learning approach to deal with rare and unknown errors and is designed to handle noisy data. We evaluated our approach on a large-scale production log data set of 44.3 million log lines, which contains 80 failures, whose root causes were labeled by experts. LogRCA consistently outperforms baselines based on deep learning and statistical analysis in terms of precision and recall to detect candidate root causes. In addition, we investigated the impact of our deployed data balancing approach, demonstrating that it considerably improves performance on rare failures.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# COTET:知識グラフエンティティタイピングのためのクロスビュー最適トランスポート

COTET: Cross-view Optimal Transport for Knowledge Graph Entity Typing ( http://arxiv.org/abs/2405.13602v1 )

ライセンス: Link先を確認
Zhiwei Hu, Víctor Gutiérrez-Basulto, Zhiliang Xiang, Ru Li, Jeff Z. Pan, (参考訳) 知識グラフエンティティタイピング(KGET)は、知識グラフに欠けているエンティティタイプのインスタンスを推論することを目的としている。 これまでの研究は主に、エンティティに関連するコンテキスト情報を活用することに集中しており、推論のための貴重な手がかりを提供している。 しかし、彼らは長い間、エンティティに固有の情報の二重性を無視し、高いレベルの粗いクラスタ知識ときめ細かいタイプ知識の両方を包含してきた。 本稿では,知識グラフに対するクロスビュー最適移動 Entity Typing (COTET) について紹介する。 COTETは3つのモジュールから構成される。 一 エンティティタイプ、エンティティクラスタ、タイプクラスタタイプの視点を通じて、異なる粒度の構造的知識をキャプチャする多視点生成及びエンコーダ 二 ワッサーシュタイン距離を分布的アライメントの観点から最小化することにより、ビュー固有の埋め込みを統一された空間に輸送するクロスビュー最適輸送 三 プール方式のエンティティタイピング予測であって、混合プーリング機構を用いて、エンティティの様々な隣人からの予測スコアを集計すること。 さらに,学習中の偽陰性の発生を軽減するために,分布に基づく損失関数を導入する。 大規模な実験は、既存のベースラインと比較してCOTETの有効性を示す。

Knowledge graph entity typing (KGET) aims to infer missing entity type instances in knowledge graphs. Previous research has predominantly centered around leveraging contextual information associated with entities, which provides valuable clues for inference. However, they have long ignored the dual nature of information inherent in entities, encompassing both high-level coarse-grained cluster knowledge and fine-grained type knowledge. This paper introduces Cross-view Optimal Transport for knowledge graph Entity Typing (COTET), a method that effectively incorporates the information on how types are clustered into the representation of entities and types. COTET comprises three modules: i) Multi-view Generation and Encoder, which captures structured knowledge at different levels of granularity through entity-type, entity-cluster, and type-cluster-type perspectives; ii) Cross-view Optimal Transport, transporting view-specific embeddings to a unified space by minimizing the Wasserstein distance from a distributional alignment perspective; iii) Pooling-based Entity Typing Prediction, employing a mixture pooling mechanism to aggregate prediction scores from diverse neighbors of an entity. Additionally, we introduce a distribution-based loss function to mitigate the occurrence of false negatives during training. Extensive experiments demonstrate the effectiveness of COTET when compared to existing baselines.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# 再構成可能なサイバー物理生産モジュールのためのスキル構成フレームワーク

Skills Composition Framework for Reconfigurable Cyber-Physical Production Modules ( http://arxiv.org/abs/2405.13604v1 )

ライセンス: Link先を確認
Aleksandr Sidorenko, Achim Wagner, Martin Ruskowski, (参考訳) 再構成可能な製造システム(RMS)の利点はよく知られているが、その開発にはまだまだ課題がある。 スキルベースのエンジニアリングは、ソフトウェアのモジュール化を改善し、RMSの再構成可能性を高める。 それでも、頻繁で迅速なソフトウェア変更に焦点を当てたスキル構成フレームワークは、いまだに欠落している。 振舞い木(BT)フレームワークは、モジュラー階層構造を直感的に設計できる新しいアプローチである。 BTは主にAIとロボティクスの観点から研究されており、製造分野における製造スキルの可能性を調査する研究はほとんど行われていない。 本稿では,スキルベースの再構成可能なサイバー物理生産モジュール(RCPPM)におけるスキルの構成と実行のためのフレームワークを提案する。 分散BTをベースとしており、低レベルのデバイス固有のコードとAIベースのタスク指向フレームワークとの良好な統合を提供する。 IEC 61499 をベースとした分散自動化コントローラの提供するモデルを実装し,提案するフレームワークの工業技術によるインスタンス化と,その自動化コミュニティによる評価を実現する。

While the benefits of reconfigurable manufacturing systems (RMS) are well-known, there are still challenges to their development, including, among others, a modular software architecture that enables rapid reconfiguration without much reprogramming effort. Skill-based engineering improves software modularity and increases the reconfiguration potential of RMS. Nevertheless, a skills' composition framework with a focus on frequent and rapid software changes is still missing. The Behavior trees (BTs) framework is a novel approach, which enables intuitive design of modular hierarchical control structures. BTs have been mostly explored from the AI and robotics perspectives, and little work has been done in investigating their potential for composing skills in the manufacturing domain. This paper proposes a framework for skills' composition and execution in skill-based reconfigurable cyber-physical production modules (RCPPMs). It is based on distributed BTs and provides good integration between low-level devices' specific code and AI-based task-oriented frameworks. We have implemented the provided models for the IEC 61499-based distributed automation controllers to show the instantiation of the proposed framework with the specific industrial technology and enable its evaluation by the automation community.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# トロッター分解によるハミルトンシミュレーションのための量子回路モデル

Quantum circuit model for Hamiltonian simulation via Trotter decomposition ( http://arxiv.org/abs/2405.13605v1 )

ライセンス: Link先を確認
Rohit Sarma Sarkar, Sabyasachi Chakraborty, Bibhas Adhikari, (参考訳) 我々は,1量子回転ゲートとCNOTゲートを用いて,スケールした$n$-qubit Pauliストリングの指数関数の量子回路実装を考案した。 これらの回路は、低接続量子ハードウェア、特にデジタル量子計算のためのスターグラフアーキテクチャで実装することができる。 するとこれらの回路は、2ドルのスパース・ハミルトン作用素、イジング・ハミルトン作用素、および時間非依存かつ時間依存のランダム場ハイゼンベルク・ハミルトン作用素および超磁性ランダム量子イジング・ハミルトン作用素を含む1次元ハミルトン作用素のクラスを、一階スズキ・トロッター展開とのユニタリ進化を近似することでシミュレートするために用いられる。 最後に、異なるノイズモデルを用いて、これらの回路の雑音ハミルトニアンシミュレーションを行い、NISQデバイス上でのハミルトニアンシミュレーションについて検討する。

We devise quantum circuit implementation of exponential of scaled $n$-qubit Pauli-strings using one-qubit rotation gates and CNOT gates. These circuits can be implemented in low-connected quantum hardware, in particular, star graph architecture for digital quantum computation. Then these circuits are employed to simulate classes of 1D Hamiltonian operators that include $2$-sparse Hamiltonian, Ising Hamiltonian, and both time-independent and time-dependent Random Field Heisenberg Hamiltonian and Transverse Magnetic Random Quantum Ising Hamiltonian by approximating its unitary evolution with first-order Suzuki-Trotter expansion. Finally, we perform noisy Hamiltonian simulation of these circuits using different noise models to investigate Hamiltonian simulation on NISQ devices.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# 公共データエコシステムの進化から先進的なインテリジェントな公共データエコシステムの進化への展望

From the evolution of public data ecosystems to the evolving horizons of the forward-looking intelligent public data ecosystem empowered by emerging technologies ( http://arxiv.org/abs/2405.13606v1 )

ライセンス: Link先を確認
Anastasija Nikiforova, Martin Lnenicka, Petar Milić, Mariusz Luterek, Manuel Pedro Rodríguez Bolívar, (参考訳) 公共データエコシステム (Public Data ecosystems, PDE) は、公共部門と外部におけるデータ利用の最適化に不可欠な複雑な社会技術システムである。 それらの多面的性質を認識した以前の研究は、EMPDE(Evolutionary Model of Public Data Ecosystems)を提唱した。 このモデルは、理論上は堅牢であるが、実用性を高めるためには実証的な検証が必要である。 本研究は,ラトビア,セルビア,チェコ,スペイン,ポーランドの5カ国での実生試験を通じて理論モデルを検証することにより,このギャップを解消する。 これはクラウドコンピューティング、人工知能、自然言語処理ツール、生成AI、大規模言語モデル(LLM)といった新興技術によって駆動されるパラダイムシフトであり、これらのエコシステム内のビジネスプロセスの自動化と拡張の両方に寄与する可能性がある。 従来の立場を単なる構成要素として超越し、アクターとステークホルダの両方に同時に進化することで、これらの技術はイノベーションと進歩を触媒し、デジタル時代の社会的、規制的、技術的命令と整合するPDE管理戦略を強化します。

Public data ecosystems (PDEs) represent complex socio-technical systems crucial for optimizing data use in the public sector and outside it. Recognizing their multifaceted nature, previous research pro-posed a six-generation Evolutionary Model of Public Data Ecosystems (EMPDE). Designed as a result of a systematic literature review on the topic spanning three decade, this model, while theoretically robust, necessitates empirical validation to enhance its practical applicability. This study addresses this gap by validating the theoretical model through a real-life examination in five European countries - Latvia, Serbia, Czech Republic, Spain, and Poland. This empirical validation provides insights into PDEs dynamics and variations of implementations across contexts, particularly focusing on the 6th generation of forward-looking PDE generation named "Intelligent Public Data Generation" that represents a paradigm shift driven by emerging technologies such as cloud computing, Artificial Intelligence, Natural Language Processing tools, Generative AI, and Large Language Models (LLM) with potential to contribute to both automation and augmentation of business processes within these ecosystems. By transcending their traditional status as a mere component, evolving into both an actor and a stakeholder simultaneously, these technologies catalyze innovation and progress, enhancing PDE management strategies to align with societal, regulatory, and technical imperatives in the digital era.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# 光電子円二色性におけるキラリティーの追跡

Tracking Chirality in Photoelectron Circular Dichroism ( http://arxiv.org/abs/2405.13608v1 )

ライセンス: Link先を確認
Marec W. Heger, Daniel M. Reich, (参考訳) 光電子円二色性(英: Photoelectron circular dichroism、PECD)は、分子のキラル核の足場と円偏光レーザー場の相互作用に由来する。 気体相における分子のキラリティの最も敏感な評価手法の1つである。 しかし、観測可能な分子の複雑さのため、分子のキラリティーが光電子にどのように、いつインプリントされるかを予測することは一般的に困難である。 本稿では, 人工カイラルポテンシャルを持つ水素単一電子モデルにおいて, 単光子イオン化のためのPECDのシミュレーションを行う。 この枠組みにより,システムのキラリティを体系的に調整し,PECDの出現を特徴付けることができる。 そこで本研究では, 電位と波動関数のキラリティ測定を行い, フォト電子分布の結果として生じる異方性と定量的な関係を確立する。 これらのキラリティー対策は,本モデルにおけるキラリティーの指標として適しており,核の足場から観測可能な最終段階までのキラリティーの進化を追尾する方法が確立されている。

Photoelectron circular dichroism (PECD) originates from the interplay between a molecule's chiral nuclear scaffold and a circularly polarized ionizing laser field. It is one of the most sensitive characterization techniques for the chirality of molecules in the gas phase. However, due to the complexity of the observable, it is generally difficult to predict and track how and when the chirality of the molecule is imprinted onto the photoelectron. Here, we present simulations of PECD for single-photon ionization in a hydrogenic single-electron model with an artificial chiral potential. This framework allows us to systematically tune the system's chirality and characterize the emergence of PECD. To this end, we propose chirality measures for potentials and wave functions to establish a quantitative connection with the resulting anisotropy in the photelectron distribution. We show that these chirality measures are suitable indicators for chirality in our model, paving the way for tracking the evolution of chirality from the nuclear scaffold to the final observable.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# 強化学習を用いた非累積対象による決定過程の解法

Tackling Decision Processes with Non-Cumulative Objectives using Reinforcement Learning ( http://arxiv.org/abs/2405.13609v1 )

ライセンス: Link先を確認
Maximilian Nägele, Jan Olle, Thomas Fösel, Remmy Zen, Florian Marquardt, (参考訳) マルコフ決定プロセス(MDP)は、ゲームプレイからロボティクス、ファイナンスまで幅広い応用をモデル化するために用いられる。 彼らの最適な方針は、通常、決定プロセスの各ステップで与えられる報酬の期待総和を最大化する。 非累積マルコフ決定過程 (Non-cumulative Markov decision process, NCMDPs) では、期待される報酬の和の代わりに、報酬の任意の関数の期待値が最大化される。 例えば、報酬の最大値やその平均値を標準偏差で割った関数がある。 本研究では,NCMDPを標準MDPに一般化したマッピングを提案する。 これにより、強化学習や動的プログラミングなどのMDPのための最適なポリシーを、より大規模なNCMDPに直接適用できる。 強化学習に焦点をあて、古典的制御、金融ポートフォリオ最適化、離散最適化問題など、様々なタスクの応用例を示す。 当社のアプローチでは,標準のMDPに頼らず,最終性能とトレーニング時間を両立させることができる。

Markov decision processes (MDPs) are used to model a wide variety of applications ranging from game playing over robotics to finance. Their optimal policy typically maximizes the expected sum of rewards given at each step of the decision process. However, a large class of problems does not fit straightforwardly into this framework: Non-cumulative Markov decision processes (NCMDPs), where instead of the expected sum of rewards, the expected value of an arbitrary function of the rewards is maximized. Example functions include the maximum of the rewards or their mean divided by their standard deviation. In this work, we introduce a general mapping of NCMDPs to standard MDPs. This allows all techniques developed to find optimal policies for MDPs, such as reinforcement learning or dynamic programming, to be directly applied to the larger class of NCMDPs. Focusing on reinforcement learning, we show applications in a diverse set of tasks, including classical control, portfolio optimization in finance, and discrete optimization problems. Given our approach, we can improve both final performance and training time compared to relying on standard MDPs.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# BESSER - オープンソースのローコードプラットフォーム

Building BESSER: an open-source low-code platform ( http://arxiv.org/abs/2405.13620v1 )

ライセンス: Link先を確認
Iván Alfonso, Aaron Cornardy, Armen Sulejmani, Atefeh Nirumand, Fitash Ul Haq, Marcos Gomez-Vazquez, Jean-Sébastien Sottet, Jordi Cabot, (参考訳) ローコードプラットフォーム(モデル駆動型エンジニアリングアプローチの長い伝統の再編成)は、反復的なボイラープレートコーディングタスクを何時間も節約する可能性を秘めています。 しかし、ソフトウェアシステムが複雑化するにつれて、ローコードプラットフォームも適応する必要があります。 特に近年では、これはスマートソフトウェアのモデリングと生成に適応することを意味している。 同時に、この種のツールのユーザベースを広げたいのであれば、潜在的なユーザがベンダーのロックインを回避し、ローコード開発アプローチを調査する自由を彼らに与えられるような、よりオープンソースな代替手段を提供することも必要です。 これらのニーズを満たすため、私たちは、(スマートな)ソフトウェアを開発するためのオープンソースのローコードプラットフォームであるBESSERを構築しています。 BESSERは、システムおよびドメイン仕様(例えば、テクニカルユーザ向けのUMLとビジネスユーザ向けのチャットボット)のための様々なフォーム(表記法)と、多数のジェネレータを提供する。 どちらのタイプのコンポーネントも拡張可能で、コミュニティからのコントリビューションも可能です。

Low-code platforms (latest reincarnation of the long tradition of model-driven engineering approaches) have the potential of saving us countless hours of repetitive boilerplate coding tasks. However, as software systems grow in complexity, low-code platforms need to adapt as well. Notably, nowadays this implies adapting to the modeling and generation of smart software. At the same time, if we want to broaden the userbase of this type of tools, we should also be able to provide more open source alternatives that help potential users avoid vendor lock-ins and give them the freedom to explore low-code development approaches (even adapting the tool to better fit their needs). To fulfil these needs, we are building BESSER, an open source low-code platform for developing (smart) software. BESSER offers various forms (i.e., notations) for system and domain specification (e.g. UML for technical users and chatbots for business users) together with a number of generators. Both types of components can be extended and are open to contributions from the community.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# タスク特異的エクストリーム生成を用いた検索言語モデルの自動評価

Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation ( http://arxiv.org/abs/2405.13622v1 )

ライセンス: Link先を確認
Gauthier Guinet, Behrooz Omidvar-Tehrani, Anoop Deoras, Laurent Callot, (参考訳) 本稿では,RAG(Retrieval-Augmented Large Language Models)のタスク固有精度を測定するための新しい手法を提案する。 タスクに関連する文書のコーパスに基づいて複数の選択質問からなる自動生成合成試験において、RAGをスコアリングして評価を行う。 提案手法は,RAGシステムに最適なコンポーネントを選択するための,自動化,費用効率,解釈,堅牢な戦略である。 項目応答理論(IRT)を応用して,試験の質とタスク固有の正確性に対する情報提供度を推定する。 IRTはまた、モデルの能力について十分な情報を持たない試験質問を排除し、試験を反復的に改善する自然な方法を提供する。 私たちは、Arxivの抽象化、StackExchangeの質問、AWS DevOpsのトラブルシューティングガイド、SECの提出に基づく4つの新しいオープンエンド質問回答タスクに対して、アプローチを実演しています。 さらに,本実験では,RAGの性能に影響を及ぼす要因,例えばサイズ,検索機構,プロンプト,微調整など,より一般的な知見を明らかにした。 最も注目すべきは、適切な検索アルゴリズムを選択することは、単により大きな言語モデルを使用するよりも、より大きなパフォーマンス向上をもたらすことである。

We propose a new method to measure the task-specific accuracy of Retrieval-Augmented Large Language Models (RAG). Evaluation is performed by scoring the RAG on an automatically-generated synthetic exam composed of multiple choice questions based on the corpus of documents associated with the task. Our method is an automated, cost-efficient, interpretable, and robust strategy to select the optimal components for a RAG system. We leverage Item Response Theory (IRT) to estimate the quality of an exam and its informativeness on task-specific accuracy. IRT also provides a natural way to iteratively improve the exam by eliminating the exam questions that are not sufficiently informative about a model's ability. We demonstrate our approach on four new open-ended Question-Answering tasks based on Arxiv abstracts, StackExchange questions, AWS DevOps troubleshooting guides, and SEC filings. In addition, our experiments reveal more general insights into factors impacting RAG performance like size, retrieval mechanism, prompting and fine-tuning. Most notably, our findings show that choosing the right retrieval algorithms often leads to bigger performance gains than simply using a larger language model.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# キャビティQED系における非相互超放射相転移と多臨界性

Nonreciprocal Superradiant Phase Transitions and Multicriticality in a Cavity QED System ( http://arxiv.org/abs/2405.13623v1 )

ライセンス: Link先を確認
Gui-Lei Zhu, Chang-Sheng Hu, Wei Qin, Xin-You Lü, Franco Nori, (参考訳) 空洞量子力学(QED)系における非相互超ラジカル相転移の出現と新しい多臨界性を示す。 キャビティは一定の角速度で回転し、一方向のパラメトリックポンプによって方向に圧縮され、$\chi^{(2)}$非線形である。 キャビティ回転と指向性スクイージングの組み合わせは、非相互の1階と2階の超ラジアント相転移をもたらす。 これらの遷移は超強原子-磁場結合を必要としないので、外部ポンプ場によって容易に制御できる。 ハミルトニアン系の完全な量子記述を通して、位相図中の2種類の多重臨界点を同定し、どちらも制御不能な非相互性を示す。 これらの結果は、光マター系における超放射光遷移と多臨界挙動の全光学的操作のための新しい扉を開く。

We demonstrate the emergence of nonreciprocal superradiant phase transitions and novel multicriticality in a cavity quantum electrodynamics (QED) system, where a two-level atom interacts with two counter-propagating modes of a whispering-gallery-mode (WGM) microcavity. The cavity rotates at a certain angular velocity, and is directionally squeezed by a unidirectional parametric pumping $\chi^{(2)}$ nonlinearity. The combination of cavity rotation and directional squeezing leads to nonreciprocal first- and second-order superradiant phase transitions. These transitions do not require ultrastrong atom-field couplings and can be easily controlled by the external pump field. Through a full quantum description of the system Hamiltonian, we identify two types of multicritical points in the phase diagram, both of which exhibit controllable nonreciprocity. These results open a new door for all-optical manipulation of superradiant transitions and multicritical behaviors in light-matter systems, with potential applications in engineering various integrated nonreciprocal quantum devices
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# 周波数依存ミラーを用いた空洞光学系のコヒーレントフィードバック制御

Coherent feedback control for cavity optomechanical systems with a frequency-dependent mirror ( http://arxiv.org/abs/2405.13624v1 )

ライセンス: Link先を確認
Lei Du, Juliette Monsel, Witlef Wieczorek, Janine Splettstoesser, (参考訳) 機械共振器の基底状態冷却は、光学系における様々な量子効果の観測の前提条件であり、そのため量子光学において常に重要な課題である。 本稿では,Fano-mirrorオプトメカニカル・セットアップにおけるメカニカル・モードの地中冷却を実現する方法について検討する。 適切な単面コヒーレントフィードバックを用いた場合, 2つのキャビティミラーの減衰率の異なる2面キャビティ幾何学では, 幅広いパラメータにおいて, 機械的モードをその基底状態まで冷却することが可能であることを明らかにした。 これは、全光学損失が機械周波数よりも7桁以上大きく、フィードバック効率が比較的低い場合でも可能である。 重要なことは、ファノミラーシステムと協調するには、より標準的な双方向フィードバックスキームが適切でないことである。

Ground-state cooling of mechanical resonators is a prerequisite for the observation of various quantum effects in optomechanical systems and thus has always been a crucial task in quantum optomechanics. In this paper, we study how to realize ground-state cooling of the mechanical mode in a Fano-mirror optomechanical setup, which allows for enhanced effective optomechanical interaction but typically works in the (deeply) unresolved-sideband regime. We reveal that for such a two-sided cavity geometry with very different decay rates at the two cavity mirrors when using an appropriate single-sided coherent feedback, it is possible to cool the mechanical mode down to its ground state within a broad range of parameters. This is possible even if the total optical loss is more than seven orders of magnitude larger than the mechanical frequency and the feedback efficiency is relatively low. Importantly, we show that a more standard two-sided feedback scheme is not appropriate to cooperate with a Fano-mirror system.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# エネルギーベース正規化フローによる最大エントロピー強化学習

Maximum Entropy Reinforcement Learning via Energy-Based Normalizing Flow ( http://arxiv.org/abs/2405.13629v1 )

ライセンス: Link先を確認
Chen-Hao Chao, Chien Feng, Wei-Fang Sun, Cheng-Kuang Lee, Simon See, Chun-Yi Lee, (参考訳) 既存の最大エントロピー(MaxEnt)強化学習(RL)手法は、アクター・クリティカルなフレームワークに基づいて定式化され、政策評価と政策改善の交互ステップによって最適化される。 政策評価ステップでは、批判者がソフトQ関数をキャプチャするために更新される。 ポリシー改善ステップでは、更新されたソフトQ機能に応じてアクターを調整する。 本稿では,エネルギーベース正規化フロー(EBFlow)をモデルとした新しいMaxEnt RLフレームワークを提案する。 このフレームワークは、政策評価ステップと政策改善ステップを統合し、単一の目標トレーニングプロセスをもたらす。 本手法はモンテカルロ近似を使わずに政策評価対象に使用するソフト値関数の計算を可能にする。 さらに、この設計は、効率的なアクションサンプリングを容易にしながら、マルチモーダルなアクション分布のモデリングをサポートする。 提案手法の性能を評価するため,Omniverse Isaac GymによりシミュレーションされたMuJoCoベンチマークスイートと多数の高次元ロボットタスクの実験を行った。 評価結果から,提案手法は広く採用されている代表ベースラインに比べて優れた性能を示すことが示された。

Existing Maximum-Entropy (MaxEnt) Reinforcement Learning (RL) methods for continuous action spaces are typically formulated based on actor-critic frameworks and optimized through alternating steps of policy evaluation and policy improvement. In the policy evaluation steps, the critic is updated to capture the soft Q-function. In the policy improvement steps, the actor is adjusted in accordance with the updated soft Q-function. In this paper, we introduce a new MaxEnt RL framework modeled using Energy-Based Normalizing Flows (EBFlow). This framework integrates the policy evaluation steps and the policy improvement steps, resulting in a single objective training process. Our method enables the calculation of the soft value function used in the policy evaluation target without Monte Carlo approximation. Moreover, this design supports the modeling of multi-modal action distributions while facilitating efficient action sampling. To evaluate the performance of our method, we conducted experiments on the MuJoCo benchmark suite and a number of high-dimensional robotic tasks simulated by Omniverse Isaac Gym. The evaluation results demonstrate that our method achieves superior performance compared to widely-adopted representative baselines.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# Pairwise Layer Architectureを用いたタスク非依存連続学習

Task agnostic continual learning with Pairwise layer architecture ( http://arxiv.org/abs/2405.13632v1 )

ライセンス: Link先を確認
Santtu Keskinen, (参考訳) 連続学習における主要なアプローチのほとんどは、メモリリプレイ、パラメータ分離、あるいはタスク統計を計算するためにタスク境界を必要とする正規化技術に基づいている。 我々はこれらを一切使わない静的なアーキテクチャベースの手法を提案する。 ネットワークの最終層を相互の相互作用層に置き換えることで、継続的な学習性能を向上させることができることを示す。 ペアワイズインタラクションレイヤは、Winner-take-allスタイルのアクティベーション関数からのスパース表現を使用して、隠されたレイヤ表現の関連性を見つける。 このアーキテクチャを用いたネットワークは、MNISTとFashionMNISTベースの連続画像分類実験において競合性能を示す。 学習システムがタスクラベルやバウンダリにアクセスできないオンラインストリーミング連続学習設定でこれを実証する。

Most of the dominant approaches to continual learning are based on either memory replay, parameter isolation, or regularization techniques that require task boundaries to calculate task statistics. We propose a static architecture-based method that doesn't use any of these. We show that we can improve the continual learning performance by replacing the final layer of our networks with our pairwise interaction layer. The pairwise interaction layer uses sparse representations from a Winner-take-all style activation function to find the relevant correlations in the hidden layer representations. The networks using this architecture show competitive performance in MNIST and FashionMNIST-based continual image classification experiments. We demonstrate this in an online streaming continual learning setup where the learning system cannot access task labels or boundaries.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# オーディオ・マンバ:オーディオ・タグ付けのための事前訓練されたオーディオ・ステート・スペース・モデル

Audio Mamba: Pretrained Audio State Space Model For Audio Tagging ( http://arxiv.org/abs/2405.13636v1 )

ライセンス: Link先を確認
Jiaju Lin, Haoxuan Hu, (参考訳) オーディオタグ付けは、オーディオサンプルを対応するカテゴリにマッピングする重要なタスクである。 近年,この分野でのトランスフォーマーモデルを活用した取り組みは大きな成功を収めている。 しかしながら、二次的な自己注意コストは、オーディオトランスフォーマーモデルのスケーリングを制限し、より普遍的なオーディオモデルの開発をさらに制限する。 本稿では、状態空間モデルによる長い音声スペクトログラム依存性をキャプチャする自己注意のないアプローチであるAudio Mambaを提案する。 2つのオーディオタグ付けデータセットによる実験結果から,Audio Mambaのパラメータ効率を示すとともに,第3パラメータを持つSOTAオーディオスペクトログラム変換器に匹敵する結果を得た。

Audio tagging is an important task of mapping audio samples to their corresponding categories. Recently endeavours that exploit transformer models in this field have achieved great success. However, the quadratic self-attention cost limits the scaling of audio transformer models and further constrains the development of more universal audio models. In this paper, we attempt to solve this problem by proposing Audio Mamba, a self-attention-free approach that captures long audio spectrogram dependency with state space models. Our experimental results on two audio-tagging datasets demonstrate the parameter efficiency of Audio Mamba, it achieves comparable results to SOTA audio spectrogram transformers with one third parameters.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# 拡散・一貫性モデルのためのカリキュラム直接選好最適化

Curriculum Direct Preference Optimization for Diffusion and Consistency Models ( http://arxiv.org/abs/2405.13637v1 )

ライセンス: Link先を確認
Florinel-Alin Croitoru, Vlad Hondru, Radu Tudor Ionescu, Nicu Sebe, Mubarak Shah, (参考訳) 人的フィードバック(RLHF)からの強化学習の効果的な代替手段として、直接選好最適化(DPO)が提案されている。 本稿では,テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新たな拡張版を提案する。 我々の方法は2つの訓練段階に分けられる。 まず、報酬モデルを用いて各プロンプト毎に生成された例のランキングを得る。 そして、ますます難しい例のペアをサンプル化し、テキストから画像への生成(拡散または一貫性)モデルに提供します。 ランキングで遠く離れた生成標本は容易なペアとなり、ランキングで近いものは硬いペアになると考えられている。 言い換えれば、サンプル間のランク差を難易度として用いる。 サンプルペアは、それらの難易度に応じてバッチに分割され、徐々に生成モデルを訓練するために使用される。 提案手法であるCurriculum DPOは,3つのベンチマークにおける最先端の微調整手法と比較し,テキストアライメント,美学,人的嗜好の観点から比較した。 私たちのコードはhttps://anonymous.4open.science/r/Curriculum-DPO-EE14で公開されています。

Direct Preference Optimization (DPO) has been proposed as an effective and efficient alternative to reinforcement learning from human feedback (RLHF). In this paper, we propose a novel and enhanced version of DPO based on curriculum learning for text-to-image generation. Our method is divided into two training stages. First, a ranking of the examples generated for each prompt is obtained by employing a reward model. Then, increasingly difficult pairs of examples are sampled and provided to a text-to-image generative (diffusion or consistency) model. Generated samples that are far apart in the ranking are considered to form easy pairs, while those that are close in the ranking form hard pairs. In other words, we use the rank difference between samples as a measure of difficulty. The sampled pairs are split into batches according to their difficulty levels, which are gradually used to train the generative model. Our approach, Curriculum DPO, is compared against state-of-the-art fine-tuning approaches on three benchmarks, outperforming the competing methods in terms of text alignment, aesthetics and human preference. Our code is available at https://anonymous.4open.science/r/Curriculum-DPO-EE14.
翻訳日:2024-05-25 00:04:43 公開日:2024-05-22
# 確率回路におけるハードウェア効率の推論について

On Hardware-efficient Inference in Probabilistic Circuits ( http://arxiv.org/abs/2405.13639v1 )

ライセンス: Link先を確認
Lingyun Yao, Martin Trapp, Jelin Leslin, Gaurav Singh, Peng Zhang, Karthekeyan Periasamy, Martin Andraud, (参考訳) 確率回路(PC)は、不確実性の下で組込み推論を行うための有望な道を提供する。 それらは設計による様々な確率的推論タスクの効率的かつ正確な計算をサポートする。 したがって、PCのハードウェア効率の計算はエッジコンピューティングアプリケーションにとって非常に興味深い。 PCの計算は確率値の算術に基づいており、一般的にはアンダーフローを避けるためにログ領域で実行される。 残念ながら、ハードウェア上でログ操作を実行するのはコストがかかる。 したがって、以前の研究は線形領域での計算に重点を置いており、結果として高分解能とエネルギー要求が生じる。 本研究は,低分解能対数計算が可能なPC用専用近似計算フレームワークを提案する。 我々はAddition As Intを活用し、単純なハードウェア要素による線形PC計算を実現した。 さらに,理論的な近似誤差解析を行い,誤差補償機構を提案する。 提案手法は,エビデンスとMAPクエリに対して,それぞれ357倍,649倍のエネルギー削減を実現している。

Probabilistic circuits (PCs) offer a promising avenue to perform embedded reasoning under uncertainty. They support efficient and exact computation of various probabilistic inference tasks by design. Hence, hardware-efficient computation of PCs is highly interesting for edge computing applications. As computations in PCs are based on arithmetic with probability values, they are typically performed in the log domain to avoid underflow. Unfortunately, performing the log operation on hardware is costly. Hence, prior work has focused on computations in the linear domain, resulting in high resolution and energy requirements. This work proposes the first dedicated approximate computing framework for PCs that allows for low-resolution logarithm computations. We leverage Addition As Int, resulting in linear PC computation with simple hardware elements. Further, we provide a theoretical approximation error analysis and present an error compensation mechanism. Empirically, our method obtains up to 357x and 649x energy reduction on custom hardware for evidence and MAP queries respectively with little or no computational error.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# 自己教師型強化学習を用いた知識グラフ推論

Knowledge Graph Reasoning with Self-supervised Reinforcement Learning ( http://arxiv.org/abs/2405.13640v1 )

ライセンス: Link先を確認
Ying Ma, Owen Burns, Mingqiu Wang, Gang Li, Nan Du, Laurent El Shafey, Liqiang Wang, Izhak Shafran, Hagen Soltau, (参考訳) 強化学習(Reinforcement Learning, RL)は、不完全知識グラフ(KG)における推論経路を見つける効果的な方法である。 大規模行動空間の課題を克服するため,RL訓練前の政策ネットワークを温めるために,自己指導型事前学習手法を提案する。 一般の自己教師型RL(SSRL)における分布ミスマッチ問題を緩和するために、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。 このトレーニングフレームワークにより、我々のSL目標の情報密度が増加し、エージェントが早期の報奨パスで立ち往生するのを防ぐことができる。 我々の自己監督型RL (SSRL) 法は, SL目標の幅が単独でエージェントを訓練することが不可能であるため, 事前訓練中にSLが達成した範囲と組み合わせることにより, RLの性能を向上させる。 我々のSSRLモデルは、すべてのHits@kおよび4つの大規模ベンチマークKGデータセットにおける平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。 このSSRLメソッドは、KGRタスクの任意のRLアーキテクチャのプラグインとして使用することができる。 我々は2つのRLアーキテクチャ、すなわちMINERVAとMultiHopKGをベースラインRLモデルとして採用し、我々のSSRLモデルはこれらの4つのKG推論タスクのベースラインを一貫して上回っていることを示す。 論文の全コードはhttps://github.com/owenonline/Knowledge-Graph-Reasoning-with-Self-supervised-Reinforcement-Learningで公開されている。

Reinforcement learning (RL) is an effective method of finding reasoning pathways in incomplete knowledge graphs (KGs). To overcome the challenges of a large action space, a self-supervised pre-training method is proposed to warm up the policy network before the RL training stage. To alleviate the distributional mismatch issue in general self-supervised RL (SSRL), in our supervised learning (SL) stage, the agent selects actions based on the policy network and learns from generated labels; this self-generation of labels is the intuition behind the name self-supervised. With this training framework, the information density of our SL objective is increased and the agent is prevented from getting stuck with the early rewarded paths. Our self-supervised RL (SSRL) method improves the performance of RL by pairing it with the wide coverage achieved by SL during pretraining, since the breadth of the SL objective makes it infeasible to train an agent with that alone. We show that our SSRL model meets or exceeds current state-of-the-art results on all Hits@k and mean reciprocal rank (MRR) metrics on four large benchmark KG datasets. This SSRL method can be used as a plug-in for any RL architecture for a KGR task. We adopt two RL architectures, i.e., MINERVA and MultiHopKG as our baseline RL models and experimentally show that our SSRL model consistently outperforms both baselines on all of these four KG reasoning tasks. Full code for the paper available at https://github.com/owenonline/Knowledge-Graph-Reasoning-with-Self-supervised-Reinforcement-Learning.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# フィールド結合型テトラマーの形成と解離

Formation and Dissociation of Field-Linked Tetramers ( http://arxiv.org/abs/2405.13645v1 )

ライセンス: Link先を確認
Fulin Deng, Xing-Yan Chen, Xin-Yu Luo, Wenxian Zhang, Su Yi, Tao Shi, (参考訳) 本研究では、2つのマイクロ波シールド極性分子が磁場共鳴によって形成されるテトラトミック分子の静的および動的性質について検討した。 特に,最近の実験 [X。 -Y! Chen et al} の略。 は、Nature {\bf626}, 283 (2024)]。 最も低い四量体状態と比較して、高い四量体状態は一般的に寿命が長いため、量子縮退に向けての四量体ガスの冷却がさらに促進されることが示されている。 テトラマーを検出するために,マイクロ波のランプ速度を下げることによって観測できるランプ解離から,飛行時の特徴的な画像を特定する。 興味深いことに、四量体の変調解離において、変調振幅が十分に高い場合、多光子過程は閾値変調周波数より下でも解離を誘導する。 マイクロ波遮蔽極性分子の分子間ポテンシャルの普遍的な形態を考えると、この結果は最近の実験で広く研究されている他の分子ガスにも適用される。

We investigate the static and dynamic properties of tetratomic molecules formed by two microwave-shielded polar molecules across field-linked resonances. In particular, we focus on two-body physics and experimental techniques unexplored in the recent experiment [X.-Y. Chen {\it et al}., Nature {\bf626}, 283 (2024)]. We show that, compared to the lowest tetramer state, higher tetramer states typically have longer lifetimes, which may facilitate a further cooling of tetramer gases towards quantum degeneracy. To detect tetramers, we identify the distinctive time-of-flight images from ramp dissociation, which can be observed by lowering the ramp rate of the microwave. Remarkably, in the modulational dissociation of tetramers, we find that multi-photon processes induce dissociation even below the threshold modulation frequency when the modulation amplitude is sufficiently high. Given the universal form of the inter-molecular potential for microwave-shielded polar molecules, our results also apply to other molecular gases widely explored in recent experiments.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# 説明可能な人工知能技術に基づく多段階水位予測と水理感度解析のためのトランスフォーマー変種

A Transformer variant for multi-step forecasting of water level and hydrometeorological sensitivity analysis based on explainable artificial intelligence technology ( http://arxiv.org/abs/2405.13646v1 )

ライセンス: Link先を確認
Mingyu Liu, Nana Bao, Xingting Yan, Chenyang Li, Kai Peng, (参考訳) 気象学的要因と水文学的要因の複合が水位や洪水発生に与える影響を理解することは、特に今日の変化する気候環境において不可欠である。 最先端のディープラーニング手法の一種であるTransformerは、複雑な非線形過程をモデル化するための効果的なアプローチを提供し、鍵となる特徴の抽出と水位予測を可能にする。 説明可能な人工知能(XAI)手法は、異なる要因が水位に与える影響を理解する上で重要な役割を果たす。 本研究では,スパースアテンション機構を統合し,デコーダモジュールに非線形出力層を導入することでトランスフォーマーの変種を提案する。 本モデルは, 気象学的および水文学的要因を同時に考慮し, 多段階の水位予測に利用した。 このモデルでは、様々な評価指標に関して、異なるリードタイムで従来のトランスフォーマーよりも優れていることが示されている。 XAI技術に基づく感度分析は、温度が最も支配的な気象要因であることを示す水面の進化に気象要因が有意な影響を及ぼすことを示した。 したがって, 気象学的要因と水文学的要因を両立させるには, 確実な水文学的予測と洪水防止が必要である。 一方、XAI技術は、予測結果を理解し、推論可能性を評価するのに有用である、特定の予測に関する洞察を提供する。

Understanding the combined influences of meteorological and hydrological factors on water level and flood events is essential, particularly in today's changing climate environments. Transformer, as one kind of the cutting-edge deep learning methods, offers an effective approach to model intricate nonlinear processes, enables the extraction of key features and water level predictions. EXplainable Artificial Intelligence (XAI) methods play important roles in enhancing the understandings of how different factors impact water level. In this study, we propose a Transformer variant by integrating sparse attention mechanism and introducing nonlinear output layer for the decoder module. The variant model is utilized for multi-step forecasting of water level, by considering meteorological and hydrological factors simultaneously. It is shown that the variant model outperforms traditional Transformer across different lead times with respect to various evaluation metrics. The sensitivity analyses based on XAI technology demonstrate the significant influence of meteorological factors on water level evolution, in which temperature is shown to be the most dominant meteorological factor. Therefore, incorporating both meteorological and hydrological factors is necessary for reliable hydrological prediction and flood prevention. In the meantime, XAI technology provides insights into certain predictions, which is beneficial for understanding the prediction results and evaluating the reasonability.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# 期待能力集合のためのフレームワーク

A framework for expected capability sets ( http://arxiv.org/abs/2405.13647v1 )

ライセンス: Link先を確認
Nicolas Fayard, David Ríos Insua, Alexis Tsoukiàs, (参考訳) 本稿では、世界の複数の目的と不確実な状態を含む意思決定問題に対処する。 機能的アプローチにインスパイアされた我々は、政策立案者が世界の状態と組み合わさって市民のための一連の選択につながる行為を選択する場合に焦点を当てる。 基準の重要パラメータを構成するための優先的な情報は提供されていないが、異なる状態の可能性が得られている。 この文脈で意思決定を効果的に支援するために、それぞれの可能性を考慮して、世界の各状態の潜在的な選択セットをマージする2つの手順を提案する。 我々の手続きは、成果を特徴づけるいくつかの基本的で望ましい特性を満たす。

This paper addresses decision-aiding problems that involve multiple objectives and uncertain states of the world. Inspired by the capability approach, we focus on cases where a policy maker chooses an act that, combined with a state of the world, leads to a set of choices for citizens. While no preferential information is available to construct importance parameters for the criteria, we can obtain likelihoods for the different states. To effectively support decision-aiding in this context, we propose two procedures that merge the potential set of choices for each state of the world taking into account their respective likelihoods. Our procedures satisfy several fundamental and desirable properties that characterize the outcomes.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# ConcertoRL: 直接駆動タンデム翼車両の制御強化のための革新的時間インターリーブ強化学習手法

ConcertoRL: An Innovative Time-Interleaved Reinforcement Learning Approach for Enhanced Control in Direct-Drive Tandem-Wing Vehicles ( http://arxiv.org/abs/2405.13651v1 )

ライセンス: Link先を確認
Minghao Zhang, Bifeng Song, Changhao Chen, Xinyu Lang, (参考訳) タンデムウィングの影響下での昆虫スケール直接駆動実験プラットフォームにおける制御問題において、既存の強化学習モデルに直面する主な課題は、探索過程における安全性の制限と継続的な訓練プロセスの安定性である。 制御精度の向上とオンライントレーニングプロセスの安定化を目的として,制御精度の向上を目的とした古典的コントローラと強化学習ベースのコントローラを相互接続するタイムインターリーブ機構と,オンライントレーニングプロセスの安定性を確保するために,政策作曲家が過去の学習経験を整理し,オンライントレーニングプロセスの安定性を確保する。 本稿では,一連の実験を行う。 まず、時間インターリーブ機構を組み込んだ実験により、強化学習の強化を伴わないシナリオよりも約70%性能が向上し、制御周波数が2倍の参照コントローラに比べて50%効率が向上した。 これらの結果は、アルゴリズムがその部分の和を超える相乗効果を生み出す能力を強調している。

In control problems for insect-scale direct-drive experimental platforms under tandem wing influence, the primary challenge facing existing reinforcement learning models is their limited safety in the exploration process and the stability of the continuous training process. We introduce the ConcertoRL algorithm to enhance control precision and stabilize the online training process, which consists of two main innovations: a time-interleaved mechanism to interweave classical controllers with reinforcement learning-based controllers aiming to improve control precision in the initial stages, a policy composer organizes the experience gained from previous learning to ensure the stability of the online training process. This paper conducts a series of experiments. First, experiments incorporating the time-interleaved mechanism demonstrate a substantial performance boost of approximately 70% over scenarios without reinforcement learning enhancements and a 50% increase in efficiency compared to reference controllers with doubled control frequencies. These results highlight the algorithm's ability to create a synergistic effect that exceeds the sum of its parts.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# 大規模フォトニック導波路アレイにおけるプログラマブル量子回路

Programmable quantum circuits in a large-scale photonic waveguide array ( http://arxiv.org/abs/2405.13654v1 )

ライセンス: Link先を確認
Yang Yang, Robert J. Chapman, Akram Youssry, Ben Haylock, Francesco Lenzini, Mirko Lobino, Alberto Peruzzo, (参考訳) 過去10年間で、集積量子フォトニクス技術は、量子現象を研究し、大規模量子情報処理を実現するためのプラットフォームとして大きな可能性を示してきた。 近年、導波路格子を用いた量子ゲートの実装が提案されており、指向性カプラや位相シフト器による離散的な実装と比較して、よりコンパクトでロバストなソリューションを提供している。 連続結合型プログラマブル導波路アレイを用いて, 単一光子状態の精密制御の最初の実演を行った。 電気光学制御により、アレイは分離されたサブ回路に分割され、オンチップ量子干渉の度合いは0.962$\pm$0.013の可視性で調整できる。 さらに、単一デバイス上で2つのサブ回路の同時制御を示す。 本研究は,量子情報処理アプリケーションのためのビルディングブロックとして,この技術を用いることの可能性を示すものである。

Over the past decade, integrated quantum photonic technologies have shown great potential as a platform for studying quantum phenomena and realizing large-scale quantum information processing. Recently, there have been proposals for utilizing waveguide lattices to implement quantum gates, providing a more compact and robust solution compared to discrete implementation with directional couplers and phase shifters. We report on the first demonstration of precise control of single photon states on an $11\times 11$ continuously-coupled programmable waveguide array. Through electro-optical control, the array is subdivided into decoupled subcircuits and the degree of on-chip quantum interference can be tuned with a maximum visibility of 0.962$\pm$0.013. Furthermore, we show simultaneous control of two subcircuits on a single device. Our results demonstrate the potential of using this technology as a building block for quantum information processing applications.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# EgoChoir:エゴセントリックな視点から3Dオブジェクトインタラクション領域をキャプチャする

EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views ( http://arxiv.org/abs/2405.13659v1 )

ライセンス: Link先を確認
Yuhang Yang, Wei Zhai, Chengfeng Wang, Chengjun Yu, Yang Cao, Zheng-Jun Zha, (参考訳) Egocentric Human-Object Interaction(HOI)を理解することは、人間中心の認識の基本的な側面であり、AR/VRや組み込みAIといった応用を促進する。 エゴセントリックなHOIにとって、セマンティックスegの知覚に加えて、「何を」相互作用が起きているのかを把握し、3次元空間に特異的に現れる相互作用も重要であり、それが知覚と操作を結びつけている。 既存の手法は主にHOIの観測を利用して、外心的な視点から相互作用領域を捉えている。 しかし、自己中心的視点における相互作用する参加者の不完全な観察は、視覚的観察と相互作用の内容とのあいまいさをもたらし、その効果を損なう。 人間は視覚野、小脳、脳を統合して、物体の意図や相互作用の概念を内包し、相互作用の事前形成と、相互作用領域が見えない場合でも行動を起こすことができる。 そこで本研究では,視覚的外見,頭部運動,三次元物体を調和させて,物体の相互作用の概念と対象意図を探索し,人間との接触を3Dで推定し,自我中心の映像から物価を推定する手法を提案する。 これを実現するために,物体構造と外見と頭部運動に固有の相互作用コンテキストを関連付けるEgoChoirを提案し,それを利用して人間の接触をモデル化する。 さらに、様々なエゴセントリックなシナリオ間での相互作用領域のキャプチャに適切な手がかりを採用するために、勾配変調を用いる。 さらに,Ego-Exo4DとGIMOから収集したエゴセントリックなビデオに3Dコンタクトとアプライアンスを付加し,タスクを支援する。 これらの実験は、EgoChoirの有効性と優位性を示している。 コードとデータはオープンになる。

Understanding egocentric human-object interaction (HOI) is a fundamental aspect of human-centric perception, facilitating applications like AR/VR and embodied AI. For the egocentric HOI, in addition to perceiving semantics e.g., ''what'' interaction is occurring, capturing ''where'' the interaction specifically manifests in 3D space is also crucial, which links the perception and operation. Existing methods primarily leverage observations of HOI to capture interaction regions from an exocentric view. However, incomplete observations of interacting parties in the egocentric view introduce ambiguity between visual observations and interaction contents, impairing their efficacy. From the egocentric view, humans integrate the visual cortex, cerebellum, and brain to internalize their intentions and interaction concepts of objects, allowing for the pre-formulation of interactions and making behaviors even when interaction regions are out of sight. In light of this, we propose harmonizing the visual appearance, head motion, and 3D object to excavate the object interaction concept and subject intention, jointly inferring 3D human contact and object affordance from egocentric videos. To achieve this, we present EgoChoir, which links object structures with interaction contexts inherent in appearance and head motion to reveal object affordance, further utilizing it to model human contact. Additionally, a gradient modulation is employed to adopt appropriate clues for capturing interaction regions across various egocentric scenarios. Moreover, 3D contact and affordance are annotated for egocentric videos collected from Ego-Exo4D and GIMO to support the task. Extensive experiments on them demonstrate the effectiveness and superiority of EgoChoir. Code and data will be open.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# 結合チューニングに基づく固定位相可変方向カプラ

A fixed phase tunable directional coupler based on coupling tuning ( http://arxiv.org/abs/2405.13660v1 )

ライセンス: Link先を確認
Yang Yang, Tim Weiss, Hamed Arianfard, Akram Youssry, Alberto Peruzzo, (参考訳) フォトニック集積回路の分野は近年大きく進歩し、高性能な再構成が可能なデバイスへの需要が高まっている。 従来の調整可能な指向性カプラ(TDC)が、反射率を調整しながら一定の位相を維持することができないため、大規模な回路構築において、反射率調整のための一次構造ブロックとしてマッハ・ツェンダー干渉計(MZI)が使用される。 しかし、MZIは、そのスケーラビリティを妨げる0-1反射率を達成するために、完全なバランスの取れた方向性結合器を必要とするため、製造エラーを起こしやすい。 本研究では,薄膜Lithium Niobateプラットフォームにおける結合定数チューニングに基づくTDCの設計と最適化設計を提案する。 最適化されたTDC設計は、幅広い動作波長で一貫した位相を確保しつつ、任意の反射率調整を可能にする。 さらに、MZIよりも曲げ面積が少なく、MZIと従来のTDCと比べ、導波路形状および結合長の加工誤差に本質的に耐性がある。 本研究は,光通信システムや量子情報処理など,様々な分野に影響を及ぼす高性能フォトニック集積回路の開発に寄与する。

The field of photonic integrated circuits has witnessed significant progress in recent years, with a growing demand for devices that offer high-performance reconfigurability. Due to the inability of conventional tunable directional couplers (TDCs) to maintain a fixed phase while tuning the reflectivity, Mach-Zehnder interferometers (MZIs) are employed as the primary building blocks for reflectivity tuning in constructing large-scale circuits. However, MZIs are prone to fabrication errors due to the need for perfect balanced directional couplers to achieve 0-1 reflectivity, which hinders their scalability. In this study, we introduce a design of a TDC based on coupling constant tuning in the thin film Lithium Niobate platform and present an optimized design. Our optimized TDC design enables arbitrary reflectivity tuning while ensuring a consistent phase across a wide range of operating wavelengths. Furthermore, it exhibits fewer bending sections than MZIs and is inherently resilient to fabrication errors in waveguide geometry and coupling length compared to both MZIs and conventional TDCs. Our work contributes to developing high-performance photonic integrated circuits with implications for various fields, including optical communication systems and quantum information processing.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# オンライン・バッチ変換を用いた依存データに対する一般化境界

Generalization Bounds for Dependent Data using Online-to-Batch Conversion ( http://arxiv.org/abs/2405.13666v1 )

ライセンス: Link先を確認
Sagnik Chatterjee, Manuj Mukherjee, Alhad Sethi, (参考訳) 本研究では,オンライン・ツー・バッチ変換のパラダイムを用いて,依存データソースから抽出したサンプルに基づいて学習した統計的学習アルゴリズムの一般化境界を期待と高い確率で提示する。 従属データ設定における統計的学習者の一般化誤差は、基礎となる混合確率過程の崩壊率に依存し、統計的学習者の複雑さとは無関係な項に設定する統計学習者の一般化誤差と等価であることを示す。 我々の証明手法は、ワッサースタイン距離に基づくオンライン学習アルゴリズムの安定性の新たな概念を定義し、従属変数が従属データに基づいて訓練された統計的学習者の一般化誤差に対して適切な上界に到達するために「ニアマーチンゲール」濃度境界を用いる。

In this work, we give generalization bounds of statistical learning algorithms trained on samples drawn from a dependent data source, both in expectation and with high probability, using the Online-to-Batch conversion paradigm. We show that the generalization error of statistical learners in the dependent data setting is equivalent to the generalization error of statistical learners in the i.i.d. setting up to a term that depends on the decay rate of the underlying mixing stochastic process and is independent of the complexity of the statistical learner. Our proof techniques involve defining a new notion of stability of online learning algorithms based on Wasserstein distances and employing "near-martingale" concentration bounds for dependent random variables to arrive at appropriate upper bounds for the generalization error of statistical learners trained on dependent data.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# 符号化ネットワークトラフィックのGNNによる異常検出

GNN-based Anomaly Detection for Encoded Network Traffic ( http://arxiv.org/abs/2405.13670v1 )

ライセンス: Link先を確認
Anasuya Chattopadhyay, Daniel Reti, Hans D. Schotten, (参考訳) 初期の研究報告では、情報に富んだインターネットトラフィックデータの異常検出にグラフニューラルネットワーク(GNN)を使用する可能性について検討している。 近年の研究では, 財務, 多変量時系列, 生化学領域における異常検出におけるGNNの利用が著しく進歩しているが, ネットワークフローデータの観点からは限定的な研究がなされている。 本稿では,ネットワークフローパケットデータから抽出した情報に富んだ特徴を活用し,異常検出におけるGNNの性能向上を図る。 このアイデアは、機能符号化(バイナリ、数値、文字列)を使用してネットワークコンポーネント間の関係をキャプチャし、GNNが潜伏関係を学習し、異常をよりよく識別できるようにすることである。

The early research report explores the possibility of using Graph Neural Networks (GNNs) for anomaly detection in internet traffic data enriched with information. While recent studies have made significant progress in using GNNs for anomaly detection in finance, multivariate time-series, and biochemistry domains, there is limited research in the context of network flow data. In this report, we explore the idea that leverages information-enriched features extracted from network flow packet data to improve the performance of GNN in anomaly detection. The idea is to utilize feature encoding (binary, numerical, and string) to capture the relationships between the network components, allowing the GNN to learn latent relationships and better identify anomalies.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# スパイクニューラルネットワークのマルチスケール時空間相互作用学習への応用

Advancing Spiking Neural Networks towards Multiscale Spatiotemporal Interaction Learning ( http://arxiv.org/abs/2405.13672v1 )

ライセンス: Link先を確認
Yimeng Shan, Malu Zhang, Rui-jie Zhu, Xuerui Qiu, Jason K. Eshraghian, Haicheng Qu, (参考訳) 近年の神経科学研究の進展により、スパイキングニューラルネットワーク(SNN)の開発が促進され、神経科学研究をさらに進展させる可能性だけでなく、スパイク駆動特性により、ニューラルネットワーク(ANN)に代わるエネルギー効率の高い代替品として機能する。 しかし、過去の研究では、イベントデータ間のマルチスケール情報とその時空間相関を無視することが多かったため、SNNモデルは入力イベントの各フレームを静的な画像として近似する。 この過度な単純化は、SNNと従来のANNのパフォーマンスギャップに大きく寄与する、という仮説を立てる。 この問題に対処するために,マルチスケールの時空間相互作用情報をキャプチャするスパイキング・マルチスケール・アテンション(SMA)モジュールを設計した。 さらに,アテンションゾーンアウト(AZO)と呼ばれる正規化手法を開発し,時空間の注意重みを利用して擬似アンサンブル学習によるモデルの一般化誤差を低減する。 我々のアプローチは、主流のニューラルモルフォロジーデータセットの最先端の結果を得た。 さらに,SMAおよびAZOで拡張された104層ResNetアーキテクチャを用いて,Imagenet-1Kデータセット上で77.1%の性能を達成した。 この成果は、非トランスフォーマーアーキテクチャを用いたSNNの最先端性能を確認し、従来のANNモデルとSNNモデルのパフォーマンスギャップを埋める上で、本手法の有効性を裏付けるものである。

Recent advancements in neuroscience research have propelled the development of Spiking Neural Networks (SNNs), which not only have the potential to further advance neuroscience research but also serve as an energy-efficient alternative to Artificial Neural Networks (ANNs) due to their spike-driven characteristics. However, previous studies often neglected the multiscale information and its spatiotemporal correlation between event data, leading SNN models to approximate each frame of input events as static images. We hypothesize that this oversimplification significantly contributes to the performance gap between SNNs and traditional ANNs. To address this issue, we have designed a Spiking Multiscale Attention (SMA) module that captures multiscale spatiotemporal interaction information. Furthermore, we developed a regularization method named Attention ZoneOut (AZO), which utilizes spatiotemporal attention weights to reduce the model's generalization error through pseudo-ensemble training. Our approach has achieved state-of-the-art results on mainstream neural morphology datasets. Additionally, we have reached a performance of 77.1% on the Imagenet-1K dataset using a 104-layer ResNet architecture enhanced with SMA and AZO. This achievement confirms the state-of-the-art performance of SNNs with non-transformer architectures and underscores the effectiveness of our method in bridging the performance gap between SNN models and traditional ANN models.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# セマンティックシーン補完のためのボクセル変換器のコンテキストと幾何学

Context and Geometry Aware Voxel Transformer for Semantic Scene Completion ( http://arxiv.org/abs/2405.13675v1 )

ライセンス: Link先を確認
Zhu Yu, Runming Zhang, Jiacheng Ying, Junchen Yu, Xiaohai Hu, Lun Luo, Siyuan Cao, Huiliang Shen, (参考訳) 視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。 既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像に共通するコンテキスト非依存のクエリを用いるのが一般的であり、異なる入力の焦点領域が異なるため、異なる入力の区別が取れず、非指向的な特徴集約が生じる可能性がある。 さらに、深度情報の欠如は、特徴マップ内の同じ2D位置または類似のサンプリングポイントを共有する画像平面に投影される点につながり、深さの曖昧さをもたらす可能性がある。 本稿では,新しいコンテキストと幾何学を考慮したボクセル変換器を提案する。 コンテキスト認識クエリジェネレータを使用して、個々の入力画像に適したコンテキスト依存クエリを初期化し、その特徴を効果的にキャプチャし、関心領域内の情報を集約する。 さらに、変形可能なクロスアテンションを2Dから3Dピクセル空間に拡張し、その深さ座標に基づいて類似の画像座標を持つ点の微分を可能にする。 このモジュールをベースとして,セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。 同時に、CGFormerは複数の3D表現(すなわち、ボクセルとTPV)を活用し、局所的および大域的な視点から変換された3Dボリュームの意味的および幾何学的表現能力を高める。 実験の結果、CGFormerはSemanticKITTIとSSCBench-KITTI-360のベンチマークで、それぞれ16.87と20.05のmIoU、45.99と48.07のIoUを達成した。 注目すべきは、CGFormerは、時間的イメージを入力として、あるいははるかに大きな画像バックボーンネットワークとして利用するアプローチよりも優れています。 提案されたメソッドのコードはhttps://github.com/pkqbajng/CGFormer.comで公開されている。

Vision-based Semantic Scene Completion (SSC) has gained much attention due to its widespread applications in various 3D perception tasks. Existing sparse-to-dense approaches typically employ shared context-independent queries across various input images, which fails to capture distinctions among them as the focal regions of different inputs vary and may result in undirected feature aggregation of cross-attention. Additionally, the absence of depth information may lead to points projected onto the image plane sharing the same 2D position or similar sampling points in the feature map, resulting in depth ambiguity. In this paper, we present a novel context and geometry aware voxel transformer. It utilizes a context aware query generator to initialize context-dependent queries tailored to individual input images, effectively capturing their unique characteristics and aggregating information within the region of interest. Furthermore, it extend deformable cross-attention from 2D to 3D pixel space, enabling the differentiation of points with similar image coordinates based on their depth coordinates. Building upon this module, we introduce a neural network named CGFormer to achieve semantic scene completion. Simultaneously, CGFormer leverages multiple 3D representations (i.e., voxel and TPV) to boost the semantic and geometric representation abilities of the transformed 3D volume from both local and global perspectives. Experimental results demonstrate that CGFormer achieves state-of-the-art performance on the SemanticKITTI and SSCBench-KITTI-360 benchmarks, attaining a mIoU of 16.87 and 20.05, as well as an IoU of 45.99 and 48.07, respectively. Remarkably, CGFormer even outperforms approaches employing temporal images as inputs or much larger image backbone networks. Code for the proposed method is available at https://github.com/pkqbajng/CGFormer.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# 決定的点過程をもつ自然的私的勧告

Naturally Private Recommendations with Determinantal Point Processes ( http://arxiv.org/abs/2405.13677v1 )

ライセンス: Link先を確認
Jack Fitzsimons, Agustín Freitas Pasqualini, Robert Pisarczyk, Dmitrii Usynin, (参考訳) しばしば、ランダム化機構を導入して、モデルを差分プライバシー制約に適合させるために、変更しようとする機械学習モデルや統計的分析手法を検討する。 しかしながら、特定のモデルは暗黙的に差分的または著しく少ない変更を必要とすることがある。 本稿では,コンテンツの人気と多様性の両面からレコメンデーションのバランスをとる分散モデルであるDPP(Determinantal Point Processes)について論じる。 我々は, DPPを導入し, エプシロン・ディファレンシャル・プライバシを満たすために必要な変化を導出し,議論し, その感度を解析する。 私たちは、プライバシーとユーティリティのトレードオフに関して、より効率的になるような、DPPの簡単な代替案を提案して、結論付けました。

Often we consider machine learning models or statistical analysis methods which we endeavour to alter, by introducing a randomized mechanism, to make the model conform to a differential privacy constraint. However, certain models can often be implicitly differentially private or require significantly fewer alterations. In this work, we discuss Determinantal Point Processes (DPPs) which are dispersion models that balance recommendations based on both the popularity and the diversity of the content. We introduce DPPs, derive and discuss the alternations required for them to satisfy epsilon-Differential Privacy and provide an analysis of their sensitivity. We conclude by proposing simple alternatives to DPPs which would make them more efficient with respect to their privacy-utility trade-off.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# Schur's Lemmaによる深部結合同変ネットワークの構成的普遍近似理論

Constructive Universal Approximation Theorems for Deep Joint-Equivariant Networks by Schur's Lemma ( http://arxiv.org/abs/2405.13682v1 )

ライセンス: Link先を確認
Sho Sonoda, Yuka Hashimoto, Isao Ishikawa, Masahiro Ikeda, (参考訳) 群表現理論に基づく浅層ニューラルネットワークと深層ニューラルネットワークを含む幅広い学習機械をカバーする統一的構成的普遍近似定理を提案する。 ここでの構成は、パラメータの分布が閉形式式(リッジレット変換と呼ばれる)で与えられることを意味する。 浅部モデルとは対照的に,深部モデルの表現力解析はケースバイケース方式で行われている。 最近、Sonoda et al (2023a,b) は、スカラー値の合同群不変特徴写像から構成的近似定理を示す体系的な方法を開発し、形式的な深層ネットワークをカバーした。 しかし, 各隠蔽層は抽象群作用として形式化され, 非線形活性化関数の合成によって定義された実深層ネットワークをカバーできなかった。 本研究では,ベクトル値付き共同グループ同変特徴写像の手法を拡張し,そのような実ネットワークを網羅する。

We present a unified constructive universal approximation theorem covering a wide range of learning machines including both shallow and deep neural networks based on the group representation theory. Constructive here means that the distribution of parameters is given in a closed-form expression (called the ridgelet transform). Contrary to the case of shallow models, expressive power analysis of deep models has been conducted in a case-by-case manner. Recently, Sonoda et al. (2023a,b) developed a systematic method to show a constructive approximation theorem from scalar-valued joint-group-invariant feature maps, covering a formal deep network. However, each hidden layer was formalized as an abstract group action, so it was not possible to cover real deep networks defined by composites of nonlinear activation function. In this study, we extend the method for vector-valued joint-group-equivariant feature maps, so to cover such real networks.
翻訳日:2024-05-24 23:54:52 公開日:2024-05-22
# CrossCheckGPT:マルチモーダルファンデーションモデルのためのユニバーサル幻覚ランキング

CrossCheckGPT: Universal Hallucination Ranking for Multimodal Foundation Models ( http://arxiv.org/abs/2405.13684v1 )

ライセンス: Link先を確認
Guangzhi Sun, Potsawee Manakul, Adian Liusie, Kunat Pipatanakul, Chao Zhang, Phil Woodland, Mark Gales, (参考訳) マルチモーダル基礎モデルは幻覚を起こす傾向があり、入力に矛盾する出力を生成するか、事実情報を根拠にしない。 アーキテクチャの多様性、トレーニングデータ、命令チューニングのテクニックを考えると、幻覚に対するシステムの感受性には大きなバリエーションがある。 システム幻覚の堅牢性を評価するため,画像キャプション,質問応答,要約,伝記生成などの特定のタスクに対して,幻覚ランキング手法が開発されている。 しかしながら、これらのアプローチは一般的にモデル出力を金標準基準やラベルと比較し、新しい領域に対する幻覚ベンチマークを制限する。 本研究は,マルチモーダル基礎モデルの基準自由幻覚ランキングであるCrossCheckGPTを提案する。 CrossCheckGPTの中核となる考え方は、同じ幻覚コンテンツは異なる独立したシステムによって生成されないため、システム間の整合性は有意義で正確な幻覚評価スコアを提供する。 CrossCheckGPT は任意のモデルやタスクに適用でき、出力間の情報一貫性を適切な距離測定によって測定できる。 テキストを生成するマルチモーダルな大規模言語モデルに着目し,CrossCheck-explicitとCrossCheck-implicitの2つの情報一貫性対策を検討する。 本手法の適用性について,テキスト,画像,音声視覚領域など,様々な形態の幻覚のランク付けについて紹介する。 さらに,第1の視覚幻覚ベンチマークであるAVHalluBenchを提案し,MHaluBenchとAVHalluBenchの相関関係を98%,89%とし,CrossCheckGPTの有効性を示した。

Multimodal foundation models are prone to hallucination, generating outputs that either contradict the input or are not grounded by factual information. Given the diversity in architectures, training data and instruction tuning techniques, there can be large variations in systems' susceptibility to hallucinations. To assess system hallucination robustness, hallucination ranking approaches have been developed for specific tasks such as image captioning, question answering, summarization, or biography generation. However, these approaches typically compare model outputs to gold-standard references or labels, limiting hallucination benchmarking for new domains. This work proposes "CrossCheckGPT", a reference-free universal hallucination ranking for multimodal foundation models. The core idea of CrossCheckGPT is that the same hallucinated content is unlikely to be generated by different independent systems, hence cross-system consistency can provide meaningful and accurate hallucination assessment scores. CrossCheckGPT can be applied to any model or task, provided that the information consistency between outputs can be measured through an appropriate distance metric. Focusing on multimodal large language models that generate text, we explore two information consistency measures: CrossCheck-explicit and CrossCheck-implicit. We showcase the applicability of our method for hallucination ranking across various modalities, namely the text, image, and audio-visual domains. Further, we propose the first audio-visual hallucination benchmark, "AVHalluBench", and illustrate the effectiveness of CrossCheckGPT, achieving correlations of 98% and 89% with human judgements on MHaluBench and AVHalluBench, respectively.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# Black Scholesアルゴリズムを用いた拡散モデルのプロンプト混合

Prompt Mixing in Diffusion Models using the Black Scholes Algorithm ( http://arxiv.org/abs/2405.13685v1 )

ライセンス: Link先を確認
Divya Kothandaraman, Ming Lin, Dinesh Manocha, (参考訳) 本稿では,事前学習したテキスト-画像拡散モデルを用いて,複数のテキストプロンプトの交点における画像生成を目的とした,プロンプトミキシングのための新しいアプローチを提案する。 拡散デノゲーション中の各ステップにおいて、我々のアルゴリズムは生成した画像の予測を予測し、インフォームドテキスト条件決定を行う。 そのため、金融の価格設定に拡散モデル(非平衡熱力学に根ざした)とブラック・ショールズモデル(英語版)の接続を利用して、両方の文脈における変数間の類似性を引き合いに出し、ブラック・ショールズモデルを用いた迅速な混合のための適切なアルゴリズムを導出する。 具体的には、拡散モデルとブラック・スコルズ・モデルとの並列性により、ブラック・スコルズ・アルゴリズムから導かれるマルコフモデルの力学に関する特性を活用できる。 我々のプロンプトミキシングアルゴリズムはデータ効率が良いので、追加のトレーニングは必要ない。 さらに、人間の介入やハイパーパラメータチューニングなしで動作します。 我々は、線形補間、交替プロンプト、ステップワイドプロンプトスイッチング、CLIP誘導プロンプト選択など、テキストプロンプト毎の単一オブジェクト、テキストプロンプト毎の複数オブジェクト、バックグラウンドに対するオブジェクトなど、様々なシナリオにわたる様々なプロンプト選択など、他のプロンプトミキシング技術と質的に定量的に比較することで、このアプローチの利点を強調した。 コードはhttps://github.com/divyakraman/BlackScholesDiffusion2024で公開されている。

We introduce a novel approach for prompt mixing, aiming to generate images at the intersection of multiple text prompts using pre-trained text-to-image diffusion models. At each time step during diffusion denoising, our algorithm forecasts predictions w.r.t. the generated image and makes informed text conditioning decisions. To do so, we leverage the connection between diffusion models (rooted in non-equilibrium thermodynamics) and the Black-Scholes model for pricing options in Finance, and draw analogies between the variables in both contexts to derive an appropriate algorithm for prompt mixing using the Black Scholes model. Specifically, the parallels between diffusion models and the Black-Scholes model enable us to leverage properties related to the dynamics of the Markovian model derived in the Black-Scholes algorithm. Our prompt-mixing algorithm is data-efficient, meaning it does not need additional training. Furthermore, it operates without human intervention or hyperparameter tuning. We highlight the benefits of our approach by comparing it qualitatively and quantitatively to other prompt mixing techniques, including linear interpolation, alternating prompts, step-wise prompt switching, and CLIP-guided prompt selection across various scenarios such as single object per text prompt, multiple objects per text prompt and objects against backgrounds. Code is available at https://github.com/divyakraman/BlackScholesDiffusion2024.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# 汎用セマンティック知識をFew-Shotリモートセンシングセグメンテーションに組み込む

Embedding Generalized Semantic Knowledge into Few-Shot Remote Sensing Segmentation ( http://arxiv.org/abs/2405.13686v1 )

ライセンス: Link先を確認
Yuyu Jia, Wei Huang, Junyu Gao, Qi Wang, Qiang Li, (参考訳) リモートセンシング(RS)画像のためのFew-shot segmentation (FSS)は、限られた注釈付きサンプルからのサポート情報を活用して、新しいクラスのクエリセグメンテーションを実現する。 従来の取り組みは、制約された支援サンプルの集合からセグメント化を導く視覚的手がかりをマイニングすることに集中している。 しかし、シャープな視覚的手がかりが頑丈なクラス固有の表現を確立するのを困難にしているため、RS画像のクラス内差の顕著さに対処するのは難しい。 本稿では,一般的な意味的知識,すなわちクラス記述(CD)埋め込みを効果的に活用する全体論的意味的埋め込み(HSE)アプローチを提案する。CD埋め込みと視覚的特徴を包括的に組み合わせてセグメンテーションデコーディングを行う代わりに,特徴抽出段階における一般的な意味的知識の埋め込みを調査する。特にHSEでは,空間密な相互作用モジュールによって,空間的空間的空間的次元に沿ったCD埋め込みと視覚的サポート機能の相互作用が可能である。さらに,グローバルコンテンツ変調モジュールは,視覚的特徴とCD埋め込みの変換により,対象カテゴリのグローバル情報を効率的に拡張する。

Few-shot segmentation (FSS) for remote sensing (RS) imagery leverages supporting information from limited annotated samples to achieve query segmentation of novel classes. Previous efforts are dedicated to mining segmentation-guiding visual cues from a constrained set of support samples. However, they still struggle to address the pronounced intra-class differences in RS images, as sparse visual cues make it challenging to establish robust class-specific representations. In this paper, we propose a holistic semantic embedding (HSE) approach that effectively harnesses general semantic knowledge, i.e., class description (CD) embeddings.Instead of the naive combination of CD embeddings and visual features for segmentation decoding, we investigate embedding the general semantic knowledge during the feature extraction stage.Specifically, in HSE, a spatial dense interaction module allows the interaction of visual support features with CD embeddings along the spatial dimension via self-attention.Furthermore, a global content modulation module efficiently augments the global information of the target category in both support and query features, thanks to the transformative fusion of visual features and CD embeddings.These two components holistically synergize general CD embeddings and visual cues, constructing a robust class-specific representation.Through extensive experiments on the standard FSS benchmark, the proposed HSE approach demonstrates superior performance compared to peer work, setting a new state-of-the-art.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# 量子慣性センサを用いた古典加速度計とジャイロスコープの安定化

Stabilizing classical accelerometers and gyroscopes with a quantum inertial sensor ( http://arxiv.org/abs/2405.13689v1 )

ライセンス: Link先を確認
Clément Salducci, Yannick Bidel, Malo Cadoret, Sarah Darmon, Nassim Zahzam, Alexis Bonnin, Sylvain Schwartz, Cédric Blanchard, Alexandre Bresson, (参考訳) 慣性量の正確な測定は、地球物理学、測地学、基礎物理学、航海に不可欠である。 例えば、慣性ナビゲーションシステムは、キャリアの位置と姿勢を計算するために安定した慣性センサーを必要とする。 ここでは,原子波干渉計を用いて加速度計とジャイロスコープの両方のドリフトとバイアスを同時に補正する,最初のハイブリッド型冷原子慣性センサを提案する。 加速度計とコリオリス振動ジャイロスコープを単独で操作した場合と比較して,ハイブリッドセンサの安定性を100倍3倍に向上させるため,統合後2日で7 \times 10^{-7}$ m/s$^2$および4 \times 10^{-7}$ rad/sのバイアス安定性が得られた。 この装置は地球回転速度の最大100倍の速度で運用されている。 最先端の原子ジャイロスコープと比較して、我々のアーキテクチャのシンプルさとスケーラビリティにより、コンパクトな6軸慣性測定ユニットに容易に拡張でき、冷原子センサーを用いた自律的な位置決めと方向決めの道を提供する。

Accurate measurement of inertial quantities is essential in geophysics, geodesy, fundamental physics and navigation. For instance, inertial navigation systems require stable inertial sensors to compute the position and attitude of the carrier. Here, we present the first hybridized cold-atom inertial sensor based on matter wave interferometry where the atomic measurements are used to correct the drift and bias of both an accelerometer and a gyroscope at the same time. We achieve respective bias stabilities of $7 \times 10^{-7}$ m/s$^2$ and $4 \times 10^{-7}$ rad/s after two days of integration, corresponding to a 100-fold and 3-fold increase on the stability of the hybridized sensor compared to the force-balanced accelerometer and Coriolis vibrating gyroscope operated alone. The instrument has been operated under up to 100-times the Earth rotation rate. Compared to state-of-the-art atomic gyroscope, the simplicity and scalability of our architecture make it easily extendable to a compact full six-axis inertial measurement unit, providing a pathway towards autonomous positioning and orientation using cold-atom sensors.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# ニューラルネットワークを用いた非圧縮性流れのモデル化のためのランダム渦法

Neural Networks-based Random Vortex Methods for Modelling Incompressible Flows ( http://arxiv.org/abs/2405.13691v1 )

ライセンス: Link先を確認
Vladislav Cherepanov, Sebastian W. Ertel, (参考訳) 本稿では,(2D)非圧縮型ナビエ-ストークス方程式の近似解に対するニューラルネットワークに基づく新しいアプローチを提案する。 このアルゴリズムは、ランダム渦力学の計算効率の良い定式化を利用する損失関数に基づいて、渦を近似する物理インフォームドニューラルネットワークを用いている。 神経渦性推定器はポアソン方程式の従来の数値PDE解法と組み合わせて速度場を計算する。 従来の物理インフォームドニューラルネットワークと比較して,本手法の主な利点は,非圧縮性や境界条件などの物理的特性を厳格に強制することにある。

In this paper we introduce a novel Neural Networks-based approach for approximating solutions to the (2D) incompressible Navier--Stokes equations. Our algorithm uses a Physics-informed Neural Network, that approximates the vorticity based on a loss function that uses a computationally efficient formulation of the Random Vortex dynamics. The neural vorticity estimator is then combined with traditional numerical PDE-solvers for the Poisson equation to compute the velocity field. The main advantage of our method compared to standard Physics-informed Neural Networks is that it strictly enforces physical properties, such as incompressibility or boundary conditions, which might otherwise be hard to guarantee with purely Neural Networks-based approaches.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# Booking.comにおけるフラッド検出のためのタブラル変圧器を用いた勾配ブースト決定木

Challenging Gradient Boosted Decision Trees with Tabular Transformers for Fraud Detection at Booking.com ( http://arxiv.org/abs/2405.13692v1 )

ライセンス: Link先を確認
Sergei Krutikov, Bulat Khaertdinov, Rodion Kiriukhin, Shubham Agrawal, Kees Jan De Vries, (参考訳) 自己監視学習(SSL)によって強化されたトランスフォーマーベースのニューラルネットワークは、さまざまなドメインで前例のないパフォーマンスを示している。 しかし、関連する文献によると、表型トランスフォーマーは、GBDT(Gradient Boosted Decision Trees)のような古典的な機械学習アルゴリズムよりも優れている。 本稿では,電子商取引における典型的な課題である不正検出において,表型変換器を用いたGBDTに挑戦することを目的とする。 本研究は,実生活における不正検出システムにおいてしばしば発生する選択バイアスの問題によってもたらされる。 それは、どのサブセットがラベル付けされるかに影響する生産システムによって引き起こされる。 この問題は典型的には、制御グループと呼ばれる生産データ全体の小さな部分をランダムにサンプリングすることで解決される。 このサブセットは生産データのターゲット分布に従うため、通常標準のMLアルゴリズムを用いた分類モデルのトレーニングに好まれる。 我々の手法はトランスフォーマーがSSLで利用可能なすべてのデータを使って転送可能な表現を学習する能力を活用しており、従来の方法よりも有利である。 さらに、大規模な実験を行い、大量のデータインスタンス上でタブ型トランスフォーマーを事前訓練し、より小さなターゲットデータセット上でそれらを微調整する。 提案手法は、平均精度(AP)スコアのかなりのマージンで、調整されたGBDTよりも優れている。 事前トレーニングされたモデルは、微調整データに制限がある場合、スクラッチからトレーニングしたモデルよりも一貫性のあるパフォーマンスを示す。 さらに、データセット全体を利用するGBDT競合に匹敵するパフォーマンスに到達するには、明らかにラベル付きデータが必要である。

Transformer-based neural networks, empowered by Self-Supervised Learning (SSL), have demonstrated unprecedented performance across various domains. However, related literature suggests that tabular Transformers may struggle to outperform classical Machine Learning algorithms, such as Gradient Boosted Decision Trees (GBDT). In this paper, we aim to challenge GBDTs with tabular Transformers on a typical task faced in e-commerce, namely fraud detection. Our study is additionally motivated by the problem of selection bias, often occurring in real-life fraud detection systems. It is caused by the production system affecting which subset of traffic becomes labeled. This issue is typically addressed by sampling randomly a small part of the whole production data, referred to as a Control Group. This subset follows a target distribution of production data and therefore is usually preferred for training classification models with standard ML algorithms. Our methodology leverages the capabilities of Transformers to learn transferable representations using all available data by means of SSL, giving it an advantage over classical methods. Furthermore, we conduct large-scale experiments, pre-training tabular Transformers on vast amounts of data instances and fine-tuning them on smaller target datasets. The proposed approach outperforms heavily tuned GBDTs by a considerable margin of the Average Precision (AP) score. Pre-trained models show more consistent performance than the ones trained from scratch when fine-tuning data is limited. Moreover, they require noticeably less labeled data for reaching performance comparable to their GBDT competitor that utilizes the whole dataset.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# アルゴリズム識別の発見 : 比較器を再考する機会

Uncovering Algorithmic Discrimination: An Opportunity to Revisit the Comparator ( http://arxiv.org/abs/2405.13693v1 )

ライセンス: Link先を確認
Jose M. Alvarez, Salvatore Ruggieri, (参考訳) 因果推論、特に反事実推論は、差別のテストにおいて中心的な役割を果たす。 差別の検証において, 差別比較において, 差別弁別者と差別弁別者との比較において, 差別弁別者と差別弁別者が類似した(あるいは類似した位置にある)プロファイルと, 差別弁別者とを比較した場合に, 差別弁別のための検証において, いわゆる差別モデルが成立する。 本稿では,2種類のコンパレータを表現したい因果的介入に基づいて提示することで,コンパレータを再考する。 本論文では,Ceteris paribusとmutatis mutandis comparatorについて述べる。 差分概念の公正性に基づいて構築されたmutatis mutandisコンパレータを,将来的なアルゴリズムによる識別ケースのテストに利用することについて議論する。

Causal reasoning, in particular, counterfactual reasoning plays a central role in testing for discrimination. Counterfactual reasoning materializes when testing for discrimination, what is known as the counterfactual model of discrimination, when we compare the discrimination comparator with the discrimination complainant, where the comparator is a similar (or similarly situated) profile to that of the complainant used for testing the discrimination claim of the complainant. In this paper, we revisit the comparator by presenting two kinds of comparators based on the sort of causal intervention we want to represent. We present the ceteris paribus and the mutatis mutandis comparator, where the former is the standard and the latter is a new kind of comparator. We argue for the use of the mutatis mutandis comparator, which is built on the fairness given the difference notion, for testing future algorithmic discrimination cases.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# Gaussian Time Machine: リアルタイムレンダリング手法

Gaussian Time Machine: A Real-Time Rendering Methodology for Time-Variant Appearances ( http://arxiv.org/abs/2405.13694v1 )

ライセンス: Link先を確認
Licheng Shen, Ho Ngai Chow, Lingyun Wang, Tong Zhang, Mengqiu Wang, Yuxing Han, (参考訳) ニューラルレンダリング技術の最近の進歩は、3D再構成の忠実性を大幅に向上させた。 特に、3D Gaussian Splatting (3DGS)の出現は、離散的なシーン表現を採用し、効率的なトレーニングとリアルタイムレンダリングを促進することで、重要なマイルストーンとなった。 いくつかの研究は3DGSのリアルタイムレンダリング能力を動的シーンに拡張した。 しかし、異なる天候や照明条件下で訓練画像が撮影される場合、課題が生じる。 このシナリオは、3DGSとその変種が正確な再構築を達成する上での課題となる。 NeRFベースの手法(NeRF-W, CLNeRF)は、そのような困難な条件に対処する上で有望であるが、その計算要求はリアルタイムレンダリング能力を妨げている。 本稿では,Gaussian Time Machine(GTM)を提案する。これは,Gaussianプリミティブの時間依存属性を,軽量なMulti-Layer-Perceptron(MLP)で復号された離散時間埋め込みベクトルでモデル化する。 ガウス原始体の不透明度を調整することで、物体の可視性の変化を再構築することができる。 さらに、幾何整合性を改善するための分解色モデルを提案する。 GTMは3つのデータセットで最先端のレンダリングフィリティを達成し、レンダリングにおけるNeRFベースのレンダリングよりも100倍高速である。 さらに、GTMは外観変化を解消し、滑らかな外観補間を行う。

Recent advancements in neural rendering techniques have significantly enhanced the fidelity of 3D reconstruction. Notably, the emergence of 3D Gaussian Splatting (3DGS) has marked a significant milestone by adopting a discrete scene representation, facilitating efficient training and real-time rendering. Several studies have successfully extended the real-time rendering capability of 3DGS to dynamic scenes. However, a challenge arises when training images are captured under vastly differing weather and lighting conditions. This scenario poses a challenge for 3DGS and its variants in achieving accurate reconstructions. Although NeRF-based methods (NeRF-W, CLNeRF) have shown promise in handling such challenging conditions, their computational demands hinder real-time rendering capabilities. In this paper, we present Gaussian Time Machine (GTM) which models the time-dependent attributes of Gaussian primitives with discrete time embedding vectors decoded by a lightweight Multi-Layer-Perceptron(MLP). By adjusting the opacity of Gaussian primitives, we can reconstruct visibility changes of objects. We further propose a decomposed color model for improved geometric consistency. GTM achieved state-of-the-art rendering fidelity on 3 datasets and is 100 times faster than NeRF-based counterparts in rendering. Moreover, GTM successfully disentangles the appearance changes and renders smooth appearance interpolation.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# モデルとデータセットサイズをスケールするAdamWの体重減衰の設定方法

How to set AdamW's weight decay as you scale model and dataset size ( http://arxiv.org/abs/2405.13698v1 )

ライセンス: Link先を確認
Xi Wang, Laurence Aitchison, (参考訳) 我々はAdamWが学んだ重みを最近の更新の指数移動平均(EMA)と解釈できることを示した。 これは、AdamWにおける重量減衰の設定方法と、重量減衰をモデルとデータセットサイズでスケールする方法に関する重要な洞察を与える。 特に、指数移動平均の鍵ハイパーパラメータは、EMAタイムスケールである。 直感的には、EMAのタイムスケールは、EMAが平均する最近のイテレーションの数として理解することができる。 一定の学習率を与えられた場合、EMAタイムスケールから通常の重み減衰ハイパーパラメータへの1対1のマッピングがある。 したがって、EMA の時間スケールを選択すると、暗黙的に重みが減衰する。 重要なことは、EMAの時間スケールには自然なガイドラインがある: すべてのデータポイントを平均する必要があり、EMAの時間スケールは1エポック以下であるべきではなく、早期更新を忘れる必要があるため、EMAの時間スケールはトレーニングエポックの総数より大きくならない。 実験では,近年の大規模LLMプレトレーニングラン(eg \ Llama 1+2 and Stable LM)で選択されたハイパーパラメータと同様に,最適EMAタイムスケールはこれらのガイドラインと一致していることがわかった。 これらのガイドラインは、モデルとデータセットをスケールするため、最適なEMAタイムスケールは変更すべきでないことを示唆しています。 つまり、データセットのサイズが大きくなると、最適な重量減衰が減少する。 さらに、モデルのサイズが大きくなるにつれて、最適な重量減少も増加する(学習率を拡大する muP 勧告に従うと)。

We show that weights learned by AdamW can be understood as an exponential moving average (EMA) of recent updates. This gives critical insights for how to set the weight decay in AdamW, and how the weight decay should scale with model and dataset size. In particular, the key hyperparameter for an exponential moving average is the EMA timescale. Intuitively, the EMA timescale can be understood as the number of recent iterations the EMA averages over. Given a fixed learning rate, there is a one-to-one mapping from the EMA timescale to the usual weight decay hyperparameter. Thus, choosing an EMA timescale implicitly sets the weight decay. Importantly, there are natural guidelines for sensible values for the EMA timescale: we need to average over all datapoints, so the EMA timescale should not be (much) smaller than 1 epoch, and we need to forget early updates, so the EMA timescale should not be (much) bigger than the total number of training epochs. In our experiments, we find that optimal EMA timescales are consistent with these guidelines, as are the hyperparameters chosen in recent large-scale LLM pretraining runs (e.g.\ Llama 1+2 and Stable LM). Critically, these guidelines suggest that the optimal EMA timescale should not change (much) as we scale the model and dataset. That implies that as the dataset size increases, the optimal weight decay should fall. Moreover, as the model size increases, the optimal weight decay should also increase (if we follow the muP recommendation for scaling the learning rate).
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# 近位部悪性腫瘍の非確実性評価 : 近位部悪性腫瘍の1例

Uncertainty-aware Evaluation of Auxiliary Anomalies with the Expected Anomaly Posterior ( http://arxiv.org/abs/2405.13699v1 )

ライセンス: Link先を確認
Lorenzo Perini, Maja Rudolph, Sabrina Schmedding, Chen Qiu, (参考訳) 異常検出は、期待通りに振る舞わない例を特定するタスクである。 異常はまれで予期せぬ出来事であるため、実際の異常な事例を収集することはいくつかのアプリケーションでしばしば困難である。 さらに、限られた(またはノー)異常のある異常検知器を学習すると、予測性能が低下することがある。 1つの選択肢は、モデルトレーニングを改善するために補助的な合成異常を使用することである。 しかし、合成異常は品質が劣る可能性があり、非現実的または通常のサンプルと区別できない異常は検出器の性能を低下させる可能性がある。 残念ながら、補助異常の品質を定量化する方法は存在しない。 このギャップを埋めて,異常検出器の総不確実性を定量化して補助異常の質を測定する不確実性に基づくスコア関数である予測異常後部(EAP)を提案する。 画像と表データの40のベンチマークデータセットを用いて実験したところ、EAPは、ほとんどのケースにおいて、12の適応データ品質推定器より優れていることがわかった。

Anomaly detection is the task of identifying examples that do not behave as expected. Because anomalies are rare and unexpected events, collecting real anomalous examples is often challenging in several applications. In addition, learning an anomaly detector with limited (or no) anomalies often yields poor prediction performance. One option is to employ auxiliary synthetic anomalies to improve the model training. However, synthetic anomalies may be of poor quality: anomalies that are unrealistic or indistinguishable from normal samples may deteriorate the detector's performance. Unfortunately, no existing methods quantify the quality of auxiliary anomalies. We fill in this gap and propose the expected anomaly posterior (EAP), an uncertainty-based score function that measures the quality of auxiliary anomalies by quantifying the total uncertainty of an anomaly detector. Experimentally on 40 benchmark datasets of images and tabular data, we show that EAP outperforms 12 adapted data quality estimators in the majority of cases.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# グラフ凝縮の再考と加速:クラス分割による学習自由なアプローチ

Rethinking and Accelerating Graph Condensation: A Training-Free Approach with Class Partition ( http://arxiv.org/abs/2405.13707v1 )

ライセンス: Link先を確認
Xinyi Gao, Tong Chen, Wentao Zhang, Junliang Yu, Guanhua Ye, Quoc Viet Hung Nguyen, Hongzhi Yin, (参考訳) 大規模グラフの普及は、その相当な計算要求に起因するグラフニューラルネットワークトレーニングに重大な課題をもたらす。 これに対し、グラフ凝縮(GC)は、データ効率のよいGNNトレーニングを容易にするために、大きなグラフを小さいが情報的な凝縮グラフに置き換えることを目的とした、有望なデータ中心のソリューションとして出現する。 しかし、既存のGCメソッドは複雑な最適化プロセスに悩まされており、過剰な計算資源を必要とする。 本稿では,既存のGC最適化戦略を再検討し,2つの広範囲な問題を特定する。 1. 様々なGC最適化戦略は、元のグラフと凝縮グラフの間のクラスレベルのノード特徴マッチングに収束し、複雑な計算にもかかわらず、最適化対象を粗い粒度にする。 既存のGCメソッドは、元のグラフと凝縮グラフをブリッジするために、反復的な勾配計算による2段階最適化を必要とするSiameseグラフネットワークアーキテクチャに依存している。 これらの問題を克服するために,クラス分割グラフ凝縮(CGC)と呼ばれる訓練不要なGCフレームワークを提案する。 注目すべきは、この改善はGC最適化をクラス分割問題として単純化し、任意のクラスタリングメソッドで効率的に解決できることだ。 さらに、CGCは事前に定義されたグラフ構造を導入し、凝縮ノード特徴に対する閉形式ソリューションを可能にし、精度を犠牲にすることなく既存のGCアプローチのバック・アンド・フォース勾配を排除している。 大規模な実験により、CGCはより効率的な凝縮プロセスで最先端の性能を達成することが示された。 例えば、セミナルGC法(例えばGCond)と比較して、CGCは最大のRedditグラフを10秒以内に圧縮し、2,680Xのスピードアップと1.4%の精度向上を実現している。

The increasing prevalence of large-scale graphs poses a significant challenge for graph neural network training, attributed to their substantial computational requirements. In response, graph condensation (GC) emerges as a promising data-centric solution aiming to substitute the large graph with a small yet informative condensed graph to facilitate data-efficient GNN training. However, existing GC methods suffer from intricate optimization processes, necessitating excessive computing resources. In this paper, we revisit existing GC optimization strategies and identify two pervasive issues: 1. various GC optimization strategies converge to class-level node feature matching between the original and condensed graphs, making the optimization target coarse-grained despite the complex computations; 2. to bridge the original and condensed graphs, existing GC methods rely on a Siamese graph network architecture that requires time-consuming bi-level optimization with iterative gradient computations. To overcome these issues, we propose a training-free GC framework termed Class-partitioned Graph Condensation (CGC), which refines the node feature matching from the class-to-class paradigm into a novel class-to-node paradigm. Remarkably, this refinement also simplifies the GC optimization as a class partition problem, which can be efficiently solved by any clustering methods. Moreover, CGC incorporates a pre-defined graph structure to enable a closed-form solution for condensed node features, eliminating the back-and-forth gradient descent in existing GC approaches without sacrificing accuracy. Extensive experiments demonstrate that CGC achieves state-of-the-art performance with a more efficient condensation process. For instance, compared with the seminal GC method (i.e., GCond), CGC condenses the largest Reddit graph within 10 seconds, achieving a 2,680X speedup and a 1.4% accuracy increase.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# 必要なものすべて:エンドユーザー・ソフトウェア・エンジニアリングの最終フロンティア

Requirements are All You Need: The Final Frontier for End-User Software Engineering ( http://arxiv.org/abs/2405.13708v1 )

ライセンス: Link先を確認
Diana Robinson, Christian Cabrera, Andrew D. Gordon, Neil D. Lawrence, Lars Mennen, (参考訳) もしエンドユーザが、言語、イメージ、ビデオ、オーディオで表現された要件のみを使用して、概念からデプロイメントまでのソフトウェア開発ライフサイクルを所有できたらどうでしょう? 私たちはこのアイデアを探求し、生成的人工知能がソフトウェア生成とメンテナンス技術にもたらす能力に基づいています。 この方法でソフトウェアを設計することはエンドユーザにどのように役立つのか? エンドユーザのソフトウェアエンジニアリングとソフトウェア開発ライフサイクルの将来にとって、このプロセスはどのような意味を持つのでしょう? 我々は、現在の状況と未来の想像システムとのギャップを埋めるために必要な研究について論じる。

What if end users could own the software development lifecycle from conception to deployment using only requirements expressed in language, images, video or audio? We explore this idea, building on the capabilities that generative Artificial Intelligence brings to software generation and maintenance techniques. How could designing software in this way better serve end users? What are the implications of this process for the future of end-user software engineering and the software development lifecycle? We discuss the research needed to bridge the gap between where we are today and these imagined systems of the future.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# Data-Centric Strategies を用いた乳癌全スライド画像におけるリンパ球検出の最適化

Optimizing Lymphocyte Detection in Breast Cancer Whole Slide Imaging through Data-Centric Strategies ( http://arxiv.org/abs/2405.13710v1 )

ライセンス: Link先を確認
Amine Marzouki, Zhuxian Guo, Qinghe Zeng, Camille Kurtz, Nicolas Loménie, (参考訳) 病理組織スライド中のリンパ球の効率的かつ正確な定量化は、腫瘍微小環境の解明と免疫療法反応の洞察に不可欠である。 そこで我々は,市販のYOLOv5モデルを用いたリンパ球検出性能の優れたデータ中心最適化パイプラインを開発した。 我々の貢献は、戦略的データセット増強戦略に依存しており、新しい生物学的アップサンプリングや、組織像のユニークな性質に合わせた独自の視覚的結束変換が含まれており、モデルの性能を劇的に改善することができる。 集中的なカスタマイズを前提として、標準的な計算病理モデルは、アーキテクチャの複雑さを増大させることなく、高機能なバイオマーカー開発を実現することができる。 この手法の関心は乳がんの文脈で示され、我々の戦略が優れたリンパ球検出性能に導いており、幅広い影響のあるパラダイムシフトを反映している。 さらに、我々のデータキュレーション技術は、重要な組織学的分析ベンチマークを可能にし、一般化可能なポテンシャルの向上を強調している。

Efficient and precise quantification of lymphocytes in histopathology slides is imperative for the characterization of the tumor microenvironment and immunotherapy response insights. We developed a data-centric optimization pipeline that attain great lymphocyte detection performance using an off-the-shelf YOLOv5 model, without any architectural modifications. Our contribution that rely on strategic dataset augmentation strategies, includes novel biological upsampling and custom visual cohesion transformations tailored to the unique properties of tissue imagery, and enables to dramatically improve model performances. Our optimization reveals a pivotal realization: given intensive customization, standard computational pathology models can achieve high-capability biomarker development, without increasing the architectural complexity. We showcase the interest of this approach in the context of breast cancer where our strategies lead to good lymphocyte detection performances, echoing a broadly impactful paradigm shift. Furthermore, our data curation techniques enable crucial histological analysis benchmarks, highlighting improved generalizable potential.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# VAE-Var: 変分オートエンコーダによる変分同化

VAE-Var: Variational-Autoencoder-Enhanced Variational Assimilation ( http://arxiv.org/abs/2405.13711v1 )

ライセンス: Link先を確認
Yi Xiao, Qilong Jia, Wei Xue, Lei Bai, (参考訳) データ同化(Data assimilation)とは、観測データを用いて事前の予測(バックグラウンド状態)を精算することにより、システムの状態を最適に推定するアルゴリズムである。 変分同化法は、このコストを最小化することによって導かれる最適状態推定を用いて、変動コストを定式化するための最大極大アプローチに依存する。 従来の変分法は大きな成功を収め、多くの数値的な天気予報センターで広く用いられているが、一般的には背景状態のガウス誤差を仮定し、この仮定の固有の不正確さのためにこれらのアルゴリズムの精度を制限している。 本稿では,変分オートエンコーダ(VAE)を利用して,背景誤差分布の非ガウス推定をモデル化する新しい変分アルゴリズムであるVAE-Varを紹介する。 VAE-Var を低次元カオスシステムに実装し,VAE-Var が従来の変分同化法を様々な観測条件の精度で一貫して上回っていることを示す実験結果により,VAE-Var の変動コストを理論的に導出した。

Data assimilation refers to a set of algorithms designed to compute the optimal estimate of a system's state by refining the prior prediction (known as background states) using observed data. Variational assimilation methods rely on the maximum likelihood approach to formulate a variational cost, with the optimal state estimate derived by minimizing this cost. Although traditional variational methods have achieved great success and have been widely used in many numerical weather prediction centers, they generally assume Gaussian errors in the background states, which limits the accuracy of these algorithms due to the inherent inaccuracies of this assumption. In this paper, we introduce VAE-Var, a novel variational algorithm that leverages a variational autoencoder (VAE) to model a non-Gaussian estimate of the background error distribution. We theoretically derive the variational cost under the VAE estimation and present the general formulation of VAE-Var; we implement VAE-Var on low-dimensional chaotic systems and demonstrate through experimental results that VAE-Var consistently outperforms traditional variational assimilation methods in terms of accuracy across various observational settings.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# 期待最大化による観測からの拡散先行学習

Learning Diffusion Priors from Observations by Expectation Maximization ( http://arxiv.org/abs/2405.13712v1 )

ライセンス: Link先を確認
François Rozet, Gérôme Andry, François Lanusse, Gilles Louppe, (参考訳) 最近、拡散モデルはベイズ逆問題に顕著な先行性があることが証明された。 しかしながら、これらのモデルのトレーニングは通常、大量のクリーンデータへのアクセスを必要とする。 本研究では,不完全および雑音のみから拡散モデルを学習するための予測最大化アルゴリズムに基づく新しい手法を提案する。 従来の手法とは異なり,本手法は下流タスクに不可欠である適切な拡散モデルに導かれる。 本研究では,非条件拡散モデルに対する新しい後続サンプリング手法の提案と動機付けを行う。 本手法の有効性を示す実証的証拠を提示する。

Diffusion models recently proved to be remarkable priors for Bayesian inverse problems. However, training these models typically requires access to large amounts of clean data, which could prove difficult in some settings. In this work, we present a novel method based on the expectation-maximization algorithm for training diffusion models from incomplete and noisy observations only. Unlike previous works, our method leads to proper diffusion models, which is crucial for downstream tasks. As part of our method, we propose and motivate a new posterior sampling scheme for unconditional diffusion models. We present empirical evidence supporting the effectiveness of our method.
翻訳日:2024-05-24 23:45:08 公開日:2024-05-22
# 交通シナリオ論理:都市交通シナリオのモデル化と推論のための空間的時間論理

Traffic Scenario Logic: A Spatial-Temporal Logic for Modeling and Reasoning of Urban Traffic Scenarios ( http://arxiv.org/abs/2405.13715v1 )

ライセンス: Link先を確認
Ruolin Wang, Yuejiao Xu, Jianmin Ji, (参考訳) 交通シナリオの形式的表現は、自律運転の安全性検証のためのテストケースを生成するために使用することができる。 しかし、既存の手法のほとんどは、交通シナリオの複雑さと多様性のため、ハイウェイや高度に単純化された交差点シナリオに限られている。 そこで我々は,都市交通シナリオのモデル化と推論を目的とした時空間論理であるTraffic Scenario Logic (TSL)を提案する。 TSLは、都市道路網の形式的な表現を提供し、これはOpenDRIVE、すなわち、自律運転のための高解像度マップのデファクト業界標準から導出することができ、幅広い交通シナリオの表現を可能にしている。 我々は,TSLの推論をTelingo,すなわちAnswer Set Programmingに基づく時間的プログラムの解法を用いて実装し,異なる都市道路レイアウトでテストした。 デモでは、テストシナリオ生成におけるTLLの有効性と、自動走行の意思決定や制御検証といった分野における潜在的な価値が示されている。

Formal representations of traffic scenarios can be used to generate test cases for the safety verification of autonomous driving. However, most existing methods are limited in highway or highly simplified intersection scenarios due to the intricacy and diversity of traffic scenarios. In response, we propose Traffic Scenario Logic (TSL), which is a spatial-temporal logic designed for modeling and reasoning of urban pedestrian-free traffic scenarios. TSL provides a formal representation of the urban road network that can be derived from OpenDRIVE, i.e., the de facto industry standard of high-definition maps for autonomous driving, enabling the representation of a broad range of traffic scenarios. We implemented the reasoning of TSL using Telingo, i.e., a solver for temporal programs based on the Answer Set Programming, and tested it on different urban road layouts. Demonstrations show the effectiveness of TSL in test scenario generation and its potential value in areas like decision-making and control verification of autonomous driving.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# Lossy-and-Constrained Extended Non-Local Games and Applications to Cryptography: BC, QKD, QPV

Lossy-and-Constrained Extended Non-Local Games with Applications to Cryptography: BC, QKD and QPV ( http://arxiv.org/abs/2405.13717v1 )

ライセンス: Link先を確認
Llorenç Escolà-Farràs, Florian Speelman, (参考訳) 拡張非局所ゲーム(英語: Extended non-local game)は、2つの量子パーティと、その局所量子システムで測定を行う量子レフェリーによってプレイされる、モノガミー・オブ・エンタングルメントゲームの一般化である。 NPA階層の線に沿って、それらのゲームの最適勝利確率は、最適値に収束する半定値プログラム(SDP)の階層によって上界化することができる。 ここでは、量子通信による実験誤差や損失によって動機づけられた制約や損失を考慮して、そのようなゲームを拡張した場合、SDPの最適値への収束は依然として維持されることを示す。 この結果を応用し、相対論的ビットコミットメント、量子鍵分布、量子位置検証のためのプロトコルのより厳密なセキュリティを示すSDPを計算する。

Extended non-local games are a generalization of monogamy-of-entanglement games, played by two quantum parties and a quantum referee that performs a measurement on their local quantum system. Along the lines of the NPA hierarchy, the optimal winning probability of those games can be upper bounded by a hierarchy of semidefinite programs (SDPs) converging to the optimal value. Here, we show that if one extends such games by considering constraints and loss, motivated by experimental errors and loss through quantum communication, the convergence of the SDPs to the optimal value still holds. We give applications of this result, and we compute SDPs that show tighter security of protocols for relativistic bit commitment, quantum key distribution, and quantum position verification.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# 次トーケン予測のための変圧器の上下メモリ容量境界

Upper and lower memory capacity bounds of transformers for next-token prediction ( http://arxiv.org/abs/2405.13718v1 )

ライセンス: Link先を確認
Liam Madden, Curtis Fox, Christos Thrampoulidis, (参考訳) 単語などのトークン列が与えられた場合、次のトークン予測のタスクは次のトークン条件の確率分布を予測することである。 デコーダのみの変換器はこのタスクに有効なモデルとなっているが、その特性はまだ完全には理解されていない。 特に、デコーダのみの変換器が次のToken分布を補間できる、最も多くの異なるコンテキストシーケンスが確立されていない。 このギャップを埋めるために、乗法定数に等しいこの数上の上界と下界を証明します。 これらの境界は、次トーケン分布を任意にできる一般設定と、有限個の文書列から計算される経験的設定で証明する。 我々の下限は1層変圧器であり、我々の証明は自己注意によって満たされる重要な射影性を示す。 さらに, 暗記のための最小パラメータ数が, エントロピー下界へのモデルトレーニングに十分であることを示す。

Given a sequence of tokens, such as words, the task of next-token prediction is to predict the next-token conditional probability distribution. Decoder-only transformers have become effective models for this task, but their properties are still not fully understood. In particular, the largest number of distinct context sequences that a decoder-only transformer can interpolate next-token distributions for has not been established. To fill this gap, we prove upper and lower bounds on this number, which are equal up to a multiplicative constant. We prove these bounds in the general setting where next-token distributions can be arbitrary as well as the empirical setting where they are calculated from a finite number of document sequences. Our lower bounds are for one-layer transformers and our proofs highlight an important injectivity property satisfied by self-attention. Furthermore, we provide numerical evidence that the minimal number of parameters for memorization is sufficient for being able to train the model to the entropy lower bound.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# 行列分解モデルにおける接続性形状と正則化

Connectivity Shapes Implicit Regularization in Matrix Factorization Models for Matrix Completion ( http://arxiv.org/abs/2405.13721v1 )

ライセンス: Link先を確認
Zhiwei Bai, Jiajie Zhao, Yaoyu Zhang, (参考訳) 行列分解モデルは、過パラメータ化モデルの暗黙バイアスを理解するための貴重なテストベッドとして広く研究されている。 低核ノルムと低ランク正則化の両方がこれらのモデルで研究されているが、いつ、どのように、なぜ異なる暗黙の正則化効果を達成するのかという統一的な理解はいまだ解明されていない。 本研究では,行列分解問題を解くために,行列分解の暗黙的正則化を体系的に検討する。 観測データの接続性は暗黙のバイアスにおいて重要な役割を担っていることを実証的に見出した。 損失ランドスケープ内の固有不変多様体の階層を同定し、トレーニング軌道を低ランクから高階の解へと発展させる。 この発見に基づいて、我々は、階層的不変多様体のトラバーサル過程に従って訓練軌跡を理論的に特徴づけ、Li et al (2020) の特性を非連結なケースを含むように一般化する。 さらに,実験結果と密接に整合し,最小限の核準位を保証する条件を確立し,最小限の核準位を確保するための力学特性評価条件を提供する。 我々の研究は、行列分解モデルにおけるデータ接続、トレーニングダイナミクス、暗黙の正規化の間の複雑な相互作用を明らかにする。

Matrix factorization models have been extensively studied as a valuable test-bed for understanding the implicit biases of overparameterized models. Although both low nuclear norm and low rank regularization have been studied for these models, a unified understanding of when, how, and why they achieve different implicit regularization effects remains elusive. In this work, we systematically investigate the implicit regularization of matrix factorization for solving matrix completion problems. We empirically discover that the connectivity of observed data plays a crucial role in the implicit bias, with a transition from low nuclear norm to low rank as data shifts from disconnected to connected with increased observations. We identify a hierarchy of intrinsic invariant manifolds in the loss landscape that guide the training trajectory to evolve from low-rank to higher-rank solutions. Based on this finding, we theoretically characterize the training trajectory as following the hierarchical invariant manifold traversal process, generalizing the characterization of Li et al. (2020) to include the disconnected case. Furthermore, we establish conditions that guarantee minimum nuclear norm, closely aligning with our experimental findings, and we provide a dynamics characterization condition for ensuring minimum rank. Our work reveals the intricate interplay between data connectivity, training dynamics, and implicit regularization in matrix factorization models.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# InstaDrag: 高速で正確なドラッグベースの画像編集ツール

InstaDrag: Lightning Fast and Accurate Drag-based Image Editing Emerging from Videos ( http://arxiv.org/abs/2405.13722v1 )

ライセンス: Link先を確認
Yujun Shi, Jun Hao Liew, Hanshu Yan, Vincent Y. F. Tan, Jiashi Feng, (参考訳) 精度とスピードは、画像編集タスクにおいて重要である。 Panらは、GAN(Generative Adversarial Networks)を使用したピクセルレベルの制御を実現する、ドラッグベースの画像編集フレームワークを導入した。 その後の研究は、大規模な拡散モデルを活用することで、このフレームワークの一般性を高めた。 しかし、これらの手法は不規則に長い処理時間(編集1分あたり1分)と成功率の低下に悩まされることが多い。 InstaDragは、1秒で高速なドラッグベースの画像編集を可能にする高速なアプローチです。 従来の方法とは異なり、条件生成タスクとしてドラッグベースの編集を再定義し、推論中に時間を要する遅延最適化や勾配に基づくガイダンスを不要にします。 さらに,パイプラインの設計により,オブジェクト翻訳,ポーズや向きの変更,ズームインやズームアウトなど,リッチな動作情報を含む大規模ビデオフレーム上でモデルをトレーニングすることが可能になった。 ビデオから学習することで,従来の手法よりも精度と一貫性が大幅に向上する。 トレーニングデータ(例えば、髪の伸長、虹のねじれなど)に表示されない局所的な形状変形を行うため、ビデオのみにトレーニングされているにもかかわらず、我々のモデルは十分に一般化されている。 ベンチマークデータセットの大規模な質的および定量的評価は、我々のアプローチの優位性を裏付けるものである。 コードとモデルはhttps://github.com/magic-research/InstaDrag.comでリリースされる。

Accuracy and speed are critical in image editing tasks. Pan et al. introduced a drag-based image editing framework that achieves pixel-level control using Generative Adversarial Networks (GANs). A flurry of subsequent studies enhanced this framework's generality by leveraging large-scale diffusion models. However, these methods often suffer from inordinately long processing times (exceeding 1 minute per edit) and low success rates. Addressing these issues head on, we present InstaDrag, a rapid approach enabling high quality drag-based image editing in ~1 second. Unlike most previous methods, we redefine drag-based editing as a conditional generation task, eliminating the need for time-consuming latent optimization or gradient-based guidance during inference. In addition, the design of our pipeline allows us to train our model on large-scale paired video frames, which contain rich motion information such as object translations, changing poses and orientations, zooming in and out, etc. By learning from videos, our approach can significantly outperform previous methods in terms of accuracy and consistency. Despite being trained solely on videos, our model generalizes well to perform local shape deformations not presented in the training data (e.g., lengthening of hair, twisting rainbows, etc.). Extensive qualitative and quantitative evaluations on benchmark datasets corroborate the superiority of our approach. The code and model will be released at https://github.com/magic-research/InstaDrag.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# 適応モーメントを用いたスコアベース生成モデル

Score-based Generative Models with Adaptive Momentum ( http://arxiv.org/abs/2405.13726v1 )

ライセンス: Link先を確認
Ziqing Wen, Xiaoge Deng, Ping Luo, Tao Sun, Dongsheng Li, (参考訳) スコアベースの生成モデルは、データ生成タスクにおいてかなりの成功を収めている。 モデルは、基底真理データをガウスノイズに摂動させ、逆過程を学び、ノイズをデータに変換する拡散過程を確立する。 しかし、ランゲヴィン力学や数値確率微分方程式解法のような既存の偏微分法はランダムさを享受するが、多数のスコア関数評価でデータをゆっくりと生成し、通常の微分方程式解法はより高速なサンプリング速度を享受するが、ランダムさはサンプル品質に影響を与えることはない。 この目的のために、SGD(Stochastic Gradient Descent)最適化法とモデルサンプリングプロセスとSGDとの高接続によって動機付けられた適応運動量サンプリングを提案し、追加のハイパーパラメータを導入することなく変換プロセスを高速化する。 理論的には,提案手法が与えられた条件下で収束することを証明した。 さらに,2倍から5倍の速度で,より忠実な画像/グラフを抽出し,画像およびグラフ生成タスクのベースラインと比較して,競争力のあるスコアを得ることができることを実証的に示す。

Score-based generative models have demonstrated significant practical success in data-generating tasks. The models establish a diffusion process that perturbs the ground truth data to Gaussian noise and then learn the reverse process to transform noise into data. However, existing denoising methods such as Langevin dynamic and numerical stochastic differential equation solvers enjoy randomness but generate data slowly with a large number of score function evaluations, and the ordinary differential equation solvers enjoy faster sampling speed but no randomness may influence the sample quality. To this end, motivated by the Stochastic Gradient Descent (SGD) optimization methods and the high connection between the model sampling process with the SGD, we propose adaptive momentum sampling to accelerate the transforming process without introducing additional hyperparameters. Theoretically, we proved our method promises convergence under given conditions. In addition, we empirically show that our sampler can produce more faithful images/graphs in small sampling steps with 2 to 5 times speed up and obtain competitive scores compared to the baselines on image and graph generation tasks.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# ComboStoc:拡散生成モデルのための組合せ確率性

ComboStoc: Combinatorial Stochasticity for Diffusion Generative Models ( http://arxiv.org/abs/2405.13729v1 )

ライセンス: Link先を確認
Rui Xu, Jiepeng Wang, Hao Pan, Yang Liu, Xin Tong, Shiqing Xin, Changhe Tu, Taku Komura, Wenping Wang, (参考訳) 本稿では,拡散生成モデル,すなわち組合せ複雑性の未解明だが重要な要因について検討する。 データサンプルは一般に高次元であり、様々な構造化された生成タスクには、データサンプルに関連付けるために付加的な属性が存在する。 本研究では,従来の拡散生成モデルのトレーニングスキームにより,次元と属性の組み合わせによる空間のサンプル化が不十分であることが示され,試験時間性能が劣化することを示した。 本稿では, 組合せ構造を完全に活用する確率過程を構築することで, この問題に対する簡単な修正を行う。 この単純な戦略を用いて、画像や3次元構造形状を含む様々なデータモダリティにおいて、ネットワークトレーニングが著しく加速されていることを示す。 さらに、ComboStocは、異なる次元と属性に対して非同期のタイムステップを使用する新しいテスト時間生成を可能にする。

In this paper, we study an under-explored but important factor of diffusion generative models, i.e., the combinatorial complexity. Data samples are generally high-dimensional, and for various structured generation tasks, there are additional attributes which are combined to associate with data samples. We show that the space spanned by the combination of dimensions and attributes is insufficiently sampled by existing training scheme of diffusion generative models, causing degraded test time performance. We present a simple fix to this problem by constructing stochastic processes that fully exploit the combinatorial structures, hence the name ComboStoc. Using this simple strategy, we show that network training is significantly accelerated across diverse data modalities, including images and 3D structured shapes. Moreover, ComboStoc enables a new way of test time generation which uses insynchronized time steps for different dimensions and attributes, thus allowing for varying degrees of control over them.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# 制御, 輸送, サンプリング: より良い損失設計を目指して

Control, Transport and Sampling: Towards Better Loss Design ( http://arxiv.org/abs/2405.13731v1 )

ライセンス: Link先を確認
Qijia Jiang, David Nabergoj, (参考訳) 拡散型サンプリング, 最適輸送, およびシュリンガーブリッジ問題との共用リンクによる最適確率制御の接続を活用することにより, 最適制御された力学を通して, $\nu$ から $\mu$ への輸送に使用できる新しい目的関数を提案する。 我々は,パスワイズ・パースペクティブの重要性と,パス尺度における様々な最適条件が,有効なトレーニング損失の設計に果たす役割を強調した。

Leveraging connections between diffusion-based sampling, optimal transport, and optimal stochastic control through their shared links to the Schr\"odinger bridge problem, we propose novel objective functions that can be used to transport $\nu$ to $\mu$, consequently sample from the target $\mu$, via optimally controlled dynamics. We highlight the importance of the pathwise perspective and the role various optimality conditions on the path measure can play for the design of valid training losses, the careful choice of which offer numerical advantages in practical implementation.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# 深部逆ダイナミクスモデル学習による安全制御器の移動

Transfer of Safety Controllers Through Learning Deep Inverse Dynamics Model ( http://arxiv.org/abs/2405.13735v1 )

ライセンス: Link先を確認
Alireza Nadali, Ashutosh Trivedi, Majid Zamani, (参考訳) 制御障壁証明書は、制御システムの安全性を正式に保証する上で有効であることが証明されている。 しかし、制御障壁証明書を設計することは、ドメイン知識と数学的成熟という形で専門家の入力を必要とする、時間と計算コストのかかる取り組みである。 さらに、システムが若干の変更を加えると、新しいコントローラとその正当性証明書を再計算し、元のコントローラの設計時に直面したものと同じような計算課題を発生させる必要がある。 従来のアプローチでは、制御不変性を保ちながら、バリア証明書の形で安全保証を転送するために転送学習を利用してきた。 残念なことに、現実的な環境では、ソースとターゲット環境は、制御入力において著しく逸脱し、前述のアプローチは実用的ではない。 この課題に対処するために、ターゲットシステムの所望の後継者状態に対して必要なアクションを提案するニューラルネットワークである「emph{inverse dynamics}」を、ソースコードのバリア証明書と統合して、安全性の正式な証明を提供することを提案する。 さらに,制御器の正しさを保証できる妥当性条件を提案する。 3つのケーススタディを通じて,本手法の有効性を実証した。

Control barrier certificates have proven effective in formally guaranteeing the safety of the control systems. However, designing a control barrier certificate is a time-consuming and computationally expensive endeavor that requires expert input in the form of domain knowledge and mathematical maturity. Additionally, when a system undergoes slight changes, the new controller and its correctness certificate need to be recomputed, incurring similar computational challenges as those faced during the design of the original controller. Prior approaches have utilized transfer learning to transfer safety guarantees in the form of a barrier certificate while maintaining the control invariant. Unfortunately, in practical settings, the source and the target environments often deviate substantially in their control inputs, rendering the aforementioned approach impractical. To address this challenge, we propose integrating \emph{inverse dynamics} -- a neural network that suggests required action given a desired successor state -- of the target system with the barrier certificate of the source system to provide formal proof of safety. In addition, we propose a validity condition that, when met, guarantees correctness of the controller. We demonstrate the effectiveness of our approach through three case studies.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# 非ポリノミカル活性化を有する3層ニューラルネットワークの記憶容量

Memory capacity of three-layer neural networks with non-polynomial activations ( http://arxiv.org/abs/2405.13738v1 )

ライセンス: Link先を確認
Liam Madden, (参考訳) フィードフォワードニューラルネットワークにおいて、$n$を$\mathbb{R}^d\times \mathbb{R}$を$\Theta(\sqrt{n})$と解釈するために必要となるニューロンの最小個数は$\Theta(\sqrt{n})$である。 以前の結果は、$\Theta(\sqrt{n})$ニューロンが十分であることを示しているが、それらは活性化関数としてロジスティック、ヘビサイド、修正線形単位(ReLU)に制限されている。 異なるアプローチを用いて、活性化関数が一点で実解析的であり、多項式ではない限り、$\Theta(\sqrt{n})$ニューロンは十分であることを示す。 したがって、我々の結果が適用できない唯一の実用的なアクティベーション関数は、断片多項式である。 これは、補間力を失うことなく、アクティベーション関数を問題依存的に自由に選択できることを意味している。

The minimal number of neurons required for a feedforward neural network to interpolate $n$ generic input-output pairs from $\mathbb{R}^d\times \mathbb{R}$ is $\Theta(\sqrt{n})$. While previous results have shown that $\Theta(\sqrt{n})$ neurons are sufficient, they have been limited to logistic, Heaviside, and rectified linear unit (ReLU) as the activation function. Using a different approach, we prove that $\Theta(\sqrt{n})$ neurons are sufficient as long as the activation function is real analytic at a point and not a polynomial there. Thus, the only practical activation functions that our result does not apply to are piecewise polynomials. Importantly, this means that activation functions can be freely chosen in a problem-dependent manner without loss of interpolation power.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# 欠陥低減計画におけるマイニング行動ルール

Mining Action Rules for Defect Reduction Planning ( http://arxiv.org/abs/2405.13740v1 )

ライセンス: Link先を確認
Khouloud Oueslati, Gabriel Laberge, Maxime Lamothe, Foutse Khomh, (参考訳) 欠陥低減計画は、ソフトウェアの品質を高め、ソフトウェアのメンテナンスコストを最小限にする上で重要な役割を担います。 ブラックボックス機械学習モデルをトレーニングし、その予測を"説明"することで、ソフトウェアエンジニアリングのための説明可能なAIは、メンテナンスリスクに影響を与えるコードの特徴を特定することを目指している。 しかし、ポストホックな説明は、オリジナルのモデルが何を計算するかを常に忠実に反映しているわけではない。 本稿では,ブラックボックスモデルを使わずに欠陥低減計画を生成する,非現実的アクティオンルールマイニング手法であるCounterACTを紹介する。 アクションルールを活用することで、CounterACTは、コードの一部に割り当てられたクラス(例えば、バギーまたはバグギーでない)の反ファクト的な説明とみなすことができるアクションのコースを提供する。 我々は,9つのソフトウェアプロジェクトにおいて,CounterACTの有効性を,元のアクションルールマイニングアルゴリズムと6つの確立された欠陥低減手法と比較した。 私たちの評価は (a)提案されたコードの変更と実際の開発者の修正との重複点 b) 今後のリリースにおける改善点,及び (c)計画の正確性、リコール及びF1スコア その結果、競合するアプローチと比較して、CounterACTの説明可能なプランはリリースレベル(95%中)とコミットレベル(85.97%中)で高いオーバーラップスコアを達成し、精度とリコール(88.12%中)のトレードオフが向上した。 最後に、生成した計画からコード編集を生成するために、LLM(Large Language Model)を計画し活用することを超えて検討する。 提案するLPMコード編集は,本計画でサポートされたコード編集が実行可能であり,バニラLLMコードレコメンデーションよりも関連するテストケースをパスする可能性が示唆された。

Defect reduction planning plays a vital role in enhancing software quality and minimizing software maintenance costs. By training a black box machine learning model and "explaining" its predictions, explainable AI for software engineering aims to identify the code characteristics that impact maintenance risks. However, post-hoc explanations do not always faithfully reflect what the original model computes. In this paper, we introduce CounterACT, a Counterfactual ACTion rule mining approach that can generate defect reduction plans without black-box models. By leveraging action rules, CounterACT provides a course of action that can be considered as a counterfactual explanation for the class (e.g., buggy or not buggy) assigned to a piece of code. We compare the effectiveness of CounterACT with the original action rule mining algorithm and six established defect reduction approaches on 9 software projects. Our evaluation is based on (a) overlap scores between proposed code changes and actual developer modifications; (b) improvement scores in future releases; and (c) the precision, recall, and F1-score of the plans. Our results show that, compared to competing approaches, CounterACT's explainable plans achieve higher overlap scores at the release level (median 95%) and commit level (median 85.97%), and they offer better trade-off between precision and recall (median F1-score 88.12%). Finally, we venture beyond planning and explore leveraging Large Language models (LLM) for generating code edits from our generated plans. Our results show that suggested LLM code edits supported by our plans are actionable and are more likely to pass relevant test cases than vanilla LLM code recommendations.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# プライバシーの基準が逆転した? Web上のHTTPクライアントのヒントを調査

A Privacy Measure Turned Upside Down? Investigating the Use of HTTP Client Hints on the Web ( http://arxiv.org/abs/2405.13744v1 )

ライセンス: Link先を確認
Stephan Wiefling, Marian Hönscheid, Luigi Lo Iacono, (参考訳) HTTPクライアントヒント(HTTPClient hints)は、従来のユーザエージェント文字列の近代化と置き換えを目的とした、標準化されたHTTPリクエストヘッダのセットである。 ユーザエージェント文字列は、クライアントのブラウザとデバイスに関する幅広い情報を公開しますが、クライアントヒントは、クライアントがその機能とサーバへの好みを選択的に公開するための、制御された構造化されたアプローチを提供します。 基本的に、クライアントヒントは、ユーザエージェント文字列よりも効果的でプライバシーに配慮したブラウザやクライアントプロパティの開示を目的としています。 本稿では,HTTPクライアントヒントの利用に関する長期研究について紹介する。 ほぼすべてのWebブラウザで実装されているにもかかわらず、クライアントヒントのサーバ側使用は、一般的には低いままである。 しかし、トラッカーと結びついているサードパーティウェブサイトの文脈では、採用率が著しく高い。 これは、クライアントヒントがユーザエージェント文字列が提供するよりも多くのデータをクライアントから取得できるためであり、ユーザがこの潜在的なデータ漏洩を検出し、制御するためのメカニズムが現在存在しないためである。 私たちの研究は、Webユーザ、ブラウザベンダー、研究者に対して、クライアントのヒントを通じて潜在的なプライバシー侵害を暴露し、修復戦略の開発とさらなる研究の助けを提供することによって、貴重な洞察を提供する。

HTTP client hints are a set of standardized HTTP request headers designed to modernize and potentially replace the traditional user agent string. While the user agent string exposes a wide range of information about the client's browser and device, client hints provide a controlled and structured approach for clients to selectively disclose their capabilities and preferences to servers. Essentially, client hints aim at more effective and privacy-friendly disclosure of browser or client properties than the user agent string. We present a first long-term study of the use of HTTP client hints in the wild. We found that despite being implemented in almost all web browsers, server-side usage of client hints remains generally low. However, in the context of third-party websites, which are often linked to trackers, the adoption rate is significantly higher. This is concerning because client hints allow the retrieval of more data from the client than the user agent string provides, and there are currently no mechanisms for users to detect or control this potential data leakage. Our work provides valuable insights for web users, browser vendors, and researchers by exposing potential privacy violations via client hints and providing help in developing remediation strategies as well as further research.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# NeurCross: クアドメッシュ生成におけるクロスフィールド表現のための自己監督型ニューラルネットワーク

NeurCross: A Self-Supervised Neural Approach for Representing Cross Fields in Quad Mesh Generation ( http://arxiv.org/abs/2405.13745v1 )

ライセンス: Link先を確認
Qiujie Dong, Huibiao Wen, Rui Xu, Xiaokang Yu, Jiaran Zhou, Shuangmin Chen, Shiqing Xin, Changhe Tu, Wenping Wang, (参考訳) CAD/E(Computer-Aided Design and Engineering)において,四面体メッシュ生成は数値シミュレーションにおいて重要な役割を担っている。 四角形メッシュを生成するためには、クロスフィールドの品質が不可欠である。 本稿では,符号付き距離関数(SDF)に適合する2つのモジュールと,クロスフィールドを予測する2つのモジュールからなる,NeurCrossという,クロスフィールドの自己教師型ニューラル表現を提案する。 与えられた多角面上で直接動作する既存のアプローチとは異なり、NeurCrossはSDFを橋として、SDFオーバーフィットとクロスフィールドの予測を同時に行うことができる。 ニューラルSDFを利用することで,平面離散化の影響を最小限に抑え,表面のスムーズな表現を実現する。 さらに、主曲率と方向は、SDFのヘシアンによって完全に符号化され、SDFへの微調整による全クロスフィールドの正規化を可能にする。 最先端手法と比較して、NeurCrossはティーザー図に示すように、入力三角面と出力クワッドメッシュとの間の特異点の配置と近似精度を著しく改善する。

Quadrilateral mesh generation plays a crucial role in numerical simulations within Computer-Aided Design and Engineering (CAD/E). The quality of the cross field is essential for generating a quadrilateral mesh. In this paper, we propose a self-supervised neural representation of the cross field, named NeurCross, comprising two modules: one to fit the signed distance function (SDF) and another to predict the cross field. Unlike most existing approaches that operate directly on the given polygonal surface, NeurCross takes the SDF as a bridge to allow for SDF overfitting and the prediction of the cross field to proceed simultaneously. By utilizing a neural SDF, we achieve a smooth representation of the base surface, minimizing the impact of piecewise planar discretization and minor surface variations. Moreover, the principal curvatures and directions are fully encoded by the Hessian of the SDF, enabling the regularization of the overall cross field through minor adjustments to the SDF. Compared to state-of-the-art methods, NeurCross significantly improves the placement of singular points and the approximation accuracy between the input triangular surface and the output quad mesh, as demonstrated in the teaser figure.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# CG-FedLLM:大規模言語モデルのためのフェデレートフーンチューニングにおける勾配の圧縮法

CG-FedLLM: How to Compress Gradients in Federated Fune-tuning for Large Language Models ( http://arxiv.org/abs/2405.13746v1 )

ライセンス: Link先を確認
Huiwen Wu, Xiaohan Li, Deyi Zhang, Xiaogang Xu, Jiafei Wu, Puning Zhao, Zhe Liu, (参考訳) 現在のLLM(Large-Language Models)の成功は、集中学習(Centralized Learning, CL)と呼ばれる、集中的に収集、保存される広範なトレーニングデータに基づいている。 しかし、このような収集方法はプライバシーの脅威となり、潜在的な解決策の1つは、クライアント間で、生データではなく勾配を転送するフェデレートラーニング(FL)である。 従来のネットワークとは異なり、FL for LLMは大きなパラメーターのため、通信コストがかなり高い。 本研究では, LLM FLにおける通信効率向上のために, CG-FedLLM という新しい FL パイプラインを考案した。 このアプローチでは、クライアント側のエンコーダを統合して、圧縮された勾配特徴とサーバ側のデコーダを取得し、勾配を再構築する。 また,TGAP(Temporal-ensemble Gradient-Aware Pre-Training)を用いて,対象モデルの特性勾配とFAF(Federated AutoEncoder-Involved Fine-Tuning)を適応的に圧縮する新たなトレーニング戦略を開発した。 本手法は通信コストを低減し,性能を向上する(例えば,LlaMAを用いた従来のCL-やFL-ベースファインタニングに比べて平均3ポイント向上する)。 この改善は、TGAPとAFFで訓練されたエンコーダデコーダが、重要な特徴を選択的に保存しながら勾配をフィルタできるためである。 さらに、このプライバシー中心のフレームワークにおける信号対雑音比、圧縮速度、ロバスト性に着目し、より効率的でセキュアなLCMの開発に関する知見を提供する。

The success of current Large-Language Models (LLMs) hinges on extensive training data that is collected and stored centrally, called Centralized Learning (CL). However, such a collection manner poses a privacy threat, and one potential solution is Federated Learning (FL), which transfers gradients, not raw data, among clients. Unlike traditional networks, FL for LLMs incurs significant communication costs due to their tremendous parameters. This study introduces an innovative approach to compress gradients to improve communication efficiency during LLM FL, formulating the new FL pipeline named CG-FedLLM. This approach integrates an encoder on the client side to acquire the compressed gradient features and a decoder on the server side to reconstruct the gradients. We also developed a novel training strategy that comprises Temporal-ensemble Gradient-Aware Pre-training (TGAP) to identify characteristic gradients of the target model and Federated AutoEncoder-Involved Fine-tuning (FAF) to compress gradients adaptively. Extensive experiments confirm that our approach reduces communication costs and improves performance (e.g., average 3 points increment compared with traditional CL- and FL-based fine-tuning with LlaMA on a well-recognized benchmark, C-Eval). This improvement is because our encoder-decoder, trained via TGAP and FAF, can filter gradients while selectively preserving critical features. Furthermore, we present a series of experimental analyses focusing on the signal-to-noise ratio, compression rate, and robustness within this privacy-centric framework, providing insight into developing more efficient and secure LLMs.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# 確率回路による中間回路計測の低減

Reducing Mid-Circuit Measurements via Probabilistic Circuits ( http://arxiv.org/abs/2405.13747v1 )

ライセンス: Link先を確認
Yanbin Chen, Innocenzo Fulginiti, Christian B. Mendl, (参考訳) 中間回路の測定と測定制御ゲートは、ますます多くの量子ハードウェアプラットフォームによって支持され、量子エラー訂正に不可欠なビルディングブロックとして、より重要になる。 しかし、必要な信号分析と古典的なフィードバックループのため、中間回路測定は量子ハードウェアにかなりの要求を課す。 この研究は、これらの測定のいくつかをランダム化ゲート応用の等価回路で置き換えることのできる静的回路最適化アルゴリズムを提案する。 提案手法では,定数伝搬から古典的に事前計算された測定結果確率へのアイデアを用いる。 提案手法は,回路のキュービット数とゲート数に多項式的にスケールするので,効率がよい。

Mid-circuit measurements and measurement-controlled gates are supported by an increasing number of quantum hardware platforms and will become more relevant as an essential building block for quantum error correction. However, mid-circuit measurements impose significant demands on the quantum hardware due to the required signal analysis and classical feedback loop. This work presents a static circuit optimization algorithm that can substitute some of these measurements with an equivalent circuit with randomized gate applications. Our method uses ideas from constant propagation to classically precompute measurement outcome probabilities. Our proposed optimization is efficient, as its runtime scales polynomially on the number of qubits and gates of the circuit.
翻訳日:2024-05-24 23:35:03 公開日:2024-05-22
# 言語拡張ループクロージャを用いた単分子ガウスSLAM

Monocular Gaussian SLAM with Language Extended Loop Closure ( http://arxiv.org/abs/2405.13748v1 )

ライセンス: Link先を確認
Tian Lan, Qinwei Lin, Haoqian Wang, (参考訳) 近年,3DGaussian Splattinghasshown Greatpotentialin visual Simultaneous Localization And Mapping (SLAM) が報告されている。 既存の方法ではRGB-D SLAMの促進効果が得られたが、単分子ケースの研究は乏しい。 さらに、ループ閉鎖やグローバル最適化の欠如により、ドリフトエラーの修正にも失敗している。 本稿では,モノクラーガウスSLAMであるMG-SLAMについて,高レベルの環境理解を達成しつつ,ドリフト補正と高忠実度再構築が可能な言語拡張ループクロージャモジュールを提案する。 我々のキーとなる考え方は、グローバルマップを3Dガウスとして表現し、シーンの幾何学的推定のガイドに利用することで、奥行き情報不足の軽減を図っている。 さらに、CLIP機能に基づいた追加の言語拡張ループクロージャモジュールは、システムが実行するときに蓄積したドリフトエラーを補正するためのグローバル最適化を継続的に行うように設計されている。 我々のシステムは、追跡とマッピングの両方において複数の挑戦的なデータセットに対して有望な結果を示し、既存のRGB-D手法を超越している。

Recently,3DGaussianSplattinghasshowngreatpotentialin visual Simultaneous Localization And Mapping (SLAM). Existing methods have achieved encouraging results on RGB-D SLAM, but studies of the monocular case are still scarce. Moreover, they also fail to correct drift errors due to the lack of loop closure and global optimization. In this paper, we present MG-SLAM, a monocular Gaussian SLAM with a language-extended loop closure module capable of performing drift-corrected tracking and high-fidelity reconstruction while achieving a high-level understanding of the environment. Our key idea is to represent the global map as 3D Gaussian and use it to guide the estimation of the scene geometry, thus mitigating the efforts of missing depth information. Further, an additional language-extended loop closure module which is based on CLIP feature is designed to continually perform global optimization to correct drift errors accumulated as the system runs. Our system shows promising results on multiple challenging datasets in both tracking and mapping and even surpasses some existing RGB-D methods.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# GameVLM:視覚言語モデルとゼロサムゲームに基づくロボットタスク計画のための意思決定フレームワーク

GameVLM: A Decision-making Framework for Robotic Task Planning Based on Visual Language Models and Zero-sum Games ( http://arxiv.org/abs/2405.13751v1 )

ライセンス: Link先を確認
Aoran Mei, Jianhua Wang, Guo-Niu Zhu, Zhongxue Gan, (参考訳) GPT-4Vのような事前訓練された視覚言語モデル(VLM)は、シーン理解と推論能力に優れており、ロボットタスク計画において注目を集めている。 従来のタスク計画戦略と比較して、VLMはマルチモーダル情報解析やコード生成に優れており、顕著な効率性を示している。 VLMはロボットタスク計画において大きな可能性を示すが、幻覚、意味複雑性、限られたコンテキストといった課題に悩まされる。 このような問題に対処するため,本研究では,ロボット作業計画における意思決定プロセスを強化するためのマルチエージェントフレームワークであるGameVLMを提案する。 本研究では,VLMに基づく意思決定と専門家エージェントによるタスクプランニングの実施について述べる。 具体的には、意思決定エージェントがタスク計画に使用され、専門家エージェントがこれらのタスク計画を評価するために使用される。 ゼロサムゲーム理論は、異なるエージェント間の矛盾を解消し、最適解を決定するために導入された。 実ロボット実験の結果,提案手法の有効性が示され,平均成功率は83.3%であった。

With their prominent scene understanding and reasoning capabilities, pre-trained visual-language models (VLMs) such as GPT-4V have attracted increasing attention in robotic task planning. Compared with traditional task planning strategies, VLMs are strong in multimodal information parsing and code generation and show remarkable efficiency. Although VLMs demonstrate great potential in robotic task planning, they suffer from challenges like hallucination, semantic complexity, and limited context. To handle such issues, this paper proposes a multi-agent framework, i.e., GameVLM, to enhance the decision-making process in robotic task planning. In this study, VLM-based decision and expert agents are presented to conduct the task planning. Specifically, decision agents are used to plan the task, and the expert agent is employed to evaluate these task plans. Zero-sum game theory is introduced to resolve inconsistencies among different agents and determine the optimal solution. Experimental results on real robots demonstrate the efficacy of the proposed framework, with an average success rate of 83.3%.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# ヒューマン・機械学習協調の動的モデル:理論と実証的エビデンス

A Dynamic Model of Performative Human-ML Collaboration: Theory and Empirical Evidence ( http://arxiv.org/abs/2405.13753v1 )

ライセンス: Link先を確認
Tom Sühr, Samira Samadi, Chiara Farronato, (参考訳) 機械学習(ML)モデルは、電子商取引におけるレコメンデーションシステムから、医療における診断予測まで、さまざまなアプリケーションでますます使われている。 本稿では,人間-機械学習協調システムにおけるMLモデルの展開を考えるための新しい動的枠組みを提案する。 私たちのフレームワークでは、MLレコメンデーションの導入によって、人間による意思決定のデータ生成プロセスが変わります。 この動的プロセスの原理は,MLモデルとHuman+MLシステムが同じ性能を持つような,異なる安定点に収束できることを示す。 これらの安定点のいくつかは、実際の基底真理に関して準最適である。 我々は,1,408人の参加者による実証的ユーザスタディを実施し,このプロセスを紹介した。 この研究では、機械学習予測の助けを借りて、人間がクナプサックの問題を解く。 MLモデルがどのように人間の決定を模倣するか、この学習プロセスが安定した点にどのように収束するかを見ることができるので、これは理想的な設定です。 多くのレベルのML性能において、人間は機械学習の予測を改善し、最大クナップサック値の約92%の平衡性能を動的に達成できることがわかった。 また、人間が合理的にMLレコメンデーションに従うと、均衡性能はさらに高くなる可能性がある。 最後に、金融インセンティブが人間の意思決定の質を高めることができるかどうかをテストするが、肯定的な効果は見つからない。 この結果から,人間による決定が議論の余地のない根拠の真理から逸脱する可能性のある状況において,MLモデルの展開が現実的な意味を持つことがわかった。

Machine learning (ML) models are increasingly used in various applications, from recommendation systems in e-commerce to diagnosis prediction in healthcare. In this paper, we present a novel dynamic framework for thinking about the deployment of ML models in a performative, human-ML collaborative system. In our framework, the introduction of ML recommendations changes the data generating process of human decisions, which are only a proxy to the ground truth and which are then used to train future versions of the model. We show that this dynamic process in principle can converge to different stable points, i.e. where the ML model and the Human+ML system have the same performance. Some of these stable points are suboptimal with respect to the actual ground truth. We conduct an empirical user study with 1,408 participants to showcase this process. In the study, humans solve instances of the knapsack problem with the help of machine learning predictions. This is an ideal setting because we can see how ML models learn to imitate human decisions and how this learning process converges to a stable point. We find that for many levels of ML performance, humans can improve the ML predictions to dynamically reach an equilibrium performance that is around 92% of the maximum knapsack value. We also find that the equilibrium performance could be even higher if humans rationally followed the ML recommendations. Finally, we test whether monetary incentives can increase the quality of human decisions, but we fail to find any positive effect. Our results have practical implications for the deployment of ML models in contexts where human decisions may deviate from the indisputable ground truth.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# 言語間のリアルタイムイベントにおける接地毒性

Grounding Toxicity in Real-World Events across Languages ( http://arxiv.org/abs/2405.13754v1 )

ライセンス: Link先を確認
Wondimagegnhue Tsegaye Tufa, Ilia Markov, Piek Vossen, (参考訳) ソーシャルメディアの会話は、しばしば毒性に悩まされ、ユーザー、モデレーター、コミュニティ全体にとって重大な問題を引き起こしている。 選挙や紛争のような現実世界の出来事は、オンラインで有害な行動を起こし、エスカレートする。 本研究では,実世界の出来事が様々な言語や地域にわたるオンライン討論における毒性の起源と拡散にどのように影響するかを考察した。 Redditのデータは、6つの言語(オランダ語、英語、ドイツ語、アラビア語、トルコ語、スペイン語)で3万3千件の投稿から45万件のコメントを集めた。 2020年から2023年の間に起こった15の主要な社会・政治界イベントをターゲットにしています。 我々は、様々な事象や言語コミュニティにおける毒性、否定的感情、感情表現の有意な変化を観察し、毒性は多くの異なる要因が相互作用し、まだ調査する必要がある複雑な現象であることを示した。 コードとともに、さらなる研究のためのデータをリリースします。

Social media conversations frequently suffer from toxicity, creating significant issues for users, moderators, and entire communities. Events in the real world, like elections or conflicts, can initiate and escalate toxic behavior online. Our study investigates how real-world events influence the origin and spread of toxicity in online discussions across various languages and regions. We gathered Reddit data comprising 4.5 million comments from 31 thousand posts in six different languages (Dutch, English, German, Arabic, Turkish and Spanish). We target fifteen major social and political world events that occurred between 2020 and 2023. We observe significant variations in toxicity, negative sentiment, and emotion expressions across different events and language communities, showing that toxicity is a complex phenomenon in which many different factors interact and still need to be investigated. We will release the data for further research along with our code.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# 機能停止時勾配上昇によるオフラインRL

Offline RL via Feature-Occupancy Gradient Ascent ( http://arxiv.org/abs/2405.13755v1 )

ライセンス: Link先を確認
Gergely Neu, Nneka Okolo, (参考訳) 報奨モデルと遷移モデルが既知の特徴写像の下で線形に実現可能である場合、大規模な無限水平割引マルコフ決定過程(MDP)におけるオフライン強化学習について検討する。 MDPにおける最適制御問題の古典的線形プログラムの定式化から始まり、我々は、環境におけるポリシーの実行によって生成される可能性のある期待特徴ベクトルとして定義される特徴占有空間における勾配上昇の形式を実行する新しいアルゴリズムを開発した。 得られた単純なアルゴリズムは、文献で知られている最小限の制約付きデータカバレッジ仮定の下で達成される、強い計算とサンプルの複雑さの保証を満たすことを示す。 特に,本手法のサンプル複雑性は,所望の精度レベルと最適にスケールし,特徴空間の単一方向をカバーするために経験的特徴共分散行列のみを必要とする範囲の弱い概念に依存する(全部分空間をカバーするのとは対照的に)。 さらに,本手法は実装が容易で,カバー率(あるいは上界さえも)の事前知識を必要としないため,これまでで最強のアルゴリズムとなっている。

We study offline Reinforcement Learning in large infinite-horizon discounted Markov Decision Processes (MDPs) when the reward and transition models are linearly realizable under a known feature map. Starting from the classic linear-program formulation of the optimal control problem in MDPs, we develop a new algorithm that performs a form of gradient ascent in the space of feature occupancies, defined as the expected feature vectors that can potentially be generated by executing policies in the environment. We show that the resulting simple algorithm satisfies strong computational and sample complexity guarantees, achieved under the least restrictive data coverage assumptions known in the literature. In particular, we show that the sample complexity of our method scales optimally with the desired accuracy level and depends on a weak notion of coverage that only requires the empirical feature covariance matrix to cover a single direction in the feature space (as opposed to covering a full subspace). Additionally, our method is easy to implement and requires no prior knowledge of the coverage ratio (or even an upper bound on it), which altogether make it the strongest known algorithm for this setting to date.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# 連続分割OCTデータにおける血管分断のためのラベルフリー・データフリートレーニング戦略

A label-free and data-free training strategy for vasculature segmentation in serial sectioning OCT data ( http://arxiv.org/abs/2405.13757v1 )

ライセンス: Link先を確認
Etienne Chollet, Yael Balbastre, Caroline Magnain, Bruce Fischl, Hui Wang, (参考訳) SOCT(Serial sectioning Optical Coherence Tomography)は、脳卒中後神経血管の研究でますます人気が高まっている、高出力、ラベル付き自由顕微鏡画像技術である。 血管の定量的解析には高精度なセグメンテーションが必要であるが、sOCTは信号対雑音比が低く、取得パラメータに依存する幅広いコントラストやアーティファクトを表示する。 さらに、ラベル付きデータは乏しく、生成に非常に時間がかかります。 ここでは、深層学習セグメンテーションモデルをトレーニングするために、容器の合成データセットを活用する。 本研究では, 血管形状をシミュレートした半現実的スプラインは構築し, 拘束的構成最適化によって生成された現実的な血管ラベルと比較する。 どちらのアプローチも同様のDiceスコアを得るが、偽陽性と偽陰率は非常に異なる。 この方法では、OCT画像に固有の複雑さに対処し、より正確で効率的な神経血管構造解析の道を開く。

Serial sectioning Optical Coherence Tomography (sOCT) is a high-throughput, label free microscopic imaging technique that is becoming increasingly popular to study post-mortem neurovasculature. Quantitative analysis of the vasculature requires highly accurate segmentation; however, sOCT has low signal-to-noise-ratio and displays a wide range of contrasts and artifacts that depend on acquisition parameters. Furthermore, labeled data is scarce and extremely time consuming to generate. Here, we leverage synthetic datasets of vessels to train a deep learning segmentation model. We construct the vessels with semi-realistic splines that simulate the vascular geometry and compare our model with realistic vascular labels generated by constrained constructive optimization. Both approaches yield similar Dice scores, although with very different false positive and false negative rates. This method addresses the complexity inherent in OCT images and paves the way for more accurate and efficient analysis of neurovascular structures.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# ニューラルネットワークにおける予測信頼の非現実的勾配に基づく定量化

Counterfactual Gradients-based Quantification of Prediction Trust in Neural Networks ( http://arxiv.org/abs/2405.13758v1 )

ライセンス: Link先を確認
Mohit Prabhushankar, Ghassan AlRegib, (参考訳) 機械学習におけるディープニューラルネットワークの普及は、難解な信頼の客観的定量化を要求する。 本稿では,大規模ニューラルネットワークの推論における分類信頼度尺度であるGradTrustを提案する。 提案手法は, ラベルが異なる場合のネットワークパラメータの変化を, 対物勾配のばらつきを利用して評価する。 我々は,画像Net検証データセットから50000ドルの画像上の誤予測率を検出する既存の手法よりも,GradTrustの方が優れていることを示す。 ネットワークによっては、GradTrustは、基底真理が正しくないか曖昧であるか、あるいはクラスが共起している画像を検出する。 Kinetics-400データセット上でGradTrustをビデオアクション認識に拡張する。 我々は、ImageNetで事前トレーニングされた14ドルアーキテクチャと、Kinetics-400で事前トレーニングされた5ドルアーキテクチャの結果を紹介する。 以下に示す。 一 負の対数確率及びマージン分類器のような簡易な手法は、誤算率に対する最先端の不確実性及びアウト・オブ・ディストリビューション検出技術より優れている。 (ii)提案されているGradTrustは、38ドルの実験的モダリティのうち、37ドルでトップ2のメソッドを実行している。 コードは、https://github.com/olivesgatech/GradTrust.comで入手できる。

The widespread adoption of deep neural networks in machine learning calls for an objective quantification of esoteric trust. In this paper we propose GradTrust, a classification trust measure for large-scale neural networks at inference. The proposed method utilizes variance of counterfactual gradients, i.e. the required changes in the network parameters if the label were different. We show that GradTrust is superior to existing techniques for detecting misprediction rates on $50000$ images from ImageNet validation dataset. Depending on the network, GradTrust detects images where either the ground truth is incorrect or ambiguous, or the classes are co-occurring. We extend GradTrust to Video Action Recognition on Kinetics-400 dataset. We showcase results on $14$ architectures pretrained on ImageNet and $5$ architectures pretrained on Kinetics-400. We observe the following: (i) simple methodologies like negative log likelihood and margin classifiers outperform state-of-the-art uncertainty and out-of-distribution detection techniques for misprediction rates, and (ii) the proposed GradTrust is in the Top-2 performing methods on $37$ of the considered $38$ experimental modalities. The code is available at: https://github.com/olivesgatech/GradTrust
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# 構成関係を考慮したマルチスケールシミュレーションの実現 : 深層演算子ネットワーク

Enhancing Multiscale Simulations with Constitutive Relations-Aware Deep Operator Networks ( http://arxiv.org/abs/2405.13759v1 )

ライセンス: Link先を確認
Hamidreza Eivazi, Mahyar Alikhani, Jendrik-Alexander Tröger, Stefan Wittek, Stefan Hartmann, Andreas Rausch, (参考訳) マルチスケール問題は、物理学と工学の様々な領域で広く観察されている。 これらの問題を数値シミュレーションに翻訳し、数値的なスキームを用いて解くことは、例えば有限要素法は、初期境界値問題を複数のスケールで解くためにコストがかかる。 一方, マルチスケール有限要素計算は, 均質化法を用いて微構造特性をマクロ計算解析に組み込む能力に期待できる。 近年、ニューラル演算子に基づく代理モデルは、幅広い偏微分方程式を解く上で、信頼できる性能を示している。 本研究では,マイクロスケール物理のサロゲートモデリングにディープ・オペレーター・ネットワークを利用するハイブリッド手法を提案する。 これにより、マイクロスケールの構成的関係をモデルアーキテクチャに組み込むことができ、所定のマクロスケールのひずみ入力に基づいて、マイクロスケールのひずみと応力を予測することができる。 さらに、数値的均質化を行い、そのマクロな量の興味を得る。 提案手法を固体力学の準静的問題に適用する。 その結果、モデル開発中に制限されたデータセットに直面する場合であっても、私たちの構成的関係を意識したDeepONetは正確な解が得られることが示された。

Multiscale problems are widely observed across diverse domains in physics and engineering. Translating these problems into numerical simulations and solving them using numerical schemes, e.g. the finite element method, is costly due to the demand of solving initial boundary-value problems at multiple scales. On the other hand, multiscale finite element computations are commended for their ability to integrate micro-structural properties into macroscopic computational analyses using homogenization techniques. Recently, neural operator-based surrogate models have shown trustworthy performance for solving a wide range of partial differential equations. In this work, we propose a hybrid method in which we utilize deep operator networks for surrogate modeling of the microscale physics. This allows us to embed the constitutive relations of the microscale into the model architecture and to predict microscale strains and stresses based on the prescribed macroscale strain inputs. Furthermore, numerical homogenization is carried out to obtain the macroscale quantities of interest. We apply the proposed approach to quasi-static problems of solid mechanics. The results demonstrate that our constitutive relations-aware DeepONet can yield accurate solutions even when being confronted with a restricted dataset during model development.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# 雑音レベルを混合した可聴形拡散変換器

A Versatile Diffusion Transformer with Mixture of Noise Levels for Audiovisual Generation ( http://arxiv.org/abs/2405.13762v1 )

ライセンス: Link先を確認
Gwanghyun Kim, Alonso Martinez, Yu-Chuan Su, Brendan Jou, José Lezama, Agrim Gupta, Lijun Yu, Lu Jiang, Aren Jansen, Jacob Walker, Krishna Somandepalli, (参考訳) オーディオ視覚系列の訓練拡散モデルにより、2つのモードの様々な入力-出力の組み合わせの条件分布を学習することで、様々な生成タスクが可能になる。 それでもこの戦略では,コストのかかるタスク毎に,個別のモデルをトレーニングする必要がある場合が多い。 本稿では,視覚空間における任意の条件分布を効果的に学習するための新しいトレーニング手法を提案する。 標準の固定拡散時間ステップの代わりに、時間次元と入力のモーダル性にまたがる可変拡散時間ステップを提案する。 この定式化は、入力の様々な部分に対して可変ノイズレベルを導入する柔軟性を提供するため、ノイズレベルという用語が混在する。 本稿では,トランスフォーマーを用いた音声視覚潜在拡散モデルを提案し,提案手法を用いてタスクに依存しない方法で学習し,様々な音声視覚生成タスクを推論時に実現可能であることを示す。 音響視覚空間におけるクロスモーダル・マルチモーダル補間作業における本手法の汎用性を示す実験を行った。 特に,提案手法は時間的・知覚的に整合性のあるサンプルを入力で生成する際のベースラインを超えている。 プロジェクトページ: avdit2024.github.io

Training diffusion models for audiovisual sequences allows for a range of generation tasks by learning conditional distributions of various input-output combinations of the two modalities. Nevertheless, this strategy often requires training a separate model for each task which is expensive. Here, we propose a novel training approach to effectively learn arbitrary conditional distributions in the audiovisual space.Our key contribution lies in how we parameterize the diffusion timestep in the forward diffusion process. Instead of the standard fixed diffusion timestep, we propose applying variable diffusion timesteps across the temporal dimension and across modalities of the inputs. This formulation offers flexibility to introduce variable noise levels for various portions of the input, hence the term mixture of noise levels. We propose a transformer-based audiovisual latent diffusion model and show that it can be trained in a task-agnostic fashion using our approach to enable a variety of audiovisual generation tasks at inference time. Experiments demonstrate the versatility of our method in tackling cross-modal and multimodal interpolation tasks in the audiovisual space. Notably, our proposed approach surpasses baselines in generating temporally and perceptually consistent samples conditioned on the input. Project page: avdit2024.github.io
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# 個人差分モデルトレーニングのためのバンド状正方形根行列因子化

Banded Square Root Matrix Factorization for Differentially Private Model Training ( http://arxiv.org/abs/2405.13763v1 )

ライセンス: Link先を確認
Nikita Kalinin, Christoph Lampert, (参考訳) 微分プライベートモデルトレーニングの最先端手法は行列分解法に基づいている。 しかし、これらの手法は、実際のモデルトレーニングに先立って、ほぼ最適な因数分解を決定するために要求される最適化問題を数値的に解く必要があるため、高い計算オーバーヘッドに悩まされる。 本研究では,この計算ボトルネックを克服する新しい行列分解手法であるBSRを提案する。 標準行列平方根の特性を利用することにより、BSRは大規模問題も効率的に扱うことができる。 運動量と重み劣化を伴う確率勾配降下の重要なシナリオについて、計算オーバーヘッドを無視できるBSRの解析式を導出する。 我々は,集中学習と連合学習の両方において保持される近似品質の限界を証明した。 我々の数値実験により、BSRを用いて訓練されたモデルは、その計算オーバーヘッドを完全に回避しつつ、最良の既存手法と同等に機能することを示した。

Current state-of-the-art methods for differentially private model training are based on matrix factorization techniques. However, these methods suffer from high computational overhead because they require numerically solving a demanding optimization problem to determine an approximately optimal factorization prior to the actual model training. In this work, we present a new matrix factorization approach, BSR, which overcomes this computational bottleneck. By exploiting properties of the standard matrix square root, BSR allows to efficiently handle also large-scale problems. For the key scenario of stochastic gradient descent with momentum and weight decay, we even derive analytical expressions for BSR that render the computational overhead negligible. We prove bounds on the approximation quality that hold both in the centralized and in the federated learning setting. Our numerical experiments demonstrate that models trained using BSR perform on par with the best existing methods, while completely avoiding their computational overhead.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# 時間変化凸関数に対する二階勾配勾配勾配の安定性について

On the stability of second order gradient descent for time varying convex functions ( http://arxiv.org/abs/2405.13765v1 )

ライセンス: Link先を確認
Travis E. Gibson, Sawal Acharya, Anjali Parashar, Joseph E. Gaudio, Anurdha M. Annaswamy, (参考訳) 機械学習(ML)アプリケーションにデプロイされるグラディエントベースの最適化アルゴリズムは、しばしばその収束率や後悔境界によって分析され、比較される。 これらのレートとバウンダリは価値ある情報を伝達しますが、必ずしも安定性の保証に直接変換するわけではありません。 安定性やロバスト性といった同様の概念は、リアルタイムおよび安全クリティカルなシステムにモデルをデプロイする上で、ますます重要になります。 本研究は,Gaudio et al 2021 と Moreu と Annaswamy 2022 の2次勾配勾配(英語版)において,明示的な時間変動コスト関数に適用した場合の結果に基づいて,より一般的な安定性保証を提供する。 これらのより一般的な結果は、リアルタイム学習アプリケーションに対する安全で信頼性の高いデプロイメントを保証するために、これらの最適化スキームの設計と認定に役立つ。 また、ここで提供される技術は、オンライン学習と確率最適化のコミュニティから、同じアルゴリズムで発生した分析を刺激し、クロスファーティフィケーションすることを期待しています。

Gradient based optimization algorithms deployed in Machine Learning (ML) applications are often analyzed and compared by their convergence rates or regret bounds. While these rates and bounds convey valuable information they don't always directly translate to stability guarantees. Stability and similar concepts, like robustness, will become ever more important as we move towards deploying models in real-time and safety critical systems. In this work we build upon the results in Gaudio et al. 2021 and Moreu and Annaswamy 2022 for second order gradient descent when applied to explicitly time varying cost functions and provide more general stability guarantees. These more general results can aid in the design and certification of these optimization schemes so as to help ensure safe and reliable deployment for real-time learning applications. We also hope that the techniques provided here will stimulate and cross-fertilize the analysis that occurs on the same algorithms from the online learning and stochastic optimization communities.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# 言語モデルは自分の物語を満足させるか? 物語の自動評価のための大規模言語モデルを提案する

Do Language Models Enjoy Their Own Stories? Prompting Large Language Models for Automatic Story Evaluation ( http://arxiv.org/abs/2405.13769v1 )

ライセンス: Link先を確認
Cyril Chhun, Fabian M. Suchanek, Chloé Clavel, (参考訳) ストーリーテリングは人間の経験の不可欠な部分であり、社会的相互作用において重要な役割を果たす。 このように、自動ストーリー評価(ASE)と生成(ASG)は、様々な方法で社会に恩恵をもたらすが、創造性、理性、深い理解といった高いレベルの人間の能力を必要とする課題である。 一方、Large Language Models (LLM)は、多くのNLPタスクで最先端のパフォーマンスを実現している。 本稿では,LLMがASEのヒトアノテータの代用として利用できるかどうかについて検討する。 我々は,LSM評価,その他の自動尺度,人間のアノテーションの相関関係を広範囲に分析し,LCM行動の促進効果と説明可能性について検討した。 特に,LLMはシステムレベルの評価において,現在の自動評価よりも優れていますが,回答に対する十分な説明の提供には苦慮しています。

Storytelling is an integral part of human experience and plays a crucial role in social interactions. Thus, Automatic Story Evaluation (ASE) and Generation (ASG) could benefit society in multiple ways, but they are challenging tasks which require high-level human abilities such as creativity, reasoning and deep understanding. Meanwhile, Large Language Models (LLM) now achieve state-of-the-art performance on many NLP tasks. In this paper, we study whether LLMs can be used as substitutes for human annotators for ASE. We perform an extensive analysis of the correlations between LLM ratings, other automatic measures, and human annotations, and we explore the influence of prompting on the results and the explainability of LLM behaviour. Most notably, we find that LLMs outperform current automatic measures for system-level evaluation but still struggle at providing satisfactory explanations for their answers.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# 新型コロナウイルスの予後のためのマルチデータセットマルチタスク学習

Multi-Dataset Multi-Task Learning for COVID-19 Prognosis ( http://arxiv.org/abs/2405.13771v1 )

ライセンス: Link先を確認
Filippo Ruffini, Lorenzo Tronchin, Zhuoru Wu, Wenting Chen, Paolo Soda, Linlin Shen, Valerio Guarrasi, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックとの戦いにおいて、胸部X線画像から病気の結果を予測する人工知能を活用することは、重要な科学的目的である。 しかし課題は、大規模なラベル付きデータセットが不足して、過度に適合することなく、ディープラーニングモデルをトレーニングするための互換性のあるタスクが不足していることだ。 この課題に対処するために、私たちは、複数の相関ラベルスキームを持つデータセットに依存する従来のマルチタスク学習アプローチとはかけ離れた、異なるソースからの相関データセットを統合することで、胸部X線(CXR)から新型コロナウイルスの予後を予測する新しいマルチタスクトレーニングフレームワークを導入する。 本フレームワークは,重大度スコアを評価することにより,重大度グループを分類し,頑健性と予測力を向上させることができると仮定する。 提案アーキテクチャは,2つの公開可能なCXRデータセットからの入力を受信する深層畳み込みネットワーク,重度予測のためのAIforCOVID,重度スコア評価のためのBRIXIA,タスク固有の完全連結出力ネットワークへの分岐を含む。 さらに,マルチデータセット統合を利用するために,インジケータ関数を組み込んだマルチタスク損失関数を提案する。 提案手法の有効性とロバスト性は、18の異なる畳み込みニューラルネットワークのバックボーンにまたがる予後分類タスクにおいて、異なる評価戦略における顕著な性能改善を通じて実証される。 この改善は、シングルタスクベースラインや、広範な統計分析によって支持された標準転送学習戦略よりも明らかであり、アプリケーションの可能性が非常に高い。

In the fight against the COVID-19 pandemic, leveraging artificial intelligence to predict disease outcomes from chest radiographic images represents a significant scientific aim. The challenge, however, lies in the scarcity of large, labeled datasets with compatible tasks for training deep learning models without leading to overfitting. Addressing this issue, we introduce a novel multi-dataset multi-task training framework that predicts COVID-19 prognostic outcomes from chest X-rays (CXR) by integrating correlated datasets from disparate sources, distant from conventional multi-task learning approaches, which rely on datasets with multiple and correlated labeling schemes. Our framework hypothesizes that assessing severity scores enhances the model's ability to classify prognostic severity groups, thereby improving its robustness and predictive power. The proposed architecture comprises a deep convolutional network that receives inputs from two publicly available CXR datasets, AIforCOVID for severity prognostic prediction and BRIXIA for severity score assessment, and branches into task-specific fully connected output networks. Moreover, we propose a multi-task loss function, incorporating an indicator function, to exploit multi-dataset integration. The effectiveness and robustness of the proposed approach are demonstrated through significant performance improvements in prognosis classification tasks across 18 different convolutional neural network backbones in different evaluation strategies. This improvement is evident over single-task baselines and standard transfer learning strategies, supported by extensive statistical analysis, showing great application potential.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# フィルターなし:コントラスト視覚・言語モデルにおける文化的・社会経済的多様性

No Filter: Cultural and Socioeconomic Diversityin Contrastive Vision-Language Models ( http://arxiv.org/abs/2405.13777v1 )

ライセンス: Link先を確認
Angéline Pouget, Lucas Beyer, Emanuele Bugliarello, Xiao Wang, Andreas Peter Steiner, Xiaohua Zhai, Ibrahim Alabdulmohsin, (参考訳) コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性について検討した。 幅広いベンチマークデータセットと評価指標を用いて、いくつかの重要な発見に注目する。 まず、英語のイメージテキスト対に対するトレーニングデータの一般的なフィルタリングは、社会経済的地位の低いコミュニティを不利にし、文化的理解に悪影響を及ぼす。 特に、このパフォーマンスギャップは、現在、西洋中心のImageNetとCOCOデータセットから派生した評価指標である -- そして、それとは相反する -- によって捉えられません。 第二に、英語のコンテンツを微調整する前に、グローバルでフィルタされていないデータで事前トレーニングすることは、その人気ベンチマークのパフォーマンスを犠牲にすることなく、文化的理解を改善することができる。 第3に,VLMの文化的多様性を評価するための新しい評価指標として,地理的ローカライゼーションの課題を紹介する。 我々の研究は、多様なデータを用いてより包括的なマルチモーダルシステムを構築することの価値を強調し、グローバルな視点をよりよく表現するVLMを開発するための基盤となる。

We study cultural and socioeconomic diversity in contrastive vision-language models (VLMs). Using a broad range of benchmark datasets and evaluation metrics, we bring to attention several important findings. First, the common filtering of training data to English image-text pairs disadvantages communities of lower socioeconomic status and negatively impacts cultural understanding. Notably, this performance gap is not captured by -- and even at odds with -- the currently popular evaluation metrics derived from the Western-centric ImageNet and COCO datasets. Second, pretraining with global, unfiltered data before fine-tuning on English content can improve cultural understanding without sacrificing performance on said popular benchmarks. Third, we introduce the task of geo-localization as a novel evaluation metric to assess cultural diversity in VLMs. Our work underscores the value of using diverse data to create more inclusive multimodal systems and lays the groundwork for developing VLMs that better represent global perspectives.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# テキスト合成データを用いた航空画像からのロバスト災害評価

Robust Disaster Assessment from Aerial Imagery Using Text-to-Image Synthetic Data ( http://arxiv.org/abs/2405.13779v1 )

ライセンス: Link先を確認
Tarun Kalluri, Jihyeon Lee, Kihyuk Sohn, Sahil Singla, Manmohan Chandraker, Joseph Xu, Jeremiah Liu, (参考訳) 本稿では,航空画像からの損傷評価作業のための大規模合成監督を行う上で,新たなテキスト・画像生成モデルを活用するための簡易かつ効率的な手法を提案する。 近年、航空画像や衛星画像による損傷評価技術の改善が進んでいるが、手動ラベル付きデータが利用できない領域では、依然としてロバスト性に乏しいため、未資源の地理において、災害後の人道支援に直接影響している。 このシナリオにおけるドメインの堅牢性向上への私たちの貢献は2つあります。 まず、生成モデルのテキスト誘導マスクベースの画像編集機能を活用し、効率よくスケーラブルなパイプラインを構築し、低リソース領域から何千ものポストディザスター画像を生成する。 第2に、生成された合成対象ドメインデータとともに、異なるソースドメインから手動で監督しながら、ロバストモデルのトレーニングを行うための簡易な2段階トレーニング手法を提案する。 我々は,xBD画像とSKAI画像のクロスジオグラフィー領域転送設定におけるフレームワークの強度を,単一ソースと複数ソース設定の両方で検証し,ソースのみのベースラインよりも大幅に改善した。

We present a simple and efficient method to leverage emerging text-to-image generative models in creating large-scale synthetic supervision for the task of damage assessment from aerial images. While significant recent advances have resulted in improved techniques for damage assessment using aerial or satellite imagery, they still suffer from poor robustness to domains where manual labeled data is unavailable, directly impacting post-disaster humanitarian assistance in such under-resourced geographies. Our contribution towards improving domain robustness in this scenario is two-fold. Firstly, we leverage the text-guided mask-based image editing capabilities of generative models and build an efficient and easily scalable pipeline to generate thousands of post-disaster images from low-resource domains. Secondly, we propose a simple two-stage training approach to train robust models while using manual supervision from different source domains along with the generated synthetic target domain data. We validate the strength of our proposed framework under cross-geography domain transfer setting from xBD and SKAI images in both single-source and multi-source settings, achieving significant improvements over a source-only baseline in each case.
翻訳日:2024-05-24 23:25:17 公開日:2024-05-22
# 室内におけるエレファントへの対処:非教師なし部分的特徴アライメントによるロバスト動物再同定

Addressing the Elephant in the Room: Robust Animal Re-Identification with Unsupervised Part-Based Feature Alignment ( http://arxiv.org/abs/2405.13781v1 )

ライセンス: Link先を確認
Yingxue Yu, Vidit Vidit, Andrey Davydov, Martin Engilberge, Pascal Fua, (参考訳) 動物型Re-IDは野生生物の保護に不可欠だが、人間型Re-IDと比較すると独特な課題に直面している。 まず、データセットの不足と多様性の欠如が背景バイアスモデルにつながります。 第二に、動物のRe-IDは微妙で種特有の手がかりに依存し、ポーズ、背景、照明のバリエーションによってさらに複雑になる。 本研究では,学習段階と評価段階の背景を体系的に除去する手法を提案することにより,背景バイアスに対処する。 また,ポーズアノテーションに依存した先行研究とは異なり,本手法では,身体部分間の特徴アライメントとポーズのバリエーションに教師なしの手法を用いて,実用性を向上する。 本手法は,ATRW,YakReID-103,ELPephantsの3種の動物Re-IDデータセットにおいて優れた結果が得られる。

Animal Re-ID is crucial for wildlife conservation, yet it faces unique challenges compared to person Re-ID. First, the scarcity and lack of diversity in datasets lead to background-biased models. Second, animal Re-ID depends on subtle, species-specific cues, further complicated by variations in pose, background, and lighting. This study addresses background biases by proposing a method to systematically remove backgrounds in both training and evaluation phases. And unlike prior works that depend on pose annotations, our approach utilizes an unsupervised technique for feature alignment across body parts and pose variations, enhancing practicality. Our method achieves superior results on three key animal Re-ID datasets: ATRW, YakReID-103, and ELPephants.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# 自動カーネルサーチとサブサンプリングによる効率的な2段階ガウスプロセス回帰

Efficient Two-Stage Gaussian Process Regression Via Automatic Kernel Search and Subsampling ( http://arxiv.org/abs/2405.13785v1 )

ライセンス: Link先を確認
Shifan Zhao, Jiaying Lu, Ji Yang, Edmond Chow, Yuanzhe Xi, (参考訳) ガウス過程回帰(英: Gaussian Process Regression、GPR)は、統計学や機械学習において、不確実性対策を必要とする予測タスクに広く用いられている。 その有効性は平均関数、共分散カーネル関数、および関連するハイパーパラメータの適切な仕様に依存する。 重大なミス種別は、特に安全クリティカルなアプリケーションにおいて、不正確な結果と問題の結果をもたらす可能性がある。 しかし、これらの誤用に対処する体系的なアプローチは文献に欠けている。 本稿では,これらの課題に対処するための一般的な枠組みを提案する。 まず、平均予測と不確実性定量化(UQ)を分離し、平均的不特定を防止し、モデルにバイアスをもたらすフレキシブルな2段階のGPRフレームワークを導入する。 第二に、カーネル関数の不特定は、候補集合から最適なカーネルを選択する理論解析によって支持される新しい自動カーネル探索アルゴリズムによって対処される。 さらに,ハイパーパラメータ初期化のためのサブサンプリングに基づくウォームスタート戦略を提案し,効率を向上し,ハイパーパラメータの誤識別を回避する。 計算コストがはるかに低いため、サブサンプリングベースの戦略は、完全なデータセットでのみトレーニングするよりも、競争力やパフォーマンスが向上します。 これらすべてのコンポーネントを組み合わせることで、利用可能な計算リソースと特定のUQ要求に適合するように、2つのGPRメソッドを実践し、スケーラブルに設計することを推奨する。 UCIベンチマークや安全クリティカルな医療ケーススタディを含む実世界のデータセットに対する大規模な評価は、我々の手法の堅牢性と正確性を示している。

Gaussian Process Regression (GPR) is widely used in statistics and machine learning for prediction tasks requiring uncertainty measures. Its efficacy depends on the appropriate specification of the mean function, covariance kernel function, and associated hyperparameters. Severe misspecifications can lead to inaccurate results and problematic consequences, especially in safety-critical applications. However, a systematic approach to handle these misspecifications is lacking in the literature. In this work, we propose a general framework to address these issues. Firstly, we introduce a flexible two-stage GPR framework that separates mean prediction and uncertainty quantification (UQ) to prevent mean misspecification, which can introduce bias into the model. Secondly, kernel function misspecification is addressed through a novel automatic kernel search algorithm, supported by theoretical analysis, that selects the optimal kernel from a candidate set. Additionally, we propose a subsampling-based warm-start strategy for hyperparameter initialization to improve efficiency and avoid hyperparameter misspecification. With much lower computational cost, our subsampling-based strategy can yield competitive or better performance than training exclusively on the full dataset. Combining all these components, we recommend two GPR methods-exact and scalable-designed to match available computational resources and specific UQ requirements. Extensive evaluation on real-world datasets, including UCI benchmarks and a safety-critical medical case study, demonstrates the robustness and precision of our methods.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# ラーニング・ツー・ランドモデルによる説明可能なテストケース優先順位付けに向けて

Towards Explainable Test Case Prioritisation with Learning-to-Rank Models ( http://arxiv.org/abs/2405.13786v1 )

ライセンス: Link先を確認
Aurora Ramírez, Mario Berrios, José Raúl Romero, Robert Feldt, (参考訳) テストケース優先順位付け(TCP)は、ソフトウェアが進化するにつれて品質を確保するために回帰テストにおいて重要なタスクである。 機械学習は、それを達成するための一般的な方法になっている。 特に、LTR(Learning-to-rank)アルゴリズムは、テストケースの順序付けと優先順位付けに有効な方法を提供する。 しかし、それらの利用は、世界レベルでも、特定の結果に関しても、説明可能性の観点からも問題となる。 ここでは、異なる説明を必要とするシナリオとTCPの特異性(複数ビルド、テストケース、テストスイートのバリエーションなど)がそれらにどのように影響するかを論じる。 説明の類似性を解析するための予備実験を含め、テストケース固有の予測だけでなく、相対的なランクにも異なることを示す。

Test case prioritisation (TCP) is a critical task in regression testing to ensure quality as software evolves. Machine learning has become a common way to achieve it. In particular, learning-to-rank (LTR) algorithms provide an effective method of ordering and prioritising test cases. However, their use poses a challenge in terms of explainability, both globally at the model level and locally for particular results. Here, we present and discuss scenarios that require different explanations and how the particularities of TCP (multiple builds over time, test case and test suite variations, etc.) could influence them. We include a preliminary experiment to analyse the similarity of explanations, showing that they do not only vary depending on test case-specific predictions, but also on the relative ranks.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# 単一核ターゲットの完全一般化における遠方サンプルサイズと初期化効果

Disentangle Sample Size and Initialization Effect on Perfect Generalization for Single-Neuron Target ( http://arxiv.org/abs/2405.13787v1 )

ライセンス: Link先を確認
Jiajie Zhao, Zhiwei Bai, Yaoyu Zhang, (参考訳) ディープニューラルネットワークのような過パラメータ化モデルは、パラメータよりもサンプルデータポイントが少ないターゲット関数を復元する興味深い能力を持っている(arXiv:2307.08921参照)。 この現象の洞察を得るために,我々は単一ニューロン目標回復シナリオに集中し,初期化とサンプルサイズが2層ニューラルネットワークの性能に与える影響を体系的に検証する。 実験により,より小さな初期化スケールが一般化の促進に結びついていることが明らかとなり,理論的な証明によって支持された,訓練力学と小初期化の下での一般化を規定する「初期不均衡比」と呼ばれる臨界量を特定した。 さらに「最適試料サイズ」と「分離試料サイズ」の2つの重要なしきい値を実証的に定式化した(arXiv:2307.08921およびarXiv:2309.00508参照)。 楽観的なサンプルサイズ以下では、リカバリは達成不可能であり、楽観的なサンプルサイズでは、ゼロ測度の初期化によって、リカバリは達成可能となる。 分離サンプルサイズに達すると、目標関数をうまく回復できる初期化の集合はゼロから正の測度にシフトする。 これらの洞察は、単純化された文脈から導き出されたもので、過パラメータ化されたニューラルネットワークにおける完全一般化の複雑だが解読可能な複雑さの観点を提供する。

Overparameterized models like deep neural networks have the intriguing ability to recover target functions with fewer sampled data points than parameters (see arXiv:2307.08921). To gain insights into this phenomenon, we concentrate on a single-neuron target recovery scenario, offering a systematic examination of how initialization and sample size influence the performance of two-layer neural networks. Our experiments reveal that a smaller initialization scale is associated with improved generalization, and we identify a critical quantity called the "initial imbalance ratio" that governs training dynamics and generalization under small initialization, supported by theoretical proofs. Additionally, we empirically delineate two critical thresholds in sample size--termed the "optimistic sample size" and the "separation sample size"--that align with the theoretical frameworks established by (see arXiv:2307.08921 and arXiv:2309.00508). Our results indicate a transition in the model's ability to recover the target function: below the optimistic sample size, recovery is unattainable; at the optimistic sample size, recovery becomes attainable albeit with a set of initialization of zero measure. Upon reaching the separation sample size, the set of initialization that can successfully recover the target function shifts from zero to positive measure. These insights, derived from a simplified context, provide a perspective on the intricate yet decipherable complexities of perfect generalization in overparameterized neural networks.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# 大規模市場均衡計算のための量子アルゴリズム

Quantum algorithm for large-scale market equilibrium computation ( http://arxiv.org/abs/2405.13788v1 )

ライセンス: Link先を確認
Po-Wei Huang, Patrick Rebentrost, (参考訳) 比例応答ダイナミクスのような市場均衡計算のための古典的アルゴリズムは、買い手や商品の製品に関してほぼ線形のランタイムを持つにもかかわらず、オークション、レコメンダシステム、公正な分割といったインターネットベースのアプリケーションでスケーラビリティの問題に直面している。 本研究では,サブ線形性能を持つ市場均衡計算のための最初の量子アルゴリズムを提案する。 提案アルゴリズムは,従来のアルゴリズムと同じ最適化目標値に達しながら,購入者数や商品数の観点から多項式実行時の高速化を実現する。 16384の買い手と商品を持つシステムの数値シミュレーションは、我々の量子アルゴリズムが重要なスピードアップを提供するという理論的結果を支持する。

Classical algorithms for market equilibrium computation such as proportional response dynamics face scalability issues with Internet-based applications such as auctions, recommender systems, and fair division, despite having an almost linear runtime in terms of the product of buyers and goods. In this work, we provide the first quantum algorithm for market equilibrium computation with sub-linear performance. Our algorithm provides a polynomial runtime speedup in terms of the product of the number of buyers and goods while reaching the same optimization objective value as the classical algorithm. Numerical simulations of a system with 16384 buyers and goods support our theoretical results that our quantum algorithm provides a significant speedup.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# Multi-Type Point Cloud Autoencoder: 分子のコンフォーメーションとポースのための完全同変埋め込み

Multi-Type Point Cloud Autoencoder: A Complete Equivariant Embedding for Molecule Conformation and Pose ( http://arxiv.org/abs/2405.13791v1 )

ライセンス: Link先を確認
Michael Kilgour, Jutta Rogal, Mark Tuckerman, (参考訳) 点雲は様々な種類のデータに対して柔軟な表現であり、分子の3D配座に特に適している。 分子の埋め込み/表現スキームは、一般的に内部自由度に焦点を合わせ、グローバルな3D配向を無視している。 分子二量体、クラスター、凝縮相の生成など、分子配向と3次元配向の両方の知識に依存するタスクには、入力点雲に対する原子核のタイプと位置、およびロト反転等式において、確実に完備な表現が必要である。 我々は,新しいタイプのオートエンコーダである分子O(3)エンコードネット (Mo3ENet) を開発し,訓練し,評価する。 Mo3ENetはエンドツーエンドの同変であり、学習した表現をO(3)で操作することができる。 適切に訓練されたMo3ENet潜伏空間は、スカラーおよびベクトル分子特性予測タスクのための普遍的な埋め込みと、3D分子のポーズを組み込んだ他の下流タスクを含む。

The point cloud is a flexible representation for a wide variety of data types, and is a particularly natural fit for the 3D conformations of molecules. Extant molecule embedding/representation schemes typically focus on internal degrees of freedom, ignoring the global 3D orientation. For tasks that depend on knowledge of both molecular conformation and 3D orientation, such as the generation of molecular dimers, clusters, or condensed phases, we require a representation which is provably complete in the types and positions of atomic nuclei and roto-inversion equivariant with respect to the input point cloud. We develop, train, and evaluate a new type of autoencoder, molecular O(3) encoding net (Mo3ENet), for multi-type point clouds, for which we propose a new reconstruction loss, capitalizing on a Gaussian mixture representation of the input and output point clouds. Mo3ENet is end-to-end equivariant, meaning the learned representation can be manipulated on O(3), a practical bonus for downstream learning tasks. An appropriately trained Mo3ENet latent space comprises a universal embedding for scalar and vector molecule property prediction tasks, as well as other downstream tasks incorporating the 3D molecular pose.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# xRAG:1つのトークンを持つ検索拡張ジェネレーションのための極端文脈圧縮

xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token ( http://arxiv.org/abs/2405.13792v1 )

ライセンス: Link先を確認
Xin Cheng, Xun Wang, Xingxing Zhang, Tao Ge, Si-Qing Chen, Furu Wei, Huishuai Zhang, Dongyan Zhao, (参考訳) 本稿では,検索拡張生成に適した新しい文脈圧縮手法であるxRAGを紹介する。 xRAGはドキュメントの埋め込みを高密度検索に再解釈する。 モダリティ融合手法を用いることで、xRAGはこれらの埋め込みを言語モデル表現空間にシームレスに統合し、テキストによる表現の必要性を効果的に排除し、極端な圧縮率を達成する。 xRAGでは、唯一のトレーニング可能なコンポーネントはモダリティブリッジであり、レトリバーと言語モデルの両方が凍結されている。 この設計選択により、オフラインで構築されたドキュメントの埋め込みを再利用でき、検索拡張のプラグアンドプレイ性を維持することができる。 実験の結果、xRAGは6つの知識集約タスクで平均10%以上の改善を実現し、密集した7Bモデルから8x7BのMixture of Experts構成まで、様々な言語モデルバックボーンに適応できることがわかった。 xRAGは従来のコンテクスト圧縮法を著しく上回るだけでなく、いくつかのデータセット上での非圧縮モデルのパフォーマンスに匹敵する一方で、全体のFLOPを3.53倍削減する。 我々の研究は、マルチモーダリティ融合の観点から、検索拡張生成の新しい方向性を開拓し、将来の効率的でスケーラブルな検索強化システムの基礎を築いたいと願っている。

This paper introduces xRAG, an innovative context compression method tailored for retrieval-augmented generation. xRAG reinterprets document embeddings in dense retrieval--traditionally used solely for retrieval--as features from the retrieval modality. By employing a modality fusion methodology, xRAG seamlessly integrates these embeddings into the language model representation space, effectively eliminating the need for their textual counterparts and achieving an extreme compression rate. In xRAG, the only trainable component is the modality bridge, while both the retriever and the language model remain frozen. This design choice allows for the reuse of offline-constructed document embeddings and preserves the plug-and-play nature of retrieval augmentation. Experimental results demonstrate that xRAG achieves an average improvement of over 10% across six knowledge-intensive tasks, adaptable to various language model backbones, ranging from a dense 7B model to an 8x7B Mixture of Experts configuration. xRAG not only significantly outperforms previous context compression methods but also matches the performance of uncompressed models on several datasets, while reducing overall FLOPs by a factor of 3.53. Our work pioneers new directions in retrieval-augmented generation from the perspective of multimodality fusion, and we hope it lays the foundation for future efficient and scalable retrieval-augmented systems
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# 明示的前向きブリッジングによる条件付き拡散モデル

Conditioning diffusion models by explicit forward-backward bridging ( http://arxiv.org/abs/2405.13794v1 )

ライセンス: Link先を確認
Adrien Corenflos, Zheng Zhao, Simo Särkkä, Jens Sjölund, Thomas B. Schön, (参考訳) 条件付き拡散モデル $\pi(x, y)$ が与えられたとき、条件付きシミュレーションを行うために $\pi(x \mid y)$ が用いられる。 本研究では,部分的なSDEブリッジに対応する拡張空間上での条件付きシミュレーションを推論問題として表現する。 この観点により、条件分布 $\pi(x \mid y)$ を極端にターゲットとした効率的で原理化された粒子ギブズと擬マリナルサンプリングを実装できる。 既存の手法とは対照的に,モンテカルロ誤差以外の非条件拡散モデルに対する追加の近似は導入しない。 我々は、一連の合成および実データ例に対して、我々のアプローチの利点と欠点を示します。

Given an unconditional diffusion model $\pi(x, y)$, using it to perform conditional simulation $\pi(x \mid y)$ is still largely an open question and is typically achieved by learning conditional drifts to the denoising SDE after the fact. In this work, we express conditional simulation as an inference problem on an augmented space corresponding to a partial SDE bridge. This perspective allows us to implement efficient and principled particle Gibbs and pseudo-marginal samplers marginally targeting the conditional distribution $\pi(x \mid y)$. Contrary to existing methodology, our methods do not introduce any additional approximation to the unconditional diffusion model aside from the Monte Carlo error. We showcase the benefits and drawbacks of our approach on a series of synthetic and real data examples.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# 物理AIハイブリッドモデリングによる天気予報の微粒化

Generalizing Weather Forecast to Fine-grained Temporal Scales via Physics-AI Hybrid Modeling ( http://arxiv.org/abs/2405.13796v1 )

ライセンス: Link先を確認
Wanghan Xu, Fenghua Ling, Wenlong Zhang, Tao Han, Hao Chen, Wanli Ouyang, Lei Bai, (参考訳) データ駆動人工知能(AI)モデルは、特に中距離や近距離での天気予報において大きな進歩を遂げている。 しかし、ほとんどのデータ駆動の天気予報モデルは、時間次元の微細な物理的進化ではなく、データマッピングの学習に焦点を当てたブラックボックスシステムである。 その結果、データセットの時間スケールの制限により、これらのモデルはより詳細な時間スケールでの予測を妨げている。 本稿では,天気予報をトレーニングデータセットを超える細粒度テンポラルスケールに一般化する物理AIハイブリッドモデル(WeatherGFT)を提案する。 具体的には、小さな時間スケール(例えば300秒)で物理進化をシミュレートするために慎重に設計されたPDEカーネルを使用し、学習可能なルータと並列ニューラルネットワークを用いてバイアス補正を行う。 さらに、異なるリードタイムでのモデルの一般化を促進するためのリードタイムアウェアトレーニングフレームワークを導入する。 物理AIモジュールの重み解析は、物理学が大きな進化をし、AIが適応的に修正を行うことを示している。 大規模な実験により、WeatherGFTは時間単位のデータセットでトレーニングされ、複数のリードタイムで最先端のパフォーマンスを達成し、30分間の予測を一般化する能力を示している。

Data-driven artificial intelligence (AI) models have made significant advancements in weather forecasting, particularly in medium-range and nowcasting. However, most data-driven weather forecasting models are black-box systems that focus on learning data mapping rather than fine-grained physical evolution in the time dimension. Consequently, the limitations in the temporal scale of datasets prevent these models from forecasting at finer time scales. This paper proposes a physics-AI hybrid model (i.e., WeatherGFT) which Generalizes weather forecasts to Finer-grained Temporal scales beyond training dataset. Specifically, we employ a carefully designed PDE kernel to simulate physical evolution on a small time scale (e.g., 300 seconds) and use a parallel neural networks with a learnable router for bias correction. Furthermore, we introduce a lead time-aware training framework to promote the generalization of the model at different lead times. The weight analysis of physics-AI modules indicates that physics conducts major evolution while AI performs corrections adaptively. Extensive experiments show that WeatherGFT trained on an hourly dataset, achieves state-of-the-art performance across multiple lead times and exhibits the capability to generalize 30-minute forecasts.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# 大数の法則へのスラヴ:生成言語モデルにおけるパープレキシティの漸近的平等性

Slaves to the Law of Large Numbers: An Asymptotic Equipartition Property for Perplexity in Generative Language Models ( http://arxiv.org/abs/2405.13798v1 )

ライセンス: Link先を確認
Raghu Mudumbai, Tyler Bell, (参考訳) 本稿では,言語モデルによって生成された大きなテキストのパープレキシティに対する新しい漸近的等分法と,この性質に関する理論的議論を提案する。 逆確率関数として定義されるパープレキシティは、言語モデルを訓練するための性能指標として広く使われている。 我々の主な結果は、言語モデルによって生成された大きなテキストの対数的パープレキシティは、そのトークン分布の平均エントロピーに漸近的に収束しなければならないということである。 このことは、言語モデルが「典型集合」からのみ出力を生成することを制約されていることを意味する。これは、全ての可能な文法的に正しい出力の、消滅的に小さなサブセットであることを意味する。我々は、我々の理論的な主張をサポートするために、オープンソースの言語モデルから予備的な実験結果を示す。この研究は、「AI検出」ツールの理解と改善、および生成モデルのユニークさ、予測可能性、創造的ポテンシャルに対する理論的含意について、実用的な応用をもたらす可能性がある。

We propose a new asymptotic equipartition property for the perplexity of a large piece of text generated by a language model and present theoretical arguments for this property. Perplexity, defined as a inverse likelihood function, is widely used as a performance metric for training language models. Our main result states that the logarithmic perplexity of any large text produced by a language model must asymptotically converge to the average entropy of its token distributions. This means that language models are constrained to only produce outputs from a ``typical set", which we show, is a vanishingly small subset of all possible grammatically correct outputs. We present preliminary experimental results from an open-source language model to support our theoretical claims. This work has possible practical applications for understanding and improving ``AI detection" tools and theoretical implications for the uniqueness, predictability and creative potential of generative models.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# MLLM用デンスコネクタ

Dense Connector for MLLMs ( http://arxiv.org/abs/2405.13800v1 )

ライセンス: Link先を確認
Huanjin Yao, Wenhao Wu, Taojiannan Yang, YuXin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang, (参考訳) MLLM(Multimodal Large Language Models)におけるビジュアルエンコーダの可能性を完全に活用できるだろうか? マルチモーダル理解におけるMLLMの最近の卓越した業績は、学術と産業の両方から広く注目を集めている。 現在のMLLMラットレースでは、主に言語的な側面に焦点が当てられているようだ。 我々は,大規模かつ高品質な命令データセットの出現と,大規模LLMの関与を目撃する。 しかし、スキャンされた注意はMLLMが利用する視覚信号に向けられ、しばしば凍結した視覚エンコーダによって抽出される最後の高次特徴であると考えられている。 本稿では,Dense Connectorについて述べる。Dense Connectorは,マルチレイヤの視覚的特徴を活用することで既存のMLLMを大幅に拡張し,計算オーバーヘッドを最小限に抑える,シンプルで効果的でプラグアンドプレイの視覚言語コネクタである。 さらに,画像のみを訓練した本モデルでは,映像理解にも優れたゼロショット機能を備えている。 様々な視覚エンコーダ、画像解像度、トレーニングデータセットスケール、LLMのさまざまなサイズ(2.7B->70B)、MLLMの多様なアーキテクチャ(例:LLaVA、Mini-Gemini)にわたる実験結果は、我々のアプローチの汎用性とスケーラビリティを検証し、19のイメージおよびビデオベンチマークで最先端のパフォーマンスを達成する。 この作業が貴重な経験を提供し、将来のMLLM開発のための基本的なモジュールとして機能することを願っています。

Do we fully leverage the potential of visual encoder in Multimodal Large Language Models (MLLMs)? The recent outstanding performance of MLLMs in multimodal understanding has garnered broad attention from both academia and industry. In the current MLLM rat race, the focus seems to be predominantly on the linguistic side. We witness the rise of larger and higher-quality instruction datasets, as well as the involvement of larger-sized LLMs. Yet, scant attention has been directed towards the visual signals utilized by MLLMs, often assumed to be the final high-level features extracted by a frozen visual encoder. In this paper, we introduce the Dense Connector - a simple, effective, and plug-and-play vision-language connector that significantly enhances existing MLLMs by leveraging multi-layer visual features, with minimal additional computational overhead. Furthermore, our model, trained solely on images, showcases remarkable zero-shot capabilities in video understanding as well. Experimental results across various vision encoders, image resolutions, training dataset scales, varying sizes of LLMs (2.7B->70B), and diverse architectures of MLLMs (e.g., LLaVA and Mini-Gemini) validate the versatility and scalability of our approach, achieving state-of-the-art performance on across 19 image and video benchmarks. We hope that this work will provide valuable experience and serve as a basic module for future MLLM development.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# 差分プライバシーに基づくベイズ推論:一変量ガウスデータと回帰への応用による事前選択の考察

Bayesian Inference Under Differential Privacy: Prior Selection Considerations with Application to Univariate Gaussian Data and Regression ( http://arxiv.org/abs/2405.13801v1 )

ライセンス: Link先を確認
Zeki Kazan, Jerome P. Reiter, (参考訳) 差分プライバシーによって保護されガウス的としてモデル化された有界データの平均と分散に対するベイズ的推論について述べる。 この設定を用いて、事前の分布を特定する際に、アナリストが境界によって課される制約を考慮し、考慮すべきであることを示す。 さらに,プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・プリミティブ・ 差分プライベートデータを用いた回帰のベイズ推定に対して,これらの結果がどのように適用できるかを論じる。

We describe Bayesian inference for the mean and variance of bounded data protected by differential privacy and modeled as Gaussian. Using this setting, we demonstrate that analysts can and should take the constraints imposed by the bounds into account when specifying prior distributions. Additionally, we provide theoretical and empirical results regarding what classes of default priors produce valid inference for a differentially private release in settings where substantial prior information is not available. We discuss how these results can be applied to Bayesian inference for regression with differentially private data.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# Sunnie:メンタル・ウェルビーイング・アクティビティ・レコメンデーションのための人間型LDMベースの会話エージェント

Sunnie: An Anthropomorphic LLM-Based Conversational Agent for Mental Well-Being Activity Recommendation ( http://arxiv.org/abs/2405.13803v1 )

ライセンス: Link先を確認
Siyi Wu, Feixue Han, Bingsheng Yao, Tianyi Xie, Xuan Zhao, Dakuo Wang, (参考訳) 精神福祉支援における長年の課題は、モチベーションの欠如、信頼感の低さ、リコメンデーションの個人化の制限など、心理的に有益な活動を採用する人々の寛容さである。 チャットボットは、ポジティブなメンタルヘルスの実践を促進することを約束している。 本研究では,人間型デザイン(LLMのペルソナデザインと会話体験デザインの両方)が,システムに対するユーザの認識を高め,メンタル・ウェルビーイング・アクティビティ・レコメンデーションを採用する意思を高めることができるかどうかを考察する。 この目的のために,人間型LLMに基づく会話エージェントであるSunnieを紹介し,肯定的な心理学理論に基づく多ターン会話やアクティビティレコメンデーションを通じて,精神福祉支援のためのパーソナライズされたガイダンスを提供する。 Sunnieのユーザエクスペリエンスと従来のサーベイベースのアクティビティレコメンデーションシステムを比較した実証的ユーザスタディでは,Sunnieの人為的特性がユーザのシステムに対する認識と全体のユーザビリティを著しく向上させることが示唆された。

A longstanding challenge in mental well-being support is the reluctance of people to adopt psychologically beneficial activities, often due to a lack of motivation, low perceived trustworthiness, and limited personalization of recommendations. Chatbots have shown promise in promoting positive mental health practices, yet their rigid interaction flows and less human-like conversational experiences present significant limitations. In this work, we explore whether the anthropomorphic design (both LLM's persona design and conversational experience design) can enhance users' perception of the system and their willingness to adopt mental well-being activity recommendations. To this end, we introduce Sunnie, an anthropomorphic LLM-based conversational agent designed to offer personalized guidance for mental well-being support through multi-turn conversation and activity recommendations based on positive psychological theory. An empirical user study comparing the user experience with Sunnie and with a traditional survey-based activity recommendation system suggests that the anthropomorphic characteristics of Sunnie significantly enhance users' perception of the system and the overall usability; nevertheless, users' willingness to adopt activity recommendations did not change significantly.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# 複数のシークレットを保護する - データ共有のための統計プライバシの強化

Guarding Multiple Secrets: Enhanced Summary Statistic Privacy for Data Sharing ( http://arxiv.org/abs/2405.13804v1 )

ライセンス: Link先を確認
Shuaiqi Wang, Rongzhe Wei, Mohsen Ghassemi, Eleonora Kreacic, Vamsi K. Potluru, (参考訳) データ共有は、多くの研究領域やビジネスアプリケーションにおいて重要な進歩を可能にするが、機密性の高い要約統計(例えば、手段や量子化)の意図しない開示につながる可能性がある。 既存の文献は単一の機密量の保護にのみ焦点をあてるが、実際にはデータ共有には複数の機密統計が含まれる。 本稿では,データ共有における多極的サマリ統計量の定義,分析,保護を行う新しいフレームワークを提案する。 具体的には、攻撃者がサマリ統計シークレットの推測に成功した場合の最悪の確率で、任意のデータリリースメカニズムのプライバシーリスクを測定する。 攻撃者の目的が、サマリ統計シークレット全体の部分集合を推測することから、システマティックに設計し、適切なプライバシメトリクスを解析することまでである。 歪みを元のデータとリリースデータの間の最悪のケース距離として定義し、プライバシと歪みのトレードオフを分析する。 コントリビューションには、さまざまなデータ分散とシークレットタイプに適したデータリリースメカニズムの設計と分析も含まれています。 実世界のデータによる評価は, 実用化における我々のメカニズムの有効性を示すものである。

Data sharing enables critical advances in many research areas and business applications, but it may lead to inadvertent disclosure of sensitive summary statistics (e.g., means or quantiles). Existing literature only focuses on protecting a single confidential quantity, while in practice, data sharing involves multiple sensitive statistics. We propose a novel framework to define, analyze, and protect multi-secret summary statistics privacy in data sharing. Specifically, we measure the privacy risk of any data release mechanism by the worst-case probability of an attacker successfully inferring summary statistic secrets. Given an attacker's objective spanning from inferring a subset to the entirety of summary statistic secrets, we systematically design and analyze tailored privacy metrics. Defining the distortion as the worst-case distance between the original and released data distribution, we analyze the tradeoff between privacy and distortion. Our contribution also includes designing and analyzing data release mechanisms tailored for different data distributions and secret types. Evaluations on real-world data demonstrate the effectiveness of our mechanisms in practical applications.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# 画像修復における知覚的公正性

Perceptual Fairness in Image Restoration ( http://arxiv.org/abs/2405.13805v1 )

ライセンス: Link先を確認
Guy Ohayon, Michael Elad, Tomer Michaeli, (参考訳) 画像復元タスクの公平性は、画像の異なるサブグループを等しく扱いたいという欲求である。 画像復元における既存の公平性の定義は非常に制限的である。 彼らは、再建が集団(例えば、女性)にとって正しい結果であるとみなし、それがグループの根底にある真実のイメージ(例えば、女性の自然なイメージ)に該当する場合のみ、そうでなければ完全に間違っていると考えられている。 その結果、画像復元における誤りが様々な方法で現れるため、このような定義は論争を招きがちである。 本研究は,グループ知覚指数(GPI)を用いて,画像復元における公平性に対する代替的アプローチを提案する。 異なるグループのGPIを比較してアルゴリズムの公平性を評価し、全てのグループのGPIが同一であれば、パーセプティカルフェアネス(PF)が完璧であることを示す。 我々は、新しい公正の概念を動機付け、理論的に研究し、それ以前のものとの関係を描き、最先端の顔画像超解像アルゴリズムでその有用性を実証する。

Fairness in image restoration tasks is the desire to treat different sub-groups of images equally well. Existing definitions of fairness in image restoration are highly restrictive. They consider a reconstruction to be a correct outcome for a group (e.g., women) only if it falls within the group's set of ground truth images (e.g., natural images of women); otherwise, it is considered entirely incorrect. Consequently, such definitions are prone to controversy, as errors in image restoration can manifest in various ways. In this work we offer an alternative approach towards fairness in image restoration, by considering the Group Perceptual Index (GPI), which we define as the statistical distance between the distribution of the group's ground truth images and the distribution of their reconstructions. We assess the fairness of an algorithm by comparing the GPI of different groups, and say that it achieves perfect Perceptual Fairness (PF) if the GPIs of all groups are identical. We motivate and theoretically study our new notion of fairness, draw its connection to previous ones, and demonstrate its utility on state-of-the-art face image super-resolution algorithms.
翻訳日:2024-05-24 23:15:30 公開日:2024-05-22
# 一般スペクトルウェーブレットによるグラフ畳み込みネットワークの高速化

Advancing Graph Convolutional Networks via General Spectral Wavelets ( http://arxiv.org/abs/2405.13806v1 )

ライセンス: Link先を確認
Nian Liu, Xiaoxin He, Thomas Laurent, Francesco Di Giovanni, Michael M. Bronstein, Xavier Bresson, (参考訳) グラフ上のデータフィルタリングの重要なツールであるスペクトルグラフの畳み込みは、信号変換のためのスペクトルベースの選択と周波数解析のためのカーネルのパラメータ化という、2つの重要な決定に依存している。 最近の技術は主に標準フーリエ変換とベクトル値スペクトル関数に重点を置いているが、各ノードの特定の信号分布とスペクトル関数の表現性を記述するには柔軟性が不足している。 本稿では,マルチレゾリューションスペクトルベースと行列値フィルタカーネルを統合した新しいウェーブレットベースのグラフ畳み込みネットワークであるWaveGCを提案する。 理論的には、WaveGCは、短距離および長距離情報を効果的にキャプチャし、分離することができ、既存のグラフ畳み込みネットワークやグラフ変換器(GT)を上回る、より優れたフィルタリング柔軟性を提供する。 WaveGCのインスタンス化のために,チェビシェフ多項式の奇数項と偶数項を別々に組み合わせて一般グラフウェーブレットを学習する新しい手法を導入する。 このアプローチはウェーブレット許容基準を厳密に満たしている。 我々の数値実験は新しいネットワークの能力を実証した。 既存のアーキテクチャのTransformer部分をWaveGCに置き換えることで、ショートレンジとロングレンジの両方のタスクの改善を継続的に観察する。 これは、異なるシナリオを扱う際に提案されたモデルの有効性を裏付けるものである。 私たちのコードはhttps://github.com/liun-online/WaveGCで利用可能です。

Spectral graph convolution, an important tool of data filtering on graphs, relies on two essential decisions; selecting spectral bases for signal transformation and parameterizing the kernel for frequency analysis. While recent techniques mainly focus on standard Fourier transform and vector-valued spectral functions, they fall short in flexibility to describe specific signal distribution for each node, and expressivity of spectral function. In this paper, we present a novel wavelet-based graph convolution network, namely WaveGC, which integrates multi-resolution spectral bases and a matrix-valued filter kernel. Theoretically, we establish that WaveGC can effectively capture and decouple short-range and long-range information, providing superior filtering flexibility, surpassing existing graph convolutional networks and graph Transformers (GTs). To instantiate WaveGC, we introduce a novel technique for learning general graph wavelets by separately combining odd and even terms of Chebyshev polynomials. This approach strictly satisfies wavelet admissibility criteria. Our numerical experiments showcase the capabilities of the new network. By replacing the Transformer part in existing architectures with WaveGC, we consistently observe improvements in both short-range and long-range tasks. This underscores the effectiveness of the proposed model in handling different scenarios. Our code is available at https://github.com/liun-online/WaveGC.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# ハイブリッド量子-古典正規化流れ

Hybrid Quantum-Classical Normalizing Flow ( http://arxiv.org/abs/2405.13808v1 )

ライセンス: Link先を確認
Anlei Zhang, Wei Cui, (参考訳) 量子コンピューティング技術の急速な発展により、我々はノイズの多い中間規模量子コンピュータ(NISQ)の時代に入った。 したがって、現在のNISQデバイスのハードウェア条件に適応し、いくつかの実用的な問題をプリミティブに解決できる量子アルゴリズムを設計することが研究者の焦点となっている。 本稿では,量子機械学習分野における量子生成モデルに着目し,パラメータ化量子回路に基づくハイブリッド量子古典正規化フロー(HQCNF)モデルを提案する。 古典正規化フローモデルとパラメタライズド量子回路の特性に基づいて、アンザッツの形式と量子計算と古典計算のハイブリッド手法を巧みに設計し、量子コンピューティングが関与する場合の損失関数の形式を導出する。 我々は画像生成問題でモデルを検証した。 実験結果から,本モデルは高品質な画像を生成することができることがわかった。 量子生成逆数ネットワーク(QGAN)のような他の量子生成モデルと比較して、我々のモデルはFr'echet開始距離(FID)の低いスコアを達成し、古典的生成モデルと比較すると、パラメータを著しく少なくして画像生成タスクを完了することができる。 これらの結果は,提案手法の利点を証明している。

With the rapid development of quantum computing technology, we have entered the era of noisy intermediate-scale quantum (NISQ) computers. Therefore, designing quantum algorithms that adapt to the hardware conditions of current NISQ devices and can preliminarily solve some practical problems has become the focus of researchers. In this paper, we focus on quantum generative models in the field of quantum machine learning, and propose a hybrid quantum-classical normalizing flow (HQCNF) model based on parameterized quantum circuits. Based on the ideas of classical normalizing flow models and the characteristics of parameterized quantum circuits, we cleverly design the form of the ansatz and the hybrid method of quantum and classical computing, and derive the form of the loss function in the case that quantum computing is involved. We test our model on the image generation problem. Experimental results show that our model is capable of generating images of good quality. Compared with other quantum generative models, such as quantum generative adversarial networks (QGAN), our model achieves lower (better) Fr\'echet inception distance (FID) score, and compared with classical generative models, we can complete the image generation task with significantly fewer parameters. These results prove the advantage of our proposed model.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# バニラ変圧器を用いた長期時系列予測のための2次元情報の活用

Leveraging 2D Information for Long-term Time Series Forecasting with Vanilla Transformers ( http://arxiv.org/abs/2405.13810v1 )

ライセンス: Link先を確認
Xin Cheng, Xiuying Chen, Shuqi Li, Di Luo, Xun Wang, Dongyan Zhao, Rui Yan, (参考訳) 時系列予測は、金融、経済、気候、医療など、様々な領域の複雑な力学を理解し予測するために重要である。 Transformerアーキテクチャをベースにした1つのアプローチでは、グローバルな依存関係をモデル化するために、同じタイムスタンプから1つの時間トークンに複数の変数をエンコードする。 対照的に、別のアプローチでは、個々の級数の時間点を別々の可変トークンに埋め込む。 前者は変分中心表現の学習における課題に直面するが、後者は正確な予測に不可欠な時間的情報が欠落するリスクを負う。 本研究では,バニラトランスフォーマーに基づく革新的な多方向アテンションを用いた2つのアプローチの利点を組み合わせたモデルであるGridTSTを紹介する。 入力時系列データをグリッドとみなし、$x$-axisは時間ステップを表し、$y$-axisは変数を表す。 このグリッドの垂直スライシングは各時間ステップの変数を \textit{time token} に結合し、水平スライシングはすべての時間ステップにわたって個々のシリーズを \textit{variate token} に埋め込む。 それに対応して、 \textit{horizontal attention mechanism} は、様々な時間ステップにおけるデータ間の相関を理解するための時間トークンに焦点をあてる一方で、変数対応の \textit{attention} は多変量相関を理解するために使用される。 この組み合わせにより、時間と変動次元の両方にわたる情報の効率的な処理が可能となり、モデルの分析強度が向上する。 % パッチ技術を統合し,時間トークンをサブシリーズレベルのパッチに分割し,ローカルなセマンティック情報が埋め込みに保持されることを保証する。 GridTSTモデルは、さまざまな現実世界のデータセットに対して、常に最先端のパフォーマンスを提供する。

Time series prediction is crucial for understanding and forecasting complex dynamics in various domains, ranging from finance and economics to climate and healthcare. Based on Transformer architecture, one approach involves encoding multiple variables from the same timestamp into a single temporal token to model global dependencies. In contrast, another approach embeds the time points of individual series into separate variate tokens. The former method faces challenges in learning variate-centric representations, while the latter risks missing essential temporal information critical for accurate forecasting. In our work, we introduce GridTST, a model that combines the benefits of two approaches using innovative multi-directional attentions based on a vanilla Transformer. We regard the input time series data as a grid, where the $x$-axis represents the time steps and the $y$-axis represents the variates. A vertical slicing of this grid combines the variates at each time step into a \textit{time token}, while a horizontal slicing embeds the individual series across all time steps into a \textit{variate token}. Correspondingly, a \textit{horizontal attention mechanism} focuses on time tokens to comprehend the correlations between data at various time steps, while a \textit{vertical}, variate-aware \textit{attention} is employed to grasp multivariate correlations. This combination enables efficient processing of information across both time and variate dimensions, thereby enhancing the model's analytical strength. % We also integrate the patch technique, segmenting time tokens into subseries-level patches, ensuring that local semantic information is retained in the embedding. The GridTST model consistently delivers state-of-the-art performance across various real-world datasets.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# ニューラルフーリエ変換を用いた解釈可能な多変量時系列予測

Interpretable Multivariate Time Series Forecasting Using Neural Fourier Transform ( http://arxiv.org/abs/2405.13812v1 )

ライセンス: Link先を確認
Noam Koren, Kira Radinsky, (参考訳) 多変量時系列予測は、金融計画、医療診断、気候科学など、いくつかの領域において重要な課題である。 本稿では,多次元フーリエ変換と時間畳み込みネットワーク層を組み合わせたニューラルフーリエ変換(NFT)アルゴリズムを提案する。 Neural Fourier Transformは14の多様なデータセットで実証的に検証されており、複数の予測水平線と振り返りに優れたパフォーマンスを示し、フィールドに新しいベンチマークを設定している。 この研究は、解釈可能かつ非常に予測可能なモデルを提供することで、多変量時系列予測を推進し、実践者と研究者双方にとって価値のあるツールとなる。 この研究のコードは公開されている。

Multivariate time series forecasting is a pivotal task in several domains, including financial planning, medical diagnostics, and climate science. This paper presents the Neural Fourier Transform (NFT) algorithm, which combines multi-dimensional Fourier transforms with Temporal Convolutional Network layers to improve both the accuracy and interpretability of forecasts. The Neural Fourier Transform is empirically validated on fourteen diverse datasets, showing superior performance across multiple forecasting horizons and lookbacks, setting new benchmarks in the field. This work advances multivariate time series forecasting by providing a model that is both interpretable and highly predictive, making it a valuable tool for both practitioners and researchers. The code for this study is publicly available.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# 大規模言語モデルは優れた自動多言語学習者である:多言語アノテーション付きデータは必要か?

Large Language Models are Good Spontaneous Multilingual Learners: Is the Multilingual Annotated Data Necessary? ( http://arxiv.org/abs/2405.13816v1 )

ライセンス: Link先を確認
Shimao Zhang, Changjiang Gao, Wenhao Zhu, Jiajun Chen, Xin Huang, Xue Han, Junlan Feng, Chao Deng, Shujian Huang, (参考訳) 最近、Large Language Models (LLMs) は印象的な言語機能を示している。 しかし、既存のLLMのほとんどは英語中心であり、様々な言語で非常に不安定で不均衡な性能を持つ。 多言語アライメントはLLMの多言語機能を強化する効果的な方法である。 本研究では、翻訳データを利用した多言語アライメントパラダイムについて検討し、LLMの自発的多言語改善を包括的に検討する。 注釈付き回答のない質問文翻訳データのみに基づくLLMは、命令調整中に見つからない幅広い言語であっても、多言語のパフォーマンスを著しく向上させることができることがわかった。 さらに,多言語シナリオにおけるLLMの性能を包括的に解析するために,異なる設定と機械的解釈可能性手法を利用する。

Recently, Large Language Models (LLMs) have shown impressive language capabilities. However, most of the existing LLMs are all English-centric, which have very unstable and unbalanced performance across different languages. Multilingual alignment is an effective method to enhance the LLMs' multilingual capabilities. In this work, we explore the multilingual alignment paradigm which utilizes translation data and comprehensively investigate the spontaneous multilingual improvement of LLMs. We find that LLMs only instruction-tuned on question translation data without annotated answers are able to get significant multilingual performance enhancement even across a wide range of languages unseen during instruction-tuning. Additionally, we utilize different settings and mechanistic interpretability methods to comprehensively analyze the LLM's performance in the multilingual scenario.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# 熱力学的自然グラディエント染料

Thermodynamic Natural Gradient Descent ( http://arxiv.org/abs/2405.13817v1 )

ライセンス: Link先を確認
Kaelan Donatella, Samuel Duffield, Maxwell Aifer, Denis Melanson, Gavin Crooks, Patrick J. Coles, (参考訳) 2次学習法は勾配降下よりも収束特性が優れているが, 計算オーバーヘッドのため, 大規模訓練にはほとんど使われない。 これは(デジタルコンピュータによる)ハードウェア制限と見なすことができる。 ここでは,2次法である自然勾配降下法(NGD)が,適切なハードウェアを用いる場合,反復1次法と1次法と同じような計算複雑性を持つことを示す。 本稿では,あるパラメータ規則でNGDに相当するニューラルネットワークをトレーニングするハイブリッドなディジタルアナログアルゴリズムを提案する。 本アルゴリズムは, アナログ系の平衡熱力学特性を利用するため, アナログ熱力学コンピュータを必要とする。 トレーニングは、勾配とフィッシャー情報行列(または他の正の半定曲率行列)が所定の時間間隔で計算され、アナログダイナミクスが実行されるハイブリッドデジタルアナログループで行われる。 分類タスクや言語モデルの微調整タスクにおける,最先端のディジタル一階および二階の訓練手法よりも,このアプローチが優れていることを数値的に示す。

Second-order training methods have better convergence properties than gradient descent but are rarely used in practice for large-scale training due to their computational overhead. This can be viewed as a hardware limitation (imposed by digital computers). Here we show that natural gradient descent (NGD), a second-order method, can have a similar computational complexity per iteration to a first-order method, when employing appropriate hardware. We present a new hybrid digital-analog algorithm for training neural networks that is equivalent to NGD in a certain parameter regime but avoids prohibitively costly linear system solves. Our algorithm exploits the thermodynamic properties of an analog system at equilibrium, and hence requires an analog thermodynamic computer. The training occurs in a hybrid digital-analog loop, where the gradient and Fisher information matrix (or any other positive semi-definite curvature matrix) are calculated at given time intervals while the analog dynamics take place. We numerically demonstrate the superiority of this approach over state-of-the-art digital first- and second-order training methods on classification tasks and language model fine-tuning tasks.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# 微分代数系の同定可能性

Identifiability of Differential-Algebraic Systems ( http://arxiv.org/abs/2405.13818v1 )

ライセンス: Link先を確認
Arthur N. Montanari, François Lamoline, Robert Bereza, Jorge Gonçalves, (参考訳) 動的システムのデータ駆動モデリングは、しばしば多くのデータ関連の課題に直面します。 基本的な要件は、選択されたモデル構造に対する一意のパラメータセットの存在である。 この問題は通常の微分方程式(ODE)に対してよく研究されているが、微分代数方程式(DAE)によって記述されるより一般的なシステムのクラスに焦点を当てた研究はほとんどない。 DAEの例としては、保存則を表す代数方程式を持つ力学系や高速力学の近似がある。 本研究は非線形DAEを特徴とするモデルに対する新しい識別可能性試験を導入する。 従来の手法とは異なり、我々のテストではシステム方程式の事前知識しか必要とせず、非線形変換やインデックス縮小、DAEの数値積分は必要としない。 我々は,様々なDAEモデルに対して,センサの選択,実験条件,モデル構造に依存するシステムの識別可能性について検討した。 ODEと比較してDAEを識別する上での課題が加わったことを考えると、我々の発見は広範囲に適用可能であり、DAEやその他の構造保存モデルのためのデータ駆動手法の開発と検証に大きく貢献すると予想される。

Data-driven modeling of dynamical systems often faces numerous data-related challenges. A fundamental requirement is the existence of a unique set of parameters for a chosen model structure, an issue commonly referred to as identifiability. Although this problem is well studied for ordinary differential equations (ODEs), few studies have focused on the more general class of systems described by differential-algebraic equations (DAEs). Examples of DAEs include dynamical systems with algebraic equations representing conservation laws or approximating fast dynamics. This work introduces a novel identifiability test for models characterized by nonlinear DAEs. Unlike previous approaches, our test only requires prior knowledge of the system equations and does not need nonlinear transformation, index reduction, or numerical integration of the DAEs. We employed our identifiability analysis across a diverse range of DAE models, illustrating how system identifiability depends on the choices of sensors, experimental conditions, and model structures. Given the added challenges involved in identifying DAEs when compared to ODEs, we anticipate that our findings will have broad applicability and contribute significantly to the development and validation of data-driven methods for DAEs and other structure-preserving models.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# 一般化確率論における絡み合いスワッピングと繰り返しCHSHゲーム

Entanglement-swapping in generalised probabilistic theories, and iterated CHSH games ( http://arxiv.org/abs/2405.13819v1 )

ライセンス: Link先を確認
Lionel J. Dmello, Laurens T. Ligthart, David Gross, (参考訳) 量子論よりも「より強い絡み合い」を持つ理論があるが、それらがツィレルソンの有界より上のCHSH値を示すという意味では、そのような理論の既知のすべての例は、厳密に小さな測定セットを持っている。 したがって、二分項状態と測定の両方を必要とするタスクでは、QMよりもパフォーマンスが良くない。 両分割状態と測定の両方を含む最も単純な情報処理タスクの1つは、絡み合いの交換である。 本稿では,一般化確率論(GPT)における絡み合いのスワッピングについて検討する。 特に, GPT のパワーを計測して非古典的相関を保ち, 絡み合いのラウンド数$n$の後に得られる最大のCHSH値を用いて, 繰り返しCHSHゲームを導入する。 我々の主な成果は、任意のラウンド数でCHSH値が4ドルに達するGPTの構築である。 このことは、最近文献で提起されたそのようなゲームに対する量子論の最適性に関する問題に対処する。 この問題に対処する上で直面する課題は、絡み合いスワッピングが適切に定義された操作であるGPTを構築するための一般的な枠組みが存在しないことである。 そこで本研究では,両部GPTを多部GPTに変換するアルゴリズム構成を導入する。

While there exist theories that have states "more strongly entangled" than quantum theory, in the sense that they show CHSH values above Tsirelson's bound, all known examples of such theories have a strictly smaller set of measurements. Therefore, in tasks which require both bipartite states and measurements, they do not perform better than QM. One of the simplest information processing tasks involving both bipartite states and measurements is that of entanglement swapping. In this paper, we study entanglement swapping in generalised probabilistic theories (GPTs). In particular, we introduce the iterated CHSH game, which measures the power of a GPT to preserve non-classical correlations, in terms of the largest CHSH value obtainable after $n$ rounds of entanglement swapping. Our main result is the construction of a GPT that achieves a CHSH value of $4$ after an arbitrary number of rounds. This addresses a question about the optimality of quantum theory for such games recently raised in the literature. One challenge faced when treating this problem is that there seems to be no general framework for constructing GPTs in which entanglement swapping is a well-defined operation. Therefore, we introduce an algorithmic construction that turns a bipartite GPT into a multipartite GPT that supports entanglement swapping, if consistently possible.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# 安全パッチによる大規模言語モデルの包括的かつ効率的な安全アライメントを目指して

Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching ( http://arxiv.org/abs/2405.13820v1 )

ライセンス: Link先を確認
Weixiang Zhao, Yulin Hu, Zhuojun Li, Yang Deng, Yanyan Zhao, Bing Qin, Tat-Seng Chua, (参考訳) 大規模言語モデルの安全性向上 (LLM) が注目されている。 しかし、現在の安全対応LCMは脆弱で不均衡な安全機構に悩まされており、安全でない応答を生成するために誘導され、安全なユーザ入力を拒否することで過度に安全を示し、安全アライメント後の汎用性を維持できない。 そこで本稿では, 安全性向上, 過度な安全性軽減, 実用性保全など, これらの課題に対処するための新しい安全アライメント(PSA)手法を提案する。 具体的には,安全性を高め,過度な安全上の懸念を和らげるために2つの異なる安全パッチを有害データ上に開発し,その利便性を損なうことなく目的のLDMバックボーンにシームレスに統合する,包括的で効率的なPSAのための新しいフレームワークである‘textsc{SafePatching} を紹介する。 大規模な実験により, <textsc{SafePatching} はベースライン法よりも包括的で効率的なPSAを実現することが示された。 バックボーンの実用性も向上し、現在のLCMにおいて有用性と無害性のバランスを最適化する。 また、textsc{SafePatching} は連続的なPSAシナリオにおいてその優位性を示す。

Safety alignment of large language models (LLMs) has been gaining increasing attention. However, current safety-aligned LLMs suffer from the fragile and imbalanced safety mechanisms, which can still be induced to generate unsafe responses, exhibit over-safety by rejecting safe user inputs, and fail to preserve general utility after safety alignment. To this end, we propose a novel post safety alignment (PSA) method to address these inherent and emerging safety challenges, including safety enhancement, over-safety mitigation, and utility preservation. In specific, we introduce \textsc{SafePatching}, a novel framework for comprehensive and efficient PSA, where two distinct safety patches are developed on the harmful data to enhance safety and mitigate over-safety concerns, and then seamlessly integrated into the target LLM backbone without compromising its utility. Extensive experiments show that \textsc{SafePatching} achieves a more comprehensive and efficient PSA than baseline methods. It even enhances the utility of the backbone, further optimizing the balance between being helpful and harmless in current aligned LLMs. Also, \textsc{SafePatching} demonstrates its superiority in continual PSA scenarios.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# GMMFormer v2: 部分的に関連のあるビデオ検索のための不確実性認識フレームワーク

GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval ( http://arxiv.org/abs/2405.13824v1 )

ライセンス: Link先を確認
Yuting Wang, Jinpeng Wang, Bin Chen, Tao Dai, Ruisheng Luo, Shu-Tao Xia, (参考訳) テキストクエリが与えられた場合、部分的関連ビデオ検索(PRVR)は、関連する瞬間を含む未トリミングビデオの検索を目的としている。 モーメントアノテーションが欠如しているため、クリップモデリングとテキストクリップ対応の不確実性は大きな課題に繋がる。 大きな進歩にもかかわらず、既存のソリューションは効率を犠牲にするか、様々な不確実なビデオモーメントをキャプチャする効果を犠牲にする。 さらに悪いことに、このような不確実性の下でテキスト-クリップマッチングパターンに注意を払っているメソッドはほとんどなく、セマンティック崩壊のリスクを露呈している。 これらの問題に対処するため,PRVRのための不確実性対応フレームワークであるGMMFormer v2を提案する。 クリップ・モデリングでは,マルチスケールの文脈的特徴に基づく新しい時間的統合モジュールによる強力なベースラインGMMFormerを改良し,効率を向上し,様々なモーメントに対する知覚を向上させる。 不確実性を認識したテキスト-クリップマッチングを実現するため,GMMFormerにおけるクエリの多彩な損失を改良し,微細なテキスト-クリップアライメントのための新たな最適マッチング損失を提案する。 彼らのコラボレーションは意味的崩壊現象を緩和し、テキストと瞬間の正確な対応を促進する。 我々は,3つのPRVRベンチマークに関する広範な実験とアブレーション研究を行い,従来のSOTAコンペティタと比較してGMMFormer v2の顕著な改善と,PRVR用不確実性対応テキストクリップマッチングの汎用性を実証した。 コードは \url{https://github.com/huangmozhi9527/GMMFormer_v2} で公開されている。

Given a text query, partially relevant video retrieval (PRVR) aims to retrieve untrimmed videos containing relevant moments. Due to the lack of moment annotations, the uncertainty lying in clip modeling and text-clip correspondence leads to major challenges. Despite the great progress, existing solutions either sacrifice efficiency or efficacy to capture varying and uncertain video moments. What's worse, few methods have paid attention to the text-clip matching pattern under such uncertainty, exposing the risk of semantic collapse. To address these issues, we present GMMFormer v2, an uncertainty-aware framework for PRVR. For clip modeling, we improve a strong baseline GMMFormer with a novel temporal consolidation module upon multi-scale contextual features, which maintains efficiency and improves the perception for varying moments. To achieve uncertainty-aware text-clip matching, we upgrade the query diverse loss in GMMFormer to facilitate fine-grained uniformity and propose a novel optimal matching loss for fine-grained text-clip alignment. Their collaboration alleviates the semantic collapse phenomenon and neatly promotes accurate correspondence between texts and moments. We conduct extensive experiments and ablation studies on three PRVR benchmarks, demonstrating remarkable improvement of GMMFormer v2 compared to the past SOTA competitor and the versatility of uncertainty-aware text-clip matching for PRVR. Code is available at \url{https://github.com/huangmozhi9527/GMMFormer_v2}.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# Babysit:Scratchによる言語モデル - 試行錯誤による対話型言語学習

Babysit A Language Model From Scratch: Interactive Language Learning by Trials and Demonstrations ( http://arxiv.org/abs/2405.13828v1 )

ライセンス: Link先を確認
Ziqiao Ma, Zekun Wang, Joyce Chai, (参考訳) 人間は効率的な言語学習者であり、本質的に社会的な生き物である。 私たちの言語開発は、例えば介護者の実演やフィードバックなど、社会的な相互作用によって大きく形作られています。 人間の言語学習とは対照的に、近年の大規模言語モデルの進歩は、主に非対話的な訓練パラダイムを採用し、その後フィードバックを通じて事前訓練されたモデルを洗練してきた。 本研究は,言語モデルの学習効率向上に寄与するか否かを評価するために,ニューラルネットワークの学習を体系的に制御した実験を通じて,インタラクションからの修正的フィードバックがゼロからどのように影響するかを検討することを目的とする。 本稿では,学生の試行,教師のデモンストレーション,および様々な発達段階における言語能力に配慮した報酬という,3つの要素を取り入れたトライアル・アンド・デモレーション(TnD)学習フレームワークを提案する。 実験の結果,TnD手法は,同じパラメータと少ないパラメータの学生モデルの単語獲得を促進し,試行錯誤と実演の両方の重要性を強調した。 さらに,教師の単語選択が生徒の単語固有の学習効率に影響を及ぼし,試験における単語の頻度と学習曲線の相関関係が強く,実践・メイク・パーフェクトの効果が顕著であることを示す。 この結果から,対話型言語学習は,教師による実演や学生の試行を通じて,言語モデルにおける効率的な単語学習を促進することが示唆された。

Humans are efficient language learners and inherently social creatures. Our language development is largely shaped by our social interactions, for example, the demonstration and feedback from caregivers. Contrary to human language learning, recent advancements in large language models have primarily adopted a non-interactive training paradigm, and refined pre-trained models through feedback afterward. In this work, we aim to examine how corrective feedback from interactions influences neural language acquisition from the ground up through systematically controlled experiments, assessing whether it contributes to learning efficiency in language models. We introduce a trial-and-demonstration (TnD) learning framework that incorporates three components: student trials, teacher demonstrations, and a reward conditioned on language competence at various developmental stages. Our experiments reveal that the TnD approach accelerates word acquisition for student models of equal and smaller numbers of parameters, and we highlight the significance of both trials and demonstrations. We further show that the teacher's choices of words influence students' word-specific learning efficiency, and a practice-makes-perfect effect is evident by a strong correlation between the frequency of words in trials and their respective learning curves. Our findings suggest that interactive language learning, with teacher demonstrations and student trials, can facilitate efficient word learning in language models.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# 医療におけるフェデレートラーニング - モデルミスコンダクタンス、セキュリティ、課題、応用、将来研究の方向性-

Federated Learning in Healthcare: Model Misconducts, Security, Challenges, Applications, and Future Research Directions -- A Systematic Review ( http://arxiv.org/abs/2405.13832v1 )

ライセンス: Link先を確認
Md Shahin Ali, Md Manjurul Ahsan, Lamia Tasnim, Sadia Afrin, Koushik Biswas, Md Maruf Hossain, Md Mahfuz Ahmed, Ronok Hashan, Md Khairul Islam, Shivakumar Raman, (参考訳) データプライバシは、医療記録のデジタル化とデータ駆動型医療研究の増加により、医療において大きな関心事となっている。 センシティブな患者情報を侵害や不正アクセスから保護することは重要であり、そのような事件は厳しい法的、倫理的合併症を引き起こす可能性がある。 フェデレートラーニング(FL)は、複数の医療機関が共有することなく、分散データから共同で学習できるようにすることによって、この問題に対処する。 FLの医療分野は、疾患予測、治療のカスタマイズ、臨床試験研究などの分野をカバーしている。 しかし、FLの実装は、非IID(独立で同一の分散)データ環境におけるモデル収束、通信オーバーヘッド、複数機関の協調管理といった課題を提起する。 医療におけるFLの体系的レビューは、医療データ分析の完全性とユーザビリティを維持しつつ、FLがいかに効果的にプライバシを提供するかを評価するために必要である。 本研究では,医療におけるFL適用に関する既存の文献を分析した。 モデルセキュリティプラクティスの現状を探求し、課題を特定し、実践的なアプリケーションとその意味について論じる。 さらに、このレビューでは、FLの実装を洗練し、データセキュリティプロトコルを拡張し、FLの使用をより広範な医療アプリケーションに拡大する将来的な研究の方向性を強調している。

Data privacy has become a major concern in healthcare due to the increasing digitization of medical records and data-driven medical research. Protecting sensitive patient information from breaches and unauthorized access is critical, as such incidents can have severe legal and ethical complications. Federated Learning (FL) addresses this concern by enabling multiple healthcare institutions to collaboratively learn from decentralized data without sharing it. FL's scope in healthcare covers areas such as disease prediction, treatment customization, and clinical trial research. However, implementing FL poses challenges, including model convergence in non-IID (independent and identically distributed) data environments, communication overhead, and managing multi-institutional collaborations. A systematic review of FL in healthcare is necessary to evaluate how effectively FL can provide privacy while maintaining the integrity and usability of medical data analysis. In this study, we analyze existing literature on FL applications in healthcare. We explore the current state of model security practices, identify prevalent challenges, and discuss practical applications and their implications. Additionally, the review highlights promising future research directions to refine FL implementations, enhance data security protocols, and expand FL's use to broader healthcare applications, which will benefit future researchers and practitioners.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# ニワトリ胚死亡予測のためのハイパースペクトル画像再構成 : 卵・ハッチリー産業の育成に向けて

Hyperspectral Image Reconstruction for Predicting Chick Embryo Mortality Towards Advancing Egg and Hatchery Industry ( http://arxiv.org/abs/2405.13843v1 )

ライセンス: Link先を確認
Md. Toukir Ahmed, Md Wadud Ahmed, Ocean Monjur, Jason Lee Emmert, Girish Chowdhary, Mohammed Kamruzzaman, (参考訳) 食料需要が急増し、農業部門が持続可能性や効率に転換するにつれて、家畜の健康と福祉が最重要となるための正確かつ積極的な措置の必要性が高まっている。 概説された広い農業景観の文脈において、ハイパースペクトルイメージング(HSI)の応用は極めて重要である。 HSIは、ニワトリ胚の死亡率の検出を含む、高速で正確な卵品質分析のための最先端で非破壊的な技術として登場した。 しかし、従来のRGB画像と比較すると、コストと運用上の複雑さは、HSI技術の普及において重大なボトルネックとなっている。 これらのハードルを克服し、HSIの潜在能力を最大限に活用するために、期待できる解決策は標準RGB画像からのハイパースペクトル画像再構成である。 本研究の目的は, ニワトリ胚死亡の非破壊的早期予測のために, RGB画像から高スペクトル像を再構成することである。 まず, HRNET, MST++, Restormer, EDSRなどの異なる画像再構成アルゴリズムの性能を比較し, 初期卵子のハイパースペクトル像の再構成を行った。 その後、XGBoost法とランダムフォレスト分類法を用いて、復元されたスペクトルを用いて死んだニワトリの卵を区別した。 再建法のうちHRNETは、MRAE 0.0955、RMSE 0.0159、PSNR 36.79 dBで印象的な復元性能を示した。 この研究は、スマートセンサとデータ分析を統合したイメージング技術を活用することで、自動化を改善し、バイオセキュリティを強化し、持続可能な農業4.0に向けた資源管理を最適化する可能性があることを動機付けている。

As the demand for food surges and the agricultural sector undergoes a transformative shift towards sustainability and efficiency, the need for precise and proactive measures to ensure the health and welfare of livestock becomes paramount. In the context of the broader agricultural landscape outlined, the application of Hyperspectral Imaging (HSI) takes on profound significance. HSI has emerged as a cutting-edge, non-destructive technique for fast and accurate egg quality analysis, including the detection of chick embryo mortality. However, the high cost and operational complexity compared to conventional RGB imaging are significant bottlenecks in the widespread adoption of HSI technology. To overcome these hurdles and unlock the full potential of HSI, a promising solution is hyperspectral image reconstruction from standard RGB images. This study aims to reconstruct hyperspectral images from RGB images for non-destructive early prediction of chick embryo mortality. Firstly, the performance of different image reconstruction algorithms, such as HRNET, MST++, Restormer, and EDSR were compared to reconstruct the hyperspectral images of the eggs in the early incubation period. Later, the reconstructed spectra were used to differentiate live from dead chick-producing eggs using the XGBoost and Random Forest classification methods. Among the reconstruction methods, HRNET showed impressive reconstruction performance with MRAE of 0.0955, RMSE of 0.0159, and PSNR of 36.79 dB. This study motivated that harnessing imaging technology integrated with smart sensors and data analytics has the potential to improve automation, enhance biosecurity, and optimize resource management towards sustainable agriculture 4.0.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# 複合サイクルによる因果推論

Causal Inference with Cocycles ( http://arxiv.org/abs/2405.13844v1 )

ライセンス: Link先を確認
Hugh Dance, Benjamin Bloem-Reddy, (参考訳) 因果推論における多くの介入は変換として表すことができる。 このような介入の下で、大規模な因果モデルによって満たされる局所対称性特性を同定する。 現時点において、この対称性は、力学系理論の中心となる対象であるコサイクルと呼ばれる写像によって特徴づけられる。 このようなコサイクルは一般的な条件下で存在し、介入や反事実の分布を特定するのに十分であることを示す。 これらの結果を用いて, 因果推定のためのコサイクル式推定器を導出し, 典型的な条件下での半パラメトリック効率を示す。 多くの(無限に)分布は同じ共サイクルを共有できるので、これらの推定子は過水性モデリングの仮定をサイドステッピングすることによって、因果推論を誤特定に頑健にする。 本手法は, 実データを用いた資産蓄積に対する401(k)年金計画の適性評価に有効である。

Many interventions in causal inference can be represented as transformations. We identify a local symmetry property satisfied by a large class of causal models under such interventions. Where present, this symmetry can be characterized by a type of map called a cocycle, an object that is central to dynamical systems theory. We show that such cocycles exist under general conditions and are sufficient to identify interventional and counterfactual distributions. We use these results to derive cocycle-based estimators for causal estimands and show they achieve semiparametric efficiency under typical conditions. Since (infinitely) many distributions can share the same cocycle, these estimators make causal inference robust to mis-specification by sidestepping superfluous modelling assumptions. We demonstrate both robustness and state-of-the-art performance in several simulations, and apply our method to estimate the effects of 401(k) pension plan eligibility on asset accumulation using a real dataset.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# 意味密度:大規模言語モデルにおける意味空間の不確かさの定量化

Semantic Density: Uncertainty Quantification in Semantic Space for Large Language Models ( http://arxiv.org/abs/2405.13845v1 )

ライセンス: Link先を確認
Xin Qiu, Risto Miikkulainen, (参考訳) 大規模言語モデル(LLM)が様々な領域に広く適用されたことにより、安全上重要なシナリオにおけるLLMの信頼性に関する懸念が高まっている。 既存のLCMには、ユーザが生成するレスポンスごとに不確実なメトリックを提供する固有の機能がないため、信頼性を評価することは困難である。 LLMの不確実性定量化法の開発を目的としている研究は数多くあるが、それらは分類タスクに制限されていること、追加のトレーニングとデータを必要とすること、意味情報の代わりに語彙のみを考慮すること、即時的だが応答的ではないこと、といった基本的な制限がある。 本稿では,これらの課題に対処する新しい枠組みを提案する。 意味密度は、意味空間における確率分布の観点から各応答の不確かさ情報を抽出する。 タスクタイプに制限はなく、新しいモデルやタスクの“既定”である。 最新のLlama 3 と Mixtral-8x22B モデルを含む7つの最先端 LLM に対する4つの自由形式の質問応答ベンチマーク実験は、従来のアプローチと比較してセマンティック密度の優れた性能とロバスト性を示している。

With the widespread application of Large Language Models (LLMs) to various domains, concerns regarding the trustworthiness of LLMs in safety-critical scenarios have been raised, due to their unpredictable tendency to hallucinate and generate misinformation. Existing LLMs do not have an inherent functionality to provide the users with an uncertainty metric for each response it generates, making it difficult to evaluate trustworthiness. Although a number of works aim to develop uncertainty quantification methods for LLMs, they have fundamental limitations, such as being restricted to classification tasks, requiring additional training and data, considering only lexical instead of semantic information, and being prompt-wise but not response-wise. A new framework is proposed in this paper to address these issues. Semantic density extracts uncertainty information for each response from a probability distribution perspective in semantic space. It has no restriction on task types and is "off-the-shelf" for new models and tasks. Experiments on seven state-of-the-art LLMs, including the latest Llama 3 and Mixtral-8x22B models, on four free-form question-answering benchmarks demonstrate the superior performance and robustness of semantic density compared to prior approaches.
翻訳日:2024-05-24 23:05:13 公開日:2024-05-22
# 回帰木は計算を知っている

Regression Trees Know Calculus ( http://arxiv.org/abs/2405.13846v1 )

ライセンス: Link先を確認
Nathan Wycoff, (参考訳) 回帰木は、非線形性、相互作用効果、鋭い不連続性に対処する能力のために、現実世界の回帰問題を解くための卓越したツールとして登場した。 本稿では,よく定義された微分可能な関数に適用された回帰木について検討し,ノードパラメータと近似される関数の局所勾配との関係について検討する。 一般的な木学習ライブラリが公開する量を用いて効率的に計算できる勾配の簡単な推定値を求める。 これにより、ニューラルネットやガウシアンプロセスといった、微分可能なアルゴリズムのコンテキストで開発されたツールを、ツリーベースのモデルにデプロイすることができる。 そこで本研究では,勾配の積分で定義されるモデル感度の測定値について検討し,提案した勾配推定値を用いて回帰木に対するモデル感度の計算方法を示す。 定量的および定性的な数値実験は、回帰木によって推定される勾配の能力を明らかにし、予測分析を改善し、不確実な定量化のタスクを解決し、モデル行動の解釈を提供する。

Regression trees have emerged as a preeminent tool for solving real-world regression problems due to their ability to deal with nonlinearities, interaction effects and sharp discontinuities. In this article, we rather study regression trees applied to well-behaved, differentiable functions, and determine the relationship between node parameters and the local gradient of the function being approximated. We find a simple estimate of the gradient which can be efficiently computed using quantities exposed by popular tree learning libraries. This allows the tools developed in the context of differentiable algorithms, like neural nets and Gaussian processes, to be deployed to tree-based models. To demonstrate this, we study measures of model sensitivity defined in terms of integrals of gradients and demonstrate how to compute them for regression trees using the proposed gradient estimates. Quantitative and qualitative numerical experiments reveal the capability of gradients estimated by regression trees to improve predictive analysis, solve tasks in uncertainty quantification, and provide interpretation of model behavior.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# AIが監視するブロックチェーンベースのIoT環境 - ネットワークセキュリティとプライバシの未来を損なう

AI-Protected Blockchain-based IoT environments: Harnessing the Future of Network Security and Privacy ( http://arxiv.org/abs/2405.13847v1 )

ライセンス: Link先を確認
Ali Mohammadi Ruzbahani, (参考訳) ブロックチェーン技術をモノのインターネットと統合することは、接続デバイスと拡張ネットワークがユビキタスである現代のデジタルランドスケープにおいて、ネットワークセキュリティとプライバシを強化するための変革的な可能性を提供します。 本稿では,ブロックチェーン対応IoTシステムにおいて,人工知能が果たす重要な役割について考察する。 ブロックチェーン技術は、IoTネットワークにおけるデバイスIDとトランザクションのセキュアな管理に理想的な、分散型で不変な台帳を提供する。 AIと組み合わせると、これらのシステムはセキュリティプロトコルの自動化と最適化だけでなく、新しく進化するサイバー脅威に適応的に対応できる。 この二重機能により、サイバー攻撃に対するネットワークのレジリエンスが向上する。 AIとIoTにおけるブロックチェーンの相乗効果は極めて重要である。 AIアルゴリズムは、IoTデバイスから大量のデータを分析して、セキュリティ侵害を示す可能性のあるパターンや異常を検出する。 同時にブロックチェーンは、データレコードの改ざんを確実にし、AIによるセキュリティ対策の信頼性を高める。 さらに、この研究は、IoTネットワーク内のプライバシ保護に対するAI強化ブロックチェーンシステムの影響を評価する。 IoTデバイスは機密性の高い個人情報を収集し、プライバシを最も懸念する。 AIは、IoTシステムの機能を損なうことなく、データのプライバシとユーザの匿名性を保証する新しいプロトコルの開発を容易にすることができる。 本稿では、包括的な分析とケーススタディを通じて、AIによって強化されたブロックチェーン技術がIoT環境におけるネットワークセキュリティとプライバシに革命をもたらす方法について、詳細な理解を提供することを目的とする。

Integrating blockchain technology with the Internet of Things offers transformative possibilities for enhancing network security and privacy in the contemporary digital landscape, where interconnected devices and expansive networks are ubiquitous. This paper explores the pivotal role of artificial intelligence in bolstering blockchain-enabled IoT systems, potentially marking a significant leap forward in safeguarding data integrity and confidentiality across networks. Blockchain technology provides a decentralized and immutable ledger, ideal for the secure management of device identities and transactions in IoT networks. When coupled with AI, these systems gain the ability to not only automate and optimize security protocols but also adaptively respond to new and evolving cyber threats. This dual capability enhances the resilience of networks against cyber-attacks, a critical consideration as IoT devices increasingly permeate critical infrastructures. The synergy between AI and blockchain in IoT is profound. AI algorithms can analyze vast amounts of data from IoT devices to detect patterns and anomalies that may signify security breaches. Concurrently, blockchain can ensure that data records are tamper-proof, enhancing the reliability of AI-driven security measures. Moreover, this research evaluates the implications of AI-enhanced blockchain systems on privacy protection within IoT networks. IoT devices often collect sensitive personal data, making privacy a paramount concern. AI can facilitate the development of new protocols that ensure data privacy and user anonymity without compromising the functionality of IoT systems. Through comprehensive analysis and case studies, this paper aims to provide an in-depth understanding of how AI-enhanced blockchain technology can revolutionize network security and privacy in IoT environments.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# 状態表現学習における最大多様体容量表現

Maximum Manifold Capacity Representations in State Representation Learning ( http://arxiv.org/abs/2405.13848v1 )

ライセンス: Link先を確認
Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad, (参考訳) 多様体に基づく自己教師付き学習(SSL)の研究は、高次元データの固有の複雑さを低次元の多様体埋め込みによって解き放つことを示唆する多様体仮説に基づいている。 これに乗じて、DeepInfomaxは非平衡アトラス(DIM-UA)が強力なツールとして登場し、強化学習における状態表現に対する印象的な結果を得た。 一方、最大マニフォールド容量表現(MMCR)は、多様体圧縮によるクラス分離性を最適化することにより、SSLの新しいフロンティアを提示する。 しかし、MMCRは広範な入力ビューを必要とするため、計算コストが大きくなり、事前学習期間が短縮される。 このギャップを埋めて既存のSSLメソッドにMMCRを革新的に統合し、相互情報の低境界性を高めるための識別正規化戦略を導入する。 また,DIM-UAを拡張した新しい状態表現学習手法を提案する。 Atari Annotated RAM Interface を用いた実験では,DIM-UA を目標符号化次元と同じ数で大幅に改善する。 カテゴリー平均F1スコアは、DIM-UAの75%に比べて78%である。 SimCLRとBarlow Twinsを実装する際にも、魅力的な利益がある。 これはSSLのイノベーションをパラダイムシフトとしてサポートし、よりニュアンスな高次元データ表現を可能にします。

The expanding research on manifold-based self-supervised learning (SSL) builds on the manifold hypothesis, which suggests that the inherent complexity of high-dimensional data can be unraveled through lower-dimensional manifold embeddings. Capitalizing on this, DeepInfomax with an unbalanced atlas (DIM-UA) has emerged as a powerful tool and yielded impressive results for state representations in reinforcement learning. Meanwhile, Maximum Manifold Capacity Representation (MMCR) presents a new frontier for SSL by optimizing class separability via manifold compression. However, MMCR demands extensive input views, resulting in significant computational costs and protracted pre-training durations. Bridging this gap, we present an innovative integration of MMCR into existing SSL methods, incorporating a discerning regularization strategy that enhances the lower bound of mutual information. We also propose a novel state representation learning method extending DIM-UA, embedding a nuclear norm loss to enforce manifold consistency robustly. On experimentation with the Atari Annotated RAM Interface, our method improves DIM-UA significantly with the same number of target encoding dimensions. The mean F1 score averaged over categories is 78% compared to 75% of DIM-UA. There are also compelling gains when implementing SimCLR and Barlow Twins. This supports our SSL innovation as a paradigm shift, enabling more nuanced high-dimensional data representations.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# 格子同変ニューラルネットワークによる流体力学の格子速度論的スキームの強化

Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks ( http://arxiv.org/abs/2405.13850v1 )

ライセンス: Link先を確認
Giulio Ortali, Alessandro Gabbana, Imre Atmodimedjo, Alessandro Corbetta, (参考訳) そこで我々は格子構造の局所対称性を満たすために,Lattice-Equivariant Neural Networks (LENNs) と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。 我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。 物理系をモデル化するためにニューラルネットワークを用いる場合、対称性と等値性は精度、数値安定性、性能のキーとなることが示されている。 ここでは、群表現論の考えに基づいて、格子セルの対称性に関して代数構造が同変である訓練可能な層を定義する。 本手法は,メモリ使用量と計算コストの両面で効率的な実装が可能であり,対称性群のサイズが大きくなるにつれて,2次元以上の格子に対するスケーラブルなトレーニング/テストをサポートする。 我々は,2次元および3次元流れの力学を考慮に入れたアプローチを,層流と乱流の双方で検証し,検証した。 我々は,グループ平均型対称ネットワークと非対称型非対称型ネットワークを比較し,従来のモデルの精度と訓練安定性の解き放つ方法と,後者のネットワークの列車/推論速度(LENNは3Dにおけるグループ平均型ネットワークよりも約1桁高速である)を示す。 本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。

We present a new class of equivariant neural networks, hereby dubbed Lattice-Equivariant Neural Networks (LENNs), designed to satisfy local symmetries of a lattice structure. Our approach develops within a recently introduced framework aimed at learning neural network-based surrogate models Lattice Boltzmann collision operators. Whenever neural networks are employed to model physical systems, respecting symmetries and equivariance properties has been shown to be key for accuracy, numerical stability, and performance. Here, hinging on ideas from group representation theory, we define trainable layers whose algebraic structure is equivariant with respect to the symmetries of the lattice cell. Our method naturally allows for efficient implementations, both in terms of memory usage and computational costs, supporting scalable training/testing for lattices in two spatial dimensions and higher, as the size of symmetry group grows. We validate and test our approach considering 2D and 3D flowing dynamics, both in laminar and turbulent regimes. We compare with group averaged-based symmetric networks and with plain, non-symmetric, networks, showing how our approach unlocks the (a-posteriori) accuracy and training stability of the former models, and the train/inference speed of the latter networks (LENNs are about one order of magnitude faster than group-averaged networks in 3D). Our work opens towards practical utilization of machine learning-augmented Lattice Boltzmann CFD in real-world simulations.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# イオン鎖交感神経冷却とゲートダイナミクスの解析

Analysis of ion chain sympathetic cooling and gate dynamics ( http://arxiv.org/abs/2405.13851v1 )

ライセンス: Link先を確認
Aditya Paul, Crystal Noel, (参考訳) 交感冷却は、しばしば閉じ込められたイオン量子コンピュータの運動加熱を緩和するために用いられる技法である。 しかし, 最適ゲート性能のための冷却剤数や冷却デューティサイクルなどのシステムパラメータの選択には, 動作誤差と, クビット劣化などの他の遅いエラーとのトレードオフを評価する必要がある。 最適パラメータは、特定の系の冷却電力、加熱速度、イオン間隔に依存する。 本研究では, 閉じ込められたイオンの長い鎖の同調冷却に関するベストプラクティスを, 解析的および計算的手法を用いて解析することを目的とする。 本研究では, チェーンの中心に冷却剤を配置した場合に最適冷却性能が得られ, 特定の冷却パラメータのセットが与えられたモードの冷却限界に摂動的上界を与える場合の最適冷却性能を示すケーススタディを用いた。 さらに, 計算ツールを用いて, チェーン内の冷却剤イオン数と中心質量モード加熱率とのトレードオフを解析した。 また、キュービットコヒーレンス時間が長い場合、回路を動作させる場合の冷却が最適であることを示す。 これらの結果は、長鎖のイオンを用いたトラップイオン量子コンピュータの回路性能を最大化するために、共振冷却パラメータを選択するためのロードマップを提供する。

Sympathetic cooling is a technique often employed to mitigate motional heating in trapped-ion quantum computers. However, choosing system parameters such as number of coolants and cooling duty cycle for optimal gate performance requires evaluating trade-offs between motional errors and other slower errors such as qubit dephasing. The optimal parameters depend on cooling power, heating rate, and ion spacing in a particular system. In this study, we aim to analyze best practices for sympathetic cooling of long chains of trapped ions using analytical and computational methods. We use a case study to show that optimal cooling performance is achieved when coolants are placed at the center of the chain and provide a perturbative upper-bound on the cooling limit of a mode given a particular set of cooling parameters. In addition, using computational tools, we analyze the trade-off between the number of coolant ions in a chain and the center-of-mass mode heating rate. We also show that cooling as often as possible when running a circuit is optimal when the qubit coherence time is otherwise long. These results provide a roadmap for how to choose sympathetic cooling parameters to maximize circuit performance in trapped ion quantum computers using long chains of ions.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# プログラミング言語の知識単位による長期的コントリビュータの予測--実証的研究

Predicting long time contributors with knowledge units of programming languages: an empirical study ( http://arxiv.org/abs/2405.13852v1 )

ライセンス: Link先を確認
Md Ahasanuzzaman, Gustavo A. Oliva, Ahmed E. Hassan, (参考訳) 潜在的長期貢献者(LTC)を早期に予測することで、プロジェクトメンテナーはリソースやメンタリングを効果的に割り当てて、開発と維持を強化することができる。 プログラミング言語の専門知識を開発者にマッピングし、プログラミング言語の使い方を特徴付けることは、LCCになりやすい開発者を特定するのに役立つ。 しかし、LCCの予測に関する先行研究では、プログラミング言語のスキルは考慮されていない。 本稿では,LTCを予測するために,Javaプログラミング言語の知識単位(KU)の使用に関する実証的研究を報告する。 KUは、あるプログラミング言語の1つ以上のビルディングブロックによって提供される重要な機能の集合である。 我々は、KULTCと呼ばれる予測モデルを構築し、KUベースの特徴を5つの異なる次元に沿って活用する。 我々は、調査対象の75のJavaプロジェクト(353Kコミットと168Kプルリクエスト)と、調査対象の開発者が以前作業した4,219のJavaプロジェクト(1.7Mコミット)から、KUを検出し、分析した。 我々はKULTCの性能をBAOLTCと呼ぶ最先端モデルと比較する。 KULTCはプログラミング言語の観点にのみ焦点を絞っているが、KULTCは最低でも0.75の中央値AUCを達成し、BAOLTCを大きく上回っている。 KULTCの特徴とBAOLTCの特徴を組み合わせることで、改良されたモデル(KULTC+BAOLTC)がBAOLTCを大きく上回り、通常のAUCの改善は16.5%となった。 SHAPによる特徴重要度分析により,研究プロジェクトにおける開発者の専門知識がLCCの予測に最も影響を及ぼすことが明らかとなった。 最後に,BAOLTCを著しく上回る費用対効果モデル(KULTC_DEV_EXP+BAOLTC)を開発した。 これらの奨励的な結果は、FLOSSプロジェクトへの開発者の関与と維持、あるいはLCCを予測するためのモデルの構築について、さらなる研究を望む研究者に役立ちます。

Predicting potential long-time contributors (LTCs) early allows project maintainers to effectively allocate resources and mentoring to enhance their development and retention. Mapping programming language expertise to developers and characterizing projects in terms of how they use programming languages can help identify developers who are more likely to become LTCs. However, prior studies on predicting LTCs do not consider programming language skills. This paper reports an empirical study on the usage of knowledge units (KUs) of the Java programming language to predict LTCs. A KU is a cohesive set of key capabilities that are offered by one or more building blocks of a given programming language. We build a prediction model called KULTC, which leverages KU-based features along five different dimensions. We detect and analyze KUs from the studied 75 Java projects (353K commits and 168K pull requests) as well as 4,219 other Java projects in which the studied developers previously worked (1.7M commits). We compare the performance of KULTC with the state-of-the-art model, which we call BAOLTC. Even though KULTC focuses exclusively on the programming language perspective, KULTC achieves a median AUC of at least 0.75 and significantly outperforms BAOLTC. Combining the features of KULTC with the features of BAOLTC results in an enhanced model (KULTC+BAOLTC) that significantly outperforms BAOLTC with a normalized AUC improvement of 16.5%. Our feature importance analysis with SHAP reveals that developer expertise in the studied project is the most influential feature dimension for predicting LTCs. Finally, we develop a cost-effective model (KULTC_DEV_EXP+BAOLTC) that significantly outperforms BAOLTC. These encouraging results can be helpful to researchers who wish to further study the developers' engagement/retention to FLOSS projects or build models for predicting LTCs.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# 畳み込みリカレントニューラルネットワークの臨界点近傍におけるダイナミクスについて

On the dynamics of convolutional recurrent neural networks near their critical point ( http://arxiv.org/abs/2405.13854v1 )

ライセンス: Link先を確認
Aditi Chandra, Marcelo O. Magnasco, (参考訳) 入力の小さな値と畳み込みカーネルがユニタリである場合、スムーズなシグモダル活性化関数を持つ単一層畳み込み再帰ネットワークの動的特性について検討する。 出力は立方根のような圧縮非線形性による入力に依存し、緩和の時間スケールと信号伝搬の時間スケールは、入力が0に発散するのに対して、入力に敏感に依存する。 基本的な力学のメカニズムは、ネットワークへの入力が進行中のアクティビティを発生させ、それによって追加の入力や信号が空間的に伝播するか、時間とともに減衰するかを制御することである。 本研究では,ネットワークが単一発振で強制され,背景値が進行する活動の定常状態を生成する場合の定常状態に対する解析解を示し,その背景値の関数として時間減衰と空間伝播長の値を形成する関係を導出する。

We examine the dynamical properties of a single-layer convolutional recurrent network with a smooth sigmoidal activation function, for small values of the inputs and when the convolution kernel is unitary, so all eigenvalues lie exactly at the unit circle. Such networks have a variety of hallmark properties: the outputs depend on the inputs via compressive nonlinearities such as cubic roots, and both the timescales of relaxation and the length-scales of signal propagation depend sensitively on the inputs as power laws, both diverging as the input to 0. The basic dynamical mechanism is that inputs to the network generate ongoing activity, which in turn controls how additional inputs or signals propagate spatially or attenuate in time. We present analytical solutions for the steady states when the network is forced with a single oscillation and when a background value creates a steady state of ongoing activity, and derive the relationships shaping the value of the temporal decay and spatial propagation length as a function of this background value.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# プライバシーは消費者に何をもたらすのか?

What Do Privacy Advertisements Communicate to Consumers? ( http://arxiv.org/abs/2405.13857v1 )

ライセンス: Link先を確認
Xiaoxin Shen, Eman Alashwali, Lorrie Faith Cranor, (参考訳) 企業がプライバシプラクティスの促進や特定のプライバシ機能の強調を目的としたマーケティング資料をリリースするとき、消費者に実際に何を伝えるのか? 本稿では,(1)キャンペーン提供団体に対する消費者の態度,(2)全体的なプライバシ意識,(3)提案するプライバシアドバイスの行動可能性について考察する。 この目的のために,5つのテクノロジ企業が公開する4つのプライバシ広告ビデオと1つのプライバシゲームの影響を調査した。 ランダムに割り当てられた参加者と24回の半構造化インタビューを行い、ビデオの1つか2つを見たり、ゲームをプレイしたりした。 以上の結果から,プライバシ機能に対する意識は,企業や製品に対する肯定的な認識に寄与する可能性が示唆された。 テストした広告は、テストしたゲームよりも、広告されたプライバシー機能のコミュニケーションに成功しました。 短い広告で1つのメタファーを使って1つのプライバシー機能を広告することは、広告された機能に対する認識を増大させる。 このゲームは、プライバシー機能を伝えることや、参加者にこの機能の使用を動機づけることに失敗した。 われわれの結果は、プライバシーキャンペーンはプライバシー機能に対する意識を高め、ブランドイメージを改善するのにも役立つが、視聴者にプライバシー機能の使用方法を教える最も効果的な方法ではないことを示唆している。

When companies release marketing materials aimed at promoting their privacy practices or highlighting specific privacy features, what do they actually communicate to consumers? In this paper, we explore the impact of privacy marketing materials on: (1) consumers' attitude towards the organizations providing the campaigns, (2) overall privacy awareness, and (3) the actionability of suggested privacy advice. To this end, we investigated the impact of four privacy advertising videos and one privacy game published by five different technology companies. We conducted 24 semi-structured interviews with participants randomly assigned to view one or two of the videos or play the game. Our findings suggest that awareness of privacy features can contribute to positive perceptions of a company or its products. The ads we tested were more successful in communicating the advertised privacy features than the game we tested. We observed that advertising a single privacy feature using a single metaphor in a short ad increased awareness of the advertised feature. The game failed to communicate privacy features or motivate study participants to use the features. Our results also suggest that privacy campaigns can be useful for raising awareness about privacy features and improving brand image, but may not be the most effective way to teach viewers how to use privacy features.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# Carbon Connect: 持続可能なコンピューティングのためのエコシステム

Carbon Connect: An Ecosystem for Sustainable Computing ( http://arxiv.org/abs/2405.13858v1 )

ライセンス: Link先を確認
Benjamin C. Lee, David Brooks, Arthur van Benthem, Udit Gupta, Gage Hills, Vincent Liu, Benjamin Pierce, Christopher Stewart, Emma Strubell, Gu-Yeon Wei, Adam Wierman, Yuan Yao, Minlan Yu, (参考訳) コンピューティングは、大きなチャンスの瞬間です。 有能な人工知能、没入型バーチャルリアリティ、広汎なセンサーシステムといった新興のアプリケーションは、コンピュータに対する前例のない需要を押し上げている。 近年の炭素排出量ゼロへの進歩にもかかわらず、コンピュータ産業の総エネルギー使用量は、新しいエネルギー施設の成長と再生可能エネルギーの展開を上回り、急激なペースで増加を続けている。 持続可能性へのシフトは、コンピュータシステムの製造、割り当て、消費の方法に変革をもたらすために必要である。 Carbon Connectは、持続可能な次世代コンピュータシステムの設計と管理戦略を生み出す、協調した研究スラストを構想している。 これらの戦略は、人工知能や仮想空間のような社会で最も急速に成長するアプリケーションのために、計算能力と炭素のための成長軌道をフラット化し、逆転させなければならない。 我々は、計算技術における炭素会計の正確なモデルを必要とします。 カーボンを具現化するためには、オーバープロビジョンのモノリシックサーバ、頻繁なハードウェアリフレッシュサイクル、カスタムシリコンといった従来の設計戦略を再考し、大規模ハードウェアをより効果的に削減、再利用、リサイクルするライフサイクルデザイン戦略を採用しなければなりません。 運転用炭素では、再生可能エネルギーを取り入れるだけでなく、そのエネルギーをより効率的に利用するためのシステムも設計しなければなりません。 最後に、新しいハードウェア設計と管理戦略は、経済政策と規制の状況を認識し、民間のイニシアチブと社会的目標を一致させなければならない。 これらのより広い目標の多くは、コンピュータ科学者がより広範な実践に変化をもたらすために、経済学、法学、産業生態学の研究者と深い永続的なコラボレーションを開発する必要がある。

Computing is at a moment of profound opportunity. Emerging applications -- such as capable artificial intelligence, immersive virtual realities, and pervasive sensor systems -- drive unprecedented demand for computer. Despite recent advances toward net zero carbon emissions, the computing industry's gross energy usage continues to rise at an alarming rate, outpacing the growth of new energy installations and renewable energy deployments. A shift towards sustainability is needed to spark a transformation in how computer systems are manufactured, allocated, and consumed. Carbon Connect envisions coordinated research thrusts that produce design and management strategies for sustainable, next-generation computer systems. These strategies must flatten and then reverse growth trajectories for computing power and carbon for society's most rapidly growing applications such as artificial intelligence and virtual spaces. We will require accurate models for carbon accounting in computing technology. For embodied carbon, we must re-think conventional design strategies -- over-provisioned monolithic servers, frequent hardware refresh cycles, custom silicon -- and adopt life-cycle design strategies that more effectively reduce, reuse and recycle hardware at scale. For operational carbon, we must not only embrace renewable energy but also design systems to use that energy more efficiently. Finally, new hardware design and management strategies must be cognizant of economic policy and regulatory landscape, aligning private initiatives with societal goals. Many of these broader goals will require computer scientists to develop deep, enduring collaborations with researchers in economics, law, and industrial ecology to spark change in broader practice.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# QGait:二元化入力による歩行認識のための正確な量子化を目指して

QGait: Toward Accurate Quantization for Gait Recognition with Binarized Input ( http://arxiv.org/abs/2405.13859v1 )

ライセンス: Link先を確認
Senmao Tian, Haoyu Gao, Gangyi Hong, Shuyun Wang, JingJie Wang, Xin Yu, Shunli Zhang, (参考訳) 既存のディープラーニング手法は歩行認識に大きな進歩をもたらした。 通常、外見に基づくモデルは入力をシルエットシーケンスにバイナライズする。 しかし、主流の量子化手法は、二項化入力による歩行認識に有害な量子化誤差よりもタスク損失の最小化を優先する。 シルエット配列の小さな変動は、量子化エラーの蓄積により、ネットワークの中間層で減少することができる。 そこで本研究では,バックプロパゲーション時の円関数の勾配をよりよくシミュレートする,微分可能なソフト量子化器を提案する。 これにより、ネットワークは微妙な入力摂動から学習することができる。 しかし、我々の理論的解析と実証研究により、ソフト量子化器を直接適用することで、ネットワーク収束を阻害できることが明らかとなった。 量子化エラーをシミュレートしながら収束を確保するためのトレーニング戦略をさらに洗練する。 さらに,特徴空間内の異なるサンプルからの出力の分布を可視化し,性能を損なう全精度ネットワークと比較して大きな変化を観測する。 そこで本研究では,異なるラベルを持つ試料の埋込み距離を抑えるため,クラス間距離誘導蒸留(IDD)戦略を提案する。 広範囲にわたる実験により、我々のアプローチの有効性が検証され、さまざまな設定やデータセットにわたる最先端の精度が実証された。 コードは公開されます。

Existing deep learning methods have made significant progress in gait recognition. Typically, appearance-based models binarize inputs into silhouette sequences. However, mainstream quantization methods prioritize minimizing task loss over quantization error, which is detrimental to gait recognition with binarized inputs. Minor variations in silhouette sequences can be diminished in the network's intermediate layers due to the accumulation of quantization errors. To address this, we propose a differentiable soft quantizer, which better simulates the gradient of the round function during backpropagation. This enables the network to learn from subtle input perturbations. However, our theoretical analysis and empirical studies reveal that directly applying the soft quantizer can hinder network convergence. We further refine the training strategy to ensure convergence while simulating quantization errors. Additionally, we visualize the distribution of outputs from different samples in the feature space and observe significant changes compared to the full precision network, which harms performance. Based on this, we propose an Inter-class Distance-guided Distillation (IDD) strategy to preserve the relative distance between the embeddings of samples with different labels. Extensive experiments validate the effectiveness of our approach, demonstrating state-of-the-art accuracy across various settings and datasets. The code will be made publicly available.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# MAGIC:Map-Guided Few-Shot Audio-Visual Acoustics Modeling

MAGIC: Map-Guided Few-Shot Audio-Visual Acoustics Modeling ( http://arxiv.org/abs/2405.13860v1 )

ライセンス: Link先を確認
Diwei Huang, Kunyang Lin, Peihao Chen, Qing Du, Mingkui Tan, (参考訳) 音声・視覚音響のモデリングは、任意の場所における部屋のインパルス応答を、ほとんどショットの観測で合成しようと試みている。 得られた少数ショットデータを精度の高い音響モデルに十分に活用するために,シーンの音響関連視覚的意味特徴マップを構築することで,*map-guided*フレームワークを提案する。 視覚的特徴は、音と地図に関する意味的詳細を保存し、環境音響をモデル化するのに有用な、音の伝搬の明確な構造的規則性を提供する。 そこで我々は、観測から得られた画素単位のセマンティック特徴を抽出し、それらをトップダウンマップ、すなわち**観測セマンティックマップ*に投影する。 この地図は、ポイント間の相対的な位置情報と、各ポイントに関連する意味的特徴情報とを含む。 しかし、地図上の数発の観察によって抽出された限られた情報は、シーン全体の理解とモデリングには不十分である。 本稿では,**sceneのセマンティックマップ*を拡散機能によって生成し,観察セマンティックマップを予測することによって,課題に対処する。 次に、シーンセマンティックマップは変換器ベースのエンコーダデコーダによるエコー符号化と相互作用し、任意の話者-リスナークエリペアに対するRIRを予測する。 Matterport3DとReplicaのデータセットに関する大規模な実験により、我々のフレームワークの有効性が検証された。

Few-shot audio-visual acoustics modeling seeks to synthesize the room impulse response in arbitrary locations with few-shot observations. To sufficiently exploit the provided few-shot data for accurate acoustic modeling, we present a *map-guided* framework by constructing acoustic-related visual semantic feature maps of the scenes. Visual features preserve semantic details related to sound and maps provide explicit structural regularities of sound propagation, which are valuable for modeling environment acoustics. We thus extract pixel-wise semantic features derived from observations and project them into a top-down map, namely the **observation semantic map**. This map contains the relative positional information among points and the semantic feature information associated with each point. Yet, limited information extracted by few-shot observations on the map is not sufficient for understanding and modeling the whole scene. We address the challenge by generating a **scene semantic map** via diffusing features and anticipating the observation semantic map. The scene semantic map then interacts with echo encoding by a transformer-based encoder-decoder to predict RIR for arbitrary speaker-listener query pairs. Extensive experiments on Matterport3D and Replica dataset verify the efficacy of our framework.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# 変圧器は文脈強化学習のための時間差分法を学習する

Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning ( http://arxiv.org/abs/2405.13861v1 )

ライセンス: Link先を確認
Jiuqi Wang, Ethan Blaser, Hadi Daneshmand, Shangtong Zhang, (参考訳) インコンテキスト学習(In-context learning)とは、パラメータを適応することなく、推論時間中にモデルの学習能力をいう。 モデルへの入力(例えば、プロンプト)(例えば、トランスフォーマー)は、コンテキスト(例えば、インスタンスとラベルのペア)とクエリインスタンスの両方から構成される。 モデルでは、推論中にコンテキストに応じてクエリインスタンスのラベルを出力することができる。 文脈内学習の可能な説明として、(線形)変換器の前方通過は、コンテキスト内のインスタンスとラベルのペアに勾配降下の繰り返しを実装する。 本稿では,変換器が前方パスで時間差(TD)学習を実装できることを示す。 我々は,マルチタスクTDアルゴリズムを用いてトランスフォーマーを訓練した後の文脈内TDの出現を理論的解析とともに示す。 さらに, 変圧器は, 残差勾配, 可視性トレース付きTD, 平均回帰TDなど, フォワードパスで多くのポリシー評価アルゴリズムを実装するのに十分であることを示す。

In-context learning refers to the learning ability of a model during inference time without adapting its parameters. The input (i.e., prompt) to the model (e.g., transformers) consists of both a context (i.e., instance-label pairs) and a query instance. The model is then able to output a label for the query instance according to the context during inference. A possible explanation for in-context learning is that the forward pass of (linear) transformers implements iterations of gradient descent on the instance-label pairs in the context. In this paper, we prove by construction that transformers can also implement temporal difference (TD) learning in the forward pass, a phenomenon we refer to as in-context TD. We demonstrate the emergence of in-context TD after training the transformer with a multi-task TD algorithm, accompanied by theoretical analysis. Furthermore, we prove that transformers are expressive enough to implement many other policy evaluation algorithms in the forward pass, including residual gradient, TD with eligibility trace, and average-reward TD.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# 四重項の性質について

On the properties of qudits ( http://arxiv.org/abs/2405.13862v1 )

ライセンス: Link先を確認
A. B. Balantekin, Anna M. Suliga, (参考訳) 天体物理学における量子情報科学の応用への関心の高まり、特に3つのニュートリノをクォート上にマッピングする必要があるコンパクト物体におけるニュートリノ輸送に対する関心から、我々は1量子系と2量子系の特性を概観する。 2量子系と2量子系とは対照的に、2量子系の性質のいくつかが高次元に一般化し、次元3以上の新しい性質を探求する点を指摘する。 例えば、密度作用素が基本表現で書かれるとき、クディット次元が 2 より大きいとき、2量子ヴェルナー状態は純粋状態であり得るが、2量子ヴェルナー状態ではないことを示す。

Motivated by the growing interest in the applications of quantum information science in astrophysical settings, especially for the neutrino transport in compact objects where three-flavors of neutrinos need to be mapped on qutrits, we review properties of one- and two-qudit systems. We contrast two-qubit and two-qudits systems by pointing out how some of the properties of two-qubit systems generalize to higher dimensions and explore emerging new properties for dimensions three or higher. One example is provided by the Werner states: when the density operator is written in the fundamental representation, we show that only two-qubit Werner states can be pure states, but not two-qudit Werner states when the qudit dimension is larger than two.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# 安全な強化学習のための動的モデル予測シールド

Dynamic Model Predictive Shielding for Provably Safe Reinforcement Learning ( http://arxiv.org/abs/2405.13863v1 )

ライセンス: Link先を確認
Arko Banerjee, Kia Rahmani, Joydeep Biswas, Isil Dillig, (参考訳) モデル予測シールド(MPS: Model Predictive Shielding)は、安全かつ安全な強化学習の手法として、学習した政策がリスクのある行動を取ろうとする際の安全性を確保するためにバックアップポリシーを活用することで、連続した高次元状態空間における複雑なタスクに効果的であることが証明されている。 しかし、MPSはトレーニング中と訓練後の両方で安全を確保することができるが、保守的かつタスク公開的なバックアップポリシーの性質のため、タスクの進捗を妨げることがしばしばある。 本稿では,信頼性を保ちながら強化学習目標を最適化する動的モデル予測シールド(DMPS)を提案する。 DMPSは、短期的進歩と長期的報酬の両方を最大化する安全な回復行動を動的に選択するために、ローカルプランナーを使用している。 重要なことに、プランナーと神経政策はDMPSにおいて相乗的な役割を担っている。 安全を確保するために回復行動を計画する場合、プランナーは神経ポリシーを利用して長期的な報酬を見積もり、短期的な計画の地平を越えて観察することができる。 逆に、トレーニング中のニューラルポリシーは、プランナーが提案したリカバリ計画から学習し、パフォーマンスが高く、実際は安全であるポリシに収束する。 このアプローチは、トレーニング中の安全性を保証し、計画地平面深度とともに指数関数的に減少するリカバリを限定したリカバリを後悔する。 実験の結果、DMPSは訓練後のシールド介入をほとんど必要とせず、いくつかの最先端のベースラインと比較して高い報酬を得る政策に収束していることが示された。

Among approaches for provably safe reinforcement learning, Model Predictive Shielding (MPS) has proven effective at complex tasks in continuous, high-dimensional state spaces, by leveraging a backup policy to ensure safety when the learned policy attempts to take risky actions. However, while MPS can ensure safety both during and after training, it often hinders task progress due to the conservative and task-oblivious nature of backup policies. This paper introduces Dynamic Model Predictive Shielding (DMPS), which optimizes reinforcement learning objectives while maintaining provable safety. DMPS employs a local planner to dynamically select safe recovery actions that maximize both short-term progress as well as long-term rewards. Crucially, the planner and the neural policy play a synergistic role in DMPS. When planning recovery actions for ensuring safety, the planner utilizes the neural policy to estimate long-term rewards, allowing it to observe beyond its short-term planning horizon. Conversely, the neural policy under training learns from the recovery plans proposed by the planner, converging to policies that are both high-performing and safe in practice. This approach guarantees safety during and after training, with bounded recovery regret that decreases exponentially with planning horizon depth. Experimental results demonstrate that DMPS converges to policies that rarely require shield interventions after training and achieve higher rewards compared to several state-of-the-art baselines.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# 回転させる! 複数クエリによるクローズドソースモデルの不確かさ推定

Just rotate it! Uncertainty estimation in closed-source models via multiple queries ( http://arxiv.org/abs/2405.13864v1 )

ライセンス: Link先を確認
Konstantinos Pitas, Julyan Arbel, (参考訳) 本稿では,クローズドソースディープニューラルネットワーク画像分類モデルの不確かさを簡易かつ効果的に推定する手法を提案する。 ベース画像が与えられた場合,提案手法は複数の変換されたバージョンを生成し,クローズドソースモデルのトップ1の予測をクエリする。 我々は,不確実性推定の校正において,すべての予測に対して100倍の信頼を割り当てる素案ベースラインと比較して,大幅な改善を示す。 最初はガウス摂動を探索するが、我々の経験から、回転や弾性変形などの自然な変換により、より良く校正された予測が得られることが示唆された。 さらに、経験的結果と直接的な理論的解析により、ガウス雑音に対する自然変換の優れた性能の背景にある理由を解明する。 これらの知見を生かして、校正結果をさらに改善するトランスファーラーニング手法を提案する。

We propose a simple and effective method to estimate the uncertainty of closed-source deep neural network image classification models. Given a base image, our method creates multiple transformed versions and uses them to query the top-1 prediction of the closed-source model. We demonstrate significant improvements in the calibration of uncertainty estimates compared to the naive baseline of assigning 100\% confidence to all predictions. While we initially explore Gaussian perturbations, our empirical findings indicate that natural transformations, such as rotations and elastic deformations, yield even better-calibrated predictions. Furthermore, through empirical results and a straightforward theoretical analysis, we elucidate the reasons behind the superior performance of natural transformations over Gaussian noise. Leveraging these insights, we propose a transfer learning approach that further improves our calibration results.
翻訳日:2024-05-24 21:02:51 公開日:2024-05-22
# ReVideo:モーションコントロールとコンテンツコントロールで動画をリメイク

ReVideo: Remake a Video with Motion and Content Control ( http://arxiv.org/abs/2405.13865v1 )

ライセンス: Link先を確認
Chong Mou, Mingdeng Cao, Xintao Wang, Zhaoyang Zhang, Ying Shan, Jian Zhang, (参考訳) 拡散モデルを用いた映像生成と編集の大幅な進歩にもかかわらず、正確で局所的な映像編集を実現することは大きな課題である。 さらに、既存のビデオ編集手法のほとんどは、モーション編集に特化した限定的な研究によって、主に視覚コンテンツの変更に焦点を当てている。 本稿では、コンテンツと動画の両方の仕様により、特定の領域における正確な映像編集を可能にすることによって、既存の手法と区別されるビデオのリメイク(ReVideo)を新たに試みる。 コンテンツ編集は、第1フレームを変更することで容易になり、トラジェクトリベースのモーションコントロールは、直感的なユーザインタラクションエクスペリエンスを提供する。 ReVideoは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む、新しいタスクに対処する。 そこで我々は,この2つの側面を粗いものから細かいものへと段階的に分離する3段階のトレーニング戦略を開発した。 さらに,様々なサンプリングステップと空間的位置をまたいだコンテンツと動作制御を統合するための時空間適応型融合モジュールを提案する。 広範にわたる実験により,我々のReVideoは,(1)動きを一定に保ちながら映像コンテンツを局所的に変化させること,(2)コンテンツが変化せず,新たな動きの軌跡をカスタマイズすること,(3)コンテンツと動きの軌跡を改変すること,といった,いくつかの正確なビデオ編集アプリケーションにおいて有望な性能を示した。 また,その柔軟性と堅牢性を示しながら,特定のトレーニングをすることなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することが可能である。

Despite significant advancements in video generation and editing using diffusion models, achieving accurate and localized video editing remains a substantial challenge. Additionally, most existing video editing methods primarily focus on altering visual content, with limited research dedicated to motion editing. In this paper, we present a novel attempt to Remake a Video (ReVideo) which stands out from existing methods by allowing precise video editing in specific areas through the specification of both content and motion. Content editing is facilitated by modifying the first frame, while the trajectory-based motion control offers an intuitive user interaction experience. ReVideo addresses a new task involving the coupling and training imbalance between content and motion control. To tackle this, we develop a three-stage training strategy that progressively decouples these two aspects from coarse to fine. Furthermore, we propose a spatiotemporal adaptive fusion module to integrate content and motion control across various sampling steps and spatial locations. Extensive experiments demonstrate that our ReVideo has promising performance on several accurate video editing applications, i.e., (1) locally changing video content while keeping the motion constant, (2) keeping content unchanged and customizing new motion trajectories, (3) modifying both content and motion trajectories. Our method can also seamlessly extend these applications to multi-area editing without specific training, demonstrating its flexibility and robustness.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# Koopcon: より賢く、より複雑でない学習への新しいアプローチ

Koopcon: A new approach towards smarter and less complex learning ( http://arxiv.org/abs/2405.13866v1 )

ライセンス: Link先を確認
Vahid Jebraeeli, Bo Jiang, Derya Cansever, Hamid Krim, (参考訳) ビッグデータの時代において、データセットの重大量と複雑さは、特に画像処理タスクにおいて、機械学習において重大な課題を引き起こしている。 本稿では,大規模なデータセットをコンパクトで情報豊富な表現に効果的にパッケージ化する,クープマン演算子理論を背景とした,革新的オートエンコーダベースのデータセット凝縮モデルを提案する。 人間の脳の予測的コーディング機構にインスパイアされた我々のモデルは、データをエンコードし再構成するための新しいアプローチを活用し、重要な特徴とラベルの分布を維持する。 凝縮過程は、オートエンコーダニューラルネットワークアーキテクチャと、最適輸送理論とワッサーシュタイン距離を組み合わせることで、元のデータセットと合成データセットの分布の相違を最小化する。 まず、大データセットをより小さな合成部分集合に縮合し、第2に、分類器を訓練し、その性能を原データの等価部分集合に基づいて訓練された分類器と比較する。 実験結果から, 凝縮データに基づいてトレーニングした分類器は, 元のデータセットでトレーニングした分類器と同等の性能を示し, 縮合モデルの有効性を確認した。 この作業は、計算資源の削減に寄与するだけでなく、制約された環境における効率的なデータ処理の道を開いた。

In the era of big data, the sheer volume and complexity of datasets pose significant challenges in machine learning, particularly in image processing tasks. This paper introduces an innovative Autoencoder-based Dataset Condensation Model backed by Koopman operator theory that effectively packs large datasets into compact, information-rich representations. Inspired by the predictive coding mechanisms of the human brain, our model leverages a novel approach to encode and reconstruct data, maintaining essential features and label distributions. The condensation process utilizes an autoencoder neural network architecture, coupled with Optimal Transport theory and Wasserstein distance, to minimize the distributional discrepancies between the original and synthesized datasets. We present a two-stage implementation strategy: first, condensing the large dataset into a smaller synthesized subset; second, evaluating the synthesized data by training a classifier and comparing its performance with a classifier trained on an equivalent subset of the original data. Our experimental results demonstrate that the classifiers trained on condensed data exhibit comparable performance to those trained on the original datasets, thus affirming the efficacy of our condensation model. This work not only contributes to the reduction of computational resources but also paves the way for efficient data handling in constrained environments, marking a significant step forward in data-efficient machine learning.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# 大規模時系列モデルのスケーリング法則

Scaling-laws for Large Time-series Models ( http://arxiv.org/abs/2405.13867v1 )

ライセンス: Link先を確認
Thomas D. P. Edwards, James Alvey, Justin Alsing, Nam H. Nguyen, Benjamin D. Wandelt, (参考訳) 大規模言語モデル(LLM)のスケーリング法則は、予測可能なパフォーマンス向上のために、より大規模なモデルをトレーニングする方法に関する有用なガイダンスを提供している。 時系列予測は言語に類似したシーケンシャルな構造を共有しており、大規模なトランスフォーマーアーキテクチャにも適用可能である。 ここでは、基本デコーダのみの時系列変換モデルがLLMと類似のスケーリング挙動を示すのに対し、アーキテクチャの詳細(アスペクト比とヘッド数)は広範囲にわたって最小限の効果を示すことを示す。 我々は,パラメータ数,データセットサイズ,およびトレーニング計算に関して,初めてパワー則スケーリング関係をトレーニングし,確立する異種時系列データの大規模なコーパスを組み立てる。

Scaling laws for large language models (LLMs) have provided useful guidance on how to train ever larger models for predictable performance gains. Time series forecasting shares a similar sequential structure to language, and is amenable to large-scale transformer architectures. Here we show that foundational decoder-only time series transformer models exhibit analogous scaling-behavior to LLMs, while architectural details (aspect ratio and number of heads) have a minimal effect over broad ranges. We assemble a large corpus of heterogenous time series data on which to train, and establish, for the first time, power-law scaling relations with respect to parameter count, dataset size, and training compute, spanning five orders of magnitude.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# 線形計算グラフを用いた局所回路と大域回路の自動同定

Automatically Identifying Local and Global Circuits with Linear Computation Graphs ( http://arxiv.org/abs/2405.13868v1 )

ライセンス: Link先を確認
Xuyang Ge, Fukang Zhu, Wentao Shu, Junxuan Wang, Zhengfu He, Xipeng Qiu, (参考訳) 任意のモデル挙動の回路解析は、機械的解釈可能性において中心的な課題である。 我々は、スパースオートエンコーダ(SAE)と、スキップSAEと呼ばれる変種を用いた回路発見パイプラインを導入する。 これら2つのモジュールをモデルに挿入すると、OVおよびMPP回路に対するモデルの計算グラフは厳密に線形になる。 本手法は各ノードの因果効果を計算するために線形近似を必要としない。 このきめ細かいグラフは、ロジットまたは中間的特徴のいずれについても、エンドツーエンドとローカルの両方の回路を識別することができる。 階層的属性(hierarchical Attribution)と呼ばれるテクニックで、このパイプラインを辛抱強く適用できます。 GPT2-Smallの3種類の回路、すなわちブラケット、誘導、間接物体識別回路を解析する。 以上の結果から,既存の発見の根底にある新たな発見が明らかになった。

Circuit analysis of any certain model behavior is a central task in mechanistic interpretability. We introduce our circuit discovery pipeline with sparse autoencoders (SAEs) and a variant called skip SAEs. With these two modules inserted into the model, the model's computation graph with respect to OV and MLP circuits becomes strictly linear. Our methods do not require linear approximation to compute the causal effect of each node. This fine-grained graph enables identifying both end-to-end and local circuits accounting for either logits or intermediate features. We can scalably apply this pipeline with a technique called Hierarchical Attribution. We analyze three kind of circuits in GPT2-Small, namely bracket, induction and Indirect Object Identification circuits. Our results reveal new findings underlying existing discoveries.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# ペンタセンドープナフタレンの応用

Pentacene-Doped Naphthalene for Levitated Optomechanics ( http://arxiv.org/abs/2405.13869v1 )

ライセンス: Link先を確認
Marit O. E. Steiner, Julen S. Pedernales, Martin B. Plenio, (参考訳) 本研究では, 磁気浮上材料としてペンタセンドープナフタレンを導入し, 物質波干渉法や核磁気共鳴に魅力的な用途を提供する。 ペンタセンをドープしたナフタレンは、核スピンアンサンブルの顕著な分極性を提供し、極化寿命が数週間続く低温において80%を超える分極率を達成する。 我々は,NV中心を含むナノダイアモンドなどの電子スピン欠陥を包含する材料に係わる多くの制約を回避し,均質スピン分布と優先的な原子スピン量子化軸の欠如により,マルチスピンStern-Gerlach型干渉プロトコルを設計する。 対象崩壊モデルの自由なパラメータに対する既存の境界性を高めるための干渉計の可能性を評価する。 物質波干渉法以外にも、NMRの現在の標準を超える周波数でマジックアングルを回転させる可能性を分析し、浮上によって提供される例外的な回転能力を活用している。 さらに,ナノ粒子の位置でスピンアンサンブル偏光を測定するための新しいプロトコルを概説し,主雑音源の解析を行い,様々な用途に必要とされる孤立度をベンチマークする。

We introduce pentacene-doped naphthalene as a material for diamagnetic levitation, offering compelling applications in matter-wave interferometry and nuclear magnetic resonance. Pentacene-doped naphthalene offers remarkable polarizability of its nuclear spin ensemble, achieving polarization rates exceeding 80 % at cryogenic temperatures with polarization lifetimes extending weeks. We design a multi-spin Stern-Gerlach-type interferometry protocol which, thanks to the homogeneous spin distribution and the absence of a preferential nuclear-spin quantization axis, avoids many of the limitations associated with materials hosting electronic spin defects, such as nanodiamonds containing NV centers. We assess the potential of our interferometer to enhance existing bounds on the free parameters of objective collapse models. Beyond matter-wave interferometry, we analyze the prospects for implementing magic angle spinning at frequencies surpassing the current standard in NMR, capitalizing on the exceptional rotational capabilities offered by levitation. Additionally, we outline a novel protocol for measuring spin ensemble polarization via the position of the nanoparticle and conduct an analysis of dominant noise sources, benchmarking the required isolation levels for various applications.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# フリーカスタム:マルチコンセプト構成のためのチューニング不要のカスタマイズ画像生成

FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition ( http://arxiv.org/abs/2405.13870v1 )

ライセンス: Link先を確認
Ganggui Ding, Canyu Zhao, Wen Wang, Zhen Yang, Zide Liu, Hao Chen, Chunhua Shen, (参考訳) 大規模事前訓練されたテキスト・ツー・イメージ(T2I)生成モデルに特化して、ユーザ特定概念の生成を目的としたカスタマイズ画像生成において、目覚ましい進歩が達成されている。 既存のアプローチでは、シングルコンセプトのカスタマイズに重点を置いているが、複数の概念を組み合わせる複雑なシナリオに関しては、依然として課題に直面している。 これらのアプローチは、少数のイメージを使って再トレーニングや微調整を必要とし、時間を要するトレーニングプロセスと迅速な実装を妨げる。 さらに、特異な概念を表現するための複数の画像への依存は、カスタマイズの難しさを増す。 そこで本研究では,参照概念に基づくマルチコンセプト構成のカスタマイズ画像を生成するための,新しいチューニング不要なFreeCustomを提案する。 具体的には,Multi-Reference Self-attention(MRSA)機構と,生成した画像にアクセスし,参照概念に集中するための重み付きマスク戦略を導入する。 さらに、MRSAは、入力概念が文脈相互作用を持つ画像を提供する際に、より保存しやすいことを発見した。 実験により,提案手法が生成した画像は与えられた概念と一致し,入力テキストとの整合性が良好であることが示された。 提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズにおいて,他のトレーニングベース手法と同等あるいは同等に動作しますが,よりシンプルです。 コードはhttps://github.com/aim-uofa/FreeCustomにある。

Benefiting from large-scale pre-trained text-to-image (T2I) generative models, impressive progress has been achieved in customized image generation, which aims to generate user-specified concepts. Existing approaches have extensively focused on single-concept customization and still encounter challenges when it comes to complex scenarios that involve combining multiple concepts. These approaches often require retraining/fine-tuning using a few images, leading to time-consuming training processes and impeding their swift implementation. Furthermore, the reliance on multiple images to represent a singular concept increases the difficulty of customization. To this end, we propose FreeCustom, a novel tuning-free method to generate customized images of multi-concept composition based on reference concepts, using only one image per concept as input. Specifically, we introduce a new multi-reference self-attention (MRSA) mechanism and a weighted mask strategy that enables the generated image to access and focus more on the reference concepts. In addition, MRSA leverages our key finding that input concepts are better preserved when providing images with context interactions. Experiments show that our method's produced images are consistent with the given concepts and better aligned with the input text. Our method outperforms or performs on par with other training-based methods in terms of multi-concept composition and single-concept customization, but is simpler. Codes can be found at https://github.com/aim-uofa/FreeCustom.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# マルチモーダル大言語モデルにおける視覚的推論補充のための投機的プロンプト

Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models ( http://arxiv.org/abs/2405.13872v1 )

ライセンス: Link先を確認
Qiji Zhou, Ruochen Zhou, Zike Hu, Panzhong Lu, Siyang Gao, Yue Zhang, (参考訳) CoT(Chain-of-Thought)と関連する合理性に基づく研究の最近の進歩は、複雑な推論タスクにおけるLarge Language Models(LLM)の性能を大幅に向上させた。 MLLM(Multimodal Large Language Models)の進化に伴い、複雑なマルチモーダル推論問題に対処する能力の向上が重要なフロンティアとなっている。 しかし、CoTにマルチモーダルな論理を組み込むことは、まだ十分には研究されていない。 本稿では,MLLMの視覚的合理性を段階的に抽出する,IoT(Image-of-Thought)プロンプト手法を提案する。 具体的には、IoTプロンプトは入力画像と質問に基づいて重要な視覚情報抽出操作を自動的に設計することができる。 視覚情報リファインメントの各ステップは、複雑な視覚的推論問題に対する回答をサポートする特定の視覚的理性を特定する。 テキストCoT以外にも、IoTは視覚的およびテキスト的合理性を利用して、MLLMが複雑なマルチモーダル情報を理解するのに役立つ。 IoTプロンプトは、さまざまなMLLMのさまざまな視覚的理解タスクにおいて、ゼロショットの視覚的推論性能を改善した。 さらに、IoTによって生成されたステップバイステップの視覚的特徴説明は、視覚的推論プロセスを解明し、大規模マルチモーダルモデルの認知過程の分析を支援する。

Recent advancements in Chain-of-Thought (CoT) and related rationale-based works have significantly improved the performance of Large Language Models (LLMs) in complex reasoning tasks. With the evolution of Multimodal Large Language Models (MLLMs), enhancing their capability to tackle complex multimodal reasoning problems is a crucial frontier. However, incorporating multimodal rationales in CoT has yet to be thoroughly investigated. We propose the Image-of-Thought (IoT) prompting method, which helps MLLMs to extract visual rationales step-by-step. Specifically, IoT prompting can automatically design critical visual information extraction operations based on the input images and questions. Each step of visual information refinement identifies specific visual rationales that support answers to complex visual reasoning questions. Beyond the textual CoT, IoT simultaneously utilizes visual and textual rationales to help MLLMs understand complex multimodal information. IoT prompting has improved zero-shot visual reasoning performance across various visual understanding tasks in different MLLMs. Moreover, the step-by-step visual feature explanations generated by IoT prompting elucidate the visual reasoning process, aiding in analyzing the cognitive processes of large multimodal models
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# FiDeLiS: 知識グラフ質問回答のための大規模言語モデルにおける忠実な推論

FiDeLiS: Faithful Reasoning in Large Language Model for Knowledge Graph Question Answering ( http://arxiv.org/abs/2405.13873v1 )

ライセンス: Link先を確認
Yuan Sui, Yufei He, Nian Liu, Xiaoxin He, Kun Wang, Bryan Hooi, (参考訳) 大きな言語モデル(LLM)は様々なアプリケーションで大きな成功を収めてきたが、幻覚に苦しむことが多い。 これらの問題は、LLM推論に外部知識グラフ(KG)を統合することで部分的に緩和することができる。 しかし、その定式化の方法はまだほとんど解明されていない。 本稿では,KGによる推論の中間段階を扱うための検索探索対話手法FiDelisを提案する。 具体的には、LLM推論のためのKGから有用な中間知識をリコールするためのPath-RAGモジュールを提案する。 我々は,LLMの論理的・常識的推論とKGのトポロジ的接続を知識検索プロセスに統合し,より正確なリコール性能を実現する。 さらに, LLMの導出的推論能力を活用して, 段階的かつ一般化可能な推論プロセスを自動的に導出する手法を提案する。 帰納的検証は、いつ推論を中止するかの正確な指標となり、推論の連鎖と不要な計算の誤解を招くことを避ける。 大規模な実験により,計算コストが低く,汎用性が向上したトレーニング不要な手法として,3つのベンチマークにおいて,既存の強靭なベースラインを上回る結果が得られた。

While large language models (LLMs) have achieved significant success in various applications, they often struggle with hallucinations, especially in scenarios that require deep and responsible reasoning. These issues could be partially mitigate by integrating external knowledge graphs (KG) in LLM reasoning. However, the method of their incorporation is still largely unexplored. In this paper, we propose a retrieval-exploration interactive method, FiDelis to handle intermediate steps of reasoning grounded by KGs. Specifically, we propose Path-RAG module for recalling useful intermediate knowledge from KG for LLM reasoning. We incorporate the logic and common-sense reasoning of LLMs and topological connectivity of KGs into the knowledge retrieval process, which provides more accurate recalling performance. Furthermore, we propose to leverage deductive reasoning capabilities of LLMs as a better criterion to automatically guide the reasoning process in a stepwise and generalizable manner. Deductive verification serve as precise indicators for when to cease further reasoning, thus avoiding misleading the chains of reasoning and unnecessary computation. Extensive experiments show that our method, as a training-free method with lower computational cost and better generality outperforms the existing strong baselines in three benchmarks.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# Affine-based deformable Attention and Selective Fusion for Semi-dense Matching

Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching ( http://arxiv.org/abs/2405.13874v1 )

ライセンス: Link先を確認
Hongkai Chen, Zixin Luo, Yurun Tian, Xuyang Bai, Ziyu Wang, Lei Zhou, Mingmin Zhen, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan, (参考訳) 画像間の堅牢で正確な対応を識別することは、様々な下流タスクを可能にするコンピュータビジョンの基本的な問題である。 近年のセミデンスマッチング手法は,トランスフォーマーを通じて関連情報を融合することの有効性を強調している。 本稿では,このパラダイムに関するいくつかの改良を提案する。 まず,アフィン系局所的注意をモデル断面変形に導入する。 第2に、クロスアテンションからローカルメッセージとグローバルメッセージをマージするための選択的融合を提案する。 ネットワーク構造とは別に,従来の研究で省略された損失設計における空間的滑らかさの強化の重要性も確認した。 これらの拡張に基づいて、ネットワークは異なる設定下での強いマッチング能力を示す。 ネットワークの全バージョンは,LoFTRと同じようなコストで,半ダンスマッチング手法の最先端性能を実現し,スリムバージョンは15%の計算コストと18%のパラメータでLoFTRのベースラインに到達した。

Identifying robust and accurate correspondences across images is a fundamental problem in computer vision that enables various downstream tasks. Recent semi-dense matching methods emphasize the effectiveness of fusing relevant cross-view information through Transformer. In this paper, we propose several improvements upon this paradigm. Firstly, we introduce affine-based local attention to model cross-view deformations. Secondly, we present selective fusion to merge local and global messages from cross attention. Apart from network structure, we also identify the importance of enforcing spatial smoothness in loss design, which has been omitted by previous works. Based on these augmentations, our network demonstrate strong matching capacity under different settings. The full version of our network achieves state-of-the-art performance among semi-dense matching methods at a similar cost to LoFTR, while the slim version reaches LoFTR baseline's performance with only 15% computation cost and 18% parameters.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# FACTかFctionか: 真のメカニズムはフリーライドを排除できるか?

FACT or Fiction: Can Truthful Mechanisms Eliminate Federated Free Riding? ( http://arxiv.org/abs/2405.13879v1 )

ライセンス: Link先を確認
Marco Bornstein, Amrit Singh Bedi, Abdirisak Mohamed, Furong Huang, (参考訳) 標準連合学習(FL)アプローチは、フリーライダージレンマに対して脆弱である。 それまでのメカニズムは自由度ジレンマを解こうとしていたが、真理性の問題に対処する者はいなかった。 実際には、敵エージェントは、フェデレーショントレーニングへの貢献を騙すために、サーバに偽の情報を提供することができる。 フリーライディング・アバース・フェデレーション機構を真にし、その結果、実際に故障しにくくする試みとして、FACTを提案する。 FACTは,(1)ペナルティシステムを用いてフェデレーションフリーライディングを排除し,(2)競争環境を構築することによってエージェントが真に情報を提供し,(3)トレーニング単独よりも優れたパフォーマンスを提供することでエージェントの参加を促す,最初のフェデレーション機構である。 実証的に、FACTは、エージェントが不合理であるときにフリーライディングを回避し、エージェントの損失を4倍以上削減する。

Standard federated learning (FL) approaches are vulnerable to the free-rider dilemma: participating agents can contribute little to nothing yet receive a well-trained aggregated model. While prior mechanisms attempt to solve the free-rider dilemma, none have addressed the issue of truthfulness. In practice, adversarial agents can provide false information to the server in order to cheat its way out of contributing to federated training. In an effort to make free-riding-averse federated mechanisms truthful, and consequently less prone to breaking down in practice, we propose FACT. FACT is the first federated mechanism that: (1) eliminates federated free riding by using a penalty system, (2) ensures agents provide truthful information by creating a competitive environment, and (3) encourages agent participation by offering better performance than training alone. Empirically, FACT avoids free-riding when agents are untruthful, and reduces agent loss by over 4x.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# トップダウンクロス製品からの量子参照フレーム

Quantum Reference Frames from Top-Down Crossed Products ( http://arxiv.org/abs/2405.13884v1 )

ライセンス: Link先を確認
Shadi Ali Ahmad, Wissam Chemissany, Marc S. Klinger, Robert G. Leigh, (参考訳) すべての物理観測は、それ自体がシステムである参照フレームに対して行われる。 興味の系が群対称性を許容するならば、それを観察する参照フレームは、結合された系の共分散を保証するために、群の下で共分散的に変換されなければならない。 交差積は、ボトムアップから量子参照フレームを実現する方法であり、量子参照フレームに随伴し、制約を課すことで、交差積代数を生成する。 交差積代数のトップダウン仕様を提供し、このアプローチを用いて同値な量子参照フレームを得ることができないことを示す。 補題として、系と対称性群に付随する抽象代数学と、量子参照フレームの異なる選択に関連付けられた相互交叉積代数からなる対称性群を定義する。 我々は、この対象をG-フレーム代数と呼び、この対象の中でいかに非等価なフレームが実現されるかを示す。 ゲージ理論におけるこの代数の古典的グリボフ問題の類似性、半古典的デ・シッター(英語版)と潜在的に半古典的極限(英語版)を超越する可能性を示す重力における重要性、および可観測性、密度状態、エントロピーのような物理概念のフレーム依存性を理解するための有用性について論じる。

All physical observations are made relative to a reference frame, which is a system in its own right. If the system of interest admits a group symmetry, the reference frame observing it must transform commensurately under the group to ensure the covariance of the combined system. We point out that the crossed product is a way to realize quantum reference frames from the bottom-up; adjoining a quantum reference frame and imposing constraints generates a crossed product algebra. We provide a top-down specification of crossed product algebras and show that one cannot obtain inequivalent quantum reference frames using this approach. As a remedy, we define an abstract algebra associated to the system and symmetry group built out of relational crossed product algebras associated with different choices of quantum reference frames. We term this object the G-framed algebra, and show how potentially inequivalent frames are realized within this object. We comment on this algebra's analog of the classical Gribov problem in gauge theory, its importance in gravity where we show that it is relevant for semiclassical de Sitter and potentially beyond the semiclassical limit, and its utility for understanding the frame-dependence of physical notions like observables, density states, and entropies.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# 一般化量子位相推定による非線形分光

Nonlinear Spectroscopy via Generalized Quantum Phase Estimation ( http://arxiv.org/abs/2405.13885v1 )

ライセンス: Link先を確認
Ignacio Loaiza, Danial Motlagh, Kasra Hejazi, Modjtaba Shokrian Zini, Alain Delgado, Juan Miguel Arrazola, (参考訳) 反応理論は、実験的な観測と理論的な予測を結びつけることに成功している。 特に興味深いのは物質の光学反応であり、そこから分光実験をモデル化することができる。 しかし、量子系の応答特性の計算は、特に非線形分光法では、系の時間的進化または励起状態へのアクセスを必要とするため、しばしば禁止的に高価である。 本研究では,多変量位相推定のための一般化量子位相推定フレームワークを提案する。 これにより、任意の順序の応答特性の回復を可能にする一般相関関数の処理が可能となる。 一般化された量子位相推定回路は、物理過程とリンクした直感的な構成を持ち、実験的に得られる分布から直接周波数をサンプリングすることができる。 さらに、早期フォールトトレラント量子コンピュータのための新しいフレームワークの単一アンシラ修正を提供する。 全体として、我々のフレームワークはラマン分光のような線形状態を超えた分光実験の効率的なシミュレーションを可能にする。 これにより、潜在的な技術的影響のある量子コンピュータのための、エキサイティングな新しい応用分野が開かれる。

Response theory has a successful history of connecting experimental observations with theoretical predictions. Of particular interest is the optical response of matter, from which spectroscopy experiments can be modelled. However, the calculation of response properties for quantum systems is often prohibitively expensive, especially for nonlinear spectroscopy, as it requires access to either the time evolution of the system or to excited states. In this work, we introduce a generalized quantum phase estimation framework designed for multi-variate phase estimation. This allows the treatment of general correlation functions enabling the recovery of response properties of arbitrary orders. The generalized quantum phase estimation circuit has an intuitive construction that is linked with a physical process of interest, and can directly sample frequencies from the distribution that would be obtained experimentally. In addition, we provide a single-ancilla modification of the new framework for early fault-tolerant quantum computers. Overall, our framework enables the efficient simulation of spectroscopy experiments beyond the linear regime, such as Raman spectroscopy. This opens up an exciting new field of applications for quantum computers with potential technological impact.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# 量子エネルギーテレポーテーションと情報テレポーテーション

Quantum Energy Teleportation versus Information Teleportation ( http://arxiv.org/abs/2405.13886v1 )

ライセンス: Link先を確認
Jinzhao Wang, Shunyu Yao, (参考訳) 量子エネルギーテレポーテーション(Quantum Energy Teleportation, QET)は、局所的にアクセス不能なエネルギーを抽出可能な作業として活性化する現象である。 これは、よりよく知られた量子情報テレポーテーション(QIT)とよく似ており、量子情報はLOCCとの絡み合ったペアを通して送信することができる。 QETがQITとどのような関係があるのかを尋ねるのは魅力的です。 ここでは、この関係に関する最初の研究を報告する。 明らかな類似性にもかかわらず、これらの2つの現象は相違するだけでなく、互いに排他的に排他的であることを示す。 本研究は,QETとQITの双方を,時空の移動可能なワームホールを通じて同時に実施する熱絡み合い多体システムにおける性能の摂動的トレードオフ関係を示す。 それらの競合をよりよく理解するために、2つの絡み合った四重項の有限次元の対向について研究し、普遍的非摂動的トレードオフ境界を証明した。 テレポーテーション方式の場合、QETとQITの総合的な性能は、絡み合い資源の量によって制約されることを示す。 結果のいくつかの説明について論じる。

Quantum energy teleportation (QET) is the phenomenon in which locally inaccessible energy is activated as extractable work through collaborative local operations and classical communication (LOCC) with an entangled partner. It closely resembles the more well-known quantum information teleportation (QIT) where quantum information can be sent through an entangled pair with LOCC. It is tempting to ask how QET is related to QIT. Here we report a first study of this connection. Despite the apparent similarity, we show that these two phenomena are not only distinct but moreover are mutually exclusive to each other. We show a perturbative trade-off relation between their performance in a thermal entangled chaotic many-body system, in which both QET and QIT are simultaneously implemented through a traversable wormhole in an emergent spacetime. To better understand their competition, we study the finite-dimensional counterpart of two entangled qudits and prove a universal non-perturbative trade-off bound. It shows that for any teleportation scheme, the overall performance of QET and QIT together is constrained by the amount of the entanglement resource. We discuss some explanations of our results.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# 科学のための動的システムによる因果表現学習の結婚

Marrying Causal Representation Learning with Dynamical Systems for Science ( http://arxiv.org/abs/2405.13888v1 )

ライセンス: Link先を確認
Dingling Yao, Caroline Muller, Francesco Locatello, (参考訳) 因果表現学習は、生の絡み合った測定から隠れた因果変数に因果モデルを拡張することを約束する。 しかし、ほとんどの進歩は異なる設定での識別可能性の証明に焦点を合わせており、我々は実際のアプリケーションの成功を知らない。 同時に、動的システムの分野はディープラーニングの恩恵を受け、数え切れないほど多くのアプリケーションに拡張されたが、パラメータの識別はできない。 本稿では,2つの仮定と重要な仮定との間に明確な関係を描き,因果表現学習で開発された同定可能な手法を動的システムに適用する。 同時に、微分方程式のために開発されたスケーラブルな微分可能解法を利用して、同定可能かつ実用的なモデルを構築することができる。 全体として、アウト・オブ・ディストリビューション分類や治療効果推定などの下流タスクのために、トラジェクトリ固有のパラメータを分離する制御可能なモデルについて学習する。 風速の変動要因を部分的に把握した風速シミュレータを実験した。 また、実際の気候データにも結果モデルを適用し、既存の気候変動に関する文献と一致して下流の因果問題に答えることに成功した。

Causal representation learning promises to extend causal models to hidden causal variables from raw entangled measurements. However, most progress has focused on proving identifiability results in different settings, and we are not aware of any successful real-world application. At the same time, the field of dynamical systems benefited from deep learning and scaled to countless applications but does not allow parameter identification. In this paper, we draw a clear connection between the two and their key assumptions, allowing us to apply identifiable methods developed in causal representation learning to dynamical systems. At the same time, we can leverage scalable differentiable solvers developed for differential equations to build models that are both identifiable and practical. Overall, we learn explicitly controllable models that isolate the trajectory-specific parameters for further downstream tasks such as out-of-distribution classification or treatment effect estimation. We experiment with a wind simulator with partially known factors of variation. We also apply the resulting model to real-world climate data and successfully answer downstream causal questions in line with existing literature on climate change.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# DeepNcode: ニューラルネットワーク上のビットフリップ攻撃に対する符号化ベースの保護

DeepNcode: Encoding-Based Protection against Bit-Flip Attacks on Neural Networks ( http://arxiv.org/abs/2405.13891v1 )

ライセンス: Link先を確認
Patrik Velčický, Jakub Breier, Xiaolu Hou, Mladen Kovačević, (参考訳) フォールトインジェクション攻撃は、ニューラルネットワークモデルの組み込み実装に対する強力な脅威である。 誤分類、モデル抽出、トロイジャン/バックドア植え付けなど、いくつかの攻撃ベクトルが提案されている。 これらの攻撃のほとんどは、量子化されたモデルパラメータが格納されているメモリ内のビットを反転させることで実行される。 本稿では,DeepNcodeという名のニューラルネットワークに対するビットフリップ攻撃に対する符号化に基づく保護手法を提案する。 我々は、BFA、T-BFA、TA-LBFといった最先端のビットフリップ攻撃を用いて、いくつかの公開モデルとデータセットを用いて提案提案を実験的に評価した。 この結果、保護マージンが最大で$4-$bitが$7.6\times、$2.4\timesが$8-$bitの量子化ネットワークで$12.4\timesになることが示された。 メモリオーバーヘッドは、オリジナルのネットワークサイズの50\%$から始まり、時間オーバーヘッドは無視される。 さらに、DeepNcodeは再トレーニングを必要とせず、モデルのオリジナルの精度も変更しない。

Fault injection attacks are a potent threat against embedded implementations of neural network models. Several attack vectors have been proposed, such as misclassification, model extraction, and trojan/backdoor planting. Most of these attacks work by flipping bits in the memory where quantized model parameters are stored. In this paper, we introduce an encoding-based protection method against bit-flip attacks on neural networks, titled DeepNcode. We experimentally evaluate our proposal with several publicly available models and datasets, by using state-of-the-art bit-flip attacks: BFA, T-BFA, and TA-LBF. Our results show an increase in protection margin of up to $7.6\times$ for $4-$bit and $12.4\times$ for $8-$bit quantized networks. Memory overheads start at $50\%$ of the original network size, while the time overheads are negligible. Moreover, DeepNcode does not require retraining and does not change the original accuracy of the model.
翻訳日:2024-05-24 20:53:06 公開日:2024-05-22
# カオス量子回路におけるナビエ-ストークス流体力学の創発

Emergence of Navier-Stokes hydrodynamics in chaotic quantum circuits ( http://arxiv.org/abs/2405.13892v1 )

ライセンス: Link先を確認
Hansveer Singh, Ewan McCulloch, Sarang Gopalakrishnan, Romain Vasseur, (参考訳) 我々はカオスであるが保存された粒子電流を持つ2次元非可積分量子回路のアンサンブルを構築し、したがって有限のドルーデ重みを持つ。 そのような系の長波長流体力学は、圧縮不能なナビエ・ストークス方程式によって与えられる。 アンサンブルの回路間変動を解析することにより、これらは無視可能であると論じるので、粘性のような輸送係数の回路平均値も典型回路の値である。 回路平均輸送係数は古典的不可逆マルコフ過程にマッピングできる。 したがって、我々の構成により、強く相互作用するカオス的な2次元量子系のファミリーの粘度を効率的に計算することができる。

We construct an ensemble of two-dimensional nonintegrable quantum circuits that are chaotic but have a conserved particle current, and thus a finite Drude weight. The long-wavelength hydrodynamics of such systems is given by the incompressible Navier-Stokes equations. By analyzing circuit-to-circuit fluctuations in the ensemble we argue that these are negligible, so the circuit-averaged value of transport coefficients like the viscosity is also (in the long-time limit) the value in a typical circuit. The circuit-averaged transport coefficients can be mapped onto a classical irreversible Markov process. Therefore, remarkably, our construction allows us to efficiently compute the viscosity of a family of strongly interacting chaotic two-dimensional quantum systems.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# 動的量子木上の電荷とスピンのシャープ化遷移

Charge and Spin Sharpening Transitions on Dynamical Quantum Trees ( http://arxiv.org/abs/2405.13894v1 )

ライセンス: Link先を確認
Xiaozhou Feng, Nadezhda Fishchenko, Sarang Gopalakrishnan, Matteo Ippoliti, (参考訳) 監視システムの力学は、測定速度によって調整されたエンタングリングとアンタングリングフェーズの間の測定誘起相転移(MIPT)を示すことができる。 力学が連続対称性に従うと、絡み合う相はさらに、対称性電荷の変動のスケーリングに基づいてファジィ相と鋭相に分裂する。 アベリア対称性の急激な遷移は解析的によく理解されているが、非アベリアの場合にはそのような理解は存在しない。 本研究では,木状回路アーキテクチャ(量子ビットを再帰的パターンでシステムから繰り返しあるいは除去する)上でのMIPTの最近の解析解に基づいて,U(1)およびSU(2)対称性に従うモニタリングされた動的量子ツリーの絡み合いと変化を調べた。 木テンソルネットワークの再帰構造は、両方の場合の位相図を決定する強力な解析的および数値的手法を可能にする。 U(1)の場合、我々はフィッシャー-KPP型微分方程式を解析的に導出し、臨界点を見つけ、その性質を特定できる。 その結果, エンタングルメント/パーフィケーションおよびシャープニング遷移は, 異なる測定速度で総じて起こることがわかった。 SU(2)の場合、ファジィ位相は汎用的であり、鋭い位相は最大測定率の限界においてのみ可能である。 この限界において、ファジィ位相とシャープ位相を分離した境界を解析的に解き、それらが正確な数値シミュレーションと一致することを見出した。

The dynamics of monitored systems can exhibit a measurement-induced phase transition (MIPT) between entangling and disentangling phases, tuned by the measurement rate. When the dynamics obeys a continuous symmetry, the entangling phase further splits into a fuzzy phase and a sharp phase based on the scaling of fluctuations of the symmetry charge. While the sharpening transition for Abelian symmetries is well understood analytically, no such understanding exists for the non- Abelian case. In this work, building on a recent analytical solution of the MIPT on tree-like circuit architectures (where qubits are repatedly added or removed from the system in a recursive pattern), we study entanglement and sharpening transitions in monitored dynamical quantum trees obeying U (1) and SU (2) symmetries. The recursive structure of tree tensor networks enables powerful analytical and numerical methods to determine the phase diagrams in both cases. In the U (1) case, we analytically derive a Fisher-KPP-like differential equation that allows us to locate the critical point and identify its properties. We find that the entanglement/purification and sharpening transitions generically occur at distinct measurement rates. In the SU (2) case, we find that the fuzzy phase is generic, and a sharp phase is possible only in the limit of maximal measurement rate. In this limit, we analytically solve the boundaries separating the fuzzy and sharp phases, and find them to be in agreement with exact numerical simulations.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# スポーツビデオにおけるジャージー数認識のための一般的な枠組み

A General Framework for Jersey Number Recognition in Sports Video ( http://arxiv.org/abs/2405.13896v1 )

ライセンス: Link先を確認
Maria Koshkina, James H. Elder, (参考訳) ジャージーの数字認識はスポーツビデオ解析において重要な課題であり、その理由の一部は長期の選手追跡において重要であるためである。 これはシーンテキスト認識の亜種と見なすことができる。 しかし、ジャージ番号データにシーンテキスト認識モデルを適用する試みは、公表されていない。 本稿では,ホッケーのための新しいパブリックジャージ番号認識データセットを紹介し,この問題に対してシーンテキスト認識手法をどのように適用できるかを考察する。 我々は,オクルージョンの問題に対処し,あるスポーツ(ホッケー)のトレーニングが他のスポーツ(サッカー)に一般化できる程度を評価する。 後者については、シングルイメージレベルでのジャージ番号認識をフレーム全体に集約してトラックレットレベルのジャージ番号ラベルを生成する方法についても検討する。 我々は,イメージレベルのタスクとトラックレットレベルのタスクで高いパフォーマンスを示し,ホッケーのイメージでは91.4%,サッカーのトラックレットでは87.4%の精度を達成した。 コード、モデル、データはhttps://github.com/mkoshkina/jersey-number-pipeline.comで入手できる。

Jersey number recognition is an important task in sports video analysis, partly due to its importance for long-term player tracking. It can be viewed as a variant of scene text recognition. However, there is a lack of published attempts to apply scene text recognition models on jersey number data. Here we introduce a novel public jersey number recognition dataset for hockey and study how scene text recognition methods can be adapted to this problem. We address issues of occlusions and assess the degree to which training on one sport (hockey) can be generalized to another (soccer). For the latter, we also consider how jersey number recognition at the single-image level can be aggregated across frames to yield tracklet-level jersey number labels. We demonstrate high performance on image- and tracklet-level tasks, achieving 91.4% accuracy for hockey images and 87.4% for soccer tracklets. Code, models, and data are available at https://github.com/mkoshkina/jersey-number-pipeline.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# Bias-field Digitalized counterdiabatic quantum optimization

Bias-field digitized counterdiabatic quantum optimization ( http://arxiv.org/abs/2405.13898v1 )

ライセンス: Link先を確認
Alejandro Gomez Cadavid, Archismita Dalal, Anton Simen, Enrique Solano, Narendra N. Hegade, (参考訳) 本稿では,デジタル量子コンピュータにおける組合せ最適化問題の解法を提案する。そこでは,逐次ディジタル化された反断熱量子アルゴリズムから導出されるバイアス項を統合するとともに,補助的反断熱量子(CD)項をアディアバティック・ハミルトニアンに組み込む。 本稿では,このプロトコルをBF-DCQO(BF-DCQO)と呼ぶ。 大規模な組合せ最適化問題に効果的に対処するために設計されたBF-DCQOは、現在の量子プロセッサのコヒーレンス時間制限による制限に対するレジリエンスを示し、ノイズの存在下でも明確に拡張されている。 さらに、我々の純粋量子アプローチは、ハイブリッド古典量子スキームで必要とされる古典最適化への依存を排除し、変分量子アルゴリズムに関連するトレーニング可能性の問題を回避する。 一般Isingスピングラス問題の解析を通じて,従来のDCQO法や有限時間断熱量子最適化法と比較して,基底状態の成功確率の多項式スケーリング向上を示す。 さらに、地上状態の成功確率のスケーリング改善を実現し、最大2桁まで増加し、研究した問題サイズに対する量子近似アルゴリズムよりも平均1.3倍良い近似比を提供する。 トラップイオン量子コンピュータと超伝導プロセッサの両方に実験的に実装し,36量子ビットの最大重み付き独立セット問題と100量子ビットの重み付き格子上のスピングラスを用いて,これらの知見を検証した。 これらの結果は、完全に量子アルゴリズムのアプローチを用いて、ゲートベースの量子コンピューティングの大幅な進歩を示す。

We introduce a method for solving combinatorial optimization problems on digital quantum computers, where we incorporate auxiliary counterdiabatic (CD) terms into the adiabatic Hamiltonian, while integrating bias terms derived from an iterative digitized counterdiabatic quantum algorithm. We call this protocol bias-field digitized counterdiabatic quantum optimization (BF-DCQO). Designed to effectively tackle large-scale combinatorial optimization problems, BF-DCQO demonstrates resilience against the limitations posed by the restricted coherence times of current quantum processors and shows clear enhancement even in the presence of noise. Additionally, our purely quantum approach eliminates the dependency on classical optimization required in hybrid classical-quantum schemes, thereby circumventing the trainability issues often associated with variational quantum algorithms. Through the analysis of an all-to-all connected general Ising spin-glass problem, we exhibit a polynomial scaling enhancement in ground state success probability compared to traditional DCQO and finite-time adiabatic quantum optimization methods. Furthermore, it achieves scaling improvements in ground state success probabilities, increasing by up to two orders of magnitude, and offers an average 1.3x better approximation ratio than the quantum approximate optimization algorithm for the problem sizes studied. We validate these findings through experimental implementations on both trapped-ion quantum computers and superconducting processors, tackling a maximum weighted independent set problem with 36 qubits and a spin-glass on a heavy-hex lattice with 100 qubits, respectively. These results mark a significant advancement in gate-based quantum computing, employing a fully quantum algorithmic approach.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# 隠れ対称性を持つ対称線形帯域

Symmetric Linear Bandits with Hidden Symmetry ( http://arxiv.org/abs/2405.13899v1 )

ライセンス: Link先を確認
Nam Phuong Tran, The Anh Ta, Debmalya Mandal, Long Tran-Thanh, (参考訳) 低次元構造を持つ高次元線形帯域は、その実用的意義から近年大きな注目を集めている。 文学における最も一般的な構造は空間性である。 しかし、実際には利用できない可能性がある。 対称性は、腕の集合上のある種の変換群の下で報酬が不変であり、空間性を含む多くの標準構造をカバーする高次元の場合において、別の重要な帰納バイアスである。 本研究では,学習者から対称性を隠蔽する高次元対称線形帯域について検討し,オンライン環境で適切な対称性を学習する必要がある。 隠れ対称性の集合の構造を考察し、低次元部分空間の集合内のモデル選択に基づく方法を提案する。 我々のアルゴリズムは、$ O(d_0^{1/3} T^{2/3} \log(d))$ の後悔境界を達成し、$d$ は、潜在的に非常に大きい周囲次元であり、$d_0$ は、$d_0 \ll d$ のような真の低次元部分空間の次元である。 十分に分離されたモデルに余分な仮定を加えると、その後悔は$ O(d_0\sqrt{T\log(d)} )$ にさらに改善できる。

High-dimensional linear bandits with low-dimensional structure have received considerable attention in recent studies due to their practical significance. The most common structure in the literature is sparsity. However, it may not be available in practice. Symmetry, where the reward is invariant under certain groups of transformations on the set of arms, is another important inductive bias in the high-dimensional case that covers many standard structures, including sparsity. In this work, we study high-dimensional symmetric linear bandits where the symmetry is hidden from the learner, and the correct symmetry needs to be learned in an online setting. We examine the structure of a collection of hidden symmetry and provide a method based on model selection within the collection of low-dimensional subspaces. Our algorithm achieves a regret bound of $ O(d_0^{1/3} T^{2/3} \log(d))$, where $d$ is the ambient dimension which is potentially very large, and $d_0$ is the dimension of the true low-dimensional subspace such that $d_0 \ll d$. With an extra assumption on well-separated models, we can further improve the regret to $ O(d_0\sqrt{T\log(d)} )$.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# Rehearsal-free Federated Domain-Incremental Learning

Rehearsal-free Federated Domain-incremental Learning ( http://arxiv.org/abs/2405.13900v1 )

ライセンス: Link先を確認
Rui Sun, Haoran Duan, Jiahua Dong, Varun Ojha, Tejal Shah, Rajiv Ranjan, (参考訳) リハーサルのないフェデレーションドメインインクリメンタルラーニングフレームワークRefFiLを導入し、フェデレーションドメインインクリメンタルラーニングにおける破滅的な忘れ課題を軽減し、目に見えないドメインを継続的に学習するグローバルなプロンプト共有パラダイムをベースとした。 追加データセットの使用や以前のタスクからのプライベートデータの保持といった、忘れを緩和する典型的な方法は、デバイスの限られたリソースのために、連邦学習(FL)では不可能である。 RefFiLはドメイン不変知識を学習し、異なるFL参加者によって表現されるドメインから様々なドメイン固有プロンプトを取り入れることでこの問題に対処する。 RefFiLの重要な特徴は、ドメイン適応型プロンプトジェネレータによる局所的なきめ細かいプロンプトの生成である。 また、局所的に生成されたプロンプトと他のドメインとの違いを区別し、RefFiLの精度と有効性を向上するドメイン固有のプロンプト学習損失を導入する。 既存の方法と比較して、RefFiLは余分なメモリスペースを必要とせずに壊滅的な忘れを著しく軽減し、プライバシに敏感でリソースに制約のあるデバイスに最適である。

We introduce a rehearsal-free federated domain incremental learning framework, RefFiL, based on a global prompt-sharing paradigm to alleviate catastrophic forgetting challenges in federated domain-incremental learning, where unseen domains are continually learned. Typical methods for mitigating forgetting, such as the use of additional datasets and the retention of private data from earlier tasks, are not viable in federated learning (FL) due to devices' limited resources. Our method, RefFiL, addresses this by learning domain-invariant knowledge and incorporating various domain-specific prompts from the domains represented by different FL participants. A key feature of RefFiL is the generation of local fine-grained prompts by our domain adaptive prompt generator, which effectively learns from local domain knowledge while maintaining distinctive boundaries on a global scale. We also introduce a domain-specific prompt contrastive learning loss that differentiates between locally generated prompts and those from other domains, enhancing RefFiL's precision and effectiveness. Compared to existing methods, RefFiL significantly alleviates catastrophic forgetting without requiring extra memory space, making it ideal for privacy-sensitive and resource-constrained devices.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# DCTによる視覚変換器の劣化注意

DCT-Based Decorrelated Attention for Vision Transformers ( http://arxiv.org/abs/2405.13901v1 )

ライセンス: Link先を確認
Hongyi Pan, Emadeldeen Hamdan, Xin Zhu, Koushik Biswas, Ahmet Cetin, Ulas Bagci, (参考訳) Transformerアーキテクチャの有効性の中心は、クエリ、キー、値を高次元ベクトル空間にマッピングするセルフアテンションメカニズムである。 しかし、ランダム初期化の状態からクエリ、キー、値の注意重みをトレーニングするのは簡単ではない。 本稿では,2つの手法を提案する。 (i)まず,離散コサイン変換(DCT)係数を用いたシンプルで革新的な初期化手法を導入することにより,視覚変換器の初期化問題に対処する。 提案したDCTに基づく注意初期化は,従来の初期化戦略に比べて顕著に向上し,注意機構の堅牢な基盤を提供する。 実験の結果,DCTに基づく初期化により,分類作業における視覚変換器の精度が向上することが判明した。 (II) DCTは周波数領域における画像情報を効果的にデコレーションするので、このデコレーションが圧縮に有用であることは、量子化ステップが高周波数成分の多くを破棄できるようにするためである。 そこで本研究では,視覚変換器の注目機能のための新しいDCT圧縮手法を提案する。 高周波DCT係数は通常ノイズに対応するため、入力パッチの高周波DCT成分を切断する。 我々のDCTベースの圧縮は、クエリ、キー、値の重み行列のサイズを減らします。 同じレベルの精度を維持しながら、DCT圧縮スウィン変換器は計算オーバーヘッドを大幅に低減する。

Central to the Transformer architectures' effectiveness is the self-attention mechanism, a function that maps queries, keys, and values into a high-dimensional vector space. However, training the attention weights of queries, keys, and values is non-trivial from a state of random initialization. In this paper, we propose two methods. (i) We first address the initialization problem of Vision Transformers by introducing a simple, yet highly innovative, initialization approach utilizing Discrete Cosine Transform (DCT) coefficients. Our proposed DCT-based attention initialization marks a significant gain compared to traditional initialization strategies; offering a robust foundation for the attention mechanism. Our experiments reveal that the DCT-based initialization enhances the accuracy of Vision Transformers in classification tasks. (ii) We also recognize that since DCT effectively decorrelates image information in the frequency domain, this decorrelation is useful for compression because it allows the quantization step to discard many of the higher-frequency components. Based on this observation, we propose a novel DCT-based compression technique for the attention function of Vision Transformers. Since high-frequency DCT coefficients usually correspond to noise, we truncate the high-frequency DCT components of the input patches. Our DCT-based compression reduces the size of weight matrices for queries, keys, and values. While maintaining the same level of accuracy, our DCT compressed Swin Transformers obtain a considerable decrease in the computational overhead.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# LOGIN: 大規模言語モデルによるグラフニューラルネットワークトレーニングフレームワーク

LOGIN: A Large Language Model Consulted Graph Neural Network Training Framework ( http://arxiv.org/abs/2405.13902v1 )

ライセンス: Link先を確認
Yiran Qiao, Xiang Ao, Yang Liu, Jiarong Xu, Xiaoqian Sun, Qing He, (参考訳) グラフ機械学習に関する最近の一般的な研究は、グラフニューラルネットワーク(GNN)の高度な変種を設計して、異なるグラフ上でのGNNの優れたパフォーマンスを維持することを含む、同様の方法論に従うのが一般的である。 本稿では,GNN設計プロセスの合理化と,Large Language Models(LLM)の利点を活用して,下流タスクにおけるGNNの性能向上を図ることを目的とする。 我々は,LLMs-as-Consultants(LLMs-as-Consultants)という新たなパラダイムを策定し,LLMとGNNを対話的に統合する。 LOGIN(LLM Consulted GNN Training)と呼ばれるフレームワークがインスタンス化され、GNNトレーニングプロセス内でLLMのインタラクティブな利用が促進される。 まず、発見ノードの簡潔なプロンプトを作成し、包括的意味情報やトポロジ情報を持ち込み、LLMへの入力として機能する。 第2に、LLMからの応答を正しさに応じて活用する補完的な対応機構を考案し、GNNを洗練させる。 両グラフのノード分類におけるLOGINの有効性を実証的に評価した。 提案するLLM-as-Consultantsパラダイムで採用されている基本GNNアーキテクチャでさえ、複雑な設計を持つ高度なGNNと同等の性能を達成できることを示す。 私たちのコードはhttps://github.com/QiaoYRan/LOGIN.comで公開されています。

Recent prevailing works on graph machine learning typically follow a similar methodology that involves designing advanced variants of graph neural networks (GNNs) to maintain the superior performance of GNNs on different graphs. In this paper, we aim to streamline the GNN design process and leverage the advantages of Large Language Models (LLMs) to improve the performance of GNNs on downstream tasks. We formulate a new paradigm, coined "LLMs-as-Consultants," which integrates LLMs with GNNs in an interactive manner. A framework named LOGIN (LLM Consulted GNN training) is instantiated, empowering the interactive utilization of LLMs within the GNN training process. First, we attentively craft concise prompts for spotted nodes, carrying comprehensive semantic and topological information, and serving as input to LLMs. Second, we refine GNNs by devising a complementary coping mechanism that utilizes the responses from LLMs, depending on their correctness. We empirically evaluate the effectiveness of LOGIN on node classification tasks across both homophilic and heterophilic graphs. The results illustrate that even basic GNN architectures, when employed within the proposed LLMs-as-Consultants paradigm, can achieve comparable performance to advanced GNNs with intricate designs. Our codes are available at https://github.com/QiaoYRan/LOGIN.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# ST-Gait++:ビデオにおける歩行に基づく感情認識のための時空間畳み込みの活用

ST-Gait++: Leveraging spatio-temporal convolutions for gait-based emotion recognition on videos ( http://arxiv.org/abs/2405.13903v1 )

ライセンス: Link先を確認
Maria Luísa Lima, Willams de Lima Costa, Estefania Talavera Martinez, Veronica Teichrieb, (参考訳) 感情認識は人間の行動理解に関係しており、顔の表情や音声認識はコンピュータビジョンコミュニティによって広く研究されている。 行動心理学の分野における文学は、歩行が人が歩く方法として説明され、感情の付加的な指標であることを示している。 本研究では、歩行の分析を通して感情認識のための深い枠組みを提案する。 より具体的には、我々のモデルは、感情分類のタスクのための頑健な骨格に基づく表現を生成する空間的時間的グラフ畳み込みネットワークからなる。 提案手法をE-Gaitデータセット上で評価し,2177個のサンプルから構成した。 その結果,最先端技術と比較して約5%の精度向上が得られた。 さらに、トレーニング中は、最先端の方法論と比較してモデルがより高速に収束することが観察された。

Emotion recognition is relevant for human behaviour understanding, where facial expression and speech recognition have been widely explored by the computer vision community. Literature in the field of behavioural psychology indicates that gait, described as the way a person walks, is an additional indicator of emotions. In this work, we propose a deep framework for emotion recognition through the analysis of gait. More specifically, our model is composed of a sequence of spatial-temporal Graph Convolutional Networks that produce a robust skeleton-based representation for the task of emotion classification. We evaluate our proposed framework on the E-Gait dataset, composed of a total of 2177 samples. The results obtained represent an improvement of approximately 5% in accuracy compared to the state of the art. In addition, during training we observed a faster convergence of our model compared to the state-of-the-art methodologies.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# 簡単に言い換えなさい!複数のリフレーズクエリによるクローズドソース言語モデルの不確かさ推定

Just rephrase it! Uncertainty estimation in closed-source language models via multiple rephrased queries ( http://arxiv.org/abs/2405.13907v1 )

ライセンス: Link先を確認
Adam Yang, Chen Chen, Konstantinos Pitas, (参考訳) 最先端の大規模言語モデルは、時にはオープンソースソフトウェアとして配布されるが、クローズド・ソース・サービスとして提供されることも多い。 これらのクローズドソースの大規模言語モデルは一般に最も広く使われているが、クエリに応答する際の不確かさを見積もらないことが多い。 最高のモデルでさえ、信頼度の高い偽情報を‘ハロシン化’する傾向にあるため、信頼性の高い不確実性評価の欠如は、これらのモデルの適用性をクリティカルな設定で制限する。 本稿では,元となるベースクエリの複数の言い換えにより,クローズドソース LLM の不確かさを推定する。 具体的には、モデルを複数の言い換えた質問に問うとともに、解の類似性を不確実性の推定として利用する。 私たちは以前の仕事から分岐する 一 暗記し、実際に使用するのが簡単である言い換えの規則 二 複数のリフレッシュクエリがキャリブレーションされた不確実性推定値を取得する理由に関する理論的枠組みを提案すること。 提案手法は, ベースラインと比較して不確実性推定のキャリブレーションを著しく改善し, 最適なテストキャリブレーションのためのクエリ戦略の設計方法に関する直観を提供する。

State-of-the-art large language models are sometimes distributed as open-source software but are also increasingly provided as a closed-source service. These closed-source large-language models typically see the widest usage by the public, however, they often do not provide an estimate of their uncertainty when responding to queries. As even the best models are prone to ``hallucinating" false information with high confidence, a lack of a reliable estimate of uncertainty limits the applicability of these models in critical settings. We explore estimating the uncertainty of closed-source LLMs via multiple rephrasings of an original base query. Specifically, we ask the model, multiple rephrased questions, and use the similarity of the answers as an estimate of uncertainty. We diverge from previous work in i) providing rules for rephrasing that are simple to memorize and use in practice ii) proposing a theoretical framework for why multiple rephrased queries obtain calibrated uncertainty estimates. Our method demonstrates significant improvements in the calibration of uncertainty estimates compared to the baseline and provides intuition as to how query strategies should be designed for optimal test calibration.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# 潜在空間階層型EMM拡散モデル学習

Learning Latent Space Hierarchical EBM Diffusion Models ( http://arxiv.org/abs/2405.13910v1 )

ライセンス: Link先を確認
Jiali Cui, Tian Han, (参考訳) 本研究は,エネルギーベース先行モデルと多層ジェネレータモデルの学習問題について考察する。 トップダウン階層構造で構成された複数の潜伏変数を含む多層ジェネレータモデルは、通常ガウス先行モデルを仮定する。 このような先行モデルはモデリング表現性に制限されることができ、それによって発生器後部と先行モデルの間のギャップが生じ、これは先行ホール問題と呼ばれる。 近年,エネルギーベースモデル(EBM)を第2段階の補完モデルとして学習し,ギャップを埋める研究が進められている。 しかし、多層ラテント空間上で定義されたESMは、非常に多モードであり、これは実際は困難であり、その結果、非効率に学習されたESMとなる。 この課題に対処するために,EBMサンプリングの負担を軽減し,ESM学習を容易にするために拡散確率的スキームを活用することを提案する。 我々は,様々な課題に先立って,拡散学習型EMMの優れた性能を示す実験を行った。

This work studies the learning problem of the energy-based prior model and the multi-layer generator model. The multi-layer generator model, which contains multiple layers of latent variables organized in a top-down hierarchical structure, typically assumes the Gaussian prior model. Such a prior model can be limited in modelling expressivity, which results in a gap between the generator posterior and the prior model, known as the prior hole problem. Recent works have explored learning the energy-based (EBM) prior model as a second-stage, complementary model to bridge the gap. However, the EBM defined on a multi-layer latent space can be highly multi-modal, which makes sampling from such marginal EBM prior challenging in practice, resulting in ineffectively learned EBM. To tackle the challenge, we propose to leverage the diffusion probabilistic scheme to mitigate the burden of EBM sampling and thus facilitate EBM learning. Our extensive experiments demonstrate a superior performance of our diffusion-learned EBM prior on various challenging tasks.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# TOPA: テキストのみの事前アライメントによるビデオ理解のための大規模言語モデルの拡張

TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment ( http://arxiv.org/abs/2405.13911v1 )

ライセンス: Link先を確認
Wei Li, Hehe Fan, Yongkang Wong, Mohan Kankanhalli, Yi Yang, (参考訳) 画像理解の最近の進歩は、Web画像とテキストのペアの広範な利用の恩恵を受けている。 しかし、ビデオの理解は、Webビデオテキストデータがかなりあるにもかかわらず、依然として課題である。 この困難は、ビデオの本質的な複雑さと、最近のWebで収集されたビデオテキストデータセットにおける非効率な言語監督から生じる。 本稿では,ビデオ理解のための大規模言語モデル(LLM)の拡張手法であるText-Only Pre-Alignment (TOPA)を紹介する。 具体的には、まず先進的なLCMを用いて、連続したテキストフレームからなるテキストビデオを自動的に生成し、それに対応するアノテーションを実際のビデオテキストデータをシミュレートする。 そして、これらの注釈付きテキストビデオを用いて、ビデオモダリティで言語のみのLLMを事前調整する。 テキストと実際のビデオのギャップを埋めるために,CLIPモデルを特徴抽出器として使用し,画像とテキストのモダリティの整合を図る。 テキストのみの事前アライメントでは、CLIPテキスト機能のシーケンスとしてエンコードされた連続テキストフレームは、連続CLIPイメージ機能と類似しており、LLMを実際のビデオ表現と整合させる。 ビデオ理解タスクのゼロショット評価や微調整を含む大規模な実験は、TOPAがビデオコンテンツとLLMを協調するための効率的かつ効率的なフレームワークであることを実証している。 特に、ビデオデータをトレーニングせずにTOPA-Llama2-13Bモデルは、挑戦的な長文ビデオ理解ベンチマークであるEgoschemaでトップ1の精度を51.0%達成している。 この性能は、従来のビデオテキスト事前学習手法を超越し、最近のGPT-3.5ベースのビデオエージェントと競合することを示す。

Recent advancements in image understanding have benefited from the extensive use of web image-text pairs. However, video understanding remains a challenge despite the availability of substantial web video-text data. This difficulty primarily arises from the inherent complexity of videos and the inefficient language supervision in recent web-collected video-text datasets. In this paper, we introduce Text-Only Pre-Alignment (TOPA), a novel approach to extend large language models (LLMs) for video understanding, without the need for pre-training on real video data. Specifically, we first employ an advanced LLM to automatically generate Textual Videos comprising continuous textual frames, along with corresponding annotations to simulate real video-text data. Then, these annotated textual videos are used to pre-align a language-only LLM with the video modality. To bridge the gap between textual and real videos, we employ the CLIP model as the feature extractor to align image and text modalities. During text-only pre-alignment, the continuous textual frames, encoded as a sequence of CLIP text features, are analogous to continuous CLIP image features, thus aligning the LLM with real video representation. Extensive experiments, including zero-shot evaluation and finetuning on various video understanding tasks, demonstrate that TOPA is an effective and efficient framework for aligning video content with LLMs. In particular, without training on any video data, the TOPA-Llama2-13B model achieves a Top-1 accuracy of 51.0% on the challenging long-form video understanding benchmark, Egoschema. This performance surpasses previous video-text pre-training approaches and proves competitive with recent GPT-3.5-based video agents.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# 二重ヘテロセダス性雑音を呈するマトリックス-基本限界と最適スペクトル法-

Matrix Denoising with Doubly Heteroscedastic Noise: Fundamental Limits and Optimal Spectral Methods ( http://arxiv.org/abs/2405.13912v1 )

ライセンス: Link先を確認
Yihan Zhang, Marco Mondelli, (参考訳) 本研究では,列相関と列相関の両方でノイズによって劣化したランク1$の信号の特異ベクトルを推定する行列記述問題について検討する。 既存の研究は、正確な漸近的推定誤差を特定できないか、あるいはそれらがそれを行う場合、結果として得られるアプローチ(例えば、白化や特異値の縮小に基づく)は、非常に最適である。 これに加えて、ほとんどの文献は、ノイズが行相関しか持たない場合(片側異方性)に信号の左特異ベクトルを推定する特別なケースに焦点を当てている。 対照的に、我々の研究は、二重ヘテロスセダティックノイズを伴う行列の情報理論的およびアルゴリズム的限界を確立する。 我々は、正確な漸近的平均二乗誤差を特徴付けるとともに、厳密な最適性を保証する新しいスペクトル推定器を設計する。 数値実験により, 理論的に原理化された手法の最先端性を実証した。 この証明は統計物理学や近似メッセージパッシングと結びつき、標準的なランダム行列理論から大きく離れている。

We study the matrix denoising problem of estimating the singular vectors of a rank-$1$ signal corrupted by noise with both column and row correlations. Existing works are either unable to pinpoint the exact asymptotic estimation error or, when they do so, the resulting approaches (e.g., based on whitening or singular value shrinkage) remain vastly suboptimal. On top of this, most of the literature has focused on the special case of estimating the left singular vector of the signal when the noise only possesses row correlation (one-sided heteroscedasticity). In contrast, our work establishes the information-theoretic and algorithmic limits of matrix denoising with doubly heteroscedastic noise. We characterize the exact asymptotic minimum mean square error, and design a novel spectral estimator with rigorous optimality guarantees: under a technical condition, it attains positive correlation with the signals whenever information-theoretically possible and, for one-sided heteroscedasticity, it also achieves the Bayes-optimal error. Numerical experiments demonstrate the significant advantage of our theoretically principled method with the state of the art. The proofs draw connections with statistical physics and approximate message passing, departing drastically from standard random matrix theory techniques.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# 非エルミート力学の幾何学的記述:有限ランク密度作用素の速度制限

A geometrical description of non-Hermitian dynamics: speed limits in finite rank density operators ( http://arxiv.org/abs/2405.13913v1 )

ライセンス: Link先を確認
Niklas Hörnedal, Oskar A. Prośniak, Adolfo del Campo, Aurélia Chenu, (参考訳) 量子系の非エルミート力学は状態密度作用素のランクを保存する。 我々はこの洞察を用いて幾何学的記述を発展させる。 特に,直交コヒーレントな方向と非コヒーレントな方向を識別し,物理的解釈を行う。 この理解により、所定の軌道に沿って非エルミート運転を行うための成功率を最適化することができる。 近道と断端の意義を示す。 非エルミート・ハミルトニアンに対する速度制限の幾何学的解釈を導入し、その厳密性を分析する。 このような速度制限を飽和させる明示的な表現を導出し、散逸的量子ビットの最小例で結果を示す。

Non-Hermitian dynamics in quantum systems preserves the rank of the state density operator. We use this insight to develop its geometrical description. In particular, we identify mutually orthogonal coherent and incoherent directions and give their physical interpretation. This understanding allows us to optimize the success rate for implementing non-Hermitian driving along prescribed trajectories. We show its significance for shortcuts to adiabaticity. We introduce the geometrical interpretation of a speed limit for non-Hermitian Hamiltonians and analyze its tightness. We derive the explicit expression that saturates such a speed limit and illustrate our results on a minimal example of a dissipative qubit.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# HeteGraph-Mamba:選択状態空間モデルによる不均一グラフ学習

HeteGraph-Mamba: Heterogeneous Graph Learning via Selective State Space Model ( http://arxiv.org/abs/2405.13915v1 )

ライセンス: Link先を確認
Zhenyu Pan, Yoonsung Jeong, Xiaoda Liu, Han Liu, (参考訳) 異種グラフ学習のための選択状態空間モデル(SSSM)を利用するための最初の探索として、異種グラフマンバネットワーク(HGMN)を提案する。 文献と比較すると、HGMNは2つの大きな課題を克服しています。 一 異種ノード間の長距離依存関係の取得及び (2)不均一グラフデータにSSSMを適用する。 我々の重要な貢献は、実世界のシナリオにおける異種ノードを解ける汎用グラフアーキテクチャであり、その後に効率的なフローが続く。 提案手法では,まず同一ノードタイプ内の長距離依存関係をキャプチャし,次にすべてのノードタイプにまたがる2段階の効率的なトークン化手法を提案する。 実験的に、不均一なベンチマーク上で、我々のフレームワークと19の最先端メソッドの比較を行う。 大規模な比較では、我々のフレームワークは精度と効率の両面で他の手法よりも優れていることが示されている。

We propose a heterogeneous graph mamba network (HGMN) as the first exploration in leveraging the selective state space models (SSSMs) for heterogeneous graph learning. Compared with the literature, our HGMN overcomes two major challenges: (i) capturing long-range dependencies among heterogeneous nodes and (ii) adapting SSSMs to heterogeneous graph data. Our key contribution is a general graph architecture that can solve heterogeneous nodes in real-world scenarios, followed an efficient flow. Methodologically, we introduce a two-level efficient tokenization approach that first captures long-range dependencies within identical node types, and subsequently across all node types. Empirically, we conduct comparisons between our framework and 19 state-of-the-art methods on the heterogeneous benchmarks. The extensive comparisons demonstrate that our framework outperforms other methods in both the accuracy and efficiency dimensions.
翻訳日:2024-05-24 20:43:22 公開日:2024-05-22
# 生産的量子プログラミングへの抽象化階層

An Abstraction Hierarchy Toward Productive Quantum Programming ( http://arxiv.org/abs/2405.13918v1 )

ライセンス: Link先を確認
Olivia Di Matteo, Santiago Núñez-Corrales, Michał Stęchły, Steven P. Reinhardt, Tim Mattson, (参考訳) 古典コンピューティングの70年の経験から、持続可能なコンピュータ産業は、幅広い特定のエンドユーザのニーズに対応するプログラムを書くソフトウェアエンジニアのコミュニティに依存し、そのプロセスにおけるパフォーマンスとユーティリティの両方を達成することを示唆している。 量子コンピューティングは新興技術であり、量子ソフトウェアツールやプラクティスが研究者、ソフトウェアエンジニア、アプリケーションスペシャリストに最適なものを理解するための洞察を持っていません。 今日の量子コンピュータの開発者は、ハードウェアの低レベルの詳細に不満を抱いている。 本稿では,プログラミングモデルの言語を用いて,量子ソフトウェアスタックの現在の状態を分析し,再構成する。 量子ソフトウェア工学を支援する抽象階層を提案し、現在の技術で見られるプログラミング、実行、ハードウェアモデル間の重複の結果について議論する。 本稿では,この階層構造を用いて固有値推定問題を2つの方法で解く(誤差緩和を伴う変分アルゴリズムと誤り訂正による位相推定)。 私たちの研究は、量子プログラミングにおける具体的な概念的な課題とギャップを指し、いくつかの具体的なステップを提案していますが、主要なテーマは、コンポーネントだけでなく、抽象的な階層についての考え方に重点を置いています。

Experience from seven decades of classical computing suggests that a sustainable computer industry depends on a community of software engineers writing programs to address a wide variety of specific end-user needs, achieving both performance and utility in the process. Quantum computing is an emerging technology, and we do not yet have the insight to understand what quantum software tools and practices will best support researchers, software engineers, or applications specialists. Developers for today's quantum computers are grappling with the low-level details of the hardware, and progress towards scalable devices does not yet suggest what higher-level abstractions may look like. In this paper, we analyze and reframe the current state of the quantum software stack using the language of programming models. We propose an abstraction hierarchy to support quantum software engineering and discuss the consequences of overlaps across the programming, execution, and hardware models found in current technologies. We exercise this hierarchy for solving the eigenvalue estimation problem in two ways (a variational algorithm with error mitigation, and phase estimation with error correction) and pinpoint key differences in these approaches in terms of these layered models and their overlaps. While our work points to concrete conceptual challenges and gaps in quantum programming and proposes some specific steps forward, our primary thesis is that progress hinges on thinking about the abstraction hierarchy holistically, and not just about its components.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# 公正オンラインバイラテラル取引

Fair Online Bilateral Trade ( http://arxiv.org/abs/2405.13919v1 )

ライセンス: Link先を確認
François Bachoc, Nicolò Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni, (参考訳) オンライン二国間取引では、プラットフォームは、特定の利益のためにプライベートなバリュエーションを持つ、入ってくる買い手と売り手のペアに価格を投稿する。 価格が買い手のバリュエーションより低く、売り手のバリュエーションより高い場合、取引が行われる。 それまでの作業は、取引の利益(売り手と買い手のユーティリティの合計)を最大化する価格設定を目標として、プラットフォームの観点から集中していた。 しかし、貿易からの利得はトレーダーにとって不公平な可能性がある。 この作業では、売り手と買い手のユーティリティーの最小限として定義された、取引による公正な利益でプラットフォームに報酬を与えることで公正性を強制する。 それぞれの取引が終わった後、プラットフォームは、各トレーダーが現在の価格を受け入れたかどうかのみを学習した場合に、貿易から公正に利益を得るための後悔の体制の完全な評価を行う。 具体的には、決定論的条件で$\Theta(\ln T)$、確率的条件で$\Omega(T)$、確率的条件で$\tilde{\Theta}(T^{2/3})$。 それぞれのインタラクションの後に、プラットフォームが真のトレーダーのバリュエーションを観察できることを許す。

In online bilateral trade, a platform posts prices to incoming pairs of buyers and sellers that have private valuations for a certain good. If the price is lower than the buyers' valuation and higher than the sellers' valuation, then a trade takes place. Previous work focused on the platform perspective, with the goal of setting prices maximizing the gain from trade (the sum of sellers' and buyers' utilities). Gain from trade is, however, potentially unfair to traders, as they may receive highly uneven shares of the total utility. In this work we enforce fairness by rewarding the platform with the fair gain from trade, defined as the minimum between sellers' and buyers' utilities. After showing that any no-regret learning algorithm designed to maximize the sum of the utilities may fail badly with fair gain from trade, we present our main contribution: a complete characterization of the regret regimes for fair gain from trade when, after each interaction, the platform only learns whether each trader accepted the current price. Specifically, we prove the following regret bounds: $\Theta(\ln T)$ in the deterministic setting, $\Omega(T)$ in the stochastic setting, and $\tilde{\Theta}(T^{2/3})$ in the stochastic setting when sellers' and buyers' valuations are independent of each other. We conclude by providing tight regret bounds when, after each interaction, the platform is allowed to observe the true traders' valuations.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# 敵対的攻撃による不確実性校正の認定に向けて

Towards Certification of Uncertainty Calibration under Adversarial Attacks ( http://arxiv.org/abs/2405.13922v1 )

ライセンス: Link先を確認
Cornelius Emde, Francesco Pinto, Thomas Lukasiewicz, Philip H. S. Torr, Adel Bibi, (参考訳) ニューラル分類器は、その精度を変える敵の摂動に敏感であることが知られているので、このような摂動に対する予測の不感度を証明可能な保証を提供するために、textit{certification method} が開発された。 さらに、安全クリティカルな応用においては、分類器(モデル校正とも呼ばれる)の信頼性の頻繁な解釈が最も重要である。 この特性は、ブライアスコアまたは期待キャリブレーション誤差によって測定することができる。 攻撃はキャリブレーションを著しく損なう可能性を示し, 対向的摂動下でのキャリブレーションにおける最悪のキャリブレーション境界として認定キャリブレーションを提案する。 具体的には、期待キャリブレーション誤差に対する混合整数プログラムの解を用いて、ブライアスコアと近似境界に対する解析的境界を生成する。 最後に,<textit{adversarial calibration training} を用いて,新たなキャリブレーション攻撃を提案し,モデルキャリブレーションを改善する方法を示す。

Since neural classifiers are known to be sensitive to adversarial perturbations that alter their accuracy, \textit{certification methods} have been developed to provide provable guarantees on the insensitivity of their predictions to such perturbations. Furthermore, in safety-critical applications, the frequentist interpretation of the confidence of a classifier (also known as model calibration) can be of utmost importance. This property can be measured via the Brier score or the expected calibration error. We show that attacks can significantly harm calibration, and thus propose certified calibration as worst-case bounds on calibration under adversarial perturbations. Specifically, we produce analytic bounds for the Brier score and approximate bounds via the solution of a mixed-integer program on the expected calibration error. Finally, we propose novel calibration attacks and demonstrate how they can improve model calibration through \textit{adversarial calibration training}.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# なぜチャット大言語モデルを英語に変換しないのか?

Why Not Transform Chat Large Language Models to Non-English? ( http://arxiv.org/abs/2405.13923v1 )

ライセンス: Link先を確認
Xiang Geng, Ming Zhu, Jiahuan Li, Zhejian Lai, Wei Zou, Shuaijie She, Jiaxin Guo, Xiaofeng Zhao, Yinglu Li, Yuang Li, Chang Su, Yanqing Zhao, Min Zhang, Hao Yang, Xinglin Lyu, Jiajun Chen, Shujian Huang, (参考訳) 非英語データの不足は、非英語の大規模言語モデル(LLM)の開発を制限する。 英語中心のLLMを非英語に変換することは、効果的かつ資源効率のよい方法として認識されている。 従来の研究は、ベースLLMから始まり、より強力なLLM、eg GPT-4によって生成されたデータを用いて知識蒸留(KD)を行う。 基本LLMと比較して、チャットLLMは高度な能力、例えばマルチターン会話や人間の嗜好アライメントにさらに最適化されており、利便性と安全性の両方においてより強力である。 しかし、チャット LLM の変換には、2つの重要な問題がある。 2) 変革中の破滅的な忘れ方からオリジナル知識をどう防ぐか。 TransLLMと呼ばれるシンプルなフレームワークを導入することで、これらの問題をターゲットにしています。 最初の問題として、TransLLMは、翻訳問題を、英語と非英語のステップバイステップのブリッジとして使用する翻訳チェーン・オブ・シント(translation chain-of- Thought)と、いくつかの共通のサブタスクに分割する。 公開データを用いたサブタスクの性能をさらに向上する。 2つ目の問題として,LLMパラメータの保持のためのトレーニングのための低ランク適応と,チャットLLM自体が生成したデータを用いて凍結したパラメータから元の知識を復元するリカバリKDという2つの相乗的要素からなる手法を提案する。 実験ではLLaMA-2-chat-7Bをタイ語に変換する。 本手法は,シングルターンデータのみを用いて,マルチターンベンチマークMT-benchにおいて,強いベースラインとChatGPTより優れる。 さらに,安全データを持たない手法では,ChatGPT や GPT-4 よりも安全性ベンチマークAdvBench の有害なクエリを拒否する。

The scarcity of non-English data limits the development of non-English large language models (LLMs). Transforming English-centric LLMs to non-English has been identified as an effective and resource-efficient method. Previous works start from base LLMs and perform knowledge distillation (KD) with data generated by stronger LLMs, e.g. GPT-4. Compared to base LLMs, chat LLMs are further optimized for advanced abilities, e.g. multi-turn conversation and human preference alignment, and thus more powerful in both helpfulness and safety. However, transforming a chat LLM involves two critical issues: (1) How can we effectively transfer advanced abilities without their supervised data? (2) How can we prevent the original knowledge from catastrophic forgetting during transformation? We target these issues by introducing a simple framework called TransLLM. For the first issue, TransLLM divides the transfer problem into some common sub-tasks with the translation chain-of-thought, which uses the translation as the bridge between English and non-English step-by-step. We further enhance the performance of sub-tasks with publicly available data. For the second issue, we propose a method comprising two synergistic components: low-rank adaptation for training to maintain the original LLM parameters, and recovery KD, which utilizes data generated by the chat LLM itself to recover the original knowledge from the frozen parameters. In the experiments, we transform the LLaMA-2-chat-7B to the Thai language. Our method, using only single-turn data, outperforms strong baselines and ChatGPT on multi-turn benchmark MT-bench. Furthermore, our method, without safety data, rejects more harmful queries of safety benchmark AdvBench than both ChatGPT and GPT-4.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# Xilinx FPGAにおけるメモリストラップ攻撃:終端プロセスからのプライベートデータ抽出

Memory Scraping Attack on Xilinx FPGAs: Private Data Extraction from Terminated Processes ( http://arxiv.org/abs/2405.13927v1 )

ライセンス: Link先を確認
Bharadwaj Madabhushi, Sandip Kundu, Daniel Holcomb, (参考訳) FPGAベースのハードウェアアクセラレータは、その汎用性、カスタマイズ性、エネルギー効率、一定のレイテンシ、スケーラビリティにより、ますます人気が高まっている。 FPGAは特定のアルゴリズムに合わせることができ、アルゴリズムの並列性を効果的に活用する効率的なハードウェアの実装を可能にする。 これにより、特に高並列アプリケーションにおいて、CPUやGPUよりも大幅にパフォーマンスが向上する可能性がある。 例えば、最近の研究では、TitanX Pascal GPUのパフォーマンスの最大90%をStratix 10 FPGAで達成でき、電力の50倍以下を消費できることがわかった。 これによりFPGAは、機械学習(ML)ワークロードの高速化に魅力的な選択肢になります。 しかしながら,既存のXilinx FPGAベースのハードウェアアクセラレーションソリューションでは,プライバシとセキュリティ上の脆弱性が検出されている。 これらの脆弱性は、メモリ初期化の欠如とプロセス分離の欠如から発生し、プロセスが使用するプライベートデータへの不正アクセスのための潜在的手段を生成する。 この問題を説明するために,我々はXilinxからPetaLinuxツールを実行するXilinx ZCU104ボードを用いて実験を行った。 PetaLinuxは、停止したプロセスに関連するメモリ位置を効果的にクリアしておらず、メモリスクラップ攻撃(MSA)に対して脆弱であることがわかった。 本論文の主な貢献は2つある。 最初のコントリビューションは、異なるユーザ空間からXilinxデバッガを使用するアタックメソッドである。 我々は,プロセスの分離が不十分なため,プロセスID,仮想アドレス空間,ページマップを別のユーザ空間からアクセスすることができることがわかった。 第2のコントリビューションは、終了したプロセスの特徴付けと、プライベートデータへのアクセスのための方法論である。 Xilinx MLアプリケーションライブラリについて説明する。

FPGA-based hardware accelerators are becoming increasingly popular due to their versatility, customizability, energy efficiency, constant latency, and scalability. FPGAs can be tailored to specific algorithms, enabling efficient hardware implementations that effectively leverage algorithm parallelism. This can lead to significant performance improvements over CPUs and GPUs, particularly for highly parallel applications. For example, a recent study found that Stratix 10 FPGAs can achieve up to 90\% of the performance of a TitanX Pascal GPU while consuming less than 50\% of the power. This makes FPGAs an attractive choice for accelerating machine learning (ML) workloads. However, our research finds privacy and security vulnerabilities in existing Xilinx FPGA-based hardware acceleration solutions. These vulnerabilities arise from the lack of memory initialization and insufficient process isolation, which creates potential avenues for unauthorized access to private data used by processes. To illustrate this issue, we conducted experiments using a Xilinx ZCU104 board running the PetaLinux tool from Xilinx. We found that PetaLinux does not effectively clear memory locations associated with a terminated process, leaving them vulnerable to memory scraping attack (MSA). This paper makes two main contributions. The first contribution is an attack methodology of using the Xilinx debugger from a different user space. We find that we are able to access process IDs, virtual address spaces, and pagemaps of one user from a different user space because of lack of adequate process isolation. The second contribution is a methodology for characterizing terminated processes and accessing their private data. We illustrate this on Xilinx ML application library.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# Vikhr: ロシアのオープンソースのインストラクションチューニング型大規模言語モデル

Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian ( http://arxiv.org/abs/2405.13929v1 )

ライセンス: Link先を確認
Aleksandr Nikolich, Konstantin Korolev, Artem Shelmanov, (参考訳) 様々な大規模言語モデル(LLM)の開発が急増している。 しかし、英語以外の言語のテキスト生成は、しばしば、生成品質の低下や、モデルの語彙におけるトークンの不均等な表現による計算性能の低下など、重大な課題に直面している。 本研究では,これらの問題に対処し,ロシア語に特化して設計された,最先端のオープンソース命令付きLLMであるVikhrを紹介する。 算術的に安価なLoRAアダプタを英語指向のモデルで使用するロシアの従来の取り組みとは異なり、Vikhrは適応されたトークン化子語彙を特徴とし、全ての重みの事前訓練と命令チューニングを継続している。 このアプローチはモデルの性能を高めるだけでなく、計算と文脈の効率を大幅に改善する。 さまざまなロシア語のベンチマークにおけるVikhrの顕著なパフォーマンスは、継続した事前トレーニングのための命令データセットとコーパスの拡大への取り組みにも影響します。 Vikhrは、ロシアのオープンソースLLMの中で、新しい最先端の技術を設定しているだけでなく、特定のベンチマークでプロプライエタリなクローズドソースモデルよりも優れています。 モデルウェイト、命令セット、コードは公開されています

There has been a surge in the development of various Large Language Models (LLMs). However, text generation for languages other than English often faces significant challenges, including poor generation quality and the reduced computational performance due to the disproportionate representation of tokens in model's vocabulary. In this work, we address these issues and introduce Vikhr, a new state-of-the-art open-source instruction-tuned LLM designed specifically for the Russian language. Unlike previous efforts for Russian that utilize computationally inexpensive LoRA adapters on top of English-oriented models, Vikhr features an adapted tokenizer vocabulary and undergoes the continued pre-training and instruction tuning of all weights. This approach not only enhances the model's performance but also significantly improves its computational and contextual efficiency. The remarkable performance of Vikhr across various Russian-language benchmarks can also be attributed to our efforts in expanding instruction datasets and corpora for continued pre-training. Vikhr not only sets the new state of the art among open-source LLMs for Russian, but even outperforms some proprietary closed-source models on certain benchmarks. The model weights, instruction sets, and code are publicly available
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# AlabOS: 自律的な研究所のためのPythonベースの再構成可能なワークフロー管理フレームワーク

AlabOS: A Python-based Reconfigurable Workflow Management Framework for Autonomous Laboratories ( http://arxiv.org/abs/2405.13930v1 )

ライセンス: Link先を確認
Yuxing Fei, Bernardus Rendy, Rishi Kumar, Olympia Dartsi, Hrushikesh P. Sahasrabuddhe, Matthew J. McDermott, Zheren Wang, Nathan J. Szymanski, Lauren N. Walters, David Milsted, Yan Zeng, Anubhav Jain, Gerbrand Ceder, (参考訳) 近年の自律的な研究室の出現と、高スループットスクリーニングとアクティブラーニングのアルゴリズムが組み合わさって、材料発見とイノベーションの加速を約束している。 これらの自律システムは複雑さが増すにつれて、堅牢で効率的なワークフロー管理ソフトウェアへの需要がますます重要になっている。 本稿では,実験のオーケストレーションと資源管理のための汎用ソフトウェアフレームワークであるAlabOSを紹介する。 我々は, AlabOS の実装を, プロトタイプの自律材料実験室で実証した。 AlabOSは再構成可能な実験ワークフローモデルを備えており、モジュラータスクで構成されるさまざまなワークフローを同時に実行することができる。 そのため、AlabOSは、材料研究のための自動運転ラボの開発の進捗を定義する、急速に変化する実験的プロトコルを扱うのに適している。

The recent advent of autonomous laboratories, coupled with algorithms for high-throughput screening and active learning, promises to accelerate materials discovery and innovation. As these autonomous systems grow in complexity, the demand for robust and efficient workflow management software becomes increasingly critical. In this paper, we introduce AlabOS, a general-purpose software framework for orchestrating experiments and managing resources, with an emphasis on automated laboratories for materials synthesis and characterization. We demonstrate the implementation of AlabOS in a prototype autonomous materials laboratory. AlabOS features a reconfigurable experiment workflow model, enabling the simultaneous execution of varied workflows composed of modular tasks. Therefore, AlabOS is well-suited to handle the rapidly changing experimental protocols defining the progress of self-driving laboratory development for materials research.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# 不確実性軽減のための物理・計算実験条件の同定手法

A Methodology to Identify Physical or Computational Experiment Conditions for Uncertainty Mitigation ( http://arxiv.org/abs/2405.13931v1 )

ライセンス: Link先を確認
Efe Y. Yarbasi, Dimitri N. Mavris, (参考訳) 複雑なエンジニアリングシステムは、設計決定を駆動するためにサブシステムのシミュレーションとメトリクスの計算を統合する必要がある。 本稿では,システムレベルの不確実性軽減を目的とした計算実験や物理実験を設計するための方法論を提案する。 この方法論は、物理的、機能的、モデリングのアーキテクチャが決定される前に決定された問題オントロジーに従っている。 システムレベルのツールを用いた感度解析技術を実行することにより、重要なてんかんの不確実性を特定することができる。 その後、パラメータに関する新しい知識を生成し、不確実性を軽減するために、特定の計算および物理実験を設計するためのフレームワークが導入された。 この手法は、初期の設計であるBlended-Wing-Body (BWB) の航空機コンセプトのケーススタディを通じて実証され、コンピュータ実験や物理実験の導出によるシステムレベルの不確実性を緩和するためにエアロ構造解析をどのように活用できるかを示している。 提案手法は様々な設計課題にまたがって不確実性管理に取り組むのに十分な汎用性があり、よりリスクに富んだ設計プロセスの可能性を強調している。

Complex engineering systems require integration of simulation of sub-systems and calculation of metrics to drive design decisions. This paper introduces a methodology for designing computational or physical experiments for system-level uncertainty mitigation purposes. The methodology follows a previously determined problem ontology, where physical, functional and modeling architectures are decided upon. By carrying out sensitivity analysis techniques utilizing system-level tools, critical epistemic uncertainties can be identified. Afterwards, a framework is introduced to design specific computational and physical experimentation for generating new knowledge about parameters, and for uncertainty mitigation. The methodology is demonstrated through a case study on an early-stage design Blended-Wing-Body (BWB) aircraft concept, showcasing how aerostructures analyses can be leveraged for mitigating system-level uncertainty, by computer experiments or guiding physical experimentation. The proposed methodology is versatile enough to tackle uncertainty management across various design challenges, highlighting the potential for more risk-informed design processes.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# LLMによるコードの信頼性向上のための目標検証質問の連鎖

Chain of Targeted Verification Questions to Improve the Reliability of Code Generated by LLMs ( http://arxiv.org/abs/2405.13932v1 )

ライセンス: Link先を確認
Sylvain Kouemo Ngassom, Arghavan Moradi Dakhel, Florian Tambon, Foutse Khomh, (参考訳) GitHub CopilotやChatGPTといったLLMベースのアシスタントは、プロンプトと呼ばれる自然言語記述で記述されたプログラミングタスクを満たすコードを生成する可能性がある。 これらのアシスタントの幅広いアクセシビリティにより、さまざまなバックグラウンドを持つユーザは、コードを生成し、それをソフトウェアプロジェクトに組み込むことができる。 しかし、研究によると、LLMによって生成されたコードはバグを起こしやすく、タスク仕様のさまざまなコーナーケースを見逃してしまう可能性がある。 このようなバグの多いコードをユーザに提示することは、LDMベースのアシスタントの信頼性と信頼性に影響を与える可能性がある。 さらに、特にテストケースが利用できない場合には、ユーザがコードに存在するバグを検出して修正する必要がある。 本研究では,LLMが生成するコードの信頼性向上を目的とした自己補充手法を提案する。 当社のアプローチは,初期コード内の潜在的なバグを特定するために,対象とする検証質問(VQ)に基づいています。 これらのVQは、初期コードの抽象構文木(AST)内の様々なノードをターゲットにしており、LLM生成コードで一般的に見られる特定のタイプのバグパターンをトリガーする可能性がある。 最後に,LLMをターゲットとするVQと初期コードで再プロンプトすることで,潜在的なバグの修復を試みる。 提案手法は,CoderEvalデータセットのプログラミングタスクに基づいて,コード中のターゲットエラー数を21%から62%に減らし,実行可能コードインスタンス数を13%に改善することで,最先端メソッドよりも優れていることを示す。

LLM-based assistants, such as GitHub Copilot and ChatGPT, have the potential to generate code that fulfills a programming task described in a natural language description, referred to as a prompt. The widespread accessibility of these assistants enables users with diverse backgrounds to generate code and integrate it into software projects. However, studies show that code generated by LLMs is prone to bugs and may miss various corner cases in task specifications. Presenting such buggy code to users can impact their reliability and trust in LLM-based assistants. Moreover, significant efforts are required by the user to detect and repair any bug present in the code, especially if no test cases are available. In this study, we propose a self-refinement method aimed at improving the reliability of code generated by LLMs by minimizing the number of bugs before execution, without human intervention, and in the absence of test cases. Our approach is based on targeted Verification Questions (VQs) to identify potential bugs within the initial code. These VQs target various nodes within the Abstract Syntax Tree (AST) of the initial code, which have the potential to trigger specific types of bug patterns commonly found in LLM-generated code. Finally, our method attempts to repair these potential bugs by re-prompting the LLM with the targeted VQs and the initial code. Our evaluation, based on programming tasks in the CoderEval dataset, demonstrates that our proposed method outperforms state-of-the-art methods by decreasing the number of targeted errors in the code between 21% to 62% and improving the number of executable code instances to 13%.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# 復活攻撃: Xilinx MPU のメモリ保護の定義

Resurrection Attack: Defeating Xilinx MPU's Memory Protection ( http://arxiv.org/abs/2405.13933v1 )

ライセンス: Link先を確認
Bharadwaj Madabhushi, Chandra Sekhar Mummidi, Sandip Kundu, Daniel Holcomb, (参考訳) メモリ保護ユニット(MPU)は、ARM 940T、Infineon TC1775、Xilinx Zynqなどの組み込みプロセッサで一般的に使用されるハードウェア支援のセキュリティ機能である。 MPUはメモリを静的にパーティションし、パーティションごとに個々の保護属性を設定する。 MPUは通常、ユーザーモードとスーパーバイザーモードの2つの保護ドメインを定義する。 通常、これはカーネルとアプリケーションを保護するのに十分である。 しかし、私たちはXilinx MPU(XMPU)実装の脆弱性から、Resurrection Attackと呼ばれるプロセスメモリにアクセスする方法を発見しました。 XMPUセキュリティポリシーは,ユーザがアクティブである場合に,ユーザメモリを不正アクセスから保護する。 しかし、ユーザのセッションが終了すると、終了プロセスのメモリ領域の内容がクリアされない。 攻撃者は、再割り当て後にメモリ領域にアクセスすることで、この脆弱性を悪用することができる。 攻撃者は、前のユーザのメモリ領域からデータを読み取ることができ、それによって機密性を損なう。 復活攻撃を防ぐために、停止したプロセスのメモリ領域をクリアする必要がある。 しかしながら、XMPU実装ではそうではないため、攻撃は成功します。 Resurrection攻撃は重大なセキュリティ上の欠陥であり、機密データを盗んだり、システムへの不正アクセスを得るために悪用される可能性がある。 Xilinx FPGAのユーザは、この脆弱性に対処するまでこの脆弱性に気付くことが重要だ。

Memory protection units (MPUs) are hardware-assisted security features that are commonly used in embedded processors such as the ARM 940T, Infineon TC1775, and Xilinx Zynq. MPUs partition the memory statically, and set individual protection attributes for each partition. MPUs typically define two protection domains: user mode and supervisor mode. Normally, this is sufficient for protecting the kernel and applications. However, we have discovered a way to access a process memory due to a vulnerability in Xilinx MPU (XMPU) implementation that we call Resurrection Attack. We find that XMPU security policy protects user memory from unauthorized access when the user is active. However, when a user's session is terminated, the contents of the memory region of the terminated process are not cleared. An attacker can exploit this vulnerability by gaining access to the memory region after it has been reassigned. The attacker can read the data from the previous user's memory region, thereby compromising the confidentiality. To prevent the Resurrection Attack, the memory region of a terminated process must be cleared. However, this is not the case in the XMPU implementation, which allows our attack to succeed. The Resurrection Attack is a serious security flaw that could be exploited to steal sensitive data or gain unauthorized access to a system. It is important for users of Xilinx FPGAs to be aware of this vulnerability until this flaw is addressed.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# テキストフリーマルチドメイングラフ事前学習:グラフ基礎モデルへ向けて

Text-Free Multi-domain Graph Pre-training:Toward Graph Foundation Models ( http://arxiv.org/abs/2405.13934v1 )

ライセンス: Link先を確認
Xingtong Yu, Chang Zhou, Yuan Fang, Xinming Zhang, (参考訳) さまざまな領域にまたがる幅広いグラフデータに基づいてグラフ基盤モデルをトレーニングすることは可能ですか? この目標への大きなハードルは、異なる領域のグラフがしばしば非常に異なる特性を示すという事実にある。 事前トレーニングのためのマルチドメイングラフの統合には、最初はいくつかの取り組みがあったが、主にグラフを整列させるためにテキスト記述に依存しており、そのアプリケーションはテキスト対応グラフに制限されている。 さらに、異なるソースドメインが互いに衝突したり干渉したりし、ターゲットドメインとの関係は著しく変化する。 これらの問題に対処するため,MDGPTというテキストフリーなマルチドメイングラフ事前学習・適応フレームワークを提案する。 まず、シナジスティックな事前学習のために、ソースドメインにまたがる機能を調整するために、一連のドメイントークンを提案する。 第2に、統一的なプロンプトと混合プロンプトからなる二重プロンプトを提案し、統合されたマルチドメイン知識とドメイン固有の知識の調整された混合により、ターゲットドメインをさらに適応させる。 最後に、6つの公開データセットによる広範な実験を行い、MDGPTを評価し分析する。

Given the ubiquity of graph data, it is intriguing to ask: Is it possible to train a graph foundation model on a broad range of graph data across diverse domains? A major hurdle toward this goal lies in the fact that graphs from different domains often exhibit profoundly divergent characteristics. Although there have been some initial efforts in integrating multi-domain graphs for pre-training, they primarily rely on textual descriptions to align the graphs, limiting their application to text-attributed graphs. Moreover, different source domains may conflict or interfere with each other, and their relevance to the target domain can vary significantly. To address these issues, we propose MDGPT, a text free Multi-Domain Graph Pre-Training and adaptation framework designed to exploit multi-domain knowledge for graph learning. First, we propose a set of domain tokens to to align features across source domains for synergistic pre-training. Second, we propose a dual prompts, consisting of a unifying prompt and a mixing prompt, to further adapt the target domain with unified multi-domain knowledge and a tailored mixture of domain-specific knowledge. Finally, we conduct extensive experiments involving six public datasets to evaluate and analyze MDGPT, which outperforms prior art by up to 37.9%.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# 北エフ量子スピン液体候補Na2Co2TeO6の面外磁気相図

Out-of-plane magnetic phase diagram of Kitaev quantum spin liquid candidate Na2Co2TeO6 ( http://arxiv.org/abs/2405.13935v1 )

ライセンス: Link先を確認
Shengzhi Zhang, Sangyun Lee, Eric Brosha, Qing Huang, Haidong Zhou, Vivien S. Zapf, Minseong Lee, (参考訳) 我々は,ハニカム磁石Na2Co2TeO6とCo3d7の相図を平面外磁場中で解析し,その相図をマッピングした。 この物質は、Coスピンと、高磁場における北エフ量子スピン液体の挙動の間において、最も近接した北エフ相互作用を示すためにこれまで提案されてきた。 低磁場下では、TN = 27Kで熱相転移を観測し、常磁性状態から正準強磁性状態へ遷移する。 磁場の印加の下では、10KからTNの間のJ = 1/2の飽和前にスピンフロップのような相転移が起こった。 10K以下では、磁気飽和前の磁気感受性(dM/dH)においてピークディップピーク構造が10〜17Tに出現し、磁気プラトーの挙動を連想させる。 磁場効果の測定は、この領域におけるディップピーク・ディップの挙動も示している。 我々のデータは、単一イオン異方性を持つXXZモデルで説明でき、おそらくは小さなKitaev と {\Gamma} の交換相互作用によって説明できる。 また、交換相互作用のエネルギースケールを制約する磁化飽和場を曖昧に決定する。

We have investigated the magnetic properties and mapped out the phase diagram of the honeycomb magnet Na2Co2TeO6 with Co 3d7 in out-of-plane magnetic fields. This material has previously been proposed to show nearest-neighbor Kitaev interactions between Co spins and maybe even Kitaev quantum spin liquid behavior in high fields. At low magnetic fields, we observe a thermal phase transition at TN = 27 K, transitioning from a paramagnetic state to a canonical ferrimagnetic state. Under the application of magnetic fields, a spin flop-like phase transition occurred before saturation of J = 1/2 between 10 K and TN. Below 10 K, a peak-dip-peak structure emerges between 10 and 17 T in the magnetic susceptibility (dM/dH) before the magnetic saturation, reminiscent of magnetic plateau behavior. The measurement of the magnetocaloric effect also shows dip-peak-dip behavior in this field range. Our data can be explained by an XXZ model with a single ion anisotropy and possibly small Kitaev and {\Gamma} exchange interactions. We also unambiguously determined the magnetization saturation field that helps constrain the energy scale of the exchange interactions
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# DyGPrompt: 動的グラフの学習機能と時間プロンプト

DyGPrompt: Learning Feature and Time Prompts on Dynamic Graphs ( http://arxiv.org/abs/2405.13937v1 )

ライセンス: Link先を確認
Xingtong Yu, Zhenghao Liu, Yuan Fang, Xinming Zhang, (参考訳) 動的グラフは実世界で広く普及し、様々な分野にわたるオブジェクト間の動的関係をモデル化する。 動的グラフモデリングでは、動的グラフニューラルネットワーク(DGNN)が主流の手法として登場し、一般的にリンク予測タスクで事前訓練され、ノード分類などの下流タスクの目的との大きなギャップを残している。 ギャップを埋めるために、グラフ上では、プロンプトベースの学習が注目を集めている。 しかし、既存の取り組みは静的グラフに重点を置いており、動的グラフの進化を無視している。 本稿では,動的グラフモデリングのための新しい事前学習および促進フレームワークであるDyGPromptを提案する。 まず,タスクの目的と,事前学習タスクと下流タスクの動的変動のギャップに対処する2つのプロンプトを設計する。 第2に,ノードと時間の特徴が相互に特徴付けされていることを認識し,下流タスクにおけるノード時間パターンの進化をモデル化するための2つの条件ネットを提案する。 最後に、DyGPromptを3つの公開データセットに関する広範な実験により徹底的に評価、分析する。

Dynamic graphs are pervasive in the real world, modeling dynamic relations between objects across various fields. For dynamic graph modeling, dynamic graph neural networks (DGNNs) have emerged as a mainstream technique, which are generally pre-trained on the link prediction task, leaving a significant gap from the objectives of downstream tasks such as node classification. To bridge the gap, prompt-based learning has gained traction on graphs. However, existing efforts focus on static graphs, neglecting the evolution of dynamic graphs. In this paper, we propose DyGPrompt, a novel pre-training and prompting framework for dynamic graph modeling. First, we design dual prompts to address the gap in both task objectives and dynamic variations across pre-training and downstream tasks. Second, we recognize that node and time features mutually characterize each other, and propose dual condition-nets to model the evolving node-time patterns in downstream tasks. Finally, we thoroughly evaluate and analyze DyGPrompt through extensive experiments on three public datasets.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# eXmY: 任意ビット精度量子化のためのデータ型と技術

eXmY: A Data Type and Technique for Arbitrary Bit Precision Quantization ( http://arxiv.org/abs/2405.13938v1 )

ライセンス: Link先を確認
Aditya Agrawal, Matthew Hedlund, Blake Hechtman, (参考訳) eXmYはMLモデルの量子化のための新しいデータ型である。 任意のビット幅と任意の整数および浮動小数点形式の両方をサポートする。 例えば、3, 5, 7, 9ビットフォーマットをシームレスにサポートする。 特定のビット幅については、eg e0m6, e1m5, e2m4, e3m3, e4m2, e5m1, e6m0と定義する。 2ビット幅の非パワー(eg 5, 6, 7)に対して、完全圧縮、アドレス可能性のバイト化を実現し、シャーディングやベクトル処理に適する新しい符号化と復号方式を作成した。 我々は、C++、TensorFlow、JAX、PAXでテンソルとチェックポイントをエミュレーション、エンコーディング、デコードするためのライブラリを実装した。 最適な性能を得るために、コーデックはCPU上のSIMD命令とTPUおよびGPU上のベクトル命令を使用する。 eXmYはテンソル中の指数の統計分布を利用する手法でもある。 ウェイト、静的および動的アクティベーション、勾配、マスターウェイト、オプティマイザ状態の定量化に使うことができる。 メモリ(CPU DRAMとアクセラレータHBM)、ネットワークとディスクのストレージと転送を削減できる。 マルチテナントが増加し、計算が高速化される。 eXmYは約2年前から本番環境に配備されている。

eXmY is a novel data type for quantization of ML models. It supports both arbitrary bit widths and arbitrary integer and floating point formats. For example, it seamlessly supports 3, 5, 6, 7, 9 bit formats. For a specific bit width, say 7, it defines all possible formats e.g. e0m6, e1m5, e2m4, e3m3, e4m2, e5m1 and e6m0. For non-power of two bit widths e.g. 5, 6, 7, we created a novel encoding and decoding scheme which achieves perfect compression, byte addressability and is amenable to sharding and vector processing. We implemented libraries for emulation, encoding and decoding tensors and checkpoints in C++, TensorFlow, JAX and PAX. For optimal performance, the codecs use SIMD instructions on CPUs and vector instructions on TPUs and GPUs. eXmY is also a technique and exploits the statistical distribution of exponents in tensors. It can be used to quantize weights, static and dynamic activations, gradients, master weights and optimizer state. It can reduce memory (CPU DRAM and accelerator HBM), network and disk storage and transfers. It can increase multi tenancy and accelerate compute. eXmY has been deployed in production for almost 2 years.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# 主要な固有状態の古典的影

Principal eigenstate classical shadows ( http://arxiv.org/abs/2405.13939v1 )

ライセンス: Link先を確認
Daniel Grier, Hakop Pashayan, Luke Schaeffer, (参考訳) 未知の量子状態 $\rho$ の多くのコピーを考えると、その主固有状態の古典的な記述を学ぶというタスクを考える。 すなわち、$\rho$ が(未知の)固有値 $\lambda > 1/2$ を持つ固有状態 $|\phi\rangle$ を持つと仮定すると、ゴールは(古典的なシャドウスタイル)古典的な $|\phi\rangle$ の記述を学ぶことである。 我々は、$$\rho$のコピーを生成するサンプル複雑度設定が高価であると考えるが、状態の多くのコピーに対する共同測定が可能である。 主固有値$\lambda$でこのタスクをスケーリングするためのプロトコルを提案し、量子状態の浄化と単一コピーの古典的シャドウスキームを適用した自然なアプローチの空間内で最適であることを示す。 さらに、$\lambda$が1ドルに十分近い場合、我々のアルゴリズムのパフォーマンスは、純粋な状態の古典的な影に対するサンプルの複雑さに最適である。

Given many copies of an unknown quantum state $\rho$, we consider the task of learning a classical description of its principal eigenstate. Namely, assuming that $\rho$ has an eigenstate $|\phi\rangle$ with (unknown) eigenvalue $\lambda > 1/2$, the goal is to learn a (classical shadows style) classical description of $|\phi\rangle$ which can later be used to estimate expectation values $\langle \phi |O| \phi \rangle$ for any $O$ in some class of observables. We consider the sample-complexity setting in which generating a copy of $\rho$ is expensive, but joint measurements on many copies of the state are possible. We present a protocol for this task scaling with the principal eigenvalue $\lambda$ and show that it is optimal within a space of natural approaches, e.g., applying quantum state purification followed by a single-copy classical shadows scheme. Furthermore, when $\lambda$ is sufficiently close to $1$, the performance of our algorithm is optimal--matching the sample complexity for pure state classical shadows.
翻訳日:2024-05-24 20:33:38 公開日:2024-05-22
# DoGaussian:Gaussian Consensusを用いた大規模3次元再構成のための分散配向ガウススプラッティング

DoGaussian: Distributed-Oriented Gaussian Splatting for Large-Scale 3D Reconstruction Via Gaussian Consensus ( http://arxiv.org/abs/2405.13943v1 )

ライセンス: Link先を確認
Yu Chen, Gim Hee Lee, (参考訳) 最近の3D Gaussian Splatting (3DGS)の進歩は、新しいビュー合成(NVS)タスクにおいて有望な結果を示している。 3DGSは優れたレンダリング性能と高精細なレンダリング性能を備えており、これまでのNeRFよりも優れている。 最新の3DGS法は、レンダリング効率の不安定性を改善するか、またはモデルサイズを減らすことに焦点を当てている。 一方,大規模シーンにおける3DGSのトレーニング効率はあまり注目されていない。 本研究では,3DGSを分散訓練するDoGaussianを提案する。 提案手法は,まずシーンをKブロックに分解し,次に3DGSのトレーニング手順に Alternating Direction Method of Multipliers (ADMM) を導入する。 トレーニング中、我々のDoGaussianはマスターノード上のグローバル3DGSモデルとスレーブノード上のKローカル3DGSモデルを維持している。 K ローカル 3DGS モデルをトレーニング後にドロップし,推論中にグローバル 3DGS モデルに問い合わせるのみである。 シーン分解によりトレーニング時間を短縮し、共有された3Dガウスのコンセンサスを通じてトレーニング収束と安定性を保証する。 本手法は,3DGSを大規模シーンで評価した場合に,最先端のレンダリング品質を同時に達成しながら,3DGSのトレーニングを6回以上高速化する。 私たちのプロジェクトページはhttps://aibluefisher.github.io/DoGaussian.comで公開されている。

The recent advances in 3D Gaussian Splatting (3DGS) show promising results on the novel view synthesis (NVS) task. With its superior rendering performance and high-fidelity rendering quality, 3DGS is excelling at its previous NeRF counterparts. The most recent 3DGS method focuses either on improving the instability of rendering efficiency or reducing the model size. On the other hand, the training efficiency of 3DGS on large-scale scenes has not gained much attention. In this work, we propose DoGaussian, a method that trains 3DGS distributedly. Our method first decomposes a scene into K blocks and then introduces the Alternating Direction Method of Multipliers (ADMM) into the training procedure of 3DGS. During training, our DoGaussian maintains one global 3DGS model on the master node and K local 3DGS models on the slave nodes. The K local 3DGS models are dropped after training and we only query the global 3DGS model during inference. The training time is reduced by scene decomposition, and the training convergence and stability are guaranteed through the consensus on the shared 3D Gaussians. Our method accelerates the training of 3DGS by 6+ times when evaluated on large-scale scenes while concurrently achieving state-of-the-art rendering quality. Our project page is available at https://aibluefisher.github.io/DoGaussian.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# 形状最適化のための空間次元削減手法の検討

A Survey on Design-space Dimensionality Reduction Methods for Shape Optimization ( http://arxiv.org/abs/2405.13944v1 )

ライセンス: Link先を確認
Andrea Serani, Matteo Diez, (参考訳) 機能面の工学的設計の急速に発展する分野は、高次元の設計空間の本質的な複雑さを管理するための高度なツールを必要とする。 本稿では, 形状最適化, ブリッジ工法, 最先端技術に適した設計空間次元低減技術について述べる。 これらの手法のスペクトルを、主成分分析のような古典的線形手法から、オートエンコーダのようなよりニュアンスな非線形手法まで、議論は、物理データを次元減少過程に統合し、縮尺モデルの予測精度と妥当性を高める革新的な物理インフォームド手法にまで拡張した。 これらの手法を最適化フレームワークに統合することにより、次元の呪い、合理な計算プロセス、複素汎関数曲面の探索と最適化をいかに大幅に緩和するかを示す。 この調査は手法の分類を提供し、設計上の課題を単純化し、より効率的で効果的なエンジニアリングソリューションを育む上で、これらの手法の変革的影響を強調している。

The rapidly evolving field of engineering design of functional surfaces necessitates sophisticated tools to manage the inherent complexity of high-dimensional design spaces. This review delves into the field of design-space dimensionality reduction techniques tailored for shape optimization, bridging traditional methods and cutting-edge technologies. Dissecting the spectrum of these techniques, from classical linear approaches like principal component analysis to more nuanced nonlinear methods such as autoencoders, the discussion extends to innovative physics-informed methods that integrate physical data into the dimensionality reduction process, enhancing the predictive accuracy and relevance of reduced models. By integrating these methods into optimization frameworks, it is shown how they significantly mitigate the curse of dimensionality, streamline computational processes, and refine the exploration and optimization of complex functional surfaces. The survey provides a classification of method and highlights the transformative impact of these techniques in simplifying design challenges, thereby fostering more efficient and effective engineering solutions.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# POMOに基づくニューラルコンビネーション最適化のためのリーダリワード

Leader Reward for POMO-Based Neural Combinatorial Optimization ( http://arxiv.org/abs/2405.13947v1 )

ライセンス: Link先を確認
Chaoyang Wang, Pengzhi Cheng, Jingze Li, Weiwei Sun, (参考訳) 組合せ最適化(CO)問題を解くための強化学習(RL)に基づくディープニューラルネットワークは急速に発展しており、従来の解法に近づいたり、性能を上回ったりする傾向がある。 CO問題は、モデルが生成するすべてのソリューションの全体的な品質を考慮するのではなく、特定の時間内にモデルが提供する最適解のみに焦点を合わせるという点において、他の伝統的な問題とは異なる。 本稿では,複数のオプティマス(POMO)モデルを用いた政策最適化モデルの2つの異なる学習段階において,モデルが最適解を生成する能力を高めるために,リーダ・リワードを提案し,適用する。 このアプローチは、トラベルセールスマン問題(TSP)、キャパシタレートカールーティング問題(CVRP)、フレキシブルフローショップ問題(FFSP)など、様々なCO問題に適用できるが、他のPOMOモデルや推論フェーズの戦略ともうまく機能する。 我々は、Lead Rewardがモデルによって生成される最適なソリューションの品質を大幅に改善することを示した。 具体的には、計算オーバーヘッドがほとんどないTSP100において、POMOの最適値とのギャップを100倍以上削減する。

Deep neural networks based on reinforcement learning (RL) for solving combinatorial optimization (CO) problems are developing rapidly and have shown a tendency to approach or even outperform traditional solvers. However, existing methods overlook an important distinction: CO problems differ from other traditional problems in that they focus solely on the optimal solution provided by the model within a specific length of time, rather than considering the overall quality of all solutions generated by the model. In this paper, we propose Leader Reward and apply it during two different training phases of the Policy Optimization with Multiple Optima (POMO) model to enhance the model's ability to generate optimal solutions. This approach is applicable to a variety of CO problems, such as the Traveling Salesman Problem (TSP), the Capacitated Vehicle Routing Problem (CVRP), and the Flexible Flow Shop Problem (FFSP), but also works well with other POMO-based models or inference phase's strategies. We demonstrate that Leader Reward greatly improves the quality of the optimal solutions generated by the model. Specifically, we reduce the POMO's gap to the optimum by more than 100 times on TSP100 with almost no additional computational overhead.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# PitVQA:下垂体手術における視覚的質問応答のためのLLM画像埋め込みテキスト

PitVQA: Image-grounded Text Embedding LLM for Visual Question Answering in Pituitary Surgery ( http://arxiv.org/abs/2405.13949v1 )

ライセンス: Link先を確認
Runlong He, Mengya Xu, Adrito Das, Danyal Z. Khan, Sophia Bano, Hani J. Marcus, Danail Stoyanov, Matthew J. Clarkson, Mobarakol Islam, (参考訳) 手術領域内の視覚質問応答(VQA)は,大言語モデル(LLM)を用いて,術中意思決定の改善と直感的な外科医とAIの相互作用を促進するための明確な機会を提供する。 しかし、外科的VQAのためのLLMの開発は、複雑な推論タスクを伴う多種多様なデータセットの不足によって妨げられている。 さらに、これらの2種類の情報とそれらの整合性に関わる複雑さの間に固有の違いがあるため、画像とテキストのモダリティの文脈的融合は、依然としてオープンな研究課題である。 本稿では,鼻下垂体手術におけるVQAに特化して設計された新しいデータセットであるPitVQAと,手術用VQAのための新しい画像接地テキスト埋め込みによるGPT2の適応であるPitVQA-Netを紹介する。 PitVQAは25のプロシージャビデオと、フェーズとステップ認識、コンテキスト理解、ツール検出とローカライゼーション、ツールとタスクの相互作用といった重要な外科的側面にまたがる質問対の豊富なコレクションで構成されている。 PitVQA-Netは、画像とテキストの特徴を共有埋め込み空間に投影する新しい画像基底テキスト埋め込みと、励起ブロック分類ヘッドを備えたGPT2 Backboneで構成され、鼻下垂体手術の複雑な領域内でコンテキスト的に関連する回答を生成する。 画像接地テキストの埋め込みは, 共同埋め込み, クロスアテンション, コンテキスト表現を利用して, 問合せと手術画像の文脈的関係を理解する。 我々は,PitVQAデータセットと利用可能なEndoVis18-VQAデータセットに対するPitVQA-Netの有効性を実証し,最新のベースラインよりも8%と9%のバランス精度の向上を実現した。 私たちのコードとデータセットはhttps://github.com/mobarakol/PitVQA.comで公開されています。

Visual Question Answering (VQA) within the surgical domain, utilizing Large Language Models (LLMs), offers a distinct opportunity to improve intra-operative decision-making and facilitate intuitive surgeon-AI interaction. However, the development of LLMs for surgical VQA is hindered by the scarcity of diverse and extensive datasets with complex reasoning tasks. Moreover, contextual fusion of the image and text modalities remains an open research challenge due to the inherent differences between these two types of information and the complexity involved in aligning them. This paper introduces PitVQA, a novel dataset specifically designed for VQA in endonasal pituitary surgery and PitVQA-Net, an adaptation of the GPT2 with a novel image-grounded text embedding for surgical VQA. PitVQA comprises 25 procedural videos and a rich collection of question-answer pairs spanning crucial surgical aspects such as phase and step recognition, context understanding, tool detection and localization, and tool-tissue interactions. PitVQA-Net consists of a novel image-grounded text embedding that projects image and text features into a shared embedding space and GPT2 Backbone with an excitation block classification head to generate contextually relevant answers within the complex domain of endonasal pituitary surgery. Our image-grounded text embedding leverages joint embedding, cross-attention and contextual representation to understand the contextual relationship between questions and surgical images. We demonstrate the effectiveness of PitVQA-Net on both the PitVQA and the publicly available EndoVis18-VQA dataset, achieving improvements in balanced accuracy of 8% and 9% over the most recent baselines, respectively. Our code and dataset is available at https://github.com/mobarakol/PitVQA.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# ファイバーサンプリング問題に対するアクタ・クリティックアルゴリズム

Actor-critic algorithms for fiber sampling problems ( http://arxiv.org/abs/2405.13950v1 )

ライセンス: Link先を確認
Ivan Gvozdanović, Sonja Petrović, (参考訳) 本稿では,代数統計学と離散最適化による複雑な問題群に対するアクタ批判アルゴリズムを提案する。 中心となるタスクは、高次元のポリトープで定義される非負整数格子の有限部分集合からサンプルを生成することである。 この問題をマルコフ決定プロセスに変換し、アクター-批評家強化学習(RL)アルゴリズムを考案し、サンプリングに使用できる良い動きの集合を学習する。 アクター批判アルゴリズムは, ほぼ最適なサンプリングポリシーに収束することを示す。 これらのサンプリング問題に通常発生する複雑性問題に対処し、RLを大規模に機能させるために、我々のソリューション戦略は、サンプルの開始点を分解し、各誘導サブプロブレム上でRLを使用して、元のポリトープでサンプルを得る再構築という3つのステップを踏む。 この設定では、収束の証明は分解における各部分プロブレムに適用される。 私たちはこの方法を2つの制度でテストする。 統計的応用では、カテゴリーデータに対する幅広い統計モデルの家系に対するモデル/データ適合試験における参照分布の支持セットとして、高次元のポリトープが生じる。 従来のMCMCサンプリング器は,問題の大きさや空間構造が原因で収束が遅いデータセットに対して,RLがモデル適合性試験にどのように使用できるかを示す。 アルゴリズムのロバスト性を検証し、その一般化特性を探索するために、様々なサイズと空間レベルの合成データに適用する。

We propose an actor-critic algorithm for a family of complex problems arising in algebraic statistics and discrete optimization. The core task is to produce a sample from a finite subset of the non-negative integer lattice defined by a high-dimensional polytope. We translate the problem into a Markov decision process and devise an actor-critic reinforcement learning (RL) algorithm to learn a set of good moves that can be used for sampling. We prove that the actor-critic algorithm converges to an approximately optimal sampling policy. To tackle complexity issues that typically arise in these sampling problems, and to allow the RL to function at scale, our solution strategy takes three steps: decomposing the starting point of the sample, using RL on each induced subproblem, and reconstructing to obtain a sample in the original polytope. In this setup, the proof of convergence applies to each subproblem in the decomposition. We test the method in two regimes. In statistical applications, a high-dimensional polytope arises as the support set for the reference distribution in a model/data fit test for a broad family of statistical models for categorical data. We demonstrate how RL can be used for model fit testing problems for data sets for which traditional MCMC samplers converge too slowly due to problem size and sparsity structure. To test the robustness of the algorithm and explore its generalization properties, we apply it to synthetically generated data of various sizes and sparsity levels.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# 自動回帰生成によるマルチコンセプトビデオカスタマイズのためのテキストプロンプト

Text Prompting for Multi-Concept Video Customization by Autoregressive Generation ( http://arxiv.org/abs/2405.13951v1 )

ライセンス: Link先を確認
Divya Kothandaraman, Kihyuk Sohn, Ruben Villegas, Paul Voigtlaender, Dinesh Manocha, Mohammad Babaeizadeh, (参考訳) 本稿では,事前訓練されたテキスト・ツー・ビデオ(T2V)モデルのマルチコンセプト・カスタマイズ手法を提案する。 直感的には、マルチコンセプトのカスタマイズされたビデオは、個々の概念の動画多様体の(非線形の)交叉から導き出すことができるが、それは簡単には見つからない。 逐次的かつ制御されたビデオ多様体の交差点への歩行は、テキストプロンプトによって誘導され、その解に導かれるという仮説を立てる。 そこで我々は,様々な概念とそれに対応する相互作用を連続的に自己回帰的に生成する。 提案手法では,茶色のティーポットに向かって走るテディベア,バイオリンを弾く犬,海で泳いでいるテディベアなど,さまざまなコンセプト(物体,行動,背景)のビデオを生成することができる。 人間の評価に加えて,ビデオCLIPとDINOスコアを用いて定量的に評価を行った。 この論文で提示された結果のビデオはhttps://github.com/divyakraman/MultiConceptVideo2024で見ることができる。

We present a method for multi-concept customization of pretrained text-to-video (T2V) models. Intuitively, the multi-concept customized video can be derived from the (non-linear) intersection of the video manifolds of the individual concepts, which is not straightforward to find. We hypothesize that sequential and controlled walking towards the intersection of the video manifolds, directed by text prompting, leads to the solution. To do so, we generate the various concepts and their corresponding interactions, sequentially, in an autoregressive manner. Our method can generate videos of multiple custom concepts (subjects, action and background) such as a teddy bear running towards a brown teapot, a dog playing violin and a teddy bear swimming in the ocean. We quantitatively evaluate our method using videoCLIP and DINO scores, in addition to human evaluation. Videos for results presented in this paper can be found at https://github.com/divyakraman/MultiConceptVideo2024.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# スペクトルアダプタ:スペクトル空間における微細調整

Spectral Adapter: Fine-Tuning in Spectral Space ( http://arxiv.org/abs/2405.13952v1 )

ライセンス: Link先を確認
Fangzhao Zhang, Mert Pilanci, (参考訳) パラメータ効率のよい深層ニューラルネットワーク(PEFT)手法の最近の進歩は、広く関心を集めている。 本研究では,既訓練重量行列のスペクトル情報を微調整法に組み込むことにより,現在のPEFT法の拡張について検討する。 本研究では,2つのスペクトル適応機構,すなわち上特異ベクトルの加法的チューニングと直交回転について検討し,まず事前学習した重みの特異値分解(SVD)を行い,次いで上スペクトル空間を微調整する。 本稿では,スペクトル微調整の理論解析を行い,固定トレーニング可能なパラメータ予算を条件として,低ランクアダプタのランクキャパシティを向上することを示す。 提案するファインチューニングモデルにより,パラメータ効率とチューニング性能が向上し,マルチアダプタ融合のメリットが期待できることを示す。 コードは再現性のためにオープンソース化される。

Recent developments in Parameter-Efficient Fine-Tuning (PEFT) methods for pretrained deep neural networks have captured widespread interest. In this work, we study the enhancement of current PEFT methods by incorporating the spectral information of pretrained weight matrices into the fine-tuning procedure. We investigate two spectral adaptation mechanisms, namely additive tuning and orthogonal rotation of the top singular vectors, both are done via first carrying out Singular Value Decomposition (SVD) of pretrained weights and then fine-tuning the top spectral space. We provide a theoretical analysis of spectral fine-tuning and show that our approach improves the rank capacity of low-rank adapters given a fixed trainable parameter budget. We show through extensive experiments that the proposed fine-tuning model enables better parameter efficiency and tuning performance as well as benefits multi-adapter fusion. The code will be open-sourced for reproducibility.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# GPTにとってのデータの価値は何か? LLM-Scale Data Valuation with Influence Function

What is Your Data Worth to GPT? LLM-Scale Data Valuation with Influence Functions ( http://arxiv.org/abs/2405.13954v1 )

ライセンス: Link先を確認
Sang Keun Choe, Hwijeen Ahn, Juhan Bae, Kewen Zhao, Minsoo Kang, Youngseog Chung, Adithya Pratapa, Willie Neiswanger, Emma Strubell, Teruko Mitamura, Jeff Schneider, Eduard Hovy, Roger Grosse, Eric Xing, (参考訳) 大規模な言語モデル(LLM)は、膨大な量の人間が書いたデータに基づいて訓練されているが、データプロバイダはしばしば信頼できないままである。 この問題に対して、モデル出力に対する各データの貢献や価値を定量化するデータアトリビューション(あるいはデータアトリビューション)が、潜在的な解決策として議論されてきた。 それにもかかわらず、最近のLLMやその膨大なトレーニングデータセットに既存のデータ評価手法を適用することは、計算とメモリの禁止コストによって大きく制限されている。 本研究では,バックプロパゲーションにおける勾配構造を利用するLoGraと呼ばれる効率的な勾配予測手法を用いて,インフルエンス関数,一般的な勾配に基づくデータアセスメント手法に着目し,そのスケーラビリティを著しく向上する。 次に、データアセスメントプロセスにおける信頼を促進するために、関数に影響を与える勾配予測アプローチの理論的動機を提供する。 最後に、既存のトレーニングコードを最小限の労力でデータバリュエーションコードに変換するソフトウェアパッケージであるLogIXを導入することで、データバリュエーションシステムの実装に対する障壁を低くする。 データ評価実験では、Llama3-8B-Instructと1B-tokenデータセットに適用すると、スループットが最大6,500倍向上し、GPUメモリ使用量が最大5倍削減される一方で、より高価なベースラインに対する競合精度が達成される。

Large language models (LLMs) are trained on a vast amount of human-written data, but data providers often remain uncredited. In response to this issue, data valuation (or data attribution), which quantifies the contribution or value of each data to the model output, has been discussed as a potential solution. Nevertheless, applying existing data valuation methods to recent LLMs and their vast training datasets has been largely limited by prohibitive compute and memory costs. In this work, we focus on influence functions, a popular gradient-based data valuation method, and significantly improve its scalability with an efficient gradient projection strategy called LoGra that leverages the gradient structure in backpropagation. We then provide a theoretical motivation of gradient projection approaches to influence functions to promote trust in the data valuation process. Lastly, we lower the barrier to implementing data valuation systems by introducing LogIX, a software package that can transform existing training code into data valuation code with minimal effort. In our data valuation experiments, LoGra achieves competitive accuracy against more expensive baselines while showing up to 6,500x improvement in throughput and 5x reduction in GPU memory usage when applied to Llama3-8B-Instruct and the 1B-token dataset.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# RNNとしての意識

Attention as an RNN ( http://arxiv.org/abs/2405.13956v1 )

ライセンス: Link先を確認
Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Mohamed Osama Ahmed, Yoshua Bengio, Greg Mori, (参考訳) Transformersの出現はシーケンスモデリングの大きなブレークスルーとなり、GPU並列性を活用した高性能なアーキテクチャを提供することができた。 しかし、Transformerは推論時に計算コストが高く、特に低リソース設定(モバイルや組み込みデバイスなど)ではアプリケーションを制限する。 この問題に対処するために、(1) 注意を特別なリカレントニューラルネットワーク(RNN)と見なすことができ、そのRNN出力を効率的に計算できることを示すことから始める。 次に、(2)トランスフォーマーのような注目に基づく一般的なモデルは、RNNの変種と見なせることを示す。 しかし、従来のRNN(例えばLSTM)とは異なり、これらのモデルは新しいトークンで効率的に更新することはできない。 これに対応するために, 並列プレフィックススキャンアルゴリズムを用いて, 注目度を演算する新しい効率的な方法を提案する。 新しいアテンションの定式化に基づいて、(4)アテンションベースのモジュールである \textbf{Aaren} を導入する。 (i)平行して(トランスフォーマーのように)訓練するだけでなく、 (ii) 新しいトークンで効率的に更新され、推論(従来のRNNのように)に一定のメモリしか必要としない。 経験的に、AarensはTransformersに匹敵するパフォーマンスを、強化学習、イベント予測、時系列分類、時系列予測タスクの4つの一般的なシーケンシャルな問題設定に散らばった38ドルのデータセットで実現している。

The advent of Transformers marked a significant breakthrough in sequence modelling, providing a highly performant architecture capable of leveraging GPU parallelism. However, Transformers are computationally expensive at inference time, limiting their applications, particularly in low-resource settings (e.g., mobile and embedded devices). Addressing this, we (1) begin by showing that attention can be viewed as a special Recurrent Neural Network (RNN) with the ability to compute its \textit{many-to-one} RNN output efficiently. We then (2) show that popular attention-based models such as Transformers can be viewed as RNN variants. However, unlike traditional RNNs (e.g., LSTMs), these models cannot be updated efficiently with new tokens, an important property in sequence modelling. Tackling this, we (3) introduce a new efficient method of computing attention's \textit{many-to-many} RNN output based on the parallel prefix scan algorithm. Building on the new attention formulation, we (4) introduce \textbf{Aaren}, an attention-based module that can not only (i) be trained in parallel (like Transformers) but also (ii) be updated efficiently with new tokens, requiring only constant memory for inferences (like traditional RNNs). Empirically, we show Aarens achieve comparable performance to Transformers on $38$ datasets spread across four popular sequential problem settings: reinforcement learning, event forecasting, time series classification, and time series forecasting tasks while being more time and memory-efficient.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# 特徴帰属法とモデル性能の関係を探る

Exploring the Relationship Between Feature Attribution Methods and Model Performance ( http://arxiv.org/abs/2405.13957v1 )

ライセンス: Link先を確認
Priscylla Silva, Claudio T. Silva, Luis Gustavo Nonato, (参考訳) 機械学習とディープラーニングモデルは、特に学生の成功を予測する上で、教育の文脈において重要である。 広く応用されているにもかかわらず、これらのモデルの予測に影響を与える要因、特に教育における説明可能性の理解において、大きなギャップが持続する。 本研究は,9つの異なる説明手法を用いて,これらの手法間の合意と予測モデルの性能の関係を総合的に分析することにより,このギャップに対処する。 本研究では,スピアマンの相関を応用し,モデルの性能と説明手法の一致度との間に非常に強い相関関係が認められた。

Machine learning and deep learning models are pivotal in educational contexts, particularly in predicting student success. Despite their widespread application, a significant gap persists in comprehending the factors influencing these models' predictions, especially in explainability within education. This work addresses this gap by employing nine distinct explanation methods and conducting a comprehensive analysis to explore the correlation between the agreement among these methods in generating explanations and the predictive model's performance. Applying Spearman's correlation, our findings reveal a very strong correlation between the model's performance and the agreement level observed among the explanation methods.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# Q-Learning と Hebbian Plasticity によるアタリゲーム学習

Learning To Play Atari Games Using Dueling Q-Learning and Hebbian Plasticity ( http://arxiv.org/abs/2405.13960v1 )

ライセンス: Link先を確認
Md Ashfaq Salehin, (参考訳) 本研究では,アタリゲームをするニューラルネットワークエージェントのトレーニングに,高度な強化学習アーキテクチャを用いる。 生のゲーム画素、アクションスペース、報奨情報のみを与えられたシステムは、エージェントに任意のアタリゲームをプレイするように訓練することができる。 このシステムは最初、ディープQ-networksやデュエルQ-networksのような高度な技術を使って、効率的なエージェントを訓練する。 拡張として、プラスチックニューラルネットワークをエージェントとして使用し、このシナリオでその実現可能性を分析する。 プラスティック性の実装は、バックプロパゲーションとHebbianの更新ルールに基づいていた。 プラスチックニューラルネットワークは、初期訓練後の生涯学習のような優れた特徴を持ち、適応学習環境に非常に適している。 この文脈における可塑性の新しい分析として、この研究は将来の研究に貴重な洞察と方向性を提供するかもしれない。

In this work, an advanced deep reinforcement learning architecture is used to train neural network agents playing atari games. Given only the raw game pixels, action space, and reward information, the system can train agents to play any Atari game. At first, this system uses advanced techniques like deep Q-networks and dueling Q-networks to train efficient agents, the same techniques used by DeepMind to train agents that beat human players in Atari games. As an extension, plastic neural networks are used as agents, and their feasibility is analyzed in this scenario. The plasticity implementation was based on backpropagation and the Hebbian update rule. Plastic neural networks have excellent features like lifelong learning after the initial training, which makes them highly suitable in adaptive learning environments. As a new analysis of plasticity in this context, this work might provide valuable insights and direction for future works.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# SADDLe: 異種データを用いたシャープネスを考慮した分散ディープラーニング

SADDLe: Sharpness-Aware Decentralized Deep Learning with Heterogeneous Data ( http://arxiv.org/abs/2405.13961v1 )

ライセンス: Link先を確認
Sakshi Choudhary, Sai Aparna Aketi, Kaushik Roy, (参考訳) 分散トレーニングは、中央サーバに頼ることなく、異なる場所で生成された分散データセットによる学習を可能にする。 現実的なシナリオでは、これらの疎結合な学習エージェントにまたがるデータ分布は著しく異質になり、局所的なモデルが過度に適合し、グローバルモデルの一般化が貧弱になる。 もうひとつの課題は、中心的な調整なしにピアツーピア方式でモデルをトレーニングする際の通信コストが高いことだ。 本稿では,一組のシャープネスを意識した分散ディープラーニングアルゴリズムであるSADDLeを提案することによって,これら2つの実践的課題を共同で解決する。 SADDLe は Sharpness-Aware Minimization (SAM) を利用して訓練中により平らなロスランドスケープを求める。 提案手法の2つのバージョンを提示し,SADDLeが既存手法と比較してテスト精度を1~20%向上させることを示す広範な実験を行った。 さらに,提案手法は通信圧縮に頑健であり,最大4倍圧縮率で平均1%の低下しか生じない。

Decentralized training enables learning with distributed datasets generated at different locations without relying on a central server. In realistic scenarios, the data distribution across these sparsely connected learning agents can be significantly heterogeneous, leading to local model over-fitting and poor global model generalization. Another challenge is the high communication cost of training models in such a peer-to-peer fashion without any central coordination. In this paper, we jointly tackle these two-fold practical challenges by proposing SADDLe, a set of sharpness-aware decentralized deep learning algorithms. SADDLe leverages Sharpness-Aware Minimization (SAM) to seek a flatter loss landscape during training, resulting in better model generalization as well as enhanced robustness to communication compression. We present two versions of our approach and conduct extensive experiments to show that SADDLe leads to 1-20% improvement in test accuracy compared to other existing techniques. Additionally, our proposed approach is robust to communication compression, with an average drop of only 1% in the presence of up to 4x compression.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# Wasserstein-proximal-regularized $α$-divergences を用いた重み付き分布の学習

Learning heavy-tailed distributions with Wasserstein-proximal-regularized $α$-divergences ( http://arxiv.org/abs/2405.13962v1 )

ライセンス: Link先を確認
Ziyu Chen, Hyemin Gu, Markos A. Katsoulakis, Luc Rey-Bellet, Wei Zhu, (参考訳) 本稿では、重み付き分布を安定に学習するための目的関数として、$\alpha$-divergencesのワッサーシュタイン近似を提案する。 まず,データ次元,$\alpha$,Wasserstein-proximal-regularized divergence におけるデータ分布の減衰速度の関係は有限である。 ワッサーシュタイン-1近位発散の場合、推定のための有限サンプル収束速度は、特定の尾の条件下で提供される。 数値実験により、重み付き分布(第1モーメントや第2モーメントのないものでさえも)の安定な学習を、GANのような適切な生成モデルや、提案したWasserstein-proximal-regularized $\alpha$-divergencesに関連するフローベースモデルを用いて、テール挙動の明示的な知識を欠いている。 ヒューリスティックに言えば、$\alpha$-divergencesは重い尾を扱い、ワッサーシュタイン近似は分布間の絶対的連続性を許容し、流れに基づくアルゴリズムの速度を制御し、ターゲット分布をテールの奥深くまで学習する。

In this paper, we propose Wasserstein proximals of $\alpha$-divergences as suitable objective functionals for learning heavy-tailed distributions in a stable manner. First, we provide sufficient, and in some cases necessary, relations among data dimension, $\alpha$, and the decay rate of data distributions for the Wasserstein-proximal-regularized divergence to be finite. Finite-sample convergence rates for the estimation in the case of the Wasserstein-1 proximal divergences are then provided under certain tail conditions. Numerical experiments demonstrate stable learning of heavy-tailed distributions -- even those without first or second moment -- without any explicit knowledge of the tail behavior, using suitable generative models such as GANs and flow-based models related to our proposed Wasserstein-proximal-regularized $\alpha$-divergences. Heuristically, $\alpha$-divergences handle the heavy tails and Wasserstein proximals allow non-absolute continuity between distributions and control the velocities of flow-based algorithms as they learn the target distribution deep into the tails.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# オフラインモデルに基づく最適化のための設計編集

Design Editing for Offline Model-based Optimization ( http://arxiv.org/abs/2405.13964v1 )

ライセンス: Link先を確認
Ye Yuan, Youyuan Zhang, Can Chen, Haolun Wu, Zixuan Li, Jianmo Li, James J. Clark, Xue Liu, (参考訳) オフラインモデルベース最適化(MBO)は、デザインとスコアのオフラインデータセットのみを使用してブラックボックスの目的関数を最大化することを目的としている。 一般的なアプローチでは、既存の設計とその関連するスコアに関する条件生成モデルをトレーニングし、続いてより高い目標スコアに条件付けされた新しい設計を生成する。 しかし、これらの新しく生成された設計は、高スコアのトレーニングデータがないため、しばしば性能が低下した。 この課題に対処するために,2つのフェーズからなるオフラインモデルベース最適化(DEMO)のための新しい手法,Design Editingを導入する。 擬似ターゲット分布生成と呼ばれる第1フェーズでは、トレーニングされた代理モデルを用いてオフラインデータセットに勾配上昇を適用し、予測されたスコアが新しいラベルとして機能する合成データセットを生成する。 その後、この合成データセット上で条件拡散モデルを訓練し、擬似ターゲット分布を捕捉し、より高い階調設計を生成する際の条件拡散モデルの精度を高める。 それでも、擬似ターゲット分布は、代理モデルの不正確さから生じるノイズに影響を受けやすいため、条件付き拡散モデルを用いて最適下設計を生成する。 そこで我々は,オフラインデータセットからデザイン生成に高階機能を直接組み込むため,既存のデザイン編集という第2フェーズを提案する。 このフェーズでは、オフラインデータセットからトップデザインをノイズを導入して編集し、その後条件付き拡散モデルを用いて洗練し、ハイスコアなデザインを生成する。 全体として、ハイスコア設計は第2フェーズからハイスコア特徴を継承することから始まり、第1フェーズでより正確な条件拡散モデルでさらに洗練される。 7つのオフラインMBOタスクに対する実証的な評価は、DEMOが様々なベースラインメソッドより優れていることを示している。

Offline model-based optimization (MBO) aims to maximize a black-box objective function using only an offline dataset of designs and scores. A prevalent approach involves training a conditional generative model on existing designs and their associated scores, followed by the generation of new designs conditioned on higher target scores. However, these newly generated designs often underperform due to the lack of high-scoring training data. To address this challenge, we introduce a novel method, Design Editing for Offline Model-based Optimization (DEMO), which consists of two phases. In the first phase, termed pseudo-target distribution generation, we apply gradient ascent on the offline dataset using a trained surrogate model, producing a synthetic dataset where the predicted scores serve as new labels. A conditional diffusion model is subsequently trained on this synthetic dataset to capture a pseudo-target distribution, which enhances the accuracy of the conditional diffusion model in generating higher-scoring designs. Nevertheless, the pseudo-target distribution is susceptible to noise stemming from inaccuracies in the surrogate model, consequently predisposing the conditional diffusion model to generate suboptimal designs. We hence propose the second phase, existing design editing, to directly incorporate the high-scoring features from the offline dataset into design generation. In this phase, top designs from the offline dataset are edited by introducing noise, which are subsequently refined using the conditional diffusion model to produce high-scoring designs. Overall, high-scoring designs begin with inheriting high-scoring features from the second phase and are further refined with a more accurate conditional diffusion model in the first phase. Empirical evaluations on 7 offline MBO tasks show that DEMO outperforms various baseline methods.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# ラベルのないデータのパワーを解放する:スマートグリッドにおけるサイバー攻撃検出のための自己教師型学習フレームワーク

Unleashing the Power of Unlabeled Data: A Self-supervised Learning Framework for Cyber Attack Detection in Smart Grids ( http://arxiv.org/abs/2405.13965v1 )

ライセンス: Link先を確認
Hanyu Zeng, Pengfei Zhou, Xin Lou, Zhen Wei Ng, David K. Y. Yau, Marianne Winslett, (参考訳) 現代の電力網は、情報通信技術(ICT)によって駆動される重要な変化を受けており、高効率で運用コストの低いスマートグリッドへと進化している。 しかしICTを使うことは、電力システムがサイバー攻撃に対してより脆弱になる必然的な副作用をもたらす。 本稿では,各種のサイバー攻撃を検知・識別する自己教師型学習基盤を提案する。 既存のアプローチとは異なり、提案フレームワークは大量のラベル付きラベル付きデータに頼るのではなく、簡単にアクセス可能な大規模ラベル付きデータを利用する。 具体的には、自然言語処理領域からBERTモデルを採用し、ラベルなしセンシングデータから一般化可能かつ効果的な表現を学び、異なる攻撃パターンを捉える。 学習した表現を使用することで、ラベル付きデータの少ない量とともに、タスク固有の分類器を訓練して、さまざまなタイプのサイバー攻撃を検出することができる。 一方、現実世界のトレーニングデータセットは通常不均衡であり、攻撃を含むデータサンプルは限られている。 このようなデータ不均衡に対処するために,大小のカテゴリーに等しく注意を払う新たな損失関数,分離平均誤差(SME)を提案する。 実験の結果,37台のバスを用いた5エリアの電力グリッドシステムでは,既存のアプローチよりも優れた性能を示し,特にラベル付きデータのごく一部が利用できる場合,0.002\%という低値であった。 このようなフレームワークは、他の電力グリッドのシナリオで様々なサイバー攻撃を検出するために、容易に採用できると考えている。

Modern power grids are undergoing significant changes driven by information and communication technologies (ICTs), and evolving into smart grids with higher efficiency and lower operation cost. Using ICTs, however, comes with an inevitable side effect that makes the power system more vulnerable to cyber attacks. In this paper, we propose a self-supervised learning-based framework to detect and identify various types of cyber attacks. Different from existing approaches, the proposed framework does not rely on large amounts of well-curated labeled data but makes use of the massive unlabeled data in the wild which are easily accessible. Specifically, the proposed framework adopts the BERT model from the natural language processing domain and learns generalizable and effective representations from the unlabeled sensing data, which capture the distinctive patterns of different attacks. Using the learned representations, together with a very small amount of labeled data, we can train a task-specific classifier to detect various types of cyber attacks. Meanwhile, real-world training datasets are usually imbalanced, i.e., there are only a limited number of data samples containing attacks. In order to cope with such data imbalance, we propose a new loss function, separate mean error (SME), which pays equal attention to the large and small categories to better train the model. Experiment results in a 5-area power grid system with 37 buses demonstrate the superior performance of our framework over existing approaches, especially when a very limited portion of labeled data are available, e.g., as low as 0.002\%. We believe such a framework can be easily adopted to detect a variety of cyber attacks in other power grid scenarios.
翻訳日:2024-05-24 20:23:46 公開日:2024-05-22
# エージェント型大規模言語モデルにおける相対的プロンプトの脆化基盤について

On the Brittle Foundations of ReAct Prompting for Agentic Large Language Models ( http://arxiv.org/abs/2405.13966v1 )

ライセンス: Link先を確認
Mudit Verma, Siddhant Bhambri, Subbarao Kambhampati, (参考訳) LLM(Large Language Models)の推論能力は依然として議論の的となっている。 ReActベースのプロンプトのようないくつかの手法は、エージェントLSMのシーケンシャルな意思決定能力を向上すると主張することで人気を集めている。 しかし、ReActベースのプロンプトによるLLM推論の改善の源は明らかではない。 本稿では, ReAct に基づくエージェント LLM の改良を推し進めるこれらの主張を, 逐次的意思決定のために検討する。 入力プロンプトにシステマティックなバリエーションを導入することで、ReActのクレームに沿った感度分析を行い、元のクレームや一般的な使用法とは対照的に、その性能がReActの「アクション実行による推論トレースのインターリービング」や、生成された推論トレースの内容に最小限の影響を受けていることを発見する。 代わりに、LLMのパフォーマンスは入力されたサンプルタスクとクエリの類似性によって駆動されるため、プロンプトデザイナは、人間に対する認知的負担を大幅に増大させるインスタンス固有の例を提供することを暗黙的に強制する。 本研究は, LLMの知覚的推論能力は, 従来の推論能力よりも, 類似性や近似的検索に起因していることを示す。

The reasoning abilities of Large Language Models (LLMs) remain a topic of debate. Some methods such as ReAct-based prompting, have gained popularity for claiming to enhance sequential decision-making abilities of agentic LLMs. However, it is unclear what is the source of improvement in LLM reasoning with ReAct based prompting. In this paper we examine these claims of ReAct based prompting in improving agentic LLMs for sequential decision-making. By introducing systematic variations to the input prompt we perform a sensitivity analysis along the claims of ReAct and find that the performance is minimally influenced by the "interleaving reasoning trace with action execution" or the content of the generated reasoning traces in ReAct, contrary to original claims and common usage. Instead, the performance of LLMs is driven by the similarity between input example tasks and queries, implicitly forcing the prompt designer to provide instance-specific examples which significantly increases the cognitive burden on the human. Our investigation shows that the perceived reasoning abilities of LLMs stem from the exemplar-query similarity and approximate retrieval rather than any inherent reasoning abilities.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# DeTox: モデル編集のための Toxic Subspace Projection

DeTox: Toxic Subspace Projection for Model Editing ( http://arxiv.org/abs/2405.13967v1 )

ライセンス: Link先を確認
Rheeya Uppaal, Apratim De, Yiting He, Yiquao Zhong, Junjie Hu, (参考訳) 近年,大規模言語モデル(LLM)の安全性向上のために,嗜好データに代表される人間の行動に適合する手法として,直接選好最適化(DPO)などのアライメントアルゴリズムが開発されている。 しかし、これらの手法はどちらも計算集約的であり、制御性と透明性が欠如しているため、脱獄や広範囲の使用を阻害する傾向がある。 さらに、これらのチューニングベースの手法は、トレーニングのための大規模な嗜好データを必要とし、ノイズの多い選好データに影響を受けやすい。 本稿では,無調律アライメント(DeTox)を導入し,その有効性を示す。 DeToxはモデルパラメータ空間内の有毒な部分空間を識別し、検出された部分空間を投影することでモデル毒性を低減する、サンプル効率のよいモデル編集手法である。 言語モデルから好みデータ埋め込みを抽出し、これらの埋め込みから有害でない情報を除去することにより、有害な部分空間を同定する。 DeTox は DPO よりもサンプリング効率が高く,さらにノイズの多いデータに対するロバスト性を示す。 最後に、DeTox と DPO の間の理論的および実証的な接続を確立することにより、DeTox が単一の DPO ステップの復号版として解釈可能であることを示す。

Recent alignment algorithms such as direct preference optimization (DPO) have been developed to improve the safety of large language models (LLMs) by training these models to match human behaviors exemplified by preference data. However, these methods are both computationally intensive and lacking in controllability and transparency, making them prone to jailbreaking and inhibiting their widespread use. Furthermore, these tuning-based methods require large-scale preference data for training and are susceptible to noisy preference data. In this paper, we introduce a tuning-free alignment alternative (DeTox) and demonstrate its effectiveness under the use case of toxicity reduction. Grounded on theory from factor analysis, DeTox is a sample-efficient model editing approach that identifies a toxic subspace in the model parameter space and reduces model toxicity by projecting away the detected subspace. The toxic sub-space is identified by extracting preference data embeddings from the language model, and removing non-toxic information from these embeddings. We show that DeTox is more sample-efficient than DPO, further showcasing greater robustness to noisy data. Finally, we establish both theoretical and empirical connections between DeTox and DPO, showing that DeTox can be interpreted as a denoised version of a single DPO step.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# 共有空間における自律走行車群ナビゲーションのための不確実性を考慮したDRL

Uncertainty-Aware DRL for Autonomous Vehicle Crowd Navigation in Shared Space ( http://arxiv.org/abs/2405.13969v1 )

ライセンス: Link先を確認
Mahsa Golchoubian, Moojan Ghafurian, Kerstin Dautenhahn, Nasser Lashgarian Azad, (参考訳) 歩行者に富んだ環境での低速自動運転車(AV)の安全で社会的に適合し、効率的なナビゲーションは、歩行者の将来の位置や車両などとの相互作用を考慮して必要である。 歩行者の未観測状態(例えば、意図)によって予測された軌跡にまつわる不確実性にもかかわらず、群衆ナビゲーションのための既存の深層強化学習(DRL)アルゴリズムは、予測軌跡を用いて政策学習を導く際に、これらの不確実性を無視していることが多い。 この省略は、地上の真実から分岐する際の予測の使い勝手を制限する。 本研究は,モデルフリーDRLアルゴリズムのトレーニングにおいて,予測歩行者状態の不確かさを取り入れた統合予測と計画手法を導入する。 新たな報酬関数により、AVは歩行者の個人的な空間を尊重し、接近中の速度を減少させ、予測された経路との衝突確率を最小化する。 従来のDRL法とは異なり、混雑した空間におけるAV操作のために設計されたモデルでは、車両との共有空間における現実的な歩行者の挙動を反映する新しいシミュレーション環境で訓練されている。 その結果、衝突速度は40%減少し、予測の不確実性を考慮しない最先端モデルと比較して、歩行者までの距離は15%増加した。 さらに、この手法は、同じ予測の不確実性をパフォーマンスと計算時間の両方で組み込んだモデル予測制御手法よりも優れ、同様のシナリオで人間のドライバーに近い軌道を生成する。

Safe, socially compliant, and efficient navigation of low-speed autonomous vehicles (AVs) in pedestrian-rich environments necessitates considering pedestrians' future positions and interactions with the vehicle and others. Despite the inevitable uncertainties associated with pedestrians' predicted trajectories due to their unobserved states (e.g., intent), existing deep reinforcement learning (DRL) algorithms for crowd navigation often neglect these uncertainties when using predicted trajectories to guide policy learning. This omission limits the usability of predictions when diverging from ground truth. This work introduces an integrated prediction and planning approach that incorporates the uncertainties of predicted pedestrian states in the training of a model-free DRL algorithm. A novel reward function encourages the AV to respect pedestrians' personal space, decrease speed during close approaches, and minimize the collision probability with their predicted paths. Unlike previous DRL methods, our model, designed for AV operation in crowded spaces, is trained in a novel simulation environment that reflects realistic pedestrian behaviour in a shared space with vehicles. Results show a 40% decrease in collision rate and a 15% increase in minimum distance to pedestrians compared to the state of the art model that does not account for prediction uncertainty. Additionally, the approach outperforms model predictive control methods that incorporate the same prediction uncertainties in terms of both performance and computational time, while producing trajectories closer to human drivers in similar scenarios.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# 無限次元特徴相互作用

Infinite-Dimensional Feature Interaction ( http://arxiv.org/abs/2405.13972v1 )

ライセンス: Link先を確認
Chenhui Xu, Fuxun Yu, Maoliang Li, Zihao Zheng, Zirui Xu, Jinjun Xiong, Xiang Chen, (参考訳) 過去のニューラルネットワーク設計では、機能表現空間の次元とキャパシティスケーリング(例えば、幅、深さ)に重点を置いていたが、機能相互作用空間のスケーリングを見落としていた。 最近の進歩は、情報変換を改善するために高次元の特徴相互作用空間を促進するために、要素ワイド乗法に焦点を移している。 この進歩にもかかわらず、乗法は主に低次の相互作用を捉え、したがって有限次元の相互作用空間に限られる。 この制限を超越するために、古典的なカーネルメソッドは無限次元空間で機能を実行するための有望な解決策として現れる。 本稿では,RBFカーネルが生成する無限次元空間内での機能相互作用を可能にするモデルアーキテクチャであるInfiNetを紹介する。 実験の結果,無限次元の相互作用を活用する能力により,InfiNetは新たな最先端技術を実現し,モデル性能を大幅に向上することがわかった。

The past neural network design has largely focused on feature representation space dimension and its capacity scaling (e.g., width, depth), but overlooked the feature interaction space scaling. Recent advancements have shown shifted focus towards element-wise multiplication to facilitate higher-dimensional feature interaction space for better information transformation. Despite this progress, multiplications predominantly capture low-order interactions, thus remaining confined to a finite-dimensional interaction space. To transcend this limitation, classic kernel methods emerge as a promising solution to engage features in an infinite-dimensional space. We introduce InfiNet, a model architecture that enables feature interaction within an infinite-dimensional space created by RBF kernel. Our experiments reveal that InfiNet achieves new state-of-the-art, owing to its capability to leverage infinite-dimensional interactions, significantly enhancing model performance.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# 高速多極法によるペニングトラップ内3次元イオン結晶ダイナミクスの数値シミュレーション

Numerical Simulations of 3D Ion Crystal Dynamics in a Penning Trap using the Fast Multipole Method ( http://arxiv.org/abs/2405.13973v1 )

ライセンス: Link先を確認
John Zaris, Wes Johnson, Athreya Shankar, John J. Bollinger, Scott E. Parker, (参考訳) 我々は, 分子動力学ライクなコードを用いて, ペニングトラップに閉じ込められた3次元イオン結晶のレーザ冷却を含むダイナミクスをシミュレートした。 イオンの運動方程式の数値積分を高速多極法を用いて加速し、イオン間のクーロン相互作用を計算することにより、数千個のイオンを持つ大きなイオン結晶を効率的に研究することができる。 特に、シミュレーション時間はイオン番号の正方形ではなく、イオン番号で線形にスケールすることを示す。 イオンの吸収をポアソン過程として扱うことにより、個々の光子散乱現象をシミュレートし、3次元楕円形イオン結晶のレーザー冷却を研究する。 初期のシミュレーションでは、これらの結晶は、容易に冷却された軸運動モードと低周波平面モードの混合によって、効率的に超低温に冷却することができることが示唆された。 1000イオンの球状結晶のシミュレーションでは、平面運動エネルギーは数ミリ秒で数ミリケルビンに冷却される一方、軸運動エネルギーと全電位エネルギーはさらに冷却される。 これは、3Dイオン結晶が将来の量子科学実験のプラットフォームとして適していることを示唆している。

We simulate the dynamics, including laser cooling, of 3D ion crystals confined in a Penning trap using a newly developed molecular dynamics-like code. The numerical integration of the ions' equations of motion is accelerated using the fast multipole method to calculate the Coulomb interaction between ions, which allows us to efficiently study large ion crystals with thousands of ions. In particular, we show that the simulation time scales linearly with ion number, rather than with the square of the ion number. By treating the ions' absorption of photons as a Poisson process, we simulate individual photon scattering events to study laser cooling of 3D ellipsoidal ion crystals. Initial simulations suggest that these crystals can be efficiently cooled to ultracold temperatures, aided by the mixing of the easily cooled axial motional modes with the low frequency planar modes. In our simulations of a spherical crystal of 1,000 ions, the planar kinetic energy is cooled to several millikelvin in a few milliseconds while the axial kinetic energy and total potential energy are cooled even further. This suggests that 3D ion crystals could be well-suited as platforms for future quantum science experiments.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# CIVICS: 大規模言語モデルで文化的にインフォームドされた価値を検査するためのデータセットの構築

CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models ( http://arxiv.org/abs/2405.13974v1 )

ライセンス: Link先を確認
Giada Pistilli, Alina Leidinger, Yacine Jernite, Atoosa Kasirzadeh, Alexandra Sasha Luccioni, Margaret Mitchell, (参考訳) 本稿では,「CIVICS: Culturally-Informed & Values-Inclusive Corpus for Societal Impacts」データセットを紹介する。 我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。 CIVICSはLLMのエンコードされた暗黙の値を示す応答を生成するように設計されている。 動的アノテーションプロセス、カスタマイズされたプロンプト設計、実験を通じて、オープンウェイトLLMが価値に敏感な問題にどのように反応するかを調べ、多様な言語や文化の文脈でそれらの振る舞いを探索する。 ログ確率とロングフォーム応答に基づく2つの実験的なセットアップを用いて、異なるLLM間での社会的・文化的多様性を示す。 特に、長文の応答を含む実験では、拒絶は異なるモデル間で引き起こされるが、英語や翻訳文では一貫して、より頻繁に行われることが示されている。 さらに、特定のトピックや情報源は、モデル回答、特に移民、LGBTQIの権利、社会福祉においてより顕著な違いをもたらす。 実験で示されたように、CIVICSデータセットは、将来の研究のためのツールとして機能し、より広い言語環境における再現性と透明性を促進し、グローバルな文化的多様性と価値の多元性を尊重し、反映するAI技術の発展を促進することを目的としている。 CIVICSデータセットとツールは現在https://huggingface.co/CIVICS-datasetで公開されている。

This paper introduces the "CIVICS: Culturally-Informed & Values-Inclusive Corpus for Societal impacts" dataset, designed to evaluate the social and cultural variation of Large Language Models (LLMs) across multiple languages and value-sensitive topics. We create a hand-crafted, multilingual dataset of value-laden prompts which address specific socially sensitive topics, including LGBTQI rights, social welfare, immigration, disability rights, and surrogacy. CIVICS is designed to generate responses showing LLMs' encoded and implicit values. Through our dynamic annotation processes, tailored prompt design, and experiments, we investigate how open-weight LLMs respond to value-sensitive issues, exploring their behavior across diverse linguistic and cultural contexts. Using two experimental set-ups based on log-probabilities and long-form responses, we show social and cultural variability across different LLMs. Specifically, experiments involving long-form responses demonstrate that refusals are triggered disparately across models, but consistently and more frequently in English or translated statements. Moreover, specific topics and sources lead to more pronounced differences across model answers, particularly on immigration, LGBTQI rights, and social welfare. As shown by our experiments, the CIVICS dataset aims to serve as a tool for future research, promoting reproducibility and transparency across broader linguistic settings, and furthering the development of AI technologies that respect and reflect global cultural diversities and value pluralism. The CIVICS dataset and tools will be made available upon publication under open licenses; an anonymized version is currently available at https://huggingface.co/CIVICS-dataset.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# 長期記憶状態空間モデルのためのHiPPOを回避するHOPE

There is HOPE to Avoid HiPPOs for Long-memory State Space Models ( http://arxiv.org/abs/2405.13975v1 )

ライセンス: Link先を確認
Annan Yu, Michael W. Mahoney, N. Benjamin Erichson, (参考訳) 線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。 しかしながら、これらのモデルは通常、いくつかの課題に直面します。 i) 最先端の性能を達成するためには,システム行列の初期化を特別に設計する必要がある。 (二)不安定を未然に防ぐために、非常に少ない学習率の対数スケールでの状態行列の訓練が必要である。 第三に、漸近的に安定なLTIシステムを保証するために指数関数的に崩壊するメモリをモデルに要求する。 これらの問題に対処するため、ハンケル作用素理論のレンズを通してSSMを考察し、SSMの初期化と訓練のための統一理論を提供する。 この理論に基づいて,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。 このアプローチは、LTIシステムのランダム初期化を可能にし、トレーニングの安定性を向上させると同時に、非遅延メモリ機能を備えたSSMも提供する。 我々のモデルは,LTIシステムの転送関数を一様にサンプリングすることで,これらの革新を効率的に実現し,標準SSMと比較してパラメータを少なくする。 S4やS4DのようなHiPPO初期化モデルに対してベンチマークを行うと、ハンケル作用素によってパラメータ化されたSSMがLong-Range Arena(LRA)タスクのパフォーマンス改善を示す。 さらに,SSMの長期記憶容量を実証的に相関させるために,パッド付きノイズ付きシーケンシャルCIFAR-10タスクを使用する。

State-space models (SSMs) that utilize linear, time-invariant (LTI) systems are known for their effectiveness in learning long sequences. However, these models typically face several challenges: (i) they require specifically designed initializations of the system matrices to achieve state-of-the-art performance, (ii) they require training of state matrices on a logarithmic scale with very small learning rates to prevent instabilities, and (iii) they require the model to have exponentially decaying memory in order to ensure an asymptotically stable LTI system. To address these issues, we view SSMs through the lens of Hankel operator theory, which provides us with a unified theory for the initialization and training of SSMs. Building on this theory, we develop a new parameterization scheme, called HOPE, for LTI systems that utilizes Markov parameters within Hankel operators. This approach allows for random initializations of the LTI systems and helps to improve training stability, while also provides the SSMs with non-decaying memory capabilities. Our model efficiently implements these innovations by nonuniformly sampling the transfer functions of LTI systems, and it requires fewer parameters compared to canonical SSMs. When benchmarked against HiPPO-initialized models such as S4 and S4D, an SSM parameterized by Hankel operators demonstrates improved performance on Long-Range Arena (LRA) tasks. Moreover, we use a sequential CIFAR-10 task with padded noise to empirically corroborate our SSM's long memory capacity.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# EchoSpikeの予測塑性: ニューラルネットワークをスパイクするためのオンラインローカル学習ルール

EchoSpike Predictive Plasticity: An Online Local Learning Rule for Spiking Neural Networks ( http://arxiv.org/abs/2405.13976v1 )

ライセンス: Link先を確認
Lars Graf, Zhe Su, Giacomo Indiveri, (参考訳) 資源を効率的に活用する人工ニューラルネットワークの開発は、バイオインスパイアされたスパイキングニューラルネットワーク(SNN)に大きな関心を呼んだ。 これらのネットワークは、低電力とメモリを必要とするアプリケーションにおける可能性のために、特に魅力的である。 このポテンシャルは、オンラインローカル学習の能力によってさらに強化され、動的環境への適応が可能になる。 これは、モデルを自己管理的な方法で適応させる必要がある。 自己教師型学習は多くの深層学習領域で大きな成功を収めてきたが、多層SNNにおけるオンラインローカル学習への応用はいまだ探索されていない。 本稿では,SNNにおける階層的時間的ダイナミクスを予測的かつコントラッシブな符号化を通じて活用するオンライン学習ルールである"EchoSpike Predictive Plasticity"(ESPP)学習ルールを紹介する。 提案手法の有効性をベンチマークデータセットを用いて検証し,現在最先端の教師付き学習ルールと同等の性能を示す。 ESPPの時間的および空間的局所性は、特に低コストのニューロモルフィックプロセッサに適しており、エッジでのニューロモルフィックコンピューティングのための生物学的に妥当な自己教師あり学習モデルの開発において大きな進歩を示している。

The drive to develop artificial neural networks that efficiently utilize resources has generated significant interest in bio-inspired Spiking Neural Networks (SNNs). These networks are particularly attractive due to their potential in applications requiring low power and memory. This potential is further enhanced by the ability to perform online local learning, enabling them to adapt to dynamic environments. This requires the model to be adaptive in a self-supervised manner. While self-supervised learning has seen great success in many deep learning domains, its application for online local learning in multi-layer SNNs remains underexplored. In this paper, we introduce the "EchoSpike Predictive Plasticity" (ESPP) learning rule, a pioneering online local learning rule designed to leverage hierarchical temporal dynamics in SNNs through predictive and contrastive coding. We validate the effectiveness of this approach using benchmark datasets, demonstrating that it performs on par with current state-of-the-art supervised learning rules. The temporal and spatial locality of ESPP makes it particularly well-suited for low-cost neuromorphic processors, representing a significant advancement in developing biologically plausible self-supervised learning models for neuromorphic computing at the edge.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# モデルオートファジーによる最大嗜好推定からのバイアス除去

Removing Bias from Maximum Likelihood Estimation with Model Autophagy ( http://arxiv.org/abs/2405.13977v1 )

ライセンス: Link先を確認
Paul Mayer, Lorenzo Luzi, Ali Siahkoohi, Don H. Johnson, Richard G. Baraniuk, (参考訳) 本研究は, 自食性障害(肥満)のモデルとして, より公平で感受性の低い, 最大推定(MLE)に対する偏りのない代替案である, 自食性ペナル化推定(PLE)を提案する。 モデルオートファジー(英: Model autophagy)は、自身の出力でトレーニングされたモデルを指す。 これにより、MLEがバイアスのある特定のシナリオにおいて、PLEを統計的にバイアスなくすることができる。 バイアスがかかると、MLEは不均衡なデータセットで少数層を不公平に罰し、最近発見された自己消費生成モデリングの問題を悪化させる。 理論的および実証的な結果は 1)pleはマイノリティクラスに公平である。 2) PLEは自己消費環境ではより安定である。 さらに、ハイパーネットワークフレームワークによるPLEのスケーラブルでポータブルな実装を提供し、既存のディープラーニングアーキテクチャをPLEで簡単にトレーニングできるようにします。 最後に、pleは統計学におけるベイズ的パラダイムと頻繁主義パラダイムのギャップを埋めることができることを示す。

We propose autophagy penalized likelihood estimation (PLE), an unbiased alternative to maximum likelihood estimation (MLE) which is more fair and less susceptible to model autophagy disorder (madness). Model autophagy refers to models trained on their own output; PLE ensures the statistics of these outputs coincide with the data statistics. This enables PLE to be statistically unbiased in certain scenarios where MLE is biased. When biased, MLE unfairly penalizes minority classes in unbalanced datasets and exacerbates the recently discovered issue of self-consuming generative modeling. Theoretical and empirical results show that 1) PLE is more fair to minority classes and 2) PLE is more stable in a self-consumed setting. Furthermore, we provide a scalable and portable implementation of PLE with a hypernetwork framework, allowing existing deep learning architectures to be easily trained with PLE. Finally, we show PLE can bridge the gap between Bayesian and frequentist paradigms in statistics.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# 注意指導型インクリメンタルラーニングによる知識継続における干渉の軽減

Mitigating Interference in the Knowledge Continuum through Attention-Guided Incremental Learning ( http://arxiv.org/abs/2405.13978v1 )

ライセンス: Link先を確認
Prashant Bhat, Bharath Renjith, Elahe Arani, Bahram Zonooz, (参考訳) 連続学習(CL)は、以前取得した知識を忘れがちなディープニューラルネットワークにとって、依然として重要な課題である。 この問題を解決するために、経験リハーサル、正規化、パラメータ分離といったいくつかの手法が文献で提案されている。 タスク・インクリメンタル・ラーニングではほとんど忘れることがほとんどできないが、タスク間クラス分離の問題により、クラス・インクリメンタル・ラーニングは非常に困難である。 以前のタスクデータへの限定的なアクセスは、現在のタスクと以前のタスクのクラスを区別することを難しくする。 本稿では,タスク間の干渉を効果的に軽減するために,タスクの注意をコンパクトに組み込んだ新しいリハーサルベースのCLアプローチであるAGILE(Attention-Guided Incremental Learning)を提案する。 AGILEは軽量で学習可能なタスクプロジェクションベクトルを使用して、共有タスクアテンションモジュールの潜在表現をタスク分布に変換する。 広範囲な経験的評価を通じて,AGILE はタスク干渉を緩和し,複数のCLシナリオにおいてリハーサルベースのアプローチより優れ,一般化性能を著しく向上することを示す。 さらに、AGILEはタスクの信頼性バイアスを低減しつつ、オーバーヘッドを最小限に抑えながら、多数のタスクにうまくスケールすることができる。

Continual learning (CL) remains a significant challenge for deep neural networks, as it is prone to forgetting previously acquired knowledge. Several approaches have been proposed in the literature, such as experience rehearsal, regularization, and parameter isolation, to address this problem. Although almost zero forgetting can be achieved in task-incremental learning, class-incremental learning remains highly challenging due to the problem of inter-task class separation. Limited access to previous task data makes it difficult to discriminate between classes of current and previous tasks. To address this issue, we propose `Attention-Guided Incremental Learning' (AGILE), a novel rehearsal-based CL approach that incorporates compact task attention to effectively reduce interference between tasks. AGILE utilizes lightweight, learnable task projection vectors to transform the latent representations of a shared task attention module toward task distribution. Through extensive empirical evaluation, we show that AGILE significantly improves generalization performance by mitigating task interference and outperforming rehearsal-based approaches in several CL scenarios. Furthermore, AGILE can scale well to a large number of tasks with minimal overhead while remaining well-calibrated with reduced task-recency bias.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# コンピュータビジョンにおけるロバストな双曲型深層学習のための曲率学習の最適化

Optimizing Curvature Learning for Robust Hyperbolic Deep Learning in Computer Vision ( http://arxiv.org/abs/2405.13979v1 )

ライセンス: Link先を確認
Ahmad Bdeir, Niels Landwehr, (参考訳) 双曲型深層学習は、コンピュータビジョンにおいて、代替埋め込み空間によって提供されるユニークな特性の研究の方向として成長している。 負の曲率と指数的に増加する距離メートル法は、データポイント間の階層的関係を捉え、埋め込み間のより細かい分離性を実現する自然な枠組みを提供する。 しかし、これらの手法は依然として計算に高価であり、特にタスクとデータに最も適した負の曲率を学習しようとすると不安定になる。 現在のリーマン最適化器は、性能を著しく損なう多様体の変化を考慮せず、より低い学習率で射影誤差を最小化させる。 本稿では、一般的な学習アルゴリズムのための改良されたスキーマを導入し、多様体の可変代表半径内に埋め込みを拘束する新しい正規化手法を提供することにより、曲率学習に焦点を当てる。 さらに、Riemannian AdamW の新たな定式化や、現在の畳み込み双曲演算に対する代替ハイブリッドエンコーダ手法や基礎的定式化を導入し、双曲埋め込み空間の計算ペナルティを大幅に減らした。 提案手法は,より大規模な双曲モデルを実現するとともに,直接分類と階層的計量学習の両タスクにおいて一貫した性能向上を示す。

Hyperbolic deep learning has become a growing research direction in computer vision for the unique properties afforded by the alternate embedding space. The negative curvature and exponentially growing distance metric provide a natural framework for capturing hierarchical relationships between datapoints and allowing for finer separability between their embeddings. However, these methods are still computationally expensive and prone to instability, especially when attempting to learn the negative curvature that best suits the task and the data. Current Riemannian optimizers do not account for changes in the manifold which greatly harms performance and forces lower learning rates to minimize projection errors. Our paper focuses on curvature learning by introducing an improved schema for popular learning algorithms and providing a novel normalization approach to constrain embeddings within the variable representative radius of the manifold. Additionally, we introduce a novel formulation for Riemannian AdamW, and alternative hybrid encoder techniques and foundational formulations for current convolutional hyperbolic operations, greatly reducing the computational penalty of the hyperbolic embedding space. Our approach demonstrates consistent performance improvements across both direct classification and hierarchical metric learning tasks while allowing for larger hyperbolic models.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# ランクダウンオートエンコーダ -- 非線形多様体の補間強化

Rank Reduction Autoencoders -- Enhancing interpolation on nonlinear manifolds ( http://arxiv.org/abs/2405.13980v1 )

ライセンス: Link先を確認
Jad Mounayer, Sebastian Rodriguez, Chady Ghnatios, Charbel Farhat, Francisco Chinesta, (参考訳) 古典的オートエンコーダ(AE)の効率は多くの現実的な状況において制限されている。 オートエンコーダにより潜在空間が縮小されると、特徴抽出が可能となる。 しかし、オーバーフィッティングは一般的な問題であり、AESの補間能力の 'holes'' につながる。 一方、潜在次元の増大は、非線型結合の少ない特徴(例えば、クープマン理論やkPCA)でより良い近似をもたらすが、必ずしも次元の減少を招き、特徴抽出が問題となる。 その結果、オートエンコーダによる補間が難しくなる。 本研究では,拡張された潜在空間を持つオートエンコーダであるランク低減オートエンコーダ(RRAE)を導入する。 RRAEsの潜伏空間は、特徴抽出を可能にしながら正確な予測を可能にするのに十分な大きさである。 その結果,提案するオートエンコーダは最小ランク線形潜在空間を特徴とする。 提案したことを達成するために、弱かつ弱な2つの定式化が提示され、潜在空間を正確に表現する還元基底が構築される。 第1の定式化は、潜在空間における切り裂かれたSVDから成り、第2の定式化は損失関数にペナルティ項を加える。 補間処理に使用し, 合成データとMNISTの両方のオートエンコーダと比較することにより, 定式化の効率性を示す。

The efficiency of classical Autoencoders (AEs) is limited in many practical situations. When the latent space is reduced through autoencoders, feature extraction becomes possible. However, overfitting is a common issue, leading to ``holes'' in AEs' interpolation capabilities. On the other hand, increasing the latent dimension results in a better approximation with fewer non-linearly coupled features (e.g., Koopman theory or kPCA), but it doesn't necessarily lead to dimensionality reduction, which makes feature extraction problematic. As a result, interpolating using Autoencoders gets harder. In this work, we introduce the Rank Reduction Autoencoder (RRAE), an autoencoder with an enlarged latent space, which is constrained to have a small pre-specified number of dominant singular values (i.e., low-rank). The latent space of RRAEs is large enough to enable accurate predictions while enabling feature extraction. As a result, the proposed autoencoder features a minimal rank linear latent space. To achieve what's proposed, two formulations are presented, a strong and a weak one, that build a reduced basis accurately representing the latent space. The first formulation consists of a truncated SVD in the latent space, while the second one adds a penalty term to the loss function. We show the efficiency of our formulations by using them for interpolation tasks and comparing the results to other autoencoders on both synthetic data and MNIST.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# DirectMultiStep:マルチステップ再合成のための直接経路生成

DirectMultiStep: Direct Route Generation for Multi-Step Retrosynthesis ( http://arxiv.org/abs/2405.13983v1 )

ライセンス: Link先を確認
Yu Shee, Haote Li, Anton Morgunov, Victor Batista, (参考訳) 従来のコンピュータ支援合成計画法(CASP)は反復的な単一ステップ予測に依存しており、効率と拡張性を制限する指数関数的な検索空間が成長する。 本稿では, 先行する全ての分子を条件付きで予測することで, 多段階合成経路を直接単一文字列として生成するトランスフォーマーモデルを提案する。 このモデルは、所望のステップ数や出発材数、PaRoutesデータセットの最先端メソッドのパフォーマンス、n$_1$テストセットのTop-1精度の2.2倍、n$_5$テストセットの3.3倍の改善など、特定の条件に対応している。 また、FDAが承認した薬物がトレーニングデータに含まれていないルートの予測も成功し、その一般化能力を示している。 トレーニングセットの現在の最適部分の多様性は、あまり一般的でない反応タイプの性能に影響を及ぼす可能性があるが、我々のアプローチは、完全に自動化された再合成計画への有望な方向性を示す。

Traditional computer-aided synthesis planning (CASP) methods rely on iterative single-step predictions, leading to exponential search space growth that limits efficiency and scalability. We introduce a transformer-based model that directly generates multi-step synthetic routes as a single string by conditionally predicting each molecule based on all preceding ones. The model accommodates specific conditions such as the desired number of steps and starting materials, outperforming state-of-the-art methods on the PaRoutes dataset with a 2.2x improvement in Top-1 accuracy on the n$_1$ test set and a 3.3x improvement on the n$_5$ test set. It also successfully predicts routes for FDA-approved drugs not included in the training data, showcasing its generalization capabilities. While the current suboptimal diversity of the training set may impact performance on less common reaction types, our approach presents a promising direction towards fully automated retrosynthetic planning.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# 機械語-分子翻訳のためのフィードバック整合混合LLM

Feedback-aligned Mixed LLMs for Machine Language-Molecule Translation ( http://arxiv.org/abs/2405.13984v1 )

ライセンス: Link先を確認
Dimitris Gkoumas, Maria Liakata, (参考訳) 化学と人工知能(AI)の交差は、科学的発見の加速に焦点を当てた研究の活発な領域である。 科学的モダリティを持つ大規模言語モデル(LLM)を使用することは、潜在的な可能性を示しているが、トレーニング効率の向上やアウト・オブ・ディストリビューション問題への対処など、対処すべき重要な課題がある。 言語-分子の自動翻訳の課題に焦点をあてて、私たちは、言語-分子間のモーダルの整合を成功させながら、クロスモーダル設定において人間中心の最適化アルゴリズムを初めて使用しました。 我々は、大規模なデータや大規模なモデルを必要としない科学的LLMの能力を増強できることを実証的に示す。 利用可能なデータの10%のみを使用して実験を行い、広範囲なデータセットで大規模モデルをトレーニングする際の記憶効果を軽減する。 我々は、大規模な流通データに基づいて訓練された最高のベンチマークモデルよりも大きな利益を得、新たなSOTAレベルに達することを目標に、大幅な性能向上を実現している。 また、我々は、トレーニングコストやデータニーズを増大させることなく、さらなる性能向上を図るため、クロスモーダルLLMを混合する非線形核融合を初めて提案する。 最後に, LLMにおける幻覚の評価と, 責任ある使用を促進するための, きめ細かいドメインに依存しない評価手法を提案する。

The intersection of chemistry and Artificial Intelligence (AI) is an active area of research focused on accelerating scientific discovery. While using large language models (LLMs) with scientific modalities has shown potential, there are significant challenges to address, such as improving training efficiency and dealing with the out-of-distribution problem. Focussing on the task of automated language-molecule translation, we are the first to use state-of-the art (SOTA) human-centric optimisation algorithms in the cross-modal setting, successfully aligning cross-language-molecule modals. We empirically show that we can augment the capabilities of scientific LLMs without the need for extensive data or large models. We conduct experiments using only 10% of the available data to mitigate memorisation effects associated with training large models on extensive datasets. We achieve significant performance gains, surpassing the best benchmark model trained on extensive in-distribution data by a large margin and reach new SOTA levels. Additionally we are the first to propose employing non-linear fusion for mixing cross-modal LLMs which further boosts performance gains without increasing training costs or data needs. Finally, we introduce a fine-grained, domain-agnostic evaluation method to assess hallucination in LLMs and promote responsible use.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# LookHere: 指向性一般化と外挿機能を備えた視覚変換器

LookHere: Vision Transformers with Directed Attention Generalize and Extrapolate ( http://arxiv.org/abs/2405.13985v1 )

ライセンス: Link先を確認
Anthony Fuller, Daniel G. Kyrollos, Yousef Yassin, James R. Green, (参考訳) 高解像度画像は、モデル精度を向上させるシーンに関する情報を提供する。 しかし、コンピュータビジョンにおける支配的なモデルアーキテクチャであるビジョントランスフォーマー(ViT)は、微調整なしでは、大きなイメージを効果的に活用できない。 この欠点は、外挿時の分散シフトを生成する、現在のパッチ位置符号化方式に起因している。 本研究では,2次元の注目マスクを用いて,注目ヘッドを異なる方向を向けた固定視野に制限する平易なViTの位置符号化をドロップインで置き換える手法を提案する。 LookHereと呼ばれる新しい手法は、翻訳等価性を提供し、注意ヘッドの多様性を保証し、外挿時に注意ヘッドが直面する分布シフトを制限する。 LookHereは、分類のパフォーマンス(約1.6%)、敵攻撃(約5.4%)、校正エラー(約1.5%)を、外挿のないImageNetで改善する。 補外法により、LookHereは現在のSoTA位置符号化法である2D-RoPEを、ImageNetで21.7%上回り、224^2$ pxでトレーニングし、1024^2$ pxでテストした。 さらに,画像Net-HRと呼ばれる高分解能画像分類器の評価を改善するための高分解能テストセットもリリースした。

High-resolution images offer more information about scenes that can improve model accuracy. However, the dominant model architecture in computer vision, the vision transformer (ViT), cannot effectively leverage larger images without finetuning -- ViTs poorly extrapolate to more patches at test time, although transformers offer sequence length flexibility. We attribute this shortcoming to the current patch position encoding methods, which create a distribution shift when extrapolating. We propose a drop-in replacement for the position encoding of plain ViTs that restricts attention heads to fixed fields of view, pointed in different directions, using 2D attention masks. Our novel method, called LookHere, provides translation-equivariance, ensures attention head diversity, and limits the distribution shift that attention heads face when extrapolating. We demonstrate that LookHere improves performance on classification (avg. 1.6%), against adversarial attack (avg. 5.4%), and decreases calibration error (avg. 1.5%) -- on ImageNet without extrapolation. With extrapolation, LookHere outperforms the current SoTA position encoding method, 2D-RoPE, by 21.7% on ImageNet when trained at $224^2$ px and tested at $1024^2$ px. Additionally, we release a high-resolution test set to improve the evaluation of high-resolution image classifiers, called ImageNet-HR.
翻訳日:2024-05-24 20:14:01 公開日:2024-05-22
# 修正グラフ畳み込みの解析

Analysis of Corrected Graph Convolutions ( http://arxiv.org/abs/2405.13987v1 )

ライセンス: Link先を確認
Robert Wang, Aseem Baranwal, Kimon Fountoulakis, (参考訳) グラフ上のノード分類のための機械学習は、レコメンデーションシステムのようなアプリケーションによって駆動される顕著な領域である。 最先端モデルは、しばしばデータ上の複数のグラフ畳み込みを使用する。 しかし、経験的および理論的には、過剰なグラフ畳み込みが性能を著しく低下させることができることが示されている。 本稿では,コンテキスト確率ブロックモデル(CSBM)に基づく厳密な理論的解析を行い,バニラグラフ畳み込みの性能について述べる。 我々は、補正グラフ畳み込みの$k$ラウンドのスペクトル分析を行い、部分的および正確な分類結果を提供する。 部分的な分類では,各ラウンドの畳み込みにより,飽和レベルまで指数関数的に誤分類誤差が減少し,性能が悪化しないことを示す。 正確な分類については、分離性しきい値が指数関数的に$O({\log{n}}/{\log\log{n}})$修正畳み込みまで改善できることが示される。

Machine learning for node classification on graphs is a prominent area driven by applications such as recommendation systems. State-of-the-art models often use multiple graph convolutions on the data, as empirical evidence suggests they can enhance performance. However, it has been shown empirically and theoretically, that too many graph convolutions can degrade performance significantly, a phenomenon known as oversmoothing. In this paper, we provide a rigorous theoretical analysis, based on the contextual stochastic block model (CSBM), of the performance of vanilla graph convolution from which we remove the principal eigenvector to avoid oversmoothing. We perform a spectral analysis for $k$ rounds of corrected graph convolutions, and we provide results for partial and exact classification. For partial classification, we show that each round of convolution can reduce the misclassification error exponentially up to a saturation level, after which performance does not worsen. For exact classification, we show that the separability threshold can be improved exponentially up to $O({\log{n}}/{\log\log{n}})$ corrected convolutions.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# TS40K:農村地形と電気伝送システムの3次元クラウドデータセット

TS40K: a 3D Point Cloud Dataset of Rural Terrain and Electrical Transmission System ( http://arxiv.org/abs/2405.13989v1 )

ライセンス: Link先を確認
Diogo Lavado, Cláudia Soares, Alessandra Micheletti, Ricardo Santos, André Coelho, João Santos, (参考訳) 3次元シーン理解における教師付き学習アルゴリズムの研究が注目され、いくつかのデータセットで大きなパフォーマンス向上が見られた。 この研究の主導権は、自律運転の問題と、屋内シーンのセグメンテーションである。 しかし、これらのタスクに関する公開3Dデータは、主に都市シナリオに焦点を当てている。 本稿では,欧州の農村部における4万Km以上の電気伝送システムを対象とした3DポイントクラウドデータセットTS40Kを提案する。 これは、電力グリッド検査のリスクの高いミッションを支援する研究コミュニティにとって、新しい問題であるだけでなく、高密度や閉塞のないような、自動運転や屋内の3Dデータとは異なる特徴を持つ3Dポイントクラウドも提供する。 データセットでは、各3Dポイントに22の注釈付きクラスのうち1つをラベル付けしています。 本研究では,3次元セマンティックセグメンテーションと3次元オブジェクト検出に関するデータセット上での最先端手法の性能を評価する。 最後に,学習目的ではないラベルの使用などの重要な課題とともに,結果を包括的に分析する。

Research on supervised learning algorithms in 3D scene understanding has risen in prominence and witness great increases in performance across several datasets. The leading force of this research is the problem of autonomous driving followed by indoor scene segmentation. However, openly available 3D data on these tasks mainly focuses on urban scenarios. In this paper, we propose TS40K, a 3D point cloud dataset that encompasses more than 40,000 Km on electrical transmission systems situated in European rural terrain. This is not only a novel problem for the research community that can aid in the high-risk mission of power-grid inspection, but it also offers 3D point clouds with distinct characteristics from those in self-driving and indoor 3D data, such as high point-density and no occlusion. In our dataset, each 3D point is labeled with 1 out of 22 annotated classes. We evaluate the performance of state-of-the-art methods on our dataset concerning 3D semantic segmentation and 3D object detection. Finally, we provide a comprehensive analysis of the results along with key challenges such as using labels that were not originally intended for learning tasks.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# 整数プログラミングのためのカット生成関数の学習

Learning Cut Generating Functions for Integer Programming ( http://arxiv.org/abs/2405.13992v1 )

ライセンス: Link先を確認
Hongyu Cheng, Amitabh Basu, (参考訳) 分岐とカットのアルゴリズムは、実際に大規模な整数プログラミング問題を解く方法である。 分岐切断の鍵となる要素は、最適解の探索空間を減少させる導出制約である切断平面を使用することである。 小さな枝切り木を生成するために効率的な切削平面を選択することは、枝切りアルゴリズムにおいて重要な課題である。 近年の進歩は、パラメータ化されたファミリーから最適な切断平面を選択するためのデータ駆動型アプローチを採用しており、整数プログラミングインスタンスの所定の分布に対する分岐とバウンドのツリーサイズ(期待通り)を減らすことを目的としている。 我々はこのアイデアを、よく知られたGomory Mixed-Integer(GMI)切断平面を一般化する多種多様な切断平面を生成するための整数プログラミング文献におけるツールであるベストカット生成関数(CGF)の選択に拡張する。 問題インスタンス上の特定の分布に対して良好に動作するパラメータ化された族から有効なCGFを選択するための厳密なサンプル複雑性境界を提供する。 実験の結果,選択したCGFは特定の分布に対するGMIカットよりも優れていた。 さらに、ニューラルネットワークをインスタンス依存のCGF選択に使用する際の、サンプルの複雑さについても検討する。

The branch-and-cut algorithm is the method of choice to solve large scale integer programming problems in practice. A key ingredient of branch-and-cut is the use of cutting planes which are derived constraints that reduce the search space for an optimal solution. Selecting effective cutting planes to produce small branch-and-cut trees is a critical challenge in the branch-and-cut algorithm. Recent advances have employed a data-driven approach to select optimal cutting planes from a parameterized family, aimed at reducing the branch-and-bound tree size (in expectation) for a given distribution of integer programming instances. We extend this idea to the selection of the best cut generating function (CGF), which is a tool in the integer programming literature for generating a wide variety of cutting planes that generalize the well-known Gomory Mixed-Integer (GMI) cutting planes. We provide rigorous sample complexity bounds for the selection of an effective CGF from certain parameterized families that provably performs well for any specified distribution on the problem instances. Our empirical results show that the selected CGF can outperform the GMI cuts for certain distributions. Additionally, we explore the sample complexity of using neural networks for instance-dependent CGF selection.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# AutoLCZ:ルールベースリモートセンシングによる局所気候ゾーンの自動マッピングを目指して

AutoLCZ: Towards Automatized Local Climate Zone Mapping from Rule-Based Remote Sensing ( http://arxiv.org/abs/2405.13993v1 )

ライセンス: Link先を確認
Chenying Liu, Hunsoo Song, Anamika Shreevastava, Conrad M Albrecht, (参考訳) ローカル気候ゾーン(LCZ)は、都市気候研究を改善するためにランドスケープ宇宙を分類する標準的な分類体系を確立した。 既存のLCZマッピングは、地理情報システム(GIS)とのヒューマンインタラクションや、リモートセンシング(RS)データからモデル化によってガイドされる。 GISベースの手法は大規模にスケールしない。 しかし,RSに基づく手法では,機械学習技術を利用してLCZ分類をRSから自動化する。 しかし、RSベースの手法は、トレーニングに大量の手動ラベルを必要とする。 本稿では,高分解能RSモダリティからLCZ分類特徴を抽出するために,AutoLCZと呼ばれる新しいLCZマッピングフレームワークを提案する。 LCZの定義を模倣する数値規則の定義について検討する。 これらのルールは、LiDARデータから幾何学的および表面被覆特性をモデル化する。 これに対応して,GISに基づくスキームにおけるRSデータからのLCZ分類を可能にする。 提案したAutoLCZ法は,正確なメタデータを取得するための人的労力を削減する可能性がある。 同時に、AutoLCZはRSベースの手法の物理的解釈可能性に光を当てている。 ニューヨーク市(NYC)のコンセプト実証では、航空機搭載LiDARサーベイを利用して4つのLCZ特徴をモデル化し、10つのLCZタイプを識別する。 以上の結果から,AutoLCZが大規模LCZマッピングに有効である可能性が示唆された。

Local climate zones (LCZs) established a standard classification system to categorize the landscape universe for improved urban climate studies. Existing LCZ mapping is guided by human interaction with geographic information systems (GIS) or modelled from remote sensing (RS) data. GIS-based methods do not scale to large areas. However, RS-based methods leverage machine learning techniques to automatize LCZ classification from RS. Yet, RS-based methods require huge amounts of manual labels for training. We propose a novel LCZ mapping framework, termed AutoLCZ, to extract the LCZ classification features from high-resolution RS modalities. We study the definition of numerical rules designed to mimic the LCZ definitions. Those rules model geometric and surface cover properties from LiDAR data. Correspondingly, we enable LCZ classification from RS data in a GIS-based scheme. The proposed AutoLCZ method has potential to reduce the human labor to acquire accurate metadata. At the same time, AutoLCZ sheds light on the physical interpretability of RS-based methods. In a proof-of-concept for New York City (NYC) we leverage airborne LiDAR surveys to model 4 LCZ features to distinguish 10 LCZ types. The results indicate the potential of AutoLCZ as promising avenue for large-scale LCZ mapping from RS data.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# 心的制約を考慮した部分モジュラー最大化のための実用的0.385$-近似法

Practical $0.385$-Approximation for Submodular Maximization Subject to a Cardinality Constraint ( http://arxiv.org/abs/2405.13994v1 )

ライセンス: Link先を確認
Murad Tukan, Loay Mualem, Moran Feldman, (参考訳) 非単調制約部分モジュラー最大化は、様々な機械学習アプリケーションにおいて重要な役割を果たす。 しかし、既存のアルゴリズムは近似保証と実用効率のトレードオフに悩まされることが多い。 現在の最先端技術は、最近の0.401$-approximationアルゴリズムであるが、その計算複雑性により、非常に実用的ではない。 この問題の最良の実践的アルゴリズムは1/e$-approximationのみを保証する。 そこで本研究では, 0.385$-approximation の保証と$O(n+k^2)$の低い, 実用的なクエリ複雑性を組み合わせた, 濃度制約を受ける部分モジュラ最大化のための新しいアルゴリズムを提案する。 さらに,映画推薦,画像要約など,さまざまな機械学習アプリケーションを用いた実験において,提案アルゴリズムの実証性能を評価する。 これらの実験は我々のアプローチの有効性を実証する。

Non-monotone constrained submodular maximization plays a crucial role in various machine learning applications. However, existing algorithms often struggle with a trade-off between approximation guarantees and practical efficiency. The current state-of-the-art is a recent $0.401$-approximation algorithm, but its computational complexity makes it highly impractical. The best practical algorithms for the problem only guarantee $1/e$-approximation. In this work, we present a novel algorithm for submodular maximization subject to a cardinality constraint that combines a guarantee of $0.385$-approximation with a low and practical query complexity of $O(n+k^2)$. Furthermore, we evaluate the empirical performance of our algorithm in experiments based on various machine learning applications, including Movie Recommendation, Image Summarization, and more. These experiments demonstrate the efficacy of our approach.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# 世界のイベントを振り返り、Eコマースの消費者需要予測へ

Leveraging World Events to Predict E-Commerce Consumer Demand under Anomaly ( http://arxiv.org/abs/2405.13995v1 )

ライセンス: Link先を確認
Dan Kalifa, Uriel Singer, Ido Guy, Guy D. Rosin, Kira Radinsky, (参考訳) 消費者の需要予測は、サプライチェーンの最適化、広告の配置、配送速度の最適化など、多くの電子商取引アプリケーションにとって非常に重要である。 しかし、特に多くの異常がある時期には、パンデミック、異常気象、スポーツイベントなどで起こりうるような、電子商取引の信頼性の高い時系列販売予測は困難である。 多くの時系列アルゴリズムがタスクに適用されているが、異常時の予測は依然として課題である。 本研究では,世界イベントにおける外部知識の活用が,異常下での予測の課題を克服する上で有効である,という仮説を立てる。 40年にわたる世界イベントとそのテキスト表現の大規模なリポジトリをマイニングします。 さらに,その日の出来事の関連性に基づいて1日の埋め込みを構築するためのトランスフォーマーに基づく新しい手法を提案する。 これらの埋め込みは、将来の消費者行動を予測するために使われる。 われわれは、世界最大のオンラインマーケットプレースであるeBayから抽出された、大規模なeコマース製品販売データセットの手法を実証的に評価した。 提案手法は異常時の最先端のベースラインよりも優れていることを示す。

Consumer demand forecasting is of high importance for many e-commerce applications, including supply chain optimization, advertisement placement, and delivery speed optimization. However, reliable time series sales forecasting for e-commerce is difficult, especially during periods with many anomalies, as can often happen during pandemics, abnormal weather, or sports events. Although many time series algorithms have been applied to the task, prediction during anomalies still remains a challenge. In this work, we hypothesize that leveraging external knowledge found in world events can help overcome the challenge of prediction under anomalies. We mine a large repository of 40 years of world events and their textual representations. Further, we present a novel methodology based on transformers to construct an embedding of a day based on the relations of the day's events. Those embeddings are then used to forecast future consumer behavior. We empirically evaluate the methods over a large e-commerce products sales dataset, extracted from eBay, one of the world's largest online marketplaces. We show over numerous categories that our method outperforms state-of-the-art baselines during anomalies.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# シグモイドゲーティングは、専門家の混在によるソフトマックスゲーティングよりも有効である

Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts ( http://arxiv.org/abs/2405.13997v1 )

ライセンス: Link先を確認
Huy Nguyen, Nhat Ho, Alessandro Rinaldo, (参考訳) ソフトマックスゲーティング関数は、専門家モデリングの混合において、おそらく最も一般的な選択である。 実際に広く使われているにもかかわらず、ソフトマックスゲーティングは専門家の間で不必要な競争を引き起こす可能性があり、その固有の構造のために表現が崩壊するという望ましくない現象を引き起こす可能性がある。 これに対し, シグモイドゲーティング関数は近年, 代替として提案され, 優れた性能を実現するために実験的に実証されている。 しかし,現在,シグモイドゲーティング機能の厳密な検査は行われていない。 本稿では,シグモイドゲーティングが,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプリング効率を享受していることを理論的に検証する。 その目的に向けて、未知の回帰関数を専門家の混合としてモデル化した回帰フレームワークを検討し、適合する専門家の数が真値よりも大きい場合において、最小二乗推定器の収束率について検討する。 2つのゲーティングレジームが自然に発生し、それぞれが専門家関数の識別可能性条件を定式化し、対応する収束率を導出することを示す。 どちらの場合も、例えば$\mathrm{ReLU}$や$\mathrm{GELU}$のような、一般的に使用される活性化を伴うフィードフォワードネットワークとして定式化された専門家は、ソフトマックスゲーティングよりもシグミドゲーティング下での収束速度が速いことが分かる。 さらに,シグモイドゲーティング関数は,エキスパート推定と同じ誤差に達するためには,ソフトマックスよりも小さいサンプルサイズが必要であり,したがって,より標本効率がよいことを示す。

The softmax gating function is arguably the most popular choice in mixture of experts modeling. Despite its widespread use in practice, softmax gating may lead to unnecessary competition among experts, potentially causing the undesirable phenomenon of representation collapse due to its inherent structure. In response, the sigmoid gating function has been recently proposed as an alternative and has been demonstrated empirically to achieve superior performance. However, a rigorous examination of the sigmoid gating function is lacking in current literature. In this paper, we verify theoretically that sigmoid gating, in fact, enjoys a higher sample efficiency than softmax gating for the statistical task of expert estimation. Towards that goal, we consider a regression framework in which the unknown regression function is modeled as a mixture of experts, and study the rates of convergence of the least squares estimator in the over-specified case in which the number of experts fitted is larger than the true value. We show that two gating regimes naturally arise and, in each of them, we formulate identifiability conditions for the expert functions and derive the corresponding convergence rates. In both cases, we find that experts formulated as feed-forward networks with commonly used activation such as $\mathrm{ReLU}$ and $\mathrm{GELU}$ enjoy faster convergence rates under sigmoid gating than softmax gating. Furthermore, given the same choice of experts, we demonstrate that the sigmoid gating function requires a smaller sample size than its softmax counterpart to attain the same error of expert estimation and, therefore, is more sample efficient.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# ブリッジング演算子学習と条件付きニューラルネットワーク:統一的視点

Bridging Operator Learning and Conditioned Neural Fields: A Unifying Perspective ( http://arxiv.org/abs/2405.13998v1 )

ライセンス: Link先を確認
Sifan Wang, Jacob H Seidman, Shyam Sankaran, Hanwen Wang, George J. Pappas, Paris Perdikaris, (参考訳) 演算子学習は、無限次元関数空間間のマッピングを学習することを目的とした機械学習の新興分野である。 ここでは、演算子学習アーキテクチャとコンピュータビジョンからの条件付きニューラルネットワークの関係を明らかにし、一般的な演算子学習モデルの違いを調べる統一的な視点を提供する。 一般に使われている演算子学習モデルの多くは、条件付け機構が点情報および/または大域情報に限定されたニューラルネットワークとみなすことができる。 そこで本研究では,ニューラルネットワークアーキテクチャであるContinuous Vision Transformer (CViT)を提案する。 その単純さにもかかわらず、CViTは気候モデリングと流体力学の挑戦的なベンチマークで最先端の結果を達成する。 私たちのコントリビューションは、物理科学でより柔軟で正確な機械学習モデルを構築するために、高度なコンピュータビジョンアーキテクチャを適用するための第一歩と見ることができます。

Operator learning is an emerging area of machine learning which aims to learn mappings between infinite dimensional function spaces. Here we uncover a connection between operator learning architectures and conditioned neural fields from computer vision, providing a unified perspective for examining differences between popular operator learning models. We find that many commonly used operator learning models can be viewed as neural fields with conditioning mechanisms restricted to point-wise and/or global information. Motivated by this, we propose the Continuous Vision Transformer (CViT), a novel neural operator architecture that employs a vision transformer encoder and uses cross-attention to modulate a base field constructed with a trainable grid-based positional encoding of query coordinates. Despite its simplicity, CViT achieves state-of-the-art results across challenging benchmarks in climate modeling and fluid dynamics. Our contributions can be viewed as a first step towards adapting advanced computer vision architectures for building more flexible and accurate machine learning models in physical sciences.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# コンピュータビジョンによる運動量定量化のための作業者映像解析

Computer-Vision-Enabled Worker Video Analysis for Motion Amount Quantification ( http://arxiv.org/abs/2405.13999v1 )

ライセンス: Link先を確認
Hari Iyer, Neel Macwan, Shenghan Guo, Heejin Jeong, (参考訳) 物理労働者のパフォーマンスは、運動量に大きく影響される。 しかし、モーションセンシング、追跡、定量化の複雑さのため、これらの動きの監視と評価は困難である。 近年,作業者の行動のリアルタイム観察にその場ビデオ解析を活用し,データ駆動による動き量の定量化を実現している。 それでも、ビデオデータを使用してワーカーの動きを監視するには制限がある。 本稿では,作業者の上肢と下肢の動作を追跡し,定量化するためのコンピュータビジョンに基づく新しい枠組みを提案する。 姿勢推定による関節位置データを用いて、このフレームワークは、HotellingのT$^2$統計を用いて、運動量の定量化と監視を行い、コンピュータビジョンツールを統合して、自動化労働者訓練の課題に対処し、この分野における探索研究を強化する。 大型箱と小型木製立方体を用いて持ち上げ作業および移動作業を行った参加者のデータを収集し,マクロおよびマイクロ組立作業のシミュレーションを行った。 その結果, 作業者の関節運動量とホテルリングのT$^2$統計値との相関は, マクロタスクに比べて約35%大きいことがわかった。 本研究は,様々な産業環境におけるリアルタイムアプリケーションにおける提案システムの有効性を実証するものである。 作業者の安全と生産性を向上させるためのツールとして、精密な動作分析と積極的なエルゴノミクス調整を提供する。

The performance of physical workers is significantly influenced by the quantity of their motions. However, monitoring and assessing these motions is challenging due to the complexities of motion sensing, tracking, and quantification. Recent advancements have utilized in-situ video analysis for real-time observation of worker behaviors, enabling data-driven quantification of motion amounts. Nevertheless, there are limitations to monitoring worker movements using video data. This paper introduces a novel framework based on computer vision to track and quantify the motion of workers' upper and lower limbs, issuing alerts when the motion reaches critical thresholds. Using joint position data from posture estimation, the framework employs Hotelling's T$^2$ statistic to quantify and monitor motion amounts, integrating computer vision tools to address challenges in automated worker training and enhance exploratory research in this field. We collected data of participants performing lifting and moving tasks with large boxes and small wooden cubes, to simulate macro and micro assembly tasks respectively. It was found that the correlation between workers' joint motion amount and the Hotelling's T$^2$ statistic was approximately 35% greater for micro tasks compared to macro tasks, highlighting the framework's ability to identify fine-grained motion differences. This study demonstrates the effectiveness of the proposed system in real-time applications across various industry settings. It provides a tool for enhancing worker safety and productivity through precision motion analysis and proactive ergonomic adjustments.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# Q$-clock型系に対する磁化効果

Magnetocaloric effect for a $Q$-clock type system ( http://arxiv.org/abs/2405.14000v1 )

ライセンス: Link先を確認
Michel Aguilera, Sergio Pino-Alarcón, Francisco J. Peña, Eugenio E. Vogel, Patricio Vargas, (参考訳) 本研究では, スピンの正方格子に対応する磁気加工物質に印加される磁気光学効果について検討し, 「$Q$状態クロックモデル」として, 有名なベレジンスキー-コステリッツ-Thouless相(BKT)を呈するシステムについて検討した。 平均場近似とモンテカルロによる2対と8対のQ$との自由境界条件のフリー境界条件のフリー境界条件のフリー境界条件のフリー境界条件のフリー境界条件のフリー境界条件のフリー境界条件のフリー境界条件の2対のQ$と、B = 0$から1$の間の磁場の変化による。 エントロピーを得ることにより、スピン系の外部磁場が変化する等温過程を通じて、カロリー効果を定量化することができる。 特に, 温度現象の最大化に関連する格子サイズおよび磁気相転移に依存する効果を最大化する$Q$の値を求める。 これらのことは、小さな格子($\sim 7\times 7$)において、$Q\geq 5$のとき、効果を最大化する遷移は強磁性からBKTタイプに関係していることを示している。 対照的に、BKTから常磁性型への遷移は、より大きな格子サイズで作業する際の系のカロリー応答を増加させる。

In this work, we study the magnetocaloric effect applied to a magnetic working substance corresponding to a square lattice of spins with $Q$ possible orientations known as the ``$Q$-state clock model" where for $Q\geq 5$, the systems present the famous Berezinskii-Kosterlitz-Thouless phase (BKT). Thermodynamic quantities are obtained in exact form for a small lattice size of $L \times L$ with $L=3$ and by the mean-field approximation and Monte Carlo simulations for $Q$ pairs between 2 and 8 with $L = 3, 8, 16, 32$ with free boundary conditions, and magnetic fields varying between $B = 0$ and $1$ in natural units of the system. By obtaining the entropy, it is possible to quantify the caloric effect through an isothermal process in which the external magnetic field on the spin system is varied. In particular, we find the values of $Q$ that maximize the effect depending on the lattice size and the magnetic phase transitions related to maximizing the caloric phenomena. These indicate that in a small lattice (up to $\sim 7\times 7$), when $Q\geq 5$, the transition that maximizes the effect is related to ferromagnetic to BKT type. In contrast, transitioning from BKT to paramagnetic type increases the system's caloric response when we work with a larger lattice size.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# 非決定論的因果モデル

Nondeterministic Causal Models ( http://arxiv.org/abs/2405.14001v1 )

ライセンス: Link先を確認
Sander Beckers, (参考訳) 非巡回決定論的構造方程式モデルを非決定論的ケースに一般化し、反事実に対して改良された意味論を提供すると主張する。 ハルパーンによって開発された標準的な決定論的意味論(およびギャレス・アンド・パールの最初の提案に基づく)は、親変数への値の割り当てにはそれぞれの子変数に固有の代入が存在すると仮定し、実際の世界(モデルのすべての変数に対する値の代入)がそれぞれの介入に対してユニークな逆実世界を特定すると仮定する。 どちらの仮定も現実的ではないので、私はその両方を私の提案に当てはめます。 私は構造方程式の多値関数を許すことでそうする。 さらに、実世界で得られた方程式の解があらゆる反現実世界に保存されるようにセマンティクスを調整します。 私は、その結果のロジックを、Halpern氏による標準ロジックと比較し、私の近くにあるより最近の提案と比較することで動機づけます。 最後に、これらのモデルを確率的ケースに拡張し、Causal Bayesian Networksにおいてさえ、カウンターファクトの特定方法を広げていることを示す。

I generalize acyclic deterministic structural equation models to the nondeterministic case and argue that it offers an improved semantics for counterfactuals. The standard, deterministic, semantics developed by Halpern (and based on the initial proposal of Galles & Pearl) assumes that for each assignment of values to parent variables there is a unique assignment to their child variable, and it assumes that the actual world (an assignment of values to all variables of a model) specifies a unique counterfactual world for each intervention. Both assumptions are unrealistic, and therefore I drop both of them in my proposal. I do so by allowing multi-valued functions in the structural equations. In addition, I adjust the semantics so that the solutions to the equations that obtained in the actual world are preserved in any counterfactual world. I motivate the resulting logic by comparing it to the standard one by Halpern and to more recent proposals that are closer to mine. Finally, I extend these models to the probabilistic case and show that they open up the way to identifying counterfactuals even in Causal Bayesian Networks.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# 深層学習を用いた動物行動分析手法の検討

Animal Behavior Analysis Methods Using Deep Learning: A Survey ( http://arxiv.org/abs/2405.14002v1 )

ライセンス: Link先を確認
Edoardo Fazzari, Donato Romano, Fabrizio Falchi, Cesare Stefanini, (参考訳) 動物行動は、生物の環境への適応と全体的な健康への適応の信頼できる指標として機能する。 動物行動と相互作用の厳密な観察を通じて、研究者や観察者は、健康、社会的ダイナミクス、生態学的関係、神経倫理学的な次元を含む、彼らの生活の様々な側面に関する貴重な洞察を導き出すことができる。 最先端の深層学習モデルは、様々な動物のデータの分類において顕著な精度を示してきたが、動物行動研究におけるそれらの採用は依然として限られている。 本研究は,動物行動の識別,聴覚,視覚,視覚の方法論を包括的に研究する試みである。 さらに、現存する動物行動データセットを精査し、本研究領域に直面する主な課題について詳細に検討する。 この論文は、動物行動研究の分野を前進させる可能性を秘めている深層学習における重要な研究方向に関する総合的な議論をまとめている。

Animal behavior serves as a reliable indicator of the adaptation of organisms to their environment and their overall well-being. Through rigorous observation of animal actions and interactions, researchers and observers can glean valuable insights into diverse facets of their lives, encompassing health, social dynamics, ecological relationships, and neuroethological dimensions. Although state-of-the-art deep learning models have demonstrated remarkable accuracy in classifying various forms of animal data, their adoption in animal behavior studies remains limited. This survey article endeavors to comprehensively explore deep learning architectures and strategies applied to the identification of animal behavior, spanning auditory, visual, and audiovisual methodologies. Furthermore, the manuscript scrutinizes extant animal behavior datasets, offering a detailed examination of the principal challenges confronting this research domain. The article culminates in a comprehensive discussion of key research directions within deep learning that hold potential for advancing the field of animal behavior studies.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# AIの環境影響の総合評価に向けて

Towards A Comprehensive Assessment of AI's Environmental Impact ( http://arxiv.org/abs/2405.14004v1 )

ライセンス: Link先を確認
Srija Chakraborty, (参考訳) 人工知能、機械学習(AI/ML)は、自然災害、温室効果ガスの排出、生物多様性のモニタリング、農業、気象と気候のモデリング、気候変動の緩和に向けた進歩など、さまざまな環境および気候問題に対する解決策を探求することを可能にする。 しかし、AI/MLと環境の交差は常にポジティブであるとは限らない。 最近のMLへの関心の高まりは、膨大な量のデータを処理することで可能になった。 この関心は、しばしば見落とされ、報告されていない天然資源に多大な圧力をかける。 政策立案者やステークホルダーに適切な標準とポリシーを実装し、時間の経過とともにポリシー結果を追跡するために、ライフサイクルを通じてAI/MLの環境影響と劣化を監視するフレームワークが必要である。 これらのポリシーを効果的にするためには、AIの環境影響を、主要なアクティビティサイトにおいて、世界中で空間的に分散し、タイムリーに監視する必要がある。 本研究では、オープンなエネルギーデータとグローバルに取得した衛星観測を用いて、データセンター周辺におけるAIの多面的影響に関連する環境変数を追跡する手法を提案する。 アメリカ合衆国北バージニアのケーススタディでは、より多くのデータセンターをホストし、複数の衛星ベースの環境指標の変化を観測する。 次に、この方法論を拡張して、地球全体のAIの環境影響を総合的に評価する方法について論じる。 また、AIが引き起こす環境や気候の変化の理解とモニタリングを改善するために、データのギャップを特定し、推奨を定式化します。

Artificial Intelligence, machine learning (AI/ML) has allowed exploring solutions for a variety of environmental and climate questions ranging from natural disasters, greenhouse gas emission, monitoring biodiversity, agriculture, to weather and climate modeling, enabling progress towards climate change mitigation. However, the intersection of AI/ML and environment is not always positive. The recent surge of interest in ML, made possible by processing very large volumes of data, fueled by access to massive compute power, has sparked a trend towards large-scale adoption of AI/ML. This interest places tremendous pressure on natural resources, that are often overlooked and under-reported. There is a need for a framework that monitors the environmental impact and degradation from AI/ML throughout its lifecycle for informing policymakers, stakeholders to adequately implement standards and policies and track the policy outcome over time. For these policies to be effective, AI's environmental impact needs to be monitored in a spatially-disaggregated, timely manner across the globe at the key activity sites. This study proposes a methodology to track environmental variables relating to the multifaceted impact of AI around datacenters using openly available energy data and globally acquired satellite observations. We present a case study around Northern Virginia, United States that hosts a growing number of datacenters and observe changes in multiple satellite-based environmental metrics. We then discuss the steps to expand this methodology for comprehensive assessment of AI's environmental impact across the planet. We also identify data gaps and formulate recommendations for improving the understanding and monitoring AI-induced changes to the environment and climate.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# 人のフィードバックによる大規模言語モデルの評価:スウェーデン語ベンチマークの確立

Evaluating Large Language Models with Human Feedback: Establishing a Swedish Benchmark ( http://arxiv.org/abs/2405.14006v1 )

ライセンス: Link先を確認
Birger Moell, (参考訳) 人工知能の急速に発展する分野では、大規模言語モデル(LLM)が多数のアプリケーションにまたがる重要な機能を示している。 しかし、スウェーデン語のような資源が少ない言語では、これらのモデルの性能は未調査のままである。 本研究では,スウェーデン語テキストの理解と生成におけるLLMの有効性を強制的選択ランキングを用いて評価するための総合的人間ベンチマークを提案する。 我々はChatbotArenaベンチマークの修正版を使用し、GPT-4、GPT-3.5、様々なClaude、Llamaモデル、Dolphin-2.9-llama3b-8b-flashback、BeagleCatMuninなど11種類のモデルの評価に人間のフィードバックを取り入れた。 これらのモデルは、LMSYSチャットボットアリーナとScandevalベンチマークのパフォーマンスに基づいて選択された。 スウェーデン語における言語モデルパフォーマンスの理解を深めるためのツールとして,チャットボットアリーナ.seベンチマークをリリースする。 十分なデータが収集され、分析されたら、リーダーボードを作ることを目標にしています。

In the rapidly evolving field of artificial intelligence, large language models (LLMs) have demonstrated significant capabilities across numerous applications. However, the performance of these models in languages with fewer resources, such as Swedish, remains under-explored. This study introduces a comprehensive human benchmark to assess the efficacy of prominent LLMs in understanding and generating Swedish language texts using forced choice ranking. We employ a modified version of the ChatbotArena benchmark, incorporating human feedback to evaluate eleven different models, including GPT-4, GPT-3.5, various Claude and Llama models, and bespoke models like Dolphin-2.9-llama3b-8b-flashback and BeagleCatMunin. These models were chosen based on their performance on LMSYS chatbot arena and the Scandeval benchmarks. We release the chatbotarena.se benchmark as a tool to improve our understanding of language model performance in Swedish with the hopes that it will be widely used. We aim to create a leaderboard once sufficient data has been collected and analysed.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# マルコフ連鎖モデルを用いた入学予測の実践

A Practice in Enrollment Prediction with Markov Chain Models ( http://arxiv.org/abs/2405.14007v1 )

ライセンス: Link先を確認
Yan Zhao, Amy Otteson, (参考訳) 入学予測は大学経営における重要な側面であり、資源配分や収益予測に関する意思決定を導く。 しかし、その重要性にもかかわらず、多くの機関が利用している方法論に関する透明性の欠如が残っている。 本稿では,東ミシガン大学 (EMU) のケーススタディに基づいてマルコフ・チェイン・モデリングを用いた入学予測の革新的手法を提案する。 マルコフ・チェイン・モデリングは、歴史的傾向に基づいた正確な予測を提供する、入学予測のための有望なアプローチとして出現する。 本稿では,EMUにおける拡張マルコフ連鎖モデリングの実装について概説し,遷移確率を計算し,モデル性能を評価するための方法論を詳述する。 新型コロナウイルス(COVID-19)のパンデミックのような外部の不確実性によって引き起こされる課題にもかかわらず、マルコフ・チェイン・モデリングは、予測と実際の入学の間に平均的な差が1%未満である印象的な精度を示した。 本稿は、今後の方向性と機関間の連携の機会について論じる。

Enrollment projection is a critical aspect of university management, guiding decisions related to resource allocation and revenue forecasting. However, despite its importance, there remains a lack of transparency regarding the methodologies utilized by many institutions. This paper presents an innovative approach to enrollment projection using Markov Chain modeling, drawing upon a case study conducted at Eastern Michigan University (EMU). Markov Chain modeling emerges as a promising approach for enrollment projection, offering precise predictions based on historical trends. This paper outlines the implementation of Enhanced Markov Chain modeling at EMU, detailing the methodology used to compute transition probabilities and evaluate model performance. Despite challenges posed by external uncertainties such as the COVID-19 pandemic, Markov Chain modeling has demonstrated impressive accuracy, with an average difference of less than 1 percent between predicted and actual enrollments. The paper concludes with a discussion of future directions and opportunities for collaboration among institutions.
翻訳日:2024-05-24 20:04:17 公開日:2024-05-22
# 最小体積潜在空間における条件付きシンクホーン生成逆ネットワークのベイズ逆問題

Bayesian Inverse Problems with Conditional Sinkhorn Generative Adversarial Networks in Least Volume Latent Spaces ( http://arxiv.org/abs/2405.14008v1 )

ライセンス: Link先を確認
Qiuyi Chen, Panagiotis Tsilifis, Mark Fuge, (参考訳) 科学と工学の分野で逆問題を解決することは長い間興味深く、多くの応用において大きな可能性を秘めてきたが、ほとんどの技術はこれらの問題に固有の高次元性、非線形性、モデルの不確実性といった問題に対処するのに苦慮している。 近年、GAN(Generative Adversarial Networks)のような生成モデルは、複雑な高次元条件分布を近似する大きな可能性を示し、ベイズ逆問題における後続密度を特徴づける方法を舗装しているが、高次元性や高非線形性はモデルの訓練を妨げていることが多い。 本稿では,これらの問題を最小限の潜伏変数で表現し,その内在次元を推定し,非教師なし非線形次元削減法であるLast Volumeでどのように対処するかを示す。 低次元の潜伏空間が特定されると、条件生成モデルの効率的かつ正確な訓練が可能となり、後部推論のための潜伏条件付きGANフレームワークが実現される。 提案手法は, 数値計算系におけるパラメータの逆転, 地下流れ問題における高次元水圧導電率など, 様々な応用に有効であることを示すとともに, 逆問題に対する観測値と観測値の固有次元の影響を明らかにする。

Solving inverse problems in scientific and engineering fields has long been intriguing and holds great potential for many applications, yet most techniques still struggle to address issues such as high dimensionality, nonlinearity and model uncertainty inherent in these problems. Recently, generative models such as Generative Adversarial Networks (GANs) have shown great potential in approximating complex high dimensional conditional distributions and have paved the way for characterizing posterior densities in Bayesian inverse problems, yet the problems' high dimensionality and high nonlinearity often impedes the model's training. In this paper we show how to tackle these issues with Least Volume--a novel unsupervised nonlinear dimension reduction method--that can learn to represent the given datasets with the minimum number of latent variables while estimating their intrinsic dimensions. Once the low dimensional latent spaces are identified, efficient and accurate training of conditional generative models becomes feasible, resulting in a latent conditional GAN framework for posterior inference. We demonstrate the power of the proposed methodology on a variety of applications including inversion of parameters in systems of ODEs and high dimensional hydraulic conductivities in subsurface flow problems, and reveal the impact of the observables' and unobservables' intrinsic dimensions on inverse problems.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# SlipStream: 大規模なDNNの分散トレーニングにパイプラインを適用する

SlipStream: Adapting Pipelines for Distributed Training of Large DNNs Amid Failures ( http://arxiv.org/abs/2405.14009v1 )

ライセンス: Link先を確認
Swapnil Gandhi, Mark Zhao, Athinagoras Skiadopoulos, Christos Kozyrakis, (参考訳) 大規模なDeep Neural Network(DNN)モデルをトレーニングするには、何日、何週間もの間、数千のGPUが必要になる。 このようなスケールでは、障害は頻繁に発生し、トレーニングのスループットに大きな影響を与えます。 モデルの成長に伴い、予備のGPUサーバを使用したパフォーマンスの回復はますますコストがかかる。 SlipStreamは、予備サーバを使わずに、障害発生時に効率的なDNNトレーニングを行うシステムである。 分散トレーニングシステムに固有の機能的冗長性(サーバはデータ並列グループ間で同じモデルパラメータを保持します)と、各データ並列グループ内のパイプラインスケジュール内のバブルを利用する。 SlipStreamは、失敗するサーバの作業をデータ並列ピアに動的に振り返り、複数の障害にもかかわらず継続的なトレーニングを保証する。 しかしながら、再ルーティング作業は、トレーニングスループットを低下させるパイプラインステージ間の不均衡につながる。 SlipStreamは2つの最適化を導入し、元のパイプラインスケジュールのバブル内で再処理を実行できるようにした。 まず、後方通過計算を2つのフェーズに分離する。 第2に、パイプラインステージを越えたオプティマイザステップの実行を停滞させる。 これらの最適化を組み合わせることで、障害時のトレーニングスループットの低下を最小限に抑えたり、あるいは排除したりするスケジュールが可能になる。 SlipStreamのプロトタイプについて述べ、複数の障害下で高いトレーニングスループットを実現し、OobleckやBambooといった耐障害性トレーニングの最近の提案を最大1.46倍と1.64倍で上回っていることを示す。

Training large Deep Neural Network (DNN) models requires thousands of GPUs for days or weeks at a time. At these scales, failures are frequent and can have a big impact on training throughput. Restoring performance using spare GPU servers becomes increasingly expensive as models grow. SlipStream is a system for efficient DNN training in the presence of failures, without using spare servers. It exploits the functional redundancy inherent in distributed training systems -- servers hold the same model parameters across data-parallel groups -- as well as the bubbles in the pipeline schedule within each data-parallel group. SlipStream dynamically re-routes the work of a failed server to its data-parallel peers, ensuring continuous training despite multiple failures. However, re-routing work leads to imbalances across pipeline stages that degrades training throughput. SlipStream introduces two optimizations that allow re-routed work to execute within bubbles of the original pipeline schedule. First, it decouples the backward pass computation into two phases. Second, it staggers the execution of the optimizer step across pipeline stages. Combined, these optimizations enable schedules that minimize or even eliminate training throughput degradation during failures. We describe a prototype for SlipStream and show that it achieves high training throughput under multiple failures, outperforming recent proposals for fault-tolerant training such as Oobleck and Bamboo by up to 1.46x and 1.64x, respectively.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# ビデオオブジェクトセグメンテーションのためのワンショットトレーニング

One-shot Training for Video Object Segmentation ( http://arxiv.org/abs/2405.14010v1 )

ライセンス: Link先を確認
Baiyu Chen, Sixian Chan, Xiaoqin Zhang, (参考訳) ビデオオブジェクトセグメンテーション(VOS)は、ビデオ内のフレームをまたいだオブジェクトを追跡し、ターゲットオブジェクトの初期アノテーション付きフレームに基づいてそれらをセグメンテーションすることを目的としている。 これまでのVOSの作業は、トレーニングのために完全に注釈付けされたビデオに頼っていた。 しかしながら、VOSのための完全注釈付きトレーニングビデオを取得することは、労働集約的で時間を要する。 一方、自己教師付きVOS手法は、対応学習とラベル伝搬によるVOSシステムの構築を試みた。 それでも仮面の先行がないことは、複雑なシナリオに対する堅牢性を損なうものであり、ラベルの伝搬パラダイムは効率の点で実用的ではない。 これらの問題に対処するために、我々は初めて、VOSの一般的なワンショットトレーニングフレームワークを提案し、トレーニングビデオ毎にラベル付きフレームを1つだけ必要とし、最先端のVOSネットワークの大部分に適用する。 特に、我々のアルゴリズムは以下の通りである。 一 初期ラベル付きフレームに基づいて被写体マスクを時間順に推定すること。 二 ステップから仮面を用いて初期物マスクをタイムバックに再構築すること。 i)。 この双方向トレーニングにより、良好なVOSネットワークを得ることができる。 特に、私たちのアプローチは非常にシンプルで、エンドツーエンドで使用できます。 最後に、我々のアプローチでは、YouTube-VOSとDAVISデータセットの単一のラベル付きフレームを使用して、完全にラベル付きデータセットでトレーニングされたデータセットに匹敵する結果を得る。 コードはリリースされます。

Video Object Segmentation (VOS) aims to track objects across frames in a video and segment them based on the initial annotated frame of the target objects. Previous VOS works typically rely on fully annotated videos for training. However, acquiring fully annotated training videos for VOS is labor-intensive and time-consuming. Meanwhile, self-supervised VOS methods have attempted to build VOS systems through correspondence learning and label propagation. Still, the absence of mask priors harms their robustness to complex scenarios, and the label propagation paradigm makes them impractical in terms of efficiency. To address these issues, we propose, for the first time, a general one-shot training framework for VOS, requiring only a single labeled frame per training video and applicable to a majority of state-of-the-art VOS networks. Specifically, our algorithm consists of: i) Inferring object masks time-forward based on the initial labeled frame. ii) Reconstructing the initial object mask time-backward using the masks from step i). Through this bi-directional training, a satisfactory VOS network can be obtained. Notably, our approach is extremely simple and can be employed end-to-end. Finally, our approach uses a single labeled frame of YouTube-VOS and DAVIS datasets to achieve comparable results to those trained on fully labeled datasets. The code will be released.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# 大規模言語モデルを用いた実時間オントロジー駆動型シンボリック知識キャプチャ

Prompt-Time Ontology-Driven Symbolic Knowledge Capture with Large Language Models ( http://arxiv.org/abs/2405.14012v1 )

ライセンス: Link先を確認
Tolga Çöplü, Arto Bendiken, Andrii Skomorokhov, Eduard Bateiko, Stephen Cobb, (参考訳) パーソナルアシスタントのようなアプリケーションでは、大きな言語モデル(LLM)はユーザの個人情報や好みを考慮しなければならない。 しかし、LLMはユーザーインタラクションから学ぶ能力に欠けていた。 本稿では,オントロジーとナレッジグラフを用いたユーザプロンプトからの個人情報の取得について検討する。 我々は、個人情報をモデル化するKNOWオントロジーのサブセットを使用して、これらの概念に基づいて言語モデルを訓練する。 そして、特別に構築されたデータセットを用いて、知識捕捉の成功を評価する。 私たちのコードとデータセットはhttps://github.com/HaltiaAI/paper-PTODSKCで公開されています。

In applications such as personal assistants, large language models (LLMs) must consider the user's personal information and preferences. However, LLMs lack the inherent ability to learn from user interactions. This paper explores capturing personal information from user prompts using ontology and knowledge-graph approaches. We use a subset of the KNOW ontology, which models personal information, to train the language model on these concepts. We then evaluate the success of knowledge capture using a specially constructed dataset. Our code and datasets are publicly available at https://github.com/HaltiaAI/paper-PTODSKC
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# 不均質$=$型量子メモリにおける線形形状最適化

Lineshape Optimization in Inhomogeneous $Λ$-type Quantum Memory ( http://arxiv.org/abs/2405.14013v1 )

ライセンス: Link先を確認
Kai Shinbrough, Donny R. Pearson Jr., Virginia O. Lorenz, Elizabeth A. Goldschmidt, (参考訳) フォトニック量子メモリは、フォトニック量子情報処理において重要な基本的な操作である。 多くの物理的に異なるメモリプロトコルやハードウェアの実装がこのタスクに応用されているが、関連するすべてのメトリクス(例えば、効率、帯域幅、寿命など)で同時に量子メモリが動作できることは、まだオープンな課題である。 本研究では,長期間のコヒーレンス寿命と広帯域互換性を持つ量子エミッタの非等質的に拡張されたアンサンブルに焦点をあてるが,中規模成長と準備に関する技術的制約や,これらのシステムにおいて重要なリソースである非等質的に拡張された励起状態ラインシェープにより,効率が低下する傾向にある。 本研究では, 電磁誘導透過性(EIT)の特性を実験的に実現し易い不均一なラインハップの探索に用いて検討し, 実験パラメータの広い範囲で各ラインシェープのメモリ効率を最適化する。 我々は、最適EIT効率を、不均一な広帯域化のスペクトル形成にも依存する、よく知られた原子周波数コム(AFC)プロトコルと比較し、最適化されたリニアップが十分な制御フィールド力でより効率的な記憶を可能にすることを観察する。 最後に、メモリ相互作用を記述した線形積分カーネルを数値的に構築し、特異値分解と補間処理を用いて、プロトコル非依存的に不均一なラインシェイプを最適化し、その結果のラインシェープの最適性を確保する。

Photonic quantum memory is a crucial elementary operation in photonic quantum information processing. While many physically distinct memory protocols and hardware implementations have been applied to this task, the development of a quantum memory performant in all relevant metrics simultaneously (e.g., efficiency, bandwidth, lifetime, etc.) is still an open challenge. In this work, we focus on inhomogeneously broadened ensembles of $\Lambda$-type quantum emitters, which have long coherence lifetimes and broad bandwidth compatibility, but tend to exhibit low efficiency, in part due to technical constraints on medium growth and preparation, and in part due to inefficient use of a key resource in these systems: the inhomogeneously broadened excited state lineshape. We investigate the properties of electromagnetically induced transparency (EIT) for a survey of inhomogeneous lineshapes that are straightforward to realize experimentally, and optimize the memory efficiency for each lineshape over a large range of experimental parameters. We compare the optimal EIT efficiency to the well-known atomic frequency comb (AFC) protocol, which also relies on spectral shaping of the inhomogeneous broadening, and observe that with sufficient control field power the optimized lineshapes allow more efficient storage. Finally, we optimize over the inhomogeneous lineshape in a protocol agnostic fashion by numerically constructing the linear integral kernel describing the memory interaction and using a singular value decomposition and interpolation procedure to ensure optimality of the resulting lineshape.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# RadarOcc:4次元イメージングレーダを用いたロバスト3次元活動予測

RadarOcc: Robust 3D Occupancy Prediction with 4D Imaging Radar ( http://arxiv.org/abs/2405.14014v1 )

ライセンス: Link先を確認
Fangqiang Ding, Xiangyu Wen, Yunzhou Zhu, Yiming Li, Chris Xiaoxuan Lu, (参考訳) 3次元占有に基づく知覚パイプラインは、詳細なシーン記述をキャプチャし、様々な対象カテゴリや形状の強い一般化性を示すことで、かなり高度な自律運転を実現している。 現在の手法は、主に3D占有率予測にLiDARまたはカメラ入力に依存している。 これらの方法は悪天候の影響を受けやすいため、全天候での自動運転車の展開が制限される。 認識の堅牢性を向上させるために,最近の自動車レーダの進歩を活用し,4次元イメージングレーダセンサを用いた3次元占有予測手法を提案する。 提案手法であるRadarOccは,4次元レーダーテンソルを直接処理することで,スパースレーダ点雲の限界を回避する。 RadarOccは、ドップラービンディスクリプタ、サイドローブを意識した空間スペーシング、およびレンジワイドの自己アテンション機構を用いて、4Dレーダーデータにまつわる課題に革新的に対処する。 また, 直接座標変換に伴う補間誤差を最小限に抑えるため, 球面型特徴符号化法を考案し, 球面-カルテシアン特徴集約法を提案する。 パブリックなK-Radarデータセット上で、異なるモダリティに基づいて、様々なベースライン手法をベンチマークする。 その結果,レーダーによる3次元占有予測におけるRadarOccの最先端性能と,LiDARやカメラによる手法と比較しても有望な結果が得られた。 さらに, 悪天候条件下での4Dレーダの優れた性能を示す定性的な証拠を提示し, アブレーション研究を通じて, 主要パイプライン成分の影響について検討する。

3D occupancy-based perception pipeline has significantly advanced autonomous driving by capturing detailed scene descriptions and demonstrating strong generalizability across various object categories and shapes. Current methods predominantly rely on LiDAR or camera inputs for 3D occupancy prediction. These methods are susceptible to adverse weather conditions, limiting the all-weather deployment of self-driving cars. To improve perception robustness, we leverage the recent advances in automotive radars and introduce a novel approach that utilizes 4D imaging radar sensors for 3D occupancy prediction. Our method, RadarOcc, circumvents the limitations of sparse radar point clouds by directly processing the 4D radar tensor, thus preserving essential scene details. RadarOcc innovatively addresses the challenges associated with the voluminous and noisy 4D radar data by employing Doppler bins descriptors, sidelobe-aware spatial sparsification, and range-wise self-attention mechanisms. To minimize the interpolation errors associated with direct coordinate transformations, we also devise a spherical-based feature encoding followed by spherical-to-Cartesian feature aggregation. We benchmark various baseline methods based on distinct modalities on the public K-Radar dataset. The results demonstrate RadarOcc's state-of-the-art performance in radar-based 3D occupancy prediction and promising results even when compared with LiDAR- or camera-based methods. Additionally, we present qualitative evidence of the superior performance of 4D radar in adverse weather conditions and explore the impact of key pipeline components through ablation studies.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# 説明の統一化に向けて

Towards a Unified Framework for Evaluating Explanations ( http://arxiv.org/abs/2405.14016v1 )

ライセンス: Link先を確認
Juan D. Pinto, Luc Paquette, (参考訳) 解釈可能なモデルを作成するという課題は、2つの主要な研究コミュニティによって取り上げられている。ML研究者は主にエンジニアのニーズに合った低レベルの説明可能性手法に焦点を当てている。 本稿では,これらのコミュニティがどのように解釈可能性を評価し,重複と意味的不一致を識別したかをレビューする。 評価基準を統一した枠組みへと移行し,既存の基準間の関係を明確化し,そのような枠組みの基礎を築き上げることを提案する。 我々は、モデルと利害関係者の間の仲介者として、本質的に解釈可能なモデルやポストホック手法を用いて分析された不透明なブラックボックスモデルについて論じる。 さらに、有用な説明には忠実さと知性の両方が必要であると論じる。 説明可能性(Explaination plausibility)は知性のための前提条件であり、安定性は説明の忠実さの前提条件である。 本稿では,学習者の行動を予測するための解釈可能なニューラルネットワークの例を用いて,これらの基準と具体的な評価手法について述べる。

The challenge of creating interpretable models has been taken up by two main research communities: ML researchers primarily focused on lower-level explainability methods that suit the needs of engineers, and HCI researchers who have more heavily emphasized user-centered approaches often based on participatory design methods. This paper reviews how these communities have evaluated interpretability, identifying overlaps and semantic misalignments. We propose moving towards a unified framework of evaluation criteria and lay the groundwork for such a framework by articulating the relationships between existing criteria. We argue that explanations serve as mediators between models and stakeholders, whether for intrinsically interpretable models or opaque black-box models analyzed via post-hoc techniques. We further argue that useful explanations require both faithfulness and intelligibility. Explanation plausibility is a prerequisite for intelligibility, while stability is a prerequisite for explanation faithfulness. We illustrate these criteria, as well as specific evaluation methods, using examples from an ongoing study of an interpretable neural network for predicting a particular learner behavior.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# MagicPose4D:外観とモーション制御を備えた人工モデルの構築

MagicPose4D: Crafting Articulated Models with Appearance and Motion Control ( http://arxiv.org/abs/2405.14017v1 )

ライセンス: Link先を確認
Hao Zhang, Di Chang, Fang Li, Mohammad Soleymani, Narendra Ahuja, (参考訳) 2次元および3次元視覚生成モデルの成功により、4次元コンテンツ生成への関心が高まっている。 既存の方法は、主に4Dコンテンツを生成するためのテキストプロンプトに依存するが、しばしば複雑な動きや稀な動きを正確に定義することができない。 この制限に対処するため、我々は4D生成における外観と動きの制御を洗練するための新しいフレームワークであるMagicPose4Dを提案する。 従来の方法とは異なり、MagicPose4Dはモーションプロンプトとして単眼ビデオを受け入れ、正確でカスタマイズ可能なモーション生成を可能にする。 MagicPose4Dは2つの重要なモジュールから構成される。 一 二重位相四D復元モジュールであって、二相で行うもの 第1フェーズでは、正確な2Dの監督と、より正確でないが幾何学的に意味のある3D擬似スーパービジョンを用いて、骨格の制約を課すことなく、モデルの形状を捉えることに重点を置いている。 第2フェーズは、第1フェーズで得られたより正確な擬似3D監視を使用してモデルを洗練し、物理的妥当性を確保するために運動的連鎖に基づく骨格制約を導入する。 さらに、予測メッシュ頂点の全体分布を、余分なアノテーションを伴わずに部分レベルのアライメントを維持しながら、監督と整合するグローバルローカルなチャンファー損失を提案する。 二 クロスカテゴリ移動モジュールは、4次元再構成モジュールからの予測を活用し、キネマティックチェーンベースの骨格を用いてクロスカテゴリ移動を実現する。 フレーム間のスムーズな遷移を動的剛性を通じて保証し、追加のトレーニングなしで堅牢な一般化を促進する。 広範にわたる実験により,MagicPose4Dは4次元コンテンツ生成の精度と一貫性を著しく向上し,様々なベンチマークにおいて既存手法よりも優れることを示した。

With the success of 2D and 3D visual generative models, there is growing interest in generating 4D content. Existing methods primarily rely on text prompts to produce 4D content, but they often fall short of accurately defining complex or rare motions. To address this limitation, we propose MagicPose4D, a novel framework for refined control over both appearance and motion in 4D generation. Unlike traditional methods, MagicPose4D accepts monocular videos as motion prompts, enabling precise and customizable motion generation. MagicPose4D comprises two key modules: i) Dual-Phase 4D Reconstruction Module} which operates in two phases. The first phase focuses on capturing the model's shape using accurate 2D supervision and less accurate but geometrically informative 3D pseudo-supervision without imposing skeleton constraints. The second phase refines the model using more accurate pseudo-3D supervision, obtained in the first phase and introduces kinematic chain-based skeleton constraints to ensure physical plausibility. Additionally, we propose a Global-local Chamfer loss that aligns the overall distribution of predicted mesh vertices with the supervision while maintaining part-level alignment without extra annotations. ii) Cross-category Motion Transfer Module} leverages the predictions from the 4D reconstruction module and uses a kinematic-chain-based skeleton to achieve cross-category motion transfer. It ensures smooth transitions between frames through dynamic rigidity, facilitating robust generalization without additional training. Through extensive experiments, we demonstrate that MagicPose4D significantly improves the accuracy and consistency of 4D content generation, outperforming existing methods in various benchmarks.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# Watermarking Generative Tabular Data

Watermarking Generative Tabular Data ( http://arxiv.org/abs/2405.14018v1 )

ライセンス: Link先を確認
Hengzhi He, Peiyu Yu, Junpeng Ren, Ying Nian Wu, Guang Cheng, (参考訳) 本稿では,統計的保証を伴う簡易かつ効果的な表型データ透かし機構を提案する。 提案した透かしは,データ忠実性を忠実に保ちながら有効に検出できることを示し,加法雑音攻撃に対する強靭性を示す。 一般的な考え方は、単純なデータバインディングに基づいた戦略的埋め込みを通じて、透かしを実現することである。 具体的には、フィーチャーの値範囲を細かく区分けされた間隔に分割し、透かしを選択された ``green list' 間隔に埋める。 透かしを検出するため,基礎となるデータ分布が連続的な密度関数を持つ限り,最小限の仮定を持つ統計的仮説テストフレームワークを開発した。 透かしの有効性は厳密な理論的分析と実証的な検証を通じて実証され、合成および実世界のデータセットの安全性を高めるためのその有用性を強調している。

In this paper, we introduce a simple yet effective tabular data watermarking mechanism with statistical guarantees. We show theoretically that the proposed watermark can be effectively detected, while faithfully preserving the data fidelity, and also demonstrates appealing robustness against additive noise attack. The general idea is to achieve the watermarking through a strategic embedding based on simple data binning. Specifically, it divides the feature's value range into finely segmented intervals and embeds watermarks into selected ``green list" intervals. To detect the watermarks, we develop a principled statistical hypothesis-testing framework with minimal assumptions: it remains valid as long as the underlying data distribution has a continuous density function. The watermarking efficacy is demonstrated through rigorous theoretical analysis and empirical validation, highlighting its utility in enhancing the security of synthetic and real-world datasets.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# BrainMorph: ロバストでフレキシブルな脳MRI登録のための基礎的キーポイントモデル

BrainMorph: A Foundational Keypoint Model for Robust and Flexible Brain MRI Registration ( http://arxiv.org/abs/2405.14019v1 )

ライセンス: Link先を確認
Alan Q. Wang, Rachit Saluja, Heejong Kim, Xinzi He, Adrian Dalca, Mert R. Sabuncu, (参考訳) 本稿では,最近提案されたKeyMorphフレームワークに基づく汎用脳MRI登録のためのキーポイントベース基礎モデルを提案する。 BrainMorphと呼ばれる私たちのモデルは、マルチモーダル、ペアワイド、スケーラブルなグループワイド登録をサポートするツールとして機能します。 BrainMorphは、頭蓋骨と非頭蓋骨の巨大なデータセットで訓練されている。 BrainMorphは、大きなミスアライメントに対して堅牢であり、自動的に抽出されたキーポイントを問うことによって解釈可能であり、異なるアライメントタイプと異なる非線形性の異なる多くの可算変換を、迅速かつ制御可能な生成を可能にする。 健常者および疾患者の脳MRIにおける3次元剛性,アフィン,非線形登録の解法におけるBrainMorphの優位性について検討した。 特に,現在最先端の手法を超越した登録精度と速度を示す。 すべてのコードとモデルはhttps://github.com/alanqrwang/brainmorph.comで入手できる。

We present a keypoint-based foundation model for general purpose brain MRI registration, based on the recently-proposed KeyMorph framework. Our model, called BrainMorph, serves as a tool that supports multi-modal, pairwise, and scalable groupwise registration. BrainMorph is trained on a massive dataset of over 100,000 3D volumes, skull-stripped and non-skull-stripped, from nearly 16,000 unique healthy and diseased subjects. BrainMorph is robust to large misalignments, interpretable via interrogating automatically-extracted keypoints, and enables rapid and controllable generation of many plausible transformations with different alignment types and different degrees of nonlinearity at test-time. We demonstrate the superiority of BrainMorph in solving 3D rigid, affine, and nonlinear registration on a variety of multi-modal brain MRI scans of healthy and diseased subjects, in both the pairwise and groupwise setting. In particular, we show registration accuracy and speeds that surpass current state-of-the-art methods, especially in the context of large initial misalignments and large group settings. All code and models are available at https://github.com/alanqrwang/brainmorph.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# Unlearning Information Bottleneck: システムパターンとバイアスの機械学習

Unlearning Information Bottleneck: Machine Unlearning of Systematic Patterns and Biases ( http://arxiv.org/abs/2405.14020v1 )

ライセンス: Link先を確認
Ling Han, Hao Huang, Dustin Scheinost, Mary-Anne Hartley, María Rodríguez Martínez, (参考訳) トレーニングデータにおける分散シフトへの効果的な適応は、特に特定のバイアスや時代遅れの情報を取り除く場合、ニューラルネットワークの堅牢性を維持するために重要であり、機械学習として知られるプロセスである。 従来のアプローチでは、データバリエーションはランダムであると考えられており、モデルパラメータを正確に調整し、未学習のデータからパターンや特徴を取り除くことは困難である。 本研究では,機械学習のプロセスを強化するための新しい情報理論フレームワークであるUnlearning Information Bottleneck(UIB)を提案する。 変分上限を提案することによって,データ分散の変化を手頃な計算コストと統合し,古いデータパターンや不要なデータパターンやバイアスを効率的かつ正確に除去する,動的事前計算によるモデルパラメータの再検討を行う。 さまざまなデータセット,モデル,未学習手法を対象とした実験により,本手法は学習後のモデルの性能を維持しながら,体系的なパターンやバイアスを効果的に除去することを示した。

Effective adaptation to distribution shifts in training data is pivotal for sustaining robustness in neural networks, especially when removing specific biases or outdated information, a process known as machine unlearning. Traditional approaches typically assume that data variations are random, which makes it difficult to adjust the model parameters accurately to remove patterns and characteristics from unlearned data. In this work, we present Unlearning Information Bottleneck (UIB), a novel information-theoretic framework designed to enhance the process of machine unlearning that effectively leverages the influence of systematic patterns and biases for parameter adjustment. By proposing a variational upper bound, we recalibrate the model parameters through a dynamic prior that integrates changes in data distribution with an affordable computational cost, allowing efficient and accurate removal of outdated or unwanted data patterns and biases. Our experiments across various datasets, models, and unlearning methods demonstrate that our approach effectively removes systematic patterns and biases while maintaining the performance of models post-unlearning.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# 時間列遅延拡散における後部安定性の検討

A Study of Posterior Stability for Time-Series Latent Diffusion ( http://arxiv.org/abs/2405.14021v1 )

ライセンス: Link先を確認
Yangming Li, Mihaela van der Schaar, (参考訳) 遅延拡散は画像生成において有望な結果を示し、効率的なサンプリングを可能にしている。 しかし、この枠組みは時系列に適用した場合、後続崩壊の問題に悩まされる可能性がある。 本稿では,この問題に対する影響分析を行う。 理論的考察から, 後部崩壊はVOEへの潜伏拡散を減少させ, 表現力の低下を招いた。 そこで,本研究では,拡散モデルから抽出した潜伏変数が生成過程の制御を失い,シャッフル時系列の場合,潜伏拡散が依存性錯覚を示すことを示す。 また, 後方崩壊の原因を解析し, この問題に対処し, より表現力のある事前分布をサポートする新しい枠組みを導入する。 実世界の時系列データセットに対する実験により,我々の新モデルが安定な後続モデルを維持し,時系列生成におけるベースラインを上回ることを示す。

Latent diffusion has shown promising results in image generation and permits efficient sampling. However, this framework might suffer from the problem of posterior collapse when applied to time series. In this paper, we conduct an impact analysis of this problem. With a theoretical insight, we first explain that posterior collapse reduces latent diffusion to a VAE, making it less expressive. Then, we introduce the notion of dependency measures, showing that the latent variable sampled from the diffusion model loses control of the generation process in this situation and that latent diffusion exhibits dependency illusion in the case of shuffled time series. We also analyze the causes of posterior collapse and introduce a new framework based on this analysis, which addresses the problem and supports a more expressive prior distribution. Our experiments on various real-world time-series datasets demonstrate that our new model maintains a stable posterior and outperforms the baselines in time series generation.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# I2I-Mamba:選択状態空間モデリングによるマルチモーダル医用画像合成

I2I-Mamba: Multi-modal medical image synthesis via selective state space modeling ( http://arxiv.org/abs/2405.14022v1 )

ライセンス: Link先を確認
Omer F. Atli, Bilal Kabas, Fuat Arslan, Mahmut Yurt, Onat Dalmaz, Tolga Çukur, (参考訳) 近年, トランスコンポーネントを含むディープラーニングモデルは, 医用画像合成タスクにおいて, 性能エンベロープを推し進めている。 静的な局所的なフィルタを使用する畳み込みニューラルネットワーク(CNN)とは対照的に、トランスフォーマーは、適応的で非局所的なフィルタリングを許可し、長距離コンテキストを敏感にキャプチャする自己アテンションメカニズムを使用する。 しかし、この感度はモデル複雑さを犠牲にしており、特に比較的控えめな画像データセットでの学習効率を損なう可能性がある。 本稿では, 局所精度を維持しつつ, 長期的コンテキストを効率的に捉えるために, 選択状態空間モデリング(SSM)を活用する, マルチモーダル医用画像合成のための新しい逆モデルI2I-Mambaを提案する。 そのため、I2I-Mambaは、畳み込みバックボーンのボトルネックにチャネル混合Mamba(cmMamba)ブロックを注入する。 cmMambaブロックでは、SSM層は空間次元のコンテキストを学習し、チャネル混合層は特徴写像のチャネル次元のコンテキストを学習する。 マルチコントラストMRIおよびMRI-CTプロトコルにおける画像の欠如を示唆する包括的デモが報告されている。 以上の結果から,I2I-Mambaは,目標モダリティ画像の合成において,最先端CNNおよびトランスフォーマーに基づく手法に対して優れた性能を示すことが示された。

In recent years, deep learning models comprising transformer components have pushed the performance envelope in medical image synthesis tasks. Contrary to convolutional neural networks (CNNs) that use static, local filters, transformers use self-attention mechanisms to permit adaptive, non-local filtering to sensitively capture long-range context. However, this sensitivity comes at the expense of substantial model complexity, which can compromise learning efficacy particularly on relatively modest-sized imaging datasets. Here, we propose a novel adversarial model for multi-modal medical image synthesis, I2I-Mamba, that leverages selective state space modeling (SSM) to efficiently capture long-range context while maintaining local precision. To do this, I2I-Mamba injects channel-mixed Mamba (cmMamba) blocks in the bottleneck of a convolutional backbone. In cmMamba blocks, SSM layers are used to learn context across the spatial dimension and channel-mixing layers are used to learn context across the channel dimension of feature maps. Comprehensive demonstrations are reported for imputing missing images in multi-contrast MRI and MRI-CT protocols. Our results indicate that I2I-Mamba offers superior performance against state-of-the-art CNN- and transformer-based methods in synthesizing target-modality images.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# WordGame: クエリとレスポンスの同時難読化による効率的なLLMジェイルブレイク

WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Response ( http://arxiv.org/abs/2405.14023v1 )

ライセンス: Link先を確認
Tianrong Zhang, Bochuan Cao, Yuanpu Cao, Lu Lin, Prasenjit Mitra, Jinghui Chen, (参考訳) ChatGPTのような最近の大規模言語モデル(LLM)のブレークスルーは、前例のないペースで生産プロセスに革命をもたらした。 この進展とともに、LSMがジェイルブレイク攻撃に対する感受性について懸念が高まり、有害なコンテンツや安全でないコンテンツが生成される。 LLMでは、既存のジェイルブレイクの試みを緩和し、さらに複雑化するよう強制する安全対策が実施されているが、まだ完璧には程遠い。 本稿では,現在の安全アライメントの共通パターンを分析し,クエリとレスポンスの同時難読化により,このようなパターンを脱獄攻撃に活用可能であることを示す。 具体的には、悪意のある単語をワードゲームに置き換えて、クエリの敵対的意図を分解し、ゲームに関する良質なコンテンツが応答の予測された有害コンテンツに先行するように促し、安全アライメントに使用するコーパスでほとんどカバーされないコンテキストを作成する。 大規模な実験は、WordGame攻撃が最新のClaude-3、GPT-4、Llama-3モデルを含む、現在の主要なプロプライエタリでオープンソースのLLMのガードレールを破壊できることを示している。 クエリとレスポンスにおけるこのような同時難読化に関するさらなるアブレーション研究は、個々の攻撃を超えた攻撃戦略のメリットの証拠を提供する。

The recent breakthrough in large language models (LLMs) such as ChatGPT has revolutionized production processes at an unprecedented pace. Alongside this progress also comes mounting concerns about LLMs' susceptibility to jailbreaking attacks, which leads to the generation of harmful or unsafe content. While safety alignment measures have been implemented in LLMs to mitigate existing jailbreak attempts and force them to become increasingly complicated, it is still far from perfect. In this paper, we analyze the common pattern of the current safety alignment and show that it is possible to exploit such patterns for jailbreaking attacks by simultaneous obfuscation in queries and responses. Specifically, we propose WordGame attack, which replaces malicious words with word games to break down the adversarial intent of a query and encourage benign content regarding the games to precede the anticipated harmful content in the response, creating a context that is hardly covered by any corpus used for safety alignment. Extensive experiments demonstrate that WordGame attack can break the guardrails of the current leading proprietary and open-source LLMs, including the latest Claude-3, GPT-4, and Llama-3 models. Further ablation studies on such simultaneous obfuscation in query and response provide evidence of the merits of the attack strategy beyond an individual attack.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# 2つの頭は1より優れている: 2次元ヒルベルト曲線に基づく出力表現を用いたニューラルネットワーク量子化

Two Heads are Better Than One: Neural Networks Quantization with 2D Hilbert Curve-based Output Representation ( http://arxiv.org/abs/2405.14024v1 )

ライセンス: Link先を確認
Mykhailo Uss, Ruslan Yermolenko, Olena Kolodiazhna, Oleksii Shashko, Ivan Safonov, Volodymyr Savin, Yoonjae Yeo, Seowon Ji, Jaeyun Jeong, (参考訳) 量子化はディープニューラルネットワーク(DNN)のメモリ、計算、電力効率の向上に広く利用されている。 ポストトレーニング量子化や量子化学習などの様々な手法が、量子化品質を改善するために提案されている。 本稿では,DNNの出力の冗長表現を用いた新しいDNN量子化手法を提案する。 対象量を2次元パラメトリック曲線上の点として表現する。 DNNモデルは、処理後の段階でターゲット量にマッピングされた2Dポイントを予測するために修正される。 このマッピングにより量子化誤差を低減できることを示す。 低次パラメトリックヒルベルト曲線,Depth-From-Stereoタスク,およびU-Netアーキテクチャとビジョントランスフォーマーで表される2つのモデルに対して,CPUおよびDSPデリゲートにおけるINT8モデルの量子化誤差を約5倍削減した。 この増加は、最小の推論時間の増加(7%未満)が伴う。 我々のアプローチはセグメンテーション、オブジェクト検出、キーポイント予測など他のタスクにも適用できる。

Quantization is widely used to increase deep neural networks' (DNN) memory, computation, and power efficiency. Various techniques, such as post-training quantization and quantization-aware training, have been proposed to improve quantization quality. We introduce a novel approach for DNN quantization that uses a redundant representation of DNN's output. We represent the target quantity as a point on a 2D parametric curve. The DNN model is modified to predict 2D points that are mapped back to the target quantity at a post-processing stage. We demonstrate that this mapping can reduce quantization error. For the low-order parametric Hilbert curve, Depth-From-Stereo task, and two models represented by U-Net architecture and vision transformer, we achieved a quantization error reduction by about 5 times for the INT8 model at both CPU and DSP delegates. This gain comes with a minimal inference time increase (less than 7%). Our approach can be applied to other tasks, including segmentation, object detection, and key-points prediction.
翻訳日:2024-05-24 19:54:29 公開日:2024-05-22
# 半導体スピン量子ビットに対するバラスト電荷

Ballast charges for semiconductor spin qubits ( http://arxiv.org/abs/2405.14027v1 )

ライセンス: Link先を確認
Yujun Choi, John M. Nichol, Edwin Barnes, (参考訳) 半導体スピン量子ビットは量子コンピューティングの魅力的なプラットフォームであるが、その性能は主として変動する電磁環境によって低下する。 量子ビットの下に位置する追加の遮蔽層の表面への誘導電荷であるバラスト電荷の概念を導入する。 これらの電荷の反アクティブな挙動は、電荷ノイズに寄与する2レベル系のゆらぎに関連するパワースペクトル密度を著しく減少させる。 シミュレーションにより,Si/SiGeデバイスにおけるスピン量子ビットの劣化時間は,この手法を用いることで平均4~6倍になることがわかった。 このアプローチの物理的実装と潜在的な課題についても論じる。

Semiconductor spin qubits are an attractive platform for quantum computing, but their performance is degraded primarily by fluctuating electromagnetic environments. We introduce the concept of ballast charges, which are induced charges on the surface of an additional screening layer situated below the qubits. The counteractive behavior of these charges can significantly reduce the power spectral density associated with fluctuations from two-level systems that contribute to charge noise. Our simulations show that the dephasing time of a spin qubit in a Si/SiGe device increases by a factor of 4 to 6 on average when using this method. We also discuss the physical implementation and potential challenges of this approach.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# 視覚表現による視覚言語モデルにおけるスキュー認識の精細化

Refining Skewed Perceptions in Vision-Language Models through Visual Representations ( http://arxiv.org/abs/2405.14030v1 )

ライセンス: Link先を確認
Haocheng Dai, Sarang Joshi, (参考訳) CLIPのような大規模な視覚言語モデル(VLM)は、様々な下流タスクで顕著な成功を収めている。 それらの利点にもかかわらず、これらのモデルは、他の基礎的なシステムと同様、現実のデータの不均等な分布からバイアスを受け継ぎ、実際の環境に関する誤解につながります。 ImageNetのような一般的なデータセットは、多くの場合、これらのコンテキスト要素が欠落しているシナリオでVLMのパフォーマンスを低下させる、非因果的で刺激的な相関によって取り除かれる。 本研究では,CLIPの下流アプリケーションへの埋め込みから,単純な線形プローブを用いてタスク固有のコア特徴を効果的に抽出する方法について検討する。 分析の結果、CLIPのテキスト表現は、しばしば、バイアス付き事前学習データセットに受け継がれる突発的な相関によって汚染されることが判明した。 実証的な証拠は、CLIPからの視覚的表現に頼ることは、テキスト埋め込みとは対照的に、VLMの歪んだ知覚を洗練させるより実践的であり、埋め込みバイアスを克服する際の視覚的表現の優れた有用性を強調することを示唆している。 私たちのコードはここで利用可能です。

Large vision-language models (VLMs), such as CLIP, have become foundational, demonstrating remarkable success across a variety of downstream tasks. Despite their advantages, these models, akin to other foundational systems, inherit biases from the disproportionate distribution of real-world data, leading to misconceptions about the actual environment. Prevalent datasets like ImageNet are often riddled with non-causal, spurious correlations that can diminish VLM performance in scenarios where these contextual elements are absent. This study presents an investigation into how a simple linear probe can effectively distill task-specific core features from CLIP's embedding for downstream applications. Our analysis reveals that the CLIP text representations are often tainted by spurious correlations, inherited in the biased pre-training dataset. Empirical evidence suggests that relying on visual representations from CLIP, as opposed to text embedding, is more practical to refine the skewed perceptions in VLMs, emphasizing the superior utility of visual representations in overcoming embedded biases. Our codes will be available here.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# 凸最適化による2層ポリノミアルおよびReLU活性化ネットワークの逆トレーニング

Adversarial Training of Two-Layer Polynomial and ReLU Activation Networks via Convex Optimization ( http://arxiv.org/abs/2405.14033v1 )

ライセンス: Link先を確認
Daniel Kuelbs, Sanjay Lall, Mert Pilanci, (参考訳) 敵対的攻撃に対して堅牢なニューラルネットワークのトレーニングは、特に過度にパラメータ化されたモデルが安全クリティカルな設定で採用されているため、ディープラーニングにおいて依然として重要な問題である。 凸プログラムとしての2層ReLUと多項式活性化ネットワークのトレーニング問題を再構成する最近の研究から、Sプロデューサによる多項式活性化ネットワークの対角トレーニングのための凸半定プログラム(SDP)を考案した。 また,最小距離を多項式活性化ネットワークの決定境界に正しく分類した例から計算する凸SDPを導出する。 2層ReLUアクティベーションネットワークのアドバイザリトレーニングは文献的に研究されているが、従来の研究とは対照的に、標準的なマシンライブラリやGPUアクセラレーションと互換性のあるスケーラブルなアプローチを提案する。 UCI Machine Learning RepositoryのBreast Cancer Wisconsinデータセットに対する$\ell^\infty$攻撃に対する堅牢なテスト精度の増大につながる。 2層ReLUネットワークでは、CIFAR-10データセット上のPre-Activation ResNet-18モデルの最後の2つの完全に接続されたレイヤをトレーニングするために、スケーラブルな実装を活用します。 モデルは、シャープネスを意識した最小化で訓練されたのと同じアーキテクチャよりもクリーンで堅牢なテスト精度を実現する。

Training neural networks which are robust to adversarial attacks remains an important problem in deep learning, especially as heavily overparameterized models are adopted in safety-critical settings. Drawing from recent work which reformulates the training problems for two-layer ReLU and polynomial activation networks as convex programs, we devise a convex semidefinite program (SDP) for adversarial training of polynomial activation networks via the S-procedure. We also derive a convex SDP to compute the minimum distance from a correctly classified example to the decision boundary of a polynomial activation network. Adversarial training for two-layer ReLU activation networks has been explored in the literature, but, in contrast to prior work, we present a scalable approach which is compatible with standard machine libraries and GPU acceleration. The adversarial training SDP for polynomial activation networks leads to large increases in robust test accuracy against $\ell^\infty$ attacks on the Breast Cancer Wisconsin dataset from the UCI Machine Learning Repository. For two-layer ReLU networks, we leverage our scalable implementation to retrain the final two fully connected layers of a Pre-Activation ResNet-18 model on the CIFAR-10 dataset. Our 'robustified' model achieves higher clean and robust test accuracies than the same architecture trained with sharpness-aware minimization.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# マルチユーザーVRアプリケーションにおけるリモートキーロガー攻撃

Remote Keylogging Attacks in Multi-user VR Applications ( http://arxiv.org/abs/2405.14036v1 )

ライセンス: Link先を確認
Zihao Su, Kunlin Cai, Reuben Beeler, Lukas Dresel, Allan Garcia, Ilya Grishchenko, Yuan Tian, Christopher Kruegel, Giovanni Vigna, (参考訳) VR(Virtual Reality)アプリケーションが普及するにつれて、彼らは距離を橋渡しし、ユーザをより密集させました。 しかし、この成長に伴い、セキュリティとプライバシ、特に没入感のある体験を生み出すために使用されるモーションデータに関する懸念が高まっている。 本研究では,マルチユーザVRアプリケーションにおいて,複数のユーザが同じ仮想空間で相互に対話できるアプリケーションである,重大なセキュリティ上の脅威を強調した。 具体的には、敵のゲームクライアントから収集したアバターレンダリング情報を利用して、クレジットカード情報、パスワード、プライベートな会話などのユーザータイプ秘密を抽出するリモートアタックを提案する。 本研究では,(1)ネットワークパケットから動作データを抽出し,(2)キーストロークエントリに動作データをマッピングする。 我々は攻撃の有効性を検証するためにユーザスタディを行い、攻撃は97.62%のキーストロークを推測した。 さらに,(1)部屋に複数のユーザがいる場合でも,その効果を確認し,(2)攻撃者が被害者を見ることができない場合においても,攻撃が現実的であることを裏付ける追加実験を行った。 さらに,攻撃の一般化可能性を示すために,提案した4つのアプリケーションに対する攻撃を再現した。 これらの結果は、この脆弱性の深刻さと、数百万のVRソーシャルプラットフォームユーザーに対する潜在的な影響を浮き彫りにしている。

As Virtual Reality (VR) applications grow in popularity, they have bridged distances and brought users closer together. However, with this growth, there have been increasing concerns about security and privacy, especially related to the motion data used to create immersive experiences. In this study, we highlight a significant security threat in multi-user VR applications, which are applications that allow multiple users to interact with each other in the same virtual space. Specifically, we propose a remote attack that utilizes the avatar rendering information collected from an adversary's game clients to extract user-typed secrets like credit card information, passwords, or private conversations. We do this by (1) extracting motion data from network packets, and (2) mapping motion data to keystroke entries. We conducted a user study to verify the attack's effectiveness, in which our attack successfully inferred 97.62% of the keystrokes. Besides, we performed an additional experiment to underline that our attack is practical, confirming its effectiveness even when (1) there are multiple users in a room, and (2) the attacker cannot see the victims. Moreover, we replicated our proposed attack on four applications to demonstrate the generalizability of the attack. These results underscore the severity of the vulnerability and its potential impact on millions of VR social platform users.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# FLIPHAT:高次元スパルスリニアバンドの差分プライバシー

FLIPHAT: Joint Differential Privacy for High Dimensional Sparse Linear Bandits ( http://arxiv.org/abs/2405.14038v1 )

ライセンス: Link先を確認
Sunrit Chakraborty, Saptarshi Roy, Debabrota Basu, (参考訳) 高次元スペアリニアバンドは、ユーザの高次元特徴(例えばゲノムデータ)が利用できるが、そのごく一部だけが関連している、シーケンシャルな意思決定問題(例えばパーソナライズドメディカル)の効率的なモデルとして機能する。 これらのアプリケーションにおけるデータプライバシの懸念により、我々は、報酬と文脈の両方をプライベートデータとみなす、差分的にプライベートな高次元の疎線形帯域について検討する。 まず、プライバシのコストを定量化するために、この設定で達成可能な後悔の限界を低くする。 さらにこの問題に対処するため、計算効率の良い帯域幅アルゴリズムである \textbf{F}orgetfu\textbf{L} \textbf{I}terative \textbf{P}rivate \textbf{HA}rd \textbf{T}hresholding (FLIPHAT) を設計する。 FLIPHATはエピソードの倍増とエピソード的忘れ込みとともに、プライバシと後悔の最適性の両方を保証するために、疎線形回帰オラクルとしてノイズイテレーティブ・ハード・スレッショニング(N-IHT)アルゴリズムの亜種をデプロイする。 また,FLIPHATは対数的要因を最適に再現できることが示唆された。 並列利害関係であるN-IHTの推定誤差を, より精巧に解析することで, 後悔の分析を行う。

High dimensional sparse linear bandits serve as an efficient model for sequential decision-making problems (e.g. personalized medicine), where high dimensional features (e.g. genomic data) on the users are available, but only a small subset of them are relevant. Motivated by data privacy concerns in these applications, we study the joint differentially private high dimensional sparse linear bandits, where both rewards and contexts are considered as private data. First, to quantify the cost of privacy, we derive a lower bound on the regret achievable in this setting. To further address the problem, we design a computationally efficient bandit algorithm, \textbf{F}orgetfu\textbf{L} \textbf{I}terative \textbf{P}rivate \textbf{HA}rd \textbf{T}hresholding (FLIPHAT). Along with doubling of episodes and episodic forgetting, FLIPHAT deploys a variant of Noisy Iterative Hard Thresholding (N-IHT) algorithm as a sparse linear regression oracle to ensure both privacy and regret-optimality. We show that FLIPHAT achieves optimal regret up to logarithmic factors. We analyze the regret by providing a novel refined analysis of the estimation error of N-IHT, which is of parallel interest.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# 数学的推論におけるアウト・オブ・ディストリビューション検出のための軌道ボラティリティ

Trajectory Volatility for Out-of-Distribution Detection in Mathematical Reasoning ( http://arxiv.org/abs/2405.14039v1 )

ライセンス: Link先を確認
Yiming Wang, Pei Zhang, Baosong Yang, Derek F. Wong, Zhuosheng Zhang, Rui Wang, (参考訳) 分散トレーニングデータの独立性と同一に分散された仮定から逸脱した現実世界のデータは、ディープネットワークにセキュリティ上の脅威をもたらすため、アウト・オブ・ディストリビューション(OOD)検出アルゴリズムが進歩する。 ジェネレーティブ言語モデル(GLM)における検出法は主に不確実性推定と埋め込み距離測定に重点を置いており、後者は要約や翻訳といった従来の言語タスクにおいて最も有効であることが証明されている。 しかし、別の複雑な生成シナリオの数学的推論は、出力空間の高密度な特徴のために埋め込みベースの手法に重大な課題をもたらすが、この特徴は、潜時空間における異なるサンプル間の埋め込みシフト軌跡において大きな相違をもたらす。 そこで,本研究では,OOD検出にトラジェクトリボラティリティを用いるトラジェクトリベースのTVスコアを提案する。 実験により,本手法は数学的推論シナリオ下でのGLM上の従来のアルゴリズムよりも優れており,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張可能であることが示された。

Real-world data deviating from the independent and identically distributed (i.i.d.) assumption of in-distribution training data poses security threats to deep networks, thus advancing out-of-distribution (OOD) detection algorithms. Detection methods in generative language models (GLMs) mainly focus on uncertainty estimation and embedding distance measurement, with the latter proven to be most effective in traditional linguistic tasks like summarization and translation. However, another complex generative scenario mathematical reasoning poses significant challenges to embedding-based methods due to its high-density feature of output spaces, but this feature causes larger discrepancies in the embedding shift trajectory between different samples in latent spaces. Hence, we propose a trajectory-based method TV score, which uses trajectory volatility for OOD detection in mathematical reasoning. Experiments show that our method outperforms all traditional algorithms on GLMs under mathematical reasoning scenarios and can be extended to more applications with high-density features in output spaces, such as multiple-choice questions.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# COVID-19コンテキストにおけるマイグレーションに対する態度:Twitterデータを用いた行動免疫システム仮説の検証

Attitudes Towards Migration in a COVID-19 Context: Testing a Behavioral Immune System Hypothesis with Twitter Data ( http://arxiv.org/abs/2405.14043v1 )

ライセンス: Link先を確認
Yerka Freire-Vidal, Gabriela Fajardo, Carlos Rodríguez-Sickert, Eduardo Graells-Garrido, José Antonio Muñoz-Reyes, Oriana Figueroa, (参考訳) 新型コロナウイルスの感染拡大により、世界のほとんどの人々の日常生活が長い間変化し、社会性に厳しい制限が加えられた。 行動免疫システム(BIS)は、病原体に直面すると、心理的メカニズムが活性化され、特に移民を含む疎外化集団に対する偏見や差別が増加することを示唆している。 本研究の目的は、チリのTwitterデータにおける移民に対する利用者の態度を、パンデミック前、パンデミック前、パンデミック前といった文脈で利用し、感染の恐れがあるマイノリティや外国グループへの拒否を強める傾向があるかどうかをテストすることである。 その結果,パンデミック期に利用者がツイート生成量を増やしたのに対し,同情的な利用者は増加し,その間にツイートのリーチも増加したため,BIS仮説を部分的に支持するしかなかった。 また,これらのタイプのユーザ間での言語使用の差異も見出した。 これらの結果に対する別の説明は、文脈に依存しているかもしれない。

The COVID-19 outbreak implied many changes in the daily life of most of the world's population for a long time, prompting severe restrictions on sociality. The Behavioral Immune System (BIS) suggests that when facing pathogens, a psychological mechanism would be activated that, among other things, would generate an increase in prejudice and discrimination towards marginalized groups, including immigrants. This study aimed to test if people tend to enhance their rejection of minorities and foreign groups under the threat of contagious diseases, using the users' attitudes towards migrants in Twitter data from Chile, for pre-pandemic and pandemic contexts. Our results only partially support the BIS hypothesis, since threatened users increased their tweet production in the pandemic period, compared to empathetic users, but the latter grew in number and also increased the reach of their tweets between the two periods. We also found differences in the use of language between these types of users. Alternative explanations for these results may be context-dependent.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# 大規模シーンと視覚のための暗示形状上の剛体シミュレータの学習

Learning rigid-body simulators over implicit shapes for large-scale scenes and vision ( http://arxiv.org/abs/2405.14045v1 )

ライセンス: Link先を確認
Yulia Rubanova, Tatiana Lopez-Guevara, Kelsey R. Allen, William F. Whitney, Kimberly Stachenfeld, Tobias Pfaff, (参考訳) ロボット工学、工学、映画、ビデオゲームなど、さまざまな用途において、多数の剛体物体で大きなシーンをシミュレートすることが不可欠である。 初期状態やシミュレーションパラメータへの小さな変更は、最終状態に大きな変更をもたらす可能性がある。 近年,MuJoCoやPyBulletといった手作りシミュレータの代替として,グラフネットワーク(GNN)に基づく学習シミュレータが開発された。 彼らは現実世界の観測から直接、実際の物体の力学を正確に捉えることができる。 しかし、現在の最先端の学習シミュレータはメッシュ上で動作し、多くのオブジェクトや詳細な形状を持つシーンにはスケールしにくい。 本稿では,SDF-Simについて紹介する。 学習した符号距離関数(SDF)を用いて物体形状を表現し,距離計算を高速化する。 我々は,SDFを利用するシミュレータを設計し,衝突検出に関連する以前のシミュレータの基本的ボトルネックを回避する。 文学において初めて、GNNベースのシミュレータを数百のオブジェクトと最大1100万ノードのシーンにスケールできることを示しました。 最後に、マルチビュー画像からSDFを抽出することにより、実世界のシーンにSDF-Simを適用することができることを示す。

Simulating large scenes with many rigid objects is crucial for a variety of applications, such as robotics, engineering, film and video games. Rigid interactions are notoriously hard to model: small changes to the initial state or the simulation parameters can lead to large changes in the final state. Recently, learned simulators based on graph networks (GNNs) were developed as an alternative to hand-designed simulators like MuJoCo and PyBullet. They are able to accurately capture dynamics of real objects directly from real-world observations. However, current state-of-the-art learned simulators operate on meshes and scale poorly to scenes with many objects or detailed shapes. Here we present SDF-Sim, the first learned rigid-body simulator designed for scale. We use learned signed-distance functions (SDFs) to represent the object shapes and to speed up distance computation. We design the simulator to leverage SDFs and avoid the fundamental bottleneck of the previous simulators associated with collision detection. For the first time in literature, we demonstrate that we can scale the GNN-based simulators to scenes with hundreds of objects and up to 1.1 million nodes, where mesh-based approaches run out of memory. Finally, we show that SDF-Sim can be applied to real world scenes by extracting SDFs from multi-view images.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# 生成したデータ特性を制御した粒子物理DLシミュレーション

Particle physics DL-simulation with control over generated data properties ( http://arxiv.org/abs/2405.14049v1 )

ライセンス: Link先を確認
Karol Rogoziński, Jan Dubiński, Przemysław Rokita, Kamil Deja, (参考訳) モンテカルロ法に基づく従来の手法を超えて、コスト削減とシミュレーションに必要な時間を短縮することを目的とした革新的な手法の研究は、CERNの大型ハドロン衝突型加速器における衝突シミュレーションの開発によって引き起こされている。 この目的のために,VAE,GAN,拡散モデルなどのディープラーニング生成手法が用いられている。 標準的なアプローチよりもはるかに高速でシンプルだが、シミュレーションデータの忠実度を常に維持するとは限らない。 この作業は、生成されたデータプロパティを制御するメカニズムを導入することで、現在使われているアルゴリズムに代わるソリューションを提供することによって、この問題を軽減することを目的としている。 これを実現するために、最近導入されたCorrVAEを拡張し、生成した出力のユーザ定義パラメータ操作を可能にする。 我々は粒子物理シミュレーションの問題にモデルを適応させる。 提案手法は, CERN における ALICE 実験において, 生成した出力のパラメータの制御を実証し, ZDC カロリーメータをシミュレートする代替手段を構成する, 有望な結果を得た。

The research of innovative methods aimed at reducing costs and shortening the time needed for simulation, going beyond conventional approaches based on Monte Carlo methods, has been sparked by the development of collision simulations at the Large Hadron Collider at CERN. Deep learning generative methods including VAE, GANs and diffusion models have been used for this purpose. Although they are much faster and simpler than standard approaches, they do not always keep high fidelity of the simulated data. This work aims to mitigate this issue, by providing an alternative solution to currently employed algorithms by introducing the mechanism of control over the generated data properties. To achieve this, we extend the recently introduced CorrVAE, which enables user-defined parameter manipulation of the generated output. We adapt the model to the problem of particle physics simulation. The proposed solution achieved promising results, demonstrating control over the parameters of the generated output and constituting an alternative for simulating the ZDC calorimeter in the ALICE experiment at CERN.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# 最大平均離散性(MMD)統計量に対する濃度不等式とその生成モデルへの応用

A Concentration Inequality for Maximum Mean Discrepancy (MMD)-based Statistics and Its Application in Generative Models ( http://arxiv.org/abs/2405.14051v1 )

ライセンス: Link先を確認
Yijin Ni, Xiaoming Huo, (参考訳) 最大平均離散性(英: Maximum Mean Discrepancy、MMD)は、機械学習における多くの応用を見出した確率メトリックである。 本研究では, 最小MDD推定器, 生成モーメントマッチングネットワーク(GMMN) , GAN (Generative Adversarial Network) などの生成モデルに適用することに焦点を当てた。 これらの場合、MDDは最小化あるいはmin-max最適化問題における目的関数の一部である。 その経験的性能が競合するとしても、対応するMDDベースの推定器の一貫性と収束率の分析はまだ行われていない。 本稿では,最大平均離散性(MMD)に基づく推定器のクラス,すなわち,生成した分布と逆学習されたカーネルの集合に対する経験的MDD値の最大偏差境界に対する一様集中不等式を提案する。 ここでは、MDDに基づく生成モデルの理論的解析において、我々の不等式は効率的なツールとなる。 その結果, 最小MDD推定器とMDGANの文脈におけるMDDに基づく推定器の一般化誤差境界について検討した。

Maximum Mean Discrepancy (MMD) is a probability metric that has found numerous applications in machine learning. In this work, we focus on its application in generative models, including the minimum MMD estimator, Generative Moment Matching Network (GMMN), and Generative Adversarial Network (GAN). In these cases, MMD is part of an objective function in a minimization or min-max optimization problem. Even if its empirical performance is competitive, the consistency and convergence rate analysis of the corresponding MMD-based estimators has yet to be carried out. We propose a uniform concentration inequality for a class of Maximum Mean Discrepancy (MMD)-based estimators, that is, a maximum deviation bound of empirical MMD values over a collection of generated distributions and adversarially learned kernels. Here, our inequality serves as an efficient tool in the theoretical analysis for MMD-based generative models. As elaborating examples, we applied our main result to provide the generalization error bounds for the MMD-based estimators in the context of the minimum MMD estimator and MMD GAN.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# バイナリ実行可能入力のリバースエンジニアリング構造とセマンティックス

Reverse Engineering Structure and Semantics of Input of a Binary Executable ( http://arxiv.org/abs/2405.14052v1 )

ライセンス: Link先を確認
Seshagiri Prabhu Narasimha, Arun Lakhotia, (参考訳) バイナリ実行ファイルの入力形式に関する知識は、ファジング用のデータ生成や手動のリバースエンジニアリングなど、バグや脆弱性を見つける上で重要である。 本稿では,動的テナント解析を用いて,バイナリ実行ファイルの入力のフィールド間の構造と意味関係を復元するアルゴリズムを提案する。 このアルゴリズムは、入力を値を表す連続するバイトに分割するだけでなく、固定長と可変長の原子フィールドや、原子フィールドの配列、レコードの配列、変動レコードの配列など、さまざまな種類の配列といった構造の統語的コンポーネントを識別する。 また、レコードの配列のカウントを指定するカウントフィールドや、入力データ内の可変長フィールドの開始位置を指定するオフセットフィールドなど、構造体のフィールド間の意味関係も推論する。 このアルゴリズムは、構文コンポーネントと意味関係を表現するために、C/C++のような構造を構築する。 このアルゴリズムはByteRI 2.0と呼ばれるプロトタイプシステムで実装された。 本システムは,合成科目プログラムと実世界のプログラムを用いた制御実験を用いて評価した。 対象プログラムは, PE, PNG, ZIP, CSVなどの従来のデータ形式に類似した様々な入力形式と, 選択された意味関係を受け入れるために作成された。 その結果,ByteRI 2.0は,構文的要素とその文法的構造を正しく識別し,合成科目プログラムと実世界プログラムの両方の分野間の意味的関係を示す。 回収された構造体は、ジェネレータとして使用されると、すべての合成対象プログラムと実世界のプログラムに受け入れられる有効なデータを生成した。

Knowledge of the input format of binary executables is important for finding bugs and vulnerabilities, such as generating data for fuzzing or manual reverse engineering. This paper presents an algorithm to recover the structure and semantic relations between fields of the input of binary executables using dynamic taint analysis. The algorithm improves upon prior work by not just partitioning the input into consecutive bytes representing values but also identifying syntactic components of structures, such as atomic fields of fixed and variable lengths, and different types of arrays, such as arrays of atomic fields, arrays of records, and arrays with variant records. It also infers the semantic relations between fields of a structure, such as count fields that specify the count of an array of records or offset fields that specify the start location of a variable-length field within the input data. The algorithm constructs a C/C++-like structure to represent the syntactic components and semantic relations. The algorithm was implemented in a prototype system named ByteRI 2.0. The system was evaluated using a controlled experiment with synthetic subject programs and real-world programs. The subject programs were created to accept a variety of input formats that mimic syntactic components and selected semantic relations found in conventional data formats, such as PE, PNG, ZIP, and CSV. The results show that ByteRI 2.0 correctly identifies the syntactic elements and their grammatical structure, as well as the semantic relations between the fields for both synthetic subject programs and real-world programs. The recovered structures, when used as a generator, produced valid data that was acceptable for all the synthetic subject programs and some of the real-world programs.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# 脳とテキストのデコードから何バイトのバイトを抽出できるのか?

How Many Bytes Can You Take Out Of Brain-To-Text Decoding? ( http://arxiv.org/abs/2405.14055v1 )

ライセンス: Link先を確認
Richard Antonello, Nihita Sarma, Jerry Tang, Jiaru Song, Alexander Huth, (参考訳) 脳-コンピュータインターフェースは、スピーチを支援し、脳を研究するための医学的および科学的な応用を約束している。 本研究では,脳からテキストへのデコーダに対する情報に基づく評価指標を提案する。 このメトリクスを用いて、既存の最先端の連続テキストデコーダを拡張する2つの方法を検討する。 これらの手法は, ベースラインモデルと比較して, 脳の復号性能を40%以上向上させることができることを示す。 さらに、脳からテキストへのデコーダの情報的特性について検討し、Zipfianのパワー則のダイナミクスを実証的に示す。 最後に、fMRIベースのテキストデコーダの理想的な性能を推定する。 我々は、この理想化されたモデルを現在のモデルと比較し、情報に基づく計量を用いて、デコードエラーの主な原因を定量化する。 アルゴリズムのさらなる改良により、実践的な脳からテキストへのデコーダが実現可能であると結論付けている。

Brain-computer interfaces have promising medical and scientific applications for aiding speech and studying the brain. In this work, we propose an information-based evaluation metric for brain-to-text decoders. Using this metric, we examine two methods to augment existing state-of-the-art continuous text decoders. We show that these methods, in concert, can improve brain decoding performance by upwards of 40% when compared to a baseline model. We further examine the informatic properties of brain-to-text decoders and show empirically that they have Zipfian power law dynamics. Finally, we provide an estimate for the idealized performance of an fMRI-based text decoder. We compare this idealized model to our current model, and use our information-based metric to quantify the main sources of decoding error. We conclude that a practical brain-to-text decoder is likely possible given further algorithmic improvements.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# 大型の言語モデルが指紋を残している

Your Large Language Models Are Leaving Fingerprints ( http://arxiv.org/abs/2405.14057v1 )

ライセンス: Link先を確認
Hope McGovern, Rickard Stureborg, Yoshi Suhara, Dimitris Alikaniotis, (参考訳) 微細変換器や他の教師付き検出器は、いくつかの状況において、人間と機械が生成するテキストを効果的に区別できることが示されている:arXiv:2305.13242 しかし、n-gramと部分音声の特徴の上の単純な分類器でさえ、ドメイン内データと外部データの両方において非常に堅牢なパフォーマンスを実現することができる。 そこで本研究では,LLMが特定の語彙的特徴と形態的特徴の頻度のわずかな差を示すユニークな指紋を持っていることを発見した。 このような指紋を視覚化し、機械が生成したテキストをどうやって検出できるかを説明し、テキストドメイン全体でさらに堅牢であることを示す。 同一モデルファミリ内のモデル(例えば llama-13b vs. llama-65b)間で指紋が持続し、チャット用に微調整されたモデルは標準言語モデルよりも検出しやすく、LLM指紋はトレーニングデータによって直接誘導される可能性があることを示す。

It has been shown that finetuned transformers and other supervised detectors effectively distinguish between human and machine-generated text in some situations arXiv:2305.13242, but we find that even simple classifiers on top of n-gram and part-of-speech features can achieve very robust performance on both in- and out-of-domain data. To understand how this is possible, we analyze machine-generated output text in five datasets, finding that LLMs possess unique fingerprints that manifest as slight differences in the frequency of certain lexical and morphosyntactic features. We show how to visualize such fingerprints, describe how they can be used to detect machine-generated text and find that they are even robust across textual domains. We find that fingerprints are often persistent across models in the same model family (e.g. llama-13b vs. llama-65b) and that models fine-tuned for chat are easier to detect than standard language models, indicating that LLM fingerprints may be directly induced by the training data.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# Lyapunov Barrier Certificatesを用いたDeep Reinforcement Learning Controllerの形式検証

Formally Verifying Deep Reinforcement Learning Controllers with Lyapunov Barrier Certificates ( http://arxiv.org/abs/2405.14058v1 )

ライセンス: Link先を確認
Udayan Mandal, Guy Amir, Haoze Wu, Ieva Daukantas, Fletcher Lee Newell, Umberto J. Ravaioli, Baoluo Meng, Michael Durling, Milan Ganai, Tobey Shim, Guy Katz, Clark Barrett, (参考訳) 深層強化学習(DRL)は、自律システムを制御するエージェントを生成するための強力な機械学習パラダイムである。 しかし、DRLエージェントの「ブラックボックス」の性質は、現実世界の安全クリティカルなアプリケーションへの展開を制限する。 エージェントの行動に強い保証を与えるための有望なアプローチは、エージェントが望むように振る舞うことを間接的に暗示するシステム上で学習された関数であるNeural Lyapunov Barrier(NLB)証明書を使用することである。 しかしながら、NLBベースの証明書は一般的に習得が困難であり、特に複雑なシステムでは検証が困難である。 本研究では,離散時間システムのためのNLBベースの証明書をトレーニングし,検証するための新しい手法を提案する。 具体的には,証明書のシーケンスを戦略的に設計することで,複雑度の高いシステムの検証を簡略化する証明書合成手法を提案する。 ニューラルネットワーク検証エンジンと共同で検証する場合、これらの証明書はDRLエージェントがその目標を達成し、安全でない振る舞いを避けることを正式な保証を提供する。 さらに,正式に認証された証明書を生成するプロセスを大幅に単純化する証明書フィルタリング手法を提案する。 DRL制御宇宙船の安全性と生存性を保証するためのケーススタディにより,本手法の利点を実証する。

Deep reinforcement learning (DRL) is a powerful machine learning paradigm for generating agents that control autonomous systems. However, the "black box" nature of DRL agents limits their deployment in real-world safety-critical applications. A promising approach for providing strong guarantees on an agent's behavior is to use Neural Lyapunov Barrier (NLB) certificates, which are learned functions over the system whose properties indirectly imply that an agent behaves as desired. However, NLB-based certificates are typically difficult to learn and even more difficult to verify, especially for complex systems. In this work, we present a novel method for training and verifying NLB-based certificates for discrete-time systems. Specifically, we introduce a technique for certificate composition, which simplifies the verification of highly-complex systems by strategically designing a sequence of certificates. When jointly verified with neural network verification engines, these certificates provide a formal guarantee that a DRL agent both achieves its goals and avoids unsafe behavior. Furthermore, we introduce a technique for certificate filtering, which significantly simplifies the process of producing formally verified certificates. We demonstrate the merits of our approach with a case study on providing safety and liveness guarantees for a DRL-controlled spacecraft.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# テンソルネットワーク時代の確率論的推論と微分プログラミング

Probabilistic Inference in the Era of Tensor Networks and Differential Programming ( http://arxiv.org/abs/2405.14060v1 )

ライセンス: Link先を確認
Martin Roa-Villescas, Xuanzhao Gao, Sander Stuijk, Henk Corporaal, Jin-Guo Liu, (参考訳) 確率的推論は、現代の機械学習における基本的なタスクである。 テンソルネットワーク(TN)の縮約アルゴリズムの最近の進歩により、より正確な推論法の開発が可能になった。 しかしながら、確率的グラフィカルモデル(PGM)における多くの一般的な推論タスクは、まだ対応するTNベースの適応を欠いている。 本研究では,以下の推論タスクに対してテンソルベースの解を定式化し,実装することにより,PGMとTNの接続を推し進める。 (i)パーティション関数の計算 (ii)モデル内の変数の集合の限界確率を計算する。 三 変数の集合に対する最も可能性の高い割り当てを定めること、及び (四)同じ (三)異なる変数の組を辺境化した後。 また,学習した確率分布からサンプルを生成する一般化手法を提案する。 我々の研究は、量子回路シミュレーション、量子多体物理学、統計物理学の分野における最近の技術進歩によって動機付けられている。 実験により,これらの量子技術と一連のアルゴリズムを統合することにより,確率的推論タスクの解法の有効性が著しく向上することが実証された。

Probabilistic inference is a fundamental task in modern machine learning. Recent advances in tensor network (TN) contraction algorithms have enabled the development of better exact inference methods. However, many common inference tasks in probabilistic graphical models (PGMs) still lack corresponding TN-based adaptations. In this work, we advance the connection between PGMs and TNs by formulating and implementing tensor-based solutions for the following inference tasks: (i) computing the partition function, (ii) computing the marginal probability of sets of variables in the model, (iii) determining the most likely assignment to a set of variables, and (iv) the same as (iii) but after having marginalized a different set of variables. We also present a generalized method for generating samples from a learned probability distribution. Our work is motivated by recent technical advances in the fields of quantum circuit simulation, quantum many-body physics, and statistical physics. Through an experimental evaluation, we demonstrate that the integration of these quantum technologies with a series of algorithms introduced in this study significantly improves the effectiveness of existing methods for solving probabilistic inference tasks.
翻訳日:2024-05-24 19:44:34 公開日:2024-05-22
# 大規模言語モデルの意味とフィーリング:ジェネレーティブAIにおける潜在状態の可観測性

Meanings and Feelings of Large Language Models: Observability of Latent States in Generative AI ( http://arxiv.org/abs/2405.14061v1 )

ライセンス: Link先を確認
Tian Yu Liu, Stefano Soatto, Matteo Marchi, Pratik Chaudhari, Paulo Tabuada, (参考訳) シンボルトークンの埋め込み空間で状態が進化する動的システムと見なされるLarge Language Models (LLMs) が観測可能であるかどうかを問う。 すなわち、生成されたトークンの同じシーケンスを生成する複数の「メンタル」状態軌跡が存在するか、同じNerode同値類に属するシーケンス(「意味」)があるかである。 もし観察不可能でなければ、入力(「知覚」)やモデル自身の状態(「思考」)からのフィードバックによって引き起こされる精神状態軌跡(「経験」)は、モデル提供者に対して潜在的にアクセス可能でありながら、自己完結したまま進化しうる。 このような「知覚や思考によって誘発される自己完結した経験」は、アメリカ心理学会(APA)が定義する「フィーリング」に類似している。 語彙的好奇性以外にも、自己回帰変換器によって実装されている現在のLLMは、この定義に従って「フィーリング」を持たないことを示す: トークン化された出力とは区別できない状態軌跡の集合はシングルトンである。 しかし、ユーザが見えない「システムプロンプト」がある場合、区別不能なトラジェクトリのセットは非自明になり、同じ言語化された出力を生成する複数の状態トラジェクトリが存在する可能性がある。 これらの主張を解析的に証明し、そのような「フィーリング」を施した標準LLMの修正例を示す。 我々の分析では、モデルがユーザに見えない非自明な計算を実行できるようにする可能性のある設計と、モデルを使用するサービスのプロバイダが意図しない振る舞いを防止できる制御に光を当てています。

We tackle the question of whether Large Language Models (LLMs), viewed as dynamical systems with state evolving in the embedding space of symbolic tokens, are observable. That is, whether there exist multiple 'mental' state trajectories that yield the same sequence of generated tokens, or sequences that belong to the same Nerode equivalence class ('meaning'). If not observable, mental state trajectories ('experiences') evoked by an input ('perception') or by feedback from the model's own state ('thoughts') could remain self-contained and evolve unbeknown to the user while being potentially accessible to the model provider. Such "self-contained experiences evoked by perception or thought" are akin to what the American Psychological Association (APA) defines as 'feelings'. Beyond the lexical curiosity, we show that current LLMs implemented by autoregressive Transformers cannot have 'feelings' according to this definition: The set of state trajectories indistinguishable from the tokenized output is a singleton. But if there are 'system prompts' not visible to the user, then the set of indistinguishable trajectories becomes non-trivial, and there can be multiple state trajectories that yield the same verbalized output. We prove these claims analytically, and show examples of modifications to standard LLMs that engender such 'feelings.' Our analysis sheds light on possible designs that would enable a model to perform non-trivial computation that is not visible to the user, as well as on controls that the provider of services using the model could take to prevent unintended behavior.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-22
# ChatScene: 自律走行車のための知識付き安全批判シナリオ生成

ChatScene: Knowledge-Enabled Safety-Critical Scenario Generation for Autonomous Vehicles ( http://arxiv.org/abs/2405.14062v1 )

ライセンス: Link先を確認
Jiawei Zhang, Chejian Xu, Bo Li, (参考訳) 我々は、LLMの能力を活用して自動運転車の安全クリティカルシナリオを生成するLarge Language Model(LLM)ベースのエージェントChatSceneを提案する。 非構造化言語命令を与えられたエージェントは、まず LLM を使用してテキストで記述されたトラフィックシナリオを生成する。 これらのシナリオ記述はその後、車両の挙動や位置といった特定の詳細に関するいくつかのサブ記述に分解される。 エージェントは、テキストで記述されたサブシナリオをドメイン固有の言語に変換し、シミュレータの予測と制御のための実際のコードを生成し、CARLAシミュレーション環境内で多様な複雑なシナリオの作成を容易にする。 シナリオ記述とコードペアを含む知識データベースをトレーニングすることにより、特定のテキスト記述を対応するドメイン固有のコードスニペットに変換する。 大規模な実験結果は、自動運転車の安全性向上におけるChatSceneの有効性を裏付けるものである。 例えば、ChatSceneが生成したシナリオでは、異なる強化学習ベースのエゴ車に対してテストした場合、最先端のベースラインと比較して15%の衝突率の増加が見られる。 さらに、我々の生成した安全クリティカルシナリオを用いて、異なるRLベース自動運転モデルに微調整を行うことで、現在のSOTA法を超越して、衝突速度を9%削減できることを示す。 ChatSceneは、交通シナリオのテキスト記述と実用的なCARLAシミュレーションのギャップを効果的に埋め、安全テストとAVの改善のために安全クリティカルなシナリオを便利に生成する統一的な方法を提供する。

We present ChatScene, a Large Language Model (LLM)-based agent that leverages the capabilities of LLMs to generate safety-critical scenarios for autonomous vehicles. Given unstructured language instructions, the agent first generates textually described traffic scenarios using LLMs. These scenario descriptions are subsequently broken down into several sub-descriptions for specified details such as behaviors and locations of vehicles. The agent then distinctively transforms the textually described sub-scenarios into domain-specific languages, which then generate actual code for prediction and control in simulators, facilitating the creation of diverse and complex scenarios within the CARLA simulation environment. A key part of our agent is a comprehensive knowledge retrieval component, which efficiently translates specific textual descriptions into corresponding domain-specific code snippets by training a knowledge database containing the scenario description and code pairs. Extensive experimental results underscore the efficacy of ChatScene in improving the safety of autonomous vehicles. For instance, the scenarios generated by ChatScene show a 15% increase in collision rates compared to state-of-the-art baselines when tested against different reinforcement learning-based ego vehicles. Furthermore, we show that by using our generated safety-critical scenarios to fine-tune different RL-based autonomous driving models, they can achieve a 9% reduction in collision rates, surpassing current SOTA methods. ChatScene effectively bridges the gap between textual descriptions of traffic scenarios and practical CARLA simulations, providing a unified way to conveniently generate safety-critical scenarios for safety testing and improvement for AVs.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-22
# 膨らんだargmaxによる安定な分類器の構築

Building a stable classifier with the inflated argmax ( http://arxiv.org/abs/2405.14064v1 )

ライセンス: Link先を確認
Jake A. Soloff, Rina Foygel Barber, Rebecca Willett, (参考訳) マルチクラス分類の文脈におけるアルゴリズム安定性のための新しい枠組みを提案する。 実際には、分類アルゴリズムは、まず連続的なスコア(例えば、推定確率)をそれぞれのラベルに割り当て、次に最大値(つまり、最高値を持つクラスを選択する)を取る。 この種のアプローチの欠点は、それが本質的に不安定であることであり、最大化が不連続であることから、トレーニングデータのわずかな摂動に非常に敏感であることである。 この課題に乗じて,データから安定な分類器を構築するパイプラインを提案し,バッジ(再サンプリングと平均化)を用いて安定な連続スコアを生成し,次いで「膨らませたargmax」と呼ばれるargmaxの安定な緩和を用いて,これらのスコアを候補ラベルの集合に変換する。 結果として生じる安定性は、データに分布的な仮定が存在しないことを保証し、同変数のクラス数や次元に依存せず、任意の基底分類器を保持できる。 一般的なベンチマークデータセットを用いて,拡張されたargmaxが不安定な分類器に対して,精度を損なうことなく,必要な保護を提供することを示した。

We propose a new framework for algorithmic stability in the context of multiclass classification. In practice, classification algorithms often operate by first assigning a continuous score (for instance, an estimated probability) to each possible label, then taking the maximizer -- i.e., selecting the class that has the highest score. A drawback of this type of approach is that it is inherently unstable, meaning that it is very sensitive to slight perturbations of the training data, since taking the maximizer is discontinuous. Motivated by this challenge, we propose a pipeline for constructing stable classifiers from data, using bagging (i.e., resampling and averaging) to produce stable continuous scores, and then using a stable relaxation of argmax, which we call the "inflated argmax," to convert these scores to a set of candidate labels. The resulting stability guarantee places no distributional assumptions on the data, does not depend on the number of classes or dimensionality of the covariates, and holds for any base classifier. Using a common benchmark data set, we demonstrate that the inflated argmax provides necessary protection against unstable classifiers, without loss of accuracy.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-22
# 予測によるオンライン分類

Online Classification with Predictions ( http://arxiv.org/abs/2405.14066v1 )

ライセンス: Link先を確認
Vinod Raman, Ambuj Tewari, (参考訳) 我々は,学習者が将来の事例に関する予測にアクセスできる場合に,オンライン分類を研究する。 予測された後悔が最悪の後悔よりも悪く、予測の質で優雅に改善され、将来の事例の予測が正確である場合の最悪の後悔よりもはるかに優れたオンライン学習者を設計する。 結論として、もし学習者が、将来の例が容易に予測可能なデータを見ることが常に保証されている場合、オンライン学習は、トランスダクティブなオンライン学習と同じくらい簡単であることを示す。 本研究は,オンラインアルゴリズムにおける最近の研究を補完し,予測とスムーズなオンライン分類を行った。

We study online classification when the learner has access to predictions about future examples. We design an online learner whose expected regret is never worse than the worst-case regret, gracefully improves with the quality of the predictions, and can be significantly better than the worst-case regret when the predictions of future examples are accurate. As a corollary, we show that if the learner is always guaranteed to observe data where future examples are easily predictable, then online learning can be as easy as transductive online learning. Our results complement recent work in online algorithms with predictions and smoothed online classification, which go beyond a worse-case analysis by using machine-learned predictions and distributional assumptions respectively.
翻訳日:2024-05-24 19:34:41 公開日:2024-05-22
# ハイパーグラフニューラルネットワークの簡易化

Simplifying Hypergraph Neural Networks ( http://arxiv.org/abs/2402.05569v3 )

ライセンス: Link先を確認
Bohan Tang, Zexi Liu, Keyue Jiang, Siheng Chen, Xiaowen Dong, (参考訳) ハイパーグラフは、現実世界のデータにおける高次相互作用のモデル化に不可欠である。 ハイパーグラフニューラルネットワーク(HNN)は、これらの構造をメッセージパッシングによって効果的に利用し、ノード分類のような様々な下流タスクのための情報ノード機能を生成する。 しかし、既存のHNNのメッセージパッシングブロックは通常、計算集約的なトレーニングプロセスを必要とし、実用的使用を制限する。 そこで本研究では,モデル学習段階からハイパーグラフ構造情報の利用を分離する手法を提案する。 提案したモデルである単純化ハイパーグラフニューラルネットワーク(SHNN)は、SHNNのトレーニング前にプリ計算可能な、トレーニング不要なメッセージパスブロックを含んでいるため、計算負担が軽減される。 SHNNの効率と有効性を理論的に支持する。 1)既存のHNNに比べて訓練効率が高い。 2)ノードの特徴生成に既存のHNNと同じくらいの情報を利用する。 3)長距離相互作用を用いた場合,過度にスムースな問題に対して頑健である。 ノード分類とハイパーリンク予測における6つの実世界のハイパーグラフベンチマークに基づく実験では、最先端のHNNと比較して、SHNNは競争性能と優れたトレーニング効率の両方を示している。 特にCora-CAでは、SHNNが最も高いノード分類精度を達成し、最高のベースラインのトレーニング時間は2%に過ぎなかった。

Hypergraphs are crucial for modeling higher-order interactions in real-world data. Hypergraph neural networks (HNNs) effectively utilise these structures by message passing to generate informative node features for various downstream tasks like node classification. However, the message passing block in existing HNNs typically requires a computationally intensive training process, which limits their practical use. To tackle this challenge, we propose an alternative approach by decoupling the usage of the hypergraph structural information from the model training stage. The proposed model, simplified hypergraph neural network (SHNN), contains a training-free message-passing block that can be precomputed before the training of SHNN, thereby reducing the computational burden. We theoretically support the efficiency and effectiveness of SHNN by showing that: 1) It is more training-efficient compared to existing HNNs; 2) It utilises as much information as existing HNNs for node feature generation; and 3) It is robust against the oversmoothing issue while using long-range interactions. Experiments based on six real-world hypergraph benchmarks in node classification and hyperlink prediction present that, compared to state-of-the-art HNNs, SHNN shows both competitive performance and superior training efficiency. Specifically, on Cora-CA, SHNN achieves the highest node classification accuracy with just 2% training time of the best baseline.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-22
# 薬物相互作用の予測

Advanced Drug Interaction Event Prediction ( http://arxiv.org/abs/2402.11472v4 )

ライセンス: Link先を確認
Yingying Wang, Yun Xiong, Xixi Wu, Xiangguo Sun, Jiawei Zhang, (参考訳) 薬物と薬物の相互作用の副作用、いわゆるDDI事象を予測することは、薬物使用や副作用のメカニズムの研究を促進するため、ますます価値が高まっている。 既存のモデルは、複数のソース機能を統合する際に個々のイベントクラスの特徴を無視し、高度に不均衡なイベントサンプルを扱う際に、体系的に不公平になる。 さらに、各イベントサブクラスのユニークな属性を抽象化するこれらのモデルの限られた能力は、希少な薬物と薬物の相互作用イベントを限られたサンプルサイズで予測する上で、それらの応用をかなり妨げます。 データセットバイアスの低減とイベントサブクラスの特性の抽象化は、未解決の2つの課題である。 近年,凍結事前学習グラフモデル,すなわち "pre-train, prompt, fine-tune" 戦略による即時チューニングは,数発のタスクで顕著なパフォーマンスを示した。 そこで我々は,これらの課題に対処するための解法として,先進的な手法を提案する。 具体的には,分子構造と分子間相互作用の重要な側面を捉えつつ,ノード埋め込みにおける暗黙的データセットバイアスを効果的に緩和することを目的とした階層的事前学習作業を提案する。 さらに、異なるイベントタイプから戦略的にデータをサンプリングし、事前学習ノードの特徴を利用した設計サブグラフプロンプトを構築する。 総合的なベンチマーク実験を通じて、イベントクラスを正確に表現するサブグラフプロンプトの有効性を検証し、全体およびサブクラスの予測タスクにおいて模範的な結果を得る。

Predicting drug-drug interaction adverse events, so-called DDI events, is increasingly valuable as it facilitates the study of mechanisms underlying drug use or adverse reactions. Existing models often neglect the distinctive characteristics of individual event classes when integrating multi-source features, which contributes to systematic unfairness when dealing with highly imbalanced event samples. Moreover, the limited capacity of these models to abstract the unique attributes of each event subclass considerably hampers their application in predicting rare drug-drug interaction events with a limited sample size. Reducing dataset bias and abstracting event subclass characteristics are two unresolved challenges. Recently, prompt tuning with frozen pre-trained graph models, namely "pre-train, prompt, fine-tune" strategy, has demonstrated impressive performance in few-shot tasks. Motivated by this, we propose an advanced method as a solution to address these aforementioned challenges. Specifically, our proposed approach entails a hierarchical pre-training task that aims to capture crucial aspects of drug molecular structure and intermolecular interactions while effectively mitigating implicit dataset bias within the node embeddings. Furthermore, we construct a prototypical graph by strategically sampling data from distinct event types and design subgraph prompts utilizing pre-trained node features. Through comprehensive benchmark experiments, we validate the efficacy of our subgraph prompts in accurately representing event classes and achieve exemplary results in both overall and subclass prediction tasks.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-22
# AdaptSFL:資源制約エッジネットワークにおける適応的分割学習

AdaptSFL: Adaptive Split Federated Learning in Resource-constrained Edge Networks ( http://arxiv.org/abs/2403.13101v3 )

ライセンス: Link先を確認
Zheng Lin, Guanqiao Qu, Wei Wei, Xianhao Chen, Kin K. Leung, (参考訳) ディープニューラルネットワークの複雑さの増大は、リソース制限されたエッジデバイスにそれらを民主化する上で、大きな障壁となる。 この課題に対処するため、分割フェデレーション学習(SFL)は、エッジデバイス間の並列トレーニングを可能にしながら、モデルのパーティショニングを通じて、プライマリトレーニングワークロードをサーバにフロードすることで、有望なソリューションとして登場した。 しかし、システム最適化は資源制約付きシステムにおけるSFLの性能に大きく影響するが、問題は未解決のままである。 本稿では、モデル分割(MS)とクライアント側モデル集約(MA)が学習性能に与える影響を定量化するSFLの収束解析を行い、理論的基礎となる。 そこで我々は,資源制約付きエッジコンピューティングシステムの下でSFLを高速化する新しいリソース適応型SFLフレームワークであるAdaptSFLを提案する。 具体的には、AdaptSFLはクライアント側MAとMSを適応的に制御し、通信計算のレイテンシとトレーニング収束のバランスをとる。 提案するAdaptSFLフレームワークは,ベンチマークよりも目標精度を達成するのに要する時間を大幅に削減し,提案手法の有効性を実証する。

The increasing complexity of deep neural networks poses significant barriers to democratizing them to resource-limited edge devices. To address this challenge, split federated learning (SFL) has emerged as a promising solution by of floading the primary training workload to a server via model partitioning while enabling parallel training among edge devices. However, although system optimization substantially influences the performance of SFL under resource-constrained systems, the problem remains largely uncharted. In this paper, we provide a convergence analysis of SFL which quantifies the impact of model splitting (MS) and client-side model aggregation (MA) on the learning performance, serving as a theoretical foundation. Then, we propose AdaptSFL, a novel resource-adaptive SFL framework, to expedite SFL under resource-constrained edge computing systems. Specifically, AdaptSFL adaptively controls client-side MA and MS to balance communication-computing latency and training convergence. Extensive simulations across various datasets validate that our proposed AdaptSFL framework takes considerably less time to achieve a target accuracy than benchmarks, demonstrating the effectiveness of the proposed strategies.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-22
# 腕を広げる:ラジアル・ストリップ・トランスフォーマー

Spread Your Wings: A Radial Strip Transformer for Image Deblurring ( http://arxiv.org/abs/2404.00358v3 )

ライセンス: Link先を確認
Duosheng Chen, Shihao Zhou, Jinshan Pan, Jinglei Shi, Lishen Qu, Jufeng Yang, (参考訳) 動き情報の探索は、動きを損なう作業において重要である。 近年、ウィンドウベースのトランスフォーマーアプローチは、画像劣化において優れた性能を達成している。 ぼやけた結果を引き起こす動きは通常、変換運動と回転運動と、ウィンドウベーストランスフォーマーによるカルト座標系におけるウィンドウシフト操作から成り、直交方向の変換運動を直接探索する。 したがって、これらの手法は回転部をモデル化する限界がある。 この問題を緩和するために、回転運動と翻訳情報を一緒に探索する角度と距離を持つ極座標変換器を導入する。 本稿では, カルト型ではなく極座標系でぼやけた画像を復元する変換器ベースアーキテクチャであるラジアルストリップ変換器(RST)を提案する。 RSTは、ラジアル変形可能な畳み込みによって浅い特徴を抽出する動的ラジアル埋め込みモジュール(DRE)を含む。 我々は、変形可能な畳み込みのオフセットを生成するために極マスク層を設計し、半径に沿って畳み込みカーネルを変形させ、回転運動情報をよりよく捉えることができる。 さらに,深部特徴抽出法として放射状ストリップアテンションソルバ (RSAS) を提案し,窓の関係を方位と半径で整理した。 本発明の注目モジュールは、極座標における画像特徴を重み付けするための放射状ストリップウィンドウを含み、鋭い画像の回復のために、回転及び翻訳動作においてより有用な情報を共に保存する。 6つの合成と実世界のデータセットによる実験結果から,本手法が他のSOTA法に対して有効であることを示す。

Exploring motion information is important for the motion deblurring task. Recent the window-based transformer approaches have achieved decent performance in image deblurring. Note that the motion causing blurry results is usually composed of translation and rotation movements and the window-shift operation in the Cartesian coordinate system by the window-based transformer approaches only directly explores translation motion in orthogonal directions. Thus, these methods have the limitation of modeling the rotation part. To alleviate this problem, we introduce the polar coordinate-based transformer, which has the angles and distance to explore rotation motion and translation information together. In this paper, we propose a Radial Strip Transformer (RST), which is a transformer-based architecture that restores the blur images in a polar coordinate system instead of a Cartesian one. RST contains a dynamic radial embedding module (DRE) to extract the shallow feature by a radial deformable convolution. We design a polar mask layer to generate the offsets for the deformable convolution, which can reshape the convolution kernel along the radius to better capture the rotation motion information. Furthermore, we proposed a radial strip attention solver (RSAS) as deep feature extraction, where the relationship of windows is organized by azimuth and radius. This attention module contains radial strip windows to reweight image features in the polar coordinate, which preserves more useful information in rotation and translation motion together for better recovering the sharp images. Experimental results on six synthesis and real-world datasets prove that our method performs favorably against other SOTA methods for the image deblurring task.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-22
# 非アクティブなユーザ推薦のためのソーシャルグラフの学習

Learning Social Graph for Inactive User Recommendation ( http://arxiv.org/abs/2405.05288v3 )

ライセンス: Link先を確認
Nian Liu, Shen Fan, Ting Bai, Peng Wang, Mingwei Sun, Yanhu Mo, Xiaoxiao Xu, Hong Liu, Chuan Shi, (参考訳) 社会関係は、データ空間の問題を軽減するためのレコメンデーションシステムに広く取り入れられている。 しかし, 交流項目が限られている不活発なユーザにとって, 粗末な品質と不十分な量のため, 生の社会関係は必ずしもレコメンデーションの恩恵を受けない。 本稿では,特に不活性ユーザを対象に,ソーシャルレコメンデーションのための最適なソーシャルグラフ構造を学習する,LSIR (\textbf{L}earning \textbf{S}ocial Graph for \textbf{I}nactive User \textbf{R}ecommendation) という新しいソーシャルレコメンデーション手法を提案する。 LSIRは、ユーザとアイテムの埋め込みを再帰的に集約して、アイテムとユーザ機能を協調的にエンコードする。 次に,グラフ構造学習(GSL)を用いて生のユーザ・ユーザ・ソーシャルグラフを改良し,ノイズの多いエッジを除去し,拡張された埋め込みに基づいて新たなエッジを追加する。 一方、モデルトレーニング中に非アクティブユーザを模倣する上で、アクティブユーザを誘導する模倣学習が実施され、非アクティブユーザのための新しいエッジの構築が向上する。 実世界のデータセットに対する大規模な実験により、LSIRはNDCGで最大129.58\%の大幅な改善を実現している。 私たちのコードは~\url{https://github.com/liun-online/LSIR}で利用可能です。

Social relations have been widely incorporated into recommender systems to alleviate data sparsity problem. However, raw social relations don't always benefit recommendation due to their inferior quality and insufficient quantity, especially for inactive users, whose interacted items are limited. In this paper, we propose a novel social recommendation method called LSIR (\textbf{L}earning \textbf{S}ocial Graph for \textbf{I}nactive User \textbf{R}ecommendation) that learns an optimal social graph structure for social recommendation, especially for inactive users. LSIR recursively aggregates user and item embeddings to collaboratively encode item and user features. Then, graph structure learning (GSL) is employed to refine the raw user-user social graph, by removing noisy edges and adding new edges based on the enhanced embeddings. Meanwhile, mimic learning is implemented to guide active users in mimicking inactive users during model training, which improves the construction of new edges for inactive users. Extensive experiments on real-world datasets demonstrate that LSIR achieves significant improvements of up to 129.58\% on NDCG in inactive user recommendation. Our code is available at~\url{https://github.com/liun-online/LSIR}.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-22
# SPOR:データ・テキスト・ジェネレーションにおける構成一般化のための総合的・実践的評価手法

SPOR: A Comprehensive and Practical Evaluation Method for Compositional Generalization in Data-to-Text Generation ( http://arxiv.org/abs/2405.10650v4 )

ライセンス: Link先を確認
Ziyao Xu, Houfeng Wang, (参考訳) 構成一般化は言語モデルの重要な能力であり、多くの異なる表現を持つ。 データ・トゥ・テキスト生成では、この能力に関するこれまでの研究は、Systematicityと呼ばれる単一のマニフェストに限られており、実用的なアプリケーションシナリオを完全にカバーできない大規模言語モデル(LLM)の考慮が欠如している。 本研究では,データ・テキスト生成における合成一般化のための総合的・実践的な評価手法であるSPORを提案する。 SPORには、宣言の4つの側面(体系性、生産性、秩序不変性、規則学習性)が含まれており、既存のデータセットに基づいた追加のマニュアルアノテーションなしで高品質な評価を可能にする。 2つの異なるデータセット上でSPORを実証し、LLMを含む既存の言語モデルを評価する。 評価の様々な面においてモデルが不足していることが分かり、さらなる改善が必要である。 本研究は、データ・テキスト・ジェネレーションにおける合成一般化の異なる表現に関する総合的な研究の必要性を示し、評価のための枠組みを提供する。

Compositional generalization is an important ability of language models and has many different manifestations. For data-to-text generation, previous research on this ability is limited to a single manifestation called Systematicity and lacks consideration of large language models (LLMs), which cannot fully cover practical application scenarios. In this work, we propose SPOR, a comprehensive and practical evaluation method for compositional generalization in data-to-text generation. SPOR includes four aspects of manifestations (Systematicity, Productivity, Order invariance, and Rule learnability) and allows high-quality evaluation without additional manual annotations based on existing datasets. We demonstrate SPOR on two different datasets and evaluate some existing language models including LLMs. We find that the models are deficient in various aspects of the evaluation and need further improvement. Our work shows the necessity for comprehensive research on different manifestations of compositional generalization in data-to-text generation and provides a framework for evaluation.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-22
# MBIAS: コンテキストを維持しながら、大規模言語モデルにおけるバイアスの緩和

MBIAS: Mitigating Bias in Large Language Models While Retaining Context ( http://arxiv.org/abs/2405.11290v2 )

ライセンス: Link先を確認
Shaina Raza, Ananya Raval, Veronica Chatrath, (参考訳) LLM(Large Language Models)の安全性に対する重要なニーズに対処するためには、アウトプットが安全であるだけでなく、コンテキストの正確性も維持することが不可欠である。 既存のLLMの多くは、安全なデモで安全に調整されているか、敵の試験にのみ依存している。 安全なアウトプットを得られるが、バイアスや毒性を軽減できるため、文脈的な意味を失うリスクがしばしばある。 本報告では,安全対策に特化して設計されたカスタムデータセットを微調整した LLM フレームワーク MBIAS を提案する。 MBIASは、LLM世代において、不適切な言語的言及やソーシャルメディアの偏見のあるコンテンツを含む、様々な人口層で不適切な表現や否定的な表現として表される、バイアスと毒性の重大な問題に対処することを目的としている。 各種構成を用いて安全介入のためのMBIAS実験を行い,鍵情報の保持に成功しながら,全体の偏りと毒性を30倍以上低減することを示した。 さらに、アウト・オブ・ディストリビューション・テスト・セットにおける人口統計学的分析により、様々な人口統計学において偏見と毒性の低下が90%を超えるという、我々のアプローチの堅牢性が確認された。 データセットと微調整のMBIASは、https://huggingface.co/newsmediabias/MBIASで研究コミュニティに提供されている。

In addressing the critical need for safety in Large Language Models (LLMs), it is crucial to ensure that the outputs are not only safe but also retain their contextual accuracy. Many existing LLMs are safe fine-tuned either with safety demonstrations, or rely only on adversarial testing. While able to get safe outputs, they often risk losing contextual meaning as they mitigate bias and toxicity. In response, we present MBIAS, a LLM framework instruction fine-tuned on a custom dataset specifically designed for safety interventions. MBIAS aims to address the significant issues of bias and toxicity in LLMs generations that typically manifest as underrepresentation or negative portrayals across various demographics, including inappropriate linguistic mentions and biased content in social media. We experiment on MBIAS for safety interventions using various configurations, and demonstrate more than a 30\% reduction in overall bias and toxicity while successfully retaining key information. Additionally, a demographic analysis on an out-of-distribution test set confirms the robustness of our approach, with reductions in bias and toxicity exceeding 90\% across various demographics. The dataset and instruction fine-tuned MBIAS are made available to the research community at https://huggingface.co/newsmediabias/MBIAS.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-22
# EyeFound:眼科画像のためのマルチモーダル・ジェネリスト・ファンデーションモデル

EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging ( http://arxiv.org/abs/2405.11338v2 )

ライセンス: Link先を確認
Danli Shi, Weiyi Zhang, Xiaolan Chen, Yexin Liu, Jiancheng Yang, Siyu Huang, Yih Chung Tham, Yingfeng Zheng, Mingguang He, (参考訳) 人工知能(AI)は、眼科、診断、分類、視覚的質問応答(VQA)といったタスクに取り組む上で不可欠である。 しかし、この領域の既存のAIモデルは、広範囲のアノテーションを必要とし、その臨床的有用性を制限するタスク固有であることが多い。 近年、眼科の基礎モデルが開発されているが、画像のモダリティごとに異なる重みを訓練する必要があるため、マルチモーダルな特徴の包括的表現が妨げられている。 これは眼科における様々なタスクやモダリティを扱える汎用基盤モデルの必要性を強調している。 このギャップに対処するため,眼科画像のマルチモーダル基盤モデルであるEyeFoundを提案する。 既存のモデルとは異なり、EyeFoundはラベルのないマルチモーダル網膜画像から一般化可能な表現を学び、複数のアプリケーションにまたがる効率的なモデル適応を可能にする。 EyeFoundは、11の眼科領域にまたがる227の病院の278万の画像に基づいて訓練されており、難治性の稀な疾患を検出することさえも、汎用的な表現と多様なマルチモーダルな下流のタスクを促進している。 眼疾患の診断、全身疾患の予知、ゼロショットマルチモーダルVQAにおいて、RETFoundよりも優れていた。 EyeFoundは、モデルパフォーマンスを改善し、専門家のアノテーション負担を軽減するための一般化可能なソリューションを提供する。

Artificial intelligence (AI) is vital in ophthalmology, tackling tasks like diagnosis, classification, and visual question answering (VQA). However, existing AI models in this domain often require extensive annotation and are task-specific, limiting their clinical utility. While recent developments have brought about foundation models for ophthalmology, they are limited by the need to train separate weights for each imaging modality, preventing a comprehensive representation of multi-modal features. This highlights the need for versatile foundation models capable of handling various tasks and modalities in ophthalmology. To address this gap, we present EyeFound, a multimodal foundation model for ophthalmic images. Unlike existing models, EyeFound learns generalizable representations from unlabeled multimodal retinal images, enabling efficient model adaptation across multiple applications. Trained on 2.78 million images from 227 hospitals across 11 ophthalmic modalities, EyeFound facilitates generalist representations and diverse multimodal downstream tasks, even for detecting challenging rare diseases. It outperforms previous work RETFound in diagnosing eye diseases, predicting systemic disease incidents, and zero-shot multimodal VQA. EyeFound provides a generalizable solution to improve model performance and lessen the annotation burden on experts, facilitating widespread clinical AI applications for retinal imaging.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-22
# RoNLIを応用したカルトグラフィーに基づく新しいカリキュラム学習法:ルーマニア初の自然言語推論コーパス

A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus ( http://arxiv.org/abs/2405.11877v3 )

ライセンス: Link先を確認
Eduard Poesina, Cornelia Caragea, Radu Tudor Ionescu, (参考訳) 自然言語推論(英: Natural Language Inference, NLI)は、自然言語理解の代名詞として研究されている話題である。 対話エージェントの構築やテキスト分類、機械翻訳、その他のNLPタスクの改善には関連性があるものの、我々の知る限り、ルーマニア語のNLIコーパスは公開されていない。 この目的のために, 遠隔監視により得られた58Kの訓練文対と, 正確なラベルを手動で注釈付けした6Kの検証とテスト文対からなるルーマニア初のNLIコーパス(RoNLI)を導入する。 我々は、単語埋め込みに基づく浅いモデルからトランスフォーマーベースのニューラルネットワークまで、遠隔学習に基づく複数の機械学習手法で実験を行い、競争力のあるベースラインを確立する。 さらに、データ地図に基づく新しいカリキュラム学習戦略を採用することにより、最良のモデルを改善する。 ベースラインを再現するデータセットとコードは、https://github.com/Eduard6421/RONLI.orgで公開されています。

Natural language inference (NLI), the task of recognizing the entailment relationship in sentence pairs, is an actively studied topic serving as a proxy for natural language understanding. Despite the relevance of the task in building conversational agents and improving text classification, machine translation and other NLP tasks, to the best of our knowledge, there is no publicly available NLI corpus for the Romanian language. To this end, we introduce the first Romanian NLI corpus (RoNLI) comprising 58K training sentence pairs, which are obtained via distant supervision, and 6K validation and test sentence pairs, which are manually annotated with the correct labels. We conduct experiments with multiple machine learning methods based on distant learning, ranging from shallow models based on word embeddings to transformer-based neural networks, to establish a set of competitive baselines. Furthermore, we improve on the best model by employing a new curriculum learning strategy based on data cartography. Our dataset and code to reproduce the baselines are available at https://github.com/Eduard6421/RONLI.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-22
# モデルに基づくクビット雑音分光法

Model-Based Qubit Noise Spectroscopy ( http://arxiv.org/abs/2405.11898v2 )

ライセンス: Link先を確認
Kevin Schultz, Christopher A. Watson, Andrew J. Murphy, Timothy M. Sweeney, Gregory Quiroz, (参考訳) クビットノイズスペクトロスコピー(QNS)は、クビット環境のキャラクタリゼーションと、クビット密度を改善するためにより効果的なクビット制御の前駆体として有用である。 既存のQNSへのアプローチは、古典的なスペクトル推定文献が「非パラメトリック」アプローチと呼ぶもので、一連のプローブシーケンスが点やバンドの集合でノイズパワーを推定するために使用される。 対照的に、モデルに基づくスペクトル推定のアプローチは、スペクトルの形で付加的な構造を仮定し、これを超解像のような統計的精度や他の能力の改善に活用する。 本稿では,従来の信号処理からインスピレーションを得て,モデルに基づくQNSアプローチを導出する。しかし,最近開発されたシュロディンガー波自己回帰移動平均(SchWARMA)は相関雑音をモデル化するための形式である。 シミュレーションと実験データの両方を通して、これらのモデルに基づくQNSアプローチが、古典的手法の統計的および計算的利点をいかに維持するかを示し、その結果、強力な新しい推定手法がもたらされた。 QNSと量子センシングへのこれらのアプローチの直接的な適用以外にも、量子システムに対する適応的なフィードバック制御において、古典的な適応信号処理と制御におけるそれらの役割と類似して、基礎となるモデルの柔軟性が有用であることが期待できる。

Qubit noise spectroscopy (QNS) is a valuable tool for both the characterization of a qubit's environment and as a precursor to more effective qubit control to improve qubit fidelities. Existing approaches to QNS are what the classical spectrum estimation literature would call "non-parametric" approaches, in that a series of probe sequences are used to estimate noise power at a set of points or bands. In contrast, model-based approaches to spectrum estimation assume additional structure in the form of the spectrum and leverage this for improved statistical accuracy or other capabilities, such as superresolution. Here, we derive model-based QNS approaches using inspiration from classical signal processing, primarily though the recently developed Schrodinger wave autoregressive moving-average (SchWARMA) formalism for modeling correlated noise. We show, through both simulation and experimental data, how these model-based QNS approaches maintain the statistical and computational benefits of their classical counterparts, resulting in powerful new estimation approaches. Beyond the direct application of these approaches to QNS and quantum sensing, we anticipate that the flexibility of the underlying models will find utility in adaptive feedback control for quantum systems, in analogy with their role in classical adaptive signal processing and control.
翻訳日:2024-05-24 12:57:52 公開日:2024-05-22
# 大規模言語モデルにおける埋め込みからの情報漏洩

Information Leakage from Embedding in Large Language Models ( http://arxiv.org/abs/2405.11916v3 )

ライセンス: Link先を確認
Zhipeng Wan, Anda Cheng, Yinggui Wang, Lei Wang, (参考訳) 大規模言語モデル(LLM)の普及により、データのプライバシに関する懸念が高まっている。 本研究の目的は,悪意のあるモデルプロバイダが埋め込みからユーザ入力を回復する可能性のある,入力再構成攻撃によるプライバシー侵害の可能性を検討することである。 まず,モデルの隠れ状態からオリジナルテキストを再構築する2つの基本手法を提案する。 これら2つの手法は, 浅い層からの埋め込み攻撃に有効であるが, より深い層からの埋め込み攻撃では効果が低下することがわかった。 この問題に対処するため,Transformer ベースの Embed Parrot を提案し,深層への埋め込みから入力を再構築する。 解析の結果,ChatGLM-6BとLlama2-7Bの隠れ状態からの入力を効果的に再構成し,トークン長やデータ分布の安定な性能を示すことがわかった。 プライバシー侵害のリスクを軽減するため,埋め込み再構築プロセスの悪用を防ぐ防衛機構を導入する。 本研究は,分散学習システムにおけるユーザプライバシ保護の重要性を強調し,そのような環境におけるセキュリティプロトコルの強化に有用な洞察を提供する。

The widespread adoption of large language models (LLMs) has raised concerns regarding data privacy. This study aims to investigate the potential for privacy invasion through input reconstruction attacks, in which a malicious model provider could potentially recover user inputs from embeddings. We first propose two base methods to reconstruct original texts from a model's hidden states. We find that these two methods are effective in attacking the embeddings from shallow layers, but their effectiveness decreases when attacking embeddings from deeper layers. To address this issue, we then present Embed Parrot, a Transformer-based method, to reconstruct input from embeddings in deep layers. Our analysis reveals that Embed Parrot effectively reconstructs original inputs from the hidden states of ChatGLM-6B and Llama2-7B, showcasing stable performance across various token lengths and data distributions. To mitigate the risk of privacy breaches, we introduce a defense mechanism to deter exploitation of the embedding reconstruction process. Our findings emphasize the importance of safeguarding user privacy in distributed learning systems and contribute valuable insights to enhance the security protocols within such environments.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22
# AI能力のオープンソースアセスメント:AI分析ツールの普及、競合モデルのレプリケーション、Zhousidunデータセット

Open-Source Assessments of AI Capabilities: The Proliferation of AI Analysis Tools, Replicating Competitor Models, and the Zhousidun Dataset ( http://arxiv.org/abs/2405.12167v2 )

ライセンス: Link先を確認
Ritwik Gupta, Leah Walker, Eli Glickman, Raine Koizumi, Sarthak Bhatnagar, Andrew W. Reddie, (参考訳) 人工知能(AI)の軍事能力への統合は、世界中の主要な軍事力の標準となっている。 これらのAIモデルがどのように機能するかを理解することは、戦略的アドバンテージの維持とセキュリティの確保に不可欠である。 本稿は、アメリカと連合国の駆逐艦に重要な部品を徹底的にラベル付けした中国指向のデータセットであるZhousidunデータセットの詳細な検証を通して、軍事AIモデルを分析するためのオープンソース手法を実証する。 このデータセット上で、最先端のコンピュータビジョンモデルのレプリケーションを実演することで、オープンソースツールをどのように活用して、重要な軍事AI機能を評価し、理解することができるかを説明します。 この方法論は、AI対応軍事能力の性能と可能性を評価するための堅牢なフレームワークを提供し、戦略評価の正確性と信頼性を高める。

The integration of artificial intelligence (AI) into military capabilities has become a norm for major military power across the globe. Understanding how these AI models operate is essential for maintaining strategic advantages and ensuring security. This paper demonstrates an open-source methodology for analyzing military AI models through a detailed examination of the Zhousidun dataset, a Chinese-originated dataset that exhaustively labels critical components on American and Allied destroyers. By demonstrating the replication of a state-of-the-art computer vision model on this dataset, we illustrate how open-source tools can be leveraged to assess and understand key military AI capabilities. This methodology offers a robust framework for evaluating the performance and potential of AI-enabled military capabilities, thus enhancing the accuracy and reliability of strategic assessments.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22
# 直交多項式を用いたテンポラルカーネルの構築

Building Temporal Kernels with Orthogonal Polynomials ( http://arxiv.org/abs/2405.12179v2 )

ライセンス: Link先を確認
Yan Ru Pei, Olivier Coenen, (参考訳) 直交多項式基底関数から生成される時間的畳み込みカーネルを含むPLEIADES(PoLynomial Expansion In Adaptive Distributed Event-based Systems)と呼ばれるモデルのクラスを紹介する。 我々は、これらのネットワークをイベントベースのデータで相互接続して、オンラインの時空間分類と検出を低レイテンシで行うことに重点を置いている。 構造化時間カーネルとイベントベースデータを使用することで、さらなる微調整をすることなく、ネットワークの離散化ステップサイズとともにデータのサンプルレートを変更できる。 我々は3つのイベントベースのベンチマークを実験し、メモリと計算コストを大幅に削減した大きなマージンで3つすべてに対して最先端の結果を得た。 達成しました。 1) DVS128ハンドジェスチャー認識データセット上の192Kパラメータによる99.59%の精度、および小さな出力フィルタによる100%の精度。 2)AIS2024眼球追跡課題における277Kパラメータによる99.58%の検査精度,及び 3) ProPHESEE 1 Megapixel Automotive Detection Datasetに576kパラメータを持つ0.556mAP。

We introduce a class of models named PLEIADES (PoLynomial Expansion In Adaptive Distributed Event-based Systems), which contains temporal convolution kernels generated from orthogonal polynomial basis functions. We focus on interfacing these networks with event-based data to perform online spatiotemporal classification and detection with low latency. By virtue of using structured temporal kernels and event-based data, we have the freedom to vary the sample rate of the data along with the discretization step-size of the network without additional finetuning. We experimented with three event-based benchmarks and obtained state-of-the-art results on all three by large margins with significantly smaller memory and compute costs. We achieved: 1) 99.59% accuracy with 192K parameters on the DVS128 hand gesture recognition dataset and 100% with a small additional output filter; 2) 99.58% test accuracy with 277K parameters on the AIS 2024 eye tracking challenge; and 3) 0.556 mAP with 576k parameters on the PROPHESEE 1 Megapixel Automotive Detection Dataset.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22
# マンモCLIP:マンモグラフィーにおけるデータ効率とロバスト性を高めるビジョン言語基礎モデル

Mammo-CLIP: A Vision Language Foundation Model to Enhance Data Efficiency and Robustness in Mammography ( http://arxiv.org/abs/2405.12255v2 )

ライセンス: Link先を確認
Shantanu Ghosh, Clare B. Poynton, Shyam Visweswaran, Kayhan Batmanghelich, (参考訳) 乳がん検出におけるCAD(Computer-Aided Diagnosis)の大規模かつ多様なトレーニングデータが欠如していることが,システム導入の障害となっている。 近年,VLM(\eg CLIP)を用いた大規模画像テキストデータセットによる事前トレーニングでは,コンピュータビジョン(CV)における堅牢性とデータ効率の問題が部分的に解決されている。 本稿では,大量のマンモグラム-レポートペアを事前学習した最初のVLMであるMammo-CLIPを提案する。 乳がん検出に欠かせない様々なマンモグラフィー特性の分類, 位置決定, データ効率, CVにおけるCLIPと類似した堅牢性について検討した。 また,マンモグラフィーレポートにおける文レベルの粒度による表現の空間的解釈を実現するために,新しい特徴属性法であるマンモファクタを提案する。 コードは公開されている。 \url{https://github.com/batmanlab/Mammo-CLIP}。

The lack of large and diverse training data on Computer-Aided Diagnosis (CAD) in breast cancer detection has been one of the concerns that impedes the adoption of the system. Recently, pre-training with large-scale image text datasets via Vision-Language models (VLM) (\eg CLIP) partially addresses the issue of robustness and data efficiency in computer vision (CV). This paper proposes Mammo-CLIP, the first VLM pre-trained on a substantial amount of screening mammogram-report pairs, addressing the challenges of dataset diversity and size. Our experiments on two public datasets demonstrate strong performance in classifying and localizing various mammographic attributes crucial for breast cancer detection, showcasing data efficiency and robustness similar to CLIP in CV. We also propose Mammo-FActOR, a novel feature attribution method, to provide spatial interpretation of representation with sentence-level granularity within mammography reports. Code is available publicly: \url{https://github.com/batmanlab/Mammo-CLIP}.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22
# AtomGS: 高密度放射場のためのガウス散乱の微粒化

AtomGS: Atomizing Gaussian Splatting for High-Fidelity Radiance Field ( http://arxiv.org/abs/2405.12369v2 )

ライセンス: Link先を確認
Rong Liu, Rui Xu, Yue Hu, Meida Chen, Andrew Feng, (参考訳) 3D Gaussian Splatting (3DGS) は、新しいビュー合成とリアルタイムレンダリング速度の優れた機能を提供することにより、近年、放射界再構成が進んでいる。 しかし、最適化と適応密度制御をブレンドするというその戦略は、時として、より小さなものを適切に密度付けするコストで、大きなガウスを最適化することを優先するため、ノイズの多い幾何学やぼやけたアーチファクトを生じることがある。 この問題に対処するために、Atomized ProliferationとGeometry-Guided OptimizationからなるAtomGSを紹介します。 Atomized Proliferationは様々な大きさの楕円体ガウスをより均一な大きさの原子ガウスに制限する。 この戦略は, シーンの細部に応じて, デンシフィケーションに重きを置くことで, 優れた特徴を持つ領域の表現を促進させる。 さらに,エッジ・アウェア・ノーマル・ロスを組み込んだ幾何誘導最適化手法を提案する。 この最適化方法は、複雑な詳細を保存しながら、平面を効果的に滑らかにする。 評価の結果、AtomGSはレンダリング品質において既存の最先端手法よりも優れています。 さらに、幾何再構成における競合精度を実現し、他のSDF法よりもトレーニング速度が大幅に向上する。 よりインタラクティブなデモは、私たちのWebサイトにある(https://rongliu-leo.github.io/AtomGS/)。

3D Gaussian Splatting (3DGS) has recently advanced radiance field reconstruction by offering superior capabilities for novel view synthesis and real-time rendering speed. However, its strategy of blending optimization and adaptive density control might lead to sub-optimal results; it can sometimes yield noisy geometry and blurry artifacts due to prioritizing optimizing large Gaussians at the cost of adequately densifying smaller ones. To address this, we introduce AtomGS, consisting of Atomized Proliferation and Geometry-Guided Optimization. The Atomized Proliferation constrains ellipsoid Gaussians of various sizes into more uniform-sized Atom Gaussians. The strategy enhances the representation of areas with fine features by placing greater emphasis on densification in accordance with scene details. In addition, we proposed a Geometry-Guided Optimization approach that incorporates an Edge-Aware Normal Loss. This optimization method effectively smooths flat surfaces while preserving intricate details. Our evaluation shows that AtomGS outperforms existing state-of-the-art methods in rendering quality. Additionally, it achieves competitive accuracy in geometry reconstruction and offers a significant improvement in training speed over other SDF-based methods. More interactive demos can be found in our website (https://rongliu-leo.github.io/AtomGS/).
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22
# 長周期時系列予測のための構造化マトリックスを用いたブースティングXフォーマ

Boosting X-formers with Structured Matrix for Long Sequence Time Series Forecasting ( http://arxiv.org/abs/2405.12462v2 )

ライセンス: Link先を確認
Zhicheng Zhang, Yong Wang, Shaoqi Tan, Bowei Xia, Yujie Luo, (参考訳) 長周期時系列予測(LSTF)問題に対するトランスフォーマーベースモデルは、異常な予測精度のために注目されている。 これらのモデルの基礎として、自己認識機構は2次時間の複雑さのため、効率的なトレーニングと推論に挑戦する。 本稿では,Surrogate Attention BlocksとSurrogate FFN Blocksを組み込んだ代替フレームワークを活用し,LSTFにおけるTransformerベースモデルのアーキテクチャ設計を提案する。 このフレームワークは、その正確性を犠牲にすることなく、よく設計されたモデルの効率を高めることを目的としている。 我々はさらに、表現性と訓練性の両方の観点から、自己注意機構に対するサロゲート注意ブロックの等価性を確立する。 5つの時系列タスクにわたる9つのTransformerベースのモデルを含む広範な実験を通して、モデルサイズを46%削減しながら、平均的なパフォーマンス改善を9.45%観察する。

Transformer-based models for long sequence time series forecasting (LSTF) problems have gained significant attention due to their exceptional forecasting precision. As the cornerstone of these models, the self-attention mechanism poses a challenge to efficient training and inference due to its quadratic time complexity. In this article, we propose a novel architectural design for Transformer-based models in LSTF, leveraging a substitution framework that incorporates Surrogate Attention Blocks and Surrogate FFN Blocks. The framework aims to boost any well-designed model's efficiency without sacrificing its accuracy. We further establish the equivalence of the Surrogate Attention Block to the self-attention mechanism in terms of both expressiveness and trainability. Through extensive experiments encompassing nine Transformer-based models across five time series tasks, we observe an average performance improvement of 9.45% while achieving a significant reduction in model size by 46%
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22
# 任意の領域上の時空間偏微分方程式に対する有限要素に基づく物理インフォームド演算子学習フレームワーク

A finite element-based physics-informed operator learning framework for spatiotemporal partial differential equations on arbitrary domains ( http://arxiv.org/abs/2405.12465v2 )

ライセンス: Link先を確認
Yusuke Yamazaki, Ali Harandi, Mayu Muramatsu, Alexandre Viardin, Markus Apel, Tim Brepols, Stefanie Reese, Shahed Rezaei, (参考訳) 偏微分方程式(PDE)によって支配される時空間力学を予測できる,有限要素に基づく物理インフォームド演算子学習フレームワークを提案する。 提案フレームワークは、有限要素法(FEM)にヒントを得た損失関数と、暗黙のオイラー時間積分方式を用いる。 過渡的な熱伝導問題は、性能をベンチマークするために考慮される。 提案した演算子学習フレームワークは、現在の時間ステップで温度場を入力として、次の時間ステップで温度場を予測する。 熱方程式の離散化弱定式化は、有限作用素学習(FOL)と呼ばれる損失関数に物理学を組み込むために用いられる。 トレーニング中、ネットワークは、FEM溶液と比較して高い精度で初期温度場の時間的変化を予測することに成功した。 この枠組みは、不均一な熱伝導率と任意の幾何学にも適用可能であることが確認されている。 まず、トレーニングは教師なしの方法で行われ、コストのかかるシミュレーションや実験で準備された大規模なデータセットが不要になる。 代わりに、ガウス乱数過程とフーリエ級数によって生成されたランダムな温度パターンと一定の温度場が組み合わさって起こりうる温度ケースをカバーするためのトレーニングデータとして使用される。 第二に、整形関数と後方差分近似が領域の離散化に利用され、純粋に代数方程式となる。 これにより、重みとバイアスを最適化する際の時間を要する自動微分を回避し、識別エラーを許容しながら、トレーニング効率を高めることができる。 最後に、FEMの補間力のおかげで、任意の幾何学はFOLで扱える。

We propose a novel finite element-based physics-informed operator learning framework that allows for predicting spatiotemporal dynamics governed by partial differential equations (PDEs). The proposed framework employs a loss function inspired by the finite element method (FEM) with the implicit Euler time integration scheme. A transient thermal conduction problem is considered to benchmark the performance. The proposed operator learning framework takes a temperature field at the current time step as input and predicts a temperature field at the next time step. The Galerkin discretized weak formulation of the heat equation is employed to incorporate physics into the loss function, which is coined finite operator learning (FOL). Upon training, the networks successfully predict the temperature evolution over time for any initial temperature field at high accuracy compared to the FEM solution. The framework is also confirmed to be applicable to a heterogeneous thermal conductivity and arbitrary geometry. The advantages of FOL can be summarized as follows: First, the training is performed in an unsupervised manner, avoiding the need for a large data set prepared from costly simulations or experiments. Instead, random temperature patterns generated by the Gaussian random process and the Fourier series, combined with constant temperature fields, are used as training data to cover possible temperature cases. Second, shape functions and backward difference approximation are exploited for the domain discretization, resulting in a purely algebraic equation. This enhances training efficiency, as one avoids time-consuming automatic differentiation when optimizing weights and biases while accepting possible discretization errors. Finally, thanks to the interpolation power of FEM, any arbitrary geometry can be handled with FOL, which is crucial to addressing various engineering application scenarios.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22
# 人間のように、視覚とテキストの知識を浸透させて学ぶ

Like Humans to Few-Shot Learning through Knowledge Permeation of Vision and Text ( http://arxiv.org/abs/2405.12543v2 )

ライセンス: Link先を確認
Yuyu Jia, Qing Zhou, Wei Huang, Junyu Gao, Qi Wang, (参考訳) ほとんどショットラーニングは、認識者が目に見えないカテゴリーから全く新しいシナリオへと一般化することを目的としていない。 サポートサンプルはほとんどないが、いくつかの高度なメソッドは最初、新しいクラスを特定するための事前知識としてクラス名を導入した。 しかし、障害は視覚的知識とテキスト的知識の相互の利点をどのように活用するかを包括的に理解することを妨げる。 本稿では,人間の直感に根ざした,一貫性のある双方向知識浸透戦略であるBiKopを提案する。クラス名記述は一般的な表現を提供するが,画像は個人の特異性を捉えている。 BiKopは、主に双方向の知識浸透を通じて階層的な汎用表現を確立する。 一方、ベースセットに対する関節表現のバイアスを考慮すると、トレーニング中に基本クラス関連セマンティクスを歪め、潜在的新規クラス関連情報の抑制を緩和する。 4つの挑戦的なベンチマークの実験は、BiKopの顕著な優位性を示している。 私たちのコードは公開されます。

Few-shot learning aims to generalize the recognizer from seen categories to an entirely novel scenario. With only a few support samples, several advanced methods initially introduce class names as prior knowledge for identifying novel classes. However, obstacles still impede achieving a comprehensive understanding of how to harness the mutual advantages of visual and textual knowledge. In this paper, we propose a coherent Bidirectional Knowledge Permeation strategy called BiKop, which is grounded in a human intuition: A class name description offers a general representation, whereas an image captures the specificity of individuals. BiKop primarily establishes a hierarchical joint general-specific representation through bidirectional knowledge permeation. On the other hand, considering the bias of joint representation towards the base set, we disentangle base-class-relevant semantics during training, thereby alleviating the suppression of potential novel-class-relevant information. Experiments on four challenging benchmarks demonstrate the remarkable superiority of BiKop. Our code will be publicly available.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22
# Twitterと携帯電話のデータを組み合わせて国境変更を観測:トルコとヨーロッパの国境開放

Combining Twitter and Mobile Phone Data to Observe Border-Rush: The Turkish-European Border Opening ( http://arxiv.org/abs/2405.12642v2 )

ライセンス: Link先を確認
Carlos Arcila Calderón, Bilgeçağ Aydoğdu, Tuba Bircan, Bünyamin Gündüz, Onur Önes, Albert Ali Salah, Alina Sîrbu, (参考訳) 2020年にトルコが国境管理を廃止すると決定すると、多くの個人がギリシャ、ブルガリア、トルコの国境に向かって旅した。 しかし、メディアレポートと実際の移行パターンの間の不規則な移動と不一致に関する検証可能な統計が欠如しているため、さらなる調査が必要である。 本研究の目的は,新しいデータソース,特に携帯電話とTwitterデータを活用することで,この知識ギャップを橋渡しし,国境を越えた移動量の推定器を構築し,展開する事象の質的な理解を育むことである。 移民外交の枠組みを用いることで、国境における緊急移動パターンの分析を行う。 本研究は, 定量化のための携帯電話データと質的理解のためのTwitterデータの可能性を示すものである。 我々は、特に研究中の人口の脆弱性を考えると、ビッグデータを活用するという倫理的意味を強調している。 これは、これらのデータソースとそれらの統合に固有の可能性、制限、リスクを識別することを目的として、人間のモビリティの社会的・政治的側面に関する徹底的な研究の必須点である。 この学術的な取り組みは、マイグレーションのダイナミクスのより微妙な理解に寄与し、誤用や抑圧的な監視を妨げる規制の定式化の道を開くことで、より正確な移行現実の表現を確実にする。

Following Turkey's 2020 decision to revoke border controls, many individuals journeyed towards the Greek, Bulgarian, and Turkish borders. However, the lack of verifiable statistics on irregular migration and discrepancies between media reports and actual migration patterns require further exploration. The objective of this study is to bridge this knowledge gap by harnessing novel data sources, specifically mobile phone and Twitter data, to construct estimators of cross-border mobility and to cultivate a qualitative comprehension of the unfolding events. By employing a migration diplomacy framework, we analyse emergent mobility patterns at the border. Our findings demonstrate the potential of mobile phone data for quantitative metrics and Twitter data for qualitative understanding. We underscore the ethical implications of leveraging Big Data, particularly considering the vulnerability of the population under study. This underscores the imperative for exhaustive research into the socio-political facets of human mobility, with the aim of discerning the potentialities, limitations, and risks inherent in these data sources and their integration. This scholarly endeavour contributes to a more nuanced understanding of migration dynamics and paves the way for the formulation of regulations that preclude misuse and oppressive surveillance, thereby ensuring a more accurate representation of migration realities.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22
# オタゴマイクロラベル認識のための仮設半教師付き学習手法

A Masked Semi-Supervised Learning Approach for Otago Micro Labels Recognition ( http://arxiv.org/abs/2405.12711v2 )

ライセンス: Link先を確認
Meng Shang, Lenore Dedeyne, Jolan Dupont, Laura Vercauteren, Nadjia Amini, Laurence Lapauw, Evelien Gielen, Sabine Verschueren, Carolina Varon, Walter De Raedt, Bart Vanrumste, (参考訳) オタゴ運動プログラム(OEP)は,高齢者の力とバランスを高め,転倒を防止することを目的として,高齢者にとって重要なリハビリテーションイニシアチブとして機能する。 HAR(Human Activity Recognition)システムは個人の活動を認識するために広く利用されているが、既存のシステムはマクロ活動の継続(すなわち、同じエクササイズの連続)に焦点を当てており、OEPの場合、マイクロアクティビティ(例えば、エクササイズの個別の繰り返し)を識別する能力を無視している。 本研究は,OEPのマイクロアクティビティ認識において,このギャップを埋めることを目的とした,新しい半教師付き機械学習手法を提案する。 限られたデータセットサイズを管理するため,本モデルはTransformerエンコーダを用いて特徴抽出を行い,その後,Temporal Convolutional Network (TCN) によって分類した。 同時に、トランスフォーマーエンコーダは、暗黙の教師なし学習に使われ、入力信号を再構成する。 その結果, マスク付き教師なし学習課題は, 臨床的に適用可能な0.8の閾値を超えるf1スコアで証明されるように, 教師付き学習(分類タスク)の性能を高めることが示唆された。 マイクロアクティビティから、各エクササイズの反復回数を数え、椅子の上昇時の速度を計算するという、臨床的に関係のある2つの結果が現われる。 これらの結果から,高齢者の日常生活における運動強度と難易度の自動モニタリングが可能となった。

The Otago Exercise Program (OEP) serves as a vital rehabilitation initiative for older adults, aiming to enhance their strength and balance, and consequently prevent falls. While Human Activity Recognition (HAR) systems have been widely employed in recognizing the activities of individuals, existing systems focus on the duration of macro activities (i.e. a sequence of repetitions of the same exercise), neglecting the ability to discern micro activities (i.e. the individual repetitions of the exercises), in the case of OEP. This study presents a novel semi-supervised machine learning approach aimed at bridging this gap in recognizing the micro activities of OEP. To manage the limited dataset size, our model utilizes a Transformer encoder for feature extraction, subsequently classified by a Temporal Convolutional Network (TCN). Simultaneously, the Transformer encoder is employed for masked unsupervised learning to reconstruct input signals. Results indicate that the masked unsupervised learning task enhances the performance of the supervised learning (classification task), as evidenced by f1-scores surpassing the clinically applicable threshold of 0.8. From the micro activities, two clinically relevant outcomes emerge: counting the number of repetitions of each exercise and calculating the velocity during chair rising. These outcomes enable the automatic monitoring of exercise intensity and difficulty in the daily lives of older adults.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22
# ドローンによる時間批判的荒野探索と救助のための深層強化学習

Deep Reinforcement Learning for Time-Critical Wilderness Search And Rescue Using Drones ( http://arxiv.org/abs/2405.12800v2 )

ライセンス: Link先を確認
Jan-Hendrik Ewers, David Anderson, Douglas Thomson, (参考訳) 荒野における伝統的な捜索・救助手法は時間を要する可能性があり、範囲は限られている。 ドローンはより高速で柔軟なソリューションを提供するが、その探索経路を最適化することが不可欠だ。 本稿では,自然環境におけるドローンの効率的な探索ミッション構築のための深層強化学習の活用について検討する。 提案手法では,探索領域と行方不明者に関する事前データを,確率分布マップの形で活用する。 これにより、深層強化学習エージェントは、行方不明者を見つける確率を最大化する最適な飛行経路を学習することができる。 実験の結果,従来のカバレッジ計画や探索計画アルゴリズムと比較して,検索時間の大幅な改善が得られた。 1つの比較で、深層強化学習は、現実世界の検索操作における命と死を意味する違いである160\%以上の他のアルゴリズムより優れていることが判明した。 さらに, 従来の研究と異なり, キュウチュアによって可能となる連続的な行動空間を取り入れることで, より微妙な飛行パターンを実現できる。

Traditional search and rescue methods in wilderness areas can be time-consuming and have limited coverage. Drones offer a faster and more flexible solution, but optimizing their search paths is crucial. This paper explores the use of deep reinforcement learning to create efficient search missions for drones in wilderness environments. Our approach leverages a priori data about the search area and the missing person in the form of a probability distribution map. This allows the deep reinforcement learning agent to learn optimal flight paths that maximize the probability of finding the missing person quickly. Experimental results show that our method achieves a significant improvement in search times compared to traditional coverage planning and search planning algorithms. In one comparison, deep reinforcement learning is found to outperform other algorithms by over $160\%$, a difference that can mean life or death in real-world search operations. Additionally, unlike previous work, our approach incorporates a continuous action space enabled by cubature, allowing for more nuanced flight patterns.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22
# 分数計算による1/f^α$雑音に対する量子最適制御:半導体スピン量子ビットにおける電圧制御交換

Quantum optimal control robust to $1/f^α$ noises using fractional calculus: voltage-controlled exchange in semiconductor spin qubits ( http://arxiv.org/abs/2405.12922v2 )

ライセンス: Link先を確認
Bohdan Khromets, Jonathan Baugh, (参考訳) 低周波1/f^\alpha$チャージノイズは、量子ドットにおける電圧制御されたスピン量子ビットの性能を著しく阻害する。 ここでは、分数計算を用いて、ノイズの多い量子ゲート演算において、最も高い平均忠実度が得られる電圧制御パルスを設計する。 具体的には、2スピン$\mathrm{SWAP}^k$ゲートを生成する交換相互作用の指数電圧制御に着目する。 定常電荷ノイズがゲート不整合の主源である場合、最適な交換パルスは長く弱く、パラメータが1-\alpha/2$の対称ベータ分布関数の広い形状を持つ。 交換パルスを高速かつ高振幅にする方法の一般的な実践は、分数ブラウン運動としてモデル化された強い非定常雑音力学の場合においても有益である。 提案手法は、様々な電圧制御量子ビットアーキテクチャにおける量子ゲート演算の特性と最適化に適用できる。

Low-frequency $1/f^\alpha$ charge noise significantly hinders the performance of voltage-controlled spin qubits in quantum dots. Here, we utilize fractional calculus to design voltage control pulses yielding the highest average fidelities for noisy quantum gate operations. We focus specifically on the exponential voltage control of the exchange interaction generating two-spin $\mathrm{SWAP}^k$ gates. When stationary charge noise is the dominant source of gate infidelity, we derive that the optimal exchange pulse is long and weak, with the broad shape of the symmetric beta distribution function with parameter $1-\alpha/2$. The common practice of making exchange pulses fast and high-amplitude still remains beneficial in the case of strongly nonstationary noise dynamics, modeled as fractional Brownian motion. The proposed methods are applicable to the characterization and optimization of quantum gate operations in various voltage-controlled qubit architectures.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22
# より良い活性化関数の探索法

A Method on Searching Better Activation Functions ( http://arxiv.org/abs/2405.12954v2 )

ライセンス: Link先を確認
Haoyuan Sun, Zihao Wu, Bo Xia, Pu Chang, Zibin Dong, Yifu Yuan, Yongzhe Chang, Xueqian Wang, (参考訳) 人工知能ニューラルネットワーク(ANN)の成功は、アクティベーション関数の司法的選択に大きな影響を与え、ネットワークに非線形性を導入し、データ内の洗練された関係をモデル化できるようにする。 しかし、活性化関数の探索は過去の経験的知識に大きく依存しており、理論的なガイダンスが欠如しており、より効果的な活性化関数の同定を妨げている。 この作業では、そのような問題に対する適切な解決策を提供します。 まず、情報エントロピーの観点から、境界条件付き最悪の活性化関数(WAFBC)の存在を理論的に実証する。 さらに,情報エントロピー関数のテイラー展開形式に着想を得て,エントロピーに基づくアクティベーション関数最適化(EAFO)手法を提案する。 EAFO法は、ディープニューラルネットワークにおける静的アクティベーション関数を設計するための新しい視点と、反復トレーニング中に動的にアクティベーションを最適化する可能性を提示する。 EAFO法を用いて,Correction Regularized ReLU(CRRELU)と呼ばれる新しいアクティベーション関数を導出する。 CIFAR-10、CIFAR-100、ImageNet-1Kデータセット上での視覚変換器とその変種による実験は、既存のReLUの補正よりもCRReLUの方が優れていることを示す。 大規模言語モデル(LLM)の微調整作業に関する大規模な実証研究において、CRRELUはGELUよりも優れた性能を示し、実用的な応用の可能性を示している。

The success of artificial neural networks (ANNs) hinges greatly on the judicious selection of an activation function, introducing non-linearity into network and enabling them to model sophisticated relationships in data. However, the search of activation functions has largely relied on empirical knowledge in the past, lacking theoretical guidance, which has hindered the identification of more effective activation functions. In this work, we offer a proper solution to such issue. Firstly, we theoretically demonstrate the existence of the worst activation function with boundary conditions (WAFBC) from the perspective of information entropy. Furthermore, inspired by the Taylor expansion form of information entropy functional, we propose the Entropy-based Activation Function Optimization (EAFO) methodology. EAFO methodology presents a novel perspective for designing static activation functions in deep neural networks and the potential of dynamically optimizing activation during iterative training. Utilizing EAFO methodology, we derive a novel activation function from ReLU, known as Correction Regularized ReLU (CRReLU). Experiments conducted with vision transformer and its variants on CIFAR-10, CIFAR-100 and ImageNet-1K datasets demonstrate the superiority of CRReLU over existing corrections of ReLU. Extensive empirical studies on task of large language model (LLM) fine-tuning, CRReLU exhibits superior performance compared to GELU, suggesting its broader potential for practical applications.
翻訳日:2024-05-24 12:47:38 公開日:2024-05-22