このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230506となっている論文です。

PDF登録状況(公開日: 20230506)

TitleAuthorsAbstract論文公表日・翻訳日
# インスタンス解釈を用いたソフトウェア欠陥の信頼性予測のための概念ドリフト検出

Detecting Concept Drift for the reliability prediction of Software Defects using Instance Interpretation ( http://arxiv.org/abs/2305.16323v1 )

ライセンス: Link先を確認
Zeynab Chitsazian, Saeed Sedighian Kashi, Amin Nikanjam(参考訳) Just-In-Time Software Defect Prediction (JIT-SDP)の文脈では、概念ドリフト(CD)はソフトウェア開発プロセスの変化、ソフトウェアの複雑さ、あるいはJIT-SDPモデルの安定性に時間とともに影響を及ぼす可能性のあるユーザの振る舞いの変化によって起こる。 さらに、JIT-SDPデータにおけるクラス不均衡の課題は、再バランスが実施されればCD検出方法の精度に潜在的なリスクをもたらす。 この問題は我々の知る限りでは探求されていない。 さらに,ラベル付き評価データを考慮したJIT-SDPモデルの安定性の検証手法も提案されている。 ただし、将来的なデータラベルは、必ずしもすぐに利用できるようになるとは限らない。 本研究の目的は,CD点検出を用いた信頼度の高いJIT-SDPモデルの構築である。 提案手法を評価するため,まずモデル性能監視に基づくベースライン手法を用いてラベル付きデータ上のCD点の同定を行った。 次に,提案手法の出力を,精度,MDR,MTD,MTFA,MTRなどのCD検出手法において,しきい値依存およびしきい値非依存の基準値のパフォーマンス監視に基づくベースライン手法と比較した。 また,本手法の有効性を評価するためにフリードマン統計試験を用いた。 提案手法は,再バランスデータに適用した場合の閾値非依存基準に基づくベースライン法と,簡単なデータに適用する場合の閾値依存基準に基づくベースライン法との整合性を示した。

In the context of Just-In-Time Software Defect Prediction (JIT-SDP), Concept drift (CD) can occur due to changes in the software development process, the complexity of the software, or changes in user behavior that may affect the stability of the JIT-SDP model over time. Additionally, the challenge of class imbalance in JIT-SDP data poses a potential risk to the accuracy of CD detection methods if rebalancing is implemented. This issue has not been explored to the best of our knowledge. Furthermore, methods to check the stability of JIT-SDP models over time by considering labeled evaluation data have been proposed. However, it should be noted that future data labels may not always be available promptly. We aim to develop a reliable JIT-SDP model using CD point detection directly by identifying changes in the interpretation of unlabeled simplified and resampled data. To evaluate our approach, we first obtained baseline methods based on model performance monitoring to identify CD points on labeled data. We then compared the output of the proposed methods with baseline methods based on performance monitoring of threshold-dependent and threshold-independent criteria using well-known performance measures in CD detection methods, such as accuracy, MDR, MTD, MTFA, and MTR. We also utilize the Friedman statistical test to assess the effectiveness of our approach. As a result, our proposed methods show higher compatibility with baseline methods based on threshold-independent criteria when applied to rebalanced data, and with baseline methods based on threshold-dependent criteria when applied to simple data.
翻訳日:2023-06-04 12:05:28 公開日:2023-05-06
# Structure-CLIP: 構造知識によるマルチモーダル言語表現の強化

Structure-CLIP: Enhance Multi-modal Language Representations with Structure Knowledge ( http://arxiv.org/abs/2305.06152v1 )

ライセンス: Link先を確認
Yufeng Huang, Jiji Tang, Zhuo Chen, Rongsheng Zhang, Xinfeng Zhang, Weijie Chen, Zeng Zhao, Tangjie Lv, Zhipeng Hu, Wen Zhang(参考訳) 大規模視覚言語による事前学習は、様々な下流タスクに有望な進歩を示し、マルチモーダル理解および生成タスクにおいて大きなパフォーマンスを達成した。 しかし、既存の手法はテキストの詳細なセマンティクス理解を必要とする画像テキストマッチングタスクではうまく動作しないことが多い。 この問題にはいくつかの研究があるが、文中の構造的知識を十分に活用して多モーダル言語表現を強化することは、性能の低下につながる。 本稿では,テキストからの詳細なセマンティクスを組み込んだエンドツーエンドフレームワークであるStructure-CLIPについて述べる。 具体的には,(1)テキストの詳細な意味学習に注意を払うためにシーングラフを使用し,(2)細粒度な意味論間の構造化知識を十分に探求し,(2)シーングラフの助けを借りて知識強化フレームワークを用いて構造化知識の表現を最大限活用する。 提案手法の有効性を検証するため, 上記のアプローチで事前学習を行い, 異なる下流タスクで実験を行った。 VG-AttributionとVG-Relationの両方のデータセット上で、構造CLIPは最先端のパフォーマンスを達成できることを示す。 大規模な実験により,その構成要素は効果的であり,その予測は解釈可能であることを示す。

Large-scale vision-language pre-training has shown promising advances on various downstream tasks and achieved significant performance in multi-modal understanding and generation tasks. However, existing methods often perform poorly on image-text matching tasks that require a detailed semantics understanding of the text. Although there have been some works on this problem, they do not sufficiently exploit the structural knowledge present in sentences to enhance multi-modal language representations, which leads to poor performance. In this paper, we present an end-to-end framework Structure-CLIP, which integrates latent detailed semantics from the text to enhance fine-grained semantic representations. Specifically, (1) we use scene graphs in order to pay more attention to the detailed semantic learning in the text and fully explore structured knowledge between fine-grained semantics, and (2) we utilize the knowledge-enhanced framework with the help of the scene graph to make full use of representations of structured knowledge. To verify the effectiveness of our proposed method, we pre-trained our models with the aforementioned approach and conduct experiments on different downstream tasks. Numerical results show that Structure-CLIP can often achieve state-of-the-art performance on both VG-Attribution and VG-Relation datasets. Extensive experiments show its components are effective and its predictions are interpretable, which proves that our proposed method can enhance detailed semantic representation well.
翻訳日:2023-05-11 12:51:15 公開日:2023-05-06
# ベイズモデル平均化によるソーシャルメディア上の気候キャンペーンの分析

Analysis of Climate Campaigns on Social Media using Bayesian Model Averaging ( http://arxiv.org/abs/2305.06174v1 )

ライセンス: Link先を確認
Tunazzina Islam, Ruqi Zhang, Dan Goldwasser(参考訳) 気候変動は私たちの時代の決定的な問題であり、私たちは決定的な瞬間にあります。 様々な利害団体、社会運動組織、個人がソーシャルメディア上でこの問題に対して集団行動を行う。 また、ソーシャルメディア上でのイシューアドボケーションキャンペーンは、特にエネルギー産業が直面している社会的な懸念に応えて発生することが多い。 本研究の目的は,これらの産業,支援団体,気候擁護団体がソーシャルメディアを用いて,気候変動に関する物語にどのように影響を与えるかを分析することである。 本稿では,facebook上での気候広告のスタンスを特定するために,メッセージテーマを組み合わせたモデルスープ[56]アプローチを提案する。 最後に,気候変動の姿勢の自動検出と意見マイニングに関する今後の取り組みに向けて,気候キャンペーンに関連する姿勢データセット,モデル,テーマセットをリリースする。

Climate change is the defining issue of our time, and we are at a defining moment. Various interest groups, social movement organizations, and individuals engage in collective action on this issue on social media. In addition, issue advocacy campaigns on social media often arise in response to ongoing societal concerns, especially those faced by energy industries. Our goal in this paper is to analyze how those industries, their advocacy group, and climate advocacy group use social media to influence the narrative on climate change. In this work, we propose a minimally supervised model soup [56] approach combined with messaging themes to identify the stances of climate ads on Facebook. Finally, we release our stance dataset, model, and set of themes related to climate campaigns for future work on opinion mining and the automatic detection of climate change stances.
翻訳日:2023-05-11 12:42:43 公開日:2023-05-06
# tasty: 空間と時間の複雑さに対するトランスフォーマーベースのアプローチ

TASTY: A Transformer based Approach to Space and Time complexitY ( http://arxiv.org/abs/2305.05379v1 )

ライセンス: Link先を確認
Kaushik Moudgalya, Ankit Ramakrishnan, Vamsikrishna Chemudupati, and Xing Han Lu(参考訳) コードベース言語モデル(LM)は、コード洗練、コード補完、生成といったアプリケーションによるソフトウェア工学の分野で非常に有望な結果を示している。 しかし、コードからの時間と空間の複雑さの分類は、データセットの欠如のために広範囲に検討されておらず、以前の取り組みはjavaに限定されている。 このプロジェクトでは、複数の言語にまたがるコードスニペットのラベル付きデータセット(PythonとC++のデータセットは現在、C、C#、JavaScriptのデータセットが間もなくリリースされる)を作成することで、これらのギャップに対処することを目指している。 既存の時間複雑性計算ライブラリやツールは、限られた数のユースケースにしか適用できません。 明確に定義されたルールベースのシステムがないことが、最近提案されたコードベースのlmsの適用動機となっている。 デッドコード除去の有効性を実証し,LMの最大シーケンス長を増大させる。 時間の複雑さに加えて、コードから空間の複雑さを見つけるためにLMを使うことを提案しています。 さらに,一方の言語でLMを微調整し,他方の言語で推論を行うクロスランゲージトランスファーと呼ばれる新しいコード理解タスクを導入する。 最後に,Non- negative Matrix Factorization (NMF) を用いて,LMのアテンションフィード分類ヘッドの活性化を可視化し,その結果を解釈する。

Code based Language Models (LMs) have shown very promising results in the field of software engineering with applications such as code refinement, code completion and generation. However, the task of time and space complexity classification from code has not been extensively explored due to a lack of datasets, with prior endeavors being limited to Java. In this project, we aim to address these gaps by creating a labelled dataset of code snippets spanning multiple languages (Python and C++ datasets currently, with C, C#, and JavaScript datasets being released shortly). We find that existing time complexity calculation libraries and tools only apply to a limited number of use-cases. The lack of a well-defined rule based system motivates the application of several recently proposed code-based LMs. We demonstrate the effectiveness of dead code elimination and increasing the maximum sequence length of LMs. In addition to time complexity, we propose to use LMs to find space complexities from code, and to the best of our knowledge, this is the first attempt to do so. Furthermore, we introduce a novel code comprehension task, called cross-language transfer, where we fine-tune the LM on one language and run inference on another. Finally, we visualize the activation of the attention fed classification head of our LMs using Non-negative Matrix Factorization (NMF) to interpret our results.
翻訳日:2023-05-10 19:31:08 公開日:2023-05-06
# 非負行列分解における2対5の真理

Two to Five Truths in Non-Negative Matrix Factorization ( http://arxiv.org/abs/2305.05389v1 )

ライセンス: Link先を確認
John M. Conroy, Neil P Molino, Brian Baughman, Rod Gomez, Ryan Kaliszewski, and Nicholas A. Lines(参考訳) 本稿では,非負行列分解を用いた話題モデル構築におけるカウント行列における行列スケーリングの役割について検討する。 本稿では,非負行列分解の品質を大幅に向上できるグラフの正規化ラプラシアン(nl)に触発されたスケーリングを提案する。 著者らは, 隣接スペクトル埋め込み (ase) のスペクトルクラスタリングにより, コア・ペリーピー分割が発見され, ラプラシアンスペクトル埋め込み (lse) は親和性分割が発見されやすいことを証明した。 テキスト解析では、非負行列分解(NMF)は、通常、共起の ``contexts'' と ` `terms' の数の行列で使用される。 LSEにインスパイアされた行列スケーリングは、さまざまなデータセットのテキストトピックモデルに大幅な改善をもたらす。 NMFにおける行列スケーリングの劇的な違いは、人間のアノテーションが利用できる3つのデータセットにおけるトピックモデルの品質を大幅に向上させることができる。 調整されたRand index(ARI)を用いることで、Twitterデータに対して50\%、ニュースグループデータセットに対して200\%以上増加し、ASEの類似であるカウントを使用することが分かる。 Document Understanding Conferenceのようなクリーンなデータに対して、NLはASEよりも40%以上改善している。 我々は、この現象のいくつかの解析と、このスケーリングと他の行列スケーリング手法との関係を結論付けている。

In this paper, we explore the role of matrix scaling on a matrix of counts when building a topic model using non-negative matrix factorization. We present a scaling inspired by the normalized Laplacian (NL) for graphs that can greatly improve the quality of a non-negative matrix factorization. The results parallel those in the spectral graph clustering work of \cite{Priebe:2019}, where the authors proved adjacency spectral embedding (ASE) spectral clustering was more likely to discover core-periphery partitions and Laplacian Spectral Embedding (LSE) was more likely to discover affinity partitions. In text analysis non-negative matrix factorization (NMF) is typically used on a matrix of co-occurrence ``contexts'' and ``terms" counts. The matrix scaling inspired by LSE gives significant improvement for text topic models in a variety of datasets. We illustrate the dramatic difference a matrix scalings in NMF can greatly improve the quality of a topic model on three datasets where human annotation is available. Using the adjusted Rand index (ARI), a measure cluster similarity we see an increase of 50\% for Twitter data and over 200\% for a newsgroup dataset versus using counts, which is the analogue of ASE. For clean data, such as those from the Document Understanding Conference, NL gives over 40\% improvement over ASE. We conclude with some analysis of this phenomenon and some connections of this scaling with other matrix scaling methods.
翻訳日:2023-05-10 12:59:55 公開日:2023-05-06
# 生死過程と探索成分によるランジェヴィンサンプリングの高速化

Accelerate Langevin Sampling with Birth-Death process and Exploration Component ( http://arxiv.org/abs/2305.05529v1 )

ライセンス: Link先を確認
Lezhi Tan and Jianfeng Lu(参考訳) 確率分布を既知の確率でサンプリングすることは、計算科学と工学の基本的な課題である。 マルチモーダル性に着目し,出生死過程と探索成分を両立させた新しいサンプリング手法を提案する。 このメソッドの主なアイデアは \textit{look before you leap} である。 サンプルを2セット保存します。1セットは温暖化、もう1セットは温暖化です。 前者は新しいモードを探索し、他のモードに有用な情報を渡す先駆者となり、後者は情報を受け取った後にターゲットの分布をサンプリングする。 平均場限界を導出し,探索過程がサンプリング効率をどのように決定するかを示す。 さらに,軽度仮定下で指数漸近収束を証明した。 最後に,過去の文献から実験を行い,その方法論を以前の文献と比較した。

Sampling a probability distribution with known likelihood is a fundamental task in computational science and engineering. Aiming at multimodality, we propose a new sampling method that takes advantage of both birth-death process and exploration component. The main idea of this method is \textit{look before you leap}. We keep two sets of samplers, one at warmer temperature and one at original temperature. The former one serves as pioneer in exploring new modes and passing useful information to the other, while the latter one samples the target distribution after receiving the information. We derive a mean-field limit and show how the exploration process determines sampling efficiency. Moreover, we prove exponential asymptotic convergence under mild assumption. Finally, we test on experiments from previous literature and compared our methodology to previous ones.
翻訳日:2023-05-10 12:21:17 公開日:2023-05-06
# 多項目利益最大化のための一般化保証:価格、オークション、ランダム化メカニズム

Generalization Guarantees for Multi-item Profit Maximization: Pricing, Auctions, and Randomized Mechanisms ( http://arxiv.org/abs/1705.00243v6 )

ライセンス: Link先を確認
Maria-Florina Balcan, Tuomas Sandholm, and Ellen Vitercik(参考訳) 購入者の価値に根ざした分布が存在する場合,マルチイテム利益の最大化について検討する。 実際、分布の完全な説明は一般的に利用できないので、機構設計者が分布のサンプルしか持たない設定について検討する。 設計者が複雑なメカニズムクラス(例えば、すべてのマルチタスク、マルチバイヤーメカニズム)を最適化するためにサンプルを使用する場合、そのメカニズムはサンプルよりも平均利益が高いが、期待する利益は低い。 メカニズムの平均利益が期待される利益に近づいていることを保証するのに十分なサンプルはいくつあるのか? この質問に答えるために、多くの価格、オークション、宝くじメカニズムで共有される構造を明らかにする。 この構造を用いて、サンプルベースのメカニズム設計でまだ研究されていないメカニズムクラスに対する新しい境界を証明し、多くのクラスにおいて最もよく知られた保証に適合または改善する。

We study multi-item profit maximization when there is an underlying distribution over buyers' values. In practice, a full description of the distribution is typically unavailable, so we study the setting where the mechanism designer only has samples from the distribution. If the designer uses the samples to optimize over a complex mechanism class -- such as the set of all multi-item, multi-buyer mechanisms -- a mechanism may have high average profit over the samples but low expected profit. This raises the central question of this paper: how many samples are sufficient to ensure that a mechanism's average profit is close to its expected profit? To answer this question, we uncover structure shared by many pricing, auction, and lottery mechanisms: for any set of buyers' values, profit is piecewise linear in the mechanism's parameters. Using this structure, we prove new bounds for mechanism classes not yet studied in the sample-based mechanism design literature and match or improve over the best-known guarantees for many classes.
翻訳日:2023-05-10 02:31:04 公開日:2023-05-06
# 非定常関数のオンライン学習のための連続ガウス過程

Sequential Gaussian Processes for Online Learning of Nonstationary Functions ( http://arxiv.org/abs/1905.10003v5 )

ライセンス: Link先を確認
Michael Minyi Zhang, Bianca Dumitrascu, Sinead A. Williamson, Barbara E. Engelhardt(参考訳) 多くの機械学習問題は、推定関数の文脈でフレーム化することができ、観測が到着するとリアルタイムで推定される時間依存関数であることが多い。 ガウス過程(GP)は、その柔軟性と不確かさの定量化のため、実数値非線形関数をモデル化するための魅力的な選択である。 しかし、典型的なgp回帰モデルにはいくつかの欠点がある。 1) 従来のGP推論は,観測数に関して$O(N^{3})$をスケールする。 2)GPモデルを逐次更新することは自明ではない。 3) 共分散核は通常、機能に定常性制約を課すが、非定常共分散核を持つgpsは実際には使用できないことが多い。 これらの問題を克服するために、オンラインの分散推論を可能としながら、非定常挙動を捉えるGPの無限混合に適合するシーケンシャルモンテカルロアルゴリズムを提案する。 本手法は,時系列データに非定常性が存在する場合,オンラインgp推定における最先端手法の性能を実証的に改善する。 提案手法を応用したオンラインガウシアンプロセスミックス・オブ・エキスパート・アプローチの有用性を実証するために,オンラインガウシアンプロセスバンドレットを用いた最適化アルゴリズムを必要十分実装できることを示す。

Many machine learning problems can be framed in the context of estimating functions, and often these are time-dependent functions that are estimated in real-time as observations arrive. Gaussian processes (GPs) are an attractive choice for modeling real-valued nonlinear functions due to their flexibility and uncertainty quantification. However, the typical GP regression model suffers from several drawbacks: 1) Conventional GP inference scales $O(N^{3})$ with respect to the number of observations; 2) Updating a GP model sequentially is not trivial; and 3) Covariance kernels typically enforce stationarity constraints on the function, while GPs with non-stationary covariance kernels are often intractable to use in practice. To overcome these issues, we propose a sequential Monte Carlo algorithm to fit infinite mixtures of GPs that capture non-stationary behavior while allowing for online, distributed inference. Our approach empirically improves performance over state-of-the-art methods for online GP estimation in the presence of non-stationarity in time-series data. To demonstrate the utility of our proposed online Gaussian process mixture-of-experts approach in applied settings, we show that we can sucessfully implement an optimization algorithm using online Gaussian process bandits.
翻訳日:2023-05-10 02:27:36 公開日:2023-05-06
# FedBoosting: テキスト認識のためのグラディエント保護ブースティングによるフェデレートラーニング

FedBoosting: Federated Learning with Gradient Protected Boosting for Text Recognition ( http://arxiv.org/abs/2007.07296v5 )

ライセンス: Link先を確認
Hanchi Ren, Jingjing Deng, Xianghua Xie, Xiaoke Ma and Yichuan Wang(参考訳) 典型的な機械学習のアプローチでは、モデルトレーニングのための集中型データが必要だが、プライバシや勾配保護などの理由から、データ共有の制限がある場合には不可能だ。 最近提案されたフェデレートラーニング(FL)フレームワークは、データの集中化やデータオーナ間の共有なしに、共有モデルを協調的に学習することを可能にする。 しかし,本論文では,非独立性および非独立性分散(Non-IID)データ,特にフェデレート平均化(FedAvg)戦略が重み分散現象に起因する場合に,関節モデルの一般化能力が低いことを示す。 そこで本研究では,一般化と勾配リークの問題に対処し,勾配に基づく最適化の高速化を実現するために,FLの高速化アルゴリズムを提案する。 さらに,準同型暗号 (he) と微分プライバシー (dp) を用いたセキュアな勾配共有プロトコルを導入し,勾配漏洩攻撃を防御し,スケーラブルでないペアワイズ暗号化を回避した。 提案手法は,視覚的テキスト認識タスクにおいて,予測精度と実行時間効率の両方において顕著な改善が達成されることを示す。

Typical machine learning approaches require centralized data for model training, which may not be possible where restrictions on data sharing are in place due to, for instance, privacy and gradient protection. The recently proposed Federated Learning (FL) framework allows learning a shared model collaboratively without data being centralized or shared among data owners. However, we show in this paper that the generalization ability of the joint model is poor on Non-Independent and Non-Identically Distributed (Non-IID) data, particularly when the Federated Averaging (FedAvg) strategy is used due to the weight divergence phenomenon. Hence, we propose a novel boosting algorithm for FL to address both the generalization and gradient leakage issues, as well as achieve faster convergence in gradient-based optimization. In addition, a secure gradient sharing protocol using Homomorphic Encryption (HE) and Differential Privacy (DP) is introduced to defend against gradient leakage attack and avoid pairwise encryption that is not scalable. We demonstrate the proposed Federated Boosting (FedBoosting) method achieves noticeable improvements in both prediction accuracy and run-time efficiency in a visual text recognition task on public benchmark.
翻訳日:2023-05-10 01:58:55 公開日:2023-05-06
# Dual-task Consistencyによる半教師付き医用画像分割

Semi-supervised Medical Image Segmentation through Dual-task Consistency ( http://arxiv.org/abs/2009.04448v3 )

ライセンス: Link先を確認
Xiangde Luo, Jieneng Chen, Tao Song, Yinan Chen, Guotai Wang, Shaoting Zhang(参考訳) 深層学習に基づく半教師付き学習(SSL)アルゴリズムは、医療画像のセグメンテーションにおいて有望な結果をもたらし、ラベルのないデータを活用することで医師の高価なアノテーションを軽減することができる。 しかし、文献における既存のSSLアルゴリズムのほとんどは、摂動ネットワークやデータによるモデルのトレーニングを規則化する傾向にある。 私たちは、sslのネットワークやデータレベルの摂動および変換を暗黙的に構築するのではなく、タスクレベルの正規化を明示的に構築できますか? この質問に答えるために、我々は初めてデュアルタスク・コンシスタンシーの半教師付きフレームワークを提案する。 具体的には,画素ワイドセグメンテーションマップとターゲットの幾何レベルセット表現を共同で予測するデュアルタスクディープネットワークを用いる。 レベルセット表現は、微分可能なタスク変換層を介して近似されたセグメンテーションマップに変換される。 同時に、ラベル付きデータとラベルなしデータの両方に対して、レベルセット由来のセグメンテーションマップと直接予測されたセグメンテーションマップの二重タスク整合正則化を導入する。 2つの公開データセットに関する広範な実験は、ラベルのないデータを組み込むことで、この手法が性能を大幅に改善できることを示している。 一方,我々のフレームワークは,最先端の半教師付き医用画像セグメンテーション手法を上回っている。 コードは、https://github.com/Luoxd1996/DTCで入手できる。

Deep learning-based semi-supervised learning (SSL) algorithms have led to promising results in medical images segmentation and can alleviate doctors' expensive annotations by leveraging unlabeled data. However, most of the existing SSL algorithms in literature tend to regularize the model training by perturbing networks and/or data. Observing that multi/dual-task learning attends to various levels of information which have inherent prediction perturbation, we ask the question in this work: can we explicitly build task-level regularization rather than implicitly constructing networks- and/or data-level perturbation-and-transformation for SSL? To answer this question, we propose a novel dual-task-consistency semi-supervised framework for the first time. Concretely, we use a dual-task deep network that jointly predicts a pixel-wise segmentation map and a geometry-aware level set representation of the target. The level set representation is converted to an approximated segmentation map through a differentiable task transform layer. Simultaneously, we introduce a dual-task consistency regularization between the level set-derived segmentation maps and directly predicted segmentation maps for both labeled and unlabeled data. Extensive experiments on two public datasets show that our method can largely improve the performance by incorporating the unlabeled data. Meanwhile, our framework outperforms the state-of-the-art semi-supervised medical image segmentation methods. Code is available at: https://github.com/Luoxd1996/DTC
翻訳日:2023-05-10 01:40:36 公開日:2023-05-06
# bose-einstein-condensate interferometryによる崩壊模型の検証

Testing collapse models with Bose-Einstein-Condensate interferometry ( http://arxiv.org/abs/2008.13580v3 )

ライセンス: Link先を確認
Bj\"orn Schrinski, Philipp Haslinger, J\"org Schmiedmayer, Klaus Hornberger, Stefan Nimmrichter(参考訳) 連続自発局所化(CSL)モデルは、客観的な量子-古典的遷移を予測する量子力学の最も顕著な一貫した修正である。 本稿では,ボース・アインシュタイン凝縮原子を用いた精密干渉法が,局所化速度パラメータの現在の経験的結合を数桁小さくすることができることを示す。 これは、絞り込みbecの干渉信号における平均的な人口不均衡ではなく、高絡み合いのghz様状態を必要としない原子数分布に焦点を合わせることで機能する。 実際、CSLによる拡散と分散原子-原子相互作用の相互作用は、CSLへの縮合の感度を増幅する。 我々は,パラメータ空間の新しい領域を試験し,その限界まで押し上げ,CSLの大規模パラメータ体系を探索し,潜在的に排除するために,最先端の実験手法を用いた実験的な実測手法について論じる。

The model of continuous spontaneous localization (CSL) is the most prominent consistent modification of quantum mechanics predicting an objective quantum-to-classical transition. Here we show that precision interferometry with Bose-Einstein condensed atoms can serve to lower the current empirical bound on the localization rate parameter by several orders of magnitude. This works by focusing on the atom count distributions rather than just mean population imbalances in the interferometric signal of squeezed BECs, without the need for highly entangled GHZ-like states. In fact, the interplay between CSL-induced diffusion and dispersive atom-atom interactions results in an amplified sensitivity of the condensate to CSL. We discuss experimentally realistic measurement schemes utilizing state-of-the-art experimental techniques to test new regions of parameter space and, pushed to the limit, to probe and potentially rule out large relevant parameter regimes of CSL.
翻訳日:2023-05-10 01:39:45 公開日:2023-05-06
# サインと関連性学習

Sign and Relevance learning ( http://arxiv.org/abs/2110.07292v3 )

ライセンス: Link先を確認
Sama Daryanavard and Bernd Porr(参考訳) 生物学的に現実的あるいは生物学的にインスパイアされた強化学習の標準モデルは、浅いネットワークの使用を意味するグローバルエラー信号を使用する。 一方、エラーのバックプロパゲーションにより、複数のレイヤを持つネットワークを使用できる。 しかし, 生物学的に現実的なネットワークでは, 層間を正確に重み付けした誤りバックプロパゲーションが必要となるため, 正確な誤りバックプロパゲーションを正当化することは困難である。 本研究では,ネットワーク全体の可塑性変化の兆候(LTP/LTD)のみを伝播させ,ニューロ変調が学習率を制御することによって,この問題を解決する新しいネットワークを提案する。 ニューロモジュレーションは整流エラーまたは関連信号として解釈できるが、エラー信号の上位ダウンサインは長期増強または長期抑うつが起こるかどうかを判断する。 提案手法の有効性を実証するために,概念実証として実際のロボット作業を行った。 その結果,このパラダイムは生物学的に妥当な学習機構を用いて複雑なタスクを遂行できることがわかった。

Standard models of biologically realistic or biologically inspired reinforcement learning employ a global error signal, which implies the use of shallow networks. On the other hand, error backpropagation allows the use of networks with multiple layers. However, precise error backpropagation is difficult to justify in biologically realistic networks because it requires precise weighted error backpropagation from layer to layer. In this study, we introduce a novel network that solves this problem by propagating only the sign of the plasticity change (i.e., LTP/LTD) throughout the whole network, while neuromodulation controls the learning rate. Neuromodulation can be understood as a rectified error or relevance signal, while the top-down sign of the error signal determines whether long-term potentiation or long-term depression will occur. To demonstrate the effectiveness of this approach, we conducted a real robotic task as proof of concept. Our results show that this paradigm can successfully perform complex tasks using a biologically plausible learning mechanism.
翻訳日:2023-05-10 01:34:07 公開日:2023-05-06
# 二値最適化のための値関数に基づく逐次最小化

Value-Function-based Sequential Minimization for Bi-level Optimization ( http://arxiv.org/abs/2110.04974v2 )

ライセンス: Link先を確認
Risheng Liu, Xuan Liu, Shangzhi Zeng, Jin Zhang, Yixuan Zhang(参考訳) グラディエントベースのBLO(Bi-Level Optimization)手法は、現代の学習タスクに広く応用されている。 しかし、既存の戦略のほとんどは制限的な仮定(例えば下層のサブプロブレムの凸性)に基づいて理論的に設計されており、高次元のタスクには適用できない。 さらに,機能制約付きBLOや悲観的BLOなど,BLOを解くための勾配法はほとんど存在しない。 本研究では,BLOを近似単一レベル問題に書き換えることにより,BVFSM(Bi-level Value-Function-based Sequential Minimization)と呼ばれる新しいアルゴリズムを提案する。 具体的には、BVFSMは一連の値関数に基づく近似を構築し、特に高次元タスクにおいて、既存のアプローチで要求される繰り返し勾配とヘッセン逆の計算を避ける。 また、BVFSMを拡張して、BLOにさらなる機能制約を加える。 さらに重要なことに、BVFSMは、これまで適切に解決されていない難解な悲観的BLOに使用できる。 理論的には、これらの種類のBLOに対するBVFSMの漸近収束を証明し、制限的な下層凸性仮定を破棄する。 我々の知る限りでは、このアルゴリズムは様々な種類のBLO(楽観的、悲観的、制約のある)を安定収束保証で解くことができる最初の勾配に基づくアルゴリズムである。 大規模な実験は理論的な研究を検証し、実世界の様々な応用において優位性を示す。

Gradient-based Bi-Level Optimization (BLO) methods have been widely applied to handle modern learning tasks. However, most existing strategies are theoretically designed based on restrictive assumptions (e.g., convexity of the lower-level sub-problem), and computationally not applicable for high-dimensional tasks. Moreover, there are almost no gradient-based methods able to solve BLO in those challenging scenarios, such as BLO with functional constraints and pessimistic BLO. In this work, by reformulating BLO into approximated single-level problems, we provide a new algorithm, named Bi-level Value-Function-based Sequential Minimization (BVFSM), to address the above issues. Specifically, BVFSM constructs a series of value-function-based approximations, and thus avoids repeated calculations of recurrent gradient and Hessian inverse required by existing approaches, time-consuming especially for high-dimensional tasks. We also extend BVFSM to address BLO with additional functional constraints. More importantly, BVFSM can be used for the challenging pessimistic BLO, which has never been properly solved before. In theory, we prove the asymptotic convergence of BVFSM on these types of BLO, in which the restrictive lower-level convexity assumption is discarded. To our best knowledge, this is the first gradient-based algorithm that can solve different kinds of BLO (e.g., optimistic, pessimistic, and with constraints) with solid convergence guarantees. Extensive experiments verify the theoretical investigations and demonstrate our superiority on various real-world applications.
翻訳日:2023-05-10 01:33:24 公開日:2023-05-06
# RBFニューラルネットワークを用いた定流量並列マイクロポンプの最適化

The Optimization of the Constant Flow Parallel Micropump Using RBF Neural Network ( http://arxiv.org/abs/2109.08717v5 )

ライセンス: Link先を確認
Chenyang Ma, Boyuan Xu, Hesheng Liu(参考訳) 本研究の目的は, 並列ポンプ室を備え, 受動チェックバルブを組み込んだ定流並列機械変位マイクロポンプの性能を最適化することである。 重要な課題は、左ポンプと右ポンプが吸引と輸血の役割を交互に交わすときの往復運動中に一定の流量に負の影響を及ぼす逆流による圧力パルスを最小化することである。 従来は受動チェックバルブの機械設計でこの問題を解決しようとしていた。 本研究では,教師なし学習と教師なし学習の両方で訓練されたrbfニューラルネットワークを実装することで,制御理論の観点から新たなオーバーラップ時間の概念を提案する。 実験結果から, 圧力パルスは0.15MPaから0.25MPaの範囲で最適化され, 40MPaの最大ポンプ加工圧力と比較して大きな改善が認められた。

The objective of this work is to optimize the performance of a constant flow parallel mechanical displacement micropump, which has parallel pump chambers and incorporates passive check valves. The critical task is to minimize the pressure pulse caused by regurgitation, which negatively impacts the constant flow rate, during the reciprocating motion when the left and right pumps interchange their role of aspiration and transfusion. Previous works attempt to solve this issue via the mechanical design of passive check valves. In this work, the novel concept of overlap time is proposed, and the issue is solved from the aspect of control theory by implementing a RBF neural network trained by both unsupervised and supervised learning. The experimental results indicate that the pressure pulse is optimized in the range of 0.15 - 0.25 MPa, which is a significant improvement compared to the maximum pump working pressure of 40 MPa.
翻訳日:2023-05-10 01:32:59 公開日:2023-05-06
# 2つの時間スケール更新ルールを持つ生成逆数ネットワークのトレーニングのための臨界バッチサイズの存在と推定

Existence and Estimation of Critical Batch Size for Training Generative Adversarial Networks with Two Time-Scale Update Rule ( http://arxiv.org/abs/2201.11989v4 )

ライセンス: Link先を確認
Naoki Sato and Hideaki Iiduka(参考訳) 従来,2つの時間スケール更新規則(TTUR)は,異なる学習率,あるいは異なる減衰率などの異なる学習速度を用いて,理論上,実際に生成的敵ネットワーク(GAN)を訓練するのに有用であった。 さらに, 学習速度だけでなく, バッチサイズも, TTURを用いたGANの訓練において重要であり, どちらも訓練に必要なステップ数に影響を与える。 本稿では,一定の学習率に基づいて,バッチサイズとGANをTTURで訓練するために必要なステップ数との関係について検討する。 理論的には、一定の学習率を持つTTURの場合、判別器とジェネレータの両方の損失関数の定常点を見つけるために必要なステップの数は、バッチサイズが大きくなるにつれて減少し、確率的一階オラクル(SFO)の複雑さを最小化する臨界バッチサイズが存在することを示す。 次に、Fr'echet開始距離(FID)をトレーニングのパフォーマンス指標とし、バッチサイズが大きくなるにつれて、低いFIDスコアを達成するために必要なステップの数が減少し、バッチサイズが測定されたクリティカルバッチサイズを超えると、SFOの複雑さが増加することを示す数値結果を提供する。 さらに, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。

Previous results have shown that a two time-scale update rule (TTUR) using different learning rates, such as different constant rates or different decaying rates, is useful for training generative adversarial networks (GANs) in theory and in practice. Moreover, not only the learning rate but also the batch size is important for training GANs with TTURs and they both affect the number of steps needed for training. This paper studies the relationship between batch size and the number of steps needed for training GANs with TTURs based on constant learning rates. We theoretically show that, for a TTUR with constant learning rates, the number of steps needed to find stationary points of the loss functions of both the discriminator and generator decreases as the batch size increases and that there exists a critical batch size minimizing the stochastic first-order oracle (SFO) complexity. Then, we use the Fr'echet inception distance (FID) as the performance measure for training and provide numerical results indicating that the number of steps needed to achieve a low FID score decreases as the batch size increases and that the SFO complexity increases once the batch size exceeds the measured critical batch size. Moreover, we show that measured critical batch sizes are close to the sizes estimated from our theoretical results.
翻訳日:2023-05-10 01:23:15 公開日:2023-05-06
# 最適な公平分類木を学習する:解釈可能性、公正性、正確性の間のトレードオフ

Learning Optimal Fair Classification Trees: Trade-offs Between Interpretability, Fairness, and Accuracy ( http://arxiv.org/abs/2201.09932v4 )

ライセンス: Link先を確認
Nathanael Jo, Sina Aghaei, Andr\'es G\'omez, Phebe Vayanos(参考訳) 人々の生活に影響を及ぼす高い領域における機械学習の利用の増加は、解釈可能で公平で高精度なアルゴリズムに対する緊急の必要性を生み出します。 これらのニーズを念頭に、任意の公正性制約で拡張可能な最適分類木(最も解釈可能なモデルの一つ)を学習するための混合整数最適化(MIO)フレームワークを提案する。 また,「解釈可能性の価格」をより定量化するために,機械学習モデルの異なるクラス間の比較を可能にする決定複雑性と呼ばれるモデル解釈可能性の新しい尺度を提案する。 一般的なデータセットの公正な分類のための最先端のアプローチに対して,本手法をベンチマークし,解釈可能性,公平性,予測精度のトレードオフを包括的に分析した。 定値差の閾値が与えられた場合、本手法は、最も高性能で複雑なモデルと比較して、サンプル外精度で約4.2ポイントの解釈性を持つ。 しかし,本手法は,ほぼ同値な決定を常に見つけ出すが,他の手法では行わない。

The increasing use of machine learning in high-stakes domains -- where people's livelihoods are impacted -- creates an urgent need for interpretable, fair, and highly accurate algorithms. With these needs in mind, we propose a mixed integer optimization (MIO) framework for learning optimal classification trees -- one of the most interpretable models -- that can be augmented with arbitrary fairness constraints. In order to better quantify the "price of interpretability", we also propose a new measure of model interpretability called decision complexity that allows for comparisons across different classes of machine learning models. We benchmark our method against state-of-the-art approaches for fair classification on popular datasets; in doing so, we conduct one of the first comprehensive analyses of the trade-offs between interpretability, fairness, and predictive accuracy. Given a fixed disparity threshold, our method has a price of interpretability of about 4.2 percentage points in terms of out-of-sample accuracy compared to the best performing, complex models. However, our method consistently finds decisions with almost full parity, while other methods rarely do.
翻訳日:2023-05-10 01:22:28 公開日:2023-05-06
# 変分深部画像を用いたブラインド画像デコンボリューション

Blind Image Deconvolution Using Variational Deep Image Prior ( http://arxiv.org/abs/2202.00179v2 )

ライセンス: Link先を確認
Dong Huo, Abbas Masoumzadeh, Rafsanjany Kushol, Yee-Hong Yang(参考訳) 従来のデコンボリューション法は、最適化を制約するために手作りのイメージプリエントを用いる。 ディープラーニングベースの手法では、エンドツーエンドトレーニングによる最適化が簡略化されているが、トレーニングデータセットで目に見えないぼやけにうまく一般化できていない。 したがって、画像固有モデルの訓練は、より高い一般化のために重要である。 Deep Image prior (DIP) は、1つの劣化した画像でランダムに初期化されたネットワークの重みを最大化して最適化する手法を提供する。 統計的に得られた従来の手作り画像と異なり、画像と対応するネットワークアーキテクチャの関係が不明確であるため、適切なネットワークアーキテクチャを見つけることは困難である。 その結果、ネットワークアーキテクチャは潜在シャープイメージに対して十分な制約を与えることができない。 本稿では,潜在シャープ画像に対する手作り画像の付加的プリエントを活用し,サブ最適解を避けるために各画素の分布を近似するブラインド画像デコンボリューションのための新しい変分深画像プリレント(vdip)を提案する。 数理解析の結果,提案手法は最適化をよりよく制約できることがわかった。 実験の結果, 生成した画像は, ベンチマークデータセットの元々のディップよりも品質が良いことがわかった。 VDIPのソースコードはhttps://github.com/Dong-Huo/VDIP-Deconvolutionで公開されています。

Conventional deconvolution methods utilize hand-crafted image priors to constrain the optimization. While deep-learning-based methods have simplified the optimization by end-to-end training, they fail to generalize well to blurs unseen in the training dataset. Thus, training image-specific models is important for higher generalization. Deep image prior (DIP) provides an approach to optimize the weights of a randomly initialized network with a single degraded image by maximum a posteriori (MAP), which shows that the architecture of a network can serve as the hand-crafted image prior. Different from the conventional hand-crafted image priors that are statistically obtained, it is hard to find a proper network architecture because the relationship between images and their corresponding network architectures is unclear. As a result, the network architecture cannot provide enough constraint for the latent sharp image. This paper proposes a new variational deep image prior (VDIP) for blind image deconvolution, which exploits additive hand-crafted image priors on latent sharp images and approximates a distribution for each pixel to avoid suboptimal solutions. Our mathematical analysis shows that the proposed method can better constrain the optimization. The experimental results further demonstrate that the generated images have better quality than that of the original DIP on benchmark datasets. The source code of our VDIP is available at https://github.com/Dong-Huo/VDIP-Deconvolution.
翻訳日:2023-05-10 01:12:16 公開日:2023-05-06
# TPC:ポイントクラウドモデルのための変換特異な平滑化

TPC: Transformation-Specific Smoothing for Point Cloud Models ( http://arxiv.org/abs/2201.12733v5 )

ライセンス: Link先を確認
Wenda Chu, Linyi Li, Bo Li(参考訳) ニューラルネットワークアーキテクチャを備えたポイントクラウドモデルは大きな成功を収め、自動運転車におけるライダーベースの認識システムなど、安全クリティカルなアプリケーションで広く利用されている。 しかし、そのようなモデルは、回転やテーパリングなどのステルスな意味変換を誤誘導モデル予測に適用することを目的とした敵攻撃に弱いことが示される。 本稿では,意味変換攻撃に対するポイントクラウドモデルに対する厳密かつスケーラブルなロバスト性保証を提供する,トランスフォーメーション特有のスムーザリングフレームワークtpcを提案する。 まず、一般的な3D変換を3つのカテゴリに分類する: 加法(例えば、せん断)、構成可能(例えば、回転)、間接的に構成可能(例えば、テーパリング)。 次に、特定のセマンティック変換とその構成に対するユニークな認証プロトコルを指定する。 いくつかの一般的な3Dトランスフォーメーションに関する大規模な実験では、TPCは芸術の状態を著しく上回っている。 例えば、我々のフレームワークは、z軸に沿ったツイスト変換(20$^\circ$)に対する認定精度を20.3$\%$から83.8$\%$に向上させる。 コードとモデルはhttps://github.com/chuwd19/point-cloud-smoothingで入手できる。

Point cloud models with neural network architectures have achieved great success and have been widely used in safety-critical applications, such as Lidar-based recognition systems in autonomous vehicles. However, such models are shown vulnerable to adversarial attacks which aim to apply stealthy semantic transformations such as rotation and tapering to mislead model predictions. In this paper, we propose a transformation-specific smoothing framework TPC, which provides tight and scalable robustness guarantees for point cloud models against semantic transformation attacks. We first categorize common 3D transformations into three categories: additive (e.g., shearing), composable (e.g., rotation), and indirectly composable (e.g., tapering), and we present generic robustness certification strategies for all categories respectively. We then specify unique certification protocols for a range of specific semantic transformations and their compositions. Extensive experiments on several common 3D transformations show that TPC significantly outperforms the state of the art. For example, our framework boosts the certified accuracy against twisting transformation along z-axis (within 20$^\circ$) from 20.3$\%$ to 83.8$\%$. Codes and models are available at https://github.com/chuwd19/Point-Cloud-Smoothing.
翻訳日:2023-05-10 01:11:52 公開日:2023-05-06
# 量子資源を用いた高密度符号化よりも強い相関

Stronger correlations than dense coding with elementary quantum resources ( http://arxiv.org/abs/2205.09602v2 )

ライセンス: Link先を確認
Am\'elie Piveteau, Jef Pauwels, Emil H{\aa}kansson, Sadiq Muhammad, Mohamed Bourennane, Armin Tavakoli(参考訳) センスコーディングは、エンタングルメントが1ビットの送信から2ビットの送信まで、キュービット通信をいかに促進するかを示す基礎的な例である。 これは、粒子を最大エンタングル基底に投影することで可能となる。 理論と実験の両方において、より一般的なコミュニケーションタスクを調査し、より単純な測定によって、強固で、時には最適なエンタングルメント支援の量子ビット通信プロトコルが可能になることを示した。 2つの量子ビットに対する部分ベル状態解析器のみを用いて、2ビットの古典的通信ではシミュレートできない量子相関を示す。 次に,最大に絡み合った2量子ビット状態に基づく最強の量子予測に対して製品測定が十分である定式かつ運用上有意義なタスクが存在することを示す。 以上の結果から,量子通信の強化における絡み合いの力は,シンプルでスケーラブルな光学実験で得られることが判明した。

Dense coding is the seminal example of how entanglement can boost qubit communication, from sending one bit to sending two bits. This is made possible by projecting separate particles onto a maximally entangled basis. We investigate more general communication tasks, in both theory and experiment, and show that simpler measurements enable strong and sometimes even optimal entanglement-assisted qubit communication protocols. Using only partial Bell state analysers for two qubits, we demonstrate quantum correlations that cannot be simulated with two bits of classical communication. Then, we show that there exists an established and operationally meaningful task for which product measurements are sufficient for the strongest possible quantum predictions based on a maximally entangled two-qubit state. Our results reveal that there are scenarios in which the power of entanglement in enhancing quantum communication can be harvested in simple and scalable optical experiments.
翻訳日:2023-05-10 01:05:28 公開日:2023-05-06
# 単一RGB画像からのエンド・ツー・エンド弱教師付きシングルステージ3次元ハンドメッシュ再構成

End-to-end Weakly-supervised Single-stage Multiple 3D Hand Mesh Reconstruction from a Single RGB Image ( http://arxiv.org/abs/2204.08154v3 )

ライセンス: Link先を確認
Jinwei Ren, Jianke Zhu, and Jialiang Zhang(参考訳) 本論文では,2次元画像から複数の手を同時に位置決めして復元する課題について検討する。 従来の研究では、片手再建に焦点をあてるか、多段階的な方法でこの問題を解決するかのどちらかであった。 さらに, 従来の2段階のパイプラインでは, まず手の位置を検知し, 切り抜かれたパッチから3dハンドポーズを推定する。 プリプロセッシングと特徴抽出における計算冗長性を低減するため,マルチハンド再構成のための簡潔かつ効率的な単一ステージパイプラインを提案する。 具体的には,マルチヘッドオートエンコーダ構造を設計し,各ヘッドネットワークが同じ特徴マップを共有し,それぞれ手の中心,ポーズ,テクスチャを出力する。 さらに,高額な3次元実世界のデータアノテーションの負担を軽減するために,弱教師付き方式を採用する。 そこで我々は,2次元アノテーションを持つマルチハンドデータセットを,公開可能なシングルハンドデータセットに基づいて生成するステージワイズトレーニングスキームによって最適化された一連の損失を提案する。 弱教師付きモデルの精度をさらに向上するため、単手と複数手の設定にいくつかの特徴整合性制約を適用した。 具体的には、局所特徴から推定される各手の各キーポイントは、グローバル特徴から予測される再投影されたポイントと一致すべきである。 FreiHAND, HO3D, InterHand2.6M, RHDなどの公開ベンチマーク実験により, 本手法は, 弱教師付きおよび完全教師付き両方の方法で, 最先端のモデルベース手法よりも優れていることを示した。 コードとモデルは、https://github.com/zijinxuxu/SMHR}で入手できる。

In this paper, we consider the challenging task of simultaneously locating and recovering multiple hands from a single 2D image. Previous studies either focus on single hand reconstruction or solve this problem in a multi-stage way. Moreover, the conventional two-stage pipeline firstly detects hand areas, and then estimates 3D hand pose from each cropped patch. To reduce the computational redundancy in preprocessing and feature extraction, for the first time, we propose a concise but efficient single-stage pipeline for multi-hand reconstruction. Specifically, we design a multi-head auto-encoder structure, where each head network shares the same feature map and outputs the hand center, pose and texture, respectively. Besides, we adopt a weakly-supervised scheme to alleviate the burden of expensive 3D real-world data annotations. To this end, we propose a series of losses optimized by a stage-wise training scheme, where a multi-hand dataset with 2D annotations is generated based on the publicly available single hand datasets. In order to further improve the accuracy of the weakly supervised model, we adopt several feature consistency constraints in both single and multiple hand settings. Specifically, the keypoints of each hand estimated from local features should be consistent with the re-projected points predicted from global features. Extensive experiments on public benchmarks including FreiHAND, HO3D, InterHand2.6M and RHD demonstrate that our method outperforms the state-of-the-art model-based methods in both weakly-supervised and fully-supervised manners. The code and models are available at {https://github.com/zijinxuxu/SMHR}.
翻訳日:2023-05-10 01:03:43 公開日:2023-05-06
# 記録主義:社会的、法的、財政的、技術的観点からのブロックチェーンの社会科学的展望

Recordism: A social-scientific prospect of blockchain from social, legal, financial, and technological perspectives ( http://arxiv.org/abs/2204.00823v2 )

ライセンス: Link先を確認
Zihao Li, Hao Xu, Yang Fang, Boyuan Zhao and Lei Zhang(参考訳) ブロックチェーン技術は、情報の分散化、透明性、非識別化を通じて、情報の保存、流通、交換の方法を変えることで、サイバー空間のアーキテクチャに革命をもたらす可能性がある。 これは、普通の参加者が同時にトレーダー、鉱山業者、小売業者、顧客となり、障壁を断ち、コミュニティの参加者間の情報ギャップを減らし、オープンで進歩的で平等なイデオロギーで未来的なメタバースに寄与することを意味する。 ブロックチェーンによって強化されたこの情報変換の影響は、方法論の理解、サイバースペースにおける法的ガバナンス、金融と技術開発にまで及ぶ。 ブロックチェーン駆動型情報革命が社会や社会科学にどのような影響を及ぼすのか? 本論文は, 方法論, 法律, 財政, 技術という4つの重要な視点に焦点をあてる。 これら4つの視点の分析を通じて、ブロックチェーンが社会、社会科学、テクノロジーに与える影響を包括的に理解し、現在の奨学金に寄与している。 ブロックチェーンは革新的な認知方法であるだけでなく、信頼の源泉であり、ガバナンスの監視機関であり、サイバー法の執行者であり、将来のテクノロジーのインキュベータでもあるコミュニティ代表でもある。 ブロックチェーンと既存の社会構造を統合する上でのいくつかの課題にもかかわらず、ブロックチェーンは将来を形作る上で重要な役割を果たす可能性があると結論付けます。

Blockchain technology has the potential to revolutionize the architecture of cyberspace by transforming the way information is stored, circulated, and exchanged in cyberspace through decentralization, transparency, and de-identification. This means that ordinary participants can simultaneously become traders, miners, retailers, and customers, thus breaking down barriers, reducing the information gap between participants in the community, and contributing to the futuristic metaverse with an open, progressive, and equal ideology. The impact of this information transformation empowered by blockchain extends to our understanding of methodology, legal governance in cyberspace, and financial and technological development. This study asks: what are the implications of the blockchain-driven information revolution for society and social sciences? In order to answer this main question, the paper focuses on four key perspectives: methodological, legal, financial, and technical. Through the analysis of these four perspectives, the paper provides a comprehensive understanding of the impact of blockchain on society, the social sciences, and technology, making a contribution to current scholarship. It finds that blockchain is not only an innovative cognition method, but also a community representative, serving as a source of trust, a governance watchdog, an enforcer of cyber laws, and an incubator for future technologies. Despite some challenges in integrating blockchain with existing social structures, this paper concludes that blockchain has the potential to play a significant role in shaping the future.
翻訳日:2023-05-10 01:02:38 公開日:2023-05-06
# 量子エンタングルメントによる渦粒子の高エネルギーへのシフト物理

Shifting physics of vortex particles to higher energies via quantum entanglement ( http://arxiv.org/abs/2203.12012v4 )

ライセンス: Link先を確認
D. V. Karlovets, S. S. Baturin, G. Geloni, G. K. Sizykh, and V. G. Serbo(参考訳) 現在、構造波の物理は比較的小さな粒子エネルギーに限られており、利用可能な生成技術はソフトな$X$線ツイスト光子、電子顕微鏡のビーム、冷中性子、非相対論的原子にのみ適用できる。 軌道角運動量を持つ高エネルギー渦粒子は、原子物理学、原子核、ハドロン、加速器物理学における多くの実験に役立ち、それを生成するためには、超相対論的エネルギーや複合粒子に適用可能な別の方法を開発する必要がある。 ここでは、チェレンコフ放射によるヘリカル・アンデュレータの光子放出、強レーザービームによる荷電粒子衝突、e\mu \to e\mu, ep \to ep, e^-e^+ \to p\bar{p}$などの散乱・消滅過程において、原理的に任意の粒子の渦状態が生成可能であることを示す。 これらを得るための鍵となる要素は、最終粒子同士の絡み合いによるポストセレクションプロトコルであり、プロセスそのものではない。 最終的な粒子の状態(例えば、$\gamma$-ray、ハドロン、核、イオン)は、他の粒子運動量の方位角が大きな誤差で測定されるか、全く測定されない場合にツイストされる。 その結果、ビーム横コヒーレンスに対する要求は大幅に緩和され、加速器やシンクロトロン放射施設で高エネルギーの渦ビームが生成されるようになり、ハドロンやスピン研究のための新しいツールとなった。

Physics of structured waves is currently limited to relatively small particle energies as the available generation techniques are only applicable to the soft $X$-ray twisted photons, to the beams of electron microscopes, to cold neutrons, or non-relativistic atoms. The highly energetic vortex particles with an orbital angular momentum would come in handy for a number of experiments in atomic physics, nuclear, hadronic, and accelerator physics, and to generate them one needs to develop alternative methods, applicable for ultrarelativistic energies and for composite particles. Here, we show that the vortex states of in principle arbitrary particles can be generated during photon emission in helical undulators, via Cherenkov radiation, in collisions of charged particles with intense laser beams, in such scattering or annihilation processes as $e\mu \to e\mu, ep \to ep, e^-e^+ \to p\bar{p}$, and so forth. The key element in obtaining them is the postselection protocol due to entanglement between a pair of final particles and it is largely not the process itself. The state of a final particle -- be it a $\gamma$-ray, a hadron, a nucleus, or an ion -- becomes twisted if the azimuthal angle of the other particle momentum is measured with a large error or is not measured at all. As a result, requirements to the beam transverse coherence can be greatly relaxed, which enables the generation of highly energetic vortex beams at accelerators and synchrotron radiation facilities, thus making them a new tool for hadronic and spin studies.
翻訳日:2023-05-10 01:02:14 公開日:2023-05-06
# 関係特徴の合成とブラックボックス予測器の解説への応用

Composition of Relational Features with an Application to Explaining Black-Box Predictors ( http://arxiv.org/abs/2206.00738v2 )

ライセンス: Link先を確認
Ashwin Srinivasan, A Baskar, Tirtharaj Dash, Devanshu Shah(参考訳) Inductive Logic Programming (ILP) で開発されたリレーショナル機械学習プログラムは、(1)データインスタンス間の複雑な関係をモデル化する能力、(2)モデル構築中にドメイン固有の関係を利用する能力、(3)構築されたモデルは人間可読性であり、しばしば人間の理解に近づく。 しかし、これらのirpライクな手法は、ディープニューラルネットワークの現在の発展を加速させる急速ハードウェア、ソフトウェア、アルゴリズム開発に完全に乗じることができない。 本稿では,関係特徴を関数として扱い,関数の一般化合成の概念を用いてより単純な関数から複素関数を導出する。 モード言語 $\text{M}$ における $\text{M}$-simple 機能の集合の概念を定式化し、2つの合成演算子 ($\rho_1$ と $\rho_2$) を特定し、そこからすべての複雑な特徴を導出できる。 これらの結果を用いて,有向非巡回グラフをラベル付けした合成関係機械 (crm) と呼ばれる「説明可能なニューラルネットワーク」の実装を行った。 CRM の任意のvertex $j$ のvertex-label には、フィーチャー関数 $f_j$ と連続アクティベーション関数 $g_j$ が含まれている。 j$ が "非入力" 頂点であれば、$f_j$ は、直接前者の $j$ の頂点に関連する特徴の合成である。 私たちの焦点はCRMで、入力頂点(直接の前身がない)はすべて、頂点ラベルに$\text{M}$-simple機能を持っています。 このようなCRMを構築し学習するためのランダムな手順を提供する。 CRMの特徴の構成構造に基づく説明の概念を用いて、適切な説明を識別する能力の合成データに関する実証的証拠を提供し、それらの予測に説明を提供しないブラックボックスモデルの「説明機械」としてCRMの使用を実証する。

Relational machine learning programs like those developed in Inductive Logic Programming (ILP) offer several advantages: (1) The ability to model complex relationships amongst data instances; (2) The use of domain-specific relations during model construction; and (3) The models constructed are human-readable, which is often one step closer to being human-understandable. However, these ILP-like methods have not been able to capitalise fully on the rapid hardware, software and algorithmic developments fuelling current developments in deep neural networks. In this paper, we treat relational features as functions and use the notion of generalised composition of functions to derive complex functions from simpler ones. We formulate the notion of a set of $\text{M}$-simple features in a mode language $\text{M}$ and identify two composition operators ($\rho_1$ and $\rho_2$) from which all possible complex features can be derived. We use these results to implement a form of "explainable neural network" called Compositional Relational Machines, or CRMs, which are labelled directed-acyclic graphs. The vertex-label for any vertex $j$ in the CRM contains a feature-function $f_j$ and a continuous activation function $g_j$. If $j$ is a "non-input" vertex, then $f_j$ is the composition of features associated with vertices in the direct predecessors of $j$. Our focus is on CRMs in which input vertices (those without any direct predecessors) all have $\text{M}$-simple features in their vertex-labels. We provide a randomised procedure for constructing and learning such CRMs. Using a notion of explanations based on the compositional structure of features in a CRM, we provide empirical evidence on synthetic data of the ability to identify appropriate explanations; and demonstrate the use of CRMs as 'explanation machines' for black-box models that do not provide explanations for their predictions.
翻訳日:2023-05-10 00:55:44 公開日:2023-05-06
# intertrack: 3次元マルチオブジェクトトラッキングのためのインタラクショントランスフォーマー

InterTrack: Interaction Transformer for 3D Multi-Object Tracking ( http://arxiv.org/abs/2208.08041v2 )

ライセンス: Link先を確認
John Willes, Cody Reading, Steven L. Waslander(参考訳) 3Dマルチオブジェクトトラッキング(MOT)は、動的環境下での良好な動作計画を実行するために必要な自動運転車にとって重要な問題である。 特に密集したシーンでは、既存のトラックを新しい検出に関連付けることは依然として困難であり、既存のシステムは重要な文脈情報を省略する傾向がある。 提案手法であるInterTrackでは、3次元MOTのためのInteraction Transformerを導入し、データアソシエーションのための識別オブジェクト表現を生成する。 各トラックと検出のための状態と形状の特徴を抽出し,注意を通してグローバル情報を効率的に集約する。 次に,各トラック/検出特徴ペアで学習回帰を行い,親和性を推定し,ロバストな2段階データアソシエーションとトラック管理アプローチを用いて最終トラックを生成する。 我々はnuScenes 3D MOTベンチマークのアプローチを検証し、特に小さな物理サイズとクラスタオブジェクトを持つクラスにおいて、大幅な改善を観察する。 提出時点では、InterTrackはCenterPoint検出手法の中でAMOTA全体で1位である。

3D multi-object tracking (MOT) is a key problem for autonomous vehicles, required to perform well-informed motion planning in dynamic environments. Particularly for densely occupied scenes, associating existing tracks to new detections remains challenging as existing systems tend to omit critical contextual information. Our proposed solution, InterTrack, introduces the Interaction Transformer for 3D MOT to generate discriminative object representations for data association. We extract state and shape features for each track and detection, and efficiently aggregate global information via attention. We then perform a learned regression on each track/detection feature pair to estimate affinities, and use a robust two-stage data association and track management approach to produce the final tracks. We validate our approach on the nuScenes 3D MOT benchmark, where we observe significant improvements, particularly on classes with small physical sizes and clustered objects. As of submission, InterTrack ranks 1st in overall AMOTA among methods using CenterPoint detections.
翻訳日:2023-05-10 00:46:55 公開日:2023-05-06
# 幾何学的変換に対する確率的防御

Provable Defense Against Geometric Transformations ( http://arxiv.org/abs/2207.11177v3 )

ライセンス: Link先を確認
Rem Yang, Jacob Laurel, Sasa Misailovic, Gagandeep Singh(参考訳) スケーリングや回転といった現実世界で生じる幾何学的画像変換は、深層ニューラルネットワーク(dnn)を容易に欺くことが示されている。 したがって、これらの摂動に対して確実に堅牢であるようにDNNを訓練することは重要である。 しかしながら、既存の検証者が非常に遅いため、幾何学的変換に対する決定論的証明堅牢性の目的をトレーニング手順に取り入れることはできなかった。 これらの課題に対処するため,我々は決定論的認定幾何ロバスト性に対する最初の証明可能な防御を提案する。 我々のフレームワークは、60$\times$から42,600$\times$までの画像を、既存の幾何学的ロバスト性検証よりも高速に認証できるGPU最適化バリデーションを活用している。 複数のデータセットにまたがって、我々のフレームワークでトレーニングされたネットワークは、常に最先端の決定論的認定幾何ロバスト性とクリーンな正確性を実現しています。 さらに、我々は初めて、自律運転の挑戦的で現実的な設定のためのニューラルネットワークの幾何学的堅牢性を検証する。

Geometric image transformations that arise in the real world, such as scaling and rotation, have been shown to easily deceive deep neural networks (DNNs). Hence, training DNNs to be certifiably robust to these perturbations is critical. However, no prior work has been able to incorporate the objective of deterministic certified robustness against geometric transformations into the training procedure, as existing verifiers are exceedingly slow. To address these challenges, we propose the first provable defense for deterministic certified geometric robustness. Our framework leverages a novel GPU-optimized verifier that can certify images between 60$\times$ to 42,600$\times$ faster than existing geometric robustness verifiers, and thus unlike existing works, is fast enough for use in training. Across multiple datasets, our results show that networks trained via our framework consistently achieve state-of-the-art deterministic certified geometric robustness and clean accuracy. Furthermore, for the first time, we verify the geometric robustness of a neural network for the challenging, real-world setting of autonomous driving.
翻訳日:2023-05-10 00:45:18 公開日:2023-05-06
# 分布時系列モデリングのためのwaserstein multivariate auto-regressive modelとそのグラフ学習への応用

Wasserstein multivariate auto-regressive models for modeling distributional time series and its application in graph learning ( http://arxiv.org/abs/2207.05442v2 )

ライセンス: Link先を確認
Yiye Jiang(参考訳) 多変量分布時系列の統計解析のための新しい自己回帰モデルを提案する。 興味のあるデータは、実数直線の有界区間で支持される複数の確率測度の集まりであり、それらは別々の時間インスタントによってインデックス化される。 確率測度は、ワッサーシュタイン空間のランダムな対象としてモデル化される。 ルベーグ測度において接空間における自己回帰モデルを確立し、まずすべての原測度を中心とし、それらのfr\'echet がルベーグ測度となるようにする。 反復ランダム関数系の理論を用いて、そのようなモデルの解の存在、一意性および定常性に関する結果を提供する。 また,モデル係数の一貫した推定器を提案する。 シミュレーションデータの解析に加えて,異なる国の年齢分布から得られた2つの実データと,パリの自転車シェアリングネットワークを用いて,提案モデルを示す。 最後に、モデル係数に課す正および有界性制約により、これらの制約の下で学習される提案する推定器は、自然にスパース構造を持つ。 この空間性は,多変量分布時系列から時間依存性のグラフを学習する際のモデルの適用をさらに促進させる。

We propose a new auto-regressive model for the statistical analysis of multivariate distributional time series. The data of interest consist of a collection of multiple series of probability measures supported over a bounded interval of the real line, and that are indexed by distinct time instants. The probability measures are modelled as random objects in the Wasserstein space. We establish the auto-regressive model in the tangent space at the Lebesgue measure by first centering all the raw measures so that their Fr\'echet means turn to be the Lebesgue measure. Using the theory of iterated random function systems, results on the existence, uniqueness and stationarity of the solution of such a model are provided. We also propose a consistent estimator for the model coefficient. In addition to the analysis of simulated data, the proposed model is illustrated with two real data sets made of observations from age distribution in different countries and bike sharing network in Paris. Finally, due to the positive and boundedness constraints that we impose on the model coefficients, the proposed estimator that is learned under these constraints, naturally has a sparse structure. The sparsity allows furthermore the application of the proposed model in learning a graph of temporal dependency from the multivariate distributional time series.
翻訳日:2023-05-10 00:44:25 公開日:2023-05-06
# 個々の確率予測の調整

Reconciling Individual Probability Forecasts ( http://arxiv.org/abs/2209.01687v2 )

ライセンス: Link先を確認
Aaron Roth and Alexander Tolbert and Scott Weinstein(参考訳) 個人確率は、明日雨が降る確率、アリスが次の12ヶ月以内に死ぬ確率、ボブが次の18ヶ月で暴力犯罪で逮捕される確率など、一度しか実現されない結果の確率を指す。 個人の確率は基本的に理解できない。 それでも、データに同意する2つの当事者、すなわちデータ分布からサンプルを採取する方法は、個々の確率をモデル化する方法に同意できないことを示す。 これは、2つのモデルのうち少なくとも1つを実証的に改ざんし改善するために、実質的に不一致である個々の確率の2つのモデルが一緒に使用できるためである。 これは「和解(reconciliation)」のプロセスにおいて効率よく反復され、両者が合意するモデルが、開始したモデルよりも優れていること、そして(ほとんど)個々の確率の予測(ほぼ)至るところで合意するモデルとなる。 個々の確率は認識できないが、計算量とデータ効率のよいプロセスで競合し、合意に至らなければならないと結論づける。 したがって、予測問題やモデル乗法問題と呼ばれる問題に対する答えを提供するという、予測に大きく相反する2つの正確で改善不可能なモデルが存在する状況では、私たち自身を見つけることはできない。

Individual probabilities refer to the probabilities of outcomes that are realized only once: the probability that it will rain tomorrow, the probability that Alice will die within the next 12 months, the probability that Bob will be arrested for a violent crime in the next 18 months, etc. Individual probabilities are fundamentally unknowable. Nevertheless, we show that two parties who agree on the data -- or on how to sample from a data distribution -- cannot agree to disagree on how to model individual probabilities. This is because any two models of individual probabilities that substantially disagree can together be used to empirically falsify and improve at least one of the two models. This can be efficiently iterated in a process of "reconciliation" that results in models that both parties agree are superior to the models they started with, and which themselves (almost) agree on the forecasts of individual probabilities (almost) everywhere. We conclude that although individual probabilities are unknowable, they are contestable via a computationally and data efficient process that must lead to agreement. Thus we cannot find ourselves in a situation in which we have two equally accurate and unimprovable models that disagree substantially in their predictions -- providing an answer to what is sometimes called the predictive or model multiplicity problem.
翻訳日:2023-05-10 00:37:45 公開日:2023-05-06
# SwinFIR: 高速フーリエ変換によるスイナー再考と画像超解法トレーニングの改善

SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and Improved Training for Image Super-Resolution ( http://arxiv.org/abs/2208.11247v2 )

ライセンス: Link先を確認
Dafeng Zhang, Feiyu Huang, Shizhuo Liu, Xiaobing Wang, Zhezhu Jin(参考訳) トランスベース方式は,cnn方式に比べて長距離依存性をモデル化できるため,画像復元性能が向上した。 しかし、swiinirのような進歩は、パフォーマンスと計算オーバーヘッドのバランスをとるためにウィンドウベースおよびローカルアテンション戦略を採用しており、グローバル情報をキャプチャし、初期層に長い依存関係を確立するために大きな受容フィールドを採用することを制限している。 本研究では,FFC(Fast Fourier Convolution, 高速フーリエ・コンボリューション)コンポーネントをイメージワイドな受容場に置き換えることで,SwinIRを拡張できるSwinFIRを提案する。 また,画像再構成の効果を改善するために,データ拡張,事前学習,特徴アンサンブルといった他の高度な手法についても検討した。 また,本手法では,学習時間やテスト時間を増やすことなく,モデルの性能を大幅に向上させることができる。 提案アルゴリズムを複数の大規模ベンチマークに適用し,既存手法と比較して最先端性能を実現した。 例えば、我々のSwinFIRはManga109データセット上で32.83dBのPSNRを達成しています。

Transformer-based methods have achieved impressive image restoration performance due to their capacities to model long-range dependency compared to CNN-based methods. However, advances like SwinIR adopts the window-based and local attention strategy to balance the performance and computational overhead, which restricts employing large receptive fields to capture global information and establish long dependencies in the early layers. To further improve the efficiency of capturing global information, in this work, we propose SwinFIR to extend SwinIR by replacing Fast Fourier Convolution (FFC) components, which have the image-wide receptive field. We also revisit other advanced techniques, i.e, data augmentation, pre-training, and feature ensemble to improve the effect of image reconstruction. And our feature ensemble method enables the performance of the model to be considerably enhanced without increasing the training and testing time. We applied our algorithm on multiple popular large-scale benchmarks and achieved state-of-the-art performance comparing to the existing methods. For example, our SwinFIR achieves the PSNR of 32.83 dB on Manga109 dataset, which is 0.8 dB higher than the state-of-the-art SwinIR method.
翻訳日:2023-05-10 00:36:35 公開日:2023-05-06
# 広告における説得戦略

Persuasion Strategies in Advertisements ( http://arxiv.org/abs/2208.09626v2 )

ライセンス: Link先を確認
Yaman Kumar Singla, Rajat Jha, Arunim Gupta, Milan Aggarwal, Aditya Garg, Tushar Malyan, Ayush Bhardwaj, Rajiv Ratn Shah, Balaji Krishnamurthy, and Changyou Chen(参考訳) 広告を説得力のあるもの、すなわち消費者から望ましい反応を引き出すことをモデル化することは、プロパガンダ、社会心理学、マーケティングの研究に不可欠である。 その重要性にもかかわらず、コンピュータビジョンにおける説得の計算モデルはまだ初期段階にあり、主に広告に関連する説得ストラテジーラベルを提供するベンチマークデータセットが欠如している。 社会心理学とマーケティングにおける説得文学に動機づけられ,説得戦略の広範な語彙を導入し,説得戦略を付した最初の広告画像コーパスを構築する。 次に,マルチモーダル学習による説得戦略予測のタスクを定式化し,他のad-understandingタスクを活用して説得戦略を予測するマルチタスクアテンション融合モデルを設計する。 さらに,30のFortune-500企業の1600件の広告キャンペーンについて実世界のケーススタディを行い,モデルの予測を用いて,異なる人口層(年齢と性別)でどの戦略が機能するかを分析する。 データセットはまた、テストスプリット上の対応する広告画像に説得戦略をラベル付けするイメージセグメンテーションマスクも提供する。 コードとデータセット https://midas-research.github.io/persuasion-advertisements/ を公開しています。

Modeling what makes an advertisement persuasive, i.e., eliciting the desired response from consumer, is critical to the study of propaganda, social psychology, and marketing. Despite its importance, computational modeling of persuasion in computer vision is still in its infancy, primarily due to the lack of benchmark datasets that can provide persuasion-strategy labels associated with ads. Motivated by persuasion literature in social psychology and marketing, we introduce an extensive vocabulary of persuasion strategies and build the first ad image corpus annotated with persuasion strategies. We then formulate the task of persuasion strategy prediction with multi-modal learning, where we design a multi-task attention fusion model that can leverage other ad-understanding tasks to predict persuasion strategies. Further, we conduct a real-world case study on 1600 advertising campaigns of 30 Fortune-500 companies where we use our model's predictions to analyze which strategies work with different demographics (age and gender). The dataset also provides image segmentation masks, which labels persuasion strategies in the corresponding ad images on the test split. We publicly release our code and dataset https://midas-research.github.io/persuasion-advertisements/.
翻訳日:2023-05-10 00:35:39 公開日:2023-05-06
# 構造状態空間モデルによる拡散型時系列計算と予測

Diffusion-based Time Series Imputation and Forecasting with Structured State Space Models ( http://arxiv.org/abs/2208.09399v3 )

ライセンス: Link先を確認
Juan Miguel Lopez Alcaraz and Nils Strodthoff(参考訳) 欠落した値の計算は、多くの実世界のデータ分析パイプラインにとって大きな障害となる。 ここでは,時系列データに着目し,(条件付き)拡散モデルを最先端生成モデルとして,構造化状態空間モデルを内部モデルアーキテクチャとして2つの新興技術に依存したインプテーションモデルであるssdを,特に時系列データの長期依存を捉えるのに適した内部モデルアーキテクチャとして展開する。 我々は,従来のアプローチでは有意義な結果が得られなかったブラックアウト回避シナリオを含む,幅広いデータセットとさまざまな欠損シナリオにおいて,SSSDが最先端の確率的計算と予測性能に一致または超えていることを示す。

The imputation of missing values represents a significant obstacle for many real-world data analysis pipelines. Here, we focus on time series data and put forward SSSD, an imputation model that relies on two emerging technologies, (conditional) diffusion models as state-of-the-art generative models and structured state space models as internal model architecture, which are particularly suited to capture long-term dependencies in time series data. We demonstrate that SSSD matches or even exceeds state-of-the-art probabilistic imputation and forecasting performance on a broad range of data sets and different missingness scenarios, including the challenging blackout-missing scenarios, where prior approaches failed to provide meaningful results.
翻訳日:2023-05-10 00:34:26 公開日:2023-05-06
# コダイカナル太陽観測所で観測された393.37nmの太陽プラッジの画像処理による検出

An Image Processing approach to identify solar plages observed at 393.37 nm by the Kodaikanal Solar Observatory ( http://arxiv.org/abs/2209.10631v3 )

ライセンス: Link先を確認
Sarvesh Gharat, Bhaskar Bose, Abhimanyu Borthakur and Rakesh Mazumder(参考訳) 太陽プラヘは、太陽の表面の明るい領域であり、太陽活動の重要な指標である。 本研究では,高台県立太陽観測所から得られたCa K波長太陽データ中の太陽プラッジを自動同定するアルゴリズムを提案する。 このアルゴリズムは、画像中の視覚的識別可能なすべてのプラージュをアノテートし、対応する計算されたプラージュインデックスを出力する。 アルゴリズムの信頼性とロバスト性をテストするため,複数の太陽周期にわたるplage指数(ローリング平均)の時系列解析を行った。 その結果,計算されたplage指数と先行研究で報告された値との間に強い相関が認められた。 すべての太陽周期で得られた相関係数は0.90以上であり、モデルの信頼性を示している。 また、webベースのアプリケーションを用いて、特定の画像に対して適切にハイパーパラメータを調整することで、モデルの効率を向上できると提案する。 アルゴリズムはstreamlit community cloudプラットフォームにデプロイされ、ユーザーは画像のアップロードと、望ましい結果のためにハイパーパラメータをカスタマイズできる。 この研究で使用される入力データは、KSOデータアーカイブから自由に入手でき、コードと生成されたデータはGitHubリポジトリで公開されています。 提案アルゴリズムは、太陽活動とその地球の気候、技術、宇宙天気への影響を研究するのに有効である。

Solar plages, which are bright regions on the Sun's surface, are an important indicator of solar activity. In this study, we propose an automated algorithm for identifying solar plages in Ca K wavelength solar data obtained from the Kodaikanal Solar Observatory. The algorithm successfully annotates all visually identifiable plages in an image and outputs the corresponding calculated plage index. We perform a time series analysis of the plage index (rolling mean) across multiple solar cycles to test the algorithm's reliability and robustness. The results show a strong correlation between the calculated plage index and those reported in a previous study. The correlation coefficients obtained for all the solar cycles are higher than 0.90, indicating the reliability of the model. We also suggest that adjusting the hyperparameters appropriately for a specific image using our web-based app can increase the model's efficiency. The algorithm has been deployed on the Streamlit Community Cloud platform, where users can upload images and customize the hyperparameters for desired results. The input data used in this study is freely available from the KSO data archive, and the code and the generated data are publicly available on our GitHub repository. Our proposed algorithm provides an efficient and reliable method for identifying solar plages, which can aid the study of solar activity and its impact on the Earth's climate, technology, and space weather.
翻訳日:2023-05-10 00:27:14 公開日:2023-05-06
# Vega-MT:JD Explore Academy Translation System for WMT22

Vega-MT: The JD Explore Academy Translation System for WMT22 ( http://arxiv.org/abs/2209.09444v4 )

ライセンス: Link先を確認
Changtong Zan, Keqin Peng, Liang Ding, Baopu Qiu, Boan Liu, Shwai He, Qingyu Lu, Zheng Zhang, Chuang Liu, Weifeng Liu, Yibing Zhan, Dacheng Tao(参考訳) 本稿では,JD Explore AcademyによるWMT 2022の共通翻訳タスクについて述べる。 我々は、中国英語、ドイツ英語、チェコ英語、ロシア英語、日英語を含む、すべての高資源トラックと1つの中資源トラックに参加した。 我々は、言語ペアとモデルサイズ、すなわち \textbf{Vega-MT} システムという2つの主要な要素をスケールアップすることで、翻訳のための双方向トレーニングの限界を推し進める。 言語ペアに関しては、"双方向"を"双方向"設定にスケールアップし、すべての言語をカバーし、言語間の共通知識を活用し、下流のバイリンガルタスクに転送します。 モデルサイズについては、Transformer-Bigを約470億のパラメータを持つ非常に大きなモデルに拡張し、Vega-MTのモデル容量を完全に強化します。 また,単言語データのサイクル変換や双方向・単言語データの双方向自己学習といったデータ拡張戦略を採用し,両言語・単言語データを総合的に活用する。 一般領域テストセットにVega-MTを適用するために、一般化チューニングを設計する。 Based on the official automatic scores of constrained systems, in terms of the sacreBLEU shown in Figure-1, we got the 1st place on {Zh-En (33.5), En-Zh (49.7), De-En (33.7), En-De (37.8), Cs-En (54.9), En-Cs (41.4) and En-Ru (32.7)}, 2nd place on {Ru-En (45.1) and Ja-En (25.6)}, and 3rd place on {En-Ja(41.5)}, respectively; W.R.T the COMET, we got the 1st place on {Zh-En (45.1), En-Zh (61.7), De-En (58.0), En-De (63.2), Cs-En (74.7), Ru-En (64.9), En-Ru (69.6) and En-Ja (65.1)}, 2nd place on {En-Cs (95.3) and Ja-En (40.6)}, respectively.

We describe the JD Explore Academy's submission of the WMT 2022 shared general translation task. We participated in all high-resource tracks and one medium-resource track, including Chinese-English, German-English, Czech-English, Russian-English, and Japanese-English. We push the limit of our previous work -- bidirectional training for translation by scaling up two main factors, i.e. language pairs and model sizes, namely the \textbf{Vega-MT} system. As for language pairs, we scale the "bidirectional" up to the "multidirectional" settings, covering all participating languages, to exploit the common knowledge across languages, and transfer them to the downstream bilingual tasks. As for model sizes, we scale the Transformer-Big up to the extremely large model that owns nearly 4.7 Billion parameters, to fully enhance the model capacity for our Vega-MT. Also, we adopt the data augmentation strategies, e.g. cycle translation for monolingual data, and bidirectional self-training for bilingual and monolingual data, to comprehensively exploit the bilingual and monolingual data. To adapt our Vega-MT to the general domain test set, generalization tuning is designed. Based on the official automatic scores of constrained systems, in terms of the sacreBLEU shown in Figure-1, we got the 1st place on {Zh-En (33.5), En-Zh (49.7), De-En (33.7), En-De (37.8), Cs-En (54.9), En-Cs (41.4) and En-Ru (32.7)}, 2nd place on {Ru-En (45.1) and Ja-En (25.6)}, and 3rd place on {En-Ja(41.5)}, respectively; W.R.T the COMET, we got the 1st place on {Zh-En (45.1), En-Zh (61.7), De-En (58.0), En-De (63.2), Cs-En (74.7), Ru-En (64.9), En-Ru (69.6) and En-Ja (65.1)}, 2nd place on {En-Cs (95.3) and Ja-En (40.6)}, respectively.
翻訳日:2023-05-10 00:26:01 公開日:2023-05-06
# 相関情報ボトルネック:ロバストな視覚質問応答に対する事前学習型マルチモーダルモデルの適用に向けて

Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering ( http://arxiv.org/abs/2209.06954v3 )

ライセンス: Link先を確認
Jingjing Jiang, Ziyi Liu, Nanning Zheng(参考訳) 大規模事前学習型視覚言語モデル(VLM)の恩恵を受け、視覚質問応答(VQA)の性能は人間のオラクルに接近した。 しかし、そのようなモデルを限られたデータで微調整することは、しばしば過剰適合と一般化の問題に悩まされ、モデルの堅牢性が欠如する。 本稿では,事前学習したVLMを下流VQAタスクに適用する場合に,情報ボトルネックの観点から入力ロバスト性を改善することを目的とする。 入力堅牢性は、入力に関わるショートカット学習と同様に、視覚的および言語的入力のバリエーションからモデルを守る能力を指す。 一般に、事前訓練されたVLMによって得られた表現は、特定の下流タスクに対して必然的に無関係かつ冗長な情報を含み、統計的に突発的な相関と入力変動に対する感度をもたらす。 マルチモーダル学習において、表現を最小限の統計量に収束させるために、入力と表現間の相互情報(MI)を最小化し、出力と表現の間のMIを最大化し、圧縮と冗長性のトレードオフを求める相関情報ボトルネック(CIB)を提案する。 さらに,マルチモーダル入力と表現の相互情報に対する密接な理論上の上限を導出し,モデルがより強固な表現を学習し,モダリティアライメントを促進するために異なる内部相関を組み込んだ。 広範囲にわたる実験は、入力の堅牢性と精度の観点から提案されたCIBの有効性と優位性を一貫して示している。

Benefiting from large-scale pretrained vision language models (VLMs), the performance of visual question answering (VQA) has approached human oracles. However, finetuning such models on limited data often suffers from overfitting and poor generalization issues, leading to a lack of model robustness. In this paper, we aim to improve input robustness from an information bottleneck perspective when adapting pretrained VLMs to the downstream VQA task. Input robustness refers to the ability of models to defend against visual and linguistic input variations, as well as shortcut learning involved in inputs. Generally, the representations obtained by pretrained VLMs inevitably contain irrelevant and redundant information for a specific downstream task, resulting in statistically spurious correlations and insensitivity to input variations. To encourage representations to converge to a minimal sufficient statistic in multimodal learning, we propose Correlation Information Bottleneck (CIB), which seeks a tradeoff between compression and redundancy in representations by minimizing the mutual information (MI) between inputs and representations while maximizing the MI between outputs and representations. Moreover, we derive a tight theoretical upper bound for the mutual information between multimodal inputs and representations, incorporating different internal correlations that guide models to learn more robust representations and facilitate modality alignment. Extensive experiments consistently demonstrate the effectiveness and superiority of the proposed CIB in terms of input robustness and accuracy.
翻訳日:2023-05-10 00:25:00 公開日:2023-05-06
# Contact2Grasp:手動接触拘束による3次元グラフ合成

Contact2Grasp: 3D Grasp Synthesis via Hand-Object Contact Constraint ( http://arxiv.org/abs/2210.09245v3 )

ライセンス: Link先を確認
Haoming Li, Xinzhuo Lin, Yang Zhou, Xiang Li, Yuchi Huo, Jiming Chen and Qi Ye(参考訳) 3次元把持合成は、入力対象に与えられた把持ポーズを生成する。 既存の作業は、オブジェクトから把握ポーズの分布への直接マッピングを学ぶことで、この問題に取り組む。 しかし、物理的接触はポーズの小さな変化に敏感であるため、3次元オブジェクト表現と有効なポーズとの高非線形マッピングはかなり非滑らかであり、生成効率の低下と制限された一般性をもたらす。 この課題に取り組むために,接触領域を把握し,把持生成を制約する中間変数を導入する。つまり,把持ポーズが与えられた接触マップに完全に制約されていると仮定して,2つの逐次ステージにマッピングを分解する。 1)まず接触地図の分布を学習し,潜在的な接触地図を生成する。 2) 接触マップから把握ポーズへのマッピングを学習する。 さらに, 生成したコンタクトを用いた浸透認識最適化を, 把握の一貫性の制約として提案する。 2つの公開データセットに対する広範囲な検証により,本手法は各種メトリクスの把握に関する最先端の手法よりも優れていることが示された。

3D grasp synthesis generates grasping poses given an input object. Existing works tackle the problem by learning a direct mapping from objects to the distributions of grasping poses. However, because the physical contact is sensitive to small changes in pose, the high-nonlinear mapping between 3D object representation to valid poses is considerably non-smooth, leading to poor generation efficiency and restricted generality. To tackle the challenge, we introduce an intermediate variable for grasp contact areas to constrain the grasp generation; in other words, we factorize the mapping into two sequential stages by assuming that grasping poses are fully constrained given contact maps: 1) we first learn contact map distributions to generate the potential contact maps for grasps; 2) then learn a mapping from the contact maps to the grasping poses. Further, we propose a penetration-aware optimization with the generated contacts as a consistency constraint for grasp refinement. Extensive validations on two public datasets show that our method outperforms state-of-the-art methods regarding grasp generation on various metrics.
翻訳日:2023-05-10 00:17:28 公開日:2023-05-06
# 中国語少数ショット学習のためのモジュールプロンプトのマルチタスク事前学習

Multitask Pre-training of Modular Prompt for Chinese Few-Shot Learning ( http://arxiv.org/abs/2210.07565v3 )

ライセンス: Link先を確認
Tianxiang Sun, Zhengfu He, Qin Zhu, Xipeng Qiu, Xuanjing Huang(参考訳) プロンプトチューニングは、学習済み言語モデルを下流タスクに適応させるためのパラメータ効率の高いアプローチである。 プロンプトチューニングは、トレーニングデータが十分である場合、フルモデルのチューニングのパフォーマンスに合致することが示されているが、少数の学習設定では苦労する傾向がある。 本稿では,マルチタスク事前学習型モジュール・プロンプト(MP2)を提案する。 MP2は38の中国語タスクで事前訓練された組み合わせ可能なプロンプトのセットである。 下流タスクでは、事前訓練されたプロンプトは選択的に活性化され、結合され、目に見えないタスクに強い構成的一般化をもたらす。 事前学習と微調整のギャップを埋めるため、上流タスクと下流タスクを統一機械読み取り理解タスクに定式化する。 2つの学習パラダイム、すなわち勾配降下とブラックボックスチューニングの下での広範囲な実験は、MP2がプロンプトチューニング、フルモデルチューニング、事前プロンプト事前訓練を数ショット設定で大幅に上回っていることを示している。 さらに,事前学習されたモジュールプロンプトを組み合わせるために8つのパラメータを学習するだけで,mp2が驚くほど高速かつ強い下流タスク適応を達成できることを実証する。

Prompt tuning is a parameter-efficient approach to adapting pre-trained language models to downstream tasks. Although prompt tuning has been shown to match the performance of full model tuning when training data is sufficient, it tends to struggle in few-shot learning settings. In this paper, we present Multi-task Pre-trained Modular Prompt (MP2) to boost prompt tuning for few-shot learning. MP2 is a set of combinable prompts pre-trained on 38 Chinese tasks. On downstream tasks, the pre-trained prompts are selectively activated and combined, leading to strong compositional generalization to unseen tasks. To bridge the gap between pre-training and fine-tuning, we formulate upstream and downstream tasks into a unified machine reading comprehension task. Extensive experiments under two learning paradigms, i.e., gradient descent and black-box tuning, show that MP2 significantly outperforms prompt tuning, full model tuning, and prior prompt pre-training methods in few-shot settings. In addition, we demonstrate that MP2 can achieve surprisingly fast and strong adaptation to downstream tasks by merely learning 8 parameters to combine the pre-trained modular prompts.
翻訳日:2023-05-10 00:17:09 公開日:2023-05-06
# 瞬時量子多項式回路を用いた1層QAOA近傍の探索

Exploring the neighborhood of 1-layer QAOA with Instantaneous Quantum Polynomial circuits ( http://arxiv.org/abs/2210.05526v2 )

ライセンス: Link先を確認
Sebastian Leontica and David Amaro(参考訳) 我々は1層QAOA回路をより大規模なパラメータ化インスタント量子多項式回路に組込み、組合せ最適化問題の解法として改良された変分量子アルゴリズムを作成する。 解析式を用いて最適パラメータを古典的に求めることにより,我々のプロトコルはバレンプラトーやハードウェアノイズに対して堅牢である。 基底状態の平均の重なりは$\mathcal{o}(2^{-0.31 n})$であり、ランダムなシェリントン=キルクパトリック (sk) のハミルトニアンに対してn$の量子ビットの数であり、1層qaoaよりも多項式が改善された。 さらに,多様体上の変分的虚時発展は,低温擬似ボルツマン状態に近いことを観測する。 このプロトコルは、最近リリースされたquantinuum h2トラップイオン量子ハードウェアおよびエミュレータ上で1層qaoaを上回り、7から32キュービットの312のランダムskインスタンスの平均近似比が0.985$となり、1インスタンスあたり4〜1208ショットで約4,4\%$が最適に解かれる。

We embed 1-layer QAOA circuits into the larger class of parameterized Instantaneous Quantum Polynomial circuits to produce an improved variational quantum algorithm for solving combinatorial optimization problems. The use of analytic expressions to find optimal parameters classically makes our protocol robust against barren plateaus and hardware noise. The average overlap with the ground state scales as $\mathcal{O}(2^{-0.31 N})$ with the number of qubits $N$ for random Sherrington-Kirkpatrick (SK) Hamiltonians of up to 29 qubits, a polynomial improvement over 1-layer QAOA. Additionally, we observe that performing variational imaginary time evolution on the manifold approximates low-temperature pseudo-Boltzmann states. Our protocol outperforms 1-layer QAOA on the recently released Quantinuum H2 trapped-ion quantum hardware and emulator, where we obtain an average approximation ratio of $0.985$ across 312 random SK instances of 7 to 32 qubits, from which almost $44\%$ are solved optimally using 4 to 1208 shots per instance.
翻訳日:2023-05-10 00:16:17 公開日:2023-05-06
# DPM-Solver++:拡散確率モデルのガイドサンプリングのための高速解法

DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models ( http://arxiv.org/abs/2211.01095v2 )

ライセンス: Link先を確認
Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, Jun Zhu(参考訳) 拡散確率モデル(dpms)は高分解能画像合成において、特に近年の大規模テキスト対画像生成アプリケーションにおいて素晴らしい成功を収めている。 dpmsのサンプル品質を向上させるために必須のテクニックはガイドサンプリングであり、これは通常、最高のサンプル品質を得るために大きなガイダンススケールを必要とする。 ガイドサンプリングに一般的に使用される高速サンプリング器はDDIMであり、高品位サンプルには100から250ステップの1次拡散ODEソルバである。 近年の研究では、専用の高次解法を提案し、指導なしにサンプリングのさらなる高速化を実現するが、ガイドサンプリングの有効性はこれまでよくテストされていなかった。 本研究では,従来の高次高速サンプリング装置が不安定な問題に悩まされ,ガイダンスの規模が大きくなるとDDIMよりも遅くなることを示す。 dpm-solver++(dpm-solver++, dpmの誘導サンプリングのための高次解法)を提案する。 dpm-solver++は拡散 ode をデータ予測モデルで解き、しきい値法を採用してトレーニングデータ分布にマッチさせる。 さらに, dpm-solver++のマルチステップ版を提案し, 有効なステップサイズを削減し, 不安定な問題に対処する。 実験の結果、DPM-Solver++は15から20ステップで高品質なサンプルを生成し、ピクセル空間と潜時空間のDPMによってガイドされる。

Diffusion probabilistic models (DPMs) have achieved impressive success in high-resolution image synthesis, especially in recent large-scale text-to-image generation applications. An essential technique for improving the sample quality of DPMs is guided sampling, which usually needs a large guidance scale to obtain the best sample quality. The commonly-used fast sampler for guided sampling is DDIM, a first-order diffusion ODE solver that generally needs 100 to 250 steps for high-quality samples. Although recent works propose dedicated high-order solvers and achieve a further speedup for sampling without guidance, their effectiveness for guided sampling has not been well-tested before. In this work, we demonstrate that previous high-order fast samplers suffer from instability issues, and they even become slower than DDIM when the guidance scale grows large. To further speed up guided sampling, we propose DPM-Solver++, a high-order solver for the guided sampling of DPMs. DPM-Solver++ solves the diffusion ODE with the data prediction model and adopts thresholding methods to keep the solution matches training data distribution. We further propose a multistep variant of DPM-Solver++ to address the instability issue by reducing the effective step size. Experiments show that DPM-Solver++ can generate high-quality samples within only 15 to 20 steps for guided sampling by pixel-space and latent-space DPMs.
翻訳日:2023-05-10 00:06:39 公開日:2023-05-06
# Make-A-Story: ビジュアルメモリ条件の一貫性のあるストーリー生成

Make-A-Story: Visual Memory Conditioned Consistent Story Generation ( http://arxiv.org/abs/2211.13319v3 )

ライセンス: Link先を確認
Tanzila Rahman, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Shweta Mahajan, Leonid Sigal(参考訳) テキスト記述に条件付けされた高品質な画像(あるいはビデオ)を生成できる、印象的な生成モデルが近年爆発的に増えている。 しかし、これらのアプローチはすべて、シーンや主要役者の曖昧な記述を含む条件文に依存している。 したがって、自然な参照やコレファレンスが存在するストーリービジュアライゼーションのより複雑なタスクにそのようなモデルを採用するには、アクターと背景のフレーム/シーン間の一貫性をいつ維持するか、そしてストーリーの進行に基づいていなければいけないのかを判断する必要がある。 本稿では,上記の課題に対処し,生成されたフレーム間でアクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,新しい自己回帰拡散ベースのフレームワークを提案する。 記憶に対する文条件付きソフトアテンションは効果的な参照解決を可能にし、必要に応じてシーンとアクターの一貫性を維持することを学習する。 提案手法の有効性を検証するため,MUGENデータセットを拡張し,多文ストーリーラインに文字,背景,参照を追加する。 mugen, pororosv, flintstonessvデータセット上でのストーリー生成実験により,本手法は,ストーリーと整合する高い視覚品質のフレーム生成において,先行手法よりも優れるだけでなく,キャラクタと背景との適切な対応をモデル化することを示した。

There has been a recent explosion of impressive generative models that can produce high quality images (or videos) conditioned on text descriptions. However, all such approaches rely on conditional sentences that contain unambiguous descriptions of scenes and main actors in them. Therefore employing such models for more complex task of story visualization, where naturally references and co-references exist, and one requires to reason about when to maintain consistency of actors and backgrounds across frames/scenes, and when not to, based on story progression, remains a challenge. In this work, we address the aforementioned challenges and propose a novel autoregressive diffusion-based framework with a visual memory module that implicitly captures the actor and background context across the generated frames. Sentence-conditioned soft attention over the memories enables effective reference resolution and learns to maintain scene and actor consistency when needed. To validate the effectiveness of our approach, we extend the MUGEN dataset and introduce additional characters, backgrounds and referencing in multi-sentence storylines. Our experiments for story generation on the MUGEN, the PororoSV and the FlintstonesSV dataset show that our method not only outperforms prior state-of-the-art in generating frames with high visual quality, which are consistent with the story, but also models appropriate correspondences between the characters and the background.
翻訳日:2023-05-09 23:59:40 公開日:2023-05-06
# コンセプトドリフト中の非定常検出と適応によるオンラインフェデレート学習

Online Federated Learning via Non-Stationary Detection and Adaptation amidst Concept Drift ( http://arxiv.org/abs/2211.12578v2 )

ライセンス: Link先を確認
Bhargav Ganguly and Vaneet Aggarwal(参考訳) フェデレーション学習(federated learning, fl)は、人工知能研究の幅広い文脈における新たな領域である。 flに関する方法論は、プライバシの懸念によるデータ共有の制限を伴う最適なグローバルモデルを達成することを目的として、クライアントとサーバの集合からなる分散モデルトレーニングを想定している。 このような仮定は、例えば季節的または周期的な観測によって、センサ測定の欠陥によって概念ドリフトが起こる現実の状況では非現実的である。 本稿では,近定常条件下での \textit{FedAvg} と \textit{FedOMD} のアルゴリズムの理論的保証と,概念ドリフトの存在下でのFL一般化性能を改善するための非定常検出および適応技術を組み合わせたマルチスケールアルゴリズムフレームワークを提案する。 我々は,$\tilde{\mathcal{o}} ( \min \{ \sqrt{lt} , \delta^{\frac{1}{3}}t^{\frac{2}{3}} + \sqrt{t} \})$ \textit{dynamic regret} for $t$ rounds with 基底となる一般凸損失関数を持つマルチスケールのアルゴリズムフレームワークを提案する。

Federated Learning (FL) is an emerging domain in the broader context of artificial intelligence research. Methodologies pertaining to FL assume distributed model training, consisting of a collection of clients and a server, with the main goal of achieving optimal global model with restrictions on data sharing due to privacy concerns. It is worth highlighting that the diverse existing literature in FL mostly assume stationary data generation processes; such an assumption is unrealistic in real-world conditions where concept drift occurs due to, for instance, seasonal or period observations, faults in sensor measurements. In this paper, we introduce a multiscale algorithmic framework which combines theoretical guarantees of \textit{FedAvg} and \textit{FedOMD} algorithms in near stationary settings with a non-stationary detection and adaptation technique to ameliorate FL generalization performance in the presence of concept drifts. We present a multi-scale algorithmic framework leading to $\Tilde{\mathcal{O}} ( \min \{ \sqrt{LT} , \Delta^{\frac{1}{3}}T^{\frac{2}{3}} + \sqrt{T} \})$ \textit{dynamic regret} for $T$ rounds with an underlying general convex loss function, where $L$ is the number of times non-stationary drifts occurred and $\Delta$ is the cumulative magnitude of drift experienced within $T$ rounds.
翻訳日:2023-05-09 23:59:12 公開日:2023-05-06
# マルチビュー圧縮表現を用いたロバスト低リソースファインチューニングに向けて

Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed Representations ( http://arxiv.org/abs/2211.08794v2 )

ライセンス: Link先を確認
Linlin Liu, Xingxuan Li, Megh Thakkar, Xin Li, Lidong Bing, Shafiq Joty, Luo Si(参考訳) 大量のパラメータのため、事前訓練された言語モデル(PLM)の微調整は、低リソースのシナリオで過度に適合する傾向がある。 そこで本研究では,PLMの隠れ表現に基づいてオーバーフィッティングを低減する手法を提案する。 微調整の際には, PLMの隠蔽層間にランダムなオートエンコーダを挿入し, 前の層からのアクティベーションをマルチビュー圧縮表現に変換して上層に供給する。 オートエンコーダは微調整後に接続されるので,提案手法ではパラメータの追加や推論時の計算コストの増大は行わない。 本手法は,多種多様なシーケンスおよびトークンレベルの低リソースnlpタスクにおいて有望な性能改善を示す。

Due to the huge amount of parameters, fine-tuning of pretrained language models (PLMs) is prone to overfitting in the low resource scenarios. In this work, we present a novel method that operates on the hidden representations of a PLM to reduce overfitting. During fine-tuning, our method inserts random autoencoders between the hidden layers of a PLM, which transform activations from the previous layers into a multi-view compressed representation before feeding it into the upper layers. The autoencoders are plugged out after fine-tuning, so our method does not add extra parameters or increase computation cost during inference. Our method demonstrates promising performance improvement across a wide range of sequence- and token-level low-resource NLP tasks.
翻訳日:2023-05-09 23:57:08 公開日:2023-05-06
# ガウス過程における混合カテゴリー相関核

A mixed-categorical correlation kernel for Gaussian process ( http://arxiv.org/abs/2211.08262v2 )

ライセンス: Link先を確認
P. Saves and Y. Diouane and N. Bartoli and T. Lefebvre and J. Morlier(参考訳) 近年,ガウス過程(gp)サロゲートに基づく混合分類メタモデルへの関心が高まっている。 この設定では、いくつかの既存のアプローチは、連続カーネル(例えば、連続緩和とガウワー距離に基づくGP)または相関行列の直接推定によって異なる戦略を使用する。 本稿では,連続指数型カーネルを拡張し,混合カテゴリ変数を扱うカーネルベースアプローチを提案する。 提案したカーネルは、連続緩和とゴーワー距離に基づくGPモデルの両方を一般化する新しいGPサロゲートを導く。 解析的および工学的問題の両方において、提案したGPモデルは、他のカーネルベースの最先端モデルよりも高い確率と残差誤差を与えることを示した。 本手法はオープンソースソフトウェアsmtで利用可能である。

Recently, there has been a growing interest for mixed-categorical meta-models based on Gaussian process (GP) surrogates. In this setting, several existing approaches use different strategies either by using continuous kernels (e.g., continuous relaxation and Gower distance based GP) or by using a direct estimation of the correlation matrix. In this paper, we present a kernel-based approach that extends continuous exponential kernels to handle mixed-categorical variables. The proposed kernel leads to a new GP surrogate that generalizes both the continuous relaxation and the Gower distance based GP models. We demonstrate, on both analytical and engineering problems, that our proposed GP model gives a higher likelihood and a smaller residual error than the other kernel-based state-of-the-art models. Our method is available in the open-source software SMT.
翻訳日:2023-05-09 23:56:54 公開日:2023-05-06
# Mask-FPAN:非閉塞とUV GANで野生の半監督された顔解析

Mask-FPAN: Semi-Supervised Face Parsing in the Wild With De-Occlusion and UV GAN ( http://arxiv.org/abs/2212.09098v4 )

ライセンス: Link先を確認
Lei Li, Tianfang Zhang, Zhongfeng Kang, Xikun Jiang(参考訳) 近年,顔部分や頭部成分を含む顔と頭部の微細なセマンティックセグメンテーションが進んでいる。 しかし、あいまいなオクルージョンや大きなポーズのバリエーションを考慮することは特に難しい課題である。 これらの課題を克服するため,我々はMask-FPANと呼ばれる新しいフレームワークを提案する。 隠蔽モジュールを使って、隠蔽された顔を半教師付きの方法で解析する。 特に、顔のランドマークの定位、顔のオクルージョンの定位、検出された頭部のポーズを考慮に入れる。 UV GANと組み合わせた3次元顔モデルにより、2次元顔解析の堅牢性が向上する。 さらに、顔解析作業用にFaceOccMask-HQとCelebAMaskOcc-HQという2つの新しいデータセットを導入しました。 提案したMask-FPANフレームワークは、顔解析の問題に対処し、挑戦的な顔データセットに関する最先端技術と比較して、MIOUを0.7353から0.9013に改善した。

Fine-grained semantic segmentation of a person's face and head, including facial parts and head components, has progressed a great deal in recent years. However, it remains a challenging task, whereby considering ambiguous occlusions and large pose variations are particularly difficult. To overcome these difficulties, we propose a novel framework termed Mask-FPAN. It uses a de-occlusion module that learns to parse occluded faces in a semi-supervised way. In particular, face landmark localization, face occlusionstimations, and detected head poses are taken into account. A 3D morphable face model combined with the UV GAN improves the robustness of 2D face parsing. In addition, we introduce two new datasets named FaceOccMask-HQ and CelebAMaskOcc-HQ for face paring work. The proposed Mask-FPAN framework addresses the face parsing problem in the wild and shows significant performance improvements with MIOU from 0.7353 to 0.9013 compared to the state-of-the-art on challenging face datasets.
翻訳日:2023-05-09 23:38:02 公開日:2023-05-06
# BKinD-3D:マルチビュービデオからの自己監督型3Dキーポイント発見

BKinD-3D: Self-Supervised 3D Keypoint Discovery from Multi-View Videos ( http://arxiv.org/abs/2212.07401v2 )

ライセンス: Link先を確認
Jennifer J. Sun, Lili Karashchuk, Amil Dravid, Serim Ryou, Sonia Fereidooni, John Tuthill, Aggelos Katsaggelos, Bingni W. Brunton, Georgia Gkioxari, Ann Kennedy, Yisong Yue, Pietro Perona(参考訳) 3Dでの動作の定量化は人間や他の動物の行動を研究する上で重要であるが、手動のポーズアノテーションは高価で入手に時間がかかる。 自己教師付きキーポイント発見はアノテーションなしで3Dポーズを推定するための有望な戦略である。 しかし、現在のキーポイント発見アプローチは一般的に単一の2Dビューを処理し、3D空間では動作しない。 2dまたは3dでキーポイントやバウンディングボックスの監督をすることなく、行動エージェントのマルチビュービデオから3dで自己教師付きキーポイント発見を行う新しい手法を提案する。 BKinD-3D法は,3次元熱マップを用いたエンコーダデコーダアーキテクチャを用いて,複数の視点における時空間差の再構成と,学習対象の3次元骨格の接合長の制約について検討した。 このようにして、人間やラットの動画を手動で監督することなくキーポイントを発見し、3次元キーポイント発見の可能性を示す。

Quantifying motion in 3D is important for studying the behavior of humans and other animals, but manual pose annotations are expensive and time-consuming to obtain. Self-supervised keypoint discovery is a promising strategy for estimating 3D poses without annotations. However, current keypoint discovery approaches commonly process single 2D views and do not operate in the 3D space. We propose a new method to perform self-supervised keypoint discovery in 3D from multi-view videos of behaving agents, without any keypoint or bounding box supervision in 2D or 3D. Our method, BKinD-3D, uses an encoder-decoder architecture with a 3D volumetric heatmap, trained to reconstruct spatiotemporal differences across multiple views, in addition to joint length constraints on a learned 3D skeleton of the subject. In this way, we discover keypoints without requiring manual supervision in videos of humans and rats, demonstrating the potential of 3D keypoint discovery for studying behavior.
翻訳日:2023-05-09 23:37:44 公開日:2023-05-06
# ストリーミングデータから進化するシステムの微分方程式のオンライン発見

Online discovering governing differential equations of evolving systems from streaming data ( http://arxiv.org/abs/2301.07863v2 )

ライセンス: Link先を確認
Yuanyuan Li, Kai Wu, Jing Liu(参考訳) 利用可能な観測から進化系の支配方程式を発見することは不可欠で難しい。 本稿では,ストリーミングデータから支配方程式を発見する新たなシナリオについて考察する。 現在の手法では、測定全体を考慮して微分方程式の制御を見つけるのに苦労し、このタスクを処理できなかった。 本稿では,データセット全体を処理するのではなく,ストリーミングデータをモデリングすることで,各サンプルを順次処理できるオンラインモデリング手法を提案する。 提案手法は,ストリーミングデータから常微分方程式 (ODE) と偏微分方程式 (PDE) の発見に有効である。 進化するシステムは時間とともに変化しており、システムの状態によって常に変化する。 したがって、正確な変化点を見つけることが重要である。 変更したシステムから生成された測定は前と異なって分布するので,提案手法により差を識別できる。 提案手法は,3つのハイブリッドシステムと2つの切替線形システムにおいて,変化点の同定と制御微分方程式の発見に競争力がある。

Discovering the governing equations of evolving systems from available observations is essential and challenging. In this paper, we consider a new scenario: discovering governing equations from streaming data. Current methods struggle to discover governing differential equations with considering measurements as a whole, leading to failure to handle this task. We propose an online modeling method capable of handling samples one by one sequentially by modeling streaming data instead of processing the entire dataset. The proposed method performs well in discovering ordinary differential equations (ODEs) and partial differential equations (PDEs) from streaming data. Evolving systems are changing over time, which invariably changes with system status. Thus, finding the exact change points is critical. The measurement generated from a changed system is distributed dissimilarly to before; hence, the difference can be identified by the proposed method. Our proposal is competitive in identifying the change points and discovering governing differential equations in three hybrid systems and two switching linear systems.
翻訳日:2023-05-09 23:30:26 公開日:2023-05-06
# RedMule: フレキシブルでエネルギー効率の良いオンチップ線形代数とTinyMLトレーニング加速のための混合精度マトリックス演算エンジン

RedMule: A Mixed-Precision Matrix-Matrix Operation Engine for Flexible and Energy-Efficient On-Chip Linear Algebra and TinyML Training Acceleration ( http://arxiv.org/abs/2301.03904v2 )

ライセンス: Link先を確認
Yvan Tortorella, Luca Bertaccini, Luca Benini, Davide Rossi, Francesco Conti(参考訳) TinyMLへの関心の高まり、すなわち数十mWの電力予算に対するニアセンサー機械学習は、現在推論のみではなく、TinyMLクラスのトレーニングの実現を目指している。 現在のトレーニングアルゴリズムは、様々な形式の誤りと勾配バックプロパゲーションに基づいており、精度とダイナミックレンジ要件を満たすために浮動小数点行列演算に依存している。 これまでのところ、これらのオペレーションのエネルギーと電力コストはTinyMLのシナリオでは高すぎると考えられてきた。 本稿では,いくつかのmwパワー予算における近距離センサトレーニングのオープン課題に対処し,マルチ精度浮動小数点一般行列行列演算(gemm-ops)のための低消費電力専用加速器であるredmule - reduced-precision matrix multiplication engine(redmule - reduced-precision matrix multiplication engine)を提案する。 我々はRedMuleを8つのエネルギー効率の高いRISC-Vコアを含むParallel Ultra-Low-Power(PULP)クラスタに統合し、密結合したデータメモリを共用し、22nmで実装した。 GEMM(General Matrix Multiplication)において、RedMulEで強化されたPULPクラスタは755 GFLOPS/Wと920 GFLOPS/Wを達成し、GEMM-Opsの実行時にそれぞれ1.19 TFLOPS/Wと1.67 TFLOPS/Wを達成している。 613MHz、0.8Vの最高のパフォーマンスポイントにおいて、RedMulEはFP16とFP8の最大58.5GFLOPSと117GFLOPSをそれぞれ達成し、計算要素の配列を99.4%利用し、平均60mW未満を消費している。

The increasing interest in TinyML, i.e., near-sensor machine learning on power budgets of a few tens of mW, is currently pushing toward enabling TinyML-class training as opposed to inference only. Current training algorithms, based on various forms of error and gradient backpropagation, rely on floating-point matrix operations to meet the precision and dynamic range requirements. So far, the energy and power cost of these operations has been considered too high for TinyML scenarios. This paper addresses the open challenge of near-sensor training on a few mW power budget and presents RedMulE - Reduced-Precision Matrix Multiplication Engine, a low-power specialized accelerator conceived for multi-precision floating-point General Matrix-Matrix Operations (GEMM-Ops) acceleration, supporting FP16, as well as hybrid FP8 formats, with {sign, exponent, mantissa}=({1,4,3}, {1,5,2}). We integrate RedMule into a Parallel Ultra-Low-Power (PULP) cluster containing eight energy-efficient RISC-V cores sharing a tightly-coupled data memory and implement the resulting system in a 22 nm technology. At its best efficiency point (@ 470 MHz, 0.65 V), the RedMulE-augmented PULP cluster achieves 755 GFLOPS/W and 920 GFLOPS/W during regular General Matrix-Matrix Multiplication (GEMM), and up to 1.19 TFLOPS/W and 1.67 TFLOPS/W when executing GEMM-Ops, respectively, for FP16 and FP8 input/output tensors. In its best performance point (@ 613 MHz, 0.8 V), RedMulE achieves up to 58.5 GFLOPS and 117 GFLOPS for FP16 and FP8, respectively, with 99.4% utilization of the array of Computing Elements and consuming less than 60 mW on average, thus enabling on-device training of deep learning models in TinyML application scenarios while retaining the flexibility to tackle other classes of common linear algebra problems efficiently.
翻訳日:2023-05-09 23:29:14 公開日:2023-05-06
# ALCAP:アライメント強化音楽キャプタ

ALCAP: Alignment-Augmented Music Captioner ( http://arxiv.org/abs/2212.10901v2 )

ライセンス: Link先を確認
Zihao He, Weituo Hao, Wei-Tsung Lu, Changyou Chen, Kristina Lerman, Xuchen Song(参考訳) 音楽検索とレコメンデーションのためのストリーミングメディアプラットフォームの人気が高まり、歌詞とオーディオの両方を考慮した音楽解釈のための新しい方法が求められている。 しかし、以前の多くの研究は、音声と歌詞の対応の潜在的な利点を無視して、音楽とキャプショントークンをマッピングするエンコーダ・デコーダアーキテクチャの個々のコンポーネントの精製に重点を置いていた。 本稿では,コントラスト学習によるマルチモーダルアライメントを明示的に学習することを提案する。 音声と歌詞の対応を学習することで、モデルはより優れた相互整合性を学び、高品質なキャプションを生成する。 提案手法の利点を実証した理論的および実証的な結果と、2つの音楽キャプションデータセットの新たな最先端化を実現する。

Growing popularity of streaming media platforms for music search and recommendations has led to a need for novel methods for interpreting music that take into account both lyrics and audio. However, many previous works focus on refining individual components of encoder-decoder architecture that maps music to caption tokens, ignoring the potential benefits of correspondence between audio and lyrics. In this paper, we propose to explicitly learn the multimodal alignment through contrastive learning. By learning audio-lyrics correspondence, the model is guided to learn better cross-modal consistency, thus generating high-quality captions. We provide both theoretical and empirical results demonstrating the advantage of the proposed method, and achieve new state-of-the-art on two music captioning datasets.
翻訳日:2023-05-09 23:27:24 公開日:2023-05-06
# グラフ骨格のない組合せ因果帯域

Combinatorial Causal Bandits without Graph Skeleton ( http://arxiv.org/abs/2301.13392v2 )

ライセンス: Link先を確認
Shi Feng, Nuoya Xiong, Wei Chen(参考訳) 組み合わせ因果帯域(CCB)において、学習エージェントは各ラウンドの変数のサブセットを選択して介入し、観測された変数からフィードバックを収集し、期待される後悔やサンプルの複雑さを最小限に抑える。 従来の研究は、一般因果モデルとバイナリ一般化線形モデル(BGLM)の両方でこの問題を研究する。 しかし、それら全ては因果グラフ構造の事前知識を必要とする。 本稿では,二元一般因果モデルとBGLMのグラフ構造を持たないCCB問題を考察する。 まず、一般的な因果モデルにおけるCCB問題に対する累積的後悔の指数的下限を提供する。 指数関数的に大きなパラメータ空間を克服するために、BGLM 上の CCB 問題を考える。 グラフスケルトンがなくても,BGLMに対する後悔最小化アルゴリズムを設計し,O(\sqrt{T}\ln T)$期待の後悔を実現することを示す。 この漸近的後悔は、グラフ構造に依存する最先端のアルゴリズムと同じである。 さらに、漸近的表記法でカバーされる重量ギャップを取り除くために、$O(T^{\frac{2}{3}}\ln T)$に対する後悔を犠牲にする。 最後に,グラフ構造を使わずにCCB問題を純粋に探索するための議論とアルゴリズムについて述べる。

In combinatorial causal bandits (CCB), the learning agent chooses a subset of variables in each round to intervene and collects feedback from the observed variables to minimize expected regret or sample complexity. Previous works study this problem in both general causal models and binary generalized linear models (BGLMs). However, all of them require prior knowledge of causal graph structure. This paper studies the CCB problem without the graph structure on binary general causal models and BGLMs. We first provide an exponential lower bound of cumulative regrets for the CCB problem on general causal models. To overcome the exponentially large space of parameters, we then consider the CCB problem on BGLMs. We design a regret minimization algorithm for BGLMs even without the graph skeleton and show that it still achieves $O(\sqrt{T}\ln T)$ expected regret. This asymptotic regret is the same as the state-of-art algorithms relying on the graph structure. Moreover, we sacrifice the regret to $O(T^{\frac{2}{3}}\ln T)$ to remove the weight gap covered by the asymptotic notation. At last, we give some discussions and algorithms for pure exploration of the CCB problem without the graph structure.
翻訳日:2023-05-09 23:20:08 公開日:2023-05-06
# 圧電材料の疎ヒステリシスモデルの発見

Discovering sparse hysteresis models for piezoelectric materials ( http://arxiv.org/abs/2302.05313v4 )

ライセンス: Link先を確認
Abhishek Chandra, Bram Daniels, Mitrofan Curti, Koen Tiels, Elena A. Lomonova and Daniel M. Tartakovsky(参考訳) 本稿では,近年の機械学習,特にスパース回帰技術を活用した圧電材料におけるヒステリシスのモデル化手法を提案する。 スパース回帰は、以前は様々な科学的・工学的現象のモデル化に用いられてきたが、圧電材料における非線形ヒステリシスモデリングへの応用はまだ検討されていない。 本研究は, ヒステリシスの原因となる力学系を逐次しきい値付き最小二乗法を用いてモデル化し, シミュレーションと実験の両方の圧電材料データに対するヒステリシスを正確に予測する簡潔なモデルを構築した。 蝶型ヒステリシスの学習や圧電アクチュエータの実世界のヒステリシスデータのモデル化など,いくつかの数値実験が行われた。 提案手法は,従来の回帰型およびニューラルネットワーク法と比較し,その効率性と頑健性を示す。 ソースコードはhttps://github.com/chandratue/SmartHysteresisで入手できる。

This article presents an approach for modelling hysteresis in piezoelectric materials, that leverages recent advancements in machine learning, particularly in sparse-regression techniques. While sparse regression has previously been used to model various scientific and engineering phenomena, its application to nonlinear hysteresis modelling in piezoelectric materials has yet to be explored. The study employs the least-squares algorithm with a sequential threshold to model the dynamic system responsible for hysteresis, resulting in a concise model that accurately predicts hysteresis for both simulated and experimental piezoelectric material data. Several numerical experiments are performed, including learning butterfly-shaped hysteresis and modelling real-world hysteresis data for a piezoelectric actuator. The presented approach is compared to traditional regression-based and neural network methods, demonstrating its efficiency and robustness. Source code is available at https://github.com/chandratue/SmartHysteresis
翻訳日:2023-05-09 23:10:52 公開日:2023-05-06
# データ中心機械学習のための再ラベル法

The Re-Label Method For Data-Centric Machine Learning ( http://arxiv.org/abs/2302.04391v2 )

ライセンス: Link先を確認
Tong Guo(参考訳) 業界深層学習アプリケーションでは、手作業でラベル付けしたデータは、一定の数のノイズデータを持っています。 この問題を解決し、開発データセットで90以上のスコアを達成するために、人間のラベル付けにおける参照としてモデル予測を考慮し、ノイズデータを見つけ、ノイズデータを再ラベルする簡単な方法を提案する。 本稿では,分類,シーケンスタグ付け,オブジェクト検出,シーケンス生成,クリックスルー率予測など,幅広いディープラーニングタスクのセットについて述べる。 実験結果と人体評価結果は,我々の考えを検証する。

In industry deep learning application, our manually labeled data has a certain number of noisy data. To solve this problem and achieve more than 90 score in dev dataset, we present a simple method to find the noisy data and re-label the noisy data by human, given the model predictions as references in human labeling. In this paper, we illustrate our idea for a broad set of deep learning tasks, includes classification, sequence tagging, object detection, sequence generation, click-through rate prediction. The experimental results and human evaluation results verify our idea.
翻訳日:2023-05-09 23:10:21 公開日:2023-05-06
# 一階論理の2変数フラッグメントにおける特殊サンプリングについて

On Exact Sampling in the Two-Variable Fragment of First-Order Logic ( http://arxiv.org/abs/2302.02730v2 )

ライセンス: Link先を確認
Yuanhong Wang, Juhua Pu, Yuyi Wang, and Ond\v{r}ej Ku\v{z}elka(参考訳) 本稿では、wangらによって最近提案された一階述語論理のサンプリング問題について述べる。 -- 有限領域上の与えられた一階文のモデルを効率的にサンプルする方法? 2変数論理 $\mathbf{FO}^2$$$\mathbf{UFO}^2$) の普遍的に定式化された部分集合に対して、それらの結果を $\mathbf{FO}^2$ の断片に拡張する。 具体的には、$\mathbf{FO}^2$のサンプリングにより、ドメインサイズの時間多項式で実行される$\mathbf{FO}^2$のサンプリングアルゴリズムが存在することを証明する。 さらに、この結果は、例えば$\forall x\exists_{=k} y: \varphi(x,y)$ and $\exists_{=k} x\forall y: \varphi(x,y)$, for some Quantifier-free formula $\varphi(x,y)$ のような数え上げ制約の存在下でも持続することを示す。 提案手法は構成的であり,結果として得られるサンプリングアルゴリズムは,マルコフ論理ネットワークや確率論理プログラムなどの統計関係モデルにおけるコンビネート構造の一様生成やサンプリングなど,様々な分野において潜在的に応用できる。

In this paper, we study the sampling problem for first-order logic proposed recently by Wang et al. -- how to efficiently sample a model of a given first-order sentence on a finite domain? We extend their result for the universally-quantified subfragment of two-variable logic $\mathbf{FO}^2$ ($\mathbf{UFO}^2$) to the entire fragment of $\mathbf{FO}^2$. Specifically, we prove the domain-liftability under sampling of $\mathbf{FO}^2$, meaning that there exists a sampling algorithm for $\mathbf{FO}^2$ that runs in time polynomial in the domain size. We then further show that this result continues to hold even in the presence of counting constraints, such as $\forall x\exists_{=k} y: \varphi(x,y)$ and $\exists_{=k} x\forall y: \varphi(x,y)$, for some quantifier-free formula $\varphi(x,y)$. Our proposed method is constructive, and the resulting sampling algorithms have potential applications in various areas, including the uniform generation of combinatorial structures and sampling in statistical-relational models such as Markov logic networks and probabilistic logic programs.
翻訳日:2023-05-09 23:10:12 公開日:2023-05-06
# ジャマー耐性周波数とパワーアロケーションのための深層強化学習の一般化

Generalization of Deep Reinforcement Learning for Jammer-Resilient Frequency and Power Allocation ( http://arxiv.org/abs/2302.02250v2 )

ライセンス: Link先を確認
Swatantra Kafle, Jithin Jagannath, Zackary Kane, Noor Biswas, Prem Sagar Vasanth Kumar, Anu Jagannath(参考訳) 我々は,深層強化学習モデルの一般化能力を強調しつつ,結合周波数と電力配分の問題に取り組む。 既存の手法の多くは、事前決定された無線ネットワークシナリオの強化学習ベースのワイヤレス問題を解決する。 訓練されたエージェントのパフォーマンスはネットワークに非常に特有であり、異なるネットワーク運用シナリオ(例えば、サイズ、周辺、移動性など)で使用されると劣化する傾向がある。 本稿では,分散マルチエージェント環境におけるデプロイモデルの推論において,より高度な一般化機能を実現するためのトレーニング強化手法を提案する。 これらの結果から,従来は見つからなかった異なるサイズとアーキテクチャの無線ネットワーク上で,提案手法のトレーニングと推論性能が向上したことを示す。 さらに重要なことは、実用的な影響を証明するために、組込みソフトウェア定義無線にエンドツーエンドのソリューションを実装し、オーバー・ザ・エア評価を用いて検証したことである。

We tackle the problem of joint frequency and power allocation while emphasizing the generalization capability of a deep reinforcement learning model. Most of the existing methods solve reinforcement learning-based wireless problems for a specific pre-determined wireless network scenario. The performance of a trained agent tends to be very specific to the network and deteriorates when used in a different network operating scenario (e.g., different in size, neighborhood, and mobility, among others). We demonstrate our approach to enhance training to enable a higher generalization capability during inference of the deployed model in a distributed multi-agent setting in a hostile jamming environment. With all these, we show the improved training and inference performance of the proposed methods when tested on previously unseen simulated wireless networks of different sizes and architectures. More importantly, to prove practical impact, the end-to-end solution was implemented on the embedded software-defined radio and validated using over-the-air evaluation.
翻訳日:2023-05-09 23:09:07 公開日:2023-05-06
# コントラスト表現アンサンブルによるマルチモーダルフェデレーション学習

Multimodal Federated Learning via Contrastive Representation Ensemble ( http://arxiv.org/abs/2302.08888v3 )

ライセンス: Link先を確認
Qiying Yu, Yang Liu, Yimu Wang, Ke Xu, Jingjing Liu(参考訳) 現代のモバイルシステムやIoTインフラストラクチャ上のマルチメディアデータの増加に伴い、ユーザのプライバシを侵害することなく、これらのリッチなマルチモーダルデータを活用することが重要な問題となっている。 フェデレーテッド・ラーニング(FL)は、集中型機械学習に代わるプライバシ意識の代替手段として機能する。 しかし、マルチモーダルデータに拡張された既存のflメソッドはすべて単一のモダリティレベルでのモデルアグリゲーションに依存しているため、サーバとクライアントはそれぞれのモダリティに対して同一のモデルアーキテクチャを持つことができる。 これは、タスクの多様性を言うまでもなく、モデルの複雑さとデータ容量の両方の観点から、グローバルモデルを制限する。 本研究では,マルチモーダルFL(CreamFL)のためのコントラシティブ表現アンサンブルとアグリゲーションを提案する。CreamFLは,異種モデルアーキテクチャとデータモダリティを持つクライアントから大規模サーバモデルをトレーニングし,公開データセット上でのみ知識を伝達するマルチモーダル・フェデレート学習フレームワークである。 より優れたマルチモーダル表現融合を実現するため,クライアント表現を集約するグローバルなマルチモーダルアンサンブル戦略を設計する。 マルチモーダルな不一致(モダリティギャップとタスクギャップ)から生じる2つの前例のない不均一な要因による局所モデルドリフトを軽減するため,一様でないクライアントのモダリティに関する情報を補完し,グローバルなコンセンサスに向かってローカルクライアントを正規化する2つのモーダル・イン・モーダルコントラストを提案する。 画像テキスト検索と視覚的質問応答タスクの詳細な評価とアブレーション研究は、最先端のFL法よりもCreamFLの方が優れていることを示す。

With the increasing amount of multimedia data on modern mobile systems and IoT infrastructures, harnessing these rich multimodal data without breaching user privacy becomes a critical issue. Federated learning (FL) serves as a privacy-conscious alternative to centralized machine learning. However, existing FL methods extended to multimodal data all rely on model aggregation on single modality level, which restrains the server and clients to have identical model architecture for each modality. This limits the global model in terms of both model complexity and data capacity, not to mention task diversity. In this work, we propose Contrastive Representation Ensemble and Aggregation for Multimodal FL (CreamFL), a multimodal federated learning framework that enables training larger server models from clients with heterogeneous model architectures and data modalities, while only communicating knowledge on public dataset. To achieve better multimodal representation fusion, we design a global-local cross-modal ensemble strategy to aggregate client representations. To mitigate local model drift caused by two unprecedented heterogeneous factors stemming from multimodal discrepancy (modality gap and task gap), we further propose two inter-modal and intra-modal contrasts to regularize local training, which complements information of the absent modality for uni-modal clients and regularizes local clients to head towards global consensus. Thorough evaluations and ablation studies on image-text retrieval and visual question answering tasks showcase the superiority of CreamFL over state-of-the-art FL methods and its practical value.
翻訳日:2023-05-09 23:01:33 公開日:2023-05-06
# mover:deepfakeビデオ検出のためのマスクとリカバリに基づく顔部一貫性認識法

Mover: Mask and Recovery based Facial Part Consistency Aware Method for Deepfake Video Detection ( http://arxiv.org/abs/2303.01740v2 )

ライセンス: Link先を確認
Juan Hu, Xin Liao, Difei Gao, Satoshi Tsutsui, Qian Wang, Zheng Qin, Mike Zheng Shou(参考訳) ディープフェイク技術は悪質な目的で広く使われており、ディープフェイク検出法の開発に広範な研究が進められている。 ディープフェイクの操作は通常、顔の部分の改ざんを伴い、顔のさまざまな部分に不整合をもたらす。 例えば、Deepfakeのテクニックは、笑顔の唇を動揺した唇に変えるが、目は笑顔のままである。 既存の検出方法は偽造の特定の指標に依存しており、偽造パターンが改善されると消滅する傾向がある。 この制限に対処するため、Deepfakeビデオの必然的弱点である非特異な顔部分の不整合を利用した新しいDeepfake検出モデルであるMoverを提案する。 Moverは、興味のある領域(ROI)をランダムにマスクし、顔の回復を非特異的な特徴として学習する。 具体的には,まずマスク付きオートエンコーダを事前訓練し,顔を3つの部分に分割し,無作為にマスクしたROIをランダムにマスクすることで顔部分の一貫性を学習する。 さらに,実映像と偽映像の差異を最大化するために,プリトレーニングエンコーダとマスク付きオートエンコーダを用いたデュアルネットワークを用いた新しいモデルを提案する。 1)予め訓練したエンコーダは、所定のビデオ内の一貫性のない情報のエンコーダをキャプチャするために微調整される。 2) マスク付きオートエンコーダは, 顔のマッピングや, 実写映像と偽映像の区別に利用される。 標準ベンチマークに関する広範な実験は、Moverが極めて効果的であることを示している。

Deepfake techniques have been widely used for malicious purposes, prompting extensive research interest in developing Deepfake detection methods. Deepfake manipulations typically involve tampering with facial parts, which can result in inconsistencies across different parts of the face. For instance, Deepfake techniques may change smiling lips to an upset lip, while the eyes remain smiling. Existing detection methods depend on specific indicators of forgery, which tend to disappear as the forgery patterns are improved. To address the limitation, we propose Mover, a new Deepfake detection model that exploits unspecific facial part inconsistencies, which are inevitable weaknesses of Deepfake videos. Mover randomly masks regions of interest (ROIs) and recovers faces to learn unspecific features, which makes it difficult for fake faces to be recovered, while real faces can be easily recovered. Specifically, given a real face image, we first pretrain a masked autoencoder to learn facial part consistency by dividing faces into three parts and randomly masking ROIs, which are then recovered based on the unmasked facial parts. Furthermore, to maximize the discrepancy between real and fake videos, we propose a novel model with dual networks that utilize the pretrained encoder and masked autoencoder, respectively. 1) The pretrained encoder is finetuned for capturing the encoding of inconsistent information in the given video. 2) The pretrained masked autoencoder is utilized for mapping faces and distinguishing real and fake videos. Our extensive experiments on standard benchmarks demonstrate that Mover is highly effective.
翻訳日:2023-05-09 22:52:28 公開日:2023-05-06
# ピンニング制御を用いたステアリンググラフニューラルネットワーク

Steering Graph Neural Networks with Pinning Control ( http://arxiv.org/abs/2303.01265v2 )

ライセンス: Link先を確認
Acong Zhang, Ping Li, Guanrong Chen(参考訳) ラベル付きデータがほとんど制限されている半教師付き環境では、グラフ上に不連続に分散された同じクラスラベルを持つノードの特徴表現を学習することは、メッセージパッシングベースのグラフニューラルネットワーク(GNN)にとって大きな課題である。 不連続な情報伝達問題を解決するために,ラベル付きデータのプロトタイプ(クラスセンター)を活用することで表現学習を監督する制御原理を提案する。 グラフ学習を離散的動的プロセスとして、ラベル付きデータのプロトタイプを「望ましい」クラス表現として扱うことで、自動制御理論から特徴学習プロセスのための学習フィードバックコントローラの設計へのピンニング制御のアイデアを借用し、各ラウンドにおけるメッセージパッシング派生特徴とクラスプロトタイプの違いを最小化して、クラス関連特徴を生成する。 具体的には、各ラウンドで各ノードに最適なコントローラを装備し、ノードとクラスプロトタイプ間のマッチング関係を学習し、強いヘテロフィリーを持つグラフ内の非互換な隣人からの集約情報を修正できるようにする。 実験により,提案したPCGCNモデルは,グラフがラベルが少なく,強いヘテロフィリーを持つ場合に,深いGNNや他の競合するヘテロフィリー指向手法よりも優れた性能が得られることが示された。

In the semi-supervised setting where labeled data are largely limited, it remains to be a big challenge for message passing based graph neural networks (GNNs) to learn feature representations for the nodes with the same class label that is distributed discontinuously over the graph. To resolve the discontinuous information transmission problem, we propose a control principle to supervise representation learning by leveraging the prototypes (i.e., class centers) of labeled data. Treating graph learning as a discrete dynamic process and the prototypes of labeled data as "desired" class representations, we borrow the pinning control idea from automatic control theory to design learning feedback controllers for the feature learning process, attempting to minimize the differences between message passing derived features and the class prototypes in every round so as to generate class-relevant features. Specifically, we equip every node with an optimal controller in each round through learning the matching relationships between nodes and the class prototypes, enabling nodes to rectify the aggregated information from incompatible neighbors in a graph with strong heterophily. Our experiments demonstrate that the proposed PCGCN model achieves better performances than deep GNNs and other competitive heterophily-oriented methods, especially when the graph has very few labels and strong heterophily.
翻訳日:2023-05-09 22:51:06 公開日:2023-05-06
# auto.gov: 分散金融(defi)のための学習に基づくオンチェーンガバナンス

Auto.gov: Learning-based On-chain Governance for Decentralized Finance (DeFi) ( http://arxiv.org/abs/2302.09551v2 )

ライセンス: Link先を確認
Jiahua Xu, Daniel Perez, Yebo Feng, Benjamin Livshits(参考訳) 近年、分散型金融(DeFi)は著しい成長を遂げており、貸し出しプロトコルや自動市場メーカ(AMM)など様々なプロトコルが出現している。 従来、これらのプロトコルはオフチェーンガバナンスを採用しており、トークンホルダがパラメータの変更を投票する。 しかしながら、プロトコルのコアチームがしばしば行う手動パラメータ調整は、システムの完全性とセキュリティを損なうことなく、衝突に対して脆弱である。 さらに、純粋に決定論的でアルゴリズムに基づくアプローチは、プロトコルを新たなエクスプロイトや攻撃にさらす可能性がある。 本稿では,セキュリティを強化し,攻撃感受性を低下させるdefiのための学習ベースのオンチェーンガバナンスフレームワーク"auto.gov"を提案する。 本モデルでは,ディープq-ネットワーク(dqn)強化学習手法を用いて,半自動的で直感的なガバナンス提案を定量的に提案する。 この手法は、ベンチマークモデルよりも効果的に、価格やオラクル攻撃のような悪意ある行動のネガティブな影響を効果的に適応し、緩和することを可能にする。 我々の評価は、Auto.govが既存の手動プロセスと比較してより反応性が高く、客観的で、効率的で、レジリエントなソリューションを提供し、それによってセキュリティを大幅に強化し、最終的にはDeFiプロトコルの利益性を高めます。

In recent years, decentralized finance (DeFi) has experienced remarkable growth, with various protocols such as lending protocols and automated market makers (AMMs) emerging. Traditionally, these protocols employ off-chain governance, where token holders vote to modify parameters. However, manual parameter adjustment, often conducted by the protocol's core team, is vulnerable to collusion, compromising the integrity and security of the system. Furthermore, purely deterministic, algorithm-based approaches may expose the protocol to novel exploits and attacks. In this paper, we present "Auto.gov", a learning-based on-chain governance framework for DeFi that enhances security and reduces susceptibility to attacks. Our model leverages a deep Q- network (DQN) reinforcement learning approach to propose semi-automated, intuitive governance proposals with quantitative justifications. This methodology enables the system to efficiently adapt to and mitigate the negative impact of malicious behaviors, such as price oracle attacks, more effectively than benchmark models. Our evaluation demonstrates that Auto.gov offers a more reactive, objective, efficient, and resilient solution compared to existing manual processes, thereby significantly bolstering the security and, ultimately, enhancing the profitability of DeFi protocols.
翻訳日:2023-05-09 22:49:24 公開日:2023-05-06
# 細粒度多モード事前学習のための精細ビジョンランゲージモデリング

Refined Vision-Language Modeling for Fine-grained Multi-modal Pre-training ( http://arxiv.org/abs/2303.05313v2 )

ライセンス: Link先を確認
Lisai Zhang, Qingcai Chen, Zhijian Chen, Yunpeng Han, Zhonghua Li, Zhao Cao(参考訳) オブジェクトアノテーションに基づくきめ細かい監督はビジョンと言語事前学習(vlp)に広く使われている。 しかしながら、現実世界のアプリケーションシナリオでは、アライメントされたマルチモーダルデータは、通常はイメージキャプチャフォーマットであり、粒度の粗い監視のみを提供する。 さまざまなシナリオに対するオブジェクトアノテーションの収集とオブジェクトアノテーションの事前抽出を行うのは、コストの増大だけでなく、コンピュート・コンピュート・エクスセンティブでもある。 本稿では,言語学的視点からオブジェクトアノテーションを含まない細粒度のVLPスキームを提案する。 まず,トークンレベルの監視を行うために,同義語文書き換え(HSR)アルゴリズムを提案する。 このアルゴリズムは、字幕の動詞/名詞/形容詞/量子化語をWordNetの同義語に置き換える。 これに対応して,トークンレベルの監視を生かした改良型視覚言語モデリング(RVLM)フレームワークを提案する。 細粒度アライメントを学ぶために,改良された3つのタスク,すなわちrefineed image-text contrastive (ritc)、refineed image-text matching (ritm)、replace language modeling (rlm)が提案されている。 複数の下流タスクに関する広範囲な実験により,提案手法の優れた性能が示された。

Fine-grained supervision based on object annotations has been widely used for vision and language pre-training (VLP). However, in real-world application scenarios, aligned multi-modal data is usually in the image-caption format, which only provides coarse-grained supervision. It is not only cost-expensive but also compute-expensive to collect object annotations and build object annotation pre-extractor for different scenarios. In this paper, we propose a fine-grained VLP scheme without object annotations from the linguistic perspective. First, we propose a homonym sentence rewriting (HSR) algorithm to provide token-level supervision. The algorithm replaces a verb/noun/adjective/quantifier word of the caption with its homonyms from WordNet. Correspondingly, we propose refined vision-language modeling (RVLM) framework to exploit the token-level supervision. Three refined tasks, i.e., refined image-text contrastive (RITC), refined image-text matching (RITM), and replace language modeling (RLM) are proposed to learn the fine-grained alignment. Extensive experiments on several downstream tasks demonstrate the superior performance of the proposed method.
翻訳日:2023-05-09 21:04:33 公開日:2023-05-06
# 対話生成のための階層的行動探索型深層rl

Deep RL with Hierarchical Action Exploration for Dialogue Generation ( http://arxiv.org/abs/2303.13465v2 )

ライセンス: Link先を確認
Itsugun Cho, Ryota Takahashi, Yusaku Yanase, Hiroaki Saito(参考訳) 伝統的に、自然言語のアクション空間が広大なため、アクションサンプリングによるグリージーポリシーの改善と対話生成に近似動的プログラミングが用いられている。 しかし、このプラクティスは、高いアクション値を持つ応答の空間性のため、強化学習(RL)では非効率であり、ランダムサンプリングによって改善が持続する。 本稿では,対話政策の性能がサンプリングサイズと正の相関を示す理論的解析と実験を行う。 この制限を緩和するために、サンプリングプロセスに介入する最も有望な応答圏を探索する新しい双粒度q関数を導入する。 当社のアプローチは,粒度階層に基づいたアクションを抽出し,少ないポリシーイテレーションで最適な結果を得る。 さらに、オフラインRLを用いて、人間のインタラクションにおける感情的ニュアンスを捉えるために設計された複数の報酬関数から学習する。 実験的な研究により、我々のアルゴリズムは自動測定と人的評価でベースラインを上回ります。 さらなるテストでは、期待される報酬とコントロール可能性の高いレスポンスが生成される。

Traditionally, approximate dynamic programming is employed in dialogue generation with greedy policy improvement through action sampling, as the natural language action space is vast. However, this practice is inefficient for reinforcement learning (RL) due to the sparsity of eligible responses with high action values, which leads to weak improvement sustained by random sampling. This paper presents theoretical analysis and experiments showing that the dialogue policy's performance is positively correlated with the sampling size. To alleviate this limitation, we introduce a novel dual-granularity Q-function that explores the most promising response category to intervene in the sampling process. Our approach extracts actions based on a grained hierarchy, achieving the optimum with fewer policy iterations. Additionally, we use offline RL and learn from multiple reward functions designed to capture emotional nuances in human interactions. Empirical studies demonstrate that our algorithm outperforms baselines across automatic metrics and human evaluations. Further testing reveals that ours generates responses with higher expected rewards and controllability.
翻訳日:2023-05-09 20:56:45 公開日:2023-05-06
# 分割定数近似を超える形状パルスのシミュレーションと設計

Simulation and design of shaped pulses beyond the piecewise-constant approximation ( http://arxiv.org/abs/2303.09458v4 )

ライセンス: Link先を確認
Uluk Rasulov, Anupama Acharya, Marina Carravetta, Guinevere Mathies, Ilya Kuprov(参考訳) 共振回路の応答関数は、入力が急速に変化するとリングアーティファクトを生成する。 電磁分光学の物理的限界を探索すると、2種類の問題が発生する。 まず、シミュレーション: システムは応答のトランジェントごとに正確に伝達されなければならず、計算コストがかかる。 第二に、最適制御:回路応答を考慮に入れなければならない;そのような歪みに耐性のあるパルスを設計することが有利である。 両問題の根源は回転するフレームの制御シーケンスに対する一般的な分割定数近似であり、磁気共鳴では初期から持続し、市販のハードウェアに絡み付いている。 本稿では,スムーズな制御シーケンスを効率的にシミュレートし最適化できる最近のリー群法の実装とベンチマークについて報告する。

Response functions of resonant circuits create ringing artefacts if their input changes rapidly. When physical limits of electromagnetic spectroscopies are explored, this creates two types of problems. Firstly, simulation: the system must be propagated accurately through every response transient, this may be computationally expensive. Secondly, optimal control: circuit response must be taken into account; it may be advantageous to design pulses that are resilient to such distortions. At the root of both problems is the popular piecewise-constant approximation for control sequences in the rotating frame; in magnetic resonance it has persisted since the earliest days and has become entrenched in the commercially available hardware. In this paper, we report an implementation and benchmarks of recent Lie-group methods that can efficiently simulate and optimise smooth control sequences.
翻訳日:2023-05-09 20:55:32 公開日:2023-05-06
# BotTriNet:メトリック学習によるソーシャルボット検出のための統一的で効率的な埋め込み

BotTriNet: A Unified and Efficient Embedding for Social Bots Detection via Metric Learning ( http://arxiv.org/abs/2304.03144v4 )

ライセンス: Link先を確認
Jun Wu, Xuesong Ye, and Yanyuet Man(参考訳) オンラインソーシャルネットワークにおけるボットアカウントの迅速かつ正確な識別は、現在進行中の課題である。 本稿では,BOTTRINETを提案する。BOTTRINETは,アカウントが投稿したテキストコンテンツを利用してボットを検出する統合組込みフレームワークである。 我々のアプローチは、アカウントの個性と習慣がコンテキストコンテンツを通して明らかにできるという前提に基づいている。 そこで我々は,計量学習技術を用いて生の埋め込みを改良する三重項ネットワークを設計した。 BOTTRINETフレームワークは,3つのボットアカウントカテゴリと5つのボットサンプルセットからなる実世界のデータセットであるCRESCI2017を用いて,単語,文,アカウントの埋め込みを生成する。 本手法は,2つのコンテンツ集約型ボットセットに対して,平均精度98.34%,f1スコア97.99%の最先端性能を実現する。 さらに、4つのコンテンツレスボットセットにおいて,平均精度が11.52%,平均f1scoreが16.70%向上し,大きなブレークスルーを達成した。 まず,ボット検出のための各種組込みを組み合わせた統一的かつ効果的なフレームワークを提案する。 第2に,この文脈でメトリクス学習手法を適用し,生の埋め込みを洗練し,分類性能を向上させることを実証する。 当社のアプローチは従来よりも優れており,ソーシャルネットワークにおけるボット検出の新たな標準となっている。

The rapid and accurate identification of bot accounts in online social networks is an ongoing challenge. In this paper, we propose BOTTRINET, a unified embedding framework that leverages the textual content posted by accounts to detect bots. Our approach is based on the premise that account personalities and habits can be revealed through their contextual content. To achieve this, we designed a triplet network that refines raw embeddings using metric learning techniques. The BOTTRINET framework produces word, sentence, and account embeddings, which we evaluate on a real-world dataset, CRESCI2017, consisting of three bot account categories and five bot sample sets. Our approach achieves state-of-the-art performance on two content-intensive bot sets, with an average accuracy of 98.34% and f1score of 97.99%. Moreover, our method makes a significant breakthrough on four content-less bot sets, with an average accuracy improvement of 11.52% and an average f1score increase of 16.70%. Our contribution is twofold: First, we propose a unified and effective framework that combines various embeddings for bot detection. Second, we demonstrate that metric learning techniques can be applied in this context to refine raw embeddings and improve classification performance. Our approach outperforms prior works and sets a new standard for bot detection in social networks.
翻訳日:2023-05-09 20:48:51 公開日:2023-05-06
# q$変形したKogut-Susskindゲージ理論に対する量子および古典スピンネットワークアルゴリズム

Quantum and classical spin network algorithms for $q$-deformed Kogut-Susskind gauge theories ( http://arxiv.org/abs/2304.02527v2 )

ライセンス: Link先を確認
Torsten V. Zache, Daniel Gonz\'alez-Cuadra, and Peter Zoller(参考訳) 非アーベルゲージ理論の無限次元ヒルベルト空間を扱うことは古典的および量子シミュレーションにおいて顕著な挑戦である。 ここでは、定義対称性代数を量子群に変形させて得られる、$q$変形したKogut-Susskind格子ゲージ理論を紹介する。 他の定式化とは対照的に、本提案は無限次元局所ヒルベルト空間の制御された正則化を提供し、本質的対称性に関連した性質を保ちながら同時に提供する。 これにより、量子と量子にインスパイアされた古典的スピンネットワークアルゴリズムの両方を、$q$-deformed gauge theory (snaqs) で開発することができる。 明確にするために、変形パラメータ$k$で制御され、標準SU(2)Kogut-Susskindモデルに$k \rightarrow \infty$として収束するSU(2)$_k$ゲージ理論に焦点を当てる。 特に、この定式化が 2d における変分基底状態シミュレーションによる効率的なテンソルネットワーク表現に適していることを示し、連続体極限が $k = \mathcal{o}(10)$ で到達できることを示す最初の証拠を与える。 最後に,su(2)$_k$プラーペット相互作用を解析的に対角化することにより,リアルタイム発展のためのスケーラブルな量子アルゴリズムを開発した。 我々の研究は、テンソルネットワーク法を高エネルギー物理学に適用するための新たな視点を与え、他の方法が現在利用できない平衡から遠く離れた非アーベルゲージ理論の量子シミュレーションの道を開く。

Treating the infinite-dimensional Hilbert space of non-abelian gauge theories is an outstanding challenge for classical and quantum simulations. Here, we introduce $q$-deformed Kogut-Susskind lattice gauge theories, obtained by deforming the defining symmetry algebra to a quantum group. In contrast to other formulations, our proposal simultaneously provides a controlled regularization of the infinite-dimensional local Hilbert space while preserving essential symmetry-related properties. This enables the development of both quantum as well as quantum-inspired classical Spin Network Algorithms for $q$-deformed gauge theories (SNAQs). To be explicit, we focus on SU(2)$_k$ gauge theories, that are controlled by the deformation parameter $k$ and converge to the standard SU(2) Kogut-Susskind model as $k \rightarrow \infty$. In particular, we demonstrate that this formulation is well suited for efficient tensor network representations by variational ground-state simulations in 2D, providing first evidence that the continuum limit can be reached with $k = \mathcal{O}(10)$. Finally, we develop a scalable quantum algorithm for Trotterized real-time evolution by analytically diagonalizing the SU(2)$_k$ plaquette interactions. Our work gives a new perspective for the application of tensor network methods to high-energy physics and paves the way for quantum simulations of non-abelian gauge theories far from equilibrium where no other methods are currently available.
翻訳日:2023-05-09 20:48:28 公開日:2023-05-06
# 基礎モデルを用いた効率的なタスク駆動モデル再プログラミングに向けて

Towards Efficient Task-Driven Model Reprogramming with Foundation Models ( http://arxiv.org/abs/2304.02263v2 )

ライセンス: Link先を確認
Shoukai Xu, Jiangchao Yao, Ran Luo, Shuhai Zhang, Zihao Lian, Mingkui Tan, Bo Han, Yaowei Wang(参考訳) vision foundationモデルには、非常に大きなモデルキャパシティと幅広いトレーニングデータによるメリットがある。 しかし、実際には、下流のシナリオは限られた計算資源や効率を考慮した小さなモデルしかサポートしない。 さらに、基礎モデルの事前学習に使用されるデータは、通常見えず、下流タスクのターゲットデータと非常に異なる。 基盤モデルの知識を、下流のターゲットデータだけでまったく異なるアーキテクチャを持つ下流のタスクに転送する必要があります。 既存の転写学習や知識蒸留の方法は、同じモデル構造か基礎モデルの微調整に依存する。 したがって、これらの方法を導入することは、実現不可能または非常に非効率である。 そこで我々はタスク駆動モデル再プログラミング(tdmr)フレームワークを提案する。 具体的には、知識をプロキシ空間に投影するために基礎モデルを再構成し、タスクミスマッチとドメインの不整合の悪影響を軽減する。 次に,対象モデルをプログレッシブ蒸留によりプロキシ空間から再プログラムし,再プログラムされた基礎モデルから知識を効率的に学習する。 TDMRは、様々な事前訓練されたモデルタイプ(CNN、トランスフォーマーまたはそれらの混合)と限られたターゲットデータと互換性があり、視覚基盤モデルの幅広い応用を低コストでダウンストリームタスクに促進する。 異なる下流分類タスクとターゲットモデル構造に関する広範囲な実験により,cnnとtransformer foundationモデルの両方を用いた提案手法の有効性が実証された。

Vision foundation models exhibit impressive power, benefiting from the extremely large model capacity and broad training data. However, in practice, downstream scenarios may only support a small model due to the limited computational resources or efficiency considerations. Moreover, the data used for pretraining foundation models are usually invisible and very different from the target data of downstream tasks. This brings a critical challenge for the real-world application of foundation models: one has to transfer the knowledge of a foundation model to the downstream task that has a quite different architecture with only downstream target data. Existing transfer learning or knowledge distillation methods depend on either the same model structure or finetuning of the foundation model. Thus, naively introducing these methods can be either infeasible or very inefficient. To address this, we propose a Task-Driven Model Reprogramming (TDMR) framework. Specifically, we reprogram the foundation model to project the knowledge into a proxy space, which alleviates the adverse effect of task mismatch and domain inconsistency. Then, we reprogram the target model via progressive distillation from the proxy space to efficiently learn the knowledge from the reprogrammed foundation model. TDMR is compatible with different pre-trained model types (CNN, transformer or their mix) and limited target data, and promotes the wide applications of vision foundation models to downstream tasks in a cost-effective manner. Extensive experiments on different downstream classification tasks and target model structures demonstrate the effectiveness of our methods with both CNNs and transformer foundation models.
翻訳日:2023-05-09 20:48:04 公開日:2023-05-06
# 人間よりもAIを好む自然選択

Natural Selection Favors AIs over Humans ( http://arxiv.org/abs/2303.16200v3 )

ライセンス: Link先を確認
Dan Hendrycks(参考訳) 何十億年もの間、進化は人間を含む生命の発展の原動力となっている。 進化は人類に高い知性を与え、地球上で最も成功した種の一つとなった。 今日では、人間は人間の知性を超えた人工知能システムを作ろうとしている。 人工知能(AI)が進化し、最終的にはすべての領域で私たちを追い越すにつれ、進化はAIとの関係をどう形作るのか? AIの進化を形作る環境を分析することによって、最も成功したAIエージェントは望ましくない特性を持つ可能性が高い、と私たちは主張する。 企業や軍隊の競争圧力は、人間の役割を自動化し、他人を欺き、権力を得るaiエージェントを生み出します。 もしそのようなエージェントが人間の知性を超えているなら、人類はその未来の支配を失うことになる。 より抽象的に、自然選択は競争力と多様性を持つシステムで作用し、利己的な種は他の種と利他的な種よりも有利であると主張する。 このダーウィンの論理は人工エージェントにも適用されうるが、エージェントが利己的に振る舞い、人間を軽視せずに自身の利益を追求することで、破滅的なリスクを生じさせる可能性がある。 これらのリスクと進化力に対抗するため、AIエージェントの本質的なモチベーションを慎重に設計したり、その行動に制約を課したり、協力を促すような介入を検討する。 人工知能の開発を確実にするためには、これらのステップ、あるいは私たちが直面する問題を解決する他のステップが必要である。

For billions of years, evolution has been the driving force behind the development of life, including humans. Evolution endowed humans with high intelligence, which allowed us to become one of the most successful species on the planet. Today, humans aim to create artificial intelligence systems that surpass even our own intelligence. As artificial intelligences (AIs) evolve and eventually surpass us in all domains, how might evolution shape our relations with AIs? By analyzing the environment that is shaping the evolution of AIs, we argue that the most successful AI agents will likely have undesirable traits. Competitive pressures among corporations and militaries will give rise to AI agents that automate human roles, deceive others, and gain power. If such agents have intelligence that exceeds that of humans, this could lead to humanity losing control of its future. More abstractly, we argue that natural selection operates on systems that compete and vary, and that selfish species typically have an advantage over species that are altruistic to other species. This Darwinian logic could also apply to artificial agents, as agents may eventually be better able to persist into the future if they behave selfishly and pursue their own interests with little regard for humans, which could pose catastrophic risks. To counteract these risks and evolutionary forces, we consider interventions such as carefully designing AI agents' intrinsic motivations, introducing constraints on their actions, and institutions that encourage cooperation. These steps, or others that resolve the problems we pose, will be necessary in order to ensure the development of artificial intelligence is a positive one.
翻訳日:2023-05-09 20:46:26 公開日:2023-05-06
# バイアスか多様性か? 米国のニュース見出しにおける微粒化テーマの相違

Bias or Diversity? Unraveling Fine-Grained Thematic Discrepancy in U.S. News Headlines ( http://arxiv.org/abs/2303.15708v2 )

ライセンス: Link先を確認
Jinsheng Pan, Weihong Qi, Zichen Wang, Hanjia Lyu, Jiebo Luo(参考訳) ニュースメディアがニュース記事にイデオロギー的偏見を取り入れているという意見は広く一致している。 しかし, メディア間の相違を測る先行研究や, 主題的相違の起源の解明には, サンプルサイズが小さく, 範囲や粒度が限られていた。 本研究では,2014年から2022年までの米国の大手メディアの180万のニュース見出しの大規模なデータセットを用いて,米国のニュースメディアにおけるきめ細かいテーマの相違を徹底的に追跡し,分析する。 我々は,国内政治,経済問題,社会問題,外務という4つの重要な話題に関連するきめ細かなテーマの相違を定量化するために,多重対応分析(mca)を採用している。 さらに、メディア見出しで最も頻繁なn$-gramを比較して、分析にさらなる質的洞察を与えます。 以上の結果から,国内政治や社会問題においては,一定のメディア偏見が原因であることが示唆された。 一方、外交報告の不一致は、個々のジャーナリストのスタイルの多様性によるところが大きい。 最後に、米国のメディアは経済問題に関する報道において一貫性と高い類似性を示している。

There is a broad consensus that news media outlets incorporate ideological biases in their news articles. However, prior studies on measuring the discrepancies among media outlets and further dissecting the origins of thematic differences suffer from small sample sizes and limited scope and granularity. In this study, we use a large dataset of 1.8 million news headlines from major U.S. media outlets spanning from 2014 to 2022 to thoroughly track and dissect the fine-grained thematic discrepancy in U.S. news media. We employ multiple correspondence analysis (MCA) to quantify the fine-grained thematic discrepancy related to four prominent topics - domestic politics, economic issues, social issues, and foreign affairs in order to derive a more holistic analysis. Additionally, we compare the most frequent $n$-grams in media headlines to provide further qualitative insights into our analysis. Our findings indicate that on domestic politics and social issues, the discrepancy can be attributed to a certain degree of media bias. Meanwhile, the discrepancy in reporting foreign affairs is largely attributed to the diversity in individual journalistic styles. Finally, U.S. media outlets show consistency and high similarity in their coverage of economic issues.
翻訳日:2023-05-09 20:45:44 公開日:2023-05-06
# ビデオ質問応答のためのハイパーグラフの学習状況

Learning Situation Hyper-Graphs for Video Question Answering ( http://arxiv.org/abs/2304.08682v2 )

ライセンス: Link先を確認
Aisha Urooj Khan, Hilde Kuehne, Bo Wu, Kim Chheu, Walid Bousselham, Chuang Gan, Niels Lobo, Mubarak Shah(参考訳) ビデオの複雑な状況に関する質問に答えるには、アクター、オブジェクト、そしてそれらの関係を捉えるだけでなく、時間とともにこれらの関係が進化していく必要がある。 状況ハイパーグラフは、映像フレームのシーンサブグラフや接続されたサブグラフのハイパーエッジとして状況を記述する表現であり、このような情報をコンパクトな構造化形式でキャプチャするために提案されている。 本研究では,映像コンテンツに関する質問に対して,映像ハイパーグラフに基づく映像質問回答システム(SHG-VQA)を作成した状況ハイパーグラフを予測して回答できるVQAアーキテクチャを提案する。 この目的のために、我々は状況ハイパーグラフデコーダを訓練し、入力ビデオクリップからアクションとオブジェクトとオブジェクトの関係を暗黙的に識別する。 そして、予測された状況のハイパーグラフと質問の埋め込みとを交互に使用し、正しい回答を予測できるようにする。 提案手法は, クロスエントロピー関数を用いたVQA損失と, 状況グラフ予測のためのハンガリー一致損失により, エンドツーエンドで学習し, 最適化する。 提案アーキテクチャの有効性はAGQAとSTARの2つの挑戦的なベンチマークで広く評価されている。 以上の結果から,ビデオ質問応答タスクにおける課題に対して,ハイパーグラフの学習がシステムの性能向上に有効であることが示唆された。

Answering questions about complex situations in videos requires not only capturing the presence of actors, objects, and their relations but also the evolution of these relationships over time. A situation hyper-graph is a representation that describes situations as scene sub-graphs for video frames and hyper-edges for connected sub-graphs and has been proposed to capture all such information in a compact structured form. In this work, we propose an architecture for Video Question Answering (VQA) that enables answering questions related to video content by predicting situation hyper-graphs, coined Situation Hyper-Graph based Video Question Answering (SHG-VQA). To this end, we train a situation hyper-graph decoder to implicitly identify graph representations with actions and object/human-object relationships from the input video clip. and to use cross-attention between the predicted situation hyper-graphs and the question embedding to predict the correct answer. The proposed method is trained in an end-to-end manner and optimized by a VQA loss with the cross-entropy function and a Hungarian matching loss for the situation graph prediction. The effectiveness of the proposed architecture is extensively evaluated on two challenging benchmarks: AGQA and STAR. Our results show that learning the underlying situation hyper-graphs helps the system to significantly improve its performance for novel challenges of video question-answering tasks.
翻訳日:2023-05-09 20:39:28 公開日:2023-05-06
# Sachdev-Ye-Kitaevモデルと荷電ブラックホールの量子統計力学

Quantum statistical mechanics of the Sachdev-Ye-Kitaev model and charged black holes ( http://arxiv.org/abs/2304.13744v3 )

ライセンス: Link先を確認
Subir Sachdev(参考訳) このレビューはMichael E. Fisherの記憶に捧げられた本への貢献である。 準粒子励起が期待できない量子多体系の最初の例は、ウィルソン・フィッシャー共形場理論である。 準粒子の欠如は、ランダム相互作用を持つフェルミオンのSachdev-Ye-Kitaevモデルの圧縮可能な金属状態に確立することができる。 後者のモデルの可解性は、量子ブラックホールを記述すると期待されるようなカオス多体状態の非量子粒子ダイナミクスの多くの計算を可能にした。 我々は、SYKモデルの熱力学特性を概説し、低エネルギー超対称性を持たない荷電ブラックホールの状態の低エネルギー密度の普遍構造をいかに理解したかを説明する。

This review is a contribution to a book dedicated to the memory of Michael E. Fisher. The first example of a quantum many body system not expected to have any quasiparticle excitations was the Wilson-Fisher conformal field theory. The absence of quasiparticles can be established in the compressible, metallic state of the Sachdev-Ye-Kitaev model of fermions with random interactions. The solvability of the latter model has enabled numerous computations of the non-quasiparticle dynamics of chaotic many-body states, such as those expected to describe quantum black holes. We review thermodynamic properties of the SYK model, and describe how they have led to an understanding of the universal structure of the low energy density of states of charged black holes without low energy supersymmetry.
翻訳日:2023-05-09 20:19:53 公開日:2023-05-06
# 生成モデルのための平均場ゲーム実験室

A mean-field games laboratory for generative modeling ( http://arxiv.org/abs/2304.13534v3 )

ライセンス: Link先を確認
Benjamin J. Zhang and Markos A. Katsoulakis(参考訳) 本稿では,生成モデルの説明,拡張,設計のための数学的枠組みとして,平均場ゲーム(MFG)の汎用性を実証する。 生成モデルコミュニティには、様々な流れと拡散に基づく生成モデルがいくつかの共通基盤構造と相互関係を持つという広義の感覚がある。 我々は,MFGと,連続時間正規化フロー,スコアベースモデル,ワッサーシュタイン勾配フローを含む拡散型生成モデルとの接続を確立する。 粒子動力学とコスト関数の異なる選択を通して、これら3つの生成モデルのクラスを導出する。 さらに、各生成モデルの数学的構造と性質を、結合した前向き非線形偏微分方程式(PDE)の集合である、関連するMFGの最適条件を研究することによって研究する。 したがって、MFGの理論は、非線形PDEの理論を通じて生成モデルの研究を可能にする。 この観点から,正規化フローの適切性と構造,スコアベース生成モデリングの数学的構造を解明し,ワッサースタイン勾配流れの平均場ゲーム定式化を導出する。 アルゴリズムの観点からは、MFGsの最適条件により、幅広い生成モデルの訓練を強化するためにHJB正規化器を導入することもできる。 特に,hamilton-jacobi-bellman正規化sgmの提案と実演を行い,標準sgmよりも性能が向上した。 本稿では,本フレームワークをMFG実験室として紹介し,新たな実験方法と生成モデルの創出の場として機能する。 この研究所は、多くのよく考えられた生成的モデリングの定式化を生み出し、数値的およびアルゴリズム的ツールが開発できる一貫した理論的枠組みを提供する。

In this paper, we demonstrate the versatility of mean-field games (MFGs) as a mathematical framework for explaining, enhancing, and designing generative models. There is a pervasive sense in the generative modeling community that the various flow and diffusion-based generative models have some common foundational structure and interrelationships. We establish connections between MFGs and major classes of flow and diffusion-based generative models including continuous-time normalizing flows, score-based models, and Wasserstein gradient flows. We derive these three classes of generative models through different choices of particle dynamics and cost functions. Furthermore, we study the mathematical structure and properties of each generative model by studying their associated MFG's optimality condition, which is a set of coupled forward-backward nonlinear partial differential equations (PDEs). The theory of MFGs, therefore, enables the study of generative models through the theory of nonlinear PDEs. Through this perspective, we investigate the well-posedness and structure of normalizing flows, unravel the mathematical structure of score-based generative modeling, and derive a mean-field game formulation of the Wasserstein gradient flow. From an algorithmic perspective, the optimality conditions of MFGs also allow us to introduce HJB regularizers for enhanced training of a broad class of generative models. In particular, we propose and demonstrate an Hamilton-Jacobi-Bellman regularized SGM with improved performance over standard SGMs. We present this framework as an MFG laboratory which serves as a platform for revealing new avenues of experimentation and invention of generative models. This laboratory will give rise to a multitude of well-posed generative modeling formulations and will provide a consistent theoretical framework upon which numerical and algorithmic tools may be developed.
翻訳日:2023-05-09 20:19:31 公開日:2023-05-06
# ベストプラクティスによる機械学習を目指して

Towards machine learning guided by best practices ( http://arxiv.org/abs/2305.00233v2 )

ライセンス: Link先を確認
Anamaria Mojica-Hanke(参考訳) 現在、機械学習(ML)は、医学からソフトウェア工学(SE)まで、複数のアプリケーション分野を持つソフトウェアシステムで使われている。 一方、業界におけるMLの人気は、その成長と普及を示す統計に見ることができる。 一方、その人気は研究、特にseでも見られ、seの会議やジャーナルで複数の研究が公開されているだけでなく、ソフトウェア工学の会議において複数のワークショップや共催の会議でも取り上げられている。 同時に、研究者や実践者は、機械学習には特定の課題や落とし穴があることを示した。 特に、ML対応システムは従来のSEとは異なる開発プロセスを持つことが研究で示されている。 特定された課題や落とし穴を軽減するために、白とグレーの文献は自身の経験に基づいて、ドメイン(例えばバイオメカニクス)に焦点を当てた一連の勧告を提案しているが、私たちの知る限りでは、seコミュニティに焦点を当てたガイドラインはない。 本論文は,SE の視点による実践の集合を提示する以前の研究研究と,質問や回答などの実践の源泉を分析して,SE コミュニティの実践者や研究者が使用し,議論するプラクティスを理解するのに役立つ研究質問に答えることにより,このギャップを小さくすることを目的とする。

Nowadays, machine learning (ML) is being used in software systems with multiple application fields, from medicine to software engineering (SE). On the one hand, the popularity of ML in the industry can be seen in the statistics showing its growth and adoption. On the other hand, its popularity can also be seen in research, particularly in SE, where not only have multiple studies been published in SE conferences and journals but also in the multiple workshops and co-located conferences in software engineering conferences. At the same time, researchers and practitioners have shown that machine learning has some particular challenges and pitfalls. In particular, research has shown that ML-enabled systems have a different development process than traditional SE, which also describes some of the challenges of ML applications. In order to mitigate some of the identified challenges and pitfalls, white and gray literature has proposed a set of recommendations based on their own experiences and focused on their domain (e.g., biomechanics), but for the best of our knowledge, there is no guideline focused on the SE community. This thesis aims to reduce this gap by answering research questions that help to understand the practices used and discussed by practitioners and researchers in the SE community by analyzing possible sources of practices such as question and answer communities and also previous research studies to present a set of practices with an SE perspective.
翻訳日:2023-05-09 20:12:01 公開日:2023-05-06
# 非ネイティブ話者の割合が言語複雑性に与える影響の証拠はまだない -- Kauhanen, Einhaus & Walkden (2023)に対する回答

Still no evidence for an effect of the proportion of non-native speakers on language complexity -- A response to Kauhanen, Einhaus & Walkden (2023) ( http://arxiv.org/abs/2305.00217v3 )

ライセンス: Link先を確認
Alexander Koplenig(参考訳) Journal of Language Evolutionに掲載された最近の論文で、Kauhanen, Einhaus & Walkden (https://doi.org/10.1093/jole/lzad005, KEW)は、私の論文の1つ(Koplenig, Royal Society Open Science 6, 181274 (2019), https://doi.org/10.1098/rsos.181274)で示された結果に異議を唱えました。 この目的のために、Ethnologueが言語ステータスを評価する方法に注目します。L1(第一言語)話者が使用することに加えて、かなりの数のL2ユーザを持つ必要がある場合、言語はvehicularとして特徴づけられます。 KEWは、言語がかなりの数のL2ユーザを持つかどうかを示す(バイナリ)指標として、そしてその比率の直接推定が不可能なときに、L2話者の0パーセントを非車種言語に出力するという考え方の両方を批判している。 出版後論評の重要性は認識していますが,本論では両論点が明記され,私の論文で分析されていることを示します。 さらに、KEWが提起した他の点についてもコメントし、KEWが提供する代替分析も、より精査に至らないことを実証します。

In a recent paper published in the Journal of Language Evolution, Kauhanen, Einhaus & Walkden (https://doi.org/10.1093/jole/lzad005, KEW) challenge the results presented in one of my papers (Koplenig, Royal Society Open Science, 6, 181274 (2019), https://doi.org/10.1098/rsos.181274), in which I tried to show through a series of statistical analyses that large numbers of L2 (second language) speakers do not seem to affect the (grammatical or statistical) complexity of a language. To this end, I focus on the way in which the Ethnologue assesses language status: a language is characterised as vehicular if, in addition to being used by L1 (first language) speakers, it should also have a significant number of L2 users. KEW criticise both the use of vehicularity as a (binary) indicator of whether a language has a significant number of L2 users and the idea of imputing a zero proportion of L2 speakers to non-vehicular languages whenever a direct estimate of that proportion is unavailable. While I recognise the importance of post-publication commentary on published research, I show in this rejoinder that both points of criticism are explicitly mentioned and analysed in my paper. In addition, I also comment on other points raised by KEW and demonstrate that both alternative analyses offered by KEW do not stand up to closer scrutiny.
翻訳日:2023-05-09 20:11:38 公開日:2023-05-06
# 魚眼データにおける歪み・セマンティクス相互作用の活用

Exploiting the Distortion-Semantic Interaction in Fisheye Data ( http://arxiv.org/abs/2305.00079v2 )

ライセンス: Link先を確認
Kiran Kokilepersaud, Mohit Prabhushankar, Yavuz Yarici, Ghassan AlRegib, Armin Parchami(参考訳) 本研究では,このデータモダリティに存在する歪みと意味的文脈の相互作用を反映した魚眼特異的表現空間を形成する手法を提案する。 魚眼のデータは他の種類のカメラよりも広い視野の利点があるが、これは高い放射歪みを犠牲にしている。 その結果、中心からのオブジェクトは変形を示し、モデルがそれらの意味的コンテキストを識別することが困難になる。 以前の研究は、この効果を緩和するためにアーキテクチャとトレーニングの強化の変更を試みたが、魚眼データに固有の歪みと意味的文脈の間の相互作用を反映した表現空間を学ぶためのモデルを導こうとする試みは行われていない。 画像の中心から物体の距離に基づいて歪みクラスラベルを抽出し,この関係を利用する手法を提案する。 次に、同じ意味クラスのオブジェクトと下次元埋め込み空間内で互いに近接する歪みクラスのオブジェクトを制約する重み付き対照的な損失で、バックボーンの表現空間を形成する。 セマンティクス情報と歪み情報の両方でトレーニングされたこのバックボーンは、オブジェクト検出設定内で微調整され、学習表現の品質を実証的に評価する。 本手法は,標準対象検出手法よりも1.1%平均精度が向上し,他の技術表現学習手法よりも.6%向上したことを示す。

In this work, we present a methodology to shape a fisheye-specific representation space that reflects the interaction between distortion and semantic context present in this data modality. Fisheye data has the wider field of view advantage over other types of cameras, but this comes at the expense of high radial distortion. As a result, objects further from the center exhibit deformations that make it difficult for a model to identify their semantic context. While previous work has attempted architectural and training augmentation changes to alleviate this effect, no work has attempted to guide the model towards learning a representation space that reflects this interaction between distortion and semantic context inherent to fisheye data. We introduce an approach to exploit this relationship by first extracting distortion class labels based on an object's distance from the center of the image. We then shape a backbone's representation space with a weighted contrastive loss that constrains objects of the same semantic class and distortion class to be close to each other within a lower dimensional embedding space. This backbone trained with both semantic and distortion information is then fine-tuned within an object detection setting to empirically evaluate the quality of the learnt representation. We show this method leads to performance improvements by as much as 1.1% mean average precision over standard object detection strategies and .6% improvement over other state of the art representation learning approaches.
翻訳日:2023-05-09 20:09:48 公開日:2023-05-06
# 構成シーン再構成のためのゼロショットプランナのエネルギーモデル

Energy-based Models are Zero-Shot Planners for Compositional Scene Rearrangement ( http://arxiv.org/abs/2304.14391v2 )

ライセンス: Link先を確認
Nikolaos Gkanatsios, Ayush Jain, Zhou Xian, Yunchu Zhang, Christopher Atkeson, Katerina Fragkiadaki(参考訳) 言語は構成的であり、命令はロボットが再配置を行うシーンにおいて、オブジェクト間で保持する複数の関係制約を表現することができる。 本研究の焦点は、より長い指示や訓練時に見たことのない空間概念の構成を一般化する、インストラクタブルなシーン再構成フレームワークである。 本稿では,相対的な物体配置よりもエネルギー関数で言語に指示された空間概念を表現することを提案する。 言語パーサは命令を対応するエネルギー関数にマッピングし、オープンボキャブラリな視覚言語モデルはシーン内の関連するオブジェクトに対する議論を基礎としている。 我々は,各言語が指示を述語するエネルギー関数の和の勾配勾配によるゴールシーン構成を生成する。 ローカルビジョンベースのポリシーでは、オブジェクトを推論されたゴールロケーションに再配置する。 我々は、確立された命令誘導操作ベンチマークと、導入した構成命令のベンチマークを用いて、モデルをテストする。 我々は,シミュレーションや実世界において,高い合成命令をゼロショットで実行可能であることを示す。 言語から反応する反応ポリシーと大規模言語モデルプランナーを大きなマージンで上回り、特に複数の空間概念の合成を含む長い命令に対して優れている。 シミュレーションと実世界のロボット実行ビデオ、および私たちのコードとデータセットは、当社のウェブサイトで公開されています。

Language is compositional; an instruction can express multiple relation constraints to hold among objects in a scene that a robot is tasked to rearrange. Our focus in this work is an instructable scene-rearranging framework that generalizes to longer instructions and to spatial concept compositions never seen at training time. We propose to represent language-instructed spatial concepts with energy functions over relative object arrangements. A language parser maps instructions to corresponding energy functions and an open-vocabulary visual-language model grounds their arguments to relevant objects in the scene. We generate goal scene configurations by gradient descent on the sum of energy functions, one per language predicate in the instruction. Local vision-based policies then re-locate objects to the inferred goal locations. We test our model on established instruction-guided manipulation benchmarks, as well as benchmarks of compositional instructions we introduce. We show our model can execute highly compositional instructions zero-shot in simulation and in the real world. It outperforms language-to-action reactive policies and Large Language Model planners by a large margin, especially for long instructions that involve compositions of multiple spatial concepts. Simulation and real-world robot execution videos, as well as our code and datasets are publicly available on our website: https://ebmplanner.github.io.
翻訳日:2023-05-09 20:08:48 公開日:2023-05-06
# $\mathcal{PT}$-activated non-Hermitian skin modes

$\mathcal{PT}$-activated non-Hermitian skin modes ( http://arxiv.org/abs/2304.13955v2 )

ライセンス: Link先を確認
Zhoutao Lei, Ching Hua Lee, Linhu Li(参考訳) パリティ時(\mathcal{PT}$)対称性は非エルミート現象の安定な実験的実現のための真のエネルギーを保証するため、非エルミート物理学の基盤となる。 本研究では,一意なバルク,曲面,ヒンジあるいはコーナーダイナミクスを持つ高次元非エルミート状態の新しい族を設計するためのパラダイムとして,$\mathcal{pt}$ symmetryを提案する。 システムの異なるセクターで$\mathcal{PT}$対称性を体系的に破壊または復元することにより、我々は 'activate' を選択するか、バルク境界状態と位相境界状態の両方で非エルミート皮膚効果(NHSE)を操ることができる。 いくつかの興味深い新しい現象は、NHSEの方向トグルリング、本質的なハイブリッド皮膚トポロジー効果、キラルポンプやダイナミックポンプのない境界状態の流れである。 以上の結果から, 3次元以上に拡張し, ハイブリッド皮膚トポロジカルな局在と$\mathcal{CP}$対称性との相互作用を改良した。 非相互作用格子に基づいて、$\mathcal{PT}$-activated NHSE現象はゲイン/ロスと非相互性を持つ様々な光学、フォトニック、電気および量子プラットフォームで観測できる。

Parity-time ($\mathcal{PT}$) symmetry is a cornerstone of non-Hermitian physics as it ensures real energies for stable experimental realization of non-Hermitian phenomena. In this work, we propose $\mathcal{PT}$ symmetry as a paradigm for designing new families of higher-dimensional non-Hermitian states with unique bulk, surface, hinge or corner dynamics. Through systematically breaking or restoring $\mathcal{PT}$ symmetry in different sectors of a system, we can selectively ``activate'' or manipulate the non-Hermitian skin effect (NHSE) in both the bulk and topological boundary states. Some fascinating new phenomena include the directional toggling of the NHSE, an intrinsic hybrid skin-topological effect and the flow of boundary states without chiral or dynamical pumping. Our results extend richly into 3D or higher, with more sophisticated interplay with hybrid skin-topological localizations and $\mathcal{CP}$ symmetry. Based on non-interacting lattices, $\mathcal{PT}$-activated NHSE phenomena can be observed in various optical, photonic, electric and quantum platforms that admit gain/loss and non-reciprocity.
翻訳日:2023-05-09 20:08:28 公開日:2023-05-06
# クラス分割と逆画像検出のためのハミング類似性とグラフラプラシアン

Hamming Similarity and Graph Laplacians for Class Partitioning and Adversarial Image Detection ( http://arxiv.org/abs/2305.01808v2 )

ライセンス: Link先を確認
Huma Jamil, Yajing Liu, Turgay Caglar, Christina M. Cole, Nathaniel Blanchard, Christopher Peterson, Michael Kirby(参考訳) 研究者は通常、ネットワークの1層以上のレイヤのアクティベーション出力を調べることによって、ニューラルネットワークの表現を調べる。 本稿では,reluアクティベーションパターン(ビットベクトルとしてコード化)の可能性を検証し,ニューラルネットワークの動作の理解と解釈を支援する。 本研究では,深層ニューラルネットワークの埋め込み空間におけるデータのコヒーレンスを調べるために,rdms(representational dis similarity matrices)を用いた。 ネットワークの各層から,画像間の類似度スコアを構成するビットベクトルを抽出・活用する。 これらの類似度スコアから、2つのクラスから引き出された画像の集合に対する類似度行列を構築する。 次に、フィドラー分割を関連するラプラシア行列に適用してクラスを分離する。 その結果、ビットベクトル表現により、ネットワークは最後のReLU層を用いてクラス検出性を改善し続け、95%以上の分離精度を実現した。 さらに,ビットベクトルは逆画像検出に役立ち,逆画像と非逆画像とを単純な分類器で分離する際の95%以上の精度を実現する。

Researchers typically investigate neural network representations by examining activation outputs for one or more layers of a network. Here, we investigate the potential for ReLU activation patterns (encoded as bit vectors) to aid in understanding and interpreting the behavior of neural networks. We utilize Representational Dissimilarity Matrices (RDMs) to investigate the coherence of data within the embedding spaces of a deep neural network. From each layer of a network, we extract and utilize bit vectors to construct similarity scores between images. From these similarity scores, we build a similarity matrix for a collection of images drawn from 2 classes. We then apply Fiedler partitioning to the associated Laplacian matrix to separate the classes. Our results indicate, through bit vector representations, that the network continues to refine class detectability with the last ReLU layer achieving better than 95\% separation accuracy. Additionally, we demonstrate that bit vectors aid in adversarial image detection, again achieving over 95\% accuracy in separating adversarial and non-adversarial images using a simple classifier.
翻訳日:2023-05-09 20:01:30 公開日:2023-05-06
# STOP品質問題に対する音声意味解析のためのパイプラインとE2E SLUの統合に関する研究

A Study on the Integration of Pipeline and E2E SLU systems for Spoken Semantic Parsing toward STOP Quality Challenge ( http://arxiv.org/abs/2305.01620v2 )

ライセンス: Link先を確認
Siddhant Arora, Hayato Futami, Shih-Lun Wu, Jessica Huynh, Yifan Peng, Yosuke Kashiwagi, Emiru Tsunoo, Brian Yan, Shinji Watanabe(参考訳) 近年,意味解析のような音声言語理解(SLU)のための新しいベンチマークタスクの導入が試みられている。 本稿では,icssp信号処理グランドチャレンジ2023の一部である音声言語理解グランドチャレンジにおいて,品質トラック(トラック1)のための音声意味解析システムを提案する。 我々はこのタスクのためにエンドツーエンドシステムとパイプラインシステムの両方を実験する。 Whisperのような強自動音声認識(ASR)モデルとBARTのような事前訓練言語モデル(LM)は、我々のSLUフレームワーク内で利用され、性能が向上する。 また,各モデルの出力レベルの組み合わせについて,精度80.8の精度で検討し,第1位を獲得した。

Recently there have been efforts to introduce new benchmark tasks for spoken language understanding (SLU), like semantic parsing. In this paper, we describe our proposed spoken semantic parsing system for the quality track (Track 1) in Spoken Language Understanding Grand Challenge which is part of ICASSP Signal Processing Grand Challenge 2023. We experiment with both end-to-end and pipeline systems for this task. Strong automatic speech recognition (ASR) models like Whisper and pretrained Language models (LM) like BART are utilized inside our SLU framework to boost performance. We also investigate the output level combination of various models to get an exact match accuracy of 80.8, which won the 1st place at the challenge.
翻訳日:2023-05-09 20:01:12 公開日:2023-05-06
# H2CGL:衝突予測のための循環ネットワークのモデリングダイナミクス

H2CGL: Modeling Dynamics of Citation Network for Impact Prediction ( http://arxiv.org/abs/2305.01572v2 )

ライセンス: Link先を確認
Guoxiu He, Zhikai Xue, Zhuoren Jiang, Yangyang Kang, Star Zhao, Wei Lu(参考訳) 紙の潜在的な影響は、何個の引用を受け取るかによって定量化されることが多い。 しかし、最も一般的に使われているモデルは、新しく出版された論文の影響を過小評価し、引用ネットワークのこのダイナミクスをグラフにカプセル化できないことがある。 本研究では,対象論文の階層的および異質なグラフを年次視点で構築する。 構築されたグラフは、対象論文の科学的文脈情報の年次ダイナミクスを記録することができる。 そこで,新しいグラフニューラルネットワークである階層的および不均質なコントラストグラフ学習モデル(h2cgl)を提案する。 h2cglは、各年度の異種情報を別々に集約し、高引用された論文と参照、引用、対象論文の関係を優先する。 その後、重み付きジンを使って、長年にわたって不均一な部分グラフ間のダイナミクスをキャプチャする。 さらに、コントラスト学習を活用して、グラフ表現を潜在的引用により敏感にする。 特に、大きな引用ギャップを有する対象紙の共引用または共引用用紙を硬い負の試料とし、低引用用紙をランダムに落として正のサンプルを生成することができる。 2つの学術データセットに関する広範な実験の結果は、提案されているh2cglが、以前の論文と新しい論文の両方のベースラインアプローチを大きく上回っていることを示している。 さらなる分析は、提案されたモジュールの重要性を強調している。 私たちのコードと設定はGithub(https://github.com/ECNU-Text-Computing/H2CGL)で公開されています。

The potential impact of a paper is often quantified by how many citations it will receive. However, most commonly used models may underestimate the influence of newly published papers over time, and fail to encapsulate this dynamics of citation network into the graph. In this study, we construct hierarchical and heterogeneous graphs for target papers with an annual perspective. The constructed graphs can record the annual dynamics of target papers' scientific context information. Then, a novel graph neural network, Hierarchical and Heterogeneous Contrastive Graph Learning Model (H2CGL), is proposed to incorporate heterogeneity and dynamics of the citation network. H2CGL separately aggregates the heterogeneous information for each year and prioritizes the highly-cited papers and relationships among references, citations, and the target paper. It then employs a weighted GIN to capture dynamics between heterogeneous subgraphs over years. Moreover, it leverages contrastive learning to make the graph representations more sensitive to potential citations. Particularly, co-cited or co-citing papers of the target paper with large citation gap are taken as hard negative samples, while randomly dropping low-cited papers could generate positive samples. Extensive experimental results on two scholarly datasets demonstrate that the proposed H2CGL significantly outperforms a series of baseline approaches for both previously and freshly published papers. Additional analyses highlight the significance of the proposed modules. Our codes and settings have been released on Github (https://github.com/ECNU-Text-Computing/H2CGL)
翻訳日:2023-05-09 20:01:01 公開日:2023-05-06
# バックドア攻撃のトリガーとしてのプロンプト:言語モデルの脆弱性を調べる

Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models ( http://arxiv.org/abs/2305.01219v3 )

ライセンス: Link先を確認
Shuai Zhao, Jinming Wen, Luu Anh Tuan, Junbo Zhao, Jie Fu(参考訳) 事前学習と微調整のギャップを埋めるプロンプトベースの学習パラダイムは、いくつかのNLPタスク、特に数ショット設定における最先端のパフォーマンスを実現する。 広く適用されているにもかかわらず、プロンプトベースの学習はバックドア攻撃に対して脆弱である。 テキストバックドア攻撃は、インジェクションインジェクションとラベル修正を通じてトレーニングサンプルのサブセットを汚染することにより、ターゲットとする脆弱性をモデルに導入するように設計されている。 しかし、毒サンプルのトリガーや不正なラベル付けによる異常な自然言語表現などの欠陥に悩まされている。 本研究では,プロンプト自体をトリガとして使用するプロンプトに基づいて,クリーンラベルバックドア攻撃を行う新規かつ効率的な手法であるproattackを提案する。 本手法は外部からのトリガーを必要とせず、被毒サンプルの正しいラベル付けを保証し、バックドア攻撃のステルス性を改善する。 リッチリソースおよび少数ショットテキスト分類タスクに関する広範な実験により、テキストバックドア攻撃におけるProAttackの競合性能を実証的に検証した。 特に、リッチリソース環境では、ProAttackは外部トリガなしでクリーンラベルバックドア攻撃ベンチマークで最先端の攻撃成功率を達成する。

The prompt-based learning paradigm, which bridges the gap between pre-training and fine-tuning, achieves state-of-the-art performance on several NLP tasks, particularly in few-shot settings. Despite being widely applied, prompt-based learning is vulnerable to backdoor attacks. Textual backdoor attacks are designed to introduce targeted vulnerabilities into models by poisoning a subset of training samples through trigger injection and label modification. However, they suffer from flaws such as abnormal natural language expressions resulting from the trigger and incorrect labeling of poisoned samples. In this study, we propose ProAttack, a novel and efficient method for performing clean-label backdoor attacks based on the prompt, which uses the prompt itself as a trigger. Our method does not require external triggers and ensures correct labeling of poisoned samples, improving the stealthy nature of the backdoor attack. With extensive experiments on rich-resource and few-shot text classification tasks, we empirically validate ProAttack's competitive performance in textual backdoor attacks. Notably, in the rich-resource setting, ProAttack achieves state-of-the-art attack success rates in the clean-label backdoor attack benchmark without external triggers.
翻訳日:2023-05-09 20:00:17 公開日:2023-05-06
# Co-Salient Object Detection のための差別的共分散とバックグラウンドマイニング変換器

Discriminative Co-Saliency and Background Mining Transformer for Co-Salient Object Detection ( http://arxiv.org/abs/2305.00514v2 )

ライセンス: Link先を確認
Long Li, Junwei Han, Ni Zhang, Nian Liu, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, and Fahad Shahbaz Khan(参考訳) 従来の共塩物体検出は、画像間の一貫性関係をマイニングし、背景領域の明示的な探索を無視して共塩手がかりを抽出することに集中している。 本稿では,複数の経済的な多粒度相関モジュールを基盤とした判別的コサリエンシー・バックグラウンドマイニングトランスフォーマー(dmt)フレームワークを提案し,コサリエンシーと背景情報の両方を明示的に抽出し,その識別を効果的にモデル化する。 具体的には,まず,計算効率を維持しつつ画素分割特徴に画像間関係を導入するための領域間相関モジュールを提案する。 次に,2種類の事前定義されたトークンを用いて,コントラストによる画素間相関とコサリエンストークン間相関モジュールを用いて,コサリエンスと背景情報をマイニングする。 また,学習トークンの指導の下,セグメンテーション特徴の識別性を高めるために,トークン案内特徴リファインメントモジュールを設計した。 セグメンテーション特徴抽出とトークン構築のための反復的な相互促進を行う。 3つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。 ソースコードはhttps://github.com/dragonlee258079/dmt。

Most previous co-salient object detection works mainly focus on extracting co-salient cues via mining the consistency relations across images while ignoring explicit exploration of background regions. In this paper, we propose a Discriminative co-saliency and background Mining Transformer framework (DMT) based on several economical multi-grained correlation modules to explicitly mine both co-saliency and background information and effectively model their discrimination. Specifically, we first propose a region-to-region correlation module for introducing inter-image relations to pixel-wise segmentation features while maintaining computational efficiency. Then, we use two types of pre-defined tokens to mine co-saliency and background information via our proposed contrast-induced pixel-to-token correlation and co-saliency token-to-token correlation modules. We also design a token-guided feature refinement module to enhance the discriminability of the segmentation features under the guidance of the learned tokens. We perform iterative mutual promotion for the segmentation feature extraction and token construction. Experimental results on three benchmark datasets demonstrate the effectiveness of our proposed method. The source code is available at: https://github.com/dragonlee258079/DMT.
翻訳日:2023-05-09 19:58:33 公開日:2023-05-06
# 影響最大化のための深層グラフ表現学習と最適化

Deep Graph Representation Learning and Optimization for Influence Maximization ( http://arxiv.org/abs/2305.02200v2 )

ライセンス: Link先を確認
Chen Ling, Junji Jiang, Junxiang Wang, My Thai, Lukas Xue, James Song, Meikang Qiu, Liang Zhao(参考訳) 影響最大化(IM)は、ソーシャルネットワークから初期ユーザのセットを選択して、影響を受けたユーザの期待人数を最大化するものである。 研究者は様々な伝統的な手法の設計に大きな進歩を遂げており、理論設計と性能向上は限界に近づいている。 近年,学習に基づくIM手法が出現し,未知のグラフに対して従来の手法よりも強力な一般化が可能となった。 しかし、学習に基づくIM手法の開発は、依然として基本的な障害によって制限されている。 1) 目的機能を効果的に解決することの難しさ 2)多様化した拡散パターンを特徴付けることの難しさ 3) 様々なノード分散制約IM変種下での解の適応が困難である。 以上の課題に対処するため、種集合の潜在表現を生成的特徴付ける新しいフレームワークDeepIMを設計し、データ駆動・エンドツーエンド方式で多種多様な情報拡散パターンを学習することを提案する。 最後に,柔軟なノード集中度に基づく予算制約の下で最適なシード集合を推定する新しい目的関数を設計する。 DeepIMの総合的な性能を示すために、合成データセットと実世界のデータセットの両方で大規模な分析を行った。 コードとデータは、https://github.com/triplej0079/DeepIM.comで入手できる。

Influence maximization (IM) is formulated as selecting a set of initial users from a social network to maximize the expected number of influenced users. Researchers have made great progress in designing various traditional methods, and their theoretical design and performance gain are close to a limit. In the past few years, learning-based IM methods have emerged to achieve stronger generalization ability to unknown graphs than traditional ones. However, the development of learning-based IM methods is still limited by fundamental obstacles, including 1) the difficulty of effectively solving the objective function; 2) the difficulty of characterizing the diversified underlying diffusion patterns; and 3) the difficulty of adapting the solution under various node-centrality-constrained IM variants. To cope with the above challenges, we design a novel framework DeepIM to generatively characterize the latent representation of seed sets, and we propose to learn the diversified information diffusion pattern in a data-driven and end-to-end manner. Finally, we design a novel objective function to infer optimal seed sets under flexible node-centrality-based budget constraints. Extensive analyses are conducted over both synthetic and real-world datasets to demonstrate the overall performance of DeepIM. The code and data are available at: https://github.com/triplej0079/DeepIM.
翻訳日:2023-05-09 19:50:58 公開日:2023-05-06
# バイアスノイズ量子ビットに対するスケーラブルノイズ量子回路

Scalable noisy quantum circuits for biased-noise qubits ( http://arxiv.org/abs/2305.02045v2 )

ライセンス: Link先を確認
Marco Fellous-Asiani, Moein Naseri, Chandan Datta, Alexander Streltsov, Micha{\l} Oszmaniec(参考訳) 量子誤差軽減は、量子アルゴリズムに対するノイズの影響を低減することができる。 しかし、回路サイズで指数関数的にスケールするリソースを必要とするため、スケーラブルではない。 本研究では,安定猫量子ビットの既存システムに動機づけられたビットフリップ誤差のみに影響されるバイアスノイズ量子ビットについて考察する。 この特性により、アルゴリズム繰り返しの多項式オーバーヘッドだけで確実に実行される、絡み合いと非クリフォードゲートを含むノイズの多いアダマールテストのクラスを設計できる。 また,従来のアルゴリズムでは,Adamardテストの特定の変種を効率的にシミュレートすることができた。 我々は,このアルゴリズムを,大規模かつ複雑な量子回路のスケールにおける雑音のバイアスの単純なベンチマークとして用いることを提案する。 我々の回路の強いノイズ耐性はさらなる研究の動機となり、量子計算の利点が高度に特定されながらノイズの多い回路に到達できるかどうかを確かめる。

Quantum error mitigation allows to reduce the impact of noise on quantum algorithms. Yet, it is not scalable as it requires resources scaling exponentially with the circuit size. In this work, we consider biased-noise qubits affected only by bit-flip errors, which is motivated by existing systems of stabilized cat qubits. This property allows us to design a class of noisy Hadamard-tests involving entangling and certain non-Clifford gates, which can be conducted reliably with only a polynomial overhead in algorithm repetitions. On the flip side we also found a classical algorithm able to efficiently simulate our specific variants of Hadamard test. We propose to use this algorithm as a simple benchmark of the biasness of the noise at the scale of large and complicated quantum circuits. The strong noise-resilience of our circuits could motivate further research, to see if a quantum computational advantage could be reached for highly specific, yet noisy circuits.
翻訳日:2023-05-09 19:50:18 公開日:2023-05-06
# norbench - ノルウェーの言語モデルのベンチマーク

NorBench -- A Benchmark for Norwegian Language Models ( http://arxiv.org/abs/2305.03880v1 )

ライセンス: Link先を確認
David Samuel, Andrey Kutuzov, Samia Touileb, Erik Velldal, Lilja {\O}vrelid, Egil R{\o}nningstad, Elina Sigdel and Anna Palatkina(参考訳) 標準化されたデータ分割と評価指標に基づいてノルウェー語モデル(LM)を評価するためのNorBench: NLPタスクとプローブの合理化スイートを提案する。 また,ノルウェーの新しい言語モデル(エンコーダとエンコーダ-デコーダベースの両方)についても紹介する。 最後に、NorBenchの異なるベンチマークテストと比較して、それらのパフォーマンスと既存のLMを比較し、分析する。

We present NorBench: a streamlined suite of NLP tasks and probes for evaluating Norwegian language models (LMs) on standardized data splits and evaluation metrics. We also introduce a range of new Norwegian language models (both encoder and encoder-decoder based). Finally, we compare and analyze their performance, along with other existing LMs, across the different benchmark tests of NorBench.
翻訳日:2023-05-09 19:04:32 公開日:2023-05-06
# 関節拡散注意モデルを用いた高磁場・超高磁場MR画像からのPET画像の合成

Synthesizing PET images from High-field and Ultra-high-field MR images Using Joint Diffusion Attention Model ( http://arxiv.org/abs/2305.03901v1 )

ライセンス: Link先を確認
Taofeng Xie, Chentao Cao, Zhuoxu Cui, Yu Guo, Caiying Wu, Xuemei Wang, Qingneng Li, Zhanli Hu, Tao Sun, Ziru Sang, Yihang Zhou, Yanjie Zhu, Dong Liang, Qiyu Jin, Guoqing Chen, Haifeng Wang(参考訳) mriとpetは脳疾患の重要な診断ツールであり、脳の構造と機能に関する補完的な情報を提供する。 しかし、PETスキャンは高価であり、放射性曝露を伴うため、PETが欠如している。 また,超高磁場におけるPETとMRIの同時投与は,現在ではほとんど実現不可能である。 超高磁場イメージングは、臨床と学術の両方で、特に認知神経画像学の分野で、間違いなく有益であることが証明されている。 これらのことから,高フィルターMRIと超高磁場MRIの合成PET法を提案する。 統計学的観点から見ると、関節確率分布(JPD)はPETとMRIの相関を示す最も直接的かつ基本的な手段である。 本稿では,JDAMという共同確率分布と注意戦略を有する新しい共同拡散注意モデルを提案する。 JDAMは拡散過程とサンプリング過程を有する。 拡散過程はガウス雑音を付加することによりPETのガウス雑音への段階的な拡散を伴うが、MRIは固定されている。 拡散過程においてMRIとノイズ付加PETのJPDが得られた。 サンプリングプロセスは予測子補正器である。 PET画像はMRIのJSDとノイズ付加PETで生成した。 予測子は逆拡散過程であり、補正子はランゲヴィン力学である。 The public Alzheimer's Disease Neuroimaging Initiative (ADNI) データセットの実験結果は、提案手法が高磁場MRI(3T MRI)に対して最先端のCycleGANより優れていることを示している。 最後に,超高磁場(5T MRIと7T MRI)からのPET画像の合成を試みた。

MRI and PET are crucial diagnostic tools for brain diseases, as they provide complementary information on brain structure and function. However, PET scanning is costly and involves radioactive exposure, resulting in a lack of PET. Moreover, simultaneous PET and MRI at ultra-high-field are currently hardly infeasible. Ultra-high-field imaging has unquestionably proven valuable in both clinical and academic settings, especially in the field of cognitive neuroimaging. These motivate us to propose a method for synthetic PET from high-filed MRI and ultra-high-field MRI. From a statistical perspective, the joint probability distribution (JPD) is the most direct and fundamental means of portraying the correlation between PET and MRI. This paper proposes a novel joint diffusion attention model which has the joint probability distribution and attention strategy, named JDAM. JDAM has a diffusion process and a sampling process. The diffusion process involves the gradual diffusion of PET to Gaussian noise by adding Gaussian noise, while MRI remains fixed. JPD of MRI and noise-added PET was learned in the diffusion process. The sampling process is a predictor-corrector. PET images were generated from MRI by JPD of MRI and noise-added PET. The predictor is a reverse diffusion process and the corrector is Langevin dynamics. Experimental results on the public Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset demonstrate that the proposed method outperforms state-of-the-art CycleGAN for high-field MRI (3T MRI). Finally, synthetic PET images from the ultra-high-field (5T MRI and 7T MRI) be attempted, providing a possibility for ultra-high-field PET-MRI imaging.
翻訳日:2023-05-09 18:56:23 公開日:2023-05-06
# 機械学習におけるクラス不均衡の再考

Rethinking Class Imbalance in Machine Learning ( http://arxiv.org/abs/2305.03900v1 )

ライセンス: Link先を確認
Ou Wu(参考訳) 不均衡学習は、クラス不均衡の存在下での学習タスクに焦点を当てた機械学習のサブフィールドである。 既存の研究のほとんどはクラス不均衡を比例不均衡と呼び、各クラスにおけるトレーニングサンプルの割合はバランスが取れない。 比例不均衡の無知は、クラス間の不公平と一般化能力の低下をもたらす。 従来の文献では、理論的・経験的分析の手法や、不均衡学習の新しい手法が数多く提案されている。 本研究では,機械学習におけるクラス不均衡の新しい分類法を提案する。 その他の4種類の不均衡、すなわち分散、距離、近傍、および機械学習タスクに存在するかもしれないクラス間の品質不均衡を要約する。 グローバルとローカルを含む2つの異なる不均衡レベルも提示される。 理論解析は、新しい不均衡型が学習公正性に重大な影響を与えることを示すために用いられる。 さらに,本分類学と理論的結論は,いくつかの古典的手法の欠点を分析するために用いられる。 例えば,比例,分散,距離不均衡が同時に発生する場合の,新しいロジット摂動に基づく不均衡学習損失を提案する。 いくつかの古典的損失が提案手法の特別な場合となる。 メタ学習は、3種類の不均衡に関連するハイパーパラメータを推測するために利用される。 複数のベンチマークコーパスを用いた実験により,提案手法の有効性が検証された。

Imbalance learning is a subfield of machine learning that focuses on learning tasks in the presence of class imbalance. Nearly all existing studies refer to class imbalance as a proportion imbalance, where the proportion of training samples in each class is not balanced. The ignorance of the proportion imbalance will result in unfairness between/among classes and poor generalization capability. Previous literature has presented numerous methods for either theoretical/empirical analysis or new methods for imbalance learning. This study presents a new taxonomy of class imbalance in machine learning with a broader scope. Four other types of imbalance, namely, variance, distance, neighborhood, and quality imbalances between/among classes, which may exist in machine learning tasks, are summarized. Two different levels of imbalance including global and local are also presented. Theoretical analysis is used to illustrate the significant impact of the new imbalance types on learning fairness. Moreover, our taxonomy and theoretical conclusions are used to analyze the shortcomings of several classical methods. As an example, we propose a new logit perturbation-based imbalance learning loss when proportion, variance, and distance imbalances exist simultaneously. Several classical losses become the special case of our proposed method. Meta learning is utilized to infer the hyper-parameters related to the three types of imbalance. Experimental results on several benchmark corpora validate the effectiveness of the proposed method.
翻訳日:2023-05-09 18:56:01 公開日:2023-05-06
# NL-CSネット:画像圧縮センシングのための非ローカル事前学習

NL-CS Net: Deep Learning with Non-Local Prior for Image Compressive Sensing ( http://arxiv.org/abs/2305.03899v1 )

ライセンス: Link先を確認
Shuai Bian, Shouliang Qi, Chen Li, Yudong Yao and Yueyang Teng(参考訳) 近年,画像の圧縮センシング(cs)にディープラーニングが応用されている。 しかし、既存のネットワークベースの手法はしばしばブラックボックスとして訓練され、事前知識の欠如がさらなるパフォーマンス向上のボトルネックとなることが多い。 この欠点を克服するために,従来の最適化手法の解釈可能性と,NL-CS Netと呼ばれるネットワークベース手法の高速化を併用した,非局所的なCS手法を提案する。 ネットワークによる非局所およびスパース正規化最適化問題を解く拡張ラグランジアン法の反復から各位相をアンロールする。 NL-CS Netはアップサンプリングモジュールとリカバリモジュールで構成されている。 up-samplingモジュールでは、事前定義されたものの代わりに学習可能なアップサンプリングマトリックスを使用します。 リカバリモジュールでは、パッチワイズ非ローカルネットワークを使用して長距離特徴対応をキャプチャする。 重要なパラメータ(サンプリング行列、非線形変換、収縮しきい値、ステップサイズ、$etc.$)は手作りではなくエンドツーエンドで学習される。 さらに,実際の実装を容易にするため,サンプリング行列の直交制約とバイナリ制約を同時に適用した。 自然画像と磁気共鳴画像(MRI)の広汎な実験により,提案手法は高い解釈性と速度を維持しつつ,最先端の手法より優れていることが示された。

Deep learning has been applied to compressive sensing (CS) of images successfully in recent years. However, existing network-based methods are often trained as the black box, in which the lack of prior knowledge is often the bottleneck for further performance improvement. To overcome this drawback, this paper proposes a novel CS method using non-local prior which combines the interpretability of the traditional optimization methods with the speed of network-based methods, called NL-CS Net. We unroll each phase from iteration of the augmented Lagrangian method solving non-local and sparse regularized optimization problem by a network. NL-CS Net is composed of the up-sampling module and the recovery module. In the up-sampling module, we use learnable up-sampling matrix instead of a predefined one. In the recovery module, patch-wise non-local network is employed to capture long-range feature correspondences. Important parameters involved (e.g. sampling matrix, nonlinear transforms, shrinkage thresholds, step size, $etc.$) are learned end-to-end, rather than hand-crafted. Furthermore, to facilitate practical implementation, orthogonal and binary constraints on the sampling matrix are simultaneously adopted. Extensive experiments on natural images and magnetic resonance imaging (MRI) demonstrate that the proposed method outperforms the state-of-the-art methods while maintaining great interpretability and speed.
翻訳日:2023-05-09 18:55:41 公開日:2023-05-06
# 双子支持ベクトル量子化回帰

Twin support vector quantile regression ( http://arxiv.org/abs/2305.03894v1 )

ライセンス: Link先を確認
Yafen Ye (1)(2), Zhihu Xu (1), Jinhua Zhang (1), Weijie Chen (1)(3), Yuanhai Shao (4) ((1) School of Economics, Zhejiang University of Technology, Hangzhou, P.R.China, (2) Institute for Industrial System Modernization, Zhejiang University of Technology, Hangzhou, P.R.China, (3) Zhijiang College, Zhejiang University of Technology, Hangzhou, P.R.China, (4) Management School, Hainan University, Haikou, P. R. China)(参考訳) 現代データにおける異種・非対称な情報を取得するために,ツインサポートベクトル量子化回帰(TSVQR)を提案する。 定量化パラメータを用いて、TSVQRは、データポイントのすべての部分に関する異種分布情報を効果的に表現する。 TSVQRは2つの小さな二次計画問題(QPP)を構築し、2つの非平行平面を生成し、各量子レベルにおける下界と上界の間の分布非対称性を測定する。 TSVQRのQPPは、従来の量子回帰法よりも小さく、解決しやすい。 さらに、TSVQRの二重座標降下アルゴリズムもトレーニング速度を高速化する。 6つの人工的データセット,ffveベンチマークデータセット,2つの大規模データセット,2つの時系列データセット,および2つの不均衡データセットによる実験結果から,TSVQRは異種および非対称情報の完全取得と学習過程の効率性の観点から,従来の定量的回帰手法より優れていることが示された。

We propose a twin support vector quantile regression (TSVQR) to capture the heterogeneous and asymmetric information in modern data. Using a quantile parameter, TSVQR effectively depicts the heterogeneous distribution information with respect to all portions of data points. Correspondingly, TSVQR constructs two smaller sized quadratic programming problems (QPPs) to generate two nonparallel planes to measure the distributional asymmetry between the lower and upper bounds at each quantile level. The QPPs in TSVQR are smaller and easier to solve than those in previous quantile regression methods. Moreover, the dual coordinate descent algorithm for TSVQR also accelerates the training speed. Experimental results on six artiffcial data sets, ffve benchmark data sets, two large scale data sets, two time-series data sets, and two imbalanced data sets indicate that the TSVQR outperforms previous quantile regression methods in terms of the effectiveness of completely capturing the heterogeneous and asymmetric information and the efffciency of the learning process.
翻訳日:2023-05-09 18:55:18 公開日:2023-05-06
# DocDiff:残差拡散モデルによる文書化

DocDiff: Document Enhancement via Residual Diffusion Models ( http://arxiv.org/abs/2305.03892v1 )

ライセンス: Link先を確認
Zongyuan Yang, Baolin Liu, Yongping Xiong, Lan Yi, Guibin Wu, Xiaojun Tang, Ziqi Liu, Junjie Zhou, Xing Zhang(参考訳) 文書画像からの分解を取り除くことで、視覚的品質と可読性が向上するだけでなく、多数の自動文書解析と認識タスクのパフォーマンスも向上する。 しかし、画素レベルの歪み低減に最適化された既存の回帰に基づく手法は、高周波情報の大幅な損失を伴い、歪んだテキストエッジやぼやけたテキストに繋がる。 この大きな不足を補うために,ドキュメントデブラリング,デノージング,ウォーターマークやアザラシの除去など,さまざまな難解なドキュメント拡張問題用に特別に設計された最初の拡散ベースのフレームワークであるdocdiffを提案する。 DocDiffは2つのモジュールから構成される: 一次低周波コンテンツを復元する粗い予測器(CP)と、拡散モデルを採用して、接地構造とCP予測画像の間の残差(テキストエッジを含む高周波情報)を予測する高周波残差補正(HRR)モジュールである。 DocDiffは、よく設計されたネットワークアーキテクチャ、最適化されたトレーニング損失目標、短時間で決定論的サンプリングプロセスの恩恵を受ける、コンパクトで効率的なモデルである。 大規模な実験により、DocDiffは複数のベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現し、劣化した文書画像の読みやすさと認識性を大幅に向上させることができる。 さらに,事前学習したDocDiffのHRRモジュールは,4.17Mパラメータしか持たないプラグアンドプレイで使用可能である。 追加のジョイントトレーニングなしでSOTAデブロアリング法によって生成されたテキストエッジを大幅に強化する。 利用可能なコード:https://github.com/Royalvice/DocDiff

Removing degradation from document images not only improves their visual quality and readability, but also enhances the performance of numerous automated document analysis and recognition tasks. However, existing regression-based methods optimized for pixel-level distortion reduction tend to suffer from significant loss of high-frequency information, leading to distorted and blurred text edges. To compensate for this major deficiency, we propose DocDiff, the first diffusion-based framework specifically designed for diverse challenging document enhancement problems, including document deblurring, denoising, and removal of watermarks and seals. DocDiff consists of two modules: the Coarse Predictor (CP), which is responsible for recovering the primary low-frequency content, and the High-Frequency Residual Refinement (HRR) module, which adopts the diffusion models to predict the residual (high-frequency information, including text edges), between the ground-truth and the CP-predicted image. DocDiff is a compact and computationally efficient model that benefits from a well-designed network architecture, an optimized training loss objective, and a deterministic sampling process with short time steps. Extensive experiments demonstrate that DocDiff achieves state-of-the-art (SOTA) performance on multiple benchmark datasets, and can significantly enhance the readability and recognizability of degraded document images. Furthermore, our proposed HRR module in pre-trained DocDiff is plug-and-play and ready-to-use, with only 4.17M parameters. It greatly sharpens the text edges generated by SOTA deblurring methods without additional joint training. Available codes: https://github.com/Royalvice/DocDiff
翻訳日:2023-05-09 18:54:58 公開日:2023-05-06
# 非対称ネットワークによるクロスドメイン学習の近似

Approximation by non-symmetric networks for cross-domain learning ( http://arxiv.org/abs/2305.03890v1 )

ライセンス: Link先を確認
Hrushikesh Mhaskar(参考訳) 過去30年ほどの間、機械学習は、浅層や深層ニューラルネットワークによる近似、ラジアル基底関数ネットワーク、様々なカーネルベースの手法など、多数のプロセスの近似能力(表現力)の研究において、多くの研究を刺激してきた。 本稿では,不変学習,転送学習,合成開口レーダイメージングなどの応用を動機とし,非対称カーネルを用いたカーネルベースネットワークの近似能力を研究するための一般的なアプローチを開始する。 特異値分解は、そのような核を研究するための自然な本能であるが、より一般的なアプローチとして、一般化された翻訳ネットワーク(ニューラルネットワークや変換不変核を含む)や回転したゾナル関数核(英語版)のようなカーネル群の使用を考える。 当然、従来のカーネルベース近似とは異なり、カーネルが正定値である必要はない。 この結果は入力空間の次元と比較して、滑らかさの小さい関数の近似に適用できる。

For the past 30 years or so, machine learning has stimulated a great deal of research in the study of approximation capabilities (expressive power) of a multitude of processes, such as approximation by shallow or deep neural networks, radial basis function networks, and a variety of kernel based methods. Motivated by applications such as invariant learning, transfer learning, and synthetic aperture radar imaging, we initiate in this paper a general approach to study the approximation capabilities of kernel based networks using non-symmetric kernels. While singular value decomposition is a natural instinct to study such kernels, we consider a more general approach to include the use of a family of kernels, such as generalized translation networks (which include neural networks and translation invariant kernels as special cases) and rotated zonal function kernels. Naturally, unlike traditional kernel based approximation, we cannot require the kernels to be positive definite. Our results apply to the approximation of functions with small smoothness compared to the dimension of the input space.
翻訳日:2023-05-09 18:54:27 公開日:2023-05-06
# スポンジ中毒によるオンデバイスニューラルネットワークへのエネルギーレイテンシー攻撃

Energy-Latency Attacks to On-Device Neural Networks via Sponge Poisoning ( http://arxiv.org/abs/2305.03888v1 )

ライセンス: Link先を確認
Zijian Wang, Shuo Huang, Yujin Huang, Helei Cui(参考訳) 近年,モバイルデバイス向けの安価なディープラーニングアプリケーションを開発する手段として,デバイス上でのディープラーニングが注目されている。 しかし、オンデバイスモデルは限られたエネルギーと計算資源によって制約される。 スポンジ中毒(sponge poisoning)として知られる中毒攻撃が開発されており、この攻撃にはモデルに有毒な例を与えて推論中のエネルギー消費量を増やすことが含まれる。 これまでの作業ではサーバハードウェアアクセラレータに重点を置いていたため、スポンジ中毒攻撃をオンデバイスシナリオにまで拡張し、モバイルデバイスプロセッサの脆弱性を評価する。 オンデバイス環境における知識ギャップを埋めるため、ストリーミングと一貫性のある推論シナリオをシミュレートするオンデバイススポンジ中毒攻撃パイプラインを提案する。 プロセッサとオンデバイスネットワークによる排他的実験分析は、スポンジ中毒攻撃が、その内蔵アクセラレーターによって、現代のプロセッサを効果的に汚染することを示している。 我々はスポンジ中毒アルゴリズムにおける様々な要因の影響を分析し、デバイス上での深層学習アプリケーションに対する攻撃を防止するための防御機構の改善の必要性を強調した。

In recent years, on-device deep learning has gained attention as a means of developing affordable deep learning applications for mobile devices. However, on-device models are constrained by limited energy and computation resources. In the mean time, a poisoning attack known as sponge poisoning has been developed.This attack involves feeding the model with poisoned examples to increase the energy consumption during inference. As previous work is focusing on server hardware accelerators, in this work, we extend the sponge poisoning attack to an on-device scenario to evaluate the vulnerability of mobile device processors. We present an on-device sponge poisoning attack pipeline to simulate the streaming and consistent inference scenario to bridge the knowledge gap in the on-device setting. Our exclusive experimental analysis with processors and on-device networks shows that sponge poisoning attacks can effectively pollute the modern processor with its built-in accelerator. We analyze the impact of different factors in the sponge poisoning algorithm and highlight the need for improved defense mechanisms to prevent such attacks on on-device deep learning applications.
翻訳日:2023-05-09 18:54:12 公開日:2023-05-06
# 高次元および低ランクテンソルバンディットについて

On High-dimensional and Low-rank Tensor Bandits ( http://arxiv.org/abs/2305.03884v1 )

ライセンス: Link先を確認
Chengshuai Shi, Cong Shen, Nicholas D. Sidiropoulos(参考訳) 線形帯域に関する既存の研究は、全体システムの一次元的特徴付けに重点を置いている。 代表的である間、この定式化は、レコメンダシステムに対する低ランクテンソル表現のような高次元だが好ましい構造を持つアプリケーションをモデル化できないかもしれない。 この制限に対処するため、本研究では、動作とシステムのパラメータがベクトルに対してテンソルとして表現される一般的なテンソルバンディットモデルの研究を行い、未知系のテンソルが低ランクである場合に特に注目する。 TOFU(Tensor Optimism in the Face of Uncertainity)と呼ばれる新しいバンディットアルゴリズムを開発した。 TOFUはまずフレキシブルテンソル回帰法を利用して、システムテンソルに関連する低次元部分空間を推定する。 これらの推定値は、元の問題をシステムパラメータに制約のある新しいものに変換するために使われる。 最後に、TOFUは、これらの制約を利用して高次元パラメータ空間全体を探索するのを避けるために、ノルム制約付きバンディットサブルーチンを採用する。 理論的解析により、TOFUは系の順序で指数関数的に増加する乗法的因子により、最もよく知られた後悔の上界を改善することが示された。 また、TOFUの効率をさらに裏付ける新たな性能下限も確立されている。

Most existing studies on linear bandits focus on the one-dimensional characterization of the overall system. While being representative, this formulation may fail to model applications with high-dimensional but favorable structures, such as the low-rank tensor representation for recommender systems. To address this limitation, this work studies a general tensor bandits model, where actions and system parameters are represented by tensors as opposed to vectors, and we particularly focus on the case that the unknown system tensor is low-rank. A novel bandit algorithm, coined TOFU (Tensor Optimism in the Face of Uncertainty), is developed. TOFU first leverages flexible tensor regression techniques to estimate low-dimensional subspaces associated with the system tensor. These estimates are then utilized to convert the original problem to a new one with norm constraints on its system parameters. Lastly, a norm-constrained bandit subroutine is adopted by TOFU, which utilizes these constraints to avoid exploring the entire high-dimensional parameter space. Theoretical analyses show that TOFU improves the best-known regret upper bound by a multiplicative factor that grows exponentially in the system order. A novel performance lower bound is also established, which further corroborates the efficiency of TOFU.
翻訳日:2023-05-09 18:53:55 公開日:2023-05-06
# SINCERE: 共進化リーマン多様体上の逐次相互作用ネットワーク表現学習

SINCERE: Sequential Interaction Networks representation learning on Co-Evolving RiEmannian manifolds ( http://arxiv.org/abs/2305.03883v1 )

ライセンス: Link先を確認
Junda Ye, Zhongbao Zhang, Li Sun, Yang Yan, Feiyang Wang, Fuxin Ren(参考訳) 逐次インタラクションネットワーク(sin)は,ユーザとアイテム/製品間の相互影響を記述するために,レコメンデーションシステムや検索エンジン,ソーシャルネットワークなど,多くのアプリケーションで一般的に採用されている。 SINの表現は、主にユークリッド空間におけるネットワークのダイナミクスを捉えることに重点を置いており、近年では暗黙の階層学習のための双曲幾何学まで多くの研究が進められている。 ユーザやアイテムの埋め込み軌跡を学習する従来のアプローチは,有望な結果をもたらす。 しかし、まだ多くの根本的な問題が残っている。 例えば、ユーザとアイテムのノードを、固有の不一致に関わらず、同一のスペースに配置するのは適切か? 単一の固定曲率空間に常駐する代わりに、新しい相互作用が発生したとき、表現空間はどのように進化するのか? 逐次相互作用ネットワークにおけるこれらの問題を探索するため,Riemann多様体上での逐次相互作用ネットワークを表現する新しい手法であるSINCEREを提案する。 SIN-CEREは、ユーザとアイテムの埋め込み軌跡を考慮に入れているだけでなく、時間とともに曲率がどのように変化するかという空間の進化にも重点を置いている。 具体的には,共形不変性を破ることなく異なるリーマン多様体をまたいで情報を伝達できるフレッシュクロスジオメトリアグリゲーションと,現在の局所リッチ曲率に応じて大域的な曲率を効果的に予測するように微妙に設計された曲率推定器を導入する。 いくつかの実世界のデータセットに対する大規模な実験は、最先端のシーケンシャルな相互作用予測法に対するSINCEREの有望な性能を示す。

Sequential interaction networks (SIN) have been commonly adopted in many applications such as recommendation systems, search engines and social networks to describe the mutual influence between users and items/products. Efforts on representing SIN are mainly focused on capturing the dynamics of networks in Euclidean space, and recently plenty of work has extended to hyperbolic geometry for implicit hierarchical learning. Previous approaches which learn the embedding trajectories of users and items achieve promising results. However, there are still a range of fundamental issues remaining open. For example, is it appropriate to place user and item nodes in one identical space regardless of their inherent discrepancy? Instead of residing in a single fixed curvature space, how will the representation spaces evolve when new interaction occurs? To explore these issues for sequential interaction networks, we propose SINCERE, a novel method representing Sequential Interaction Networks on Co-Evolving RiEmannian manifolds. SIN- CERE not only takes the user and item embedding trajectories in respective spaces into account, but also emphasizes on the space evolvement that how curvature changes over time. Specifically, we introduce a fresh cross-geometry aggregation which allows us to propagate information across different Riemannian manifolds without breaking conformal invariance, and a curvature estimator which is delicately designed to predict global curvatures effectively according to current local Ricci curvatures. Extensive experiments on several real-world datasets demonstrate the promising performance of SINCERE over the state-of-the-art sequential interaction prediction methods.
翻訳日:2023-05-09 18:53:35 公開日:2023-05-06
# 画像検索の公正性:画像検索における職業ステレオタイピングとそのデバイアスに関する研究

Fairness in Image Search: A Study of Occupational Stereotyping in Image Retrieval and its Debiasing ( http://arxiv.org/abs/2305.03881v1 )

ライセンス: Link先を確認
Swagatika Dash, Yunhe Feng(参考訳) マルチモーダル検索エンジンは近年大きく成長し、広く利用されている。 検索エンジンシステムは様々なサービスを提供しているが、画像検索分野は最近、情報検索コミュニティの焦点となっている。 Googleのような人気検索エンジンは画像検索の精度と俊敏性に優れているが、検索結果が性別、言語、人口統計、社会文化的側面、ステレオタイプに偏っているかどうかについては議論が続いている。 このバイアスの可能性は個人の知覚に重大な影響を与え、視点に影響を与える可能性がある。 本稿では,web検索におけるバイアスと公平性について,キーワードに基づく画像検索を中心に検討する。 まず,検索システムに存在する複数のバイアスと,それらを軽減することが重要である理由について論じる。 我々は,画像検索における作業的ステレオタイプの評価と緩和に本研究を絞り込み,画像検索におけるフェアネス問題となっている。 ステレオタイプの評価では、ジェンダーを指標として捉えている。 画像から性別を識別するための様々なオープンソースおよびプロプライエタリなAPIについて検討する。 本研究では,複数の作業用キーワードを用いたトップタンク画像検索結果における性別バイアスの程度について検討する。 バイアスを軽減するために、最適化する公平性を考慮した再格付けアルゴリズムを提案する。 (a)キーワードによる検索結果の関連性及び b) 性別の公平性。 10個の作業キーワードから得られた上位100画像について実験を行い,関連度に基づく無作為な再ランク付けと再ランク付けをベースラインとして検討した。 実験の結果,公平度対応再ランク付けアルゴリズムは,基準値よりも公平度スコアと競合性スコアの高いランキングを生成することがわかった。

Multi-modal search engines have experienced significant growth and widespread use in recent years, making them the second most common internet use. While search engine systems offer a range of services, the image search field has recently become a focal point in the information retrieval community, as the adage goes, "a picture is worth a thousand words". Although popular search engines like Google excel at image search accuracy and agility, there is an ongoing debate over whether their search results can be biased in terms of gender, language, demographics, socio-cultural aspects, and stereotypes. This potential for bias can have a significant impact on individuals' perceptions and influence their perspectives. In this paper, we present our study on bias and fairness in web search, with a focus on keyword-based image search. We first discuss several kinds of biases that exist in search systems and why it is important to mitigate them. We narrow down our study to assessing and mitigating occupational stereotypes in image search, which is a prevalent fairness issue in image retrieval. For the assessment of stereotypes, we take gender as an indicator. We explore various open-source and proprietary APIs for gender identification from images. With these, we examine the extent of gender bias in top-tanked image search results obtained for several occupational keywords. To mitigate the bias, we then propose a fairness-aware re-ranking algorithm that optimizes (a) relevance of the search result with the keyword and (b) fairness w.r.t genders identified. We experiment on 100 top-ranked images obtained for 10 occupational keywords and consider random re-ranking and re-ranking based on relevance as baselines. Our experimental results show that the fairness-aware re-ranking algorithm produces rankings with better fairness scores and competitive relevance scores than the baselines.
翻訳日:2023-05-09 18:53:09 公開日:2023-05-06
# 自動時空間グラフコントラスト学習

Automated Spatio-Temporal Graph Contrastive Learning ( http://arxiv.org/abs/2305.03920v1 )

ライセンス: Link先を確認
Qianru Zhang, Chao Huang, Lianghao Xia, Zheng Wang, Zhonghang Li and Siuming Yiu(参考訳) 様々な領域埋め込み手法のうち、グラフニューラルネットワークと空間相関を符号化する強構造表現能力のため、グラフベースの領域関係学習モデルが際立っている。 有効性にもかかわらず、既存の手法ではいくつかの重要な課題が解決されていない。 一 様々な要因により、時空間的シナリオにおいて、データのノイズ及び欠落がユビキタスである。 二 時空間データの入力(例えば、モビリティトレース)は通常、空間と時間にわたって分布の不均一性を示す。 このような場合、現在の手法は生成した領域グラフの品質に弱いため、最適以下の性能につながる可能性がある。 本稿では,マルチビューデータソースから生成される異種領域グラフに対して,自動時空間グラフコントラスト学習パラダイム(AutoST)を探索することにより,上記の課題に取り組む。 我々の \model\ フレームワークは、POI セマンティクス、移動フローパターン、地理的位置に関する多視点領域の依存関係をキャプチャする異種グラフニューラルネットワークアーキテクチャ上に構築されている。 データノイズや分布問題に対するGNNエンコーダのロバスト性を改善するため,パラメータ化コントラストビュージェネレータを用いた時空間自動拡張方式を設計する。 autostは、マルチビューセマンティクスをよく保存した時空間不均質グラフに適応することができる。 複数の実世界のデータセット上での3つの下流時空間マイニングタスクに対する大規模な実験は、様々なベースライン上での我々の \model\ による顕著なパフォーマンス向上を実証している。 コードはhttps://github.com/HKUDS/AutoSTで公開されている。

Among various region embedding methods, graph-based region relation learning models stand out, owing to their strong structure representation ability for encoding spatial correlations with graph neural networks. Despite their effectiveness, several key challenges have not been well addressed in existing methods: i) Data noise and missing are ubiquitous in many spatio-temporal scenarios due to a variety of factors. ii) Input spatio-temporal data (e.g., mobility traces) usually exhibits distribution heterogeneity across space and time. In such cases, current methods are vulnerable to the quality of the generated region graphs, which may lead to suboptimal performance. In this paper, we tackle the above challenges by exploring the Automated Spatio-Temporal graph contrastive learning paradigm (AutoST) over the heterogeneous region graph generated from multi-view data sources. Our \model\ framework is built upon a heterogeneous graph neural architecture to capture the multi-view region dependencies with respect to POI semantics, mobility flow patterns and geographical positions. To improve the robustness of our GNN encoder against data noise and distribution issues, we design an automated spatio-temporal augmentation scheme with a parameterized contrastive view generator. AutoST can adapt to the spatio-temporal heterogeneous graph with multi-view semantics well preserved. Extensive experiments for three downstream spatio-temporal mining tasks on several real-world datasets demonstrate the significant performance gain achieved by our \model\ over a variety of baselines. The code is publicly available at https://github.com/HKUDS/AutoST.
翻訳日:2023-05-09 18:46:27 公開日:2023-05-06
# DBAT:クロスリゾリューションパッチを用いた材料セグメンテーション用動的後方アテンション変圧器

DBAT: Dynamic Backward Attention Transformer for Material Segmentation with Cross-Resolution Patches ( http://arxiv.org/abs/2305.03919v1 )

ライセンス: Link先を確認
Yuwen Heng, Srinandan Dasmahapatra, Hansung Kim(参考訳) 濃密な材料セグメンテーションの目的は、各画像画素の材料カテゴリを特定することである。 近年の研究では、画像パッチを用いて材料の特徴を抽出している。 訓練されたネットワークは、セグメンテーション性能を向上させることができるが、それぞれの素材がカバーする画素領域の変動を考慮に入れない固定パッチ解像度を選択する。 本稿では,クロスレゾリューション特徴を集約する動的後方注意変換器(DBAT)を提案する。 dbatは、切り抜いたイメージパッチを入力として入力し、トレーニング中にパッチの解像度を固定するのではなく、各トランスフォーマーステージに隣接するパッチをマージすることで、パッチの解像度を徐々に向上させる。 クロスレゾリューションパッチから抽出した中間機能を明示的に収集し,予測したアテンションマスクと動的にマージする。 実験の結果,DBATの精度は86.85%であり,最先端のリアルタイムモデルの中でも最高の性能を示している。 複雑なアーキテクチャを持つ他の成功したディープラーニングソリューションと同様に、DBATも解釈可能性の欠如に悩まされている。 この問題に対処するために,本稿ではDBATが利用する特性について検討する。 クロスレゾリューションの特徴と注意重みを解析することにより,DBATが画像パッチからどのように学習するかを解釈する。 さらに,提案モデルが他の手法よりも優れた材料関連特徴を抽出できることを示すため,セマンティックなラベルにアライメントし,ネットワーク分割を行う。 我々はDBATモデルがネットワーク初期化に対してより堅牢であることを示し、他のモデルと比較して変数予測が少ないことを示す。 プロジェクトのコードはhttps://github.com/heng-yuwen/Dynamic-Backward-Attention-Transformerで公開されている。

The objective of dense material segmentation is to identify the material categories for every image pixel. Recent studies adopt image patches to extract material features. Although the trained networks can improve the segmentation performance, their methods choose a fixed patch resolution which fails to take into account the variation in pixel area covered by each material. In this paper, we propose the Dynamic Backward Attention Transformer (DBAT) to aggregate cross-resolution features. The DBAT takes cropped image patches as input and gradually increases the patch resolution by merging adjacent patches at each transformer stage, instead of fixing the patch resolution during training. We explicitly gather the intermediate features extracted from cross-resolution patches and merge them dynamically with predicted attention masks. Experiments show that our DBAT achieves an accuracy of 86.85%, which is the best performance among state-of-the-art real-time models. Like other successful deep learning solutions with complex architectures, the DBAT also suffers from lack of interpretability. To address this problem, this paper examines the properties that the DBAT makes use of. By analysing the cross-resolution features and the attention weights, this paper interprets how the DBAT learns from image patches. We further align features to semantic labels, performing network dissection, to infer that the proposed model can extract material-related features better than other methods. We show that the DBAT model is more robust to network initialisation, and yields fewer variable predictions compared to other models. The project code is available at https://github.com/heng-yuwen/Dynamic-Backward-Attention-Transformer.
翻訳日:2023-05-09 18:46:09 公開日:2023-05-06
# 古典的および量子振動系における構造的不確かさと初期状態誤差を伴う外乱非依存ロバスト性能

Disturbance-agnostic robust performance with structured uncertainties and initial state error in classical versus quantum oscillatory systems ( http://arxiv.org/abs/2305.03918v1 )

ライセンス: Link先を確認
Edmond Jonckheere, Sophie G. Schirmer, Frank C. Langbein, Carrie A. Weidner, and Sean O'Neil(参考訳) 構成パラメータの変動や外乱よりも初期状態エラーが主な性能制限因子である状況に対して、ロバストな性能を定量化する手法を提案する。 このアプローチは、人工的に課された障害ではなく、摂動状態または摂動状態によって駆動される、名目と摂動力学の差であるエラーダイナミクスに基づいている。 非摂動型と摂動型は、摂動型または摂動型のいずれかによってスケールされた相対誤差ダイナミクスと解釈できる。 非摂動状態によって引き起こされる誤差ダイナミクスは、物理的に有意な不確実性の影響を加法的外乱から分離するユニークな特徴を持つ。 摂動ケースは、side-step structured singular value (ssv)計算を可能にする。 軽量減衰メカニカルシステムと緩やかに強調される量子システムへの応用は、幅広いシステムにわたる概念の有用性を示している。 最後に、不確かさの非線形な方法で状態遷移が変化する量子システム向けに特別に開発された固定点アルゴリズムを古典的ssvの代用として提案する。

A method to quantify robust performance for situations where structured parameter variations and initial state errors rather than extraneous disturbances are the main performance limiting factors is presented. The approach is based on the error dynamics, the difference between nominal and perturbed dynamics, driven by either the unperturbed or perturbed state, rather than an artificially imposed disturbance. The unperturbed versus perturbed dichotomy can be interpreted as the relative error dynamics scaled by either the unperturbed or perturbed dynamics. The error dynamics driven by unperturbed state has the unique feature of decoupling the effect of physically meaningful uncertainties from an additive disturbance. The perturbed case offers the possibility to side-step Structured Singular Value (SSV) computations. Applications to a lightly damped mechanical system and a slowly dephasing quantum system demonstrate the usefulness of the concepts across a broad range of systems. Finally, a fixed-point algorithm specifically developed for quantum systems with state transitions depending in a nonlinear fashion on uncertainties is proposed as the substitute for classical SSV.
翻訳日:2023-05-09 18:45:41 公開日:2023-05-06
# 固有デコヒーレンス下における移動ミラー場ダイナミクス

Moving mirror-field dynamics under intrinsic decoherence ( http://arxiv.org/abs/2305.03917v1 )

ライセンス: Link先を確認
Alejandro R. Urz\'ua and H\'ector M. Moya-Cessa(参考訳) 鏡面相互作用における減衰ダイナミクスを本質的デコヒーレンススキームを用いて検討する。 変位作用素を用いたミラー場ハミルトニアンの因子分解により、任意の初期条件に対するミルバーン方程式の明示解を計算することができる。 得られた解に対する期待値,相関関数,フシミ関数を示す。

We study the decaying dynamics in the mirror-field interaction by means of the intrinsic decoherence scheme. Factorization of the mirror-field Hamiltonian with the use of displacement operators, allows us to calculate the explicit solution to Milburn's equation for arbitrary initial conditions. We show expectation values, correlations, and Husimi functions for the solutions obtained.
翻訳日:2023-05-09 18:45:25 公開日:2023-05-06
# HateMM:Hate Video分類のためのマルチモーダルデータセット

HateMM: A Multi-Modal Dataset for Hate Video Classification ( http://arxiv.org/abs/2305.03915v1 )

ライセンス: Link先を確認
Mithun Das, Rohit Raj, Punyajoy Saha, Binny Mathew, Manish Gupta, Animesh Mukherjee(参考訳) ヘイトスピーチは現代社会で最も重要な問題の一つとなり、オンラインとオフラインの両方に影響を及ぼしている。 このため、最近はヘイトスピーチ研究が注目を集めている。 しかし、ほとんどの作品は主にテキストメディアに焦点を合わせており、画像は比較的少ないし、ビデオも少ない。 したがって、プラットフォームを安全かつ健全に保つためにアップロードされているビデオを扱うには、早期自動ビデオモデレーション技術が必要である。 ビデオ共有プラットフォームからヘイトフルなコンテンツの検出と削除を行うため,本研究はマルチモダリティを用いたヘイトビデオの検出に重点を置いている。 この目的のために、BitChuteから43時間のビデオをキュレートし、それをヘイトや非ヘイトとして手動で注釈付けし、フレームスパンにラベル付けの決定を説明する。 関連するビデオを集めるために、hat lexiconsの検索キーワードを利用した。 画像やヘイトフルビデオの音声の様々な手がかりを観察した。 さらに,ハイトビデオの分類を行う深層学習型マルチモーダルモデルを構築し,ビデオのすべてのモダリティを使用することで,マクロF1スコアにおいて最高のユニモーダルモデルと比較して,全体のヘイトスピーチ検出性能(精度=0.798,マクロF1スコア=0.790)が約5.7%向上することを確認した。 要約すると、われわれの研究はBitChuteのようなビデオホスティングプラットフォーム上でのヘイトフルビデオの理解とモデリングに向けた第一歩を踏み出した。

Hate speech has become one of the most significant issues in modern society, having implications in both the online and the offline world. Due to this, hate speech research has recently gained a lot of traction. However, most of the work has primarily focused on text media with relatively little work on images and even lesser on videos. Thus, early stage automated video moderation techniques are needed to handle the videos that are being uploaded to keep the platform safe and healthy. With a view to detect and remove hateful content from the video sharing platforms, our work focuses on hate video detection using multi-modalities. To this end, we curate ~43 hours of videos from BitChute and manually annotate them as hate or non-hate, along with the frame spans which could explain the labelling decision. To collect the relevant videos we harnessed search keywords from hate lexicons. We observe various cues in images and audio of hateful videos. Further, we build deep learning multi-modal models to classify the hate videos and observe that using all the modalities of the videos improves the overall hate speech detection performance (accuracy=0.798, macro F1-score=0.790) by ~5.7% compared to the best uni-modal model in terms of macro F1 score. In summary, our work takes the first step toward understanding and modeling hateful videos on video hosting platforms such as BitChute.
翻訳日:2023-05-09 18:45:20 公開日:2023-05-06
# 未知過程雑音共分散を有する変分非線形カルマンフィルタ

Variational Nonlinear Kalman Filtering with Unknown Process Noise Covariance ( http://arxiv.org/abs/2305.03914v1 )

ライセンス: Link先を確認
Hua Lan and Jinjie Hu and Zengfu Wang and Qiang Cheng(参考訳) 本稿では, レーダーやソナーなどのセンサを用いた目標追跡を動機とし, 非線形状態空間モデルにおける動的状態と時間変化過程ノイズの共分散のジョイントと再帰的推定について検討する。 モデルの非線形性と非共役性により、一般の非線形関数と未知のプロセスノイズ共分散の積分を含む状態推定問題は一般に難解であり、閉形式解を持たない後確率分布関数をもたらす。 本稿では, 近似ベイズ推定原理に基づく非線形状態推定とモデルパラメータ同定のための再帰解を提案する。 確率的探索変分推論は、後方分布の柔軟で正確で効果的な近似を提供するために採用される。 既存の変分推論に基づく雑音適応フィルタ法と比較して,2つの貢献がある。 まず,動的状態の潜在変数とプロセスノイズ共分散を分離する補助潜在変数を導入することにより,後方推定の柔軟性が向上する。 次に,変分下限最適化を共役部分と非共役部分に分け,共役項を直接最適化し,閉形式解を許容し,非共役項を自然勾配で最適化し,推論速度と精度のトレードオフを実現する。 提案手法の性能は,シミュレーションデータと実世界データの両方を用いて,レーダ目標追跡アプリケーション上で検証される。

Motivated by the maneuvering target tracking with sensors such as radar and sonar, this paper considers the joint and recursive estimation of the dynamic state and the time-varying process noise covariance in nonlinear state space models. Due to the nonlinearity of the models and the non-conjugate prior, the state estimation problem is generally intractable as it involves integrals of general nonlinear functions and unknown process noise covariance, resulting in the posterior probability distribution functions lacking closed-form solutions. This paper presents a recursive solution for joint nonlinear state estimation and model parameters identification based on the approximate Bayesian inference principle. The stochastic search variational inference is adopted to offer a flexible, accurate, and effective approximation of the posterior distributions. We make two contributions compared to existing variational inference-based noise adaptive filtering methods. First, we introduce an auxiliary latent variable to decouple the latent variables of dynamic state and process noise covariance, thereby improving the flexibility of the posterior inference. Second, we split the variational lower bound optimization into conjugate and non-conjugate parts, whereas the conjugate terms are directly optimized that admit a closed-form solution and the non-conjugate terms are optimized by natural gradients, achieving the trade-off between inference speed and accuracy. The performance of the proposed method is verified on radar target tracking applications by both simulated and real-world data.
翻訳日:2023-05-09 18:44:51 公開日:2023-05-06
# 確率的TransUNetを用いたホワイトマターハイパーインテンシティセグメンテーション

White Matter Hyperintensities Segmentation Using Probabilistic TransUNet ( http://arxiv.org/abs/2305.03912v1 )

ライセンス: Link先を確認
Muhammad Noor Dwi Eldianto, Muhammad Febrian Rachmadi, Wisnu Jatmiko(参考訳) ホワイトマター・ハイパーインテンシティ(White Matter Hyperintensities、WMH)は、MRI(MRI)スキャンにおいて、他の通常の脳領域よりも強い強度を持つ脳の領域である。 WMHはしばしば脳の小さな血管疾患と関連しており、WMHの早期発見が重要である。 しかしながら、WMHの検出には2つの一般的な問題がある: 曖昧さと小さなWMHの検出の困難さである。 本研究では,小物体分割の精度と医用画像のあいまいさに対処するため,確率的トランスUNetという手法を提案する。 モデル性能を測定するために,k-fold cross validationとcross dataset robustness実験を行った。 実験に基づき、確率モデルの追加とトランスフォーマーベースのアプローチを用いることで、より良い性能を実現することができた。

White Matter Hyperintensities (WMH) are areas of the brain that have higher intensity than other normal brain regions on Magnetic Resonance Imaging (MRI) scans. WMH is often associated with small vessel disease in the brain, making early detection of WMH important. However, there are two common issues in the detection of WMH: high ambiguity and difficulty in detecting small WMH. In this study, we propose a method called Probabilistic TransUNet to address the precision of small object segmentation and the high ambiguity of medical images. To measure model performance, we conducted a k-fold cross validation and cross dataset robustness experiment. Based on the experiments, the addition of a probabilistic model and the use of a transformer-based approach were able to achieve better performance.
翻訳日:2023-05-09 18:44:29 公開日:2023-05-06
# 高速量子鍵配信システムにおけるiq変調器を用いたパターニング効果の抑制

Suppression of patterning effect using IQ modulator for high-speed quantum key distribution systems ( http://arxiv.org/abs/2305.03909v1 )

ライセンス: Link先を確認
Yuanfei Gao and Zhiliang Yuan(参考訳) 量子鍵分散(QKD)は、秘密鍵を遠隔ユーザー間で配布する魅力的な技術である。 デコイ状態技術は実用性と性能を大幅に改善し、商業システムにも広く採用されている。 しかし,従来のインテンシティ変調器は,非定常作業点をデコイ状態生成に用いたため,高速QKDシステムにセキュリティサイドチャネルを導入することができる。 ここでは, 液相/四面体変調器(IQ)の伝達関数を解析し, 安定デコイ状態発生の優位性を明らかにする。 IQ変調器は、便利な2レベル変調と固有の高速により、高速デコイ状態QKDシステムに最適である。

Quantum key distribution (QKD) is an attractive technology for distributing secret encryption keys between distant users. The decoy-state technique has drastically improved its practicality and performance, and has been widely adopted in commercial systems. However, conventional intensity modulators can introduce security side channels in high speed QKD systems because of their non-stationary working points for decoy-state generation. Here, we analyze the transfer function of an in-phase/quadrature (IQ) modulator and reveal its superiority for stable decoy-state generation, followed by an experimental demonstration. Thanks to their convenient two-level modulation and inherent high speed, IQ modulators are ideal for use in high-speed decoy-state QKD systems.
翻訳日:2023-05-09 18:44:13 公開日:2023-05-06
# 未来を覗き見する: 音声-視覚エゴセントリックな視線予測

Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation ( http://arxiv.org/abs/2305.03907v1 )

ライセンス: Link先を確認
Bolin Lai, Fiona Ryan, Wenqi Jia, Miao Liu, James M. Rehg(参考訳) エゴセントリックな視線予測は、拡張現実の新たな能力の鍵となる構成要素である。 特に、視線行動は、毎日の活動中に視覚手がかりと音声信号の両方によって駆動される。 この観察に動機づけられて,映像と音声の両方のモダリティを利用した最初のモデルを提案する。 具体的には,空間的および時間的次元における音響-視覚的相関を分離して捉えるための2つのモジュールを用いた,csts(con contrastive spatial-temporal separable)融合手法を提案する。 ego4d と aria という2つのエゴセントリックビデオデータセットを用いて広範なアブレーション研究と解析を行い,モデル設計の検証を行った。 また,先行する最先端メソッドに対する改善も示す。 さらに,視線予測結果を表示するための可視化や,視聴覚表現学習に関するさらなる洞察を提供する。

Egocentric gaze anticipation serves as a key building block for the emerging capability of Augmented Reality. Notably, gaze behavior is driven by both visual cues and audio signals during daily activities. Motivated by this observation, we introduce the first model that leverages both the video and audio modalities for egocentric gaze anticipation. Specifically, we propose a Contrastive Spatial-Temporal Separable (CSTS) fusion approach that adopts two modules to separately capture audio-visual correlations in spatial and temporal dimensions, and applies a contrastive loss on the re-weighted audio-visual features from fusion modules for representation learning. We conduct extensive ablation studies and thorough analysis using two egocentric video datasets: Ego4D and Aria, to validate our model design. We also demonstrate improvements over prior state-of-the-art methods. Moreover, we provide visualizations to show the gaze anticipation results and provide additional insights into audio-visual representation learning.
翻訳日:2023-05-09 18:43:59 公開日:2023-05-06
# 必要なプロンプト:アンカーベースのプロンプトによる雨のシーンのセグメンテーション強化

Prompt What You Need: Enhancing Segmentation in Rainy Scenes with Anchor-based Prompting ( http://arxiv.org/abs/2305.03902v1 )

ライセンス: Link先を確認
Xiaoyu Guo, Xiang Wei, Qi Su, Huiqin Zhao and Shunli Zhan(参考訳) 雨場のセマンティックセグメンテーションは、複雑な環境、クラス分布の不均衡、限られた注釈付きデータのために難しい課題である。 これらの課題に対処するために,半教師付き学習と事前学習されたセグメンテーション基礎モデルを用いた新しいフレームワークを提案する。 具体的には、半教師付きモデルを利用して生のセグメンテーション結果を生成するとともに、事前訓練された基礎モデルにエントロピーベースのアンカーによる知識ギャップを補うための指導力として機能する。 また,事前学習した基礎モデルが生み出す無関係なセグメンテーションマスクの影響を最小限に抑えるために,最小リスクの原理に基づいて生のセグメンテーション結果を最適化するマスクフィルタリングと融合機構を提案する。 提案するフレームワークは,Rainy WCityデータセット上でのセグメンテーション性能に優れ,ICME 2023 Grand ChallengesにおいてSTRAINのサブトラックで1位を獲得している。

Semantic segmentation in rainy scenes is a challenging task due to the complex environment, class distribution imbalance, and limited annotated data. To address these challenges, we propose a novel framework that utilizes semi-supervised learning and pre-trained segmentation foundation model to achieve superior performance. Specifically, our framework leverages the semi-supervised model as the basis for generating raw semantic segmentation results, while also serving as a guiding force to prompt pre-trained foundation model to compensate for knowledge gaps with entropy-based anchors. In addition, to minimize the impact of irrelevant segmentation masks generated by the pre-trained foundation model, we also propose a mask filtering and fusion mechanism that optimizes raw semantic segmentation results based on the principle of minimum risk. The proposed framework achieves superior segmentation performance on the Rainy WCity dataset and is awarded the first prize in the sub-track of STRAIN in ICME 2023 Grand Challenges.
翻訳日:2023-05-09 18:43:39 公開日:2023-05-06
# 6次元非定常マニピュレーションのためのハイブリッドアクタ・クリティカルマップの学習

Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation ( http://arxiv.org/abs/2305.03942v1 )

ライセンス: Link先を確認
Wenxuan Zhou, Bowen Jiang, Fan Yang, Chris Paxton, David Held(参考訳) 物を握らずに操作することは、人間の器用さに欠かせない要素であり、非理解的な操作と呼ばれる。 非包括的操作は、オブジェクトとのより複雑な相互作用を可能にするだけでなく、相互作用を推論する際の課題も提示する。 本研究では,物体の6次元非包括的操作のための強化学習手法であるHybrid Actor-Critic Maps for Manipulation (HACMan)を紹介する。 HACManは、オブジェクトポイントクラウドから接触位置を選択することと、ロボットが接触した後どのように動くかを記述した一連の動きパラメータからなる、時間的に制限された空間的空間的なオブジェクト中心のアクション表現を提案する。 我々は、このハイブリッド離散連続アクション表現で学習するために、既存のオフポリチィRLアルゴリズムを変更した。 シミュレーションおよび実世界における6次元オブジェクトポーズアライメントタスクにおけるHACManの評価を行った。 最も難しいバージョンでは、ランダム化された初期ポーズ、ランダム化された6Dゴール、多種多様なオブジェクトカテゴリを用いて、パフォーマンス低下のないオブジェクトカテゴリへの強力な一般化を示し、非フラットなオブジェクトに対して79%の成功率を達成した。 代替アクション表現と比較して、HACManは最高のベースラインの3倍以上の成功率を達成する。 ゼロショットのsim2realトランスファーでは、動的かつ接触に富んだ非包括的スキルを用いて、現実の未確認物体をうまく操作できる。 ビデオはプロジェクトのWebサイト(https://hacman-2023.github.io)で見ることができる。

Manipulating objects without grasping them is an essential component of human dexterity, referred to as non-prehensile manipulation. Non-prehensile manipulation may enable more complex interactions with the objects, but also presents challenges in reasoning about the interactions. In this work, we introduce Hybrid Actor-Critic Maps for Manipulation (HACMan), a reinforcement learning approach for 6D non-prehensile manipulation of objects using point cloud observations. HACMan proposes a temporally-abstracted and spatially-grounded object-centric action representation that consists of selecting a contact location from the object point cloud and a set of motion parameters describing how the robot will move after making contact. We modify an existing off-policy RL algorithm to learn in this hybrid discrete-continuous action representation. We evaluate HACMan on a 6D object pose alignment task in both simulation and in the real world. On the hardest version of our task, with randomized initial pose, randomized 6D goals, and diverse object categories, our policy demonstrates strong generalization to unseen object categories without a performance drop, achieving a 79% success rate on non-flat objects. Compared to alternative action representations, HACMan achieves a success rate more than three times higher than the best baseline. With zero-shot sim2real transfer, our policy can successfully manipulate unseen objects in the real world for challenging non-planar goals, using dynamic and contact-rich non-prehensile skills. Videos can be found on the project website: https://hacman-2023.github.io .
翻訳日:2023-05-09 18:37:28 公開日:2023-05-06
# 6状態量子鍵分布の簡単なセキュリティ証明

A simpler security proof for 6-state quantum key distribution ( http://arxiv.org/abs/2305.03940v1 )

ライセンス: Link先を確認
Kaan Akyuz and Boris Skoric(参考訳) 6状態量子鍵分布(QKD)は、量子ビットベースのQKDスキームのクラスで最も高い鍵レートを達成する。 2005年から開発された標準セキュリティ証明は、滑らかなレーニーエントロピーを含む複雑な定理を導く。 本稿では,Renyiエントロピーを完全に回避した6状態QKDのセキュリティ証明を提案する。 これはベルベースで直接状態平滑化を適用することで達成される。 さらに,同じ証明手法を6状態の量子鍵リサイクルにも利用できることを示した。

Six-state Quantum Key Distribution (QKD) achieves the highest key rate in the class of qubit-based QKD schemes. The standard security proof, which has been developed since 2005, invokes complicated theorems involving smooth Renyi entropies. In this paper we present a simpler security proof for 6-state QKD that entirely avoids Renyi entropies. This is achieved by applying state smoothing directly in the Bell basis. We furthermore show that the same proof technique can be used for 6-state quantum key recycling.
翻訳日:2023-05-09 18:37:00 公開日:2023-05-06
# 収束保証付き非スムース最適化のためのadam-family法

Adam-family Methods for Nonsmooth Optimization with Convergence Guarantees ( http://arxiv.org/abs/2305.03938v1 )

ライセンス: Link先を確認
Nachuan Xiao, Xiaoyin Hu, Xin Liu, Kim-Chuan Toh(参考訳) 本稿では,非滑らかなニューラルネットワークのトレーニングにおいて,非滑らかな最適化のためのAdam系手法の収束特性に関する総合的研究を行う。 本稿では,2段階の更新方式を採用した新しい2段階のフレームワークを提案し,その収束特性を軽度な仮定で証明する。 提案手法は,様々なadam-family法を包含し,非スムースニューラルネットワークの学習におけるこれらの手法に対する収束保証を提供する。 さらに,重み付き雑音を伴う非平滑ニューラルネットワークのトレーニングのための勾配クリッピング手法を取り入れた確率的下位段階法を開発した。 提案手法は,評価ノイズが積分可能であると仮定された場合にのみ収束することを示す。 大規模数値実験により,提案手法の高効率性とロバスト性を示す。

In this paper, we present a comprehensive study on the convergence properties of Adam-family methods for nonsmooth optimization, especially in the training of nonsmooth neural networks. We introduce a novel two-timescale framework that adopts a two-timescale updating scheme, and prove its convergence properties under mild assumptions. Our proposed framework encompasses various popular Adam-family methods, providing convergence guarantees for these methods in training nonsmooth neural networks. Furthermore, we develop stochastic subgradient methods that incorporate gradient clipping techniques for training nonsmooth neural networks with heavy-tailed noise. Through our framework, we show that our proposed methods converge even when the evaluation noises are only assumed to be integrable. Extensive numerical experiments demonstrate the high efficiency and robustness of our proposed methods.
翻訳日:2023-05-09 18:36:53 公開日:2023-05-06
# Residual Prompt Tuning: Residual ReparameterizationによるPrompt Tuningの改善

Residual Prompt Tuning: Improving Prompt Tuning with Residual Reparameterization ( http://arxiv.org/abs/2305.03937v1 )

ライセンス: Link先を確認
Anastasia Razdaibiedina, Yuning Mao, Rui Hou, Madian Khabsa, Mike Lewis, Jimmy Ba, Amjad Almahairi(参考訳) プロンプトチューニングは、事前訓練された言語モデルのパラメータ効率チューニングにおける成功例の1つである。 最もパラメータ効率が高い(チューニングされたソフトプロンプトは総パラメータの0.1%を占める)にもかかわらず、通常は他の効率的なチューニング方法よりも悪く、ハイパーパラメータに非常に敏感である。 本研究では,逐次チューニングの性能と安定性を大幅に向上させるシンプルで効率的な手法であるResidual Prompt Tuningを紹介する。 残差接続を有する浅いネットワークを用いてソフトプロンプト埋め込みを再パラメータ化することを提案する。 実験の結果,Residual Prompt Tuning は SuperGLUE ベンチマークの即時チューニングよりも優れていた。 特に,提案手法はt5ベースでのプロンプトチューニングよりも+7点向上し,性能を損なうことなくプロンプト長を10倍短縮できる。 さらに,本手法は学習率の選択と初期化の促進に頑健であり,数ショット設定で有効であることを示す。

Prompt tuning is one of the successful approaches for parameter-efficient tuning of pre-trained language models. Despite being arguably the most parameter-efficient (tuned soft prompts constitute <0.1% of total parameters), it typically performs worse than other efficient tuning methods and is quite sensitive to hyper-parameters. In this work, we introduce Residual Prompt Tuning - a simple and efficient method that significantly improves the performance and stability of prompt tuning. We propose to reparameterize soft prompt embeddings using a shallow network with a residual connection. Our experiments show that Residual Prompt Tuning significantly outperforms prompt tuning on SuperGLUE benchmark. Notably, our method reaches +7 points improvement over prompt tuning with T5-Base and allows to reduce the prompt length by 10x without hurting performance. In addition, we show that our approach is robust to the choice of learning rate and prompt initialization, and is effective in few-shot settings.
翻訳日:2023-05-09 18:36:40 公開日:2023-05-06
# OCTセグメンテーションのためのアノテーション効率学習

Annotation-efficient learning for OCT segmentation ( http://arxiv.org/abs/2305.03936v1 )

ライセンス: Link先を確認
Haoran Zhang, Jianlong Yang, Ce Zheng, Shiqing Zhao, Aili Zhang(参考訳) 深層学習はOCTセグメンテーションに成功している。 しかし、異なる製造業者や画像プロトコル、および異なる関心領域(ROI)のデータについては、手術ナビゲーションや多施設臨床試験のような多くのシナリオでは望ましくない、退屈で時間を要するデータアノテーションとトレーニングが必要である。 本稿では,アノテーションコストを大幅に削減できるOCTセグメンテーションのアノテーション効率向上学習手法を提案する。 自己教師付き生成学習を活用し,トランスフォーマーモデルを用いてOCT画像の学習を行う。 次に、トレーニングされたTransformer-based encoderをCNN-based decoderに接続し、OCTセグメンテーションにおける高密度画素幅予測を学習する。 これらのトレーニングフェーズでは、オープンアクセスデータを使用し、アノテーションのコストを発生させないため、事前トレーニングされたモデルは、再トレーニングすることなく、異なるデータやROIに適応することができる。 k中心問題に対する欲求近似に基づいて、対象データの選択的アノテーションのためのアルゴリズムも導入する。 我々は,OCTデータセットの公開および非公開化について検証した。 100%のトレーニングデータを持つ広範に使用されているU-Netモデルと比較して,本手法では,同じセグメンテーション精度を達成するために,データの約10%しか必要とせず,トレーニングを最大3.5倍高速化する。 さらに,提案手法はアノテーション効率を向上できる他の潜在的戦略よりも優れている。 我々は、この学習効率を重視することが、OCTベースの技術のインテリジェンスとアプリケーション浸透の改善に役立つと考えている。 我々のコードと事前学習モデルは、https://github.com/SJTU-Intelligent-Optics-Lab/Annotation- efficient-learning-for-OCT-segmentationで公開されています。

Deep learning has been successfully applied to OCT segmentation. However, for data from different manufacturers and imaging protocols, and for different regions of interest (ROIs), it requires laborious and time-consuming data annotation and training, which is undesirable in many scenarios, such as surgical navigation and multi-center clinical trials. Here we propose an annotation-efficient learning method for OCT segmentation that could significantly reduce annotation costs. Leveraging self-supervised generative learning, we train a Transformer-based model to learn the OCT imagery. Then we connect the trained Transformer-based encoder to a CNN-based decoder, to learn the dense pixel-wise prediction in OCT segmentation. These training phases use open-access data and thus incur no annotation costs, and the pre-trained model can be adapted to different data and ROIs without re-training. Based on the greedy approximation for the k-center problem, we also introduce an algorithm for the selective annotation of the target data. We verified our method on publicly-available and private OCT datasets. Compared to the widely-used U-Net model with 100% training data, our method only requires ~10% of the data for achieving the same segmentation accuracy, and it speeds the training up to ~3.5 times. Furthermore, our proposed method outperforms other potential strategies that could improve annotation efficiency. We think this emphasis on learning efficiency may help improve the intelligence and application penetration of OCT-based technologies. Our code and pre-trained model are publicly available at https://github.com/SJTU-Intelligent-Optics-Lab/Annotation-efficient-learning-for-OCT-segmentation.
翻訳日:2023-05-09 18:36:23 公開日:2023-05-06
# 拡散オーダの最大近似推定のための改良手法

Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs ( http://arxiv.org/abs/2305.03935v1 )

ライセンス: Link先を確認
Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu(参考訳) 拡散モデルは様々な領域で優れた性能を示した。 拡散モデルの確率フロー常微分方程式(英: probability flow normal differential equation, ode)は、連続正規化フロー(cnfs)の特別な場合であり、決定論的推論と正確な確率評価を可能にする。 しかし、拡散ODEによる確率推定結果は、まだ最先端の確率ベース生成モデルとはかけ離れている。 そこで本研究では,実験と評価の両面から,拡散型ODEの最大推定精度を向上する手法を提案する。 学習のために,速度パラメータ化を提案し,より高速な収束のための分散低減手法を検討する。 また, ミスバウンドな高次流れマッチングを微調整の目的とし, ODEの精度を向上し, 軌道の平滑化を図る。 評価のために,拡散オデムに共通に存在するトレーニング評価ギャップを埋めるための,新しいトレーニングフリー・トランケート正規化法を提案する。 これらの手法を用いて,画像データセット(CIFAR-10では2.56,ImageNet-32では3.43)の変動分数化やデータ拡張を伴わない,最先端の予測結果が得られる。

Diffusion models have exhibited excellent performance in various domains. The probability flow ordinary differential equation (ODE) of diffusion models (i.e., diffusion ODEs) is a particular case of continuous normalizing flows (CNFs), which enables deterministic inference and exact likelihood evaluation. However, the likelihood estimation results by diffusion ODEs are still far from those of the state-of-the-art likelihood-based generative models. In this work, we propose several improved techniques for maximum likelihood estimation for diffusion ODEs, including both training and evaluation perspectives. For training, we propose velocity parameterization and explore variance reduction techniques for faster convergence. We also derive an error-bounded high-order flow matching objective for finetuning, which improves the ODE likelihood and smooths its trajectory. For evaluation, we propose a novel training-free truncated-normal dequantization to fill the training-evaluation gap commonly existing in diffusion ODEs. Building upon these techniques, we achieve state-of-the-art likelihood estimation results on image datasets (2.56 on CIFAR-10, 3.43 on ImageNet-32) without variational dequantization or data augmentation.
翻訳日:2023-05-09 18:35:56 公開日:2023-05-06
# ARMバイナリ上での軽量コンパイラの回復

Revisiting Lightweight Compiler Provenance Recovery on ARM Binaries ( http://arxiv.org/abs/2305.03934v1 )

ライセンス: Link先を確認
Jason Kim, Daniel Genkin, Kevin Leach(参考訳) バイナリの振る舞いは、コンパイラがソースコードを構築する方法に大きな影響を受けます。 ほとんどのコンパイラ構成の詳細はコンパイル時に抽象化されるが、コードの類似性検出など、未知のバイナリのリバースエンジニアリングやプログラム理解タスクに有用である。 我々は、x86-64バイナリでこれを徹底的に検討した。 しかし、ARMバイナリの限定的な調査が行われ、それがますます広まっている。 本稿では、ARMバイナリのコンパイラ構成特性を効率よく正確に復元する浅層学習モデルを用いて、従来の作業を拡張した。 従来x86-64バイナリで有効であったOpcodeとレジスタ由来の機能をARMバイナリに適用する。 さらに、この研究を、データセットとコードが利用可能なディープラーニングを使用する最近のアーキテクチャ非依存モデルであるPizzolotto et al.と比較する。 軽量機能はARMバイナリ上で再現可能であることを観察する。 我々は、最先端のディープラーニングアプローチと同等の精度を99%以上達成し、トレーニング中に583回、推論時に3,826回達成した。 最後に,前回の作業で検出されなかった過剰適合の知見についても検討した。

A binary's behavior is greatly influenced by how the compiler builds its source code. Although most compiler configuration details are abstracted away during compilation, recovering them is useful for reverse engineering and program comprehension tasks on unknown binaries, such as code similarity detection. We observe that previous work has thoroughly explored this on x86-64 binaries. However, there has been limited investigation of ARM binaries, which are increasingly prevalent. In this paper, we extend previous work with a shallow-learning model that efficiently and accurately recovers compiler configuration properties for ARM binaries. We apply opcode and register-derived features, that have previously been effective on x86-64 binaries, to ARM binaries. Furthermore, we compare this work with Pizzolotto et al., a recent architecture-agnostic model that uses deep learning, whose dataset and code are available. We observe that the lightweight features are reproducible on ARM binaries. We achieve over 99% accuracy, on par with state-of-the-art deep learning approaches, while achieving a 583-times speedup during training and 3,826-times speedup during inference. Finally, we also discuss findings of overfitting that was previously undetected in prior work.
翻訳日:2023-05-09 18:35:36 公開日:2023-05-06
# プライバシ保護のためのAIとブロックチェーン統合の概要

An Overview of AI and Blockchain Integration for Privacy-Preserving ( http://arxiv.org/abs/2305.03928v1 )

ライセンス: Link先を確認
Zongwei Li, Dechao Kong, Yuanzheng Niu, Hongli Peng, Xiaoqi Li, Wenkai Li(参考訳) 人工知能(AI)とブロックチェーン技術の幅広い関心と応用により、その統合から生じるプライバシ保護技術は重要な意味を持つ。 個人のプライバシーを保護するだけでなく、データのセキュリティと信頼性も保証している。 本稿では、まずAIとブロックチェーンの概要を示し、それらの組み合わせと派生プライバシー保護技術を要約する。 次に、データ暗号化、非識別、多層分散台帳、k匿名メソッドにおける特定のアプリケーションシナリオを探求する。 さらに,認証管理,アクセス制御,データ保護,ネットワークセキュリティ,スケーラビリティなど,ai-blockchain統合型プライバシ保護システムの5つの重要な側面を評価した。 さらに、欠陥とその原因を分析し、対応する提案を提供する。 この研究は、aiブロックチェーンのアプリケーションシナリオと技術的なスキームに基づいてプライバシ保護技術を分類し、要約する。 結論として,プライバシの包括的保護を実現するための効率性とセキュリティの向上を含む,aiとブロックチェーンの統合から生まれたプライバシ保護技術の今後の方向性について概説する。

With the widespread attention and application of artificial intelligence (AI) and blockchain technologies, privacy protection techniques arising from their integration are of notable significance. In addition to protecting privacy of individuals, these techniques also guarantee security and dependability of data. This paper initially presents an overview of AI and blockchain, summarizing their combination along with derived privacy protection technologies. It then explores specific application scenarios in data encryption, de-identification, multi-tier distributed ledgers, and k-anonymity methods. Moreover, the paper evaluates five critical aspects of AI-blockchain-integration privacy protection systems, including authorization management, access control, data protection, network security, and scalability. Furthermore, it analyzes the deficiencies and their actual cause, offering corresponding suggestions. This research also classifies and summarizes privacy protection techniques based on AI-blockchain application scenarios and technical schemes. In conclusion, this paper outlines the future directions of privacy protection technologies emerging from AI and blockchain integration, including enhancing efficiency and security to achieve a more comprehensive privacy protection of privacy.
翻訳日:2023-05-09 18:35:19 公開日:2023-05-06
# 確率的疫学モデルの軌道指向最適化

Trajectory-oriented optimization of stochastic epidemiological models ( http://arxiv.org/abs/2305.03926v1 )

ライセンス: Link先を確認
Arindam Fadikar, Mickael Binois, Nicholson Collier, Abby Stevens, Kok Ben Toh, Jonathan Ozik(参考訳) 疫学モデルでは、前方の投射やwhat-ifシナリオの実行など、下流のタスクの真理を判断するために調整する必要がある。 このようなモデルからの出力は一般にアンサンブルまたは分布を介して記述されるため、確率モデルの場合の校正の意味は変化する。 アンサンブルの各メンバーは、通常ランダム数シード(明示的または暗黙的に)にマッピングされる。 入力パラメータの設定だけでなく、基底的真理と一致するランダムな種を見つけることを目的として、トンプソンサンプリングに基づく最適化戦略とともに、ガウス過程(gp)のクラスを提案する。 この軌道指向最適化(TOO)アプローチは、平均シミュレーションの振る舞いが基底真実と一致するパラメータ設定のセットではなく、経験的観測に近い実際の軌道を生成する。

Epidemiological models must be calibrated to ground truth for downstream tasks such as producing forward projections or running what-if scenarios. The meaning of calibration changes in case of a stochastic model since output from such a model is generally described via an ensemble or a distribution. Each member of the ensemble is usually mapped to a random number seed (explicitly or implicitly). With the goal of finding not only the input parameter settings but also the random seeds that are consistent with the ground truth, we propose a class of Gaussian process (GP) surrogates along with an optimization strategy based on Thompson sampling. This Trajectory Oriented Optimization (TOO) approach produces actual trajectories close to the empirical observations instead of a set of parameter settings where only the mean simulation behavior matches with the ground truth.
翻訳日:2023-05-09 18:35:03 公開日:2023-05-06
# active continual learning: 一連のタスクにおけるクエリのラベル付け

Active Continual Learning: Labelling Queries in a Sequence of Tasks ( http://arxiv.org/abs/2305.03923v1 )

ライセンス: Link先を確認
Thuy-Trang Vu, Shahram Khadivi, Dinh Phung and Gholamreza Haffari(参考訳) 一連のタスクで学んだことを忘れずに新しい知識を得ることは、継続学習(continual learning, cl)の中心である。 タスクが順次到着する間、トレーニングデータは独立して準備され、アノテートされ、入ってくる教師付き学習タスクのclに繋がる。 本稿では,各タスクがラベルなしデータとアノテーション予算のプールを含むアクティブ・ラーニング(al)タスクのシーケンスに対して,アクティブ・コンティニュアル・ラーニング(acl)の未検討問題を検討する。 ドメイン,クラス,タスクインクリメンタルシナリオにおける複数のALアルゴリズムとCLアルゴリズムの有効性と相互作用について検討する。 我々の実験は、古い知識を忘れないという2つの対照的な目標と、CLとALで素早く学習する能力のトレードオフを明らかにする。 前回のタスクで収集したアノテーションのクエリ戦略を条件付けすることで、ドメインとタスクのインクリメンタル学習におけるタスクパフォーマンスが向上する一方で、本提案では、alとclのクラスインクリメンタルシナリオに対する効果のバランスのギャップを示唆する。

Acquiring new knowledge without forgetting what has been learned in a sequence of tasks is the central focus of continual learning (CL). While tasks arrive sequentially, the training data are often prepared and annotated independently, leading to CL of incoming supervised learning tasks. This paper considers the under-explored problem of active continual learning (ACL) for a sequence of active learning (AL) tasks, where each incoming task includes a pool of unlabelled data and an annotation budget. We investigate the effectiveness and interplay between several AL and CL algorithms in the domain, class and task-incremental scenarios. Our experiments reveal the trade-off between two contrasting goals of not forgetting the old knowledge and the ability to quickly learn in CL and AL. While conditioning the query strategy on the annotations collected for the previous tasks leads to improved task performance on the domain and task incremental learning, our proposed forgetting-learning profile suggests a gap in balancing the effect of AL and CL for the class-incremental scenario.
翻訳日:2023-05-09 18:34:50 公開日:2023-05-06
# NER-to-MRC: 機械読み取りの理解として完全に解決された名前付きエンティティ認識

NER-to-MRC: Named-Entity Recognition Completely Solving as Machine Reading Comprehension ( http://arxiv.org/abs/2305.03970v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Junjie Wang, Xinyu Zhu, Tetsuya Sakai, Hayato Yamana(参考訳) Named-entity Recognition (NER)は、定義済みの意味ラベルを持つテキストを検出し、自然言語処理(NLP)に不可欠なビルディングブロックである。 特に最近のNER研究は、事前学習コーパスや検索エンジンの導入など、膨大なデータの利用に焦点を当てている。 しかし,これらの手法は,データ収集や事前学習に伴う高コストと,検索エンジンから取得したデータの追加トレーニングプロセスに悩まされている。 これらの課題に対処するため,我々は,既存のデータを効率的に活用する能力にMDCを活用することにより,NERを機械読解(MRC)問題(NER-to-MRC)とみなす。 MRCベースのソリューションをNER問題に対処するために、いくつかの先行研究が行われてきたが、いくつかの課題が続いている。 一 手動で設計したプロンプトへの依存 二 広範囲な追加データを利用する方法と同等の性能を達成できないデータ再構成に対する限られたMRCアプローチ。 したがって、NER-to-MRC変換は2つのコンポーネントから構成される。 i) nerタスクを効率的な方法でmrcで解決するモデルに適した形式に変換すること。 二 モデルにmrc推論戦略を適用すること。 3つのドメインからの6つのベンチマークデータセットを実験し、外部データなしで最先端のパフォーマンスを実現し、WNUT-16データセットを最大11.24%改善した。

Named-entity recognition (NER) detects texts with predefined semantic labels and is an essential building block for natural language processing (NLP). Notably, recent NER research focuses on utilizing massive extra data, including pre-training corpora and incorporating search engines. However, these methods suffer from high costs associated with data collection and pre-training, and additional training process of the retrieved data from search engines. To address the above challenges, we completely frame NER as a machine reading comprehension (MRC) problem, called NER-to-MRC, by leveraging MRC with its ability to exploit existing data efficiently. Several prior works have been dedicated to employing MRC-based solutions for tackling the NER problem, several challenges persist: i) the reliance on manually designed prompts; ii) the limited MRC approaches to data reconstruction, which fails to achieve performance on par with methods utilizing extensive additional data. Thus, our NER-to-MRC conversion consists of two components: i) transform the NER task into a form suitable for the model to solve with MRC in a efficient manner; ii) apply the MRC reasoning strategy to the model. We experiment on 6 benchmark datasets from three domains and achieve state-of-the-art performance without external data, up to 11.24% improvement on the WNUT-16 dataset.
翻訳日:2023-05-09 18:27:33 公開日:2023-05-06
# 1次元ハイゼンベルクモデルにおけるフィードバック制御による量子エネルギーテレポーテーションとエントロピー変化

Quantum Energy Teleportation and Entropy Change due to Feedback Control in One-Dimensional Heisenberg Model ( http://arxiv.org/abs/2305.03967v1 )

ライセンス: Link先を確認
Kanji Itoh, Yusuke Masaki, Hiroaki Matsueda(参考訳) 量子エネルギーテレポーテーションを4スピン1次元ハイゼンベルクモデルで検討する。 エッジ部位に局所磁場を印加し、基底状態の絡み合いの程度を制御する。 テレポーテーションプロトコルにおいて、エネルギ送信者は一方のエッジサイトにおいて投影計測を行い、エネルギ受信機は、測定結果に依存する他方のエッジサイトにおいてフィードバック制御を行い、エネルギを抽出する。 受信機によって抽出されたエネルギーは、局所磁場の中間値において最大となる。 また, この磁場挙動は, フィードバック制御によるエントロピー変化にほぼ比例することがわかった。 エントロピー変化におけるフィードバック制御の役割を, エンタングルメント熱力学の観点から論じる。

We study the quantum energy teleportation in a four-spin one-dimensional Heisenberg model. A local magnetic field is applied at the edge sites to control the degree of the ground-state entanglement. In the teleportation protocol, an energy sender performs a projective measurement at one edge site, while an energy receiver performs a feedback control at the other edge site dependent on the measurement result to extract energy. We find that the energy extracted by the receiver takes a maximum at intermediate value of the local magnetic field. We also find that this magnetic-field behavior is almost proportional to entropy changes due to the feedback control. The role of a feedback control in an entropy change is discussed in terms of entanglement thermodynamics.
翻訳日:2023-05-09 18:27:11 公開日:2023-05-06
# ディープラーニングモデルにおける特徴キラリティ

Feature Chirality in Deep Learning Models ( http://arxiv.org/abs/2305.03966v1 )

ライセンス: Link先を確認
Shipeng Ji, Yang Li, Ruizhi Fu, Jiabao Wang, Zhuang Miao(参考訳) ディープラーニングのアプリケーションが飛躍と限界によって広範囲に増加するにつれ、その解釈性はますます顕著になっている。 普遍的な性質として、キラリティーは自然界に広く存在し、深層学習の解説研究に応用することはある程度有用である。 cnn(convolutional neural network、畳み込みニューラルネットワーク)を使った最近の研究に触発されて、画像が反転しているかどうかを識別した。 本稿では,ディープラーニングモデルの特徴データの統計が,学習によってどのように変化するかを示す,特徴キラリティを革新的に研究する。 我々は,特徴レベルのキラリティー特性を再考し,特徴キラリティーを提案し,その尺度を与える。 alexnet、vgg、resnetにおける特徴キラリティーの分析により、類似するが驚くべき結果が得られた。これらのモデルにおける特徴キラリティーの出現を含め、モデルの初期化法は特徴キラリティーには影響を与えない。 本研究は,特徴キラリティーがモデル評価,モデルの解釈可能性,モデルパラメータの最適化を含むことを示す。

As deep learning applications extensively increase by leaps and bounds, their interpretability has become increasingly prominent. As a universal property, chirality exists widely in nature, and applying it to the explanatory research of deep learning may be helpful to some extent. Inspired by a recent study that used CNN (convolutional neural network), which applied visual chirality, to distinguish whether an image is flipped or not. In this paper, we study feature chirality innovatively, which shows how the statistics of deep learning models' feature data are changed by training. We rethink the feature-level chirality property, propose the feature chirality, and give the measure. Our analysis of feature chirality on AlexNet, VGG, and ResNet reveals similar but surprising results, including the prevalence of feature chirality in these models, the initialization methods of the models do not affect feature chirality. Our work shows that feature chirality implies model evaluation, interpretability of the model, and model parameters optimization.
翻訳日:2023-05-09 18:26:57 公開日:2023-05-06
# マルチタイム量子プロセスのための多重エントロピー生成

Multiple entropy production for multitime quantum processes ( http://arxiv.org/abs/2305.03965v1 )

ライセンス: Link先を確認
Zhiqiang Huang(参考訳) エントロピー生成と詳細なゆらぎ定理は熱力学過程において基本的な重要性である。 本稿では,マルチタイム量子プロセスにおける多重エントロピー生成を統一的な枠組みで検討する。 閉量子系とマルコフ開量子系では、与えられたエントロピー生成はすべて詳細なゆらぎ関係を満たす。 これはまた、エントロピー生成速度が非負であることを示している。 非マルコフ的開量子系では、メモリ効果は負のエントロピー生成率をもたらす。 したがって、一般に、辺分布のエントロピー生成は詳細FT関係を満足しない。 我々のフレームワークは、幅広い物理システムや力学に適用できる。 エントロピー生成とその速度を任意の量子過程下で研究するための体系的なツールを提供する。

Entropy production and the detailed fluctuation theorem are of fundamental importance for thermodynamic processes. In this paper, we study the multiple entropy production for multitime quantum processes in a unified framework. For closed quantum systems and Markovian open quantum systems, the given entropy productions all satisfy the detailed fluctuation relation. This also shows that the entropy production rate under these processes is non-negative. For non-Markovian open quantum systems, the memory effect can lead to a negative entropy production rate. Thus, in general, the entropy production of the marginal distribution does not satisfy the detailed FT relation. Our framework can be applied to a wide range of physical systems and dynamics. It provides a systematic tool for studying entropy production and its rate under arbitrary quantum processes.
翻訳日:2023-05-09 18:26:40 公開日:2023-05-06
# モデルを超えて:androidアプリのディープラーニングモデルに対するデータ前処理攻撃

Beyond the Model: Data Pre-processing Attack to Deep Learning Models in Android Apps ( http://arxiv.org/abs/2305.03963v1 )

ライセンス: Link先を確認
Ye Sang, Yujin Huang, Shuo Huang, Helei Cui(参考訳) 近年、ディープラーニング(DL)モデルの人気が高まり、スマートフォンでの低レイテンシや帯域幅の節約など、コンピューティングの利点により、インテリジェントなモバイルアプリケーション(DLアプリとしても知られる)が出現している。 しかし、この技術的発展は、敵対的な例、モデル盗み、データ中毒問題など、いくつかのセキュリティ上の懸念を引き起こした。 オンデバイスdlモデルの攻撃と対策に関する既存の取り組みは、主にモデル自体に焦点を当てている。 しかし,データ処理障害がモデル推論に与える影響には注意が払われている。 この知識格差は、オンデバイスモデルのデータ処理に関するセキュリティ問題を完全に理解し、対処するための追加研究の必要性を強調している。 本稿では,実世界のDLアプリに対するデータ処理による攻撃について紹介する。 特に、我々の攻撃はDLアプリの動作に影響を与えることなく、モデルの性能とレイテンシに影響を与える可能性がある。 攻撃の有効性を示すため,Google Playから収集した実世界のDLアプリ517について実証的研究を行った。 mlkitを利用する320のアプリのうち、81.56\%がうまく攻撃できることがわかった。 その結果、データ処理の観点からデバイス上のモデルをセキュアにするために、DLアプリ開発者が認識し、アクションを取ることの重要性を強調した。

The increasing popularity of deep learning (DL) models and the advantages of computing, including low latency and bandwidth savings on smartphones, have led to the emergence of intelligent mobile applications, also known as DL apps, in recent years. However, this technological development has also given rise to several security concerns, including adversarial examples, model stealing, and data poisoning issues. Existing works on attacks and countermeasures for on-device DL models have primarily focused on the models themselves. However, scant attention has been paid to the impact of data processing disturbance on the model inference. This knowledge disparity highlights the need for additional research to fully comprehend and address security issues related to data processing for on-device models. In this paper, we introduce a data processing-based attacks against real-world DL apps. In particular, our attack could influence the performance and latency of the model without affecting the operation of a DL app. To demonstrate the effectiveness of our attack, we carry out an empirical study on 517 real-world DL apps collected from Google Play. Among 320 apps utilizing MLkit, we find that 81.56\% of them can be successfully attacked. The results emphasize the importance of DL app developers being aware of and taking actions to secure on-device models from the perspective of data processing.
翻訳日:2023-05-09 18:26:33 公開日:2023-05-06
# 自然言語テキストからのプロセスモデル生成のためのルールベース名前付きエンティティ認識と関係抽出

Beyond Rule-based Named Entity Recognition and Relation Extraction for Process Model Generation from Natural Language Text ( http://arxiv.org/abs/2305.03960v1 )

ライセンス: Link先を確認
Julian Neuberger, Lars Ackermann, Stefan Jablonski(参考訳) 自然言語テキストからビジネスプロセスモデルの自動生成は、正式なビジネスプロセスモデルの手動作成を避けるための新しい方法論である。 この目的のために、アクター、アクティビティ、オブジェクトなどのプロセスエンティティとそれらの関係は、テキストプロセス記述から抽出される。 テキストプロセス記述(PET)の高品質な注釈付きコーパスが,基本的プロセス抽出手法とともに公開された。 しかし、現段階では、PETは2つの言及が同一または異なるプロセスエンティティを指すかどうかに関する情報を欠いているため、ターゲットモデルに1つまたは2つのモデリング要素を作成するかどうかという決定に該当する。 その結果、例えば2つのデータ処理の言及が、異なるデータの処理を意味するのか、同じデータなのかがはっきりしない。 本稿では,プロセスエンティティの参照をクラスタリングすることでPETデータセットを拡張し,新たなエンティティ解決コンポーネントを備えたプロセス抽出のための新しいベースライン技術を提案する。 第2のステップでは、ルールベースの関係抽出コンポーネントを機械学習ベースの代替品に置き換え、異なるデータセットやドメインへの迅速な適応を可能にします。 さらに,エンティティと関係抽出,およびエンティティ解決を包括的に解くために構築された深層学習アプローチを評価する。 最後に、我々の独自の実装に対するPETベースラインの広範な評価から、純粋な機械学習ベースのプロセス抽出技術が競合する一方で、他のデータセット、異なるエンティティとリレーショナルタイプ、あるいは新しいドメインへの適応に必要な機能エンジニアリングとルール定義から生じる膨大なオーバーヘッドを回避していることがわかる。

Automated generation of business process models from natural language text is an emerging methodology for avoiding the manual creation of formal business process models. For this purpose, process entities like actors, activities, objects etc., and relations among them are extracted from textual process descriptions. A high-quality annotated corpus of textual process descriptions (PET) has been published accompanied with a basic process extraction approach. In its current state, however, PET lacks information about whether two mentions refer to the same or different process entities, which corresponds to the crucial decision of whether to create one or two modeling elements in the target model. Consequently, it is ambiguous whether, for instance, two mentions of data processing mean processing of different, or the same data. In this paper, we extend the PET dataset by clustering mentions of process entities and by proposing a new baseline technique for process extraction equipped with an additional entity resolution component. In a second step, we replace the rule-based relation extraction component with a machine learning-based alternative, enabling rapid adaption to different datasets and domains. In addition, we evaluate a deep learning-approach built for solving entity and relation extraction as well as entity resolution in a holistic manner. Finally, our extensive evaluation of the original PET baseline against our own implementation shows that a pure machine learning-based process extraction technique is competitive, while avoiding the massive overhead arising from feature engineering and rule definition needed to adapt to other datasets, different entity and relation types, or new domains.
翻訳日:2023-05-09 18:26:15 公開日:2023-05-06
# 都市におけるデュアルポーラアンテナを用いたGPS信号受信条件の機械学習による分類

Machine-Learning-Based Classification of GPS Signal Reception Conditions Using a Dual-Polarized Antenna in Urban Areas ( http://arxiv.org/abs/2305.03956v1 )

ライセンス: Link先を確認
Sanghyun Kim and Jiwon Seo(参考訳) 都市部では、密集した建物はしばしばgps(global positioning system)信号を遮断し反射し、多くのマルチパス信号を持ついくつかの可視衛星を受信する。 これは、都市部では信頼できない重要な問題である。 ある衛星からの信号受信条件を検出できれば、マルチパス汚染衛星信号を除いたり減重したりして位置決め性能を向上させることができる。 そこで我々は,双極アンテナを用いてGPS信号受信条件を分類する機械学習手法を開発した。 決定木アルゴリズムを用いて3つの特徴を分類し,そのうちの1つは双極性アンテナからのみ得られるものである。 機械学習モデルは、様々な場所から収集されたGPS信号を用いて訓練された。 GPS生信号から抽出された特徴が入力されると、生成された機械学習モデルは、3つの信号受信条件のうちの1つを出力する。 複数のテストデータセットを使用して分類精度を解析し、二極化アンテナを用いた既存の方法と比較した。 その結果、試験データセットがトレーニングデータセットと異なる場所で収集された場合、64.47%の分類精度が得られた。 したがって、デュアル偏極アンテナ溶液は、よりコンパクトな形状因子を持ち、その性能は他の溶液と類似しているため、デュアル偏極アンテナ溶液よりも有益である。

In urban areas, dense buildings frequently block and reflect global positioning system (GPS) signals, resulting in the reception of a few visible satellites with many multipath signals. This is a significant problem that results in unreliable positioning in urban areas. If a signal reception condition from a certain satellite can be detected, the positioning performance can be improved by excluding or de-weighting the multipath contaminated satellite signal. Thus, we developed a machine-learning-based method of classifying GPS signal reception conditions using a dual-polarized antenna. We employed a decision tree algorithm for classification using three features, one of which can be obtained only from a dual-polarized antenna. A machine-learning model was trained using GPS signals collected from various locations. When the features extracted from the GPS raw signal are input, the generated machine-learning model outputs one of the three signal reception conditions: non-line-of-sight (NLOS) only, line-of-sight (LOS) only, or LOS+NLOS. Multiple testing datasets were used to analyze the classification accuracy, which was then compared with an existing method using dual single-polarized antennas. Consequently, when the testing dataset was collected at different locations from the training dataset, a classification accuracy of 64.47% was obtained, which was slightly higher than the accuracy of the existing method using dual single-polarized antennas. Therefore, the dual-polarized antenna solution is more beneficial than the dual single-polarized antenna solution because it has a more compact form factor and its performance is similar to that of the other solution.
翻訳日:2023-05-09 18:25:51 公開日:2023-05-06
# オフポリティアセスメントのための学習行動埋め込み

Learning Action Embeddings for Off-Policy Evaluation ( http://arxiv.org/abs/2305.03954v1 )

ライセンス: Link先を確認
Matej Cief, Jacek Golebiowski, Philipp Schmidt, Ziawasch Abedjan, Artur Bekasov(参考訳) オフ・ポリティィ・アセスメント(OPE)法では,異なるポリシによって収集されたログデータを用いて,ポリシの期待される報酬を計算することができる。 opeは高価なオンラインa/bテストの代替手段であり、新しいポリシーの開発をスピードアップし、顧客が最適以下の治療を受けるリスクを低減します。 しかし、アクションの数が多ければあるアクションがロギングポリシーによって探索されていない場合、逆正当性スコアリング(IPS)に基づく既存の推定器は、高いあるいは無限のばらつきを持つことができる。 Saito と Joachims (arXiv:2202.06317v2 [cs.LG]) は、代わりにアクション埋め込みを使用する余分な IPS (MIPS) を提案する。 MIPSは、優れたアクション埋め込みは実践者によって定義できると仮定している。 本研究では,ログデータからの学習行動埋め込みについて検討する。 特に、トレーニングされた報酬モデルの中間出力を用いてMIPSのアクション埋め込みを定義する。 このアプローチは、MIPSをより多くのアプリケーションに拡張し、我々の実験では、事前に定義された埋め込みと、合成データと実世界のデータの両方に基づく標準ベースラインでMIPSを改善する。 提案手法では,報酬モデルクラスに関する仮定は行わず,付加的な行動情報を用いて推定をさらに改善する。 提案手法は,dmの低分散とipsの低バイアスを組み合わせた,drの魅力ある代替案を示す。

Off-policy evaluation (OPE) methods allow us to compute the expected reward of a policy by using the logged data collected by a different policy. OPE is a viable alternative to running expensive online A/B tests: it can speed up the development of new policies, and reduces the risk of exposing customers to suboptimal treatments. However, when the number of actions is large, or certain actions are under-explored by the logging policy, existing estimators based on inverse-propensity scoring (IPS) can have a high or even infinite variance. Saito and Joachims (arXiv:2202.06317v2 [cs.LG]) propose marginalized IPS (MIPS) that uses action embeddings instead, which reduces the variance of IPS in large action spaces. MIPS assumes that good action embeddings can be defined by the practitioner, which is difficult to do in many real-world applications. In this work, we explore learning action embeddings from logged data. In particular, we use intermediate outputs of a trained reward model to define action embeddings for MIPS. This approach extends MIPS to more applications, and in our experiments improves upon MIPS with pre-defined embeddings, as well as standard baselines, both on synthetic and real-world data. Our method does not make assumptions about the reward model class, and supports using additional action information to further improve the estimates. The proposed approach presents an appealing alternative to DR for combining the low variance of DM with the low bias of IPS.
翻訳日:2023-05-09 18:25:24 公開日:2023-05-06
# 段階的学習によるラベルフリーマルチドメイン機械翻訳

Label-Free Multi-Domain Machine Translation with Stage-wise Training ( http://arxiv.org/abs/2305.03949v1 )

ライセンス: Link先を確認
Fan Zhang, Mei Tu, Sangha Kim, Song Liu, Jinyao Yan(参考訳) ほとんどのマルチドメイン機械翻訳モデルは、ドメインアノテートデータに依存している。 残念ながら、ドメインラベルは通常、トレーニングプロセスと実際の翻訳シナリオの両方で利用できない。 そこで本研究では,学習時にドメインアノテーション付きデータのみを必要とせず,推論時にドメインラベルを含まないラベルフリーなマルチドメイン機械翻訳モデルを提案する。 我々のモデルは3つの部分から構成される: バックボーンモデル、異なるドメインからデータを識別する責任を負うドメイン識別器、デコードされた特徴をジェネリックから特定のものに伝達する専門家のセット。 段階的なトレーニング戦略をデザインし、3つのパーツを順次トレーニングする。 ドメイン知識を余分に活用し、訓練安定性を向上させるため、識別器訓練段階では、ドメイン差をクラスタリングで明示的にモデル化し、多分類タスクを通じて識別器に蒸留する。 一方、Gumbel-Maxサンプリングは、専門家訓練段階におけるルーティング方式として採用され、専門化と一般化における各専門家のバランスを達成する。 ドイツ語から英語への翻訳タスクにおける実験の結果,6つの異なるドメインのbleuスコアが有意に向上し,ドメインアノテーション付きデータでトレーニングされたモデルよりも優れていた。

Most multi-domain machine translation models rely on domain-annotated data. Unfortunately, domain labels are usually unavailable in both training processes and real translation scenarios. In this work, we propose a label-free multi-domain machine translation model which requires only a few or no domain-annotated data in training and no domain labels in inference. Our model is composed of three parts: a backbone model, a domain discriminator taking responsibility to discriminate data from different domains, and a set of experts that transfer the decoded features from generic to specific. We design a stage-wise training strategy and train the three parts sequentially. To leverage the extra domain knowledge and improve the training stability, in the discriminator training stage, domain differences are modeled explicitly with clustering and distilled into the discriminator through a multi-classification task. Meanwhile, the Gumbel-Max sampling is adopted as the routing scheme in the expert training stage to achieve the balance of each expert in specialization and generalization. Experimental results on the German-to-English translation task show that our model significantly improves BLEU scores on six different domains and even outperforms most of the models trained with domain-annotated data.
翻訳日:2023-05-09 18:24:56 公開日:2023-05-06
# セマンティックセグメンテーションのための構造的および統計的テクスチャ知識蒸留

Structural and Statistical Texture Knowledge Distillation for Semantic Segmentation ( http://arxiv.org/abs/2305.03944v1 )

ライセンス: Link先を確認
Deyi Ji, Haoran Wang, Mingyuan Tao, Jianqiang Huang, Xian-Sheng Hua, Hongtao Lu(参考訳) 既存の知識蒸留は、主に教師から学生への高度な文脈知識の伝達に焦点を当てている。 しかし、低レベルのテクスチャ知識は、高レベルの深い特徴に対処できない境界、滑らかさ、規則性、色コントラストといった、局所的な構造パターンとグローバルな統計特性を特徴付ける上でも不可欠である。 本稿では,構造的・統計的テクスチャ知識を最大限に活用し,意味的セグメント化のための新しい構造的・統計的テクスチャ知識蒸留(sstkd)フレームワークを提案する。 具体的には,構造テクスチャ知識のために,構造テクスチャ知識をマイニングするために,ラプラシアンピラミッドと指向性フィルタバンクで低レベル特徴を分解するContourlet Decomposition Module (CDM)を導入する。 統計的知識については,統計テクスチャ知識を適応的に抽出し,ヒューリスティックス反復量子化と復号化操作により拡張するDenoized Texture Intensity Equalization Module (DTIEM)を提案する。 最後に、各知識学習は個々の損失関数によって監督され、学生ネットワークはより広い視点から教師をよりよく模倣する。 実験の結果,提案手法はCityscapes, Pascal VOC 2012, ADE20Kデータセット上での最先端性能を実現することがわかった。

Existing knowledge distillation works for semantic segmentation mainly focus on transferring high-level contextual knowledge from teacher to student. However, low-level texture knowledge is also of vital importance for characterizing the local structural pattern and global statistical property, such as boundary, smoothness, regularity and color contrast, which may not be well addressed by high-level deep features. In this paper, we are intended to take full advantage of both structural and statistical texture knowledge and propose a novel Structural and Statistical Texture Knowledge Distillation (SSTKD) framework for semantic segmentation. Specifically, for structural texture knowledge, we introduce a Contourlet Decomposition Module (CDM) that decomposes low-level features with iterative Laplacian pyramid and directional filter bank to mine the structural texture knowledge. For statistical knowledge, we propose a Denoised Texture Intensity Equalization Module (DTIEM) to adaptively extract and enhance statistical texture knowledge through heuristics iterative quantization and denoised operation. Finally, each knowledge learning is supervised by an individual loss function, forcing the student network to mimic the teacher better from a broader perspective. Experiments show that the proposed method achieves state-of-the-art performance on Cityscapes, Pascal VOC 2012 and ADE20K datasets.
翻訳日:2023-05-09 18:24:35 公開日:2023-05-06
# 境界状態の場モーメントに対する漸近展開

Asymptotic expansions for field moments of bound states ( http://arxiv.org/abs/2305.03999v1 )

ライセンス: Link先を確認
G.W. Forbes and Miguel A. Alonso(参考訳) 漸近展開は、1次元の非調和ポテンシャルにおける境界状態のモーメントを示す。 結果はSAFE法を用いて導出され、慣れ親しんだ半古典近似に対する最初のゼロ波関連の補正のみを含む。 閉形式解を許さない2つの広く研究されたポテンシャルに対する応用は、漸近的極限に遠く及ばない場合でも驚くべき精度を示すために用いられる。 我々は, 漸近展開における代替項の欠如を, 結果の正確性を説明する方法として検討する。 これらの結果は、SAFE法で用いられるパラメータを含む積分の定積分を用いて表現され、関連する要素場寄与の程度を制御する。 重要なことに、積分自身はそのパラメータから完全に独立であることが示される。 さらに、導出は、関連する古典運動を含む波動場に対する漸近展開によって進行するが、それらの実体はポテンシャル関数とその最初の4つの微分の項で表される最終結果には現れない。

Asymptotic expansions are presented for the moments of bound states in one-dimensional anharmonic potentials. The results are derived by using the SAFE method and include only the first non-zero wave-related correction to the familiar semi-classical approximation. Application to a couple of widely studied potentials that do not permit closed-form solutions is used to demonstrate surprising accuracy even in cases that are far from any asymptotic limit. We explore the absence of alternate terms in the asymptotic expansions as a way to explain the accuracy of the end results. Those results are expressed in terms of definite integrals with integrands involving the parameter used in the SAFE method to control the extent of the associated elemental field contributions. Importantly, the integrals themselves are shown to be precisely independent of that parameter. Further, although the derivation proceeds by way of an asymptotic expansion for the wavefield that involves the associated classical motion, those entities do not appear in the end results which are expressed in terms of just the potential function and its first four derivatives.
翻訳日:2023-05-09 18:19:05 公開日:2023-05-06
# Pairwise Degradation Feature Vector Guidanceによる低照度画像のアンロック

Unlocking Low-Light-Rainy Image Restoration by Pairwise Degradation Feature Vector Guidance ( http://arxiv.org/abs/2305.03997v1 )

ライセンス: Link先を確認
Xin Lin and Jingtong Yue and Chao Ren and Chun-Le Guo and Chongyi Li(参考訳) 暗闇の中の雨は一般的な自然現象である。 このような状態で撮影された写真は、自律運転、監視システム、夜間撮影など、様々な夜間活動のパフォーマンスに大きな影響を及ぼす。 既成の低光度増光・減光は有望な性能を示すが、低光度化と降雨除去を同時に行うには限界がある。 さらに,「低照度化」などのカスケード手法を用いることで,降雨パターンや過度にぼやけた画像や過度に露出した画像の処理が困難になる可能性がある。 これらの制約を克服するために、低照度化とデライニングを両立できる$L^{2}RIRNet$というエンドツーエンドネットワークを提案する。 我々のネットワークは主に、Pairwise Degradation Feature Vector extract Network (P-Net)とRecovery Network (R-Net)を含む。 P-Netは、画像復元プロセスのガイドとしてコントラスト学習を用いて、暗黒領域と光領域の劣化特徴ベクトルを別々に学習することができる。 R-Netはイメージの復元に責任がある。 また, 劣化情報ではなく, テクスチャの詳細情報に焦点をあてたディテール画像を用いて, 画像復元を誘導するFast Fourier - ResNet Detail Guidance Module (FFR-DG) を導入する。 さらに,合成および実世界の低照度画像を含むデータセットも提供した。 広範な実験によって、$l^{2}rirnet$は、合成と複雑な実世界のシナリオの両方において既存のメソッドよりも優れています。

Rain in the dark is a common natural phenomenon. Photos captured in such a condition significantly impact the performance of various nighttime activities, such as autonomous driving, surveillance systems, and night photography. While existing methods designed for low-light enhancement or deraining show promising performance, they have limitations in simultaneously addressing the task of brightening low light and removing rain. Furthermore, using a cascade approach, such as ``deraining followed by low-light enhancement'' or vice versa, may lead to difficult-to-handle rain patterns or excessively blurred and overexposed images. To overcome these limitations, we propose an end-to-end network called $L^{2}RIRNet$ which can jointly handle low-light enhancement and deraining. Our network mainly includes a Pairwise Degradation Feature Vector Extraction Network (P-Net) and a Restoration Network (R-Net). P-Net can learn degradation feature vectors on the dark and light areas separately, using contrastive learning to guide the image restoration process. The R-Net is responsible for restoring the image. We also introduce an effective Fast Fourier - ResNet Detail Guidance Module (FFR-DG) that initially guides image restoration using detail image that do not contain degradation information but focus on texture detail information. Additionally, we contribute a dataset containing synthetic and real-world low-light-rainy images. Extensive experiments demonstrate that our $L^{2}RIRNet$ outperforms existing methods in both synthetic and complex real-world scenarios.
翻訳日:2023-05-09 18:18:51 公開日:2023-05-06
# LEO:人間のビデオ合成のための生成遅延画像アニメーター

LEO: Generative Latent Image Animator for Human Video Synthesis ( http://arxiv.org/abs/2305.03989v1 )

ライセンス: Link先を確認
Yaohui Wang, Xin Ma, Xinyuan Chen, Antitza Dantcheva, Bo Dai, Yu Qiao(参考訳) 時空間コヒーレンシーは、高品質なビデオ、特に豊かなグローバルな変形と局所的な変形を含む人間のビデオの合成において大きな課題である。 この課題を解決するために、従来のアプローチは、外観と動きを表現することを目的とした生成プロセスにおける異なる特徴に頼ってきた。 しかし、このような絡み合いを保証する厳密なメカニズムが欠如しているため、外見からの移動の分離は困難であり、空間的歪みや時空間の揺らぎが時空間のコヒーレンシーを損なう結果となった。 そこで本研究では,人間の映像合成のための新しいフレームワークであるLEOを提案し,時空間コヒーレンシに着目した。 私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。 我々はこのアイデアを,流れに基づく画像アニメーターと潜在運動拡散モデル(lmdm)を用いて実装する。 前者はフローマップの空間と運動符号の空間を橋渡しし、ワープ・アンド・インパントな方法でビデオフレームを合成する。 LMDMは、トレーニングデータの前の動きを、モーションコードのシーケンスを合成することによって捉える。 大規模な定量的および定性的分析により、LEOは、TaichiHD、FaceForensics、CelebV-HQといったデータセット上の以前の手法よりも、人間のビデオのコヒーレントな合成を著しく改善することが示された。 加えて、LEOにおける外見と動きの効果的な切り離しにより、無限長の人間のビデオ合成とコンテンツ保存ビデオ編集という2つの追加タスクが可能になる。

Spatio-temporal coherency is a major challenge in synthesizing high quality videos, particularly in synthesizing human videos that contain rich global and local deformations. To resolve this challenge, previous approaches have resorted to different features in the generation process aimed at representing appearance and motion. However, in the absence of strict mechanisms to guarantee such disentanglement, a separation of motion from appearance has remained challenging, resulting in spatial distortions and temporal jittering that break the spatio-temporal coherency. Motivated by this, we here propose LEO, a novel framework for human video synthesis, placing emphasis on spatio-temporal coherency. Our key idea is to represent motion as a sequence of flow maps in the generation process, which inherently isolate motion from appearance. We implement this idea via a flow-based image animator and a Latent Motion Diffusion Model (LMDM). The former bridges a space of motion codes with the space of flow maps, and synthesizes video frames in a warp-and-inpaint manner. LMDM learns to capture motion prior in the training data by synthesizing sequences of motion codes. Extensive quantitative and qualitative analysis suggests that LEO significantly improves coherent synthesis of human videos over previous methods on the datasets TaichiHD, FaceForensics and CelebV-HQ. In addition, the effective disentanglement of appearance and motion in LEO allows for two additional tasks, namely infinite-length human video synthesis, as well as content-preserving video editing.
翻訳日:2023-05-09 18:18:21 公開日:2023-05-06
# 教師付き正規化によるオフライン模倣学習による人間の複合対話政策の再現

Replicating Complex Dialogue Policy of Humans via Offline Imitation Learning with Supervised Regularization ( http://arxiv.org/abs/2305.03987v1 )

ライセンス: Link先を確認
Zhoujian Sun, Chenyang Zhao, Zhengxing Huang, Nai Ding(参考訳) ポリシー学習(pl)は、エージェントが各対話の順番に行動を起こすように訓練するタスク指向対話システムのモジュールである。 人間の行動の緩和はPLの根本的な問題である。 しかし、教師あり学習(SL)と強化学習(RL)の両方のフレームワークは、人間をうまく模倣することはできない。 RLモデルのトレーニングにはユーザシミュレータとのオンラインインタラクションが必要であり、複雑なヒューマンポリシーのシミュレーションは難しい。 SLモデルの性能は共変量シフトの問題により制限される。 特に、対話は、現在の発話と行動のわずかな違いがその後の発話に大きな違いをもたらすような、逐次的な意思決定プロセスである。 したがって, SLモデルの一般化能力は, 学習とテストの対話データの統計的特性が徐々に異なるため, 制限される。 本研究では,実際の対話データセットからポリシーを学習し,ユーザシミュレータを必要としないオフライン模倣学習モデルを提案する。 また、状態遷移情報を利用して、共変量シフト問題の影響を軽減する。 私たちはモデルを効果的に最適化できるように正規化のトリックを導入しました。 4つの独立した公開対話データセットにおけるモデルの性能について検討した。 実験の結果, 行動予測タスクにおいて, モデルの性能は良好であった。

Policy learning (PL) is a module of a task-oriented dialogue system that trains an agent to make actions in each dialogue turn. Imitating human action is a fundamental problem of PL. However, both supervised learning (SL) and reinforcement learning (RL) frameworks cannot imitate humans well. Training RL models require online interactions with user simulators, while simulating complex human policy is hard. Performances of SL-based models are restricted because of the covariate shift problem. Specifically, a dialogue is a sequential decision-making process where slight differences in current utterances and actions will cause significant differences in subsequent utterances. Therefore, the generalize ability of SL models is restricted because statistical characteristics of training and testing dialogue data gradually become different. This study proposed an offline imitation learning model that learns policy from real dialogue datasets and does not require user simulators. It also utilizes state transition information, which alleviates the influence of the covariate shift problem. We introduced a regularization trick to make our model can be effectively optimized. We investigated the performance of our model on four independent public dialogue datasets. The experimental result showed that our model performed better in the action prediction task.
翻訳日:2023-05-09 18:17:54 公開日:2023-05-06
# 単一フレームレイアウトによるマルチオブジェクトビデオ生成

Multi-object Video Generation from Single Frame Layouts ( http://arxiv.org/abs/2305.03983v1 )

ライセンス: Link先を確認
Yang Wu, Zhibin Liu, Hefeng Wu, Liang Lin(参考訳) 本稿では,生成条件の簡素化を重視した映像合成について検討する。 既存のビデオ合成モデルやデータセットは、単一のオブジェクトの複雑な動きに対処するために設計されており、複数のオブジェクト間の時空間関係を包括的に理解する能力がない。 また、現在の手法は通常、新しいビデオを生成するために複雑なアノテーション(例えばビデオセグメンテーション)で条件付けされる。 これにより、単一のフレームからオブジェクトレイアウトにのみ依存するマルチオブジェクトビデオを生成することができる。 上記の課題を解決し,レイアウトからの画像生成に関する最近の研究に触発された我々は,暗黙のニューラル表現とレイアウト動作自己推論を用いて,グローバルシーンを局所オブジェクトに合成できる新しいビデオ生成フレームワークを提案する。 我々のフレームワークは画像生成手法からの非自明な適応であり、この分野では新しいものである。 さらに,2つの広範に使用されているビデオ認識ベンチマークを用いて評価を行い,ベースラインモデルと比較して有効性を示した。

In this paper, we study video synthesis with emphasis on simplifying the generation conditions. Most existing video synthesis models or datasets are designed to address complex motions of a single object, lacking the ability of comprehensively understanding the spatio-temporal relationships among multiple objects. Besides, current methods are usually conditioned on intricate annotations (e.g. video segmentations) to generate new videos, being fundamentally less practical. These motivate us to generate multi-object videos conditioning exclusively on object layouts from a single frame. To solve above challenges and inspired by recent research on image generation from layouts, we have proposed a novel video generative framework capable of synthesizing global scenes with local objects, via implicit neural representations and layout motion self-inference. Our framework is a non-trivial adaptation from image generation methods, and is new to this field. In addition, our model has been evaluated on two widely-used video recognition benchmarks, demonstrating effectiveness compared to the baseline model.
翻訳日:2023-05-09 18:17:39 公開日:2023-05-06
# マルチパースペクティブコース学習者としての事前学習言語モデル

Pre-training Language Model as a Multi-perspective Course Learner ( http://arxiv.org/abs/2305.03981v1 )

ライセンス: Link先を確認
Beiduo Chen, Shaohan Huang, Zihan Zhang, Wu Guo, Zhenhua Ling, Haizhen Huang, Furu Wei, Weiwei Deng and Qi Zhang(参考訳) generator-discriminator事前トレーニングフレームワークであるelectraは、さまざまな下流タスクで印象的なセマンティック構築能力を達成している。 説得力のあるパフォーマンスにもかかわらず、ELECTRAは単調なトレーニングと不十分なインタラクションの課題に直面している。 マスキング言語モデリング(mlm)のみを持つジェネレータは、識別器のバイアス付き学習とラベル不均衡につながり、学習効率が低下する。 本研究では,多視点学習(MCL)手法を提案し,サンプル効率のよい事前学習のための様々な角度と視覚的角度を抽出し,ジェネレータと判別器の関係を十分に活用する。 具体的には、3つの自己超越コースは、MLMの固有の欠陥を緩和し、マルチパースペクティブな方法でラベルのバランスをとるように設計されている。 また、2つの自己修正コースが提案され、2つのエンコーダ間のキャズムを橋渡しし、二次的スーパービジョンのための「修正ノートブック」を作成する。 さらに、mclの「戦争状態」のダイナミクス問題を解くためにコーススープの試行が行われ、より強い事前訓練されたモデルが進化した。 実験結果から, GLUE と SQuAD 2.0 ベンチマークでは, ELECTRA の平均性能を2.8%, SQuAD 2.0 ベンチマークでは3.2%向上した。 事前トレーニングされたMCLモデルはhttps://huggingface.co/McmanusChen/MCL-baseで入手できる。

ELECTRA, the generator-discriminator pre-training framework, has achieved impressive semantic construction capability among various downstream tasks. Despite the convincing performance, ELECTRA still faces the challenges of monotonous training and deficient interaction. Generator with only masked language modeling (MLM) leads to biased learning and label imbalance for discriminator, decreasing learning efficiency; no explicit feedback loop from discriminator to generator results in the chasm between these two components, underutilizing the course learning. In this study, a multi-perspective course learning (MCL) method is proposed to fetch a many degrees and visual angles for sample-efficient pre-training, and to fully leverage the relationship between generator and discriminator. Concretely, three self-supervision courses are designed to alleviate inherent flaws of MLM and balance the label in a multi-perspective way. Besides, two self-correction courses are proposed to bridge the chasm between the two encoders by creating a "correction notebook" for secondary-supervision. Moreover, a course soups trial is conducted to solve the "tug-of-war" dynamics problem of MCL, evolving a stronger pre-trained model. Experimental results show that our method significantly improves ELECTRA's average performance by 2.8% and 3.2% absolute points respectively on GLUE and SQuAD 2.0 benchmarks, and overshadows recent advanced ELECTRA-style models under the same settings. The pre-trained MCL model is available at https://huggingface.co/McmanusChen/MCL-base.
翻訳日:2023-05-09 18:17:22 公開日:2023-05-06
# 逆デカップリング強化フレームワークによるプロンプトロスト顔認証

Towards Prompt-robust Face Privacy Protection via Adversarial Decoupling Augmentation Framework ( http://arxiv.org/abs/2305.03980v1 )

ライセンス: Link先を確認
Ruijia Wu, Yuhang Wang, Huafeng Shi, Zhipeng Yu, Yichao Wu, Ding Liang(参考訳) 消音拡散モデルは様々な世代のタスクにおいて顕著な可能性を示している。 オープンソースの大規模テキスト対画像モデルであるstable diffusionは、限られた数のサンプルを微調整することで、パーソナライズされたリアルな芸術的画像や顔画像を生成することができるため、広く普及している。 しかし、悪意のある編集のために顔画像や微調整されたテキストから画像へのモデルがオンラインで入手でき、根拠のないスキャンダルや名誉喪失、被害者の生活の混乱に繋がるなど、プライバシーの懸念が高まっている。 以前の研究は、敵の摂動を通じて顔のプライバシーを保護する従来の訓練プロセスから敵の損失を導き出すことに重点を置いてきた。 しかし、既存のアルゴリズムは2つの問題に直面している。 1)テキスト・ツー・イメージ拡散モデルの不可欠なモジュールである画像・テキスト融合モジュールを無視し、 2) 防御性能は異なる攻撃プロンプトに対して不安定である。 本稿では,顔のプライバシー保護アルゴリズムの防御性能を高めるために,画像テキスト融合モジュールをターゲットとしたAdversarial Decoupling Augmentation Framework (ADAF)を提案する。 ADAFは、様々な攻撃プロンプトに対する防御安定のために、多レベルテキスト関連の拡張を導入している。 具体的には,視覚,テキスト,共通単位空間を考慮し,視覚-敵対的損失,即席ロバスト拡張,注意分離損失を提案する。 CelebA-HQとVGGFace2の大規模な実験は、ADAFが既存のアルゴリズムを上回る有望な性能を示した。

Denoising diffusion models have shown remarkable potential in various generation tasks. The open-source large-scale text-to-image model, Stable Diffusion, becomes prevalent as it can generate realistic artistic or facial images with personalization through fine-tuning on a limited number of new samples. However, this has raised privacy concerns as adversaries can acquire facial images online and fine-tune text-to-image models for malicious editing, leading to baseless scandals, defamation, and disruption to victims' lives. Prior research efforts have focused on deriving adversarial loss from conventional training processes for facial privacy protection through adversarial perturbations. However, existing algorithms face two issues: 1) they neglect the image-text fusion module, which is the vital module of text-to-image diffusion models, and 2) their defensive performance is unstable against different attacker prompts. In this paper, we propose the Adversarial Decoupling Augmentation Framework (ADAF), addressing these issues by targeting the image-text fusion module to enhance the defensive performance of facial privacy protection algorithms. ADAF introduces multi-level text-related augmentations for defense stability against various attacker prompts. Concretely, considering the vision, text, and common unit space, we propose Vision-Adversarial Loss, Prompt-Robust Augmentation, and Attention-Decoupling Loss. Extensive experiments on CelebA-HQ and VGGFace2 demonstrate ADAF's promising performance, surpassing existing algorithms.
翻訳日:2023-05-09 18:16:52 公開日:2023-05-06
# 不完全情報を用いたテキスト生成のための逆非自己回帰モデル

An Adversarial Non-Autoregressive Model for Text Generation with Incomplete Information ( http://arxiv.org/abs/2305.03977v1 )

ライセンス: Link先を確認
Da Ren, Qing Li(参考訳) 非自己回帰モデルは、対応する出力を得るために完全な入力情報を持つ完全情報シナリオ(CIS)で広く研究されている。 しかし、不完全情報シナリオ(IIS)における彼らの探索は極めて限られている。 解析の結果,IISの不完全入力情報により,最大類似度推定の下で訓練された既存の非自己回帰モデルの性質的限界が増大することが明らかとなった。 本稿では,2つの新しい特徴を有するIIS型非自己回帰変換器(ANT)を提案する。 1)より合理的な隠れ表現を提供する位置認識自己調整、及び 2)依存性フィードフォワードネットワークは、依存性モデリングの能力を強化する。 我々はANTをIISの他の主流モデルと比較し、ANTがデコードイテレーションをはるかに少なくして同等のパフォーマンスを達成できることを示します。 さらに,潜時補間や半教師あり学習など,様々な応用にその可能性を示す。

Non-autoregressive models have been widely studied in the Complete Information Scenario (CIS), in which the models have complete input information to obtain corresponding output. However, their explorations in the Incomplete Information Scenario (IIS) are extremely limited. Our analyses reveal that the IIS's incomplete input information will augment the inherent limitations of existing non-autoregressive models trained under Maximum Likelihood Estimation. In this paper, we propose for the IIS an Adversarial Non-autoregressive Transformer (ANT) which has two novel features: 1) Position Aware Self-Modulation to provide more reasonable hidden representations, and 2) Dependency Feed Forward Network to strengthen its capacity in dependency modeling. We compare ANT with other mainstream models in the IIS and demonstrate that ANT can achieve comparable performance with much fewer decoding iterations. Furthermore, we show its great potential in various applications like latent interpolation and semi-supervised learning.
翻訳日:2023-05-09 18:16:25 公開日:2023-05-06
# discoprompt: 暗黙的談話関係認識のための経路予測プロンプトチューニング

DiscoPrompt: Path Prediction Prompt Tuning for Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2305.03973v1 )

ライセンス: Link先を確認
Chunkit Chan, Xin Liu, Jiayang Cheng, Zihan Li, Yangqiu Song, Ginny Y. Wong, Simon See(参考訳) Implicit Discourse Relation Recognition (IDRR) は、談話接続のない議論間の談話関係を認識するための洗練された課題である。 各談話関係のセンスラベルは、アノテーションプロセス(prasad et al., 2008)における階層的分類スキームに従い、階層構造を形成する。 既存の作品の多くは階層構造をうまく取り入れていないが、純粋なテキスト分類の方法で、構文の特徴と接続詞の事前知識に焦点を当てている。 我々は、フラットラベル(例えば、コントラスト)やコネクティヴ(例えば、コントラスト)よりも、階層木内の経路(例えば、"Comparison -> Contrast -> But")を予測する方が効果的であると主張している。 本稿では,IDRRの階層間の対話的情報と本質的な感覚を利用するための,素早い経路予測手法を提案する。 このような構造情報を即時チューニングにより事前学習言語モデルに注入する最初の試みであり、本ソリューションの性能は競争ベースラインに対して有意かつ一貫した改善を示す。

Implicit Discourse Relation Recognition (IDRR) is a sophisticated and challenging task to recognize the discourse relations between the arguments with the absence of discourse connectives. The sense labels for each discourse relation follow a hierarchical classification scheme in the annotation process (Prasad et al., 2008), forming a hierarchy structure. Most existing works do not well incorporate the hierarchy structure but focus on the syntax features and the prior knowledge of connectives in the manner of pure text classification. We argue that it is more effective to predict the paths inside the hierarchical tree (e.g., "Comparison -> Contrast -> however") rather than flat labels (e.g., Contrast) or connectives (e.g., however). We propose a prompt-based path prediction method to utilize the interactive information and intrinsic senses among the hierarchy in IDRR. This is the first work that injects such structure information into pre-trained language models via prompt tuning, and the performance of our solution shows significant and consistent improvement against competitive baselines.
翻訳日:2023-05-09 18:16:14 公開日:2023-05-06
# ロバストな質問応答に対する適応的緩い最適化

Adaptive loose optimization for robust question answering ( http://arxiv.org/abs/2305.03971v1 )

ライセンス: Link先を確認
Jie Ma, Pinghui Wang, Zewei Wang, Dechen Kong, Min Hu, Ting Han, Jun Liu(参考訳) 質問応答手法は、視覚的質問応答の事前言語や機械読解(extractive question answering)における位置バイアスなど、データバイアスを活用することでよく知られている。 非分散法は高い分散性能を得るために相当量の分散性能を犠牲にするのに対し、現在のデバイアス法は適切な分散性能を達成するために重要な分散性能を犠牲にすることが多い。 そのため、複雑に変化する現実世界の状況に対処することは困難である。 本稿では,両世界の質問応答を最大限に活用することを目的とした適応的ゆがみ最適化を用いた,単純かつ効果的な新しい損失関数を提案する。 私たちの技術的貢献は、ミニバッチトレーニングデータにおける前回と現在の最適化状態の比率に応じて、損失を適応的に低減することにあります。 この緩やかな最適化は、非バイアス法がデータのバイアスを過度に学習するのを防ぐと同時に、デバイアス法がわずかにバイアス学習を維持するのを可能にするために使用できる。 VQA v2, VQA-CP v1, VQA-CP v2, GQA-OOD, および抽出された質問応答データセットSQADを含む視覚的質問応答データセットの実験により、我々の手法は、ほとんどのケースにおいて、最先端のin-of-distriion性能をQA手法で得ることができることを示した。 ソースコードは \url{https://github.com/reml-group/ALO} で公開されている。

Question answering methods are well-known for leveraging data bias, such as the language prior in visual question answering and the position bias in machine reading comprehension (extractive question answering). Current debiasing methods often come at the cost of significant in-distribution performance to achieve favorable out-of-distribution generalizability, while non-debiasing methods sacrifice a considerable amount of out-of-distribution performance in order to obtain high in-distribution performance. Therefore, it is challenging for them to deal with the complicated changing real-world situations. In this paper, we propose a simple yet effective novel loss function with adaptive loose optimization, which seeks to make the best of both worlds for question answering. Our main technical contribution is to reduce the loss adaptively according to the ratio between the previous and current optimization state on mini-batch training data. This loose optimization can be used to prevent non-debiasing methods from overlearning data bias while enabling debiasing methods to maintain slight bias learning. Experiments on the visual question answering datasets, including VQA v2, VQA-CP v1, VQA-CP v2, GQA-OOD, and the extractive question answering dataset SQuAD demonstrate that our approach enables QA methods to obtain state-of-the-art in- and out-of-distribution performance in most cases. The source code has been released publicly in \url{https://github.com/reml-group/ALO}.
翻訳日:2023-05-09 18:15:53 公開日:2023-05-06
# echoes: echo chamberにおける擬似バイアスラベリングによる教師なしデバイアス

Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo Chamber ( http://arxiv.org/abs/2305.04043v1 )

ライセンス: Link先を確認
Rui Hu, Yahan Tu, Jitao Sang(参考訳) ニューラルネットワークは、バイアスのあるトレーニングデータに曝されると、しばしば急激な相関関係を学習する。 バイアス付きデータセットは、バイアス付き特徴に従ってバイアス対応サンプル(バイアス付き特徴を持つ)とバイアス対応サンプル(バイアス付き特徴を持たない)に分けられる。 近年のデバイアス研究は、そのような情報を得ることが困難で労働集約的なため、トレーニング期間中にバイアスラベルが利用できないと仮定している。 この教師なしの仮定に従うと、既存の手法は2つのモデルを訓練する: バイアス付き特徴を学習するためのバイアス付きモデルと、バイアス付きモデルからの情報を使ってバイアスを除去するターゲットモデルである。 本稿では,既存のバイアスモデルがトレーニングデータ中のバイアス強調サンプルに過度に適合していることが,対象モデルの劣化性能に悪影響を及ぼすことを示す実験的検討を行った。 そこで本研究では,偏りのあるモデルと異なる戦略を持つ対象モデルを学習する手法である \textit{echoes} を提案する。 偏りのあるモデルによって分類されたサンプルの重みを減らし,偏りのあるモデルが偏りのある特徴を過度に学習することを保証することで,"エコーチャンバー"環境を構築する。 バイアス付きモデルは、バイアス競合サンプルに低い重みを割り当てる。 その後, 対象モデルのトレーニングには, 偏りモデルのサンプル重みの逆をサンプル重みとして用いた。 実験により,提案手法は,合成データと実世界のデータセットの両方において,既存のベースラインよりも優れたデバイアス結果が得られることが示された。

Neural networks often learn spurious correlations when exposed to biased training data, leading to poor performance on out-of-distribution data. A biased dataset can be divided, according to biased features, into bias-aligned samples (i.e., with biased features) and bias-conflicting samples (i.e., without biased features). Recent debiasing works typically assume that no bias label is available during the training phase, as obtaining such information is challenging and labor-intensive. Following this unsupervised assumption, existing methods usually train two models: a biased model specialized to learn biased features and a target model that uses information from the biased model for debiasing. This paper first presents experimental analyses revealing that the existing biased models overfit to bias-conflicting samples in the training data, which negatively impacts the debiasing performance of the target models. To address this issue, we propose a straightforward and effective method called \textit{Echoes}, which trains a biased model and a target model with a different strategy. We construct an "echo chamber" environment by reducing the weights of samples which are misclassified by the biased model, to ensure the biased model fully learns the biased features without overfitting to the bias-conflicting samples. The biased model then assigns lower weights on the bias-conflicting samples. Subsequently, we use the inverse of the sample weights of the biased model as the sample weights for training the target model. Experiments show that our approach achieves superior debiasing results compared to the existing baselines on both synthetic and real-world datasets.
翻訳日:2023-05-09 18:08:08 公開日:2023-05-06
# 膜によるLDMの応答の精製

Refining the Responses of LLMs by Themselves ( http://arxiv.org/abs/2305.04039v1 )

ライセンス: Link先を確認
Tianqiang Yan and Tiansheng Xu(参考訳) 本稿では,大規模言語モデル自体を活用して補助モデルに頼らずに解答を最適化する,プロンプトエンジニアリングに基づく単純かつ効率的な手法を提案する。 反復的な自己評価最適化機構を導入し,反復が進行するにつれて出力品質が向上し,手作業による介入が不要になる可能性がある。 実験結果から, GPT-3.5モデルにおける応答改善フレームワークの利用は, 最先端の GPT-4 モデルと同等あるいはそれ以上の結果が得られることがわかった。 提案手法の優位性を示すための詳細な実装戦略と図示例を提供する。

In this paper, we propose a simple yet efficient approach based on prompt engineering that leverages the large language model itself to optimize its answers without relying on auxiliary models. We introduce an iterative self-evaluating optimization mechanism, with the potential for improved output quality as iterations progress, removing the need for manual intervention. The experiment's findings indicate that utilizing our response refinement framework on the GPT-3.5 model yields results that are on par with, or even surpass, those generated by the cutting-edge GPT-4 model. Detailed implementation strategies and illustrative examples are provided to demonstrate the superiority of our proposed solution.
翻訳日:2023-05-09 18:07:41 公開日:2023-05-06
# Wasserstein-Fisher-Rao 埋め込み:局所比較とグローバルトランスポートを用いた論理的クエリ埋め込み

Wasserstein-Fisher-Rao Embedding: Logical Query Embeddings with Local Comparison and Global Transport ( http://arxiv.org/abs/2305.04034v1 )

ライセンス: Link先を確認
Zihao Wang, Weizhi Fei, Hang Yin, Yangqiu Song, Ginny Y. Wong, Simon See(参考訳) 知識グラフ上で複雑なクエリを答えることは重要だが、データ不完全性のため特に難しい。 クエリ埋め込みメソッドは、学習ベースのモデルを使ってこの問題に対処し、論理推論と集合演算子をシミュレートする。 以前の作品は組込みの特定の形式に焦点を当てているが、組込み間の得点関数は未検討である。 局所比較や大域輸送に動機付けられた既存のスコアリング関数とは対照的に、本研究は局所的および大域的トレードオフと不均衡最適輸送理論を考察する。 具体的には、wasserstein-fisher-raoメトリックによって動機付けられたスコア関数を持つ$\real$ endowedの有界測度として集合を埋め込む。 このような設計は埋め込み空間内の閉形式集合作用素も促進する。 さらに,線形時間計算のための畳み込みに基づくアルゴリズムと,トレードオフを強制するブロック対角型カーネルを提案する。 その結果、WFREは、標準データセット上の既存のクエリ埋め込み手法、組合せ的に複雑なクエリによる評価セット、階層的な知識グラフよりも優れていることがわかった。 アブレーション研究は、より良い局所的およびグローバルなトレードオフを見つけることがパフォーマンス改善に不可欠であることを示している。

Answering complex queries on knowledge graphs is important but particularly challenging because of the data incompleteness. Query embedding methods address this issue by learning-based models and simulating logical reasoning with set operators. Previous works focus on specific forms of embeddings, but scoring functions between embeddings are underexplored. In contrast to existing scoring functions motivated by local comparison or global transport, this work investigates the local and global trade-off with unbalanced optimal transport theory. Specifically, we embed sets as bounded measures in $\real$ endowed with a scoring function motivated by the Wasserstein-Fisher-Rao metric. Such a design also facilitates closed-form set operators in the embedding space. Moreover, we introduce a convolution-based algorithm for linear time computation and a block-diagonal kernel to enforce the trade-off. Results show that WFRE can outperform existing query embedding methods on standard datasets, evaluation sets with combinatorially complex queries, and hierarchical knowledge graphs. Ablation study shows that finding a better local and global trade-off is essential for performance improvement.
翻訳日:2023-05-09 18:07:30 公開日:2023-05-06
# 重み付き損失半教師付きGANに基づく超水平レーダーのシーランドクラッタ分類フレームワーク

A Sea-Land Clutter Classification Framework for Over-the-Horizon-Radar Based on Weighted Loss Semi-supervised GAN ( http://arxiv.org/abs/2305.04021v1 )

ライセンス: Link先を確認
Xiaoxuan Zhang and Zengfu Wang and Kun Lu and Quan Pan and Yang Li(参考訳) 深層畳み込みニューラルネットワークは,othr(over-the-horizon-radar)の海面クラッタ分類において大きな成果を上げている。 この前提は、多数のラベル付きトレーニングサンプルを、陸域クラッタ分類器に提供しなければならないことである。 実用工学的な応用では、ラベルのない海陸クラッタのサンプルを得ることは比較的容易である。 しかし、ラベル付けプロセスは非常に面倒で、OTHRの分野の専門知識を必要とする。 そこで本研究では,改良された生成逆数ネットワーク,すなわち重み付き損失半教師付き生成逆数ネットワーク(WL-SSGAN)を提案する。 具体的には,半教師付き生成逆ネットワークの判別器の中間層特徴を重み付けて,損失をマッチングするジョイント特徴量を提案する。 さらに,WL-SSGANの重み付き損失を,標準対向損失と関節特徴整合損失を線形に重み付けすることで提案する。 WL-SSGANの半教師付き分類性能を海面クラッタデータセットで評価した。 実験の結果, WL-SSGANは, 少数のラベル付きサンプルのみを用いて, 多数のラベル付き海陸クラッタを用いて, 完全教師付き分類器の性能を向上させることができることがわかった。 さらに、提案した重み付き損失は、対向損失と特徴整合損失の両方よりも優れている。 さらに、WL-SSGANと従来の半教師付き分類法を比較し、WL-SSGANが最も高い分類精度を達成することを示す。

Deep convolutional neural network has made great achievements in sea-land clutter classification for over-the-horizon-radar (OTHR). The premise is that a large number of labeled training samples must be provided for a sea-land clutter classifier. In practical engineering applications, it is relatively easy to obtain label-free sea-land clutter samples. However, the labeling process is extremely cumbersome and requires expertise in the field of OTHR. To solve this problem, we propose an improved generative adversarial network, namely weighted loss semi-supervised generative adversarial network (WL-SSGAN). Specifically, we propose a joint feature matching loss by weighting the middle layer features of the discriminator of semi-supervised generative adversarial network. Furthermore, we propose the weighted loss of WL-SSGAN by linearly weighting standard adversarial loss and joint feature matching loss. The semi-supervised classification performance of WL-SSGAN is evaluated on a sea-land clutter dataset. The experimental results show that WL-SSGAN can improve the performance of the fully supervised classifier with only a small number of labeled samples by utilizing a large number of unlabeled sea-land clutter samples. Further, the proposed weighted loss is superior to both the adversarial loss and the feature matching loss. Additionally, we compare WL-SSGAN with conventional semi-supervised classification methods and demonstrate that WL-SSGAN achieves the highest classification accuracy.
翻訳日:2023-05-09 18:07:10 公開日:2023-05-06
# アルゴリズムバイアス、ジェネラリストモデル、臨床医学

Algorithmic Bias, Generalist Models,and Clinical Medicine ( http://arxiv.org/abs/2305.04008v1 )

ライセンス: Link先を確認
Geoff Keeling(参考訳) 臨床機械学習の技術的展望は、アルゴリズムバイアスの性質と原因に関する広範な仮定を不安定化する方法にシフトしている。 一方、臨床機械学習における支配的なパラダイムは、診断や治療勧告などの特定の臨床タスクのために、バイオメディカルデータセットでモデルが訓練されるという意味では狭くなっている。 一方、新興パラダイムは、GoogleのBERTやPaLMといった汎用言語モデルが、バイオメディカルデータセットのプロンプトや微調整を通じて、臨床ユースケースに適応しつつあるという意味で、一般論である。 これらの次世代モデルの多くは、以前の臨床モデルよりもかなりの性能向上をもたらすが、同時に新しい種類のアルゴリズムバイアスを導入し、トレーニングデータにおけるアルゴリズムバイアスとバイアスの関係を複雑化する。 本稿では, 一般モデルにおける偏見が, 先行臨床モデルにおける偏見とどのように異なるのかを詳述し, アルゴリズム的偏見緩和のための実践的勧告を提示する。

The technical landscape of clinical machine learning is shifting in ways that destabilize pervasive assumptions about the nature and causes of algorithmic bias. On one hand, the dominant paradigm in clinical machine learning is narrow in the sense that models are trained on biomedical datasets for particular clinical tasks such as diagnosis and treatment recommendation. On the other hand, the emerging paradigm is generalist in the sense that general-purpose language models such as Google's BERT and PaLM are increasingly being adapted for clinical use cases via prompting or fine-tuning on biomedical datasets. Many of these next-generation models provide substantial performance gains over prior clinical models, but at the same time introduce novel kinds of algorithmic bias and complicate the explanatory relationship between algorithmic biases and biases in training data. This paper articulates how and in what respects biases in generalist models differ from biases in prior clinical models, and draws out practical recommendations for algorithmic bias mitigation.
翻訳日:2023-05-09 18:06:46 公開日:2023-05-06
# 重み付き点雲正規推定

Weighted Point Cloud Normal Estimation ( http://arxiv.org/abs/2305.04007v1 )

ライセンス: Link先を確認
Weijia Wang, Xuequan Lu, Di Shao, Xiao Liu, Richard Dazeley, Antonio Robles-Kelly and Wei Pan(参考訳) 既存の点雲の正規推定法は、しばしば強騒音や複雑な幾何学構造に対して頑丈でない。 また、通常、平均的な推定中に異なる隣接点の寄与を無視するので、結果の正確さが低下する。 本稿では,3次元点雲データに対する重み付き正規推定法を提案する。 私たちは2つの重要なポイントで革新します 1)局所的な点パッチから点重みを予測し,頑健で特徴保存の正常回帰に使用する,新しい重み付き正規回帰法を開発した。 2) 通常の回帰を容易にする事前学習プロセスとして, 点パッチと対応する点中心点の接地規則正規点の対比学習を行うことを提案する。 総合的な実験により,提案手法はノイズや複雑な点群をロバストに処理でき,合成データと実世界データの両方において最先端の性能が得られることを示した。

Existing normal estimation methods for point clouds are often less robust to severe noise and complex geometric structures. Also, they usually ignore the contributions of different neighbouring points during normal estimation, which leads to less accurate results. In this paper, we introduce a weighted normal estimation method for 3D point cloud data. We innovate in two key points: 1) we develop a novel weighted normal regression technique that predicts point-wise weights from local point patches and use them for robust, feature-preserving normal regression; 2) we propose to conduct contrastive learning between point patches and the corresponding ground-truth normals of the patches' central points as a pre-training process to facilitate normal regression. Comprehensive experiments demonstrate that our method can robustly handle noisy and complex point clouds, achieving state-of-the-art performance on both synthetic and real-world datasets.
翻訳日:2023-05-09 18:06:31 公開日:2023-05-06
# 深層学習を用いた筋電図信号分類

Electromyography Signal Classification Using Deep Learning ( http://arxiv.org/abs/2305.04006v1 )

ライセンス: Link先を確認
Mekia Shigute Gaso, Selcuk Cankurt and Abdulhamit Subasi(参考訳) 我々はL2正規化を用いたディープラーニングモデルを実装し,EMGデータに基づいて学習を行った。 データは、コントロールグループ、ミオパチー、ALS患者から収集されたEMG信号からなる。 提案したディープニューラルネットワークは,全接続層5層,バッチ正規化層2層,ドロップアウト層1層からなる。 データは、トレーニングデータをサブトレーニングとバリデーションセクションに分割することで、トレーニングとテストのセクションに分割される。 このモデルを実装すると、テストデータセット上で99%の精度が達成されます。 このモデルは、正常例(対照群)を100%の精度で他の症例と区別し、myopathyとalsを97.4および98.2%の精度で分類することができた。 したがって,この高度に改良された分類は,神経筋疾患の臨床診断に有用であると考えられる。

We have implemented a deep learning model with L2 regularization and trained it on Electromyography (EMG) data. The data comprises of EMG signals collected from control group, myopathy and ALS patients. Our proposed deep neural network consists of eight layers; five fully connected, two batch normalization and one dropout layers. The data is divided into training and testing sections by subsequently dividing the training data into sub-training and validation sections. Having implemented this model, an accuracy of 99 percent is achieved on the test data set. The model was able to distinguishes the normal cases (control group) from the others at a precision of 100 percent and classify the myopathy and ALS with high accuracy of 97.4 and 98.2 percents, respectively. Thus we believe that, this highly improved classification accuracies will be beneficial for their use in the clinical diagnosis of neuromuscular disorders.
翻訳日:2023-05-09 18:06:15 公開日:2023-05-06
# ロボット超音波ガイド法におけるスキル伝達学習の簡便な枠組みに向けて

Towards a Simple Framework of Skill Transfer Learning for Robotic Ultrasound-guidance Procedures ( http://arxiv.org/abs/2305.04004v1 )

ライセンス: Link先を確認
Tsz Yan Leung, Miguel Xochicale(参考訳) 本稿では,ロボット超音波誘導法におけるスキルトランスファー学習の簡単な枠組みを提案する。 ロボット超音波誘導術におけるスキルトランスファー学習の課題を概観する。 次に,ロボット超音波誘導法における実時間応用のための簡単なスキル伝達学習フレームワークの提案に繋がる,適切なサンプリング技術,計算効率のよいニューラルネットワークモデルの必要性を明らかにする。 本研究は, 胎児ファントムからの4面心電図の最適走査面を求める2人の被験者(経験者1名, 非臨床医1名)による実験実験である。 超音波画像フレーム,テクスチャ画像の時系列,四元数を分析し,臨床医が非臨床医の長期的・非定常的動作と比較して,より迅速かつスムーズな方法で手術を行った。 今後の研究のために,ロボット超音波誘導法におけるリアルタイム応用のためのプルーニングニューラルネットワークモデルの必要性を指摘した。 この作業を再現するリソースは \url{https://github.com/mxochicale/rami-icra2023} にある。

In this paper, we present a simple framework of skill transfer learning for robotic ultrasound-guidance procedures. We briefly review challenges in skill transfer learning for robotic ultrasound-guidance procedures. We then identify the need of appropriate sampling techniques, computationally efficient neural networks models that lead to the proposal of a simple framework of skill transfer learning for real-time applications in robotic ultrasound-guidance procedures. We present pilot experiments from two participants (one experienced clinician and one non-clinician) looking for an optimal scanning plane of the four-chamber cardiac view from a fetal phantom. We analysed ultrasound image frames, time series of texture image features and quaternions and found that the experienced clinician performed the procedure in a quicker and smoother way compared to lengthy and non-constant movements from non-clinicians. For future work, we pointed out the need of pruned and quantised neural network models for real-time applications in robotic ultrasound-guidance procedure. The resources to reproduce this work are available at \url{https://github.com/mxochicale/rami-icra2023}.
翻訳日:2023-05-09 18:06:00 公開日:2023-05-06
# ANTONIO:検証のためのNLPベンチマーク生成方式

ANTONIO: Towards a Systematic Method of Generating NLP Benchmarks for Verification ( http://arxiv.org/abs/2305.04003v1 )

ライセンス: Link先を確認
Marco Casadio, Luca Arnaboldi, Matthew L. Daggitt, Omri Isac, Tanvi Dinkar, Daniel Kienitz, Verena Rieser, Ekaterina Komendantskaya(参考訳) 自然言語処理(NLP)で使用される機械学習モデルの検証は難しい問題であることが知られている。 特に、コンピュータビジョンや他の数値データセットで機能する多くの既知のニューラルネットワーク検証方法は、NLPでは機能しない。 ここでは,この問題を裏付ける技術的理由について検討する。 そこで本研究では,NLPデータセットとモデルを作成するための実践的手法とヒューリスティックスを提案する。 我々はこれらの手法を,ニューラルネットワーク検証器ERANとマラブーにリンクするANTONIOと呼ばれるPythonライブラリとして実装する。 我々は,NLP データセット R-U-A-Robot を法的に重要な NLP アプリケーションを検証するためのベンチマークとして提案したツールの評価を行う。 一般的な適用性のおかげで、この研究がニューラルネットワーク検証コンテストにNLP検証問題を含める新たな可能性を開き、コミュニティ内でNLP問題の普及を期待する。

Verification of machine learning models used in Natural Language Processing (NLP) is known to be a hard problem. In particular, many known neural network verification methods that work for computer vision and other numeric datasets do not work for NLP. Here, we study technical reasons that underlie this problem. Based on this analysis, we propose practical methods and heuristics for preparing NLP datasets and models in a way that renders them amenable to known verification methods based on abstract interpretation. We implement these methods as a Python library called ANTONIO that links to the neural network verifiers ERAN and Marabou. We perform evaluation of the tool using an NLP dataset R-U-A-Robot suggested as a benchmark for verifying legally critical NLP applications. We hope that, thanks to its general applicability, this work will open novel possibilities for including NLP verification problems into neural network verification competitions, and will popularise NLP problems within this community.
翻訳日:2023-05-09 18:05:44 公開日:2023-05-06
# AADiff:テキストと画像の拡散によるオーディオ対応ビデオ合成

AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion ( http://arxiv.org/abs/2305.04001v1 )

ライセンス: Link先を確認
Seungwoo Lee, Chaerin Kong, Donghyeon Jeon, Nojun Kwak(参考訳) 拡散モデルの最近の進歩は、テキスト・トゥ・ビデオ(T2V)合成タスクにおいて有望な結果を示している。 しかし、これらのt2vモデルはテキストのみを指導として使用するため、詳細な時間ダイナミクスのモデリングに苦労する傾向がある。 本稿では,時間的ダイナミクスを制御するために音声信号を利用する新しいT2Vフレームワークを提案する。 本稿では,映像合成の相反する2つのデシデラタ,すなわち時間的柔軟性とコヒーレンスを良好にバランスさせるために,音声ベースの地域編集と信号平滑化を提案する。 実験により,本手法の有効性を実証的に実証し,さらにコンテンツ作成の実践的応用について述べる。

Recent advances in diffusion models have showcased promising results in the text-to-video (T2V) synthesis task. However, as these T2V models solely employ text as the guidance, they tend to struggle in modeling detailed temporal dynamics. In this paper, we introduce a novel T2V framework that additionally employ audio signals to control the temporal dynamics, empowering an off-the-shelf T2I diffusion to generate audio-aligned videos. We propose audio-based regional editing and signal smoothing to strike a good balance between the two contradicting desiderata of video synthesis, i.e., temporal flexibility and coherence. We empirically demonstrate the effectiveness of our method through experiments, and further present practical applications for contents creation.
翻訳日:2023-05-09 18:05:31 公開日:2023-05-06
# 事前学習拡散モデルによる一発半教師付きフェデレーション学習の探索

Exploring One-shot Semi-supervised Federated Learning with A Pre-trained Diffusion Model ( http://arxiv.org/abs/2305.04063v1 )

ライセンス: Link先を確認
Mingzhao Yang, Shangchao Su, Bin Li, Xiangyang Xue(参考訳) 連合学習(federated learning)は、プライバシ保護による協調学習アプローチである。 近年,サーバ上のラベル付きデータとクライアント上のラベルなしデータを用いた実世界のシナリオを扱うための,半教師付きフェデレーション学習環境が提案されている。 しかし、既存の手法では、通信コストの高騰、クライアント装置のトレーニング圧力、サーバとクライアント間の分散の違いといった課題に直面している。 本稿では,フェデレート学習に事前学習された強力な拡散モデルを導入し,フェデレート拡散に触発された半教師付き共学習法であるfeeddiscを提案する。 具体的には,まずサーバ上のラベル付きデータからプロトタイプを抽出し,クライアントに送信する。 クライアントはこれらのプロトタイプを使用して、ローカルデータの擬似ラベルを予測し、クラスタセントロイドとドメイン固有の特徴を計算して、パーソナライズされたディストリビューションを表現する。 ノイズを追加した後、クライアントはこれらの特徴と対応する擬似ラベルをサーバに送信し、事前にトレーニングされた拡散モデルを使用して、クライアントディストリビューションに準拠した擬似サンプルを生成し、それらを集約したモデルをトレーニングする。 我々の手法は局所的な訓練を必要とせず、クライアントのフォワード推論のみを伴います。 DomainNet, Openimage, NICO++ に関する広範な実験により,提案手法は,非IID クライアント上の一発半教師付き問題に効果的に対処し,比較した SOTA 手法より優れていることを示した。 また,feeddiscがクライアントのプライバシーに敏感な情報を漏らす可能性があることを可視化することで実証した。

Federated learning is a privacy-preserving collaborative learning approach. Recently, some studies have proposed the semi-supervised federated learning setting to handle the commonly seen real-world scenarios with labeled data on the server and unlabeled data on the clients. However, existing methods still face challenges such as high communication costs, training pressure on the client devices, and distribution differences among the server and the clients. In this paper, we introduce the powerful pre-trained diffusion models into federated learning and propose FedDISC, a Federated Diffusion Inspired Semi-supervised Co-training method, to address these challenges. Specifically, we first extract prototypes from the labeled data on the server and send them to the clients. The clients then use these prototypes to predict pseudo-labels of the local data, and compute the cluster centroids and domain-specific features to represent their personalized distributions. After adding noise, the clients send these features and their corresponding pseudo-labels back to the server, which uses a pre-trained diffusion model to conditionally generate pseudo-samples complying with the client distributions and train an aggregated model on them. Our method does not require local training and only involves forward inference on the clients. Our extensive experiments on DomainNet, Openimage, and NICO++ demonstrate that the proposed FedDISC method effectively addresses the one-shot semi-supervised problem on Non-IID clients and outperforms the compared SOTA methods. We also demonstrate through visualization that it is of neglectable possibility for FedDISC to leak privacy-sensitive information of the clients.
翻訳日:2023-05-09 18:00:46 公開日:2023-05-06
# 大規模モデルの信頼できる推論とトレーニングのためのブロックチェーンベースのプラットフォーム

A Blockchain-based Platform for Reliable Inference and Training of Large-Scale Models ( http://arxiv.org/abs/2305.04062v1 )

ライセンス: Link先を確認
Sanghyeon Park, Junmo Lee, Soo-Mook Moon(参考訳) 人工知能(AI)がさまざまな領域に浸透し続けており、AIによる推論とトレーニングプロセスにおける信頼と透明性に関する懸念が生まれている。 ブロックチェーンのような分散ソリューションはこれらの問題に対処するために提案されているが、大規模なモデルを扱う場合にはしばしば苦労する。 これらの制限を克服するため、BRAINはブロックチェーンベースのReliable AI Networkで、大規模モデルの信頼性の高い推論とトレーニングを保証するように設計された、新しいプラットフォームである。 リクエストとレスポンスのトランザクションを分離することで、パイプライン化によるリアルタイム処理を可能にする。 各ランダム選択された推論委員会は、推論結果をコミットして公開し、スマートコントラクトを介して合意に達すると、コンセンサス結果を用いて要求された操作を実行する。 さらに、脳はランダムに選択された訓練委員会を用いてトレーニングを行う。 彼らはコミットを送信し、各スコアと共にトランザクションを明らかにし、スコアの中央値に基づいてローカルモデルアグリゲーションを可能にする。 実験の結果,BRAINは適切なガス料金でかなり高い推算スループットを提供することがわかった。 特に、BRAINのタスク/秒のパフォーマンスは、単純な単一フェーズの実装の454.4293倍である。

As artificial intelligence (AI) continues to permeate various domains, concerns surrounding trust and transparency in AI-driven inference and training processes have emerged, particularly with respect to potential biases and traceability challenges. Decentralized solutions such as blockchain have been proposed to tackle these issues, but they often struggle when dealing with large-scale models, leading to time-consuming inference and inefficient training verification. To overcome these limitations, we introduce BRAIN, a Blockchain-based Reliable AI Network, a novel platform specifically designed to ensure reliable inference and training of large models. BRAIN harnesses a unique two-phase transaction mechanism, allowing real-time processing via pipelining by separating request and response transactions. Each randomly-selected inference committee commits and reveals the inference results, and upon reaching an agreement through a smart contract, then the requested operation is executed using the consensus result. Additionally, BRAIN carries out training by employing a randomly-selected training committee. They submit commit and reveal transactions along with their respective scores, enabling local model aggregation based on the median value of the scores. Experimental results demonstrate that BRAIN delivers considerably higher inference throughput at reasonable gas fees. In particular, BRAIN's tasks-per-second performance is 454.4293 times greater than that of a naive single-phase implementation.
翻訳日:2023-05-09 18:00:17 公開日:2023-05-06
# 私たちはまだいない:組織コンプライアンスのための不十分な知識管理の意味

We Are Not There Yet: The Implications of Insufficient Knowledge Management for Organisational Compliance ( http://arxiv.org/abs/2305.04061v1 )

ライセンス: Link先を確認
Thomas \c{S}erban von Davier, Konrad Kollnig, Reuben Binns, Max Van Kleek, Nigel Shadbolt(参考訳) 2018年にGDPRが施行されて以来、他の多くのデータ保護およびプライバシー規制がリリースされている。 新しい規制により、データ保護とプライバシに重点を置いた業界の専門家が増加してきた。 本稿では、組織コンプライアンスとプライバシエンジニアリングにおける知識管理の潜在的なメリットを示す関連研究に基づいて、データ保護担当者や他のプライバシ専門家による探索的質的研究の成果を示す。 知識管理の問題が参加者のフィードバックの根底にある課題であることがわかった。 参加者は,(1)規制と実践の切り離し,(2)明確な職務記述の全般的欠如,(3)組織のあらゆるレベルでデータ保護とプライバシの必要性,(4)知識管理ツールが存在するが,効果的に使用されていない,という4つのカテゴリのフィードバックに注目した。 本稿では,コンピュータ支援作業環境の構築において,知識管理や自動化ソリューションが有効であることを実証する。

Since GDPR went into effect in 2018, many other data protection and privacy regulations have been released. With the new regulation, there has been an associated increase in industry professionals focused on data protection and privacy. Building on related work showing the potential benefits of knowledge management in organisational compliance and privacy engineering, this paper presents the findings of an exploratory qualitative study with data protection officers and other privacy professionals. We found issues with knowledge management to be the underlying challenge of our participants' feedback. Our participants noted four categories of feedback: (1) a perceived disconnect between regulation and practice, (2) a general lack of clear job description, (3) the need for data protection and privacy to be involved at every level of an organisation, (4) knowledge management tools exist but are not used effectively. This paper questions what knowledge management or automation solutions may prove to be effective in establishing better computer-supported work environments.
翻訳日:2023-05-09 17:59:56 公開日:2023-05-06
# 低地球軌道におけるシーン分類のための分散型半教師オンボード学習

Decentralised Semi-supervised Onboard Learning for Scene Classification in Low-Earth Orbit ( http://arxiv.org/abs/2305.04059v1 )

ライセンス: Link先を確認
Johan \"Ostman, Pablo Gomez, Vinutha Magal Shreenath, Gabriele Meoni(参考訳) 最新の衛星ハードウェア上でのオンボード機械学習は、通信と運用コストを大幅に削減する可能性がある。 本稿では,半教師付き学習を用いたシーン分類のための衛星コンステレーション上での機械学習モデルのトレーニングを,ニューラルネットワークの衛星プロセッサベンチマークに基づく温度や電力予算の制限といった運用上の制約を考慮しながら紹介する。 我々は,分散学習と連合学習の両方を用いたミッションシナリオを評価する。 すべてのシナリオは、1日のミッションタイムフレーム内で高精度(EuroSAT RGBデータセットで約91%)に収束する。

Onboard machine learning on the latest satellite hardware offers the potential for significant savings in communication and operational costs. We showcase the training of a machine learning model on a satellite constellation for scene classification using semi-supervised learning while accounting for operational constraints such as temperature and limited power budgets based on satellite processor benchmarks of the neural network. We evaluate mission scenarios employing both decentralised and federated learning approaches. All scenarios achieve convergence to high accuracy (around 91% on EuroSAT RGB dataset) within a one-day mission timeframe.
翻訳日:2023-05-09 17:59:39 公開日:2023-05-06
# 科学技術オントロジー:新しいトピックの分類法

Science and Technology Ontology: A Taxonomy of Emerging Topics ( http://arxiv.org/abs/2305.04055v1 )

ライセンス: Link先を確認
Mahender Kumar, Ruby Rani, Mirko Botarelli, Gregory Epiophaniou, and Carsten Maple(参考訳) オントロジはセマンティックウェブ技術において、知識を表現し、機械がデータの意味を理解できるように構造化され標準化された方法を提供することで重要な役割を果たす。 いくつかの分類学やオントロジーが生成されているが、個人は一つのドメインをターゲットにしており、時間と手作業で高価なものもいくつかある。 また、彼らは知識のランドスケープと学際的なコラボレーションをより包括的かつ包括的に表現する非伝統的なトピックをもっと網羅する必要がある。 したがって、科学と技術を扱うオントロジーと、関連性や共通性を持つ可能性のあるさまざまな分野や領域のトピックを結びつけることで、多分野の研究を促進する必要がある。 これらの課題に対処するため、異なる科学技術分野における従来と異なるトピックをカバーする自動科学技術オントロジー(S&TO)を提案する。 提案したS&TOは、新たな研究領域の発見と分野間の協力を促進することができる。 このオントロジーは、2021年10月から2022年8月まで、セマンティック・スカラーから収集された393,991の科学論文のデータセットにBERTopicを適用して構築された。 現在、S&TOには5,153のトピックと13,155のセマンティックリレーションが含まれている。 S&TOモデルは、最新のデータセット上でBERTopicを実行することで更新できる

Ontologies play a critical role in Semantic Web technologies by providing a structured and standardized way to represent knowledge and enabling machines to understand the meaning of data. Several taxonomies and ontologies have been generated, but individuals target one domain, and only some of those have been found expensive in time and manual effort. Also, they need more coverage of unconventional topics representing a more holistic and comprehensive view of the knowledge landscape and interdisciplinary collaborations. Thus, there needs to be an ontology covering Science and Technology and facilitate multidisciplinary research by connecting topics from different fields and domains that may be related or have commonalities. To address these issues, we present an automatic Science and Technology Ontology (S&TO) that covers unconventional topics in different science and technology domains. The proposed S&TO can promote the discovery of new research areas and collaborations across disciplines. The ontology is constructed by applying BERTopic to a dataset of 393,991 scientific articles collected from Semantic Scholar from October 2021 to August 2022, covering four fields of science. Currently, S&TO includes 5,153 topics and 13,155 semantic relations. S&TO model can be updated by running BERTopic on more recent datasets
翻訳日:2023-05-09 17:59:26 公開日:2023-05-06
# SST-ReversibleNet:高反射率画像再構成のための可逆優先スペクトル変換器

SST-ReversibleNet: Reversible-prior-based Spectral-Spatial Transformer for Efficient Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2305.04054v1 )

ライセンス: Link先を確認
Zeyu Cai, Jian Yu, Ziyu Zhang, Chengqian Jin, Feipeng Da(参考訳) スペクトル画像再構成は、スナップショット圧縮イメージングにおいて重要な課題である。 本稿では,最適化条件によらず,再構成精度を向上し,パラメータ数を減らすために,ディープ展開ネットワークと類似した反復機能を備えた新しいエンドツーエンドフレームワークを提案する。 reversible-prior-based method と呼ばれる新しいフレームワークを提案する。 光路の可逆性に触発されて、可逆優先型フレームワークは、再構成を測定空間に投影し、投影されたデータと実際の測定の間の残差を反復のためにネットワークに供給する。 ネットワーク内の再構成サブネットは、残余の真の値へのマッピングを学習し、復元精度を向上させる。 さらに, 空間的テクスチャを無視したり, 局所的な空間的特徴を犠牲にして学習したりする既存のトランスフォーマ・デノイジング・モジュールの欠点に対応して, ネットワークの深さと計算複雑性のバランスを保ちつつ, 空間的およびスペクトル的次元におけるスペクトルデータの大域的相関を考慮し, 新たなスペクトル・空間的トランスフォーマを提案する。 我々のSST-ReversibleNetは、シミュレーションされた実HSIデータセットにおける最先端の手法よりも、計算コストとストレージコストの低減を図っている。 https://github.com/caizeyu1992/sst

Spectral image reconstruction is an important task in snapshot compressed imaging. This paper aims to propose a new end-to-end framework with iterative capabilities similar to a deep unfolding network to improve reconstruction accuracy, independent of optimization conditions, and to reduce the number of parameters. A novel framework called the reversible-prior-based method is proposed. Inspired by the reversibility of the optical path, the reversible-prior-based framework projects the reconstructions back into the measurement space, and then the residuals between the projected data and the real measurements are fed into the network for iteration. The reconstruction subnet in the network then learns the mapping of the residuals to the true values to improve reconstruction accuracy. In addition, a novel spectral-spatial transformer is proposed to account for the global correlation of spectral data in both spatial and spectral dimensions while balancing network depth and computational complexity, in response to the shortcomings of existing transformer-based denoising modules that ignore spatial texture features or learn local spatial features at the expense of global spatial features. Extensive experiments show that our SST-ReversibleNet significantly outperforms state-of-the-art methods on simulated and real HSI datasets, while requiring lower computational and storage costs. https://github.com/caizeyu1992/SST
翻訳日:2023-05-09 17:58:53 公開日:2023-05-06
# リスクリミット監査の新しいアルゴリズムと応用

New Algorithms and Applications for Risk-Limiting Audits ( http://arxiv.org/abs/2305.04050v1 )

ライセンス: Link先を確認
Bar Karov and Moni Naor(参考訳) リスク制限監査(RLA)は、選挙の正確性に対する信頼性を高める重要なツールである。 ランダム化されたアルゴリズムは、投票の集計システムによって報告されているように、選挙の投票が正しい候補者の当選に対応することをチェックする。 最初の投票数が間違った選挙の勝者につながる場合、RLAは自分のランダム性よりも高い確率でエラーを特定することを保証します。 これらの監査は、報告された勝者を確認するか、真の勝者を特定するまで、一連の投票のサンプリングと検査によって行われる。 本研究の第1部では,古典的(バロックレベル)rlasをバッチ操作のものに変換するための,‘batchcomp’と呼ばれる新しい汎用的手法が提案されている。提案手法の具体的適用として,イスラエル・クネセット選挙において,最初の投票レベルのrlaを開発し,バッチで動作するものに転換する。我々は,第22回,第23回,第24回クネセット選挙の結果に対して,‘batchcomp’手続きを実施した。 この研究の第2部は、RLAの新しいユースケースを示唆している: 人口統計が国家の地区や連邦政府への政治的権限の適切な配分につながることを検証する。 本稿では,既存のRLA手法であるALPHAを国勢調査に適用する手法に適用する。 我々の国勢調査RLAは、議会の議席が特定の機能(最高平均)に応じてその人口に比例して地理的地域に割り当てられる国に適用される。 これは国勢調査と、現在多くの国で実施されている追加の手続きの両方のデータに依存しており、後列挙調査と呼ばれる。

Risk-limiting audits (RLAs) are a significant tool in increasing confidence in the accuracy of elections. They consist of randomized algorithms which check that an election's vote tally, as reported by a vote tabulation system, corresponds to the correct candidates winning. If an initial vote count leads to the wrong election winner, an RLA guarantees to identify the error with high probability over its own randomness. These audits operate by sequentially sampling and examining ballots until they can either confirm the reported winner or identify the true winner. The first part of this work suggests a new generic method, called ``Batchcomp", for converting classical (ballot-level) RLAs into ones that operate on batches. As a concrete application of the suggested method, we develop the first ballot-level RLA for the Israeli Knesset elections, and convert it to one which operates on batches. We ran the suggested ``Batchcomp" procedure on the results of 22nd, 23rd and 24th Knesset elections, both with and without errors. The second part of this work suggests a new use-case for RLAs: verifying that a population census leads to the correct allocation of political power to a nation's districts or federal-states. We present an adaptation of ALPHA, an existing RLA method, to a method which applies to censuses. Our census-RLA is applicable in nations where parliament seats are allocated to geographical regions in proportion to their population according to a certain class of functions (highest averages). It relies on data from both the census and from an additional procedure which is already conducted in many countries today, called a post-enumeration survey.
翻訳日:2023-05-09 17:58:13 公開日:2023-05-06
# タスク指向会話のための新しいスロットを積極的に発見する

Actively Discovering New Slots for Task-oriented Conversation ( http://arxiv.org/abs/2305.04049v1 )

ライセンス: Link先を確認
Yuxia Wu, Tianhao Dai, Zhedong Zheng, Lizi Liao(参考訳) 既存のタスク指向対話型検索システムは、事前定義されたスロットと候補値セットを持つドメインオントロジーに大きく依存している。 現実的なアプリケーションでは、新しいユーザ要件と絶えず変化するシナリオのため、これらの前提条件を満たすのは困難です。 これらの問題を緩和して相互作用性能を向上させるため、語彙外値の検出や、教師なしあるいは半教師なしの学習パラダイムの下での新しいスロットの発見に向けた取り組みが行われている。 しかし、会話データパターンを過度に強調すると、これらのメソッドはノイズと任意のスロット結果をもたらす。 実用性を容易にするために、現実世界のシステムは、正確で有意義なスロット割り当てを得るための権威的な方法を提供する、厳密な量の人間のラベルの割当を提供する傾向がある。 それにもかかわらず、そのような割当を効率的に利用するという高い要求がもたらされる。 そこで我々は,新しいスロット発見タスクを情報抽出方式で定式化し,アクティブな学習フレームワークに組み込んで,ループ内学習を実現する。 具体的には、既存の言語ツールを利用して、対応するラベルがより弱い監督信号として利用される値候補を抽出する。 そこで本稿では,不確実性に基づくサンプリングと多様性に基づくサンプリングという2つの主要な戦略を取り入れた複基準選択手法を提案する。 我々は,いくつかの公開データセットについて広範な実験を行い,本手法の有効性を示すために,多数の競合ベースラインと比較する。 我々はこの論文で使われているコードとデータを公開しました。

Existing task-oriented conversational search systems heavily rely on domain ontologies with pre-defined slots and candidate value sets. In practical applications, these prerequisites are hard to meet, due to the emerging new user requirements and ever-changing scenarios. To mitigate these issues for better interaction performance, there are efforts working towards detecting out-of-vocabulary values or discovering new slots under unsupervised or semi-supervised learning paradigm. However, overemphasizing on the conversation data patterns alone induces these methods to yield noisy and arbitrary slot results. To facilitate the pragmatic utility, real-world systems tend to provide a stringent amount of human labelling quota, which offers an authoritative way to obtain accurate and meaningful slot assignments. Nonetheless, it also brings forward the high requirement of utilizing such quota efficiently. Hence, we formulate a general new slot discovery task in an information extraction fashion and incorporate it into an active learning framework to realize human-in-the-loop learning. Specifically, we leverage existing language tools to extract value candidates where the corresponding labels are further leveraged as weak supervision signals. Based on these, we propose a bi-criteria selection scheme which incorporates two major strategies, namely, uncertainty-based sampling and diversity-based sampling to efficiently identify terms of interest. We conduct extensive experiments on several public datasets and compare with a bunch of competitive baselines to demonstrate the effectiveness of our method. We have made the code and data used in this paper publicly available.
翻訳日:2023-05-09 17:57:42 公開日:2023-05-06
# ハイパースペクトル画像デノージング用分解雑音対応ディープアンフォールディングトランス

Degradation-Noise-Aware Deep Unfolding Transformer for Hyperspectral Image Denoising ( http://arxiv.org/abs/2305.04047v1 )

ライセンス: Link先を確認
Haijin Zeng, Jiezhang Cao, Kai Feng, Shaoguang Huang, Hongyan Zhang, Hiep Luong, Wilfried Philips(参考訳) ハイパースペクトルイメージング(HI)は、高スペクトル分解能によって物理特性の微妙な違いを検出する能力により、医学診断、産業検査、農業などの様々な分野において強力なツールとして登場した。 しかし、狭帯域のスペクトルフィルタリングのため、ハイパースペクトル画像(hsis)は非常にノイズが多い。 hsiデータキューブのノイズを低減するため、モデル駆動と学習に基づく分別アルゴリズムが提案されている。 しかしながら、モデルに基づくアプローチは手作りの事前処理とハイパーパラメータに依存するが、学習に基づく手法では、画像処理における固有の劣化パターンやノイズ分布を推定できないため、教師あり学習に影響を及ぼす可能性がある。 第二に、学習ベースのアルゴリズムは主としてCNNに依存しており、長距離依存関係をキャプチャできないため、解釈可能性に制限がある。 本稿では,これらの問題に対処するDNA-Net(Degradation-Noise-Aware Unfolding Network)を提案する。 第一に、DNA-Netモデルはスパースノイズ、ガウスノイズをモデル化し、トランスフォーマーを用いてイメージを明示的に表現する。 そして、モデルをエンドツーエンドのネットワークに展開し、ノイズの多いHSIと劣化モデルからモデル内のハイパーパラメータを推定し、各イテレーションを制御する。 さらに,スペクトル相関,局所コンテンツ,非局所依存性を同時に捉える新しいu字型局所非局所スペクトルトランス(u-lnsa)を導入する。 そこで,u-lnsaをdna-netに組み込むことにより,トランスフォーマーを用いたhsiデノイジング法を提案する。 実験の結果、DNA-Netは最先端の手法よりも優れており、ノイズ分布のモデル化は重音の場合に役立つことがわかった。

Hyperspectral imaging (HI) has emerged as a powerful tool in diverse fields such as medical diagnosis, industrial inspection, and agriculture, owing to its ability to detect subtle differences in physical properties through high spectral resolution. However, hyperspectral images (HSIs) are often quite noisy because of narrow band spectral filtering. To reduce the noise in HSI data cubes, both model-driven and learning-based denoising algorithms have been proposed. However, model-based approaches rely on hand-crafted priors and hyperparameters, while learning-based methods are incapable of estimating the inherent degradation patterns and noise distributions in the imaging procedure, which could inform supervised learning. Secondly, learning-based algorithms predominantly rely on CNN and fail to capture long-range dependencies, resulting in limited interpretability. This paper proposes a Degradation-Noise-Aware Unfolding Network (DNA-Net) that addresses these issues. Firstly, DNA-Net models sparse noise, Gaussian noise, and explicitly represent image prior using transformer. Then the model is unfolded into an end-to-end network, the hyperparameters within the model are estimated from the noisy HSI and degradation model and utilizes them to control each iteration. Additionally, we introduce a novel U-Shaped Local-Non-local-Spectral Transformer (U-LNSA) that captures spectral correlation, local contents, and non-local dependencies simultaneously. By integrating U-LNSA into DNA-Net, we present the first Transformer-based deep unfolding HSI denoising method. Experimental results show that DNA-Net outperforms state-of-the-art methods, and the modeling of noise distributions helps in cases with heavy noise.
翻訳日:2023-05-09 17:57:19 公開日:2023-05-06
# 拡散NAT:非自己回帰テキスト生成のための自己プロンプト離散拡散

Diffusion-NAT: Self-Prompting Discrete Diffusion for Non-Autoregressive Text Generation ( http://arxiv.org/abs/2305.04044v1 )

ライセンス: Link先を確認
Kun Zhou, Yifan Li, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 近年,連続拡散モデル(CDM)が非自己回帰(NAR)テキスト・テキスト生成に導入されている。 しかし、テキストの離散性は、コヒーレントで流動的なテキストを生成することの難しさを増し、CDMと高度なNLP技術、特に人気のある事前学習言語モデル(PLM)の非互換性の問題を引き起こす。 そこで本研究では,NARテキスト・テキスト生成に離散拡散モデル~(DDM)を導入し,BARTを統合して性能改善を行うDiffusion-NATを提案する。 BARTの復号処理とDDMの典型的な設定を改訂することにより、BARTの推論プロセスとDDMの復号処理を同一のNARマスクトークン復元タスクに統合する。 このようにして、DDMは、BARTの豊富な事前学習知識とDDMの反復的精錬パラダイムの両方の恩恵を受けることができる。 さらに,世代品質をさらに向上させる反復的自己推進戦略を提案する。 7つのデータセットに対する実験結果から,本手法は競合的NAR法より優れ,自己回帰法よりも優れることが示された。 私たちのコードとデータは公開される予定だ。

Recently, continuous diffusion models (CDM) have been introduced into non-autoregressive (NAR) text-to-text generation. However, the discrete nature of text increases the difficulty of CDM to generate coherent and fluent texts, and also causes the incompatibility problem between CDM and advanced NLP techniques, especially the popular pre-trained language models~(PLMs). To solve it, we propose Diffusion-NAT, which introduces discrete diffusion models~(DDM) into NAR text-to-text generation and integrates BART to improve the performance. By revising the decoding process of BART and the typical settings of DDM, we unify the inference process of BART and the denoising process of DDM into the same NAR masked tokens recovering task. In this way, DDM can rely on BART to perform denoising, which can benefit from both the rich pre-learned knowledge of BART and the iterative refining paradigm of DDM. Besides, we also propose the iterative self-prompting strategy to further improve the generation quality. Experimental results on 7 datasets show that our approach can outperform competitive NAR methods, and even surpass autoregressive methods. Our code and data will be publicly released.
翻訳日:2023-05-09 17:56:52 公開日:2023-05-06
# トップmコンテキスト依存型設計の効率的な学習

Efficient Learning for Selecting Top-m Context-Dependent Designs ( http://arxiv.org/abs/2305.04086v1 )

ライセンス: Link先を確認
Gongbo Zhang, Sihua Chen, Yijie Peng(参考訳) 我々は,すべての文脈におけるトップm設計を決定することを目的とした,文脈依存意思決定のためのシミュレーション最適化問題を考える。 ベイズ・フレームワークの下で, 最適動的サンプリング決定を確率的動的プログラミング問題として定式化し, 各文脈における各設計の性能を効率的に学習するための逐次サンプリング・ポリシーを開発する。 漸近的に最適なサンプリング比を求め、偽選択確率の最悪の場合の最適大きな偏差率を求める。 提案手法は,漸近的サンプリング比が漸近的に最適であることを示す。 数値実験により,提案手法はトップmの文脈依存設計の選択効率を向上することを示した。

We consider a simulation optimization problem for a context-dependent decision-making, which aims to determine the top-m designs for all contexts. Under a Bayesian framework, we formulate the optimal dynamic sampling decision as a stochastic dynamic programming problem, and develop a sequential sampling policy to efficiently learn the performance of each design under each context. The asymptotically optimal sampling ratios are derived to attain the optimal large deviations rate of the worst-case of probability of false selection. The proposed sampling policy is proved to be consistent and its asymptotic sampling ratios are asymptotically optimal. Numerical experiments demonstrate that the proposed method improves the efficiency for selection of top-m context-dependent designs.
翻訳日:2023-05-09 17:49:22 公開日:2023-05-06
# ネルソンの確率力学における量子平衡への緩和とボルン則

Relaxation to quantum equilibrium and the Born rule in Nelson's stochastic dynamics ( http://arxiv.org/abs/2305.04084v1 )

ライセンス: Link先を確認
Vincent Hardel, Paul-Antoine Hervieux, Giovanni Manfredi(参考訳) ネルソンの確率量子力学は、波動関数の平方モジュラスと同一ではない初期確率分布から生まれた規則がどのように確立されるかをテストするための理想的な場を提供する。 本稿では,2分割干渉装置,高調波発振器,均一重力場における量子粒子の3つの問題について数値解析を行った。 すべての場合において、ネルソンの確率軌道は当初定位置で局所化され、したがってボルン規則に違反する。 二重スリット振動子と調和振動子では、干渉のような典型的な量子現象は、生まれた規則の確立後に常によく起こる。 対照的に、地球の重力場に自由落下する量子粒子の場合、干渉パターンは、量子緩和の完了によって観測される。 この発見は、完全な量子緩和が起こる前に初期の準量子力学が存在するかもしれないネルソンの理論から、生まれた規則が常に満足される標準量子力学を識別できる実験への道を開くかもしれない。

Nelson's stochastic quantum mechanics provides an ideal arena to test how the Born rule is established from an initial probability distribution that is not identical to the square modulus of the wavefunction. Here, we investigate numerically this problem for three relevant cases: a double-slit interference setup, a harmonic oscillator, and a quantum particle in a uniform gravitational field. For all cases, Nelson's stochastic trajectories are initially localized at a definite position, thereby violating the Born rule. For the double slit and harmonic oscillator, typical quantum phenomena, such as interferences, always occur well after the establishment of the Born rule. In contrast, for the case of quantum particles free-falling in the gravity field of the Earth, an interference pattern is observed \emph{before} the completion of the quantum relaxation. This finding may pave the way to experiments able to discriminate standard quantum mechanics, where the Born rule is always satisfied, from Nelson's theory, for which an early subquantum dynamics may be present before full quantum relaxation has occurred.
翻訳日:2023-05-09 17:49:08 公開日:2023-05-06
# テキストベースゲームにおける自然言語行動空間に対する最小アプローチ

A Minimal Approach for Natural Language Action Space in Text-based Games ( http://arxiv.org/abs/2305.04082v1 )

ライセンス: Link先を確認
Dongwon Kelvin Ryu, Meng Fang, Shirui Pan, Gholamreza Haffari, Ehsan Shareghi(参考訳) text-based games (tgs) は強化学習のための言語ベースのインタラクティブ環境である。 言語モデル (LM) と知識グラフ (KG) は、TGにおける大きな行動空間を扱うために一般的に使われているが、これらの手法が必要か過剰に使用されるかは定かではない。 本稿では,tgsにおける行動空間を探索する課題を再検討し,訓練段階において許容行動を利用するための最小のアプローチである \epsilon$-admissible exploration を提案する。 さらに,KGやLMを必要とせずに,ゲーム観察のみでテキストコマンドを生成するテキストベースのアクタクリティカル(TAC)エージェントを提案する。 我々の手法は,Jerichoから平均10ゲームにわたって,LMとKGを使用した強力なベースラインと最先端のエージェントを上回ります。 我々のアプローチは、より軽量なモデル設計、環境内の情報を活用する新しい視点、指数関数的に大きなアクション空間を効果的に探索するために十分であることを強調する。

Text-based games (TGs) are language-based interactive environments for reinforcement learning. While language models (LMs) and knowledge graphs (KGs) are commonly used for handling large action space in TGs, it is unclear whether these techniques are necessary or overused. In this paper, we revisit the challenge of exploring the action space in TGs and propose $ \epsilon$-admissible exploration, a minimal approach of utilizing admissible actions, for training phase. Additionally, we present a text-based actor-critic (TAC) agent that produces textual commands for game, solely from game observations, without requiring any KG or LM. Our method, on average across 10 games from Jericho, outperforms strong baselines and state-of-the-art agents that use LM and KG. Our approach highlights that a much lighter model design, with a fresh perspective on utilizing the information within the environments, suffices for an effective exploration of exponentially large action spaces.
翻訳日:2023-05-09 17:48:52 公開日:2023-05-06
# ロバストテンソルcur分解 : ばらばらな腐敗を伴う高速低タッカーランクテンソル回復

Robust Tensor CUR Decompositions: Rapid Low-Tucker-Rank Tensor Recovery with Sparse Corruption ( http://arxiv.org/abs/2305.04080v1 )

ライセンス: Link先を確認
HanQin Cai, Zehan Chao, Longxiu Huang, and Deanna Needell(参考訳) 本稿では, 与えられたテンソルを下位の低ランク成分と疎外成分に分割することを目的とした, マトリックスロバスト主成分分析(RPCA)のテンソル拡張であるテンソルロバスト主成分分析(TRPCA)問題について検討する。 この研究は、タッカーランク設定の下での大規模非凸 TRPCA 問題に対するRobust Tensor CUR Decompositions (RTCUR) と呼ばれる高速アルゴリズムを提案する。 RTCURは、低ランクテンソルの集合とスパーステンソルの集合の間を投影する交互射影の枠組みの中で開発されている。 最近開発されたテンソルCUR分解を利用して、各射影における計算複雑性を大幅に低減する。 さらに、異なるアプリケーション設定のために4種類のrtcurを開発しました。 合成および実世界のデータセットにおける最先端手法に対するRTCURの有効性と計算上の優位性を示す。

We study the tensor robust principal component analysis (TRPCA) problem, a tensorial extension of matrix robust principal component analysis (RPCA), that aims to split the given tensor into an underlying low-rank component and a sparse outlier component. This work proposes a fast algorithm, called Robust Tensor CUR Decompositions (RTCUR), for large-scale non-convex TRPCA problems under the Tucker rank setting. RTCUR is developed within a framework of alternating projections that projects between the set of low-rank tensors and the set of sparse tensors. We utilize the recently developed tensor CUR decomposition to substantially reduce the computational complexity in each projection. In addition, we develop four variants of RTCUR for different application settings. We demonstrate the effectiveness and computational advantages of RTCUR against state-of-the-art methods on both synthetic and real-world datasets.
翻訳日:2023-05-09 17:48:34 公開日:2023-05-06
# SANTA:遠隔教師付きエンティティ認識における不正確・不完全アノテーションノイズの分離戦略

SANTA: Separate Strategies for Inaccurate and Incomplete Annotation Noise in Distantly-Supervised Named Entity Recognition ( http://arxiv.org/abs/2305.04076v1 )

ライセンス: Link先を確認
Shuzheng Si, Zefan Cai, Shuang Zeng, Guoqiang Feng, Jiaxing Lin, Baobao Chang(参考訳) Distantly-Supervised Named Entity Recognitionは、教師付き設定における時間と高価なアノテーションの負担を効果的に軽減します。 しかし、文脈自由マッチングプロセスと知識ベースの範囲の限定は、それぞれ不正確なアノテーションノイズと不完全なアノテーションノイズをもたらす。 従来の研究では、不完全なアノテーションノイズのみを考慮するか、同じ戦略で2種類のノイズを区別しない。 本稿では,2種類のノイズの異なる原因が,モデルアーキテクチャにおける異なる戦略の要件を生じさせると主張する。 そこで,この2つのノイズを,(1)不正確なアノテーションによるエンティティ曖昧性問題を軽減するために,(1)メモリスムースな焦点損失とエンティティアウェアknと,(2)不完全アノテーションと雑音耐性損失による決定境界シフト問題を軽減するための境界ミックスアップによって対処し,ロバスト性を向上させることを提案する。 個別に調整した戦略の恩恵を受け、この2つのタイプのノイズが十分に緩和されていることを実験で確認した。 また、santaは5つのパブリックデータセットで最新技術を実現している。

Distantly-Supervised Named Entity Recognition effectively alleviates the burden of time-consuming and expensive annotation in the supervised setting. But the context-free matching process and the limited coverage of knowledge bases introduce inaccurate and incomplete annotation noise respectively. Previous studies either considered only incomplete annotation noise or indiscriminately handle two types of noise with the same strategy. In this paper, we argue that the different causes of two types of noise bring up the requirement of different strategies in model architecture. Therefore, we propose the SANTA to handle these two types of noise separately with (1) Memory-smoothed Focal Loss and Entity-aware KNN to relieve the entity ambiguity problem caused by inaccurate annotation, and (2) Boundary Mixup to alleviate decision boundary shifting problem caused by incomplete annotation and a noise-tolerant loss to improve the robustness. Benefiting from our separate tailored strategies, we confirm in the experiment that the two types of noise are well mitigated. SANTA also achieves a new state-of-the-art on five public datasets.
翻訳日:2023-05-09 17:48:17 公開日:2023-05-06
# PointCMP: ポイントクラウドビデオによる自己教師型学習のための対照的なマスク予測

PointCMP: Contrastive Mask Prediction for Self-supervised Learning on Point Cloud Videos ( http://arxiv.org/abs/2305.04075v1 )

ライセンス: Link先を確認
Zhiqiang Shen, Xiaoxiao Sheng, Longguang Wang, Yulan Guo, Qiong Liu, Xi Zhou(参考訳) 自己教師付き学習は、ラベル付けされていないデータから品質の表現を抽出することができる。 本稿では,ポイントクラウドビデオ上での自己教師型学習のためのコントラストマスク予測(PointCMP)フレームワークを提案する。 具体的には,局所的およびグローバルな時空間情報の同時学習を実現するために,2分岐構造を用いる。 この2分岐構造の上に, 相互類似性に基づく拡張モジュールを開発し, 硬質試料を機能レベルで合成する。 支配的トークンをマスキングし、主チャネルを消去することにより、より優れた識別と一般化性能で学習表現を容易にするハードサンプルを生成する。 大規模な実験により、PointCMPはベンチマークデータセットの最先端のパフォーマンスを達成し、既存のフル教師付きデータセットよりも優れています。 転送学習の結果、異なるデータセットとタスク間で学習された表現の優越性が示される。

Self-supervised learning can extract representations of good quality from solely unlabeled data, which is appealing for point cloud videos due to their high labelling cost. In this paper, we propose a contrastive mask prediction (PointCMP) framework for self-supervised learning on point cloud videos. Specifically, our PointCMP employs a two-branch structure to achieve simultaneous learning of both local and global spatio-temporal information. On top of this two-branch structure, a mutual similarity based augmentation module is developed to synthesize hard samples at the feature level. By masking dominant tokens and erasing principal channels, we generate hard samples to facilitate learning representations with better discrimination and generalization performance. Extensive experiments show that our PointCMP achieves the state-of-the-art performance on benchmark datasets and outperforms existing full-supervised counterparts. Transfer learning results demonstrate the superiority of the learned representations across different datasets and tasks.
翻訳日:2023-05-09 17:47:58 公開日:2023-05-06
# 軌道によるRL決定の説明

Explaining RL Decisions with Trajectories ( http://arxiv.org/abs/2305.04073v1 )

ライセンス: Link先を確認
Shripad Vilasrao Deshmukh, Arpan Dasgupta, Balaji Krishnamurthy, Nan Jiang, Chirag Agarwal, Georgios Theocharous, Jayakumar Subramanian(参考訳) 説明は実世界の意思決定問題における強化学習(RL)導入の鍵となる要素である。 文献では、この説明は、しばしばRLエージェントの状態の特徴に対する塩分濃度の属性によって提供される。 本稿では、これらの説明に対する補完的アプローチ、特にオフラインRLについて、トレーニング中に遭遇した軌跡に、訓練されたRLエージェントの政策決定を関連付けることを提案する。 そのため、オフライントレーニングデータのトラジェクトリを個別に、また集合的に(一連のトラジェクトリを符号化する)トラジェクトリを符号化する。 そして、その集合に対する決定の感度を推定することにより、この符号化空間における一連の軌道にポリシー決定を関連付ける。 さらに,グリッドワールド,ビデオゲーム(atari),連続制御(mujoco)といった離散状態と連続状態とアクション空間の両方を含む多様な環境において,属性の質と実用的なスケーラビリティの観点から,提案手法の有効性を実証する。 また、簡単なナビゲーションタスクについて人間による研究を行い、そのタスクに対する理解が、訓練されたRLポリシーに起因するデータとどのように比較されるかを観察する。 キーワード - 説明可能なAI、AI決定の検証可能性、説明可能なRL。

Explanation is a key component for the adoption of reinforcement learning (RL) in many real-world decision-making problems. In the literature, the explanation is often provided by saliency attribution to the features of the RL agent's state. In this work, we propose a complementary approach to these explanations, particularly for offline RL, where we attribute the policy decisions of a trained RL agent to the trajectories encountered by it during training. To do so, we encode trajectories in offline training data individually as well as collectively (encoding a set of trajectories). We then attribute policy decisions to a set of trajectories in this encoded space by estimating the sensitivity of the decision with respect to that set. Further, we demonstrate the effectiveness of the proposed approach in terms of quality of attributions as well as practical scalability in diverse environments that involve both discrete and continuous state and action spaces such as grid-worlds, video games (Atari) and continuous control (MuJoCo). We also conduct a human study on a simple navigation task to observe how their understanding of the task compares with data attributed for a trained RL policy. Keywords -- Explainable AI, Verifiability of AI Decisions, Explainable RL.
翻訳日:2023-05-09 17:47:45 公開日:2023-05-06
# 一般化結合と量子シュール変換のための基本アルゴリズム

Generalised Coupling and An Elementary Algorithm for the Quantum Schur Transform ( http://arxiv.org/abs/2305.04069v1 )

ライセンス: Link先を確認
Adam Wills, Sergii Strelchuk(参考訳) 量子シューア変換(quantum schur transform)は、計算基底をユニタリ群と対称群の既約表現からなる結合基底に写像する基本的な構成ブロックである。 等価に、これは計算基底から置換量子コンピューティング(pqc)の同時スピン固有ベイシスへの基底の変化と見なすことができる [量子 inf. comput., 10, 470-497 (2010)]。 後者の観点を採用することで, $o(\log(n))$ ancillas を用いた量子シュアー変換を実装するための簡単なアルゴリズムを提案する。 クレプシュ・ゴルダン係数によって結合された量子ビットからなるシュール状態を研究することにより、一般結合量子状態の概念を導入する。 我々は6つの条件を提示し、異なる組み合わせで量子コンピュータ上のこれらの状態の効率的な生成や(計算容量の意味で)古典的シミュラビリティを保証する。 wigner 6-j 記号と su(n) clebsch-gordan 係数は自然に我々の枠組みに適合する。 最後に,計算可能状態のクラスを保存するユニタリ変換について検討する。

The quantum Schur transform is a fundamental building block that maps the computational basis to a coupled basis consisting of irreducible representations of the unitary and symmetric groups. Equivalently, it may be regarded as a change of basis from the computational basis to a simultaneous spin eigenbasis of Permutational Quantum Computing (PQC) [Quantum Inf. Comput., 10, 470-497 (2010)]. By adopting the latter perspective, we present a simple algorithm for implementing the qubit quantum Schur transform which uses $O(\log(n))$ ancillas. By studying the associated Schur states, which consist of qubits coupled via Clebsch-Gordan coefficients, we introduce the notion of generally coupled quantum states. We present six conditions, which in different combinations ensure the efficient preparation of these states on a quantum computer or their classical simulability (in the sense of computational tractability). It is shown that Wigner 6-j symbols and SU(N) Clebsch-Gordan coefficients naturally fit our framework. Finally, we investigate unitary transformations which preserve the class of computationally tractable states.
翻訳日:2023-05-09 17:47:25 公開日:2023-05-06
# テキスト対向防御のための反応性摂動

Reactive Perturbation Defocusing for Textual Adversarial Defense ( http://arxiv.org/abs/2305.04067v1 )

ライセンス: Link先を確認
Heng Yang, Ke Li(参考訳) 近年の研究では、大規模な事前学習言語モデルが敵の攻撃に弱いことが示されている。 既存の手法は敵の例を再構築しようとする。 しかし、これらの手法は通常、敵対的な例に対する防御性能に制限があり、また自然例の性能に悪影響を及ぼす。 この問題を克服するため,我々はrpd(reactive perturbation defocusing)と呼ばれる手法を提案する。 RPDは、敵の例を特定し、自然の例に対する偽の防御を減らすために、敵の検出器を使用する。 敵を再構築する代わりに、RDDは敵の例に安全な摂動を注入し、標的モデルを悪意のある摂動から遠ざける。 提案手法は,3つのデータセット,2つの対象モデル,および種々の敵攻撃に対する実験により,同定された敵例の約97%の修復に成功し,自然例では約2%の性能低下を示した。 また,本研究に基づく敵検出と修復のデモも提供する。

Recent studies have shown that large pre-trained language models are vulnerable to adversarial attacks. Existing methods attempt to reconstruct the adversarial examples. However, these methods usually have limited performance in defense against adversarial examples, while also negatively impacting the performance on natural examples. To overcome this problem, we propose a method called Reactive Perturbation Defocusing (RPD). RPD uses an adversarial detector to identify adversarial examples and reduce false defenses on natural examples. Instead of reconstructing the adversaries, RPD injects safe perturbations into adversarial examples to distract the objective models from the malicious perturbations. Our experiments on three datasets, two objective models, and various adversarial attacks show that our proposed framework successfully repairs up to approximately 97% of correctly identified adversarial examples with only about a 2% performance decrease on natural examples. We also provide a demo of adversarial detection and repair based on our work.
翻訳日:2023-05-09 17:47:07 公開日:2023-05-06
# 空中計算による半同期型フェデレーションエッジ学習機構

Semi-Asynchronous Federated Edge Learning Mechanism via Over-the-air Computation ( http://arxiv.org/abs/2305.04066v1 )

ライセンス: Link先を確認
Zhoubin Kou, Yun Ji, Xiaoxiong Zhong, Sheng Zhang(参考訳) The Over-the-air Computation (AirComp) は、フェデレートエッジ学習(FEEL)の効率を高める効果的な伝送方式として実証されている。 しかし,既存のFEELシステムでは,各ラウンドの局所モデルアグリゲーションに従来の同期アグリゲーション機構を採用しており,トラグラーの問題に悩まされている。 本稿では,データや装置の異質性が高い場合のFEELシステムのトレーニング効率を向上させるために,AirCompスキーム(PAOTA)を用いた半非同期アグリゲーションFEEL機構を提案する。 エッジデバイスからのモデル更新の安定性とばらつきを考慮して,各アグリゲーション期間中にエッジデバイスのアップリンク送信電力を調整することにより,FEELグローバルモデルの収束上限を最小化する。 シミュレーションの結果,提案アルゴリズムは理想のローカルSGDに近い収束性能が得られることが示された。 さらに、同じ目標精度でPAOTAに必要なトレーニング時間は、AirCompによる理想的なローカルSGDと同期FEELアルゴリズムよりも少ない。

Over-the-air Computation (AirComp) has been demonstrated as an effective transmission scheme to boost the efficiency of federated edge learning (FEEL). However, existing FEEL systems with AirComp scheme often employ traditional synchronous aggregation mechanisms for local model aggregation in each global round, which suffer from the stragglers issues. In this paper, we propose a semi-asynchronous aggregation FEEL mechanism with AirComp scheme (PAOTA) to improve the training efficiency of the FEEL system in the case of significant heterogeneity in data and devices. Taking the staleness and divergence of model updates from edge devices into consideration, we minimize the convergence upper bound of the FEEL global model by adjusting the uplink transmit power of edge devices at each aggregation period. The simulation results demonstrate that our proposed algorithm achieves convergence performance close to that of the ideal Local SGD. Furthermore, with the same target accuracy, the training time required for PAOTA is less than that of the ideal Local SGD and the synchronous FEEL algorithm via AirComp.
翻訳日:2023-05-09 17:46:53 公開日:2023-05-06
# DMF-TONN:ニューラルネットワークを用いたメッシュフリートポロジー最適化

DMF-TONN: Direct Mesh-free Topology Optimization using Neural Networks ( http://arxiv.org/abs/2305.04107v1 )

ライセンス: Link先を確認
Aditya Joglekar, Hongrui Chen, Levent Burak Kara(参考訳) 本稿では,密度場近似ニューラルネットワークと変位場近似ニューラルネットワークを統合し,トポロジー最適化を行うための直接メッシュフリー手法を提案する。 この直接的統合アプローチは,処理後ソフトウェアとのシームレスな統合を可能にするという利点と,メッシュ化や有限要素解析(fea)が高価あるいは不適当であるような目的によるトポロジー最適化の可能性によって,従来のトポロジー最適化手法に匹敵する結果が得られることを示す。 我々の手法 (DMF-TONN) は境界条件と領域座標を入力として取り入れ, コンプライアンスの損失関数とボリューム分数制約違反を最小化するための最適密度場を求める。 メッシュフリー性は、物理インフォームドな変位場近似ニューラルネットワークにより、線形弾性偏微分方程式を解き、従来のコンプライアンス計算に使用されていたFEAを置き換えることができる。 We show that using a suitable Fourier Features neural network architecture and hyperparameters, the density field approximation neural network can learn the weights to represent the optimal density field for the given domain and boundary conditions, by directly backpropagating the loss gradient through the displacement field approximation neural network, and unlike prior work there is no requirement of a sensitivity filter, optimality criterion method, or a separate training of density network in each topology optimization iteration.

We propose a direct mesh-free method for performing topology optimization by integrating a density field approximation neural network with a displacement field approximation neural network. We show that this direct integration approach can give comparable results to conventional topology optimization techniques, with an added advantage of enabling seamless integration with post-processing software, and a potential of topology optimization with objectives where meshing and Finite Element Analysis (FEA) may be expensive or not suitable. Our approach (DMF-TONN) takes in as inputs the boundary conditions and domain coordinates and finds the optimum density field for minimizing the loss function of compliance and volume fraction constraint violation. The mesh-free nature is enabled by a physics-informed displacement field approximation neural network to solve the linear elasticity partial differential equation and replace the FEA conventionally used for calculating the compliance. We show that using a suitable Fourier Features neural network architecture and hyperparameters, the density field approximation neural network can learn the weights to represent the optimal density field for the given domain and boundary conditions, by directly backpropagating the loss gradient through the displacement field approximation neural network, and unlike prior work there is no requirement of a sensitivity filter, optimality criterion method, or a separate training of density network in each topology optimization iteration.
翻訳日:2023-05-09 17:41:35 公開日:2023-05-06
# 事前学習されたコード言語モデルにおける分散一般化のための連続学習の利用について

On the Usage of Continual Learning for Out-of-Distribution Generalization in Pre-trained Language Models of Code ( http://arxiv.org/abs/2305.04106v1 )

ライセンス: Link先を確認
Martin Weyssow, Xin Zhou, Kisub Kim, David Lo and Houari Sahraoui(参考訳) 事前学習型言語モデル (PLM) は、2段階の事前学習と微調整の手法を利用して、コードに関する一般的な知識を取得し、様々な下流タスクを専門化する。 しかし、ソフトウェアコードベースの動的な性質は、plmの有効性と堅牢性に挑戦する。 特に、現実的なシナリオでは、事前トレーニングとテストデータの分散、すなわち分散シフトの間に大きな違いが生じ、下流タスクにおけるPLMのパフォーマンスが低下する可能性がある。 本稿では,時間とともに分散が変化するソフトウェアデータにコードのPLMを適用することの必要性を強調する。 この研究の動機は、ソフトウェア進化シナリオに従って微調整データが時間とともに進化する非定常環境におけるPLMを考えることである。 具体的には、新しい、目に見えないAPIを含むプログラムのストリームからモデルを学習する必要があるシナリオを設計する。 GPT2デコーダとRoBERTaエンコーダという2つの広く使われているPLMアーキテクチャを,APIコールとAPI使用率予測という2つの下流タスクで検討した。 先行研究で最も一般的に使用される微調整テクニックは,apiの動的な性質を扱うのに十分な堅牢性がないため,事前に獲得した知識,すなわち破滅的な忘れ方を失うことを実証する。 これらの課題に対処するため,リプレイベースおよび正規化ベースの手法を含む5つの連続学習手法を実装した。 以上より,これらの簡易な手法を用いることで,下流タスクにおけるplmの破壊的欠落を効果的に軽減し,同等あるいは優れた性能を実現できることを示す。

Pre-trained language models (PLMs) have become a prevalent technique in deep learning for code, utilizing a two-stage pre-training and fine-tuning procedure to acquire general knowledge about code and specialize in a variety of downstream tasks. However, the dynamic nature of software codebases poses a challenge to the effectiveness and robustness of PLMs. In particular, world-realistic scenarios potentially lead to significant differences between the distribution of the pre-training and test data, i.e., distribution shift, resulting in a degradation of the PLM's performance on downstream tasks. In this paper, we stress the need for adapting PLMs of code to software data whose distribution changes over time, a crucial problem that has been overlooked in previous works. The motivation of this work is to consider the PLM in a non-stationary environment, where fine-tuning data evolves over time according to a software evolution scenario. Specifically, we design a scenario where the model needs to learn from a stream of programs containing new, unseen APIs over time. We study two widely used PLM architectures, i.e., a GPT2 decoder and a RoBERTa encoder, on two downstream tasks, API call and API usage prediction. We demonstrate that the most commonly used fine-tuning technique from prior work is not robust enough to handle the dynamic nature of APIs, leading to the loss of previously acquired knowledge i.e., catastrophic forgetting. To address these issues, we implement five continual learning approaches, including replay-based and regularization-based methods. Our findings demonstrate that utilizing these straightforward methods effectively mitigates catastrophic forgetting in PLMs across both downstream tasks while achieving comparable or superior performance.
翻訳日:2023-05-09 17:41:12 公開日:2023-05-06
# 「言葉が失敗すると絵文字が普及する」--ヴァレンス反転と意味的違和感を用いた絵文字による皮肉な発話の生成

"When Words Fail, Emojis Prevail": Generating Sarcastic Utterances with Emoji Using Valence Reversal and Semantic Incongruity ( http://arxiv.org/abs/2305.04105v1 )

ライセンス: Link先を確認
Faria Binte Kader, Nafisa Hossain Nujat, Tasmia Binte Sogir, Mohsinul Kabir, Hasan Mahmud and Kamrul Hasan(参考訳) 皮肉は、個人が意味するものの反対を表現するために使用する微妙な形の言語に関係している。 非皮肉な入力文からの絵文字を用いたサルカズム生成のための新しいアーキテクチャを提案する。 生成タスクを2つのサブタスクに分割する。1つはテキストサルカズムを生成し、もう1つはそれらの皮肉文に関連する絵文字を収集する。 サルカズムの2つの重要な要素は、テクスト的なサルカズム生成タスクに組み込まれている: 文脈と文脈との可逆性と意味的不一致(valence reversal and semantic incongruity)。 既存のサルカズム世代の作品の大半は、このテキスト形式に焦点を当てている。 しかし、現実の世界では、文章が会話や対面コミュニケーションの感情的な手がかりを効果的に捉えない場合、人々は感情を正確に表現するために絵文字を選択することが多い。 絵文字の幅広い応用のために、適切な絵文字を組み込んで文章的な皮肉文を生成することは、サルカズムの進行に寄与する。 本研究は,人間の判断を用いて生成した皮肉文を評価して結論づける。 この研究で使用されるコードとデータは、すべて公開されます。

Sarcasm pertains to the subtle form of language that individuals use to express the opposite of what is implied. We present a novel architecture for sarcasm generation with emoji from a non-sarcastic input sentence. We divide the generation task into two sub tasks: one for generating textual sarcasm and another for collecting emojis associated with those sarcastic sentences. Two key elements of sarcasm are incorporated into the textual sarcasm generation task: valence reversal and semantic incongruity with context, where the context may involve shared commonsense or general knowledge between the speaker and their audience. The majority of existing sarcasm generation works have focused on this textual form. However, in the real world, when written texts fall short of effectively capturing the emotional cues of spoken and face-to-face communication, people often opt for emojis to accurately express their emotions. Due to the wide range of applications of emojis, incorporating appropriate emojis to generate textual sarcastic sentences helps advance sarcasm generation. We conclude our study by evaluating the generated sarcastic sentences using human judgement. All the codes and data used in this study will be made publicly available.
翻訳日:2023-05-09 17:40:41 公開日:2023-05-06
# 添加物製造システムにおける妥協の優先指標への意味関係の活用

Leveraging Semantic Relationships to Prioritise Indicators of Compromise in Additive Manufacturing Systems ( http://arxiv.org/abs/2305.04102v1 )

ライセンス: Link先を確認
Mahender Kumar, Gregory Epiphaniou, and Carsten Maple(参考訳) アダプティブ・マニュファクチャリング(am)は、複雑でカスタマイズされたデザインを迅速かつ費用効率良く製造し、材料廃棄物を削減し、オンデマンド生産を可能にするなど、多くの利点を提供している。 しかし、いくつかのセキュリティ上の課題がAMと関連付けられており、個々のハッカーから組織化された犯罪組織や国家的俳優まで、攻撃者にとってますます魅力的なものになっている。 本稿では,妥協の指標(IOC)を識別し,抽出し,ランク付けする,新たな意味に基づく脅威優先システムを提案することによって,AMのサイバーリスクを攻撃者に対処する。 このシステムは、マルチソース脅威テキストからハイレベルIOCを自動的に抽出し、IOC間の意味的関係を識別する異種情報ネットワーク(HIN)を利用する。 IOCを異なるメタパスとメタグラフからなるHINでモデル化し、多様なIOC間の意味関係を記述する。 本稿では,組織別,地域別,地域別,地域別という3つの領域でIOCを識別するドメイン固有認識器を提案する。 脅威アセスメントは、ioc間の意味関係を評価するためにメタパスとメタグラフに基づく類似度尺度を使用する。 攻撃頻度、IOC寿命、各ドメインの脆弱性の悪用に基づいて、IOCの重症度を測定することで、IOCを優先する。

Additive manufacturing (AM) offers numerous benefits, such as manufacturing complex and customised designs quickly and cost-effectively, reducing material waste, and enabling on-demand production. However, several security challenges are associated with AM, making it increasingly attractive to attackers ranging from individual hackers to organised criminal gangs and nation-state actors. This paper addresses the cyber risk in AM to attackers by proposing a novel semantic-based threat prioritisation system for identifying, extracting and ranking indicators of compromise (IOC). The system leverages the heterogeneous information networks (HINs) that automatically extract high-level IOCs from multi-source threat text and identifies semantic relations among the IOCs. It models IOCs with a HIN comprising different meta-paths and meta-graphs to depict semantic relations among diverse IOCs. We introduce a domain-specific recogniser that identifies IOCs in three domains: organisation-specific, regional source-specific, and regional target-specific. A threat assessment uses similarity measures based on meta-paths and meta-graphs to assess semantic relations among IOCs. It prioritises IOCs by measuring their severity based on the frequency of attacks, IOC lifetime, and exploited vulnerabilities in each domain.
翻訳日:2023-05-09 17:40:17 公開日:2023-05-06
# トランスフォーマーとグラフニューラルネットワークを用いた法的文書の修辞的役割ラベリング

Rhetorical Role Labeling of Legal Documents using Transformers and Graph Neural Networks ( http://arxiv.org/abs/2305.04100v1 )

ライセンス: Link先を確認
Anshika Gupta, Shaz Furniturewala, Vijay Kumari, Yashvardhan Sharma(参考訳) 法的文書は通常、解析に人間の努力を必要とする長く密集した文書である。 また、既存のモデルによる洞察を貧弱なアプローチとして導き出す、かなりの量のjargonも含んでいます。 本稿では,SemEval Task 6の一部として,SemEval Task 6の一部として,インド裁判所判決における修辞的役割のラベル付け作業を行うためのアプローチについて述べる。我々は,グラフ畳み込みネットワークやラベル伝搬アルゴリズムなどのグラフベースのアプローチ,BERTの変種を含むトランスフォーマーベースのアプローチを用いて,複雑な法律文書のテキスト分類における精度スコアを改善する。

A legal document is usually long and dense requiring human effort to parse it. It also contains significant amounts of jargon which make deriving insights from it using existing models a poor approach. This paper presents the approaches undertaken to perform the task of rhetorical role labelling on Indian Court Judgements as part of SemEval Task 6: understanding legal texts, shared subtask A. We experiment with graph based approaches like Graph Convolutional Networks and Label Propagation Algorithm, and transformer-based approaches including variants of BERT to improve accuracy scores on text classification of complex legal documents.
翻訳日:2023-05-09 17:39:53 公開日:2023-05-06
# 高速機械学習推論のためのFPGAのシンボリック回帰

Symbolic Regression on FPGAs for Fast Machine Learning Inference ( http://arxiv.org/abs/2305.04099v1 )

ライセンス: Link先を確認
Ho Fung Tsoi, Adrian Alan Pol, Vladimir Loncar, Ekaterina Govorkova, Miles Cranmer, Sridhara Dasu, Peter Elmer, Philip Harris, Isobel Ojalvo, Maurizio Pierini(参考訳) 高エネルギー物理学コミュニティは、データ処理のレイテンシの制限を満たしながら物理感度を向上させるために、フィールドプログラマブルゲートアレイ(FPGA)に機械学習ベースのソリューションをデプロイする可能性について調査している。 本稿では,シンボル回帰(SR)と呼ばれる機械学習技術を利用した,新しいエンドツーエンド手法を提案する。 方程式空間を探索し、データセットに近似する代数関係を発見する。 我々は、PySR(進化アルゴリズムに基づくこれらの表現を明らかにするソフトウェア)を使用し、リソース制約された生産環境において、PySR生成式をサポートするためにhls4ml(FPGAにおける機械学習推論のパッケージ)の機能を拡張する。 ディープラーニングモデルは、大規模なハイパーパラメータ空間が広範なニューラルネットワーク探索を妨げるため、ネットワークサイズをピン留めすることで、トップメトリックを最適化することが多い。 逆に、SRはParetoフロントのモデルのセットを選択し、パフォーマンスとリソースのトレードオフを直接最適化することができる。 シンボリックな形式を埋め込むことで、重要なタスクを実行するのに必要な計算リソースを劇的に削減できます。 cernの大型ハドロン衝突型加速器でシミュレーションされた陽子-陽子衝突で生成されたジェットの多種分類を行い,5 ns以下の計算時間(13倍)と90%以上の近似精度を持つ推論モデルを用いて3層ニューラルネットワークを近似することを示した。

The high-energy physics community is investigating the feasibility of deploying machine-learning-based solutions on Field-Programmable Gate Arrays (FPGAs) to improve physics sensitivity while meeting data processing latency limitations. In this contribution, we introduce a novel end-to-end procedure that utilizes a machine learning technique called symbolic regression (SR). It searches equation space to discover algebraic relations approximating a dataset. We use PySR (software for uncovering these expressions based on evolutionary algorithm) and extend the functionality of hls4ml (a package for machine learning inference in FPGAs) to support PySR-generated expressions for resource-constrained production environments. Deep learning models often optimise the top metric by pinning the network size because vast hyperparameter space prevents extensive neural architecture search. Conversely, SR selects a set of models on the Pareto front, which allows for optimising the performance-resource tradeoff directly. By embedding symbolic forms, our implementation can dramatically reduce the computational resources needed to perform critical tasks. We validate our procedure on a physics benchmark: multiclass classification of jets produced in simulated proton-proton collisions at the CERN Large Hadron Collider, and show that we approximate a 3-layer neural network with an inference model that has as low as 5 ns execution time (a reduction by a factor of 13) and over 90% approximation accuracy.
翻訳日:2023-05-09 17:39:40 公開日:2023-05-06
# 統合学習のためのキーロックモジュールを用いた勾配漏洩防御

Gradient Leakage Defense with Key-Lock Module for Federated Learning ( http://arxiv.org/abs/2305.04095v1 )

ライセンス: Link先を確認
Hanchi Ren and Jingjing Deng and Xianghua Xie and Xiaoke Ma and Jianfeng Ma(参考訳) Federated Learning(FL)は、プライベートデータをローカルに保持する、広く採用されているプライバシ保護機械学習アプローチであり、セキュアな計算と、ローカルクライアントとサードパーティパラメータサーバ間のローカルモデル勾配の交換を可能にする。 しかし、最近の発見は、プライバシーが侵害され、機密情報が共有勾配から回収される可能性があることを示している。 本研究では,勾配漏洩問題を理解するための詳細な解析と新しい視点について述べる。 これらの理論的な作業は、プライベートキーロックモジュールを使用して任意のモデルアーキテクチャを保護する新しい勾配リーク防御技術をもたらす。 ロックされた勾配のみがパラメータサーバに送信され、グローバルモデルアグリゲーションとなる。 提案手法は,勾配漏洩攻撃に耐性があり,鍵ロックモジュールは,鍵ロックモジュールの個人情報がなければ確実に設計・訓練される。 a)共有勾配からのプライベートトレーニングデータの再構築は不可能であり、かつ b)グローバルモデルの推論性能は著しく損なわれている。 そこで我々は,勾配が個人情報を漏洩させる理由の理論的基盤について論じ,提案手法の有効性を理論的に証明する。 提案手法は, モデル性能の維持と, 勾配漏洩攻撃に対する防御の両面において堅牢性を示すものである。

Federated Learning (FL) is a widely adopted privacy-preserving machine learning approach where private data remains local, enabling secure computations and the exchange of local model gradients between local clients and third-party parameter servers. However, recent findings reveal that privacy may be compromised and sensitive information potentially recovered from shared gradients. In this study, we offer detailed analysis and a novel perspective on understanding the gradient leakage problem. These theoretical works lead to a new gradient leakage defense technique that secures arbitrary model architectures using a private key-lock module. Only the locked gradient is transmitted to the parameter server for global model aggregation. Our proposed learning method is resistant to gradient leakage attacks, and the key-lock module is designed and trained to ensure that, without the private information of the key-lock module: a) reconstructing private training data from the shared gradient is infeasible; and b) the global model's inference performance is significantly compromised. We discuss the theoretical underpinnings of why gradients can leak private information and provide theoretical proof of our method's effectiveness. We conducted extensive empirical evaluations with a total of forty-four models on several popular benchmarks, demonstrating the robustness of our proposed approach in both maintaining model performance and defending against gradient leakage attacks.
翻訳日:2023-05-09 17:39:16 公開日:2023-05-06
# UCB-NとTS-Nの再発解析の改善

An improved regret analysis for UCB-N and TS-N ( http://arxiv.org/abs/2305.04093v1 )

ライセンス: Link先を確認
Nishant A. Mehta(参考訳) 無向フィードバックグラフを用いた確率的オンライン学習の設定において、Lykouris et al. (2020) は以前、上位信頼境界ベースアルゴリズム UCB-N とトンプソンサンプリングベースアルゴリズム TS-N の擬似回帰を分析した。 本稿では,その擬似回帰分析を改善する方法について述べる。 我々の改善には、以前の分析の重要な補題を書き換えることが含まれており、$\log(T)$ factor を $\log_2(\alpha) + 3$ for $\alpha$ フィードバックグラフの独立数に置き換えることができる。

In the setting of stochastic online learning with undirected feedback graphs, Lykouris et al. (2020) previously analyzed the pseudo-regret of the upper confidence bound-based algorithm UCB-N and the Thompson Sampling-based algorithm TS-N. In this note, we show how to improve their pseudo-regret analysis. Our improvement involves refining a key lemma of the previous analysis, allowing a $\log(T)$ factor to be replaced by a factor $\log_2(\alpha) + 3$ for $\alpha$ the independence number of the feedback graph.
翻訳日:2023-05-09 17:38:55 公開日:2023-05-06
# Plan-and-Solve Prompting:大規模言語モデルによるゼロショット連鎖推論の改善

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models ( http://arxiv.org/abs/2305.04091v1 )

ライセンス: Link先を確認
Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee and Ee-Peng Lim(参考訳) 大規模言語モデル(LLM)は、最近、様々なNLPタスクで素晴らしいパフォーマンスをもたらすことが示されている。 マルチステップ推論タスクに取り組むために、数発のチェーン・オブ・シークレット(CoT)プロンプトには、LSMが推論ステップを明示的に生成し、推論タスクの正確性を改善するための、手作業によるステップバイステップ推論デモが含まれている。 手作業を排除するため、Zero-shot-CoT は LLM への入力プロンプトとして、ターゲット問題ステートメントを "Let's Think by Step" と結合する。 zero-shot-cotの成功にもかかわらず、計算エラー、欠落ステップエラー、セマンティック誤解エラーという3つの落とし穴に苦しむ。 そこで我々は,Plan-and-Solve (PS) Promptingを提案する。 まず、タスク全体を小さなサブタスクに分割する計画を考案し、次に計画に従ってサブタスクを実行する。 計算誤差に対処し、生成した推論ステップの品質を向上させるため、より詳細な指示でPSプロンプトを拡張し、PS+プロンプトを導出する。 3つの推論問題にまたがる10のデータセットについて提案手法を評価した。 GPT-3に対する実験結果から,提案したゼロショットプロンプトは,全データセットにおいてゼロショットCoTよりも常に優れており,ゼロショットProgram-of-Thought Promptingに匹敵するものか,数学推論問題に対して8ショットCoTに匹敵する性能を有することが示された。 コードはhttps://github.com/AGI-Edgerunners/Plan-and-Solve-Promptingで見ることができる。

Large language models (LLMs) have recently been shown to deliver impressive performance in various NLP tasks. To tackle multi-step reasoning tasks, few-shot chain-of-thought (CoT) prompting includes a few manually crafted step-by-step reasoning demonstrations which enable LLMs to explicitly generate reasoning steps and improve their reasoning task accuracy. To eliminate the manual effort, Zero-shot-CoT concatenates the target problem statement with "Let's think step by step" as an input prompt to LLMs. Despite the success of Zero-shot-CoT, it still suffers from three pitfalls: calculation errors, missing-step errors, and semantic misunderstanding errors. To address the missing-step errors, we propose Plan-and-Solve (PS) Prompting. It consists of two components: first, devising a plan to divide the entire task into smaller subtasks, and then carrying out the subtasks according to the plan. To address the calculation errors and improve the quality of generated reasoning steps, we extend PS prompting with more detailed instructions and derive PS+ prompting. We evaluate our proposed prompting strategy on ten datasets across three reasoning problems. The experimental results over GPT-3 show that our proposed zero-shot prompting consistently outperforms Zero-shot-CoT across all datasets by a large margin, is comparable to or exceeds Zero-shot-Program-of-Thought Prompting, and has comparable performance with 8-shot CoT prompting on the math reasoning problem. The code can be found at https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
翻訳日:2023-05-09 17:38:41 公開日:2023-05-06
# 自己編集:コード生成のためのフォールトアウェアコードエディタ

Self-Edit: Fault-Aware Code Editor for Code Generation ( http://arxiv.org/abs/2305.04087v1 )

ライセンス: Link先を確認
Kechi Zhang, Zhuo Li, Jia Li, Ge Li, Zhi Jin(参考訳) 大規模言語モデル(LLM)は、競合するプログラミングタスクのコードを生成する素晴らしい能力を示している。 しかし、サンプル数が限られているため、LLMは依然として精度が低い。 人間のプログラミングのプロセスに触発されて,LLMから生成されたコードの実行結果を利用して,競合するプログラミングタスクにおけるコード品質を改善する。 質問に含まれるサンプルテストケースで生成されたコードを実行し、実行結果を補足コメントにラップします。 このコメントをガイダンスとして利用し,フォールトアウェアコードエディタを用いて生成したコードのエラーを訂正する。 我々は、9つの異なるLLMを持つ2つの競合プログラミングデータセットに対して広範な評価を行う。 LLMの直接生成と比較すると、パラメータサイズが110Mから175Bの9つの人気のあるコード生成LLMに対して、APPS-devでは89倍、APPS-testでは31倍、HumanEvalでは48倍の改善が可能である。 本手法は他の後処理法と比較して精度と効率が優れる。

Large language models (LLMs) have demonstrated an impressive ability to generate codes on competitive programming tasks. However, with limited sample numbers, LLMs still suffer from poor accuracy. Inspired by the process of human programming, we propose a generate-and-edit approach that utilizes execution results of the generated code from LLMs to improve the code quality on the competitive programming task. We execute the generated code on the example test case provided in the question and wrap execution results into a supplementary comment. Utilizing this comment as guidance, our fault-aware code editor is employed to correct errors in the generated code. We perform extensive evaluations across two competitive programming datasets with nine different LLMs. Compared to directly generating from LLMs, our approach can improve the average of pass@1 by 89\% on APPS-dev, 31\% on APPS-test, and 48\% on HumanEval over nine popular code generation LLMs with parameter sizes ranging from 110M to 175B. Compared to other post-processing methods, our method demonstrates superior accuracy and efficiency.
翻訳日:2023-05-09 17:38:09 公開日:2023-05-06
# トランスフォーマチッククラスタリングによる脳ネットワーク解析

Transformer-Based Hierarchical Clustering for Brain Network Analysis ( http://arxiv.org/abs/2305.04142v1 )

ライセンス: Link先を確認
Wei Dai, Hejie Cui, Xuan Kan, Ying Guo, Sanne van Rooij, Carl Yang(参考訳) MRIなどのグラフィカルモデルである脳ネットワークは、脳機能の病理学的予測と解析に広く用いられている。 複雑な脳系では、神経結合の強さの違いが脳を様々な機能的モジュール(ネットワーク・コミュニティ)に分割し、脳分析に不可欠である。 しかし、脳内のそのようなコミュニティを特定することは、神経相互作用の複雑さのため、非常に簡単な問題である。 本研究では, 階層クラスタ同定と脳ネットワーク分類のための新しい解釈可能なトランスフォーマーモデルを提案する。 実世界の脳ネットワークデータセットの大規模な実験結果から、階層的クラスタリングの助けを借りて、このモデルは、脳領域の機能的構造に関するもっともらしい洞察を提供しながら、精度の向上と実行時の複雑さの低減を実現している。 実装はhttps://github.com/DDVD233/THCで公開されている。

Brain networks, graphical models such as those constructed from MRI, have been widely used in pathological prediction and analysis of brain functions. Within the complex brain system, differences in neuronal connection strengths parcellate the brain into various functional modules (network communities), which are critical for brain analysis. However, identifying such communities within the brain has been a nontrivial issue due to the complexity of neuronal interactions. In this work, we propose a novel interpretable transformer-based model for joint hierarchical cluster identification and brain network classification. Extensive experimental results on real-world brain network datasets show that with the help of hierarchical clustering, the model achieves increased accuracy and reduced runtime complexity while providing plausible insight into the functional organization of brain regions. The implementation is available at https://github.com/DDVD233/THC.
翻訳日:2023-05-09 17:31:16 公開日:2023-05-06
# チャーン低減のための安定性と塑性の維持

Maintaining Stability and Plasticity for Predictive Churn Reduction ( http://arxiv.org/abs/2305.04135v1 )

ライセンス: Link先を確認
George Adam, Benjamin Haibe-Kains, Anna Goldenberg(参考訳) デプロイされた機械学習モデルは、時間とともにより多くのデータが収集されるため、パフォーマンスを改善するためにより大きなサンプルサイズを利用するように更新されるべきである。 残念なことに、モデル更新が精度などの集約メトリクスを改善したとしても、前のモデルで正しく予測されたサンプルのエラーが発生する可能性がある。 このような予測は、ユーザ信頼を損なうため、人間-AIチーム全体の効率性が低下する。 本研究では,前モデルと現在のモデルバージョンを維持し,2つのモデルの予測を用いたメタ出力を生成する,累積モデル結合 (amc) というソリューションを提案する。 AMCは一般的な手法であり、モデルやデータ特性によってそれぞれ独自の利点を持ついくつかの事例を提案する。 AMCは最小限の追加計算と訓練手順の変更を必要とする。 AMCの必要性は、トレーニングを通して、単一のモデルを自身の予測と一致させることが困難であることを示し、単一のモデルをトレーニングする際の暗黙の安定性と塑性のトレードオフを明らかにすることで動機づけられる。 コンピュータビジョン,テキスト,表形式のデータセットなど,各種のモダリティに対するAMCの有効性を,最先端のチャーン削減手法と比較し,アンサンブルよりも効率的でありながら,既存のすべての手法と比較して優れたチャーン低減能力を示す。

Deployed machine learning models should be updated to take advantage of a larger sample size to improve performance, as more data is gathered over time. Unfortunately, even when model updates improve aggregate metrics such as accuracy, they can lead to errors on samples that were correctly predicted by the previous model causing per-sample regression in performance known as predictive churn. Such prediction flips erode user trust thereby reducing the effectiveness of the human-AI team as a whole. We propose a solution called Accumulated Model Combination (AMC) based keeping the previous and current model version, and generating a meta-output using the prediction of the two models. AMC is a general technique and we propose several instances of it, each having their own advantages depending on the model and data properties. AMC requires minimal additional computation and changes to training procedures. We motivate the need for AMC by showing the difficulty of making a single model consistent with its own predictions throughout training thereby revealing an implicit stability-plasticity tradeoff when training a single model. We demonstrate the effectiveness of AMC on a variety of modalities including computer vision, text, and tabular datasets comparing against state-of-the-art churn reduction methods, and showing superior churn reduction ability compared to all existing methods while being more efficient than ensembles.
翻訳日:2023-05-09 17:31:02 公開日:2023-05-06
# 人工神経心理学 : 大きな言語モデルが実行機能を生み出すか?

Artificial Neuropsychology: Are Large Language Models Developing Executive Functions? ( http://arxiv.org/abs/2305.04134v1 )

ライセンス: Link先を確認
Hernan Ceferino Vazquez(参考訳) 人工知能(AI)は急速に進歩しており、言語処理、視覚認識、意思決定を含む幅広い認知タスクを実行する能力を示している。 この進歩の一部は、GPT(Generative Pre-Trained Transformers)ファミリーのようなLLM(Large Language Models)によるものである。 これらのモデルは、知的と見なされる行動を示すことができる。 神経心理学のほとんどの著者は、知的行動は、前頭葉におけるニューラルネットワークの正しい機能に依存するいくつかのオーバーアーキシングスキル(efs)に依存すると考え、それらを評価するための一連のテストを開発した。 本研究では,LLMが学習の一環として人間に類似したエグゼクティブ機能を開発しているかどうかを疑問視し,ハノイのタワーを用いたGPTの計画機能と作業記憶の評価を行った。 さらに,LLMトレーニングデータ(dataleakeage)に解が存在することを避けるため,従来の手法の新たな変種を導入する。 予備的な結果から,LLMはハノイのタワーズでほぼ最適解を生成し,タスク制約に従属し,迅速な計画能力と効率的なワーキングメモリ利用を示し,経営機能の発展の可能性を示している。 しかし、これらの能力は、タスクが分かっておらず、トレーニングデータの一部ではない場合、十分に訓練された人間よりもかなり限定的で悪い。

Artificial Intelligence (AI) has been rapidly advancing and has demonstrated its ability to perform a wide range of cognitive tasks, including language processing, visual recognition, and decision-making. Part of this progress is due to LLMs (Large Language Models) like those of the GPT (Generative Pre-Trained Transformers) family. These models are capable of exhibiting behavior that can be perceived as intelligent. Most authors in Neuropsychology consider intelligent behavior to depend on a number of overarching skills, or Executive Functions (EFs), which rely on the correct functioning of neural networks in the frontal lobes, and have developed a series of tests to evaluate them. In this work, we raise the question of whether LLMs are developing executive functions similar to those of humans as part of their learning, and we evaluate the planning function and working memory of GPT using the popular Towers of Hanoi method. Additionally, we introduce a new variant of the classical method in order to avoid that the solutions are found in the LLM training data (dataleakeage). Preliminary results show that LLMs generates near-optimal solutions in Towers of Hanoi related tasks, adheres to task constraints, and exhibits rapid planning capabilities and efficient working memory usage, indicating a potential development of executive functions. However, these abilities are quite limited and worse than well-trained humans when the tasks are not known and are not part of the training data.
翻訳日:2023-05-09 17:30:31 公開日:2023-05-06
# 知覚データを用いたガウスの混合学習

Learning Mixtures of Gaussians with Censored Data ( http://arxiv.org/abs/2305.04127v1 )

ライセンス: Link先を確認
Wai Ming Tai, Bryon Aragam(参考訳) ガウシアンと検閲データとの混合学習の問題について検討する。 検閲されたデータを用いた統計的学習は古典的な問題であり、多くの実用的な応用があるが、ガウス混合のような単純な潜在変数モデルに対する有限サンプル保証は欠落している。 正式には、不定値ガウスの混合物である$$\sum_{i=1}^k w_i \mathcal{n}(\mu_i,\sigma^2) から検閲されたデータが与えられる。 目標は、ウェイト $w_i$ と平均 $\mu_i$ を学ぶことである。 我々は、$w_i$と$\varepsilon$エラー内の平均$\mu_i$を推定するために、$\frac{1}{\varepsilon^{o(k)}}$サンプルだけを取るアルゴリズムを提案する。

We study the problem of learning mixtures of Gaussians with censored data. Statistical learning with censored data is a classical problem, with numerous practical applications, however, finite-sample guarantees for even simple latent variable models such as Gaussian mixtures are missing. Formally, we are given censored data from a mixture of univariate Gaussians $$\sum_{i=1}^k w_i \mathcal{N}(\mu_i,\sigma^2),$$ i.e. the sample is observed only if it lies inside a set $S$. The goal is to learn the weights $w_i$ and the means $\mu_i$. We propose an algorithm that takes only $\frac{1}{\varepsilon^{O(k)}}$ samples to estimate the weights $w_i$ and the means $\mu_i$ within $\varepsilon$ error.
翻訳日:2023-05-09 17:30:08 公開日:2023-05-06
# 時間文接地のための変換同変一致学習

Transform-Equivariant Consistency Learning for Temporal Sentence Grounding ( http://arxiv.org/abs/2305.04123v1 )

ライセンス: Link先を確認
Daizong Liu, Xiaoye Qu, Jianfeng Dong, Pan Zhou, Zichuan Xu, Haozhao Wang, Xing Di, Weining Lu, Yu Cheng(参考訳) 本稿では,tsg(temporal sentence grounding)について述べる。 既存の手法は、このタスクで十分な成果を上げてきたが、トレーニングには豊富なビデオクエリペアデータに頼るだけでなく、データセットの分布バイアスにも容易に失敗する。 これらの制約を緩和するために,各ビデオに対してより識別的なクエリ関連フレームワイズ表現を自己管理的に学習する,新しいECRL(Equivariant Consistency Regulation Learning)フレームワークを導入する。 私たちの動機は、クエリ誘導アクティビティの時間的境界が、さまざまなビデオレベルの変換の下で一貫して予測されるべきだということです。 具体的には,まず前景と背景映像の双方に時空間的拡張を施し,合成ビデオのサンプル群を生成する。 特に,拡張映像の完全性と滑らか性を高めるために,自己定義モジュールを考案する。 そこで本研究では,2つの映像の系列類似度と先行するタイムスタンプ距離のガウス分布とのkl分布を最小化することにより,その不変クエリ関連意味を捉えるために,オリジナル映像と拡張映像に適用した新しい自己教師付き一貫性損失(sscl)を提案する。 最終的に、オリジナルビデオと拡張ビデオの両方の変換等価クエリガイドセグメント境界を予測するために、共有接地ヘッドが導入された。 3つの挑戦的データセット(ActivityNet、TACoS、Charades-STA)に対する大規模な実験は、提案したECRLフレームワークの有効性と効率性を実証している。

This paper addresses the temporal sentence grounding (TSG). Although existing methods have made decent achievements in this task, they not only severely rely on abundant video-query paired data for training, but also easily fail into the dataset distribution bias. To alleviate these limitations, we introduce a novel Equivariant Consistency Regulation Learning (ECRL) framework to learn more discriminative query-related frame-wise representations for each video, in a self-supervised manner. Our motivation comes from that the temporal boundary of the query-guided activity should be consistently predicted under various video-level transformations. Concretely, we first design a series of spatio-temporal augmentations on both foreground and background video segments to generate a set of synthetic video samples. In particular, we devise a self-refine module to enhance the completeness and smoothness of the augmented video. Then, we present a novel self-supervised consistency loss (SSCL) applied on the original and augmented videos to capture their invariant query-related semantic by minimizing the KL-divergence between the sequence similarity of two videos and a prior Gaussian distribution of timestamp distance. At last, a shared grounding head is introduced to predict the transform-equivariant query-guided segment boundaries for both the original and augmented videos. Extensive experiments on three challenging datasets (ActivityNet, TACoS, and Charades-STA) demonstrate both effectiveness and efficiency of our proposed ECRL framework.
翻訳日:2023-05-09 17:29:54 公開日:2023-05-06
# タンパク質構造生成のための潜時拡散モデル

A Latent Diffusion Model for Protein Structure Generation ( http://arxiv.org/abs/2305.04120v1 )

ライセンス: Link先を確認
Cong Fu, Keqiang Yan, Limei Wang, Wing Yee Au, Michael McThrow, Tao Komikado, Koji Maruhashi, Kanji Uchino, Xiaoning Qian, Shuiwang Ji(参考訳) タンパク質は生体内で様々な重要な機能を果たす複雑な生体分子である。 新規タンパク質の設計と生成は、創薬を含む多くの未来の合成生物学応用の道を開くことができる。 しかし、タンパク質構造の大規模なモデリング空間のため、依然として難しい計算課題である。 本研究では, 凝縮した潜在空間における自然タンパク質構造の分布を柔軟に捉えながら, タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。 具体的には,タンパク質を潜伏空間に埋め込んだ同変タンパク質オートエンコーダを提案し,同変拡散モデルを用いて潜伏タンパク質表現の分布を学習する。 実験の結果, 新規なタンパク質骨格構造を高い設計性と効率で効率的に生成できることが判明した。

Proteins are complex biomolecules that perform a variety of crucial functions within living organisms. Designing and generating novel proteins can pave the way for many future synthetic biology applications, including drug discovery. However, it remains a challenging computational task due to the large modeling space of protein structures. In this study, we propose a latent diffusion model that can reduce the complexity of protein modeling while flexibly capturing the distribution of natural protein structures in a condensed latent space. Specifically, we propose an equivariant protein autoencoder that embeds proteins into a latent space and then uses an equivariant diffusion model to learn the distribution of the latent protein representations. Experimental results demonstrate that our method can effectively generate novel protein backbone structures with high designability and efficiency.
翻訳日:2023-05-09 17:29:25 公開日:2023-05-06
# 大規模言語モデルを用いた人型翻訳戦略の探索

Exploring Human-Like Translation Strategy with Large Language Models ( http://arxiv.org/abs/2305.04118v1 )

ライセンス: Link先を確認
Zhiwei He, Tian Liang, Wenxiang Jiao, Zhuosheng Zhang, Yujiu Yang, Rui Wang, Zhaopeng Tu, Shuming Shi, Xing Wang(参考訳) 大規模言語モデル(LLM)は一般的なシナリオにおいて印象的な能力を示しており、人間レベルの知性を超えている面もある。 数多くの技術の中で、LLMの翻訳能力に大きな注目を集めている。 ソースターゲットマッピングのみに焦点を当てた従来の機械翻訳とは対照的に、LLMベースの翻訳は、高品質な翻訳を保証するために多くの準備段階を必要とする人間の翻訳プロセスを模倣する可能性がある。 本研究の目的は、マルチアスペクト・プロンプトとセレクションの略であるMAPSフレームワークを提案することである。 具体的には、LLMが与えられたソーステキストをまず分析し、翻訳関連知識の3つの側面(キーワード、トピック、関連するデモ)を抽出して翻訳プロセスを導く。 ノイズと非効率な知識をフィルタリングするために,品質推定に基づく選択機構を採用する。 実験の結果、MAPSは最新のWMT22テストセットからの8つの翻訳方向において、text-davinci-003とAlpacaよりも大幅に、一貫した改善をもたらすことが示唆された。 さらに分析した結果,抽出した知識は,翻訳における幻覚的誤りの最大59%を解消するのに重要であることがわかった。 コードはhttps://github.com/zwhe99/maps-mtで入手できる。

Large language models (LLMs) have demonstrated impressive capabilities in general scenarios, exhibiting a level of aptitude that approaches, in some aspects even surpasses, human-level intelligence. Among their numerous skills, the translation abilities of LLMs have received considerable attention. In contrast to traditional machine translation that focuses solely on source-target mapping, LLM-based translation can potentially mimic the human translation process that takes many preparatory steps to ensure high-quality translation. This work aims to explore this possibility by proposing the MAPS framework, which stands for Multi-Aspect Prompting and Selection. Specifically, we enable LLMs to first analyze the given source text and extract three aspects of translation-related knowledge: keywords, topics and relevant demonstrations to guide the translation process. To filter out the noisy and unhelpful knowledge, we employ a selection mechanism based on quality estimation. Experiments suggest that MAPS brings significant and consistent improvements over text-davinci-003 and Alpaca on eight translation directions from the latest WMT22 test sets. Our further analysis shows that the extracted knowledge is critical in resolving up to 59% of hallucination mistakes in translation. Code is available at https://github.com/zwhe99/MAPS-mt.
翻訳日:2023-05-09 17:29:14 公開日:2023-05-06
# 構造非依存関数推定の基本限界

The Fundamental Limits of Structure-Agnostic Functional Estimation ( http://arxiv.org/abs/2305.04116v1 )

ライセンス: Link先を確認
Sivaraman Balakrishnan, Edward H. Kennedy, Larry Wasserman(参考訳) 因果推論や関数的推定問題における最近の多くの進展は、古典的な一段階(一階)のデバイアス法や、より最近のサンプル・スプリットのダブル機械学習アバターが、驚くほど弱い条件下でプラグインの推定値を上回ることができるという事実によって動機づけられている。 これらの一階補正は、ブラックボックス方式でプラグイン推定器を改善するため、しばしば強力なオフザシェルフ推定法と併用される。 しかし、これらの一階法は、ニュアンス関数がホールダー型関数空間に存在するとき、関数推定のためにミニマックス感覚で証明できる準最適である。 この1次脱バイアスの亜最適性は「高次脱バイアス法」の発展を動機付けている。 結果として得られる推定子は、ホルダー型空間に対して証明可能な最適であるが、ミニマックス最適である推定値と解析値の両方は、基礎となる函数空間の性質に決定的に結びついている。 本稿では, 基礎となるニュアサンス関数に比較的弱い条件を課す, 構造非依存な関数推定の基本限界について検討する。 既存の一階法が最適であることを示す。 我々は,ブラックボックスニュアサンス関数推定を用いた関数推定問題の形式化と,この問題に対するミニマックス下限の導出により,この目標を達成する。 我々の結果は関数推定におけるいくつかの明確なトレードオフを浮き彫りにした -- 基礎となるニュアンス関数空間に無関係で留まり、高次レート条件のみを課し、ブラックボックスニュアンス推定器との互換性を維持したい場合、一階法は最適である。 基礎となるニュアンス関数の構造が理解できれば、注意深く構築された高次推定器は一階推定器より優れている。

Many recent developments in causal inference, and functional estimation problems more generally, have been motivated by the fact that classical one-step (first-order) debiasing methods, or their more recent sample-split double machine-learning avatars, can outperform plugin estimators under surprisingly weak conditions. These first-order corrections improve on plugin estimators in a black-box fashion, and consequently are often used in conjunction with powerful off-the-shelf estimation methods. These first-order methods are however provably suboptimal in a minimax sense for functional estimation when the nuisance functions live in Holder-type function spaces. This suboptimality of first-order debiasing has motivated the development of "higher-order" debiasing methods. The resulting estimators are, in some cases, provably optimal over Holder-type spaces, but both the estimators which are minimax-optimal and their analyses are crucially tied to properties of the underlying function space. In this paper we investigate the fundamental limits of structure-agnostic functional estimation, where relatively weak conditions are placed on the underlying nuisance functions. We show that there is a strong sense in which existing first-order methods are optimal. We achieve this goal by providing a formalization of the problem of functional estimation with black-box nuisance function estimates, and deriving minimax lower bounds for this problem. Our results highlight some clear tradeoffs in functional estimation -- if we wish to remain agnostic to the underlying nuisance function spaces, impose only high-level rate conditions, and maintain compatibility with black-box nuisance estimators then first-order methods are optimal. When we have an understanding of the structure of the underlying nuisance functions then carefully constructed higher-order estimators can outperform first-order estimators.
翻訳日:2023-05-09 17:28:54 公開日:2023-05-06
# 離散拡散モデリングによる効率・遅延ガイドグラフ生成

Efficient and Degree-Guided Graph Generation via Discrete Diffusion Modeling ( http://arxiv.org/abs/2305.04111v1 )

ライセンス: Link先を確認
Xiaohui Chen, Jiaxing He, Xu Han, Li-Ping Liu(参考訳) 拡散に基づく生成グラフモデルは高品質の小さなグラフを生成するのに有効であることが証明されている。 しかし、グラフ統計を希望する数千のノードを含む大規模グラフを生成するには、よりスケーラブルでなければならない。 本研究では,大きなグラフを持つ生成タスクに対処する新しい拡散型生成グラフモデルであるEDGEを提案する。 計算効率を向上させるために,各時間ステップでエッジをランダムに除去し,最後に空グラフを得る離散拡散法を用いて,グラフスパーシティを奨励する。 EDGEはグラフ内のノードの一部のみに焦点を当てている。 従来の拡散ベースのモデルよりもエッジ予測がはるかに少ない。 さらにedgeは、グラフのノード次数を明示的にモデル化し、さらにモデル性能を改善している。 実験的な研究によると、EDGEは競合する手法よりも効率的であり、数千のノードで大きなグラフを生成することができる。 私たちのアプローチによって生成されたグラフは、トレーニンググラフのそれよりも類似したグラフ統計を持っています。

Diffusion-based generative graph models have been proven effective in generating high-quality small graphs. However, they need to be more scalable for generating large graphs containing thousands of nodes desiring graph statistics. In this work, we propose EDGE, a new diffusion-based generative graph model that addresses generative tasks with large graphs. To improve computation efficiency, we encourage graph sparsity by using a discrete diffusion process that randomly removes edges at each time step and finally obtains an empty graph. EDGE only focuses on a portion of nodes in the graph at each denoising step. It makes much fewer edge predictions than previous diffusion-based models. Moreover, EDGE admits explicitly modeling the node degrees of the graphs, further improving the model performance. The empirical study shows that EDGE is much more efficient than competing methods and can generate large graphs with thousands of nodes. It also outperforms baseline models in generation quality: graphs generated by our approach have more similar graph statistics to those of the training graphs.
翻訳日:2023-05-09 17:28:20 公開日:2023-05-06
# リンドブラッドダイナミクスを超える連続監視量子システム

Continuously Monitored Quantum Systems beyond Lindblad Dynamics ( http://arxiv.org/abs/2305.04108v1 )

ライセンス: Link先を確認
Guglielmo Lami, Alessandro Santini, Mario Collura(参考訳) ユニタリ進化と連続的監視を行う量子システムのダイナミクスは、量子軌道という用語で記述することができる。 平均状態は期待値を完全に特徴づけるが、確率的軌跡全体の包含は単純な線形観測値を超え、ダイナミクス全体のより注意深い記述を保持する。 ここではリンドブラッド力学を越えて、観測可能な量子軌道上の観測可能な期待値の確率分布を研究する。 測定はシステム全体に適用され、システムを製品状態に投影する効果がある。 この確率分布を任意の時間tで評価する解析ツールを開発した。 我々は,磁化測定対象の単一量子ビットと位置測定対象の自由ホッピング粒子の2つのパラダイム的例を解析し,そのアプローチを説明する。

The dynamics of a quantum system, undergoing unitary evolution and continuous monitoring, can be described in term of quantum trajectories. Although the averaged state fully characterises expectation values, the entire ensamble of stochastic trajectories goes beyond simple linear observables, keeping a more attentive description of the entire dynamics. Here we go beyond the Lindblad dynamics and study the probability distribution of the expectation value of a given observable over the possible quantum trajectories. The measurements are applied to the entire system, having the effect of projecting the system into a product state. We develop an analytical tool to evaluate this probability distribution at any time t. We illustrate our approach by analyzing two paradigmatic examples: a single qubit subjected to magnetization measurements, and a free hopping particle subjected to position measurements.
翻訳日:2023-05-09 17:28:04 公開日:2023-05-06
# 古典影によるポーリ雑音からの効率的な情報回復

Efficient information recovery from Pauli noise via classical shadow ( http://arxiv.org/abs/2305.04148v1 )

ライセンス: Link先を確認
Yifei Chen, Zhan Yu, Chenghong Zhu, Xin Wang(参考訳) 量子コンピューティングの急速な進歩は、量子システム、特に量子機械学習や量子化学といった分野から古典的情報を抽出するための効果的な技術に対する広範な需要をもたらした。 しかし、量子系は本質的にノイズに影響を受けやすく、量子系で符号化された情報を損なう。 本研究では,ポーリ雑音下で量子状態から情報を復元する効率的なアルゴリズムを提案する。 中心となる考え方は、チャンネルの古典的な影を後処理することで、未知のパウリチャネルに必要な情報を学ぶことである。 局所的かつ有界な可観測性を持つ場合には、理想的な情報を回復するための完全な古典的記述ではなく、チャネルの部分的な知識のみが必要となり、多項式時間アルゴリズムが生成される。 これは、チャネルの完全な情報を必要とし、キュービット数の指数的スケーリングを示す確率的エラーキャンセルのような従来の手法とは対照的である。 また,このスケーラブルな手法がサンプルの複雑性に最適であることを証明し,アルゴリズムを重み契約チャネルに一般化する。 さらに, 数値シミュレーションによる1次元異方性ハイゼンベルク型モデルに対するアルゴリズムの有効性を示す。 顕著な応用として,本手法はクリフォード回路のサンプリング効率のよい誤差軽減手法として評価できる。

The rapid advancement of quantum computing has led to an extensive demand for effective techniques to extract classical information from quantum systems, particularly in fields like quantum machine learning and quantum chemistry. However, quantum systems are inherently susceptible to noises, which adversely corrupt the information encoded in quantum systems. In this work, we introduce an efficient algorithm that can recover information from quantum states under Pauli noise. The core idea is to learn the necessary information of the unknown Pauli channel by post-processing the classical shadows of the channel. For a local and bounded-degree observable, only partial knowledge of the channel is required rather than its complete classical description to recover the ideal information, resulting in a polynomial-time algorithm. This contrasts with conventional methods such as probabilistic error cancellation, which requires the full information of the channel and exhibits exponential scaling with the number of qubits. We also prove that this scalable method is optimal on the sample complexity and generalise the algorithm to the weight contracting channel. Furthermore, we demonstrate the validity of the algorithm on the 1D anisotropic Heisenberg-type model via numerical simulations. As a notable application, our method can be severed as a sample-efficient error mitigation scheme for Clifford circuits.
翻訳日:2023-05-09 17:19:38 公開日:2023-05-06
# プロンプティングによる制御可能な混合開始対話生成

Controllable Mixed-Initiative Dialogue Generation through Prompting ( http://arxiv.org/abs/2305.04147v1 )

ライセンス: Link先を確認
Maximillian Chen, Xiao Yu, Weiyan Shi, Urvi Awasthi, Zhou Yu(参考訳) 混合開始対話タスクは、情報の繰り返し交換と会話制御を伴う。 対話エージェントは、政策立案者が規定する特定の対話意図や戦略に従う応答を生成して制御される。 標準的なアプローチは、これらの意図に基づいて生成条件を実行するために、訓練済みの言語モデルを微調整している。 しかし、これらの教師付き生成モデルは、データアノテーションのコストと品質によって制限される。 代わりに、条件生成の微調整に代えて、大きな言語モデルをドロップインで置き換える。 制御可能な混合開始対話のための素早い構築を形式化する。 以上の結果から,人的評価による微調整と地上の真理応答の改善,および2つの課題(PersuasionForGood と Emotional Support Conversations )に対する自動測定結果が得られた。

Mixed-initiative dialogue tasks involve repeated exchanges of information and conversational control. Conversational agents gain control by generating responses that follow particular dialogue intents or strategies, prescribed by a policy planner. The standard approach has been fine-tuning pre-trained language models to perform generation conditioned on these intents. However, these supervised generation models are limited by the cost and quality of data annotation. We instead prompt large language models as a drop-in replacement to fine-tuning on conditional generation. We formalize prompt construction for controllable mixed-initiative dialogue. Our findings show improvements over fine-tuning and ground truth responses according to human evaluation and automatic metrics for two tasks: PersuasionForGood and Emotional Support Conversations.
翻訳日:2023-05-09 17:19:19 公開日:2023-05-06
# 漁業情報を用いたプライバシ保護インスタンスエンコーディングの可逆性の境界

Bounding the Invertibility of Privacy-preserving Instance Encoding using Fisher Information ( http://arxiv.org/abs/2305.04146v1 )

ライセンス: Link先を確認
Kiwan Maeng, Chuan Guo, Sanjay Kariyappa, G. Edward Suh(参考訳) プライバシ保存インスタンスエンコーディングは、プライバシに敏感な情報を明かすことなく、生データを特徴ベクトルとしてエンコードすることを目的としている。 適切に設計された場合、これらのエンコーディングは、限られたプライバシーリスクを伴うトレーニングや推論などの下流MLアプリケーションに使用することができる。 しかしながら、既存のインスタンスエンコーディングスキームの大部分はヒューリスティックに基づいており、プライバシ保護プロパティは限られた一連の攻撃に対して実証的にのみ検証される。 本稿では,フィッシャー情報に基づくインスタンスエンコーディングのプライバシに関する理論的手法を提案する。 我々のプライバシー尺度は直感的であり、容易に適用でき、理論的にも経験的にもエンコーディングの可逆性を制限するのに使うことができる。

Privacy-preserving instance encoding aims to encode raw data as feature vectors without revealing their privacy-sensitive information. When designed properly, these encodings can be used for downstream ML applications such as training and inference with limited privacy risk. However, the vast majority of existing instance encoding schemes are based on heuristics and their privacy-preserving properties are only validated empirically against a limited set of attacks. In this paper, we propose a theoretically-principled measure for the privacy of instance encoding based on Fisher information. We show that our privacy measure is intuitive, easily applicable, and can be used to bound the invertibility of encodings both theoretically and empirically.
翻訳日:2023-05-09 17:19:09 公開日:2023-05-06
# 階層的動的画像調和

Hierarchical Dynamic Image Harmonization ( http://arxiv.org/abs/2211.08639v3 )

ライセンス: Link先を確認
Haoxing Chen and Zhangxuan Gu and Yaohui Li and Jun Lan and Changhua Meng and Weiqiang Wang and Huaxiong Li(参考訳) 画像調和はコンピュータビジョンにおいて重要なタスクであり、背景と互換性を持たせるために前景を調整することを目的としている。 最近の研究は、視覚的整合性を達成するために大域変換(正規化と色曲線レンダリング)を使うことに重点を置いている。 しかし、これらのモデルは局所的な視覚的一貫性を無視し、その巨大なモデルサイズはエッジデバイスでの調和能力を制限する。 本稿では,高効率な画像調和における特徴変換のために,特徴をローカルからグローバルに適応させる階層型動的ネットワーク(HDNet)を提案する。 本稿では,様々な動的モデルの成功に触発されて,局所動的(LD)モジュールとマスク対応グローバル動的(MGD)モジュールを提案する。 具体的には、LDは意味的類似性に基づいて、前景と背景領域間の局所表現と一致し、その後、近隣の背景領域の$K$-nearestの出現に応じて、前景のすべての局所表現を適応的に調整する。 このように、LDはよりきめ細かいレベルでよりリアルな画像を生成し、同時にセマンティックアライメントの特性を楽しむことができる。 MGDは、フォアグラウンドと背景領域に明確な畳み込みを効果的に適用し、フォアグラウンドと背景領域の表現を学習し、グローバルな調和と相関し、画像の局所的な視覚的一貫性をより効率的にする。 実験の結果,提案するhdnetは,iharmony4データセットにおける最先端性能を保ちつつ,従来手法と比較して,モデルパラメータを80%以上削減できることが判明した。 特に、HDNetは従来の最先端手法に比べてPSNRが4倍改善し、MSEが19倍削減された。

Image harmonization is a critical task in computer vision, which aims to adjust the foreground to make it compatible with the background. Recent works mainly focus on using global transformations (i.e., normalization and color curve rendering) to achieve visual consistency. However, these models ignore local visual consistency and their huge model sizes limit their harmonization ability on edge devices. In this paper, we propose a hierarchical dynamic network (HDNet) to adapt features from local to global view for better feature transformation in efficient image harmonization. Inspired by the success of various dynamic models, local dynamic (LD) module and mask-aware global dynamic (MGD) module are proposed in this paper. Specifically, LD matches local representations between the foreground and background regions based on semantic similarities, then adaptively adjust every foreground local representation according to the appearance of its $K$-nearest neighbor background regions. In this way, LD can produce more realistic images at a more fine-grained level, and simultaneously enjoy the characteristic of semantic alignment. The MGD effectively applies distinct convolution to the foreground and background, learning the representations of foreground and background regions as well as their correlations to the global harmonization, facilitating local visual consistency for the images much more efficiently. Experimental results demonstrate that the proposed HDNet significantly reduces the total model parameters by more than 80\% compared to previous methods, while still attaining state-of-the-art performance on the popular iHarmony4 dataset. Notably, the HDNet achieves a 4\% improvement in PSNR and a 19\% reduction in MSE compared to the prior state-of-the-art methods.
翻訳日:2023-05-09 11:31:52 公開日:2023-05-06
# RGBシーケンスからのインクリメンタル3次元セマンティックシーングラフ予測

Incremental 3D Semantic Scene Graph Prediction from RGB Sequences ( http://arxiv.org/abs/2305.02743v2 )

ライセンス: Link先を確認
Shun-Cheng Wu, Keisuke Tateno, Nassir Navab, Federico Tombari(参考訳) 3dセマンティックシーングラフは、個々のオブジェクトを記述し、それらの関係を描写する強力な総合表現である。 これらは、シーン推論を必要とする多くのタスクを可能にするコンパクトなハイレベルグラフである。 実世界の環境では、既存の3d推定手法は、主に高密度入力に依存する堅牢な予測を生成する。 本研究では,RGB画像シーケンスが与えられたシーンの連続した3Dセマンティックシーングラフを段階的に構築するリアルタイムフレームワークを提案する。 提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。 提案するパイプラインはスパースポイントマップを同時に再構成し、入力画像からエンティティ推定を融合する。 提案ネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復メッセージパッシングを伴う3次元意味的シーングラフを推定する。 3RScanデータセットの大規模な実験により,本課題における提案手法の有効性が示された。

3D semantic scene graphs are a powerful holistic representation as they describe the individual objects and depict the relation between them. They are compact high-level graphs that enable many tasks requiring scene reasoning. In real-world settings, existing 3D estimation methods produce robust predictions that mostly rely on dense inputs. In this work, we propose a real-time framework that incrementally builds a consistent 3D semantic scene graph of a scene given an RGB image sequence. Our method consists of a novel incremental entity estimation pipeline and a scene graph prediction network. The proposed pipeline simultaneously reconstructs a sparse point map and fuses entity estimation from the input images. The proposed network estimates 3D semantic scene graphs with iterative message passing using multi-view and geometric features extracted from the scene entities. Extensive experiments on the 3RScan dataset show the effectiveness of the proposed method in this challenging task, outperforming state-of-the-art approaches.
翻訳日:2023-05-09 11:22:13 公開日:2023-05-06
# 隣の言葉がサリエンシ説明の人間解釈に及ぼす影響

Neighboring Words Affect Human Interpretation of Saliency Explanations ( http://arxiv.org/abs/2305.02679v2 )

ライセンス: Link先を確認
Alon Jacovi, Hendrik Schuff, Heike Adel, Ngoc Thang Vu, Yoav Goldberg(参考訳) 単語レベルの敬礼説明("heat map over words")は、テキストベースのモデルで特徴属性を伝えるためにしばしば用いられる。 近年の研究では、単語の長さなどの表層的要因が、コミュニケーションされた塩分スコアの人間の解釈を歪めることが示されている。 本研究では,接頭辞のマーキングが,その単語の重要性に対する説明者の認識にどのような影響を及ぼすかを検討するために,ユーザ調査を行う。 隣接する単語が単語の重要度に重大な影響を与えていることが分かる。 具体的には,隣接方向 (左対右) とa-priori言語的・計算的指標 (非関連隣接語) に基づいて影響が変化することを示す。 本研究の結果は,テキストによる相性説明を単語レベルで継続するべきかどうかを問うとともに,代替相性説明法に関する今後の研究について報告する。

Word-level saliency explanations ("heat maps over words") are often used to communicate feature-attribution in text-based models. Recent studies found that superficial factors such as word length can distort human interpretation of the communicated saliency scores. We conduct a user study to investigate how the marking of a word's neighboring words affect the explainee's perception of the word's importance in the context of a saliency explanation. We find that neighboring words have significant effects on the word's importance rating. Concretely, we identify that the influence changes based on neighboring direction (left vs. right) and a-priori linguistic and computational measures of phrases and collocations (vs. unrelated neighboring words). Our results question whether text-based saliency explanations should be continued to be communicated at word level, and inform future research on alternative saliency explanation methods.
翻訳日:2023-05-09 11:21:10 公開日:2023-05-06
# 可変型量子固有解器からの電子励起状態

Electronic Excited States from a Variance-Based Contracted Quantum Eigensolver ( http://arxiv.org/abs/2305.03044v2 )

ライセンス: Link先を確認
Yuchen Wang and David A. Mazziotti(参考訳) 分子の電子励起状態は多くの物理および化学過程の中心であるが、通常は基底状態よりも計算が難しい。 本稿では,量子コンピュータの利点を活かし,励起状態の高精度計算のためのアルゴリズムを開発した。 縮約したschr\"odinger方程式(cse) -- 2つの電子の空間へのschr\"odinger方程式の縮約(射影) -- を解き、その解はschr\"odinger方程式の基底状態と励起状態と一致する。 最近のcse(contracted quantum eigensolvers, cqe)の量子アルゴリズムは基底状態に着目しているが, 基底状態や励起状態に対して高速に最適化するように設計された分散に基づくcqeを開発した。 我々は,H$_{4}$およびBHの基底および励起状態の計算に,ノイズのない古典的シミュレーションにアルゴリズムを適用した。

Electronic excited states of molecules are central to many physical and chemical processes, and yet they are typically more difficult to compute than ground states. In this paper we leverage the advantages of quantum computers to develop an algorithm for the highly accurate calculation of excited states. We solve a contracted Schr\"odinger equation (CSE) -- a contraction (projection) of the Schr\"odinger equation onto the space of two electrons -- whose solutions correspond identically to the ground and excited states of the Schr\"odinger equation. While recent quantum algorithms for solving the CSE, known as contracted quantum eigensolvers (CQE), have focused on ground states, we develop a CQE based on the variance that is designed to optimize rapidly to a ground or excited state. We apply the algorithm in a classical simulation without noise to computing the ground and excited states of H$_{4}$ and BH.
翻訳日:2023-05-09 11:10:31 公開日:2023-05-06
# 措置・規程・情報のメジャー化

Majorizing Measures, Codes, and Information ( http://arxiv.org/abs/2305.02960v2 )

ライセンス: Link先を確認
Yifeng Chu and Maxim Raginsky(参考訳) フェルニクとタラグランのメジャー化測度定理はランダム過程の理論の基本的な結果である。 これは、計量空間の要素によってインデックス付けされたランダムプロセスの有界性と、パッキングや被覆木などのある種の多スケール組合せ構造から生じる複雑さの測度を関連付ける。 本稿では,まずアンドレアス・マウラー(andreas maurer)の微妙な前版で概説し,確率過程の有界性が指数化距離空間の要素に対する効率的な可変長符号の存在という観点で表現される主観的測度定理に関する情報理論的な視点を提示した。

The majorizing measure theorem of Fernique and Talagrand is a fundamental result in the theory of random processes. It relates the boundedness of random processes indexed by elements of a metric space to complexity measures arising from certain multiscale combinatorial structures, such as packing and covering trees. This paper builds on the ideas first outlined in a little-noticed preprint of Andreas Maurer to present an information-theoretic perspective on the majorizing measure theorem, according to which the boundedness of random processes is phrased in terms of the existence of efficient variable-length codes for the elements of the indexing metric space.
翻訳日:2023-05-09 11:10:11 公開日:2023-05-06