このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230625となっている論文です。

PDF登録状況(公開日: 20230625)

TitleAuthorsAbstract論文公表日・翻訳日
# シナリオに基づく製品システムの故障解析とその環境

Scenario-based Failure Analysis of Product Systems and their Environment ( http://arxiv.org/abs/2306.15694v1 )

ライセンス: Link先を確認
Tim Maurice Julitz, Nadine Schl\"uter, Manuel L\"ower(参考訳) 利用段階において、技術製品システムは環境と永久的に相互作用する。 この相互作用は、ユーザの安全を著しく脅かし、製品の品質と信頼性に悪影響を及ぼすような失敗につながる可能性がある。 従来の故障分析手法は、技術製品システムに焦点を当てている。 使用段階における製品と環境との相互作用は十分に考慮されておらず、結果として製品の潜在的な障害が検出されず、不平を生じさせる。 この目的のために、製品の使用シナリオを通じて継続的に改善される障害識別のための方法論が開発されている。 ユースケースは4つのビューを持つシステムエンジニアリングアプローチに従ってモデル化される。 製品システム、物理的効果、事象、環境要因の結合は、断層連鎖の分析を可能にする。 これら4つのパラメータは非常に複雑で、データベースと専門家の知識を使って体系的に分析する必要がある。 シナリオはフィールドデータと苦情によって継続的に更新される。 新しいアプローチは、より体系的で包括的な方法で潜在的な失敗を特定することができる。 シナリオに関する直接的なインプットを提供する。 未知の、未認識のイベントは継続的改善によって体系的に識別できる。 これにより、製品開発において、製品システムと環境要因の関係の複雑さを適切に考慮することができる。 キーワード:失敗分析、方法論、製品開発、システムエンジニアリング、シナリオ分析、シナリオ改善、環境要因、製品環境、継続的な改善。

During the usage phase, a technical product system is in permanent interaction with its environment. This interaction can lead to failures that significantly endanger the safety of the user and negatively affect the quality and reliability of the product. Conventional methods of failure analysis focus on the technical product system. The interaction of the product with its environment in the usage phase is not sufficiently considered, resulting in undetected potential failures of the product that lead to complaints. For this purpose, a methodology for failure identification is developed, which is continuously improved through product usage scenarios. The use cases are modelled according to a systems engineering approach with four views. The linking of the product system, physical effects, events and environmental factors enable the analysis of fault chains. These four parameters are subject to great complexity and must be systematically analysed using databases and expert knowledge. The scenarios are continuously updated by field data and complaints. The new approach can identify potential failures in a more systematic and holistic way. Complaints provide direct input on the scenarios. Unknown, previously unrecognized events can be systematically identified through continuous improvement. The complexity of the relationship between the product system and its environmental factors can thus be adequately taken into account in product development. Keywords: failure analysis, methodology, product development, systems engineering, scenario analysis, scenario improvement, environmental factors, product environment, continuous improvement.
翻訳日:2023-10-23 18:44:37 公開日:2023-06-25
# マルチソース融合による高スペクトル空間分解能合成ハイパースペクトルデータセット

High Spectral Spatial Resolution Synthetic HyperSpectral Dataset form multi-source fusion ( http://arxiv.org/abs/2309.00005v1 )

ライセンス: Link先を確認
Yajie Sun, Ali Zia and Jun Zhou(参考訳) 本研究では,高スペクトル・空間分解能画像を組み合わせて,観察されたシーンや物体の包括的,正確かつ詳細な表現を実現するための合成ハイパースペクトルデータセットを提案する。 このような望ましい品質の達成は、単一のカメラに依存する場合、難しい。 提案したデータセットは、RGB、プッシュブルーム可視高スペクトルカメラ、スナップショット赤外線高スペクトルカメラの3つのモードを利用して、この制限に対処する。 異なるカメラシステムは様々な測光特性を示し、空間分解能とスペクトル分解能のトレードオフをもたらす。 RGBカメラは通常、空間分解能は高いがスペクトル分解能は限定的であるが、ハイパースペクトルカメラは空間分解能を犠牲にして高いスペクトル分解能を有する。 さらに、ハイパースペクトルカメラ自体は異なるキャプチャ技術とスペクトル範囲を採用しており、包括的データの取得をさらに複雑にしている。 これらのモダリティの光度特性を統合することで、単一の合成ハイパースペクトル画像を生成することができ、様々な分野における分析、監視、意思決定を改善するために、より広いスペクトル空間関係の探索を容易にする。 本稿では,バンド間のスペクトル間隔が一貫した高品質合成ハイパースペクトルデータセットの作成において,マルチモーダル融合が重要であることを強調する。

This research paper introduces a synthetic hyperspectral dataset that combines high spectral and spatial resolution imaging to achieve a comprehensive, accurate, and detailed representation of observed scenes or objects. Obtaining such desirable qualities is challenging when relying on a single camera. The proposed dataset addresses this limitation by leveraging three modalities: RGB, push-broom visible hyperspectral camera, and snapshot infrared hyperspectral camera, each offering distinct spatial and spectral resolutions. Different camera systems exhibit varying photometric properties, resulting in a trade-off between spatial and spectral resolution. RGB cameras typically offer high spatial resolution but limited spectral resolution, while hyperspectral cameras possess high spectral resolution at the expense of spatial resolution. Moreover, hyperspectral cameras themselves employ different capturing techniques and spectral ranges, further complicating the acquisition of comprehensive data. By integrating the photometric properties of these modalities, a single synthetic hyperspectral image can be generated, facilitating the exploration of broader spectral-spatial relationships for improved analysis, monitoring, and decision-making across various fields. This paper emphasizes the importance of multi-modal fusion in producing a high-quality synthetic hyperspectral dataset with consistent spectral intervals between bands.
翻訳日:2023-10-23 11:44:47 公開日:2023-06-25
# テストタイムチューニングによるビデオカラー化の改善

Improving Video Colorization by Test-Time Tuning ( http://arxiv.org/abs/2307.11757v1 )

ライセンス: Link先を確認
Yaping Zhao, Haitian Zheng, Jiebo Luo, Edmund Y. Lam(参考訳) 深層学習の進歩に伴い、色付き参照フレームからモノクロビデオシーケンスへの色情報伝達による映像のカラー化がよく研究されている。 しかしながら、既存のアプローチでは、トレーニングデータセットの過剰な適合に苦しめられ、テストサンプルの色付けに最適でないパフォーマンスが連続的に伴うことが多い。 この問題に対処するため,テスト時間チューニングによる映像の着色性向上を目的とした効果的な手法を提案する。 本手法は,PSNRにおいて,試験中に追加のトレーニングサンプルを構築する際の基準を利用して,ベースラインと比較して平均1~3dBの性能向上を実現している。 コードは、https://github.com/IndigoPurple/T3で入手できる。

With the advancements in deep learning, video colorization by propagating color information from a colorized reference frame to a monochrome video sequence has been well explored. However, the existing approaches often suffer from overfitting the training dataset and sequentially lead to suboptimal performance on colorizing testing samples. To address this issue, we propose an effective method, which aims to enhance video colorization through test-time tuning. By exploiting the reference to construct additional training samples during testing, our approach achieves a performance boost of 1~3 dB in PSNR on average compared to the baseline. Code is available at: https://github.com/IndigoPurple/T3
翻訳日:2023-07-30 04:27:07 公開日:2023-06-25
# 深層学習モデルのステガノグラフィー能力

Steganographic Capacity of Deep Learning Models ( http://arxiv.org/abs/2306.17189v1 )

ライセンス: Link先を確認
Lei Zhang and Dong Li and Olha Jure\v{c}kov\'a and Mark Stamp(参考訳) 機械学習とディープラーニングモデルがユビキタスになるにつれて、さまざまな攻撃シナリオでそのようなモデルを活用しようとする試みは避けられない。 例えば、ステガノグラフィーベースの攻撃では、情報は学習モデルに隠され、マルウェアの配布や他の悪意のある目的のために使用される可能性がある。 本研究では,いくつかの学習モデルのステガノグラフィー能力について考察する。 具体的には,多層パーセプトロン(MLP),畳み込みニューラルネットワーク(CNN),トランスフォーマーモデルを,難解なマルウェア分類問題に基づいて訓練する。 得られた各モデルに対して、モデルの性能に大きな影響を与えずに変更できる訓練されたパラメータの低次ビット数を決定する。 テストした学習モデルのステガノグラフィー能力は驚くほど高く,いずれの場合も,モデル性能が急速に低下する明確なしきい値が存在することがわかった。

As machine learning and deep learning models become ubiquitous, it is inevitable that there will be attempts to exploit such models in various attack scenarios. For example, in a steganographic-based attack, information could be hidden in a learning model, which might then be used to distribute malware, or for other malicious purposes. In this research, we consider the steganographic capacity of several learning models. Specifically, we train a Multilayer Perceptron (MLP), Convolutional Neural Network (CNN), and Transformer model on a challenging malware classification problem. For each of the resulting models, we determine the number of low-order bits of the trained parameters that can be altered without significantly affecting the performance of the model. We find that the steganographic capacity of the learning models tested is surprisingly high, and that in each case, there is a clear threshold after which model performance rapidly degrades.
翻訳日:2023-07-09 14:10:25 公開日:2023-06-25
# バンディットアルゴリズムに基づくネットワークトポロジーとオピニオンダイナミクスの合同学習

Joint Learning of Network Topology and Opinion Dynamics Based on Bandit Algorithms ( http://arxiv.org/abs/2306.15695v1 )

ライセンス: Link先を確認
Yu Xing, Xudong Sun, Karl H. Johansson(参考訳) エージェントが異なる更新ルールを持つ可能性があるネットワークトポロジーと混合意見ダイナミクスの合同学習について検討した。 このようなモデルは実際の個々の相互作用の多様性を捉えている。 そこで本研究では,マルチアームバンディットアルゴリズムに基づく学習アルゴリズムを提案する。 アルゴリズムの目標は、複数の候補ルールから各エージェントの更新ルールを見つけ、基盤となるネットワークを学ぶことである。 各イテレーションにおいて、アルゴリズムは各エージェントが更新されたルールの1つを持っていると仮定し、ネットワーク推定を修正して検証エラーを減らす。 数値実験により,提案手法はネットワークの初期推定と更新規則を改善し,予測誤差を低減し,スパース線形回帰やガウス過程回帰といった他の手法よりも優れた性能を示す。

We study joint learning of network topology and a mixed opinion dynamics, in which agents may have different update rules. Such a model captures the diversity of real individual interactions. We propose a learning algorithm based on multi-armed bandit algorithms to address the problem. The goal of the algorithm is to find each agent's update rule from several candidate rules and to learn the underlying network. At each iteration, the algorithm assumes that each agent has one of the updated rules and then modifies network estimates to reduce validation error. Numerical experiments show that the proposed algorithm improves initial estimates of the network and update rules, decreases prediction error, and performs better than other methods such as sparse linear regression and Gaussian process regression.
翻訳日:2023-06-29 17:12:31 公開日:2023-06-25
# 縮減損失を用いたロバストモデル再検討

Revisiting Robust Model Fitting Using Truncated Loss ( http://arxiv.org/abs/2008.01574v2 )

ライセンス: Link先を確認
Fei Wen, Hewen Wei, Yipeng Liu, and Peilin Liu(参考訳) ロバストフィッティング(英: Robust fit)は、低レベルの視界における基本的な問題であり、通常は最大コンセンサス (MC) 推定器によって達成され、まず、あるいはM-推定器を直接識別する。 これらの2つの手法は異なる用途で差別的に好まれるが、乱れた損失に基づくM推定器はMCと類似している。 本研究は,切断損失を用いた同時不規則同定とモデル推定(sime)を実現する定式化を再考する。 一般形式は線形および非線形残留モデルの両方に適応する。 これらの結果から,SIME は不整合の発見に不整合を考慮に入れているため,モデルフィッティングの達成可能な残差はMCロバストフィッティングよりも低いことがわかった。 次に、SIMEの定式化を解決するために、交代最小化(AM)アルゴリズムを用いる。 一方,SIME定式化の非凸性を高めるため,半有限緩和(SDR)組込みAMアルゴリズムを開発した。 さらに,新しいアルゴリズムを様々な2D/3D登録問題に適用する。 実験の結果,新しいアルゴリズムはRANSACと決定論的近似MC法を高い出力比で大幅に上回ることがわかった。 さらに、回転とユークリッドの登録問題において、新しいアルゴリズムは最先端の登録法、特に高ノイズと異常値とを好んで比較する。 コードは \textit{https://github.com/fwen/mcme.git}で入手できる。

Robust fitting is a fundamental problem in low-level vision, which is typically achieved by maximum consensus (MC) estimators to identify inliers first or by M-estimators directly. While these two methods are discriminately preferred in different applications, truncated loss based M-estimators are similar to MC as they can also identify inliers. This work revisits a formulation that achieves simultaneous inlier identification and model estimation (SIME) using truncated loss. It has a generalized form adapts to both linear and nonlinear residual models. We show that as SIME takes fitting residual into account in finding inliers, its lowest achievable residual in model fitting is lower than that of MC robust fitting. Then, an alternating minimization (AM) algorithm is employed to solve the SIME formulation. Meanwhile, a semidefinite relaxation (SDR) embedded AM algorithm is developed in order to ease the high nonconvexity of the SIME formulation. Furthermore, the new algorithms are applied to various 2D/3D registration problems. Experimental results show that the new algorithms significantly outperform RANSAC and deterministic approximate MC methods at high outlier ratios. Besides, in rotation and Euclidean registration problems, the new algorithms also compare favorably with state-of-the-art registration methods, especially in high noise and outliers. Code is available at \textit{https://github.com/FWen/mcme.git}.
翻訳日:2023-06-28 18:24:39 公開日:2023-06-25
# 分数量子ホール効果の新しい理論に向けて : $\nu<1$ における多体スペクトルとエネルギーギャップ

Toward a new theory of the fractional quantum Hall effect: The many-body spectra and energy gaps at $\nu<1$ ( http://arxiv.org/abs/2306.14931v1 )

ライセンス: Link先を確認
S. A. Mikhailov(参考訳) 最近の論文 (arXiv:2206.05152v4) では、Landauレベル充填率$\nu=1/3$におけるN\le 7$2次元電子系のエネルギーおよびその他の物理特性(電子密度、ペア相関関数)を計算し、この充填率に提案される多体波動関数が真基底状態から遠いことを示した。 この論文では、最低ランダウ準位にある2次元電子の小さな(N\le 7$)系の正確な性質について研究を続けている。 私は1/4\lesssim\nu<1$の範囲の磁場の関数として、N\le 7$電子で系のエネルギーと電子密度を連続的に分析する。 多粒子電子スペクトルにおけるエネルギーギャップの出現の物理的メカニズムを解明する。 その結果, 地盤の真の性質と検討された系の励起状態が明らかとなった。

In a recent paper (arXiv:2206.05152v4), using the exact diagonalization technique, I calculated the energy and other physical properties (electron density, pair correlation function) of a system of $N\le 7$ two-dimensional electrons at the Landau level filling factor $\nu=1/3$, and showed that the variational many-body wave function proposed for this filling factor by Laughlin is far from the true ground state. In this paper I continue to study exact properties of a small ($N\le 7$) system of two-dimensional electrons lying on the lowest Landau level. I analyze the energies and electron densities of the systems with $N\le 7$ electrons continuously as a function of the magnetic field in the range $1/4\lesssim\nu<1$. The physical mechanisms of the appearance of energy gaps in many-particle electron spectra are elucidated. The results obtained clarify the true nature of the ground and excited states of the considered systems.
翻訳日:2023-06-28 16:09:45 公開日:2023-06-25
# オープンワールド物理領域における新奇性検出の難しさ--angry birdsへの応用

The Difficulty of Novelty Detection in Open-World Physical Domains: An Application to Angry Birds ( http://arxiv.org/abs/2106.08670v2 )

ライセンス: Link先を確認
Vimukthini Pinto, Cheng Xue, Chathura Nagoda Gamage, Matthew Stephenson and Jochen Renz(参考訳) オープンワールド環境における新しい状況の検出と応答は、人間の認知の重要な能力であり、AIシステムにとって永続的な問題である。 オープンワールドでは、ノベルティは様々な形で現れることができ、検出が容易または困難である。 したがって、aiシステムの新規性検出能力を正確に評価するには、異なるタイプの新規性を検出することがいかに難しいかを検討する必要がある。 本稿では,オープンワールドな物理領域に着目した新規性検出の難しさを定量化する定性物理に基づく手法を提案する。 我々は,一般的な物理シミュレーションゲームであるAngry Birdsに本手法を適用し,新しい手法の検証を行う。 その結果, 計算した検出困難度は, ユーザのものと一致していることがわかった。

Detecting and responding to novel situations in open-world environments is a key capability of human cognition and is a persistent problem for AI systems. In an open-world, novelties can appear in many different forms and may be easy or hard to detect. Therefore, to accurately evaluate the novelty detection capability of AI systems, it is necessary to investigate how difficult it may be to detect different types of novelty. In this paper, we propose a qualitative physics-based method to quantify the difficulty of novelty detection focusing on open-world physical domains. We apply our method in the popular physics simulation game Angry Birds, and conduct a user study across different novelties to validate our method. Results indicate that our calculated detection difficulties are in line with those of human users.
翻訳日:2023-06-28 01:53:22 公開日:2023-06-25
# ランダムベクトルの測度と一般化積の濃度とハンソンライト的不等式への応用

Concentration of measure and generalized product of random vectors with an application to Hanson-Wright-like inequalities ( http://arxiv.org/abs/2102.08020v5 )

ライセンス: Link先を確認
Cosme Louart and Romain Couillet(参考訳) m$ ランダムベクトル $Z_1,\ldots, Z_m$ 上の測度仮説の濃度から始めると、この記事は函数の濃度 $\phi(Z_1,\ldots, Z_m)$ を表現し、各変数上の $\phi$ の変動は、他の変数のノルム(あるいは半ノルム)の積に依存する($\phi$ が積であるように)。 この結果の重要性を、確率行列 $XDX^T$ とその分解剤 $Q = (I_p - \frac{1}{n}XDX^T)^{-1}$ の研究を通じて、ハンソン・ライト濃度の不等式を様々な一般化することによって説明する。

Starting from concentration of measure hypotheses on $m$ random vectors $Z_1,\ldots, Z_m$, this article provides an expression of the concentration of functionals $\phi(Z_1,\ldots, Z_m)$ where the variations of $\phi$ on each variable depend on the product of the norms (or semi-norms) of the other variables (as if $\phi$ were a product). We illustrate the importance of this result through various generalizations of the Hanson-Wright concentration inequality as well as through a study of the random matrix $XDX^T$ and its resolvent $Q = (I_p - \frac{1}{n}XDX^T)^{-1}$, where $X$ and $D$ are random, which have fundamental interest in statistical machine learning applications.
翻訳日:2023-06-28 01:53:09 公開日:2023-06-25
# 騒音ラベルによる自己教師付き学習と教師付き学習の組み合わせ

Combining Self-Supervised and Supervised Learning with Noisy Labels ( http://arxiv.org/abs/2011.08145v2 )

ライセンス: Link先を確認
Yongqi Zhang, Hui Zhang, Quanming Yao, Jun Wan(参考訳) 畳み込みニューラルネットワーク(CNN)は、視覚分類タスクにおいてユビキタスなノイズラベルに容易に適合するため、CNNに対して堅牢にトレーニングすることは大きな課題である。 この課題には様々な方法が提案されている。 しかし、いずれもCNNの表現と分類器学習の違いに注意を払っていない。 したがって、表現がより脆弱である一方で、分類器がノイズラベルに対してより堅牢であることに着想を得て、近年の自己教師付き表現学習(SSRL)技術の進歩により、ラベルなしでSSRLによる表現を得るためのCS$3$NLという新しい手法を設計し、その分類器を直接ノイズラベルで訓練する。 総合的な実験は、合成および実際のベンチマークデータセットの両方で実施される。 その結果,提案手法は,特に騒音レベルにおいて,最先端の手法を高いマージンで打ち負かすことができることがわかった。

Since convolutional neural networks (CNNs) can easily overfit noisy labels, which are ubiquitous in visual classification tasks, it has been a great challenge to train CNNs against them robustly. Various methods have been proposed for this challenge. However, none of them pay attention to the difference between representation and classifier learning of CNNs. Thus, inspired by the observation that classifier is more robust to noisy labels while representation is much more fragile, and by the recent advances of self-supervised representation learning (SSRL) technologies, we design a new method, i.e., CS$^3$NL, to obtain representation by SSRL without labels and train the classifier directly with noisy labels. Extensive experiments are performed on both synthetic and real benchmark datasets. Results demonstrate that the proposed method can beat the state-of-the-art ones by a large margin, especially under a high noisy level.
翻訳日:2023-06-28 01:52:00 公開日:2023-06-25
# ニューラルシンボリック学習システムに関する調査研究

A Survey on Neural-symbolic Learning Systems ( http://arxiv.org/abs/2111.08164v3 )

ライセンス: Link先を確認
Dongran Yu, Bo Yang, Dayou Liu, Hui Wang and Shirui Pan(参考訳) 近年,神経系は高い学習能力と優れた知覚知性を示している。 しかし、効果的な推論と認知能力が欠如していることが判明した。 一方、シンボリックシステムは例外的な認知知能を示すが、ニューラルネットワークと比較して学習能力に乏しい。 両方の方法論の利点と欠点を認識した理想的な解決策は、ニューラルネットワークとシンボリックシステムを組み合わせて、強力な知覚と認知を持つニューラルシンボリック学習システムを作成することである。 本研究の目的は, 課題, 方法, 応用, 今後の方向性の4つの異なる視点から, ニューラルシンボリック学習システムの進歩を調査することである。 この研究は、この新興分野を前進させ、研究者に包括的かつ総合的な概要を提供する。 この概要は、現在の最先端だけでなく、将来的な研究の道筋も明らかにする。

In recent years, neural systems have demonstrated highly effective learning ability and superior perception intelligence. However, they have been found to lack effective reasoning and cognitive ability. On the other hand, symbolic systems exhibit exceptional cognitive intelligence but suffer from poor learning capabilities when compared to neural systems. Recognizing the advantages and disadvantages of both methodologies, an ideal solution emerges: combining neural systems and symbolic systems to create neural-symbolic learning systems that possess powerful perception and cognition. The purpose of this paper is to survey the advancements in neural-symbolic learning systems from four distinct perspectives: challenges, methods, applications, and future directions. By doing so, this research aims to propel this emerging field forward, offering researchers a comprehensive and holistic overview. This overview will not only highlight the current state-of-the-art but also identify promising avenues for future research.
翻訳日:2023-06-28 01:48:37 公開日:2023-06-25
# 頑健な視覚質問応答のための対物サンプル合成と学習

Counterfactual Samples Synthesizing and Training for Robust Visual Question Answering ( http://arxiv.org/abs/2110.01013v2 )

ライセンス: Link先を確認
Long Chen, Yuhang Zheng, Yulei Niu, Hanwang Zhang, Jun Xiao(参考訳) 今日のVQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にあり、異なるQA分布を持つテストセットに一般化することができない。 これらの言語バイアスを軽減するため、近年のVQA研究は、ターゲットとするVQAモデルのトレーニングを規則化し、アウト・オブ・ディストリビューションテストのための診断ベンチマークで優位な性能を達成するための補助的な質問専用モデルを導入している。 しかし、複雑なモデル設計のため、これらのアンサンブルに基づく手法は理想的VQAモデルの2つの必要不可欠な特性を持つことができない。 1) 視覚的説明可能: モデルは意思決定を行う際に適切な視覚領域に依存するべきである。 2) 質問感応性: モデルは質問の言語的変化に敏感であるべきである。 そこで本研究では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。 CSSTでトレーニングした後、VQAモデルはすべての重要なオブジェクトと単語に集中せざるを得なくなり、視覚的に説明可能な能力と質問に敏感な能力の両方が大幅に改善される。 具体的には、CSSTは2つの部分からなる: 対実サンプル合成(CSS)と対実サンプル訓練(CST)。 cssは、質問中の画像や単語の重要なオブジェクトを慎重にマスキングし、疑似地上回答を割り当てることで、偽のサンプルを生成する。 cstは、両方の補完的なサンプルでvqaモデルを訓練するだけでなく、vqaモデルに元のサンプルと表面的に類似した反事実を区別するよう促す。 CSTトレーニングを容易にするために、VQAに対する教師付きコントラスト損失の2つのバリエーションを提案し、CSSに基づく効果的な正と負のサンプル選択機構を設計する。 大規模な実験はCSSTの有効性を示した。 特に、LMH+SARのモデル上に構築することで、OODベンチマークで記録破りのパフォーマンスを達成する。

Today's VQA models still tend to capture superficial linguistic correlations in the training set and fail to generalize to the test set with different QA distributions. To reduce these language biases, recent VQA works introduce an auxiliary question-only model to regularize the training of targeted VQA model, and achieve dominating performance on diagnostic benchmarks for out-of-distribution testing. However, due to complex model design, these ensemble-based methods are unable to equip themselves with two indispensable characteristics of an ideal VQA model: 1) Visual-explainable: The model should rely on the right visual regions when making decisions. 2) Question-sensitive: The model should be sensitive to the linguistic variations in questions. To this end, we propose a novel model-agnostic Counterfactual Samples Synthesizing and Training (CSST) strategy. After training with CSST, VQA models are forced to focus on all critical objects and words, which significantly improves both visual-explainable and question-sensitive abilities. Specifically, CSST is composed of two parts: Counterfactual Samples Synthesizing (CSS) and Counterfactual Samples Training (CST). CSS generates counterfactual samples by carefully masking critical objects in images or words in questions and assigning pseudo ground-truth answers. CST not only trains the VQA models with both complementary samples to predict respective ground-truth answers, but also urges the VQA models to further distinguish the original samples and superficially similar counterfactual ones. To facilitate the CST training, we propose two variants of supervised contrastive loss for VQA, and design an effective positive and negative sample selection mechanism based on CSS. Extensive experiments have shown the effectiveness of CSST. Particularly, by building on top of model LMH+SAR, we achieve record-breaking performance on all OOD benchmarks.
翻訳日:2023-06-28 01:46:52 公開日:2023-06-25
# 量子参照フレーム:パースペクティブニュートラル構造によるパースペクティブ依存記述の導出

Quantum reference frames: derivation of perspective-dependent descriptions via a perspective-neutral structure ( http://arxiv.org/abs/2109.01912v2 )

ライセンス: Link先を確認
Viktor Zelezny(参考訳) 標準量子力学では、参照フレームは抽象実体として扱われる。 それらは、システムの他の部分から切り離される理想化された無限大サブシステムと考えることができる。 しかし、本質的には、すべての参照フレームは量子力学の法則に従う有限質量系によって実現され、動的進化に含まれなければならない。 基本的な物理理論はこの事実を真剣に受け止めるべきである。 本稿では、量子参照フレームの観点から物理を記述するための対称性に着想を得たアプローチをさらに発展させる。 我々は、視点依存記述の幅広いクラスとそれらの間の変換を体系的に導出できる統一フレームワークを見出した。 3つの自由粒子の変換不変のおもちゃモデルを用いて、相対座標の導入が2つの非可換制約を持つハミルトン構造をもたらすことを発見した。 この構造は、すべてのオブザーバー・パースペクティブを一度に含むと言えるが、冗長性は直ちに操作の解釈を妨げる。 制約面上のdarboux座標により操作上有意義な遠近依存性記述が与えられ、基準フレーム変換が制約面の再パラメータ化に対応していることを示す。 我々は、古典理論に言及せずに、視点依存記述を導出し変更できる量子的視点中立構造を構築することによって結論づける。 物理的発見に加えて、この研究は第一級および第二級制約系とそれぞれの量子化過程の相互関係を照らす。

In standard quantum mechanics, reference frames are treated as abstract entities. We can think of them as idealized, infinite-mass subsystems which decouple from the rest of the system. In nature, however, all reference frames are realized through finite-mass systems that are subject to the laws of quantum mechanics and must be included in the dynamical evolution. A fundamental physical theory should take this fact seriously. In this paper, we further develop a symmetry-inspired approach to describe physics from the perspective of quantum reference frames. We find a unifying framework allowing us to systematically derive a broad class of perspective dependent descriptions and the transformations between them. Working with a translational-invariant toy model of three free particles, we discover that the introduction of relative coordinates leads to a Hamiltonian structure with two non-commuting constraints. This structure can be said to contain all observer-perspectives at once, while the redundancies prevent an immediate operational interpretation. We show that the operationally meaningful perspective dependent descriptions are given by Darboux coordinates on the constraint surface and that reference frame transformations correspond to reparametrizations of the constraint surface. We conclude by constructing a quantum perspective neutral structure, via which we can derive and change perspective dependent descriptions without referring to the classical theory. In addition to the physical findings, this work illuminates the interrelation of first and second class constrained systems and their respective quantization procedures.
翻訳日:2023-06-28 01:46:00 公開日:2023-06-25
# 近距離IDアルゴリズム

The Proximal ID Algorithm ( http://arxiv.org/abs/2108.06818v2 )

ライセンス: Link先を確認
Ilya Shpitser and Zach Wood-Doughty and Eric J. Tchetgen Tchetgen(参考訳) 観測データから有効な因果結論を確立するための基本的な障害である。 この障害に対処する2つの補完的なアプローチが開発されている: 器用変数やプロキシなどの仮設外部エイズ、あるいはIDアルゴリズムを用いて、グラフィカル因果モデルで符号化された全データ分布に対するマルコフ制限を用いて識別する。 本稿では,因果推論における前者および後者の手法を合成し,現在知られている多変量系の最も一般的な同定アルゴリズムである近位idアルゴリズムを導出する。 提案手法では,IDアルゴリズムが成功するすべてのケースにおいて,非パラメトリックな識別が可能であることに加えて,本手法ではプロキシを体系的に利用して,それ以外は識別を妨げていた未観測の共同創設者の存在を調整できる。 また,提案手法によって同定された因果パラメータに対する推定戦略のクラスを,特に重要なケースで概説する。 シミュレーション研究とデータ応用により,我々のアプローチを説明する。

Unobserved confounding is a fundamental obstacle to establishing valid causal conclusions from observational data. Two complementary types of approaches have been developed to address this obstacle: obtaining identification using fortuitous external aids, such as instrumental variables or proxies, or by means of the ID algorithm, using Markov restrictions on the full data distribution encoded in graphical causal models. In this paper we aim to develop a synthesis of the former and latter approaches to identification in causal inference to yield the most general identification algorithm in multivariate systems currently known -- the proximal ID algorithm. In addition to being able to obtain nonparametric identification in all cases where the ID algorithm succeeds, our approach allows us to systematically exploit proxies to adjust for the presence of unobserved confounders that would have otherwise prevented identification. In addition, we outline a class of estimation strategies for causal parameters identified by our method in an important special case. We illustrate our approach by simulation studies and a data application.
翻訳日:2023-06-28 01:45:37 公開日:2023-06-25
# ノード分類/回帰タスクにおけるGNNの近似能力について

On the approximation capability of GNNs in node classification/regression tasks ( http://arxiv.org/abs/2106.08992v5 )

ライセンス: Link先を確認
Giuseppe Alessio D'Inverno, Monica Bianchini, Maria Lucia Sampoli, Franco Scarselli(参考訳) グラフニューラルネットワーク(GNN)は、グラフ処理のための幅広い種類の接続モデルである。 近年の研究では、GNN はグラフ上の任意の関数を近似することができ、Weisfeiler--Lehman (WL) テストで定義されるグラフ上の同値関係を変調することができることが示されている。しかし、これらの結果はストーン-ワイエルシュトラスの定理(自然界に存在する)を用いて導出されたものであることと、ターゲット関数が近似される必要があると仮定しているためである。 さらに、現在のすべての結果はグラフ分類/回帰タスクに特化しており、GNNはグラフ全体に対して単一の出力を生成しなければならない一方で、各ノードに対して出力を返すノード分類/回帰問題は非常に一般的である。 本稿では,これらの制約を克服するGNNの近似能力を実証する代替手法を提案する。 実際、GNNは、ノード上の1-WL同値性を満たす任意の測定可能な関数を近似できるため、ノード分類/回帰タスクの確率の普遍近似であることを示す。 提案する理論的枠組みは, 汎用的不連続な対象関数の近似を可能にするとともに, 所望の近似に到達可能なGNNアーキテクチャも提案する。 さらに、所望の近似値を達成するのに必要なgnn層数、すなわち$r-1$、すなわち、ドメイン内のグラフのノード数が$r$である。

Graph Neural Networks (GNNs) are a broad class of connectionist models for graph processing. Recent studies have shown that GNNs can approximate any function on graphs, modulo the equivalence relation on graphs defined by the Weisfeiler--Lehman (WL) test. However, these results suffer from some limitations, both because they were derived using the Stone--Weierstrass theorem -- which is existential in nature, -- and because they assume that the target function to be approximated must be continuous. Furthermore, all current results are dedicated to graph classification/regression tasks, where the GNN must produce a single output for the whole graph, while also node classification/regression problems, in which an output is returned for each node, are very common. In this paper, we propose an alternative way to demonstrate the approximation capability of GNNs that overcomes these limitations. Indeed, we show that GNNs are universal approximators in probability for node classification/regression tasks, as they can approximate any measurable function that satisfies the 1--WL equivalence on nodes. The proposed theoretical framework allows the approximation of generic discontinuous target functions and also suggests the GNN architecture that can reach a desired approximation. In addition, we provide a bound on the number of the GNN layers required to achieve the desired degree of approximation, namely $2r-1$, where $r$ is the maximum number of nodes for the graphs in the domain.
翻訳日:2023-06-28 01:45:20 公開日:2023-06-25
# グラディエントフィールドでのMomentum Ascentによるポイントクラウドのデノーミング

Point Cloud Denoising via Momentum Ascent in Gradient Fields ( http://arxiv.org/abs/2202.10094v3 )

ライセンス: Link先を確認
Yaping Zhao, Haitian Zheng, Zhongrui Wang, Jiebo Luo, Edmund Y. Lam(参考訳) ポイントクラウドを特徴付けるために、従来の手法は幾何学的優先順位に大きく依存しており、ほとんどの学習ベースのアプローチは外れ値と詳細の喪失に苦しむ。 近年,ニューラルネットワークを用いて雑音の多い点雲から勾配場を推定し,推定した勾配に応じて各点の位置を改良する勾配法が提案されている。 しかし、予測された勾配は変動し、摂動と不安定な解と長い推測時間をもたらす可能性がある。 これらの問題に対処するために,前回の反復の情報を活用して点の軌跡を決定する運動量勾配上昇法を開発し,解の安定性を改善し,推定時間を短縮する。 実験により, 提案手法は, 様々な点群, ノイズタイプ, 騒音レベルを有する最先端手法よりも優れていた。 コードは、https://github.com/IndigoPurple/MAGで入手できる。

To achieve point cloud denoising, traditional methods heavily rely on geometric priors, and most learning-based approaches suffer from outliers and loss of details. Recently, the gradient-based method was proposed to estimate the gradient fields from the noisy point clouds using neural networks, and refine the position of each point according to the estimated gradient. However, the predicted gradient could fluctuate, leading to perturbed and unstable solutions, as well as a long inference time. To address these issues, we develop the momentum gradient ascent method that leverages the information of previous iterations in determining the trajectories of the points, thus improving the stability of the solution and reducing the inference time. Experiments demonstrate that the proposed method outperforms state-of-the-art approaches with a variety of point clouds, noise types, and noise levels. Code is available at: https://github.com/IndigoPurple/MAG
翻訳日:2023-06-28 01:37:16 公開日:2023-06-25
# 合成制御によるニューヨークのベイル改革が犯罪に与える影響の実証評価

An Empirical Evaluation of the Impact of New York's Bail Reform on Crime Using Synthetic Controls ( http://arxiv.org/abs/2111.08664v2 )

ライセンス: Link先を確認
Angela Zhou, Andrew Koo, Nathan Kallus, Rene Ropac, Richard Peterson, Stephen Koppel, Tiffany Bergin(参考訳) 我々は、ニューヨークの保釈改革が犯罪に与える影響を実証的に評価する。 ニューヨーク州のベイル除去法は2020年1月1日に発効し、ほとんどすべての軽犯罪と非暴力の重罪の被告に対する保釈金と裁判前拘留を廃止した。 改正後の総合犯罪率への影響を分析した結果,保釈改革と全般的抑止の理解が明らかになった。 本研究は,保釈改革の影響を比較検討するための合成制御分析を行う。 本研究では,暴行,盗難,強盗,強盗,薬物犯罪に対する介入後の犯罪変化を総合的に分析し,27大自治体の犯罪データからデータセットを構築した。 プレースボチェックやその他の堅牢性チェックを含む我々の発見は、暴行、盗難、薬物犯罪に対して、保釈金改革が犯罪に重大な影響を与えないことを示しています。

We conduct an empirical evaluation of the impact of New York's bail reform on crime. New York State's Bail Elimination Act went into effect on January 1, 2020, eliminating money bail and pretrial detention for nearly all misdemeanor and nonviolent felony defendants. Our analysis of effects on aggregate crime rates after the reform informs the understanding of bail reform and general deterrence. We conduct a synthetic control analysis for a comparative case study of impact of bail reform. We focus on synthetic control analysis of post-intervention changes in crime for assault, theft, burglary, robbery, and drug crimes, constructing a dataset from publicly reported crime data of 27 large municipalities. Our findings, including placebo checks and other robustness checks, show that for assault, theft, and drug crimes, there is no significant impact of bail reform on crime; for burglary and robbery, we similarly have null findings but the synthetic control is also more variable so these are deemed less conclusive.
翻訳日:2023-06-28 01:34:38 公開日:2023-06-25
# 学習ダイナミクスを用いた勾配に基づく軌道最適化

Gradient-Based Trajectory Optimization With Learned Dynamics ( http://arxiv.org/abs/2204.04558v3 )

ライセンス: Link先を確認
Bhavya Sukhija, Nathanael K\"ohler, Miguel Zamora, Simon Zimmermann, Sebastian Curi, Andreas Krause, Stelian Coros(参考訳) 近年,軌道最適化手法は現実世界のロボットに対して極めて高い性能を達成している。 これらの手法は力学の正確な解析モデルに大きく依存しているが、物理世界のいくつかの側面は限られた範囲でしか捉えられない。 もうひとつのアプローチは、機械学習技術を活用して、データからシステムの微分可能なダイナミクスモデルを学ぶことだ。 本研究では,ロボットシステムによる高ダイナミックかつ複雑なタスクを,正確な解析モデルがない場合に,軌道最適化とモデル学習を用いて行う。 ニューラルネットワークは、2つの異なるロボット上で25分間のインタラクションで収集されたデータから、非常に非線形な振る舞いを大規模地平線に対して正確にモデル化できることを示す。 (i)ボストン・ダイナミクス・スポットとan (ii)rc車。 さらに,勾配に基づく軌道最適化を行うために,ニューラルネットワークの勾配を用いる。 私たちのハードウェア実験では、学習したモデルはspotとradio- controlled (rc)の両方で複雑なダイナミクスを表現でき、軌道最適化法と組み合わせて優れた性能が得られることを実証した。

Trajectory optimization methods have achieved an exceptional level of performance on real-world robots in recent years. These methods heavily rely on accurate analytical models of the dynamics, yet some aspects of the physical world can only be captured to a limited extent. An alternative approach is to leverage machine learning techniques to learn a differentiable dynamics model of the system from data. In this work, we use trajectory optimization and model learning for performing highly dynamic and complex tasks with robotic systems in absence of accurate analytical models of the dynamics. We show that a neural network can model highly nonlinear behaviors accurately for large time horizons, from data collected in only 25 minutes of interactions on two distinct robots: (i) the Boston Dynamics Spot and an (ii) RC car. Furthermore, we use the gradients of the neural network to perform gradient-based trajectory optimization. In our hardware experiments, we demonstrate that our learned model can represent complex dynamics for both the Spot and Radio-controlled (RC) car, and gives good performance in combination with trajectory optimization methods.
翻訳日:2023-06-28 01:29:09 公開日:2023-06-25
# PDEを解くためのニューラルネットワークQ-ラーニング

Neural Q-learning for solving PDEs ( http://arxiv.org/abs/2203.17128v2 )

ライセンス: Link先を確認
Samuel N. Cohen and Deqing Jiang and Justin Sirignano(参考訳) 高次元偏微分方程式(PDE)を解くことは、科学計算における大きな課題である。 強化学習におけるq学習アルゴリズムを適用し,楕円型pdesの解法を新たに開発した。 我々のQ-PDEアルゴリズムはメッシュフリーであり、従って次元の呪いを克服する可能性がある。 ニューラル・タンジェント・カーネル(NTK)アプローチを用いて、Q-PDEアルゴリズムで訓練されたPDE解のニューラルネットワーク近似器が、無限次元常微分方程式(ODE)の軌道に、隠蔽単位$\rightarrow \infty$の個数として収束することを証明する。 NTK のスペクトルギャップが欠如しているにもかかわらず、単調な PDE に対して、無限次元ODE を満たす極限ニューラルネットワークは、トレーニング時間 $\rightarrow \infty$ として PDE の解に$L^2$ で収束することが証明される。 より一般的には、Q-PDEアルゴリズムのワイドネットワーク極限の任意の固定点がPDEの解であることを証明することができる(必ずしも単調な条件でではない)。 楕円型PDEに対するQ-PDEアルゴリズムの数値計算性能について検討した。

Solving high-dimensional partial differential equations (PDEs) is a major challenge in scientific computing. We develop a new numerical method for solving elliptic-type PDEs by adapting the Q-learning algorithm in reinforcement learning. Our "Q-PDE" algorithm is mesh-free and therefore has the potential to overcome the curse of dimensionality. Using a neural tangent kernel (NTK) approach, we prove that the neural network approximator for the PDE solution, trained with the Q-PDE algorithm, converges to the trajectory of an infinite-dimensional ordinary differential equation (ODE) as the number of hidden units $\rightarrow \infty$. For monotone PDE (i.e. those given by monotone operators, which may be nonlinear), despite the lack of a spectral gap in the NTK, we then prove that the limit neural network, which satisfies the infinite-dimensional ODE, converges in $L^2$ to the PDE solution as the training time $\rightarrow \infty$. More generally, we can prove that any fixed point of the wide-network limit for the Q-PDE algorithm is a solution of the PDE (not necessarily under the monotone condition). The numerical performance of the Q-PDE algorithm is studied for several elliptic PDEs.
翻訳日:2023-06-28 01:28:52 公開日:2023-06-25
# 信頼できるサーバを持たないプライベートな非凸フェデレーション学習

Private Non-Convex Federated Learning Without a Trusted Server ( http://arxiv.org/abs/2203.06735v3 )

ライセンス: Link先を確認
Andrew Lowy, Ali Ghafelebashi, Meisam Razaviyayn(参考訳) 非凸損失関数とサーバや他のサイロを信頼していない人々のデータを用いて、連邦学習(FL)、特にクロスサイロFLについて研究する。 この設定では、各サイロ(例えば病院)は、サーバまたは他のサイロが敵の盗聴者として機能しても、各個人のデータ(例えば患者の医療記録)のプライバシーを保護しなければならない。 この目的のために、レコード/itemレベルのdpを満たすためにサイロ〜$i$の通信を必要とする、インターサイロレコードレベル(isrl)ディファレンシャルプライバシ(dp)を考える。 本稿では,不均一(非i.i.d.)サイロデータとリプシッツ連続損失関数の2つのクラスを持つ fl に対する新しい isrl-dp アルゴリズムを提案する。 我々の結果とは対照的に、先行研究はリプシッツpl損失による制約のないプライベート最適化のみを考慮し、強凸問題や線形・ロジスティック回帰といった最も興味深いpl損失を除外した。 我々のアルゴリズムは、凸性やi.i.d.データを仮定することなく、isrl-dp flの最適強凸率(i.i.d.)をほぼ達成する。 第二に、非凸非スムース損失関数に対する最初のプライベートアルゴリズムを与える。 私たちのユーティリティ境界は、スムーズな損失のために最先端の境界をさらに改善します。 我々は上界を下界で補う。 さらに,より実用的な信頼条件下で,最先端の中央dpアルゴリズムを改良したshuffle dp (sdp) アルゴリズムを提供する。 数値実験の結果,プライバシレベルのベースラインよりも精度が高いことがわかった。 すべてのコードは、https://github.com/ghafeleb/Private-NonConvex-Federated-Learning-a-Trusted-Serverで公開されている。

We study federated learning (FL) -- especially cross-silo FL -- with non-convex loss functions and data from people who do not trust the server or other silos. In this setting, each silo (e.g. hospital) must protect the privacy of each person's data (e.g. patient's medical record), even if the server or other silos act as adversarial eavesdroppers. To that end, we consider inter-silo record-level (ISRL) differential privacy (DP), which requires silo~$i$'s communications to satisfy record/item-level DP. We propose novel ISRL-DP algorithms for FL with heterogeneous (non-i.i.d.) silo data and two classes of Lipschitz continuous loss functions: First, we consider losses satisfying the Proximal Polyak-Lojasiewicz (PL) inequality, which is an extension of the classical PL condition to the constrained setting. In contrast to our result, prior works only considered unconstrained private optimization with Lipschitz PL loss, which rules out most interesting PL losses such as strongly convex problems and linear/logistic regression. Our algorithms nearly attain the optimal strongly convex, homogeneous (i.i.d.) rate for ISRL-DP FL without assuming convexity or i.i.d. data. Second, we give the first private algorithms for non-convex non-smooth loss functions. Our utility bounds even improve on the state-of-the-art bounds for smooth losses. We complement our upper bounds with lower bounds. Additionally, we provide shuffle DP (SDP) algorithms that improve over the state-of-the-art central DP algorithms under more practical trust assumptions. Numerical experiments show that our algorithm has better accuracy than baselines for most privacy levels. All the codes are publicly available at: https://github.com/ghafeleb/Private-NonConvex-Federated-Learning-Without-a-Trusted-Server.
翻訳日:2023-06-28 01:27:08 公開日:2023-06-25
# 大規模コーパスの意味的類似性分析に関する認知的研究:トランスフォーマーによるアプローチ

A Cognitive Study on Semantic Similarity Analysis of Large Corpora: A Transformer-based Approach ( http://arxiv.org/abs/2207.11716v3 )

ライセンス: Link先を確認
Praneeth Nemani, Satyanarayana Vollala(参考訳) 意味的類似性分析とモデリングは、今日の多くの自然言語処理の先駆的応用において、基本的に賞賛されているタスクである。 シーケンシャルパターン認識の感覚により、RNNやLSTMのような多くのニューラルネットワークはセマンティック類似性モデリングにおいて満足な結果を得た。 しかし、これらの解は、非系列的な方法で情報を処理できないため、不適切なコンテキスト抽出につながるため、非効率であると考えられている。 トランスフォーマーは、非逐次データ処理や自己アテンションといった長所があるため、最先端アーキテクチャとして機能する。 本稿では,従来の手法とトランスフォーマー方式の両方を用いて,米国特許用語のPhrase Matching Datasetに対する意味的類似性解析とモデリングを行う。 提案手法は,4種類の復号化BERT-DeBERTaを試作し,K-Foldクロスバリデーションにより性能を向上する。 実験の結果,従来の手法と比較して手法の性能が向上し,平均ピアソン相関スコアは0.79。

Semantic similarity analysis and modeling is a fundamentally acclaimed task in many pioneering applications of natural language processing today. Owing to the sensation of sequential pattern recognition, many neural networks like RNNs and LSTMs have achieved satisfactory results in semantic similarity modeling. However, these solutions are considered inefficient due to their inability to process information in a non-sequential manner, thus leading to the improper extraction of context. Transformers function as the state-of-the-art architecture due to their advantages like non-sequential data processing and self-attention. In this paper, we perform semantic similarity analysis and modeling on the U.S Patent Phrase to Phrase Matching Dataset using both traditional and transformer-based techniques. We experiment upon four different variants of the Decoding Enhanced BERT - DeBERTa and enhance its performance by performing K-Fold Cross-Validation. The experimental results demonstrate our methodology's enhanced performance compared to traditional techniques, with an average Pearson correlation score of 0.79.
翻訳日:2023-06-28 01:09:02 公開日:2023-06-25
# 時空間規則性崩壊によるディープフェイクの検出

Detecting Deepfake by Creating Spatio-Temporal Regularity Disruption ( http://arxiv.org/abs/2207.10402v2 )

ライセンス: Link先を確認
Jiazhi Guan, Hang Zhou, Mingming Gong, Errui Ding, Jingdong Wang, Youjian Zhao(参考訳) ディープフェイク検出の進歩を奨励しているにもかかわらず、トレーニング中に探究された限られた偽の手がかりのため、見当たらない偽の型への一般化は重要な課題である。 対照的に、私たちはディープフェイクに共通する現象に気付き、フェイクビデオ作成は必然的にオリジナルビデオの統計的規則性を損なう。 そこで本研究では,実際の映像にない「規則性破壊」を識別することで,ディープフェイク検出の一般化を促進することを提案する。 具体的には、空間的・時間的特性を慎重に調べることで、擬似フェイク生成器を通じて実映像を破壊し、訓練用に幅広い擬似フェイク映像を作成することを提案する。 このようなプラクティスによって,偽ビデオを使用せずにディープフェイク検出を実現し,汎用性をシンプルかつ効率的な方法で改善することができる。 空間的および時間的混乱を協調的に捉えるために,我々は時間的空間的混乱を学習するための時空間的拡張ブロックを提案する。 包括的実験により,複数のデータセットにおいて優れた性能を示す。

Despite encouraging progress in deepfake detection, generalization to unseen forgery types remains a significant challenge due to the limited forgery clues explored during training. In contrast, we notice a common phenomenon in deepfake: fake video creation inevitably disrupts the statistical regularity in original videos. Inspired by this observation, we propose to boost the generalization of deepfake detection by distinguishing the "regularity disruption" that does not appear in real videos. Specifically, by carefully examining the spatial and temporal properties, we propose to disrupt a real video through a Pseudo-fake Generator and create a wide range of pseudo-fake videos for training. Such practice allows us to achieve deepfake detection without using fake videos and improves the generalization ability in a simple and efficient manner. To jointly capture the spatial and temporal disruptions, we propose a Spatio-Temporal Enhancement block to learn the regularity disruption across space and time on our self-created videos. Through comprehensive experiments, our method exhibits excellent performance on several datasets.
翻訳日:2023-06-28 01:08:28 公開日:2023-06-25
# 乱流をシミュレートするスペクトル法を正すための学習

Learning to correct spectral methods for simulating turbulent flows ( http://arxiv.org/abs/2207.00556v2 )

ライセンス: Link先を確認
Gideon Dresdner, Dmitrii Kochkov, Peter Norgaard, Leonardo Zepeda-N\'u\~nez, Jamie A. Smith, Michael P. Brenner, Stephan Hoyer(参考訳) 科学と工学の共通性にもかかわらず、一握りの偏微分方程式 (pdes) のみが解析的あるいは閉形式解を持つ。 これはPDEの数値シミュレーションに関する多くの古典的な研究を動機付けており、最近では機械学習(ML)を利用したデータ駆動技術の研究が盛んに行われている。 最近の研究は、古典的数値テクニックと機械学習のハイブリッドが、どちらのアプローチよりも大幅に改善できることを示している。 本研究は, 物理学に基づく事前計算を取り入れる際に, 数値スキームの選択が重要であることを示す。 フーリエ法に基づくスペクトル法は,PDEを滑らかで周期解でシミュレーションする他の数値手法よりも効率的であることが知られている。 具体的には、流体力学の3つの共通PDEのためのML拡張スペクトルソルバを開発する。 我々のモデルは、同じ解像度の標準スペクトルソルバよりも正確(2-4x)であるが、ニューラルネットワークコンポーネントのさらなる実行コストのため、全体の実行時間(~2x)が長い。 また、機械学習と数値手法を組み合わせてPDEを解くための重要な設計原則をいくつか紹介する。

Despite their ubiquity throughout science and engineering, only a handful of partial differential equations (PDEs) have analytical, or closed-form solutions. This motivates a vast amount of classical work on numerical simulation of PDEs and more recently, a whirlwind of research into data-driven techniques leveraging machine learning (ML). A recent line of work indicates that a hybrid of classical numerical techniques and machine learning can offer significant improvements over either approach alone. In this work, we show that the choice of the numerical scheme is crucial when incorporating physics-based priors. We build upon Fourier-based spectral methods, which are known to be more efficient than other numerical schemes for simulating PDEs with smooth and periodic solutions. Specifically, we develop ML-augmented spectral solvers for three common PDEs of fluid dynamics. Our models are more accurate (2-4x) than standard spectral solvers at the same resolution but have longer overall runtimes (~2x), due to the additional runtime cost of the neural network component. We also demonstrate a handful of key design principles for combining machine learning and numerical methods for solving PDEs.
翻訳日:2023-06-28 01:07:09 公開日:2023-06-25
# LViT:医療画像セグメンテーションにおける視覚変換器

LViT: Language meets Vision Transformer in Medical Image Segmentation ( http://arxiv.org/abs/2206.14718v3 )

ライセンス: Link先を確認
Zihan Li, Yunxiang Li, Qingde Li, Puyang Wang, Dazhou Guo, Le Lu, Dakai Jin, You Zhang, Qingqi Hong(参考訳) 深層学習は医用画像のセグメンテーションやその他の側面で広く用いられている。 しかし,既存の医用画像分割モデルの性能は,データアノテーションコストの制約により,十分な高品質のラベル付きデータを得るという課題により制限されている。 この制限を緩和するため,新たなテキスト拡張医療画像分割モデルLViT(Language meets Vision Transformer)を提案する。 LViTモデルでは,画像データの品質低下を補うために医療用テキストアノテーションが組み込まれている。 さらに、テキスト情報により、セミ教師付き学習における品質の向上した擬似ラベルを生成することができる。 また,ピクセルレベルアテンションモジュール (plam) が局所的な画像特徴を半教師付きlvit設定で保存するための指数的擬似ラベル反復機構 (epi) を提案する。 我々のモデルでは、LV損失はテキスト情報を直接利用してラベルなし画像のトレーニングを監督するように設計されている。 評価のために,X線とCT画像を含む3つのマルチモーダル医療セグメントデータセット(画像+テキスト)を構築した。 実験の結果,LViTは完全教師付きと半教師付きの両方でセグメンテーション性能に優れていた。 コードとデータセットはhttps://github.com/huanglizi/lvitで入手できる。

Deep learning has been widely used in medical image segmentation and other aspects. However, the performance of existing medical image segmentation models has been limited by the challenge of obtaining sufficient high-quality labeled data due to the prohibitive data annotation cost. To alleviate this limitation, we propose a new text-augmented medical image segmentation model LViT (Language meets Vision Transformer). In our LViT model, medical text annotation is incorporated to compensate for the quality deficiency in image data. In addition, the text information can guide to generate pseudo labels of improved quality in the semi-supervised learning. We also propose an Exponential Pseudo label Iteration mechanism (EPI) to help the Pixel-Level Attention Module (PLAM) preserve local image features in semi-supervised LViT setting. In our model, LV (Language-Vision) loss is designed to supervise the training of unlabeled images using text information directly. For evaluation, we construct three multimodal medical segmentation datasets (image + text) containing X-rays and CT images. Experimental results show that our proposed LViT has superior segmentation performance in both fully-supervised and semi-supervised setting. The code and datasets are available at https://github.com/HUANGLIZI/LViT.
翻訳日:2023-06-28 01:06:51 公開日:2023-06-25
# 知識埋め込みとしての言語モデル

Language Models as Knowledge Embeddings ( http://arxiv.org/abs/2206.12617v2 )

ライセンス: Link先を確認
Xintao Wang, Qianyu He, Jiaqing Liang and Yanghua Xiao(参考訳) 知識埋め込み(KE)は、実体と関係を連続ベクトル空間に埋め込むことによって知識グラフ(KG)を表す。 既存の手法は主に構造ベースまたは記述ベースである。 構造に基づく手法は、KGの固有の構造を保存する表現を学ぶ。 限られた構造情報を持つ実世界のkgsでは、豊富なロングテールの実体を表現できない。 記述ベース手法は、テキスト情報と言語モデルを活用する。 この方向の以前のアプローチは、構造ベースのアプローチをほとんど上回らず、高価な負のサンプリングや制限的な記述要求といった問題に苦しめられている。 本稿では,知識埋め込みを導出するために言語モデルを採用するlmkeを提案する。 比較学習フレームワークを用いて記述ベースのke学習を定式化し,学習と評価の効率を向上させる。 実験結果から, LMKEは, リンク予測と三重分類のKEベンチマークにおいて, 特にロングテールエンティティに対して, 最先端の性能を達成することが示された。

Knowledge embeddings (KE) represent a knowledge graph (KG) by embedding entities and relations into continuous vector spaces. Existing methods are mainly structure-based or description-based. Structure-based methods learn representations that preserve the inherent structure of KGs. They cannot well represent abundant long-tail entities in real-world KGs with limited structural information. Description-based methods leverage textual information and language models. Prior approaches in this direction barely outperform structure-based ones, and suffer from problems like expensive negative sampling and restrictive description demand. In this paper, we propose LMKE, which adopts Language Models to derive Knowledge Embeddings, aiming at both enriching representations of long-tail entities and solving problems of prior description-based methods. We formulate description-based KE learning with a contrastive learning framework to improve efficiency in training and evaluation. Experimental results show that LMKE achieves state-of-the-art performance on KE benchmarks of link prediction and triple classification, especially for long-tail entities.
翻訳日:2023-06-28 01:06:30 公開日:2023-06-25
# 機械学習におけるアレタリックおよびエピステミック不確かさの定量化:条件付きエントロピーと相互情報適切な対策か?

Quantifying Aleatoric and Epistemic Uncertainty in Machine Learning: Are Conditional Entropy and Mutual Information Appropriate Measures? ( http://arxiv.org/abs/2209.03302v2 )

ライセンス: Link先を確認
Lisa Wimmer and Yusuf Sale and Paul Hofman and Bern Bischl and Eyke H\"ullermeier(参考訳) コンディションエントロピーと相互情報の両面でのアレタリック不確実性の定量化は,近年,機械学習において極めて一般的になっている。 情報理論に根ざしたこれらの尺度の特性は一見すると魅力的に思えるが、その妥当性を疑問視する様々な不整合を識別する。 尺度自体に加えて,全不確かさの加法分解をアレエータ成分と認識成分に加法分解するという考え方を批判的に論じる。 コンピュータビジョンタスクの異なる実験は、我々の理論的発見を支援し、不確実性定量化における現在の実践に関する懸念を提起する。

The quantification of aleatoric and epistemic uncertainty in terms of conditional entropy and mutual information, respectively, has recently become quite common in machine learning. While the properties of these measures, which are rooted in information theory, seem appealing at first glance, we identify various incoherencies that call their appropriateness into question. In addition to the measures themselves, we critically discuss the idea of an additive decomposition of total uncertainty into its aleatoric and epistemic constituents. Experiments across different computer vision tasks support our theoretical findings and raise concerns about current practice in uncertainty quantification.
翻訳日:2023-06-28 00:58:42 公開日:2023-06-25
# 最適化型ニューラルネットワーク

Optimization-Informed Neural Networks ( http://arxiv.org/abs/2210.02113v3 )

ライセンス: Link先を確認
Dawen Wu, Abdel Lisser(参考訳) 制約付き非線形最適化問題 (cnlps) の解決は、経済学、計算機科学、工学など様々な分野において長年の課題である。 我々は,CNLPの解法として最適化インフォームドニューラルネットワーク(OINN)を提案する。 神経力学最適化法により、CNLPは、通常微分方程式(ODE)系を含む初期値問題(IVP)として初めて再帰される。 次に、ニューラルネットワークモデルがこのIPPの近似解として使用され、終端がCNLPの予測である。 本稿では,トレーニング中に最高の予測を行うようモデルに指示する新しいトレーニングアルゴリズムを提案する。 簡単に言うと、OINNはCNLPをニューラルネットワークトレーニング問題に変換する。 これにより、標準的な最適化解法や数値積分解法を使わずに、ディープラーニングインフラストラクチャのみに基づいてCNLPを解くことができる。 提案手法の有効性は, 変分不等式, 非線形相補問題, 標準cnlpなど, 古典的問題の集合を通して実証された。

Solving constrained nonlinear optimization problems (CNLPs) is a longstanding problem that arises in various fields, e.g., economics, computer science, and engineering. We propose optimization-informed neural networks (OINN), a deep learning approach to solve CNLPs. By neurodynamic optimization methods, a CNLP is first reformulated as an initial value problem (IVP) involving an ordinary differential equation (ODE) system. A neural network model is then used as an approximate solution for this IVP, with the endpoint being the prediction to the CNLP. We propose a novel training algorithm that directs the model to hold the best prediction during training. In a nutshell, OINN transforms a CNLP into a neural network training problem. By doing so, we can solve CNLPs based on deep learning infrastructure only, without using standard optimization solvers or numerical integration solvers. The effectiveness of the proposed approach is demonstrated through a collection of classical problems, e.g., variational inequalities, nonlinear complementary problems, and standard CNLPs.
翻訳日:2023-06-28 00:49:42 公開日:2023-06-25
# マルチレベルGANを用いた低レベル照明条件における熱赤外画像に基づく車両検出

Thermal infrared image based vehicle detection in low-level illumination conditions using multi-level GANs ( http://arxiv.org/abs/2209.09808v2 )

ライセンス: Link先を確認
Shivom Bhargava, Sanjita Prajapati, and Pranamesh Chakraborty(参考訳) 車両検出精度は良好な照度条件では極めて高いが、低照度条件では検出精度が低くなる。 車両ヘッドライトやテールライトからの低照度とグラアの複合効果により、車両検出の失敗は最先端の物体検出モデルにより起こりやすい。 しかし、熱赤外画像は照明変化に頑健であり、熱放射に基づいている。 近年,画像ドメイン転送タスクにおいてGAN(Generative Adversarial Networks)が広く利用されている。 最先端のGANモデルは、赤外線画像から日中RGB画像に変換することにより、夜間における車両検出精度の向上を図っている。 しかし、これらのモデルは夜間の赤外線画像とは異なるように見えるため、日中の条件と比較して夜間の条件下では過小評価されることが判明している。 そこで本研究では,日時と夜間の赤外画像の特徴分布ギャップを低減するために,GANモデルと2つの異なるレベルを組み合わせた3つのアプローチを提案することにより,この欠点を軽減することを試みた。 提案モデルの性能を最先端モデルと比較するための定量的解析は,最先端オブジェクト検出モデルを用いてモデルをテストすることによって行った。 定量的および定性的な分析により,提案モデルが夜間の車両検出において最先端のganモデルよりも優れており,提案モデルの有効性が示された。

Vehicle detection accuracy is fairly accurate in good-illumination conditions but susceptible to poor detection accuracy under low-light conditions. The combined effect of low-light and glare from vehicle headlight or tail-light results in misses in vehicle detection more likely by state-of-the-art object detection models. However, thermal infrared images are robust to illumination changes and are based on thermal radiation. Recently, Generative Adversarial Networks (GANs) have been extensively used in image domain transfer tasks. State-of-the-art GAN models have attempted to improve vehicle detection accuracy in night-time by converting infrared images to day-time RGB images. However, these models have been found to under-perform during night-time conditions compared to day-time conditions, as day-time infrared images looks different than night-time infrared images. Therefore, this study attempts to alleviate this shortcoming by proposing three different approaches based on combination of GAN models at two different levels that try to reduce the feature distribution gap between day-time and night-time infrared images. Quantitative analysis to compare the performance of the proposed models with the state-of-the-art models has been done by testing the models using state-of-the-art object detection models. Both the quantitative and qualitative analyses have shown that the proposed models outperform the state-of-the-art GAN models for vehicle detection in night-time conditions, showing the efficacy of the proposed models.
翻訳日:2023-06-28 00:48:23 公開日:2023-06-25
# r\'{e}nyiダイバージェンス深層相互学習

R\'{e}nyi Divergence Deep Mutual Learning ( http://arxiv.org/abs/2209.05732v5 )

ライセンス: Link先を確認
Weipeng Huang, Junjie Tao, Changbo Deng, Ming Fan, Wenqiang Wan, Qi Xiong, Guangyuan Piao(参考訳) 本稿では、単純で効果的な計算パラダイムであるDeep Mutual Learning (DML)を再考する。 我々は、より柔軟で調整可能なKL分散の代わりにR\'{e}nyi分散を用いて、バニラDMLを改善することを提案する。 この修正により、バニラDMLよりもパフォーマンスを継続的に改善できる。 提案したパラダイムの収束特性を理論的に解析し,非凸最適化タスクの最悪の場合において,定常学習率の確率勾配 Descent を $\mathcal{O}(1)$-bias に収束させることを示した。 つまり、学習は近くの最適な場所に到達するが、境界の範囲内を探索し続けることで、過度な適合を軽減できる。 最後に,広範な実験結果から,dmlとr\'{e}nyiの発散の利点が示され,モデルの一般化がさらに向上した。

This paper revisits Deep Mutual Learning (DML), a simple yet effective computing paradigm. We propose using R\'{e}nyi divergence instead of the KL divergence, which is more flexible and tunable, to improve vanilla DML. This modification is able to consistently improve performance over vanilla DML with limited additional complexity. The convergence properties of the proposed paradigm are analyzed theoretically, and Stochastic Gradient Descent with a constant learning rate is shown to converge with $\mathcal{O}(1)$-bias in the worst case scenario for nonconvex optimization tasks. That is, learning will reach nearby local optima but continue searching within a bounded scope, which may help mitigate overfitting. Finally, our extensive empirical results demonstrate the advantage of combining DML and R\'{e}nyi divergence, leading to further improvement in model generalization.
翻訳日:2023-06-28 00:47:24 公開日:2023-06-25
# スケールドガウス分布の非中心混合に対するリーマン最適化

Riemannian optimization for non-centered mixture of scaled Gaussian distributions ( http://arxiv.org/abs/2209.03315v2 )

ライセンス: Link先を確認
Antoine Collas, Arnaud Breloy, Chengfang Ren, Guillaume Ginolhac, Jean-Philippe Ovarlez(参考訳) 本稿では,スケールドガウス分布(nc-msg)の非中心混合の統計モデルについて述べる。 この分布に付随するフィッシャー・ラオ情報幾何を用いて、リーマン勾配降下アルゴリズムを導出する。 このアルゴリズムは2つの最小化問題に利用できる。 1つ目は、正規化負対数(NLL)の最小化である。 後者は、白いガウス分布とNC-MSGとのトレードオフである。 正規化の条件は、この問題に対する最小限の存在がサンプルに対する仮定なしで保証されるように与えられる。 次に、2つのNC−MSG間のKullback-Leibler(KL)ばらつきを導出する。 この分散により、NC-MSGの質量中心を計算するために最小化問題を定義できる。 提案したリーマン勾配降下アルゴリズムを利用して、この第2の最小化問題を解く。 数値実験により、2つの問題に対するリーマン勾配降下の優れた性能と速度が示された。 最後に、KLの発散とその関連する質量中心を利用して、最も近いセントロイド分類器を実装する。 大規模なデータセットであるBrizhcropsに応用されたこの分類器は、テストセットの剛性変換に対する堅牢性だけでなく、良好な精度を示す。

This paper studies the statistical model of the non-centered mixture of scaled Gaussian distributions (NC-MSG). Using the Fisher-Rao information geometry associated to this distribution, we derive a Riemannian gradient descent algorithm. This algorithm is leveraged for two minimization problems. The first one is the minimization of a regularized negative log-likelihood (NLL). The latter makes the trade-off between a white Gaussian distribution and the NC-MSG. Conditions on the regularization are given so that the existence of a minimum to this problem is guaranteed without assumptions on the samples. Then, the Kullback-Leibler (KL) divergence between two NC-MSG is derived. This divergence enables us to define a minimization problem to compute centers of mass of several NC-MSGs. The proposed Riemannian gradient descent algorithm is leveraged to solve this second minimization problem. Numerical experiments show the good performance and the speed of the Riemannian gradient descent on the two problems. Finally, a Nearest centroid classifier is implemented leveraging the KL divergence and its associated center of mass. Applied on the large scale dataset Breizhcrops, this classifier shows good accuracies as well as robustness to rigid transformations of the test set.
翻訳日:2023-06-28 00:46:47 公開日:2023-06-25
# 電気光学動的バックアクションによる超伝導マイクロ波空洞のコヒーレント光制御

Coherent optical control of a superconducting microwave cavity via electro-optical dynamical back-action ( http://arxiv.org/abs/2210.12443v2 )

ライセンス: Link先を確認
Liu Qiu, Rishabh Sahu, William Hease, Georg Arnold, Johannes M. Fink(参考訳) 最近の量子技術は、電磁波を用いた様々な顕微鏡系の精密量子制御を確立した。 低温キャビティ電気光学系に基づく界面は、量子状態におけるマイクロ波と光学場の直接的な相互作用により特に有望である。 超伝導マイクロ波回路の量子光学制御は、ポンプレーザーによって誘導される準粒子と同様に、電気光学的結合の弱いため、これまで禁止されてきた。 本稿では,ミリケルビン温度の多モード電気光学デバイスにおけるレーザパルスを用いた超伝導マイクロ波空洞のコヒーレント制御について報告する。 マイクロ波および光学モードの定常および瞬時応答は、コヒーレントな電気光学相互作用に対応し、予想外の時間遅延を伴う過剰なバックアクションの極小量しか示さない。 本実験では、マイクロ波場のスクイーズや量子非デモレーション測定から、絡み合い生成やハイブリッド量子ネットワークまで、幅広い応用が可能となる。

Recent quantum technologies have established precise quantum control of various microscopic systems using electromagnetic waves. Interfaces based on cryogenic cavity electro-optic systems are particularly promising, due to the direct interaction between microwave and optical fields in the quantum regime. Quantum optical control of superconducting microwave circuits has been precluded so far due to the weak electro-optical coupling as well as quasi-particles induced by the pump laser. Here we report the coherent control of a superconducting microwave cavity using laser pulses in a multimode electro-optical device at millikelvin temperature with near-unity cooperativity. Both the stationary and instantaneous responses of the microwave and optical modes comply with the coherent electro-optical interaction, and reveal only minuscule amount of excess back-action with an unanticipated time delay. Our demonstration enables wide ranges of applications beyond quantum transductions, from squeezing and quantum non-demolition measurements of microwave fields, to entanglement generation and hybrid quantum networks.
翻訳日:2023-06-28 00:38:53 公開日:2023-06-25
# ssit:糖尿病網膜症格付けのための自己教師付き画像トランスフォーマ

SSiT: Saliency-guided Self-supervised Image Transformer for Diabetic Retinopathy Grading ( http://arxiv.org/abs/2210.10969v3 )

ライセンス: Link先を確認
Yijin Huang, Junyan Lyu, Pujin Cheng, Roger Tam, Xiaoying Tang(参考訳) 自己教師付き学習(ssl)はラベルのない画像を利用して画像表現を学ぶために広く利用されている。 しかし, 医用画像解析分野では完全には研究されていない。 本研究では,糖尿病網膜症 (dr) に対するssit (saliency-guided self-supervised image transformer) を提案する。 我々は,自己教師付き事前学習をドメイン固有の事前知識で導くことを目標として,ssl にサリエンシーマップを導入する。 具体的には,(1) モーメントコントラストに基づくサラマンシー誘導型コントラスト学習を行い,(2) モーメント更新キーエンコーダの入力シーケンスから自明なパッチを除去するために,基金画像のサラマンシーマップを利用する。 したがって、キーエンコーダは、正常な領域に焦点を当てたターゲット表現を提供し、クエリエンコーダに正常な特徴をキャプチャするように指示する。 2) 問合せエンコーダを訓練し, 給与区分の予測を行い, 学習表現におけるきめ細かい情報の保存を奨励する。 4つの公開アクセス可能な基礎画像データセットで大規模な実験を行う。 提案したSSiTは、すべてのデータセットおよび様々な評価設定において、他の最先端SSLメソッドよりも大幅に優れ、SSiTから学習した表現の有効性を確立する。 ソースコードはhttps://github.com/yijinhuang/ssitで入手できる。

Self-supervised learning (SSL) has been widely applied to learn image representations through exploiting unlabeled images. However, it has not been fully explored in the medical image analysis field. In this work, we propose Saliency-guided Self-Supervised image Transformer (SSiT) for diabetic retinopathy (DR) grading from fundus images. We novelly introduce saliency maps into SSL, with a goal of guiding self-supervised pre-training with domain-specific prior knowledge. Specifically, two saliency-guided learning tasks are employed in SSiT: (1) We conduct saliency-guided contrastive learning based on the momentum contrast, wherein we utilize fundus images' saliency maps to remove trivial patches from the input sequences of the momentum-updated key encoder. And thus, the key encoder is constrained to provide target representations focusing on salient regions, guiding the query encoder to capture salient features. (2) We train the query encoder to predict the saliency segmentation, encouraging preservation of fine-grained information in the learned representations. Extensive experiments are conducted on four publicly-accessible fundus image datasets. The proposed SSiT significantly outperforms other representative state-of-the-art SSL methods on all datasets and under various evaluation settings, establishing the effectiveness of the learned representations from SSiT. The source code is available at https://github.com/YijinHuang/SSiT.
翻訳日:2023-06-28 00:38:37 公開日:2023-06-25
# 訳語 PaLM の試行:戦略と性能の評価

Prompting PaLM for Translation: Assessing Strategies and Performance ( http://arxiv.org/abs/2211.09102v3 )

ライセンス: Link先を確認
David Vilar, Markus Freitag, Colin Cherry, Jiaming Luo, Viresh Ratnakar, George Foster(参考訳) 多言語で訓練されているが、並列テキストではない大規模言語モデル(LLM)は、言語間の翻訳に顕著な能力を示している。 この能力は,これまで訓練されたLLMの中で最強の機械翻訳(MT)性能を示すパス言語モデル(PaLM)の詳細な研究で検証されている。 提案手法は,サンプル品質が最も重要な要因であることを結論づけて,翻訳例を選択するための様々な戦略を検討する。 最適化されたプロンプトを用いて、より最近のテストセット、現代のMTメトリクス、人的評価でPaLMのMT能力に関する以前の評価を再考し、その性能は印象的ながら、最先端の監視システムよりも遅れていることを発見した。 そこで我々は,PaLMのMT出力の分析を行い,今後の成果と今後の課題を明らかにした。

Large language models (LLMs) that have been trained on multilingual but not parallel text exhibit a remarkable ability to translate between languages. We probe this ability in an in-depth study of the pathways language model (PaLM), which has demonstrated the strongest machine translation (MT) performance among similarly-trained LLMs to date. We investigate various strategies for choosing translation examples for few-shot prompting, concluding that example quality is the most important factor. Using optimized prompts, we revisit previous assessments of PaLM's MT capabilities with more recent test sets, modern MT metrics, and human evaluation, and find that its performance, while impressive, still lags that of state-of-the-art supervised systems. We conclude by providing an analysis of PaLM's MT output which reveals some interesting properties and prospects for future work.
翻訳日:2023-06-28 00:30:20 公開日:2023-06-25
# 推定確率の単語理解のためのニューラルネットワークモデルの提案

Probing neural language models for understanding of words of estimative probability ( http://arxiv.org/abs/2211.03358v2 )

ライセンス: Link先を確認
Damien Sileo and Marie-Francine Moens(参考訳) 推定確率 (etimative probability, wep) は、ある言明の正当性を表す表現である(おそらく、おそらく、疑わしい、あり得ない、あり得ない、あり得ない、不可能...)。 複数の調査では、数値確率レベルをWEPに割り当てる際の人間評価者の合意が示されている。 例えば、Fagen-Ulmschneider (2015) の調査では、0.90+-0.08と高い確率で一致している。 本研究では,ニューラルネットワーク処理モデルを用いて,各WEPに関連付けられた合意確率レベルを計測する。 まず、UNLIデータセット(Chen et al., 2020)を用いて、前提条件と仮説を認識された共同確率pに関連付け、例えば「[PREMISE][WEP], [HYPOTHESIS]」などのプロンプトを構築し、WEP合意確率レベルがpに近いかどうかを言語モデルが予測できるかどうかを評価する。 次に,WEP を用いた確率論的推論のデータセットを構築し,WEP 合成で言語モデルが推論できるかどうかを検証する。 eventa]はありそうにない、[eventb]は不可能”と促されたとき、因果言語モデルは[eventa&b]がありそうなことを表現すべきではありません。 両タスクは、既成の英語モデルでは未解決であるが、微調整は伝達可能な改善をもたらす。

Words of estimative probability (WEP) are expressions of a statement's plausibility (probably, maybe, likely, doubt, likely, unlikely, impossible...). Multiple surveys demonstrate the agreement of human evaluators when assigning numerical probability levels to WEP. For example, highly likely corresponds to a median chance of 0.90+-0.08 in Fagen-Ulmschneider (2015)'s survey. In this work, we measure the ability of neural language processing models to capture the consensual probability level associated to each WEP. Firstly, we use the UNLI dataset (Chen et al., 2020) which associates premises and hypotheses with their perceived joint probability p, to construct prompts, e.g. "[PREMISE]. [WEP], [HYPOTHESIS]." and assess whether language models can predict whether the WEP consensual probability level is close to p. Secondly, we construct a dataset of WEP-based probabilistic reasoning, to test whether language models can reason with WEP compositions. When prompted "[EVENTA] is likely. [EVENTB] is impossible.", a causal language model should not express that [EVENTA&B] is likely. We show that both tasks are unsolved by off-the-shelf English language models, but that fine-tuning leads to transferable improvement.
翻訳日:2023-06-28 00:28:58 公開日:2023-06-25
# ディック超放射能は近傍近傍の相互作用を必要とする

Dicke superradiance requires interactions beyond nearest-neighbors ( http://arxiv.org/abs/2211.00668v3 )

ライセンス: Link先を確認
Wai-Keong Mok, Ana Asenjo-Garcia, Tze Chien Sum, Leong-Chuan Kwek(参考訳) 光子を媒介とするエミッタの励起アンサンブル内の相互作用はディック超放射能を生じさせ、発光速度は大幅に向上し、短時間で高強度バーストとして現れる。 超ラジアントバーストは、エミッター間の長距離相互作用を持つ系で一般的に観測されるが、最小相互作用範囲は未知である。 そこで, 補助ハミルトニアンのスペクトル半径を上限にすることで, 最大放射率を制限する新しい理論的手法を提案する。 このツールを用いて、任意の順序列に対して、すべての次元において最も近い隣り合う相互作用しか持たないことを証明する。 ディック超放射能は、次のアネレスト-隣の相互作用を最小限に含める必要があることを示す。 指数関数的に崩壊する相互作用では、臨界カップリングは全ての次元のエミッターの数とは漸近的に独立しており、その結果、集合的な強化がデコヒーレンス効果とバランスをとるしきい値相互作用範囲を定義する。 本研究は,多体量子系における集団崩壊の理解と,エネルギー収穫や量子センシングなどの応用のための物理系における超ラジアント放出の設計に関する重要な物理知見を提供する。

Photon-mediated interactions within an excited ensemble of emitters can result in Dicke superradiance, where the emission rate is greatly enhanced, manifesting as a high-intensity burst at short times. The superradiant burst is most commonly observed in systems with long-range interactions between the emitters, although the minimal interaction range remains unknown. Here, we put forward a new theoretical method to bound the maximum emission rate by upper bounding the spectral radius of an auxiliary Hamiltonian. We harness this tool to prove that for an arbitrary ordered array with only nearest-neighbor interactions in all dimensions, a superradiant burst is not physically observable. We show that Dicke superradiance requires minimally the inclusion of next-nearest-neighbor interactions. For exponentially decaying interactions, the critical coupling is found to be asymptotically independent of the number of emitters in all dimensions, thereby defining the threshold interaction range where the collective enhancement balances out the decoherence effects. Our findings provide key physical insights to the understanding of collective decay in many-body quantum systems, and the designing of superradiant emission in physical systems for applications such as energy harvesting and quantum sensing.
翻訳日:2023-06-28 00:27:44 公開日:2023-06-25
# ネットワーク上の大規模多重テストについて:漸近的アプローチ

On Large-Scale Multiple Testing Over Networks: An Asymptotic Approach ( http://arxiv.org/abs/2211.16059v3 )

ライセンス: Link先を確認
Mehrdad Pournaderi and Yu Xiang(参考訳) この研究は、ネットワーク上の大規模多重テストのための通信効率と計算効率の手法の開発に関係しており、多くの実用的応用に注目されている。 我々は漸近的なアプローチを取り、分散設定に合わせた比例マッチングと欲欲集約という2つの方法を提案する。 比例マッチング法はグローバルbh性能を達成するが、真のヌル仮説の(推定された)比率と各ノードのp値の数のワンショット通信のみを必要とする。 漸近最適パワーに焦点をあてることで、漸近最適解の明示的な特徴づけを提供することで、BH手順を超えていく。 これにより、各ノードの最適拒絶領域を効果的に近似するグリーディアグリゲーション法が導かれ、計算効率はグリーディ型アプローチから自然にもたらされる。 さらに,両手法とも,FDRとパワーの両面での収束率を示す。 理論的な知見を裏付けるために, 様々な難解な設定に関する広範な数値結果を提供する。

This work concerns developing communication- and computation-efficient methods for large-scale multiple testing over networks, which is of interest to many practical applications. We take an asymptotic approach and propose two methods, proportion-matching and greedy aggregation, tailored to distributed settings. The proportion-matching method achieves the global BH performance yet only requires a one-shot communication of the (estimated) proportion of true null hypotheses as well as the number of p-values at each node. By focusing on the asymptotic optimal power, we go beyond the BH procedure by providing an explicit characterization of the asymptotic optimal solution. This leads to the greedy aggregation method that effectively approximates the optimal rejection regions at each node, while computation efficiency comes from the greedy-type approach naturally. Moreover, for both methods, we provide the rate of convergence for both the FDR and power. Extensive numerical results over a variety of challenging settings are provided to support our theoretical findings.
翻訳日:2023-06-28 00:17:35 公開日:2023-06-25
# 逆可解性とセキュリティ : フェデレーション学習への応用

Inverse Solvability and Security with Applications to Federated Learning ( http://arxiv.org/abs/2211.14115v3 )

ライセンス: Link先を確認
Tomasz Piotrowski, Matthias Frey, Renato L.G. Cavalcante, Rafail Ismayilov(参考訳) 本稿では,一般線形フォワードモデルにおける逆可解性と安全性の概念を紹介し,連体学習で用いられるモデルに適用する方法を示す。 本稿では,本論文で定義した逆可解性とセキュリティが異なるようなモデルの例を示す。 また,フェデレート学習の繰り返しに参加する多数のユーザが,解答可能性とセキュリティを高めるためにどのように活用できるかを示す。 最後に、非線形ケースを含む提示概念の拡張について論じる。

We introduce the concepts of inverse solvability and security for a generic linear forward model and demonstrate how they can be applied to models used in federated learning. We provide examples of such models which differ in the resulting inverse solvability and security as defined in this paper. We also show how the large number of users participating in a given iteration of federated learning can be leveraged to increase both solvability and security. Finally, we discuss possible extensions of the presented concepts including the nonlinear case.
翻訳日:2023-06-28 00:17:08 公開日:2023-06-25
# ロバストicp初期化へのアプローチ

An approach to robust ICP initialization ( http://arxiv.org/abs/2212.05332v4 )

ライセンス: Link先を確認
Alexander Kolpakov, Michael Werman(参考訳) 本稿では,厳密な変換に伴う乱れのない点群に対応するため,ICPアルゴリズムを初期化する手法を提案する。 この方法は、点の共分散行列で定義される楕円体をマッチングし、有限反射群の要素によって異なる様々な主半軸マッチングをテストする。 ノイズに対するアプローチのロバスト性の境界を導出し,理論的な知見を数値実験により検証した。

In this note, we propose an approach to initialize the Iterative Closest Point (ICP) algorithm to match unlabelled point clouds related by rigid transformations. The method is based on matching the ellipsoids defined by the points' covariance matrices and then testing the various principal half-axes matchings that differ by elements of a finite reflection group. We derive bounds on the robustness of our approach to noise and numerical experiments confirm our theoretical findings.
翻訳日:2023-06-28 00:08:08 公開日:2023-06-25
# ピアツーピアフェデレーション学習におけるバックドアアタック

Backdoor Attacks in Peer-to-Peer Federated Learning ( http://arxiv.org/abs/2301.09732v3 )

ライセンス: Link先を確認
Gokberk Yar, Simona Boboila, Cristina Nita-Rotaru, Alina Oprea(参考訳) ほとんどの機械学習アプリケーションは、集中型学習プロセスに依存しており、トレーニングデータセットが露出するリスクがある。 フェデレーション学習(FL)は、これらのプライバシーリスクをある程度軽減するが、共有グローバルモデルのトレーニングには信頼できる集約サーバに依存している。 近年,ピアツーピアフェデレートラーニング(P2PFL)に基づく分散学習アーキテクチャが,プライバシと信頼性の両面で優位性を提供している。 それでも、訓練中の毒殺に対する耐性は調査されていない。 本稿では,構造的グラフ特性を利用して悪意のあるノードを選択し,ステルス性を維持しながら高い攻撃成功を達成する,p2pflの新しいバックドア攻撃を提案する。 我々は,複数のグラフトポロジ,ネットワークの敵視性の制限,非iidデータのクライアントなど,様々な現実的条件下で攻撃を評価する。 最後に、FLから適応した既存の防御の限界を示し、モデル精度に影響を与えることなく、バックドア攻撃を軽減できる新しい防御を設計する。

Most machine learning applications rely on centralized learning processes, opening up the risk of exposure of their training datasets. While federated learning (FL) mitigates to some extent these privacy risks, it relies on a trusted aggregation server for training a shared global model. Recently, new distributed learning architectures based on Peer-to-Peer Federated Learning (P2PFL) offer advantages in terms of both privacy and reliability. Still, their resilience to poisoning attacks during training has not been investigated. In this paper, we propose new backdoor attacks for P2PFL that leverage structural graph properties to select the malicious nodes, and achieve high attack success, while remaining stealthy. We evaluate our attacks under various realistic conditions, including multiple graph topologies, limited adversarial visibility of the network, and clients with non-IID data. Finally, we show the limitations of existing defenses adapted from FL and design a new defense that successfully mitigates the backdoor attacks, without an impact on model accuracy.
翻訳日:2023-06-27 23:59:51 公開日:2023-06-25
# 置換対称性原理を超えたボソニック抑制法則の家族

Families of bosonic suppression laws beyond the permutation symmetry principle ( http://arxiv.org/abs/2301.02192v3 )

ライセンス: Link先を確認
Matheus Eiji Ohno Bezerra and Valery Shchesnovich(参考訳) 入力におけるフォック状態を持つ多光子干渉、いわゆる香港・ウー・マンデルディップを一般化するゼロ伝達則における量子振幅の正確なキャンセルは、量子情報と計算において有用なツールである。 最近、全てのボソニック抑制法則は入力量子状態と干渉計のユニタリ行列の共通の置換対称性から従うことが示唆された。 フォック状態の干渉に対する再帰関係を用いることで、置換対称性の原理では説明できないビームスプリッターとトリッターの抑制則が豊富に存在することが分かる。 以上の結果から,ユニタリマルチポート上のフォック状態と干渉すると,非対称ユニタリマルチポート上においても任意のボソン総数に対する抑圧則が全族存在することが明らかとなった。

Exact cancellation of quantum amplitudes in multiphoton interferences with Fock states at input, the so-called suppression or zero transmission laws generalizing the Hong-Ou-Mandel dip, are useful tool in quantum information and computation. It was recently suggested that all bosonic suppression laws follow from a common permutation symmetry in the input quantum state and the unitary matrix of interferometer. By using the recurrence relations for interference of Fock states, we find a wealth of suppression laws on the beamsplitter and tritter which are not explained by the permutation symmetry principle. Our results reveal that in interference with Fock states on unitary multiports there are whole families of suppression laws for arbitrary total number of bosons even on asymmetric unitary multiports, beyond the previously formulated permutation symmetry principle.
翻訳日:2023-06-27 23:58:02 公開日:2023-06-25
# サブピクセルサンプリング再構成を用いた高品質リアルタイムレンダリング

High-Quality Real-Time Rendering Using Subpixel Sampling Reconstruction ( http://arxiv.org/abs/2301.01036v2 )

ライセンス: Link先を確認
Boyu Zhang, Hongliang Yuan, Mingyan Zhu, Ligang Liu, Jue Wang(参考訳) リアルタイムアプリケーションのために高品質でリアルなレンダリング画像を生成するには、一般的に、サンプル毎ピクセル(spp)のトレースと、結果の低spp画像に対するディープラーニングベースのアプローチが必要となる。 既存のデノナイジング手法は,物理ベースサンプリングとネットワーク推定時間コストのため,高解像度のリアルタイム性能を実現できていない。 本稿では,サンプリング処理を高速化する新しいモンテカルロサンプリング戦略と,それに対応するデノイザーであるサブピクセルサンプリング再構成(ssr)を提案し,高品質画像を得る。 広汎な実験により,本手法は,2K解像度でのリアルタイムレンダリング機能を実現し,品質を劣化させる従来の手法よりも大幅に向上し,全体の時間コストを低減した。

Generating high-quality, realistic rendering images for real-time applications generally requires tracing a few samples-per-pixel (spp) and using deep learning-based approaches to denoise the resulting low-spp images. Existing denoising methods have yet to achieve real-time performance at high resolutions due to the physically-based sampling and network inference time costs. In this paper, we propose a novel Monte Carlo sampling strategy to accelerate the sampling process and a corresponding denoiser, subpixel sampling reconstruction (SSR), to obtain high-quality images. Extensive experiments demonstrate that our method significantly outperforms previous approaches in denoising quality and reduces overall time costs, enabling real-time rendering capabilities at 2K resolution.
翻訳日:2023-06-27 23:56:57 公開日:2023-06-25
# グローバルクエンチ後の3部情報の普遍性:(一般化された)量子xyモデル

Universality in the tripartite information after global quenches: (generalised) quantum XY models ( http://arxiv.org/abs/2302.01322v2 )

ライセンス: Link先を確認
Vanja Mari\'c and Maurizio Fagotti(参考訳) 一様状態と二成分状態の両方の非相互作用スピン鎖のグローバルクエンチ後に出現する定常状態の3つの隣接サブシステムのうち、r\'enyi-$\alpha$三成分情報$i_3^{(\alpha)}$を考える。 i_3^{(\alpha)}$ が無限長の極限でも 0 に残らないような設定を同定し、ラダー上の自由フェルミオン場に関する有効な量子場理論記述を開発する。 計算を二重連結領域に対する分別定数行列を持つリーマン・ヒルベルト問題に写像する。 我々は、$\alpha=2$の明示的な解と$\alpha>2$の暗黙の解を見つける。 後者の場合、急速に収束する摂動理論を開発し、精度に優れた$i_3^{(\alpha)}$を近似する解析式を導出する。

We consider the R\'enyi-$\alpha$ tripartite information $I_3^{(\alpha)}$ of three adjacent subsystems in the stationary state emerging after global quenches in noninteracting spin chains from both homogeneous and bipartite states. We identify settings in which $I_3^{(\alpha)}$ remains nonzero also in the limit of infinite lengths and develop an effective quantum field theory description of free fermionic fields on a ladder. We map the calculation into a Riemann-Hilbert problem with a piecewise constant matrix for a doubly connected domain. We find an explicit solution for $\alpha=2$ and an implicit one for $\alpha>2$. In the latter case, we develop a rapidly convergent perturbation theory that we use to derive analytic formulae approximating $I_3^{(\alpha)}$ with outstanding accuracy.
翻訳日:2023-06-27 23:50:21 公開日:2023-06-25
# NP-Match:半教師付き学習のための新しい確率モデルを目指して

NP-Match: Towards a New Probabilistic Model for Semi-Supervised Learning ( http://arxiv.org/abs/2301.13569v2 )

ライセンス: Link先を確認
Jianfeng Wang, Xiaolin Hu and Thomas Lukasiewicz(参考訳) 半教師付き学習(SSL)は近年広く研究されており、ラベル付きデータへの依存を減らすためにラベル付きデータを活用する効果的な方法である。 本研究では,ニューラルネットワーク(NP)を半教師付き画像分類タスクに調整し,NP-Matchと呼ばれる新しい手法を提案する。 NP-Matchは2つの理由でこのタスクに適している。 まず、NP-Matchは、予測を行う際のデータポイントを暗黙的に比較し、その結果、ラベルのない各データポイントの予測は、類似したラベル付きデータポイントに影響され、擬似ラベルの品質が向上する。 第二に、NP-Matchは、信頼できる擬似ラベルを持つ未ラベルのサンプルを選択するツールとして使用できる不確実性を推定することができる。 モンテカルロ(MC)のドロップアウトで実装された不確実性ベースのSSL手法と比較して、NP-Matchは計算オーバーヘッドがはるかに少ない不確実性を推定する。 3つの半教師付き画像分類設定、すなわち標準半教師付き画像分類、不均衡半教師付き画像分類、多ラベル半教師付き画像分類、npマッチングが最先端画像分類(sota)アプローチに匹敵する5つの公開データセットについて広範な実験を行った。 コードはhttps://github.com/Jianf-Wang/NP-Matchにある。

Semi-supervised learning (SSL) has been widely explored in recent years, and it is an effective way of leveraging unlabeled data to reduce the reliance on labeled data. In this work, we adjust neural processes (NPs) to the semi-supervised image classification task, resulting in a new method named NP-Match. NP-Match is suited to this task for two reasons. Firstly, NP-Match implicitly compares data points when making predictions, and as a result, the prediction of each unlabeled data point is affected by the labeled data points that are similar to it, which improves the quality of pseudo-labels. Secondly, NP-Match is able to estimate uncertainty that can be used as a tool for selecting unlabeled samples with reliable pseudo-labels. Compared with uncertainty-based SSL methods implemented with Monte-Carlo (MC) dropout, NP-Match estimates uncertainty with much less computational overhead, which can save time at both the training and the testing phases. We conducted extensive experiments on five public datasets under three semi-supervised image classification settings, namely, the standard semi-supervised image classification, the imbalanced semi-supervised image classification, and the multi-label semi-supervised image classification, and NP-Match outperforms state-of-the-art (SOTA) approaches or achieves competitive results on them, which shows the effectiveness of NP-Match and its potential for SSL. The codes are at https://github.com/Jianf-Wang/NP-Match
翻訳日:2023-06-27 23:49:16 公開日:2023-06-25
# 逆攻撃性とロバストサンプルの同定

Identifying Adversarially Attackable and Robust Samples ( http://arxiv.org/abs/2301.12896v3 )

ライセンス: Link先を確認
Vyas Raina and Mark Gales(参考訳) adversarial attackは、ディープラーニングモデルのアウトプットに大きな、望ましくない変更を引き起こす入力サンプルに、小さな、不可避な摂動を挿入する。 敵意攻撃の生成や防衛システム構築に関する広範な研究にもかかわらず、入力データの観点からの敵意攻撃の理解に関する研究は限られている。 本研究は, 対人攻撃(攻撃可能なサンプル)に最も影響を受けやすいサンプルを同定し, 逆に最も感受性の低いサンプルを同定することを目的とした, サンプル攻撃可能性の概念を紹介する。 本研究では,未知のターゲットモデルに対する未知のデータセットにおいて,逆攻撃可能で頑健なサンプルを識別するディープラーニングベースの検出器を提案する。 標準画像分類データセットの実験により、様々なアーキテクチャにおける深層攻撃性検知器の可搬性を評価することができる。 深部攻撃性検知器は、攻撃性/破壊性サンプルを特定するための単純なモデル不確実性に基づく測定よりも優れていた。 これは、不確実性が決定境界までのサンプル距離を測定するための不適切なプロキシであることを示唆している。 逆攻撃理論の理解を深めることに加えて,逆攻撃可能で頑健なサンプルを識別する能力は,サンプル選択タスクの効率向上に寄与することが判明した。

Adversarial attacks insert small, imperceptible perturbations to input samples that cause large, undesired changes to the output of deep learning models. Despite extensive research on generating adversarial attacks and building defense systems, there has been limited research on understanding adversarial attacks from an input-data perspective. This work introduces the notion of sample attackability, where we aim to identify samples that are most susceptible to adversarial attacks (attackable samples) and conversely also identify the least susceptible samples (robust samples). We propose a deep-learning-based detector to identify the adversarially attackable and robust samples in an unseen dataset for an unseen target model. Experiments on standard image classification datasets enables us to assess the portability of the deep attackability detector across a range of architectures. We find that the deep attackability detector performs better than simple model uncertainty-based measures for identifying the attackable/robust samples. This suggests that uncertainty is an inadequate proxy for measuring sample distance to a decision boundary. In addition to better understanding adversarial attack theory, it is found that the ability to identify the adversarially attackable and robust samples has implications for improving the efficiency of sample-selection tasks.
翻訳日:2023-06-27 23:48:48 公開日:2023-06-25
# 不均一因果グラフにおける不均一処理効果について

On Heterogeneous Treatment Effects in Heterogeneous Causal Graphs ( http://arxiv.org/abs/2301.12383v2 )

ライセンス: Link先を確認
Richard A Watson, Hengrui Cai, Xinming An, Samuel McLean, Rui Song(参考訳) 異種性と共生性は、様々な医療問題にかかわる2つの課題であり、基礎となる神経生物学的メカニズムの効果的な治療と理解に関する研究を著しく妨げている。 統計学的手法の欠如により, グラフィカルな文脈におけるヘテロジニアス因果効果(HCE)を調査する研究はほとんど行われていない。 この不均一性を特徴付けるために,我々はまず,共起的相互作用と複数の仲介者による因果的グラフィカルモデルを一般化し,異種因果グラフ(hcgs)の概念化を行った。 このような治療と相互作用を持つ共同創設者はモデレーターとして知られている。 これにより、異なるモデレーターが与えられたHCGを柔軟に生成し、その結果に対する治療または潜在的なメディエータからHCEを明示的に特徴付けることができる。 我々はHCEの理論形式を確立し、線形モデルと非線形モデルの両方においてそれらの性質を個々のレベルで導出する。 複雑なHCGとHCEを信頼区間で推定するインタラクティブな構造学習法を開発した。 本手法は広範囲なシミュレーションにより実証的に正当化され, 外傷被害者に対する精神疾患の因果関係を探究し, その実用性を示した。

Heterogeneity and comorbidity are two interwoven challenges associated with various healthcare problems that greatly hampered research on developing effective treatment and understanding of the underlying neurobiological mechanism. Very few studies have been conducted to investigate heterogeneous causal effects (HCEs) in graphical contexts due to the lack of statistical methods. To characterize this heterogeneity, we first conceptualize heterogeneous causal graphs (HCGs) by generalizing the causal graphical model with confounder-based interactions and multiple mediators. Such confounders with an interaction with the treatment are known as moderators. This allows us to flexibly produce HCGs given different moderators and explicitly characterize HCEs from the treatment or potential mediators on the outcome. We establish the theoretical forms of HCEs and derive their properties at the individual level in both linear and nonlinear models. An interactive structural learning is developed to estimate the complex HCGs and HCEs with confidence intervals provided. Our method is empirically justified by extensive simulations and its practical usefulness is illustrated by exploring causality among psychiatric disorders for trauma survivors.
翻訳日:2023-06-27 23:48:26 公開日:2023-06-25
# 確率的生成フローネットワーク

Stochastic Generative Flow Networks ( http://arxiv.org/abs/2302.09465v3 )

ライセンス: Link先を確認
Ling Pan, Dinghuai Zhang, Moksh Jain, Longbo Huang, Yoshua Bengio(参考訳) 生成フローネットワーク(英: Generative Flow Networks、略してGFlowNets)は、「制御としての推論」のレンズを通して複雑な組合せ構造をサンプリングすることを学ぶ確率的エージェントのファミリーである。 彼らは与えられたエネルギーの景観から高品質で多様な候補を生み出す大きな可能性を示してきた。 しかし、既存のGFlowNetは決定論的環境にのみ適用でき、確率力学のより一般的なタスクではフェールし、適用性を制限することができる。 この課題を克服するため,本稿ではgflownetsを確率環境に拡張する新しいアルゴリズムであるstochastic gflownetsを紹介する。 状態遷移を2つのステップに分解することで、Stochastic GFlowNetsは環境確率性を分離し、動的モデルを学び、それをキャプチャする。 広範囲な実験結果から、確率的GFlowNetsは、確率力学を持つ様々な標準ベンチマークにおいて、標準GFlowNetsやMCMCおよびRLベースのアプローチよりも大きなアドバンテージを提供することが示された。

Generative Flow Networks (or GFlowNets for short) are a family of probabilistic agents that learn to sample complex combinatorial structures through the lens of "inference as control". They have shown great potential in generating high-quality and diverse candidates from a given energy landscape. However, existing GFlowNets can be applied only to deterministic environments, and fail in more general tasks with stochastic dynamics, which can limit their applicability. To overcome this challenge, this paper introduces Stochastic GFlowNets, a new algorithm that extends GFlowNets to stochastic environments. By decomposing state transitions into two steps, Stochastic GFlowNets isolate environmental stochasticity and learn a dynamics model to capture it. Extensive experimental results demonstrate that Stochastic GFlowNets offer significant advantages over standard GFlowNets as well as MCMC- and RL-based approaches, on a variety of standard benchmarks with stochastic dynamics.
翻訳日:2023-06-27 23:40:02 公開日:2023-06-25
# 対話における事前学習および微調整言語モデルからの談話構造抽出

Discourse Structure Extraction from Pre-Trained and Fine-Tuned Language Models in Dialogues ( http://arxiv.org/abs/2302.05895v2 )

ライセンス: Link先を確認
Chuyuan Li, Patrick Huber, Wen Xiao, Maxime Amblard, Chlo\'e Braud, Giuseppe Carenini(参考訳) 談話処理は、特に対話において、データのスパーシティに苦しむ。 その結果,事前学習言語モデル(PLM)の注意行列に基づいて対話のための談話構造を構築する手法を検討した。 微調整のための複数のタスクを調査し,対話対応文順序付けタスクが最良であることを示す。 PLMにおける談話情報の発見と活用を目的として,教師なし,半教師なしの手法を提案する。 提案手法はSTACコーパスにおいて,F1スコアが57.2と59.3であり,教師なしおよび半教師なしの手法である。 投射木に限定すると, スコアは63.3と68.1に改善した。

Discourse processing suffers from data sparsity, especially for dialogues. As a result, we explore approaches to build discourse structures for dialogues, based on attention matrices from Pre-trained Language Models (PLMs). We investigate multiple tasks for fine-tuning and show that the dialogue-tailored Sentence Ordering task performs best. To locate and exploit discourse information in PLMs, we propose an unsupervised and a semi-supervised method. Our proposals achieve encouraging results on the STAC corpus, with F1 scores of 57.2 and 59.3 for unsupervised and semi-supervised methods, respectively. When restricted to projective trees, our scores improved to 63.3 and 68.1.
翻訳日:2023-06-27 23:38:32 公開日:2023-06-25
# 単一中心二電子積分アルゴリズムの新展開

A new development status of single-center two-electron integration algorithm ( http://arxiv.org/abs/2303.09121v2 )

ライセンス: Link先を確認
Lian-Peng Zhao(参考訳) 単一中心二電子統合は原子・分子構造のab initio計算において重要なコア技術である。 そこで本稿では,Zhaoらの手法をレビュー・最適化し,結論を導いた。この手法はトランケーション誤差のない正確な計算であるため,Slater-Condon積分法よりも優れている。

Single-center two-electron integration is an important core technology in ab initio calculation of atomic and molecular structures. Therefore, this paper reviews and optimizes the method of Zhao et al., and draws a conclusion: Because this method is an accurate calculation without truncation error, it is superior to Slater-Condon integration method.
翻訳日:2023-06-27 23:31:40 公開日:2023-06-25
# RNN Seq2seqモデルによるトランスダクションとアライメントの学習

Learning Transductions and Alignments with RNN Seq2seq Models ( http://arxiv.org/abs/2303.06841v3 )

ライセンス: Link先を確認
Zhengxiang Wang(参考訳) 本稿では,Recurrent-Neural-Network sequence to sequence (RNN seq2seq) モデルの4つのトランスダクションタスク(アイデンティティ,リバーサル,総複製,二次コピー)の学習能力について検討する。 これらのトランスダクションは伝統的に有限状態トランスデューサの下でよく研究されており、複雑さの増大に起因する。 RNN seq2seqモデルは、基礎となる関数を学習するのではなく、トレーニングデータや配信データに適合するマッピングを近似することができる。 注意は学習をより効率的で堅牢にするが、分散の一般化の限界を克服するものではない。 我々は,RNN seq2seqモデルの4つのタスクを,文字列トランスダクションの代わりに形式言語の複雑性階層で理解することのできる,新しい複雑性階層を構築した。 RNNの変種も結果に重要な役割を果たしている。 特に,単純な RNN seq2seq モデルでは入力長をカウントできないことを示す。

The paper studies the capabilities of Recurrent-Neural-Network sequence to sequence (RNN seq2seq) models in learning four transduction tasks: identity, reversal, total reduplication, and quadratic copying. These transductions are traditionally well studied under finite state transducers and attributed with increasing complexity. We find that RNN seq2seq models are only able to approximate a mapping that fits the training or in-distribution data, instead of learning the underlying functions. Although attention makes learning more efficient and robust, it does not overcome the out-of-distribution generalization limitation. We establish a novel complexity hierarchy for learning the four tasks for attention-less RNN seq2seq models, which may be understood in terms of the complexity hierarchy of formal languages, instead of string transductions. RNN variants also play a role in the results. In particular, we show that Simple RNN seq2seq models cannot count the input length.
翻訳日:2023-06-27 23:30:49 公開日:2023-06-25
# コミュニティ検出のためのヒューリスティックモジュラリティ最大化アルゴリズムは、最適パーティションなどを返すことは滅多にない

Heuristic Modularity Maximization Algorithms for Community Detection Rarely Return an Optimal Partition or Anything Similar ( http://arxiv.org/abs/2302.14698v3 )

ライセンス: Link先を確認
Samin Aref, Mahdi Mostajabdaveh, and Hriday Chheda(参考訳) コミュニティ検出は計算科学の基本的な問題であり、様々な分野に広く応用されている。 最もよく使われる方法は、ネットワークノードの異なるパーティションに対するモジュラリティを最大化するアルゴリズムである。 幅広い文脈から80個の実ネットワークとランダムネットワークを用いて、現在のヒューリスティックモジュラリティ最大化アルゴリズムが最大モジュラリティ(最適)パーティションの返却に成功する範囲について検討する。 我々は,(1) アルゴリズムの出力モジュラリティと各入力グラフの最大モジュラリティとの比を評価し,(2) 出力分割とそのグラフの任意の最適分割との最大類似度を評価する。 モジュラリティをグローバルに最大化する8つの既存のヒューリスティックアルゴリズムと厳密な整数計画法を比較した。 平均モジュラリティに基づくヒューリスティックアルゴリズムは、考慮された80グラフのうち19.4%の最適分割を返す。 さらに,調整された相互情報に関する結果から,実験におけるサブ最適分割とネットワークの最適分割との間に有意な相似性が認められた。 さらに重要なことは、我々の結果は、ほぼ最適な分割は、しばしば最適な分割と不均等に異なることである。 共同で分析した結果,コミュニティの発見に広く用いられているモジュール性に基づくヒューリスティックが,最適パーティションや最適パーティションに類似したパーティションを生成することは稀であることがわかった。 モジュラリティがコミュニティの検出に使用される場合、その適用可能性の限界内でモジュール性をより適切に利用するために、正確にあるいは近似的な最適化アルゴリズムが推奨される。

Community detection is a fundamental problem in computational sciences with extensive applications in various fields. The most commonly used methods are the algorithms designed to maximize modularity over different partitions of the network nodes. Using 80 real and random networks from a wide range of contexts, we investigate the extent to which current heuristic modularity maximization algorithms succeed in returning maximum-modularity (optimal) partitions. We evaluate (1) the ratio of the algorithms' output modularity to the maximum modularity for each input graph, and (2) the maximum similarity between their output partition and any optimal partition of that graph. We compare eight existing heuristic algorithms against an exact integer programming method that globally maximizes modularity. The average modularity-based heuristic algorithm returns optimal partitions for only 19.4% of the 80 graphs considered. Additionally, results on adjusted mutual information reveal substantial dissimilarity between the sub-optimal partitions and any optimal partition of the networks in our experiments. More importantly, our results show that near-optimal partitions are often disproportionately dissimilar to any optimal partition. Taken together, our analysis points to a crucial limitation of commonly used modularity-based heuristics for discovering communities: they rarely produce an optimal partition or a partition resembling an optimal partition. If modularity is to be used for detecting communities, exact or approximate optimization algorithms are recommendable for a more methodologically sound usage of modularity within its applicability limits.
翻訳日:2023-06-27 23:30:05 公開日:2023-06-25
# 知識グラフを用いた複雑な問合せ回答のための逐次クエリエンコーディング

Sequential Query Encoding For Complex Query Answering on Knowledge Graphs ( http://arxiv.org/abs/2302.13114v3 )

ライセンス: Link先を確認
Jiaxin Bai, Tianshi Zheng, Yangqiu Song(参考訳) 複雑クエリアンサーリング(CQA)は知識グラフ(KG)推論において重要かつ基本的なタスクである。 クエリエンコーディング(QE)は、CQAの高速で堅牢なソリューションとして提案されている。 符号化プロセスでは、既存のほとんどのQEメソッドがまず論理的クエリを実行可能な計算直環状グラフ(DAG)に解析し、次にニューラルネットワークを使って演算子をパラメータ化し、最後にこれらのニューラルネットワーク演算子を再帰的に実行する。 しかし、パラメータ化と実行のパラダイムは、単一のニューラルネットワークエンコーダによって構造的に単純化されるため、過度に複雑化する可能性がある。 一方、LSTMやTransformerのようなシーケンスエンコーダは、関連するタスクのセマンティックグラフの符号化に有効であることが証明された。 そこで我々は,CQAのクエリをエンコードする代わりに,シーケンシャルクエリ符号化(SQE)を提案する。 計算グラフのパラメータ化と実行の代わりに、SQEはまず検索ベースのアルゴリズムを使用して、計算グラフを一連のトークンに線形化し、次にシーケンスエンコーダを使用してベクトル表現を計算する。 次に、このベクトル表現をクエリ埋め込みとして使用し、類似度スコアに従って埋め込み空間から回答を取得する。 そのシンプルさにもかかわらず、sqeはfb15k、fb15k-237、nellで最先端のニューラルネットワーククエリエンコーディング性能を、29種類のin-distributionクエリを含む拡張ベンチマークで実証している。 さらなる実験では、SQEはトレーニングプロセス中にクエリタイプが観察されないアウト・オブ・ディストリビューションクエリに対して、同等の知識推論能力を示す。

Complex Query Answering (CQA) is an important and fundamental task for knowledge graph (KG) reasoning. Query encoding (QE) is proposed as a fast and robust solution to CQA. In the encoding process, most existing QE methods first parse the logical query into an executable computational direct-acyclic graph (DAG), then use neural networks to parameterize the operators, and finally, recursively execute these neuralized operators. However, the parameterization-and-execution paradigm may be potentially over-complicated, as it can be structurally simplified by a single neural network encoder. Meanwhile, sequence encoders, like LSTM and Transformer, proved to be effective for encoding semantic graphs in related tasks. Motivated by this, we propose sequential query encoding (SQE) as an alternative to encode queries for CQA. Instead of parameterizing and executing the computational graph, SQE first uses a search-based algorithm to linearize the computational graph to a sequence of tokens and then uses a sequence encoder to compute its vector representation. Then this vector representation is used as a query embedding to retrieve answers from the embedding space according to similarity scores. Despite its simplicity, SQE demonstrates state-of-the-art neural query encoding performance on FB15k, FB15k-237, and NELL on an extended benchmark including twenty-nine types of in-distribution queries. Further experiment shows that SQE also demonstrates comparable knowledge inference capability on out-of-distribution queries, whose query types are not observed during the training process.
翻訳日:2023-06-27 23:28:54 公開日:2023-06-25
# エントロピー規則化RLのためのマトリルシュカ政策-収束とグローバル最適性

Matryoshka Policy Gradient for Entropy-Regularized RL: Convergence and Global Optimality ( http://arxiv.org/abs/2303.12785v2 )

ライセンス: Link先を確認
Fran\c{c}ois Ged and Maria Han Veiga(参考訳) エージェントがその累積報酬に加えてエントロピーボーナスを最大化することを目的とした最大エントロピー強化学習(max-Entropy reinforcement learning)の文脈において、Matryoshka Policy Gradient (MPG)と呼ばれる新しいポリシーグラディエント(PG)アルゴリズムを導入、研究している。 MPGは標準PGと異なり、単一の標準目的のための単一のポリシーではなく、有限地平線タスクを同時に学習するための一連のポリシーを訓練する。 ソフトマックスポリシーに対しては、MPGの目的の唯一の臨界点が最適ポリシーであることを示すことによって、MPGの収束と極限の大域的最適性を証明する。 mpgは直感的かつ理論的に健全であり、さらに、標準マックスエントロピー目標の最適ポリシーは、mpgフレームワークの最適ポリシーによって任意に近似できることを示した。 最後に、MPGは、ニューラルネットワークでポリシーをパラメータ化する場合に適しており、収束時のポリシーのグローバルな最適性を検証するための簡単な基準を提供する。 概念実証として,標準テストベンチマークを用いて数値MPGを評価する。

A novel Policy Gradient (PG) algorithm, called Matryoshka Policy Gradient (MPG), is introduced and studied, in the context of max-entropy reinforcement learning, where an agent aims at maximising entropy bonuses additional to its cumulative rewards. MPG differs from standard PG in that it trains a sequence of policies to learn finite horizon tasks simultaneously, instead of a single policy for the single standard objective. For softmax policies, we prove convergence of MPG and global optimality of the limit by showing that the only critical point of the MPG objective is the optimal policy; these results hold true even in the case of continuous compact state space. MPG is intuitive, theoretically sound and we furthermore show that the optimal policy of the standard max-entropy objective can be approximated arbitrarily well by the optimal policy of the MPG framework. Finally, we justify that MPG is well suited when the policies are parametrized with neural networks and we provide an simple criterion to verify the global optimality of the policy at convergence. As a proof of concept, we evaluate numerically MPG on standard test benchmarks.
翻訳日:2023-06-27 23:19:43 公開日:2023-06-25
# 意味理解とコミュニケーションのためのニューラルネットワークにおける記号の出現

Emergence of Symbols in Neural Networks for Semantic Understanding and Communication ( http://arxiv.org/abs/2304.06377v3 )

ライセンス: Link先を確認
Yang Chen, Liangxuan Guo, Shan Yu(参考訳) 有意義なシンボルを生成し、コミュニケーション、推論、計画といった高度な認知プロセスに効果的に活用する能力は、人間の知能の基本的かつ特徴的な側面を構成する。 既存のディープニューラルネットワークは、高い認知機能のためのシンボルを生成するという点で、人間の能力が著しく遅れている。 本稿では,シンボルの作成や意味の理解,コミュニケーションの実現をニューラルネットワークに付与するソリューション(symbol emerging artificial network (sea-net))を提案する。 SEA-netは特定のタスクを実行するためにネットワークを動的に構成するシンボルを生成する。 これらのシンボルは合成意味情報をキャプチャし、システムは記号操作や通信によって純粋に新しい関数を取得できる。 さらに、これらの自己生成記号は自然言語に固有の構造を示し、人間の脳とニューラルネットワークの両方における記号の生成と理解の基礎となる共通の枠組みを示唆している。 提案手法は,人工知能(AI)におけるコネクティビストとシンボリックアプローチの強みを相乗化できる,より有能なシステムの構築に有効であると考えている。

The capacity to generate meaningful symbols and effectively employ them for advanced cognitive processes, such as communication, reasoning, and planning, constitutes a fundamental and distinctive aspect of human intelligence. Existing deep neural networks still notably lag human capabilities in terms of generating symbols for higher cognitive functions. Here, we propose a solution (symbol emergence artificial network (SEA-net)) to endow neural networks with the ability to create symbols, understand semantics, and achieve communication. SEA-net generates symbols that dynamically configure the network to perform specific tasks. These symbols capture compositional semantic information that allows the system to acquire new functions purely by symbolic manipulation or communication. In addition, these self-generated symbols exhibit an intrinsic structure resembling that of natural language, suggesting a common framework underlying the generation and understanding of symbols in both human brains and artificial neural networks. We believe that the proposed framework will be instrumental in producing more capable systems that can synergize the strengths of connectionist and symbolic approaches for artificial intelligence (AI).
翻訳日:2023-06-27 23:10:31 公開日:2023-06-25
# カノニカルおよび非カノニカルハミルトン作用素推論

Canonical and Noncanonical Hamiltonian Operator Inference ( http://arxiv.org/abs/2304.06262v2 )

ライセンス: Link先を確認
Anthony Gruber and Irina Tezaur(参考訳) 正準および非正準ハミルトニアン系の非インタラクティブおよび構造保存モデル還元法を提案する。 作用素推論の考え方に基づき、この手法は確実に収束し、与えられたスナップショットデータとハミルトニアン系のグレイボックス知識の単純線形解に還元される。 いくつかの双曲型偏微分方程式を含む例では、提案手法は、基礎モードの追加に関して正確かつ安定であると同時に、トレーニングデータの範囲外に保存された保存量を保持する還元モデルを生成する。

A method for the nonintrusive and structure-preserving model reduction of canonical and noncanonical Hamiltonian systems is presented. Based on the idea of operator inference, this technique is provably convergent and reduces to a straightforward linear solve given snapshot data and gray-box knowledge of the system Hamiltonian. Examples involving several hyperbolic partial differential equations show that the proposed method yields reduced models which, in addition to being accurate and stable with respect to the addition of basis modes, preserve conserved quantities well outside the range of their training data.
翻訳日:2023-06-27 23:10:13 公開日:2023-06-25
# ニューラルマシン翻訳システムにおける感情知覚相反攻撃

Sentiment Perception Adversarial Attacks on Neural Machine Translation Systems ( http://arxiv.org/abs/2305.01437v2 )

ライセンス: Link先を確認
Vyas Raina and Mark Gales(参考訳) ディープラーニング手法の出現に伴い、ニューラルネットワーク翻訳(NMT)システムはますます強力になっている。 しかし、深層学習に基づくシステムは敵攻撃の影響を受けやすいため、入力に対する非受容的な変更はシステムの出力において望ましくない変更を引き起こす可能性がある。 NMTモデルのようなシーケンス・ツー・シーケンス・システムに対する敵攻撃を調査する研究はほとんど行われていない。 NMTの以前の研究は、ターゲットフレーズを出力シーケンスに導入する目的で攻撃を調査してきた。 本研究では,NMTシステムに対する敵攻撃を,出力知覚の観点から検討する。 したがって、攻撃の目的は、入力シーケンスの知覚を変えることなく、出力シーケンスの知覚を変更することである。 例えば、敵は翻訳されたレビューの感情を歪め、誇張されたポジティブな感情を持つ。 実際に、広範に人間の知覚実験を行うことは困難であり、NMT出力に適用されたプロキシディープラーニング分類器を用いて知覚の変化を測定する。 実験により、NMTシステムの出力シーケンスの感情知覚は、入力シーケンスに対する小さな受容不可能な変化で大きく変化できることが示された。

With the advent of deep learning methods, Neural Machine Translation (NMT) systems have become increasingly powerful. However, deep learning based systems are susceptible to adversarial attacks, where imperceptible changes to the input can cause undesirable changes at the output of the system. To date there has been little work investigating adversarial attacks on sequence-to-sequence systems, such as NMT models. Previous work in NMT has examined attacks with the aim of introducing target phrases in the output sequence. In this work, adversarial attacks for NMT systems are explored from an output perception perspective. Thus the aim of an attack is to change the perception of the output sequence, without altering the perception of the input sequence. For example, an adversary may distort the sentiment of translated reviews to have an exaggerated positive sentiment. In practice it is challenging to run extensive human perception experiments, so a proxy deep-learning classifier applied to the NMT output is used to measure perception changes. Experiments demonstrate that the sentiment perception of NMT systems' output sequences can be changed significantly with small imperceptible changes to input sequences.
翻訳日:2023-06-27 23:01:31 公開日:2023-06-25
# MUDiff:完全分子生成のための統一拡散

MUDiff: Unified Diffusion for Complete Molecule Generation ( http://arxiv.org/abs/2304.14621v2 )

ライセンス: Link先を確認
Chenqing Hua, Sitao Luan, Minkai Xu, Rex Ying, Jie Fu, Stefano Ermon, Doina Precup(参考訳) 分子生成は非常に重要な実用的問題であり、医薬品の発見と材料設計に利用され、AI手法は有用なソリューションを提供することを約束する。 しかし、既存の分子生成法は2dグラフ構造か3d幾何学構造に焦点を合わせており、2dグラフが主にトポロジーを捉え、3d幾何学が主に空間原子配置を捉えているため、完全な分子を表現するには不十分である。 これらの表現を組み合わせることは、分子をよりよく表すのに不可欠である。 本稿では,原子の特徴,2次元離散分子構造,および3次元連続分子座標を含む分子の包括的表現を離散的および連続的拡散過程を組み合わせることで生成する新しいモデルを提案する。 拡散過程を用いることで、分子過程の確率的性質を捉え、異なる因子が分子構造に与える影響を探求することができる。 さらに,拡散過程を認知するための新しいグラフトランスフォーマーアーキテクチャを提案する。 トランスは3次元ロート変換同分散制約に準拠し、原子座標の同分散を保ちながら不変な原子とエッジの表現を学習することができる。 この変換器は、幾何学的変換に頑健な分子表現を学ぶために使用できる。 実験と既存手法との比較により, モデルの性能評価を行い, より安定で有効な分子を生成する能力を示した。 我々のモデルは、安定で多様な分子を設計するための有望なアプローチであり、分子モデリングの幅広いタスクに適用できる。

Molecule generation is a very important practical problem, with uses in drug discovery and material design, and AI methods promise to provide useful solutions. However, existing methods for molecule generation focus either on 2D graph structure or on 3D geometric structure, which is not sufficient to represent a complete molecule as 2D graph captures mainly topology while 3D geometry captures mainly spatial atom arrangements. Combining these representations is essential to better represent a molecule. In this paper, we present a new model for generating a comprehensive representation of molecules, including atom features, 2D discrete molecule structures, and 3D continuous molecule coordinates, by combining discrete and continuous diffusion processes. The use of diffusion processes allows for capturing the probabilistic nature of molecular processes and exploring the effect of different factors on molecular structures. Additionally, we propose a novel graph transformer architecture to denoise the diffusion process. The transformer adheres to 3D roto-translation equivariance constraints, allowing it to learn invariant atom and edge representations while preserving the equivariance of atom coordinates. This transformer can be used to learn molecular representations robust to geometric transformations. We evaluate the performance of our model through experiments and comparisons with existing methods, showing its ability to generate more stable and valid molecules. Our model is a promising approach for designing stable and diverse molecules and can be applied to a wide range of tasks in molecular modeling.
翻訳日:2023-06-27 23:00:28 公開日:2023-06-25
# 責任AI設計のための基礎モデルに基づくシステム分類

A Taxonomy of Foundation Model based Systems for Responsible-AI-by-Design ( http://arxiv.org/abs/2305.05352v4 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Zhenchang Xing, Jon Whittle(参考訳) 大規模言語モデル(LLM)ベースのチャットボット(ChatGPTなど)の最近のリリースは、基礎モデルに大きな注目を集めている。 基盤モデルが将来のaiシステムの基本的な構成要素となると広く信じられている。 基礎モデルが初期段階にあるため、基礎モデルに基づくシステムの設計はまだ体系的に検討されていない。 ソフトウェアアーキテクチャに基礎モデルを導入することの影響についてはほとんど理解されていない。 そこで本稿では,基礎モデルに基づくシステムの特徴と基礎モデルに基づくシステムの設計オプションを分類・比較する基礎モデルに基づくシステムの分類手法を提案する。 我々の分類学は、基礎モデル事前訓練と微調整、基礎モデルベースシステムのアーキテクチャ設計、責任AI設計の3つのカテゴリから構成される。 この分類は、基礎モデルに基づくシステムを設計する際に重要な設計決定を行うための具体的なガイダンスを提供し、設計決定から生じるトレードオフを強調する。

The recent release of large language model (LLM) based chatbots, such as ChatGPT, has attracted significant attention on foundation models. It is widely believed that foundation models will serve as the fundamental building blocks for future AI systems. As foundation models are in their early stages, the design of foundation model based systems has not yet been systematically explored. There is little understanding about the impact of introducing foundation models in software architecture. Therefore, in this paper, we propose a taxonomy of foundation model based systems, which classifies and compares the characteristics of foundation models and design options of foundation model based systems. Our taxonomy comprises three categories: foundation model pretraining and fine-tuning, architecture design of foundation model based systems, and responsible-AI-by-design. This taxonomy provides concrete guidance for making major design decisions when designing foundation model based systems and highlights trade-offs arising from design decisions.
翻訳日:2023-06-27 22:51:20 公開日:2023-06-25
# パノプティカル・ワイルドシーンにおける映像オブジェクトのセグメンテーション

Video Object Segmentation in Panoptic Wild Scenes ( http://arxiv.org/abs/2305.04470v2 )

ライセンス: Link先を確認
Yuanyou Xu, Zongxin Yang, Yi Yang(参考訳) 本稿では,半教師付き映像オブジェクトセグメンテーション(vos)をパンオプティカル・ワイルドシーンに導入し,大規模ベンチマークとベースライン手法を提案する。 疎いアノテーションを持つVOSの以前のベンチマークでは、現実のシナリオで可能なすべてのオブジェクトを処理する必要があるモデルをトレーニングしたり評価したりするのに十分ではありません。 我々の新しいベンチマーク(VIPOSeg)は、徹底的なオブジェクトアノテーションを含み、様々な現実世界のオブジェクトカテゴリを網羅的に評価するために、物/物/物のサブセットと見えないクラスのサブセットに慎重に分割する。 本研究では,複数スケールのピラミッドアーキテクチャとオブジェクトを関連付けるために,panoptic identificationを用いたpanoptic object association with transformers(paot)という強力なベースライン手法を提案する。 実験の結果, VIPOSeg は VOS モデルの性能を高めるだけでなく, 総合的に評価できることがわかった。 我々のPAOTはVIPOSegおよび以前のVOSベンチマークで高い効率でSOTA性能を達成する一方、従来のVOSの手法では、パン光学シーンを扱う際にパフォーマンスと効率を改善する必要がある。 PAOTはVOT2022チャレンジでも1位となった。 私たちのデータセットはhttps://github.com/yoxu515/viposeg-benchmarkで利用可能です。

In this paper, we introduce semi-supervised video object segmentation (VOS) to panoptic wild scenes and present a large-scale benchmark as well as a baseline method for it. Previous benchmarks for VOS with sparse annotations are not sufficient to train or evaluate a model that needs to process all possible objects in real-world scenarios. Our new benchmark (VIPOSeg) contains exhaustive object annotations and covers various real-world object categories which are carefully divided into subsets of thing/stuff and seen/unseen classes for comprehensive evaluation. Considering the challenges in panoptic VOS, we propose a strong baseline method named panoptic object association with transformers (PAOT), which uses panoptic identification to associate objects with a pyramid architecture on multiple scales. Experimental results show that VIPOSeg can not only boost the performance of VOS models by panoptic training but also evaluate them comprehensively in panoptic scenes. Previous methods for classic VOS still need to improve in performance and efficiency when dealing with panoptic scenes, while our PAOT achieves SOTA performance with good efficiency on VIPOSeg and previous VOS benchmarks. PAOT also ranks 1st in the VOT2022 challenge. Our dataset is available at https://github.com/yoxu515/VIPOSeg-Benchmark.
翻訳日:2023-06-27 22:50:52 公開日:2023-06-25
# Learngene: 継承モデルから継承モデルへの凝縮知識の継承

Learngene: Inheriting Condensed Knowledge from the Ancestry Model to Descendant Models ( http://arxiv.org/abs/2305.02279v2 )

ライセンス: Link先を確認
Qiufeng Wang, Xu Yang, Shuxia Lin, Jing Wang, Xin Geng(参考訳) ある生物の祖先の継続的な進化の間、その遺伝子は豊富な経験と知識を蓄積し、新生児の子孫は特定の環境に迅速に適応できる。 そこで本研究では,学習モデルに3つの重要な特徴を組み込むための新しい機械学習パラダイム学習法を提案する。 i) 蓄積:知識は、祖先モデルの継続的な学習中に蓄積される。 (ii)凝縮:豊富な蓄積された知識はよりコンパクトな情報、すなわち学習遺伝子に凝縮される。 (iii)継承:縮合した学習遺伝子は、子孫モデルが新しい環境に適応しやすいように継承される。 大規模事前学習や生涯学習といった確立されたパラダイムで蓄積が研究されているので, 凝縮と継承に焦点をあて, 3つの重要な課題を提起し, この問題に対する予備的な解決策を本論文で提示する。 (i)学習遺伝子形式:学習遺伝子は、重要性を保ちうるいくつかの積分層に設定される。 (ii)学習遺伝子凝縮:祖先モデルのどの層が1つの擬似子孫モデルと最もよく似ているかを特定する。 3)Learnergene Inheriting: 特定の下流タスクの異なる継承モデルを構築するために、ランダムに初期化されたレイヤをLearnergene Layerに積み重ねる。 さまざまなデータセット上でビジョントランスフォーマー(ViT)や畳み込みニューラルネットワーク(CNN)などの異なるネットワークアーキテクチャを使用するなど、さまざまな設定にわたる広範な実験を行い、Leargenの4つの利点を確認した。 1) より早く収束する。 2)過度パラメータに対する感度が低い。 3)より良いパフォーマンス、そして 4) 収束に必要なトレーニングサンプルは少ない。

During the continuous evolution of one organism's ancestry, its genes accumulate extensive experiences and knowledge, enabling newborn descendants to rapidly adapt to their specific environments. Motivated by this observation, we propose a novel machine learning paradigm Learngene to enable learning models to incorporate three key characteristics of genes. (i) Accumulating: the knowledge is accumulated during the continuous learning of an ancestry model. (ii) Condensing: the extensive accumulated knowledge is condensed into a much more compact information piece, i.e., learngene. (iii) Inheriting: the condensed learngene is inherited to make it easier for descendant models to adapt to new environments. Since accumulating has been studied in well-established paradigms like large-scale pre-training and lifelong learning, we focus on condensing and inheriting, which induces three key issues and we provide the preliminary solutions to these issues in this paper: (i) Learngene Form: the learngene is set to a few integral layers that can preserve significance. (ii) Learngene Condensing: we identify which layers among the ancestry model have the most similarity as one pseudo descendant model. (iii) Learngene Inheriting: to construct distinct descendant models for the specific downstream tasks, we stack some randomly initialized layers to the learngene layers. Extensive experiments across various settings, including using different network architectures like Vision Transformer (ViT) and Convolutional Neural Networks (CNNs) on different datasets, are carried out to confirm four advantages of Learngene: it makes the descendant models 1) converge more quickly, 2) exhibit less sensitivity to hyperparameters, 3) perform better, and 4) require fewer training samples to converge.
翻訳日:2023-06-27 22:50:28 公開日:2023-06-25
# Qkd@Edge: QKDセキュア通信を用いたエッジアプリケーションのオンラインアドミッション制御

Qkd@Edge: Online Admission Control of Edge Applications with QKD-secured Communications ( http://arxiv.org/abs/2305.02015v2 )

ライセンス: Link先を確認
Claudio Cicconetti and Marco Conti and Andrea Passarella(参考訳) 量子鍵分布(QKD)は、量子力学の特性を利用した暗号鍵の交換によるセキュアな通信を可能にする。 現在、関連する技術はプロダクションシステムに十分成熟しているため、QKDネットワークのフィールド展開は近い将来、エッジコンピューティングがすでに繁栄しているローカル/メトロポリタン設定から始まると期待されている。 本稿では,QKDネットワークとエッジノードのリソース割り当ての相互作用について検討する。 問題を数学的にモデル化した後,QKDネットワーク内のエッジノードとパスを選択するエッジアプリケーション要求を受け入れるための実用的なオンラインポリシーを提案する。 シミュレーションの結果から,この話題についての最初の知見が得られ,今後の研究への道がもたらされる。

Quantum Key Distribution (QKD) enables secure communications via the exchange of cryptographic keys exploiting the properties of quantum mechanics. Nowadays the related technology is mature enough for production systems, thus field deployments of QKD networks are expected to appear in the near future, starting from local/metropolitan settings, where edge computing is already a thriving reality. In this paper, we investigate the interplay of resource allocation in the QKD network vs. edge nodes, which creates unique research challenges. After modeling mathematically the problem, we propose practical online policies for admitting edge application requests, which also select the edge node for processing and the path in the QKD network. Our simulation results provide initial insights into this emerging topic and lead the way to upcoming studies on the subject.
翻訳日:2023-06-27 22:49:57 公開日:2023-06-25
# beyond classification: 最先端言語モデルにおける財務的推論

Beyond Classification: Financial Reasoning in State-of-the-Art Language Models ( http://arxiv.org/abs/2305.01505v2 )

ライセンス: Link先を確認
Guijin Son, Hanearl Jung, Moonjeong Hahm, Keonju Na, Sol Jin(参考訳) 1000億以上のパラメータからなる大規模言語モデル(LLM)は、複雑な多段階推論タスクにおいて顕著な能力を示している。 しかし、そのような総合的な進歩の応用は、臨床や法学などのいくつかの分野に限られており、財政的推論の分野は未解明のままである。 我々の知る限り、LLMが金銭的推論問題を解決する能力はこれまでになく、どんな規模でも実行可能であるかどうかは不明だ。 この知識ギャップに対処するため,金融分野におけるLLMの適用可能性に関する総合的な調査を行った。 調査には、タスクの定式化、合成データ生成、プロンプト方法、評価能力など、さまざまな分野の詳細な調査が含まれている。 さらに、さまざまなデータセットサイズに基づいて、2.8Bから13Bまでのパラメータスケールを持つ様々なGPT変種を、インストラクションチューニングなしでベンチマークする。 結果から,コヒーレントな財務推論を生成する能力は,まず6Bパラメータで出現し,より優れたインストラクションチューニングやより大きなデータセットで改善が続けられていることが明らかとなった。 さらに、この研究はsfiog(synthetic-financial investment opinion generation)という、11,802の合成投資論文からなる公開データセットを提供し、金融推論の分野におけるさらなる研究を支援している。 本研究は全体として、金融分野における言語モデルの有効性の理解に寄与し、特に投資意思決定の文脈において洗練された推論と分析を行う能力に重点を置いている。

Large Language Models (LLMs), consisting of 100 billion or more parameters, have demonstrated remarkable ability in complex multi-step reasoning tasks. However, the application of such generic advancements has been limited to a few fields, such as clinical or legal, with the field of financial reasoning remaining largely unexplored. To the best of our knowledge, the ability of LLMs to solve financial reasoning problems has never been dealt with, and whether it can be performed at any scale remains unknown. To address this knowledge gap, this research presents a comprehensive investigation into the potential application of LLMs in the financial domain. The investigation includes a detailed exploration of a range of subjects, including task formulation, synthetic data generation, prompting methods, and evaluation capability. Furthermore, the study benchmarks various GPT variants with parameter scales ranging from 2.8B to 13B, with and without instruction tuning, on diverse dataset sizes. By analyzing the results, we reveal that the ability to generate coherent financial reasoning first emerges at 6B parameters, and continues to improve with better instruction-tuning or larger datasets. Additionally, the study provides a publicly accessible dataset named sFIOG (Synthetic-Financial Investment Opinion Generation), consisting of 11,802 synthetic investment thesis samples, to support further research in the field of financial reasoning. Overall, this research seeks to contribute to the understanding of the efficacy of language models in the field of finance, with a particular emphasis on their ability to engage in sophisticated reasoning and analysis within the context of investment decision-making.
翻訳日:2023-06-27 22:49:42 公開日:2023-06-25
# SAIL: 検索強化型インストラクション学習

SAIL: Search-Augmented Instruction Learning ( http://arxiv.org/abs/2305.15225v2 )

ライセンス: Link先を確認
Hongyin Luo, Yung-Sung Chuang, Yuan Gong, Tianhua Zhang, Yoon Kim, Xixin Wu, Danny Fox, Helen Meng, James Glass(参考訳) 大規模言語モデル(LLM)は、命令の微調整によって大幅に改善されているが、透明性と最新の知識と情報を活用する能力が欠けている。 本研究では,社内および外部検索エンジンが生成する複雑な検索結果に対して,言語生成と命令追従能力を前提とした検索学習(sail)を提案する。 命令チューニングコーパスを用いて、異なる検索APIやドメインから各トレーニングケースの検索結果を収集し、\textit{(instruction, grounding information, response)}三つ組を含む新しい検索グラウンドトレーニングセットを構築する。 次に、構築したトレーニングセット上でLLaMA-7Bモデルを微調整する。 収集された結果には無関係な言語と否定的な言語が含まれているため、モデルは信頼できる検索結果を基礎にし、注意をそらし、ターゲットの応答を生成することを学ぶ必要がある。 検索結果のデノゲーションプロセスは、検索されたパスは情報的かもしれないが、指示追従応答を含まないため、明確な信頼できる情報選択とマルチホップ推論を必要とする。 実験により、細調整されたSAIL-7Bモデルは、強い指示追従能力を有し、オープンな質問応答や事実チェックなど、透明性に敏感なタスクにおいて、大幅に向上することが示された。

Large language models (LLMs) have been significantly improved by instruction fine-tuning, but still lack transparency and the ability to utilize up-to-date knowledge and information. In this work, we propose search-augmented instruction learning (SAIL), which grounds the language generation and instruction following abilities on complex search results generated by in-house and external search engines. With an instruction tuning corpus, we collect search results for each training case from different search APIs and domains, and construct a new search-grounded training set containing \textit{(instruction, grounding information, response)} triplets. We then fine-tune the LLaMA-7B model on the constructed training set. Since the collected results contain unrelated and disputing languages, the model needs to learn to ground on trustworthy search results, filter out distracting passages, and generate the target response. The search result-denoising process entails explicit trustworthy information selection and multi-hop reasoning, since the retrieved passages might be informative but not contain the instruction-following answer. Experiments show that the fine-tuned SAIL-7B model has a strong instruction-following ability, and it performs significantly better on transparency-sensitive tasks, including open-ended question answering and fact checking.
翻訳日:2023-06-27 22:41:44 公開日:2023-06-25
# トランスフォーマーは問題を再帰的に解けるか?

Can Transformers Learn to Solve Problems Recursively? ( http://arxiv.org/abs/2305.14699v2 )

ライセンス: Link先を確認
Shizhuo Dylan Zhang, Curt Tigges, Stella Biderman, Maxim Raginsky, Talia Ringer(参考訳) 近年、ニューラルネットワークはソフトウェアエンジニアがプログラムを書くのを手助けし、それを正式に検証することを約束している。 セマンティック情報はこれらのプロセスにおいて重要な役割を担っているが、トランスフォーマーのような一般的なニューラルネットワークがどの程度その情報をモデル化できるかは不明だ。 本稿では,特に構造的再帰に着目し,機械的解釈可能性のレンズによるプログラムと形式的証明に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。 構造的再帰は、データ型間のセマンティックな関係の推測やプログラムの振る舞いのエミュレートなど、現在、象徴的なツールがニューラルモデルを上回っているタスクの中心である。 入力-出力例から構造的再帰関数の挙動をエミュレートするトランスフォーマティブモデルの能力を評価する。 我々の評価には、これらの関数を近似するトランスフォーマーモデルの限界と能力の実証的および概念的分析と、モデルが学習する ``shortcut' アルゴリズムの再構成が含まれる。 これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。 私たちの研究は、トレーニングされたタスクの解決に失敗するニューラルネットワークの振る舞いを理解するための、新たな基盤を提供します。

Neural networks have in recent years shown promise for helping software engineers write programs and even formally verify them. While semantic information plays a crucial part in these processes, it remains unclear to what degree popular neural architectures like transformers are capable of modeling that information. This paper examines the behavior of neural networks learning algorithms relevant to programs and formal verification proofs through the lens of mechanistic interpretability, focusing in particular on structural recursion. Structural recursion is at the heart of tasks on which symbolic tools currently outperform neural models, like inferring semantic relations between datatypes and emulating program behavior. We evaluate the ability of transformer models to learn to emulate the behavior of structurally recursive functions from input-output examples. Our evaluation includes empirical and conceptual analyses of the limitations and capabilities of transformer models in approximating these functions, as well as reconstructions of the ``shortcut" algorithms the model learns. By reconstructing these algorithms, we are able to correctly predict 91 percent of failure cases for one of the approximated functions. Our work provides a new foundation for understanding the behavior of neural networks that fail to solve the very tasks they are trained for.
翻訳日:2023-06-27 22:41:19 公開日:2023-06-25
# 自動話者検証におけるディフェンダーの視点:概観

The defender's perspective on automatic speaker verification: An overview ( http://arxiv.org/abs/2305.12804v2 )

ライセンス: Link先を確認
Haibin Wu, Jiawen Kang, Lingwei Meng, Helen Meng and Hung-yi Lee(参考訳) 自動話者検証(ASV)は、セキュリティに敏感な環境において重要な役割を果たす。 ASVの信頼性は、リプレイや合成音声などのスプーフィング攻撃の出現や、敵対的攻撃や比較的新しい部分的に偽の音声によって損なわれている。 リプレイや合成音声、敵対的攻撃をカバーしたレビュー論文はいくつかあるが、敵的攻撃に対する防御と最近出現した部分的に偽のスピーチに対処する包括的なレビューには注目すべきギャップがある。 そこで本研究では,これらの攻撃に対して使用される防御手法について,徹底的かつ体系的に概説する。

Automatic speaker verification (ASV) plays a critical role in security-sensitive environments. Regrettably, the reliability of ASV has been undermined by the emergence of spoofing attacks, such as replay and synthetic speech, as well as adversarial attacks and the relatively new partially fake speech. While there are several review papers that cover replay and synthetic speech, and adversarial attacks, there is a notable gap in a comprehensive review that addresses defense against adversarial attacks and the recently emerged partially fake speech. Thus, the aim of this paper is to provide a thorough and systematic overview of the defense methods used against these types of attacks.
翻訳日:2023-06-27 22:40:19 公開日:2023-06-25
# PFNs4BO:ベイズ最適化のための文脈学習

PFNs4BO: In-Context Learning for Bayesian Optimization ( http://arxiv.org/abs/2305.17535v4 )

ライセンス: Link先を確認
Samuel M\"uller, Matthias Feurer, Noah Hollmann, Frank Hutter(参考訳) 本稿では,ベイズ最適化(BO)のためのフレキシブルサロゲートとして,PFN(Presideed Data Fitted Networks)を用いる。 PFNは、効率的にサンプリングできる任意の事前分布のコンテキスト内学習を通じて、後部予測分布(PPD)を近似するように訓練された神経プロセスである。 BOにおけるサロゲートモデリングにおいて,この柔軟性をどのように活用できるかを述べる。 我々はPFNを用いて、単純なガウス過程(GP)、高度なGP、ベイズニューラルネットワーク(BNN)を模倣する。 また,オプティマの位置に関するヒントを許容したり,無関係次元を無視したり,取得関数を学習して非オプティマボを実行したりするなど,さらに情報を前もって組み込む方法を示す。 これらの拡張の基盤となる柔軟性は、BOにPFNを使用する大きな可能性を開く。 人工GP試料と3種類のハイパーパラメータ最適化テストベッド(HPO-B, Bayesmark, PD1)の大規模評価において, BOに対するPFNの有用性を示す。 トレーニングされたモデルをhttps://github.com/automl/PFNs4BOで公開しています。

In this paper, we use Prior-data Fitted Networks (PFNs) as a flexible surrogate for Bayesian Optimization (BO). PFNs are neural processes that are trained to approximate the posterior predictive distribution (PPD) through in-context learning on any prior distribution that can be efficiently sampled from. We describe how this flexibility can be exploited for surrogate modeling in BO. We use PFNs to mimic a naive Gaussian process (GP), an advanced GP, and a Bayesian Neural Network (BNN). In addition, we show how to incorporate further information into the prior, such as allowing hints about the position of optima (user priors), ignoring irrelevant dimensions, and performing non-myopic BO by learning the acquisition function. The flexibility underlying these extensions opens up vast possibilities for using PFNs for BO. We demonstrate the usefulness of PFNs for BO in a large-scale evaluation on artificial GP samples and three different hyperparameter optimization testbeds: HPO-B, Bayesmark, and PD1. We publish code alongside trained models at https://github.com/automl/PFNs4BO.
翻訳日:2023-06-27 22:31:17 公開日:2023-06-25
# 線形回帰のための複数事前学習モデルによる表現伝達学習

Representation Transfer Learning via Multiple Pre-trained models for Linear Regression ( http://arxiv.org/abs/2305.16440v2 )

ライセンス: Link先を確認
Navjot Singh, Suhas Diggavi(参考訳) 本稿では,サンプル数が少ないデータ領域(ターゲット)における線形回帰モデル学習の問題について考察する。 学習を支援するために、トレーニング済みの回帰モデルセットを用意して、潜在的に異なるデータドメイン(ソース)でトレーニングします。 情報源と対象領域における線形モデルを生成するための表現構造を仮定し,対象モデルを構築するための表現伝達に基づく学習手法を提案する。 提案手法は以下の2段階からなる。 (i)異なるソース表現を利用して、対象データに適合した表現を構築すること、及び (ii)対象データ上の(パラメータを超える)回帰モデル全体を再訓練する微調整手順の初期化として得られたモデルを用いる。 トレーニング手法の各フェーズにおいて、真のデータ生成対象モデルと比較して学習モデルに過剰なリスク境界を提供する。 導出境界は,同じ過大なリスクを負う場合のソース表現を活用できないベースライン法と比較して,提案手法のサンプル複雑性の増大を示し,したがって,線形回帰に対する転送学習の有効性を理論的に示す。

In this paper, we consider the problem of learning a linear regression model on a data domain of interest (target) given few samples. To aid learning, we are provided with a set of pre-trained regression models that are trained on potentially different data domains (sources). Assuming a representation structure for the data generating linear models at the sources and the target domains, we propose a representation transfer based learning method for constructing the target model. The proposed scheme is comprised of two phases: (i) utilizing the different source representations to construct a representation that is adapted to the target data, and (ii) using the obtained model as an initialization to a fine-tuning procedure that re-trains the entire (over-parameterized) regression model on the target data. For each phase of the training method, we provide excess risk bounds for the learned model compared to the true data generating target model. The derived bounds show a gain in sample complexity for our proposed method compared to the baseline method of not leveraging source representations when achieving the same excess risk, therefore, theoretically demonstrating the effectiveness of transfer learning for linear regression.
翻訳日:2023-06-27 22:30:44 公開日:2023-06-25
# SQL-PaLM: テキストからSQLへの大規模言語モデル適応の改善

SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL ( http://arxiv.org/abs/2306.00739v3 )

ライセンス: Link先を確認
Ruoxi Sun, Sercan O. Arik, Hootan Nakhost, Hanjun Dai, Rajarishi Sinha, Pengcheng Yin, Tomas Pfister(参考訳) 大きな言語モデル(LLM)の目覚ましい機能の1つは、データベース用の構造化クエリ言語(SQL)を含むコードの生成である。 自然言語テキストをSQLクエリに変換するタスクでは、テキストからSQLへの変換、LLMの適応は、使用する適応データ量に応じて、コンテキスト内学習と微調整設定の両方において最重要となる。 本稿では,PaLM-2 を利用した LLM ベースの Text-to-SQL モデル SQL-PaLM を提案する。 Few-shot SQL-PaLMは、Text-to-SQL用に設計された実行ベースの自己整合性プロンプトアプローチに基づいており、Spiderで77.3%の精度を実現している。 さらに、微調整SQL-PALMがさらに1%向上することを示した。 SQL-PaLMを現実のシナリオに適用する上で、他の課題であるSpiderの堅牢性をさらに評価し、SQL-PaLMの優れた一般化能力を実証する。 さらに,広範なケーススタディを通じて,llmベースのテキスト・ツー・sqlの知的能力と様々な成功可能性を示す。

One impressive emergent capability of large language models (LLMs) is generation of code, including Structured Query Language (SQL) for databases. For the task of converting natural language text to SQL queries, Text-to-SQL, adaptation of LLMs is of paramount importance, both in in-context learning and fine-tuning settings, depending on the amount of adaptation data used. In this paper, we propose an LLM-based Text-to-SQL model SQL-PaLM, leveraging on PaLM-2, that pushes the state-of-the-art in both settings. Few-shot SQL-PaLM is based on an execution-based self-consistency prompting approach designed for Text-to-SQL, and achieves 77.3% in test-suite accuracy on Spider, which to our best knowledge is the first to outperform previous state-of-the-art with fine-tuning by a significant margin, 4%. Furthermore, we demonstrate that the fine-tuned SQL-PALM outperforms it further by another 1%. Towards applying SQL-PaLM to real-world scenarios we further evaluate its robustness on other challenging variants of Spider and demonstrate the superior generalization capability of SQL-PaLM. In addition, via extensive case studies, we demonstrate the impressive intelligent capabilities and various success enablers of LLM-based Text-to-SQL.
翻訳日:2023-06-27 22:22:14 公開日:2023-06-25
# ストリーミングデータからのニューラルネットワークオンライン学習のための低ランク拡張カルマンフィルタ

Low-rank extended Kalman filtering for online learning of neural networks from streaming data ( http://arxiv.org/abs/2305.19535v2 )

ライセンス: Link先を確認
Peter G. Chang, Gerardo Dur\'an-Mart\'in, Alexander Y Shestopaloff, Matt Jones, Kevin Murphy(参考訳) 非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。 この方法は拡張カルマンフィルタ(ekf)に基づいているが、モデルパラメータの数に線形なステップあたりのコストを与える、後方精度行列の新たな低ランク+対角分解を用いる。 確率的変動推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。 実験により,この結果がより高速(より標本効率のよい)学習となり,分布の変化に適応しやすくなり,文脈的バンディットアルゴリズムの一部として使用する場合の報酬の蓄積が早くなることを示した。

We propose an efficient online approximate Bayesian inference algorithm for estimating the parameters of a nonlinear function from a potentially non-stationary data stream. The method is based on the extended Kalman filter (EKF), but uses a novel low-rank plus diagonal decomposition of the posterior precision matrix, which gives a cost per step which is linear in the number of model parameters. In contrast to methods based on stochastic variational inference, our method is fully deterministic, and does not require step-size tuning. We show experimentally that this results in much faster (more sample efficient) learning, which results in more rapid adaptation to changing distributions, and faster accumulation of reward when used as part of a contextual bandit algorithm.
翻訳日:2023-06-27 22:21:13 公開日:2023-06-25
# 教師なしフレーム対セグメントアライメントによる順列認識アクションセグメンテーション

Permutation-Aware Action Segmentation via Unsupervised Frame-to-Segment Alignment ( http://arxiv.org/abs/2305.19478v2 )

ライセンス: Link先を確認
Quoc-Huy Tran, Ahmed Mehmood, Muhammad Ahmed, Muhammad Naufil, Anas Zafar, Andrey Konin, M. Zeeshan Zia(参考訳) 本稿では,フレームレベルのキューだけでなくセグメントレベルのキューも活用した,時間的アクティビティセグメンテーションのための教師なしトランスフォーマティブフレームワークを提案する。 これは、フレームレベルの情報のみに依存する従来の方法とは対照的である。 我々のアプローチは、トランスフォーマーエンコーダを介してフレームワイズアクションクラスを推定するフレームレベル予測モジュールから始まる。 フレームレベルの予測モジュールは、時間的最適輸送を介して教師なしの方法で訓練される。 セグメントレベル情報を活用するために,セグメントレベル予測モジュールとフレーム間アライメントモジュールを用いる。 前者はビデオの書き起こしを推定するトランスデコーダを含み、後者はフレームレベルの特徴とセグメントレベルの特徴をマッチさせ、順列対応のセグメンテーション結果が得られる。 さらに,時間的最適移動に触発されて,上述のモジュールの教師なし学習のための単純イット有効擬似ラベルを導入する。 4つのパブリックデータセット、すなわち50のサラダ、youtubeのインストラクション、朝食、デスクトップアセンブリの実験では、教師なしアクティビティセグメンテーションにおける従来の方法と同等あるいは優れたパフォーマンスを達成しています。

This paper presents an unsupervised transformer-based framework for temporal activity segmentation which leverages not only frame-level cues but also segment-level cues. This is in contrast with previous methods which often rely on frame-level information only. Our approach begins with a frame-level prediction module which estimates framewise action classes via a transformer encoder. The frame-level prediction module is trained in an unsupervised manner via temporal optimal transport. To exploit segment-level information, we utilize a segment-level prediction module and a frame-to-segment alignment module. The former includes a transformer decoder for estimating video transcripts, while the latter matches frame-level features with segment-level features, yielding permutation-aware segmentation results. Moreover, inspired by temporal optimal transport, we introduce simple-yet-effective pseudo labels for unsupervised training of the above modules. Our experiments on four public datasets, i.e., 50 Salads, YouTube Instructions, Breakfast, and Desktop Assembly show that our approach achieves comparable or better performance than previous methods in unsupervised activity segmentation.
翻訳日:2023-06-27 22:20:57 公開日:2023-06-25
# NeuroGraph:脳コネクトロミクスにおけるグラフ機械学習のベンチマーク

NeuroGraph: Benchmarks for Graph Machine Learning in Brain Connectomics ( http://arxiv.org/abs/2306.06202v2 )

ライセンス: Link先を確認
Anwar Said, Roza G. Bayrak, Tyler Derr, Mudassir Shabbir, Daniel Moyer, Catie Chang, Xenofon Koutsoukos(参考訳) 機械学習は高次元機能的神経画像データを分析する貴重なツールであり、様々な神経疾患、精神疾患、認知パターンを予測するのに効果的である。 機能的磁気共鳴イメージング(MRI)研究において、脳領域間の相互作用はグラフベースの表現を用いて一般的にモデル化される。 グラフ機械学習手法の有効性は、データ解釈と予測モデリングにおける変換ステップを象徴する、無数の領域にまたがって確立されている。 しかし、これらの手法のニューロイメージング領域への変換は、その将来性にもかかわらず、グラフベースのデータセット構築のための拡張前処理パイプラインと大きなパラメータ探索スペースのために驚くほど過小評価されている。 本稿では,行動特性と認知特性の複数のカテゴリにまたがる,グラフベースの神経画像データセットのコレクションであるneurographを提案する。 静的コンテキストと動的コンテキストの両方で35のデータセットを作成し、ベンチマークのための15のベースラインメソッドを実行することで、データセット生成検索スペースを深く掘り下げています。 さらに、静的グラフだけでなく動的にも学習するための汎用フレームワークも提供しています。 私たちの広範な実験は、いくつかの重要な観測につながります。 特に、相関ベクトルをノードの特徴として使用し、より多くの関心領域を取り入れ、スパーザーグラフを使用すると、パフォーマンスが向上する。 グラフベースのデータ駆動ニューロイメージングのさらなる進歩を促進するため、データセット、ベースライン実装、モデルトレーニング、標準評価を含む、包括的なオープンソースPythonパッケージを提供しています。 このパッケージはhttps://anwar-said.github.io/anwarsaid/neurograph.htmlで公開されている。

Machine learning provides a valuable tool for analyzing high-dimensional functional neuroimaging data, and is proving effective in predicting various neurological conditions, psychiatric disorders, and cognitive patterns. In functional Magnetic Resonance Imaging (MRI) research, interactions between brain regions are commonly modeled using graph-based representations. The potency of graph machine learning methods has been established across myriad domains, marking a transformative step in data interpretation and predictive modeling. Yet, despite their promise, the transposition of these techniques to the neuroimaging domain remains surprisingly under-explored due to the expansive preprocessing pipeline and large parameter search space for graph-based datasets construction. In this paper, we introduce NeuroGraph, a collection of graph-based neuroimaging datasets that span multiple categories of behavioral and cognitive traits. We delve deeply into the dataset generation search space by crafting 35 datasets within both static and dynamic contexts, running in excess of 15 baseline methods for benchmarking. Additionally, we provide generic frameworks for learning on dynamic as well as static graphs. Our extensive experiments lead to several key observations. Notably, using correlation vectors as node features, incorporating larger number of regions of interest, and employing sparser graphs lead to improved performance. To foster further advancements in graph-based data driven Neuroimaging, we offer a comprehensive open source Python package that includes the datasets, baseline implementations, model training, and standard evaluation. The package is publicly accessible at https://anwar-said.github.io/anwarsaid/neurograph.html .
翻訳日:2023-06-27 22:14:18 公開日:2023-06-25
# あらゆるものを彫る道を開く:ユニバーサルピックレースロボットの基礎モデルを移す

Pave the Way to Grasp Anything: Transferring Foundation Models for Universal Pick-Place Robots ( http://arxiv.org/abs/2306.05716v2 )

ライセンス: Link先を確認
Jiange Yang, Wenhui Tan, Chuhao Jin, Bei Liu, Jianlong Fu, Ruihua Song, Limin Wang(参考訳) 汎用ロボットエージェントの一般化能力の向上は、研究コミュニティが積極的に追求している重要な課題である。 既存のアプローチでは、rt-1データセットのような大規模な実世界のロボットデータを収集することが多い。 しかし、これらのアプローチは典型的には低効率で、新しいオブジェクトと多様なバックグラウンドを持つオープンドメインシナリオの能力を制限する。 本稿では,現状の基盤モデルが生成する言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案し,日常のシナリオにおいて,多種多様なロボット操作タスクに対処する。 マスクから伝達される正確なセマンティクスとジオメトリをマルチビューポリシーモデルに統合することで、正確なオブジェクトポーズを知覚し、サンプル効率のよい学習を可能にする。 このようなデザインは、トレーニング中に観察される類似した形状で新しい物体を把握するための効果的な一般化を促進する。 私たちのアプローチは2つの異なるステップから成り立っている。 まず,複数のタスクにまたがる自然言語要求を正確に把握するための基礎モデルを紹介する。 第2に、RGB画像、セマンティックマスク、ロボットの受容状態などの入力を組み込んだマルチモーダル多視点ポリシーモデルを構築し、正確かつ実行可能なロボット動作を共同で予測する。 提案手法の有効性を検証するために,Franka Emikaロボットアームを用いた大規模な実世界実験を行った。 実世界のデモはYouTube(https://www.youtube.com/watch?v=1m9wNzfp_4E)とBilibili(https://www.bilibili.com/video/BV178411Z7H2/)で見られる。

Improving the generalization capabilities of general-purpose robotic agents has long been a significant challenge actively pursued by research communities. Existing approaches often rely on collecting large-scale real-world robotic data, such as the RT-1 dataset. However, these approaches typically suffer from low efficiency, limiting their capability in open-domain scenarios with new objects, and diverse backgrounds. In this paper, we propose a novel paradigm that effectively leverages language-grounded segmentation masks generated by state-of-the-art foundation models, to address a wide range of pick-and-place robot manipulation tasks in everyday scenarios. By integrating precise semantics and geometries conveyed from masks into our multi-view policy model, our approach can perceive accurate object poses and enable sample-efficient learning. Besides, such design facilitates effective generalization for grasping new objects with similar shapes observed during training. Our approach consists of two distinct steps. First, we introduce a series of foundation models to accurately ground natural language demands across multiple tasks. Second, we develop a Multi-modal Multi-view Policy Model that incorporates inputs such as RGB images, semantic masks, and robot proprioception states to jointly predict precise and executable robot actions. Extensive real-world experiments conducted on a Franka Emika robot arm validate the effectiveness of our proposed paradigm. Real-world demos are shown in YouTube (https://www.youtube.com/watch?v=1m9wNzfp_4E ) and Bilibili (https://www.bilibili.com/video/BV178411Z7H2/ ).
翻訳日:2023-06-27 22:13:54 公開日:2023-06-25
# 深部物理誘導粒子流場を用いた非教師なしクロスドメインソフトセンサモデリング

Unsupervised Cross-Domain Soft Sensor Modelling via Deep Physics-Inspired Particle Flow Bayes ( http://arxiv.org/abs/2306.04919v3 )

ライセンス: Link先を確認
Junn Yong Loo, Ze Yang Ding, Surya G. Nurzaman, Chee-Ming Ting, Vishnu Monn Baskaran and Chee Pin Tan(参考訳) データ駆動型ソフトセンサーは、信頼できる状態推定によって正確な知覚を達成するために不可欠である。 しかし、代表的なソフトセンサーモデルの開発には、ラベルの欠如、ドメイン適応性、データの時間的コヒーレンスといった問題がある。 これらの課題に対処するため,我々は,対象とする状態ラベルがない場合のクロスドメインソフトセンサモデリングのためのdpfb(deep particle flow bayes)フレームワークを提案する。 特に、シーケンシャルベイズ目標を最初に定式化し、クロスドメインソフトセンシング問題の基礎となる最大確率推定を行う。 フレームワークのコアには物理に触発された粒子の流れが組み込まれており、シーケンシャルベイズ目標を最適化し、抽出された潜在性と隠れた特徴の正確なベイズ更新を行う。 その結果,提案手法は複雑なクロスドメインシステムのダイナミクスを特徴付け,効率的な時系列非教師なしドメイン適応 (uda) を実現することができる。 最後に,複雑なダイナミクスと複数の動作条件を有する複合産業多相流プロセスシステム上での枠組みを検証する。 その結果,DPFBフレームワークは高いドメイン間ソフトセンシング性能,最先端の深部UDA性能,正規化フローアプローチを実現していることがわかった。

Data-driven soft sensors are essential for achieving accurate perception through reliable state inference. However, developing representative soft sensor models is challenged by issues such as missing labels, domain adaptability, and temporal coherence in data. To address these challenges, we propose a deep Particle Flow Bayes (DPFB) framework for cross-domain soft sensor modeling in the absence of target state labels. In particular, a sequential Bayes objective is first formulated to perform the maximum likelihood estimation underlying the cross-domain soft sensing problem. At the core of the framework, we incorporate a physics-inspired particle flow that optimizes the sequential Bayes objective to perform an exact Bayes update of the model extracted latent and hidden features. As a result, these contributions enable the proposed framework to learn a rich approximate posterior feature representation capable of characterizing complex cross-domain system dynamics and performing effective time series unsupervised domain adaptation (UDA). Finally, we validate the framework on a complex industrial multiphase flow process system with complex dynamics and multiple operating conditions. The results demonstrate that the DPFB framework achieves superior cross-domain soft sensing performance, outperforming state-of-the-art deep UDA and normalizing flow approaches.
翻訳日:2023-06-27 22:12:14 公開日:2023-06-25
# トルコ語テキスト可読性のためのハイブリッド言語機能の検討

Exploring Hybrid Linguistic Features for Turkish Text Readability ( http://arxiv.org/abs/2306.03774v2 )

ライセンス: Link先を確認
Ahmet Yavuz Uluslu and Gerold Schneider(参考訳) 本稿では,トルコ語テキストの自動可読性評価に関する最初の包括的研究を行う。 我々は,最先端のニューラルネットワークモデルと,語彙的,形態素的,構文的,談話的レベルでの言語的特徴を組み合わせることで,高度な可読性ツールを開発した。 従来の可読性公式の有効性を,現代の自動手法と比較して評価し,トルコ語の可読性を決定する重要な言語的特徴を特定する。

This paper presents the first comprehensive study on automatic readability assessment of Turkish texts. We combine state-of-the-art neural network models with linguistic features at lexical, morphosyntactic, syntactic and discourse levels to develop an advanced readability tool. We evaluate the effectiveness of traditional readability formulas compared to modern automated methods and identify key linguistic features that determine the readability of Turkish texts.
翻訳日:2023-06-27 22:11:52 公開日:2023-06-25
# 株価変動予測のためのChatGPTインフォームドグラフニューラルネットワーク

ChatGPT Informed Graph Neural Network for Stock Movement Prediction ( http://arxiv.org/abs/2306.03763v3 )

ライセンス: Link先を確認
Zihan Chen, Lei Nico Zheng, Cheng Lu, Jialu Yuan, Di Zhu(参考訳) ChatGPTは、様々な自然言語処理(NLP)タスクにまたがる顕著な機能を示している。 しかし、一時的なテキストデータ、特に金融ニュースから動的ネットワーク構造を推論する可能性はまだ未検討のフロンティアである。 本研究では,chatgptのグラフ推論機能を利用してグラフニューラルネットワーク(gnn)を強化する新しいフレームワークを提案する。 本フレームワークは,テキストデータから進化するネットワーク構造を十分に抽出し,これらのネットワークをグラフニューラルネットワークに組み込んで,その後の予測作業を行う。 ストックムーブメント予測による実験結果は、我々のモデルが最先端のディープラーニングベースのベンチマークを一貫して上回っていることを示している。 さらに, モデル出力に基づいて構築されたポートフォリオは, ボラティリティの低減と最大ドローダウンとともに, 年次累積リターンの向上を示す。 この優れたパフォーマンスは、テキストベースのネットワーク推論におけるChatGPTの可能性を強調し、金融セクターへの有望な影響を浮き彫りにしている。

ChatGPT has demonstrated remarkable capabilities across various natural language processing (NLP) tasks. However, its potential for inferring dynamic network structures from temporal textual data, specifically financial news, remains an unexplored frontier. In this research, we introduce a novel framework that leverages ChatGPT's graph inference capabilities to enhance Graph Neural Networks (GNN). Our framework adeptly extracts evolving network structures from textual data, and incorporates these networks into graph neural networks for subsequent predictive tasks. The experimental results from stock movement forecasting indicate our model has consistently outperformed the state-of-the-art Deep Learning-based benchmarks. Furthermore, the portfolios constructed based on our model's outputs demonstrate higher annualized cumulative returns, alongside reduced volatility and maximum drawdown. This superior performance highlights the potential of ChatGPT for text-based network inferences and underscores its promising implications for the financial sector.
翻訳日:2023-06-27 22:11:43 公開日:2023-06-25
# 素直に隠れる: 連合学習におけるデータ盗み攻撃

Hiding in Plain Sight: Disguising Data Stealing Attacks in Federated Learning ( http://arxiv.org/abs/2306.03013v4 )

ライセンス: Link先を確認
Kostadin Garov, Dimitar I. Dimitrov, Nikola Jovanovi\'c, Martin Vechev(参考訳) 悪意のあるサーバ(ms)攻撃は、フェデレーション学習におけるデータの盗みのスケーリングを可能にし、大規模なバッチサイズとセキュアアグリゲーションを可能にした。 しかし、MS攻撃のクライアント側検出性に関する多くの懸念が提起され、公開後にその実用性に疑問が呈された。 本研究では,クライアントサイド検出可能性の問題を初めて徹底的に検討し,従来のms攻撃のほとんどが,基本的に2つの重要な原則の1つに依存しており,クライアントサイドチェックの原則によって検出可能であることを実証する。 さらに,現実的なネットワークの勾配からユーザデータを盗むと同時に,大規模なバッチサイズ(実験では最大512個まで)やセキュアなアグリゲーションの下でも,すべてのデシダータを満足する新たな攻撃フレームワークであるSEERを提案する。 SEERの重要な洞察は、共有モデルと共同でトレーニングされたシークレットデコーダを使用することである。 私たちの作業は、MS攻撃をより原則的に扱うための、有望な第一歩であり、現実のデプロイメントにおけるユーザのプライバシを損なうような、現実的なデータ盗難への道を開くものです。

Malicious server (MS) attacks have enabled the scaling of data stealing in federated learning to large batch sizes and secure aggregation, settings previously considered private. However, many concerns regarding client-side detectability of MS attacks were raised, questioning their practicality once they are publicly known. In this work, for the first time, we thoroughly study the problem of client-side detectability.We demonstrate that most prior MS attacks, which fundamentally rely on one of two key principles, are detectable by principled client-side checks. Further, we formulate desiderata for practical MS attacks and propose SEER, a novel attack framework that satisfies all desiderata, while stealing user data from gradients of realistic networks, even for large batch sizes (up to 512 in our experiments) and under secure aggregation. The key insight of SEER is the use of a secret decoder, which is jointly trained with the shared model. Our work represents a promising first step towards more principled treatment of MS attacks, paving the way for realistic data stealing that can compromise user privacy in real-world deployments.
翻訳日:2023-06-27 22:11:26 公開日:2023-06-25
# 複数のアハルノフ-ボームフラックスを持つschr\"{o}dinger演算子

Schr\"{o}dinger operators with multiple Aharonov-Bohm fluxes ( http://arxiv.org/abs/2306.08910v2 )

ライセンス: Link先を確認
Michele Correggi, Davide Fermi(参考訳) n \geqslant 1 $ aharonov-bohm磁束の存在下で動く2次元の量子粒子を記述するschr\"{o}dinger演算子を研究した。 このような演算子のすべての自己随伴実現を分類し、それらのドメインとアクションの明示的な特徴付けを提供する。 さらに,そのスペクトル特性と散乱特性を考察し,特に自由動力学との関係で波動作用素の存在と完全性を証明する。

We study the Schr\"{o}dinger operator describing a two-dimensional quantum particle moving in presence of $ N \geqslant 1 $ Aharonov-Bohm magnetic fluxes. We classify all the self-adjont realizations of such an operator, providing an explicit characterization of their domains and actions. Moreover, we examine their spectral and scattering properties, proving in particular the existence and completeness of wave operators in relation with the free dynamics.
翻訳日:2023-06-27 22:03:17 公開日:2023-06-25
# Kernel Debiased Plug-in Estimation

Kernel Debiased Plug-in Estimation ( http://arxiv.org/abs/2306.08598v2 )

ライセンス: Link先を確認
Brian Cho, Kyra Gan, Ivana Malenica, Yaroslav Mukhin(参考訳) 本研究では,ノイズパラメータの存在下でスカラーターゲットパラメータを推定する問題を考察する。 未知のニュアンスパラメータを非パラメトリック推定器、例えば機械学習(ML)モデルで置き換えるのは便利であるが、大きなバイアスのために非効率であることが示されている。 ターゲット最小損失ベース推定(TMLE)やダブル機械学習(DML)といった現代の手法は、ML推定を利用して、プラグインバイアスを緩和し、柔軟な仮定の下で最適な性能を達成する。 準最適バイアス分散トレードオフを回避するため、これらの手法はプラグインの偏りを事前に見積もる。 既存のデバイアス手法では、ターゲットパラメータの影響関数を入力として要求する。 しかし、IFの派生には専門的な専門知識が必要であり、実践者によるこれらの手法の適応を妨げる。 プラグイン推定器をデバイアスする新しい方法を提案する。 (i)効率的である。 (ii)IFの実施を必要としない。 三) 計算的抽出が可能であり, 新たな推定問題に容易に適応でき, 利用者による解析的導出なしに自動化することができる。 我々はtmleフレームワーク上に構築し,再現カーネルヒルベルト空間 (rkhs) を用いて構築した非パラメトリックモデルに対して,正規化確率最大化ステップでプラグイン推定を更新し,任意の正規目標パラメータに対して効率的なプラグイン推定を生成する。 そこで本手法は,プラグインアプローチの有用性を犠牲にすることなく,競合するデバイアス手法の効率性を提供する。

We consider the problem of estimating a scalar target parameter in the presence of nuisance parameters. Replacing the unknown nuisance parameter with a nonparametric estimator, e.g.,a machine learning (ML) model, is convenient but has shown to be inefficient due to large biases. Modern methods, such as the targeted minimum loss-based estimation (TMLE) and double machine learning (DML), achieve optimal performance under flexible assumptions by harnessing ML estimates while mitigating the plug-in bias. To avoid a sub-optimal bias-variance trade-off, these methods perform a debiasing step of the plug-in pre-estimate. Existing debiasing methods require the influence function of the target parameter as input. However, deriving the IF requires specialized expertise and thus obstructs the adaptation of these methods by practitioners. We propose a novel way to debias plug-in estimators which (i) is efficient, (ii) does not require the IF to be implemented, (iii) is computationally tractable, and therefore can be readily adapted to new estimation problems and automated without analytic derivations by the user. We build on the TMLE framework and update a plug-in estimate with a regularized likelihood maximization step over a nonparametric model constructed with a reproducing kernel Hilbert space (RKHS), producing an efficient plug-in estimate for any regular target parameter. Our method, thus, offers the efficiency of competing debiasing techniques without sacrificing the utility of the plug-in approach.
翻訳日:2023-06-27 22:03:09 公開日:2023-06-25
# ニューラルサーフェスレンダリングによるごちゃごちゃした場面におけるロボット把持6次元学習

Learning Any-View 6DoF Robotic Grasping in Cluttered Scenes via Neural Surface Rendering ( http://arxiv.org/abs/2306.07392v2 )

ライセンス: Link先を確認
Snehal Jauhri, Ishikaa Lunawat, Georgia Chalvatzaki(参考訳) ロボット操作は、インテリジェントなアシストなど、さまざまなアプリケーションドメインにロボットエージェントを認める上で重要である。 主な課題は、余分なシーン探索を必要とせず、あらゆる視点から乱雑な環境のオブジェクトを効果的に把握することである。 ニューラルボリューム表現と表面レンダリングの最近の進歩を活用した,6dof把握のための新しい手法である$\textit{neugraspnet}$を導入する。 提案手法は,グローバル(シーンレベル)とローカル(グレープレベル)のニューラルサーフェス表現の両方を学習し,シーンの未確認部分においても,効果的で完全に暗黙的な6DoFによる品質予測を可能にする。 さらに,把持を局所的な神経表面レンダリング問題として再解釈し,ロボットの終末効果と物体表面形状との相互作用をモデル化する。 NeuGraspNetは単一の視点で動作し、閉ざされたシーンの把握候補をサンプリングし、文学における既存の暗黙的および半単純的ベースライン法よりも優れた性能を発揮する。 我々は,移動マニピュレータロボットを用いたNeuGraspNetの現実的適用性を実演し,シーンをレンダリングし,異なる物体の把握可能な領域を推論し,環境と衝突することなく達成する可能性のある把握を選択することにより,空間を乱雑に把握する。 プロジェクトのwebサイト: https://sites.google.com/view/neugraspnet

Robotic manipulation is critical for admitting robotic agents to various application domains, like intelligent assistance. A major challenge therein is the effective 6DoF grasping of objects in cluttered environments from any viewpoint without requiring additional scene exploration. We introduce $\textit{NeuGraspNet}$, a novel method for 6DoF grasp detection that leverages recent advances in neural volumetric representations and surface rendering. Our approach learns both global (scene-level) and local (grasp-level) neural surface representations, enabling effective and fully implicit 6DoF grasp quality prediction, even in unseen parts of the scene. Further, we reinterpret grasping as a local neural surface rendering problem, allowing the model to encode the interaction between the robot's end-effector and the object's surface geometry. NeuGraspNet operates on single viewpoints and can sample grasp candidates in occluded scenes, outperforming existing implicit and semi-implicit baseline methods in the literature. We demonstrate the real-world applicability of NeuGraspNet with a mobile manipulator robot, grasping in open spaces with clutter by rendering the scene, reasoning about graspable areas of different objects, and selecting grasps likely to succeed without colliding with the environment. Visit our project website: https://sites.google.com/view/neugraspnet
翻訳日:2023-06-27 22:01:34 公開日:2023-06-25
# 神経天体風モデル

Neural Astrophysical Wind Models ( http://arxiv.org/abs/2306.11666v2 )

ライセンス: Link先を確認
Dustin D. Nguyen(参考訳) 熱い超新星を駆動する銀河風のバルク運動と熱力学は、急激な冷却雲の量と非球面コリメートフロー幾何学の両方に依存する。 しかしながら、これらの物理を正確にパラメータ化することは、それらの機能形式がしばしば未知であり、結合された非線形フロー方程式が特異点を含むため困難である。 本研究では, 直交常微分方程式 (ODE) に個々の項として埋め込まれたディープニューラルネットワークが, 教師付き学習課題として, 真の関数構造に関する事前の知識を必要とせず, 両者をしっかりと発見できることを示す。 我々は,3変数を明示的に解くのではなく,マッハ数に基づく損失関数を最適化し,近似平均解に対してペナルティ項を適用する。 同じニューラルネットワークアーキテクチャを使って、隠れたマスローディングと表面積の拡大率の両方を学ぶ。 この研究は、非線形逆問題に対する機械論的解釈性を備えた有望な発見ツールとしてのニューラルODEの実現性をさらに強調する。

The bulk kinematics and thermodynamics of hot supernovae-driven galactic winds is critically dependent on both the amount of swept up cool clouds and non-spherical collimated flow geometry. However, accurately parameterizing these physics is difficult because their functional forms are often unknown, and because the coupled non-linear flow equations contain singularities. We show that deep neural networks embedded as individual terms in the governing coupled ordinary differential equations (ODEs) can robustly discover both of these physics, without any prior knowledge of the true function structure, as a supervised learning task. We optimize a loss function based on the Mach number, rather than the explicitly solved-for 3 conserved variables, and apply a penalty term towards near-diverging solutions. The same neural network architecture is used for learning both the hidden mass-loading and surface area expansion rates. This work further highlights the feasibility of neural ODEs as a promising discovery tool with mechanistic interpretability for non-linear inverse problems.
翻訳日:2023-06-27 20:08:28 公開日:2023-06-25
# ニューラルテキスト生成のための明示的統語指導

Explicit Syntactic Guidance for Neural Text Generation ( http://arxiv.org/abs/2306.11485v2 )

ライセンス: Link先を確認
Yafu Li, Leyang Cui, Jianhao Yan, Yongjing Yin, Wei Bi, Shuming Shi, Yue Zhang(参考訳) 既存のテキスト生成モデルはシーケンシャル・ツー・シーケンスパラダイムに従っている。 生成文法は、人間が言語文法を学習することで自然言語テキストを生成することを示唆する。 本稿では,構成構文解析木をトップダウン方向に導いたシーケンスを生成する構文誘導型生成スキーマを提案する。 復号処理は,(1)原文が与えられた語彙化構文コンテキストにおける各構成詞の入力テキストの予測,(2)次レベルの構文コンテキストを構築するために各構成詞のマッピングと拡張の2つの部分に分けられる。 そこで本研究では,構文構造を階層的に検索する構造ビーム探索手法を提案する。 パラフレーズ生成と機械翻訳の実験により,提案手法は自己回帰ベースラインを上回り,解釈可能性,制御性,多様性の面での有効性を示した。

Most existing text generation models follow the sequence-to-sequence paradigm. Generative Grammar suggests that humans generate natural language texts by learning language grammar. We propose a syntax-guided generation schema, which generates the sequence guided by a constituency parse tree in a top-down direction. The decoding process can be decomposed into two parts: (1) predicting the infilling texts for each constituent in the lexicalized syntax context given the source sentence; (2) mapping and expanding each constituent to construct the next-level syntax context. Accordingly, we propose a structural beam search method to find possible syntax structures hierarchically. Experiments on paraphrase generation and machine translation show that the proposed method outperforms autoregressive baselines, while also demonstrating effectiveness in terms of interpretability, controllability, and diversity.
翻訳日:2023-06-27 20:07:20 公開日:2023-06-25
# STOIC2021 COVID-19 AIチャレンジ:再利用可能なトレーニング方法論をプライベートデータに適用

The STOIC2021 COVID-19 AI challenge: applying reusable training methodologies to private data ( http://arxiv.org/abs/2306.10484v2 )

ライセンス: Link先を確認
Luuk H. Boulogne, Julian Lorenz, Daniel Kienzle, Robin Schon, Katja Ludwig, Rainer Lienhart, Simon Jegou, Guang Li, Cong Chen, Qi Wang, Derik Shi, Mayug Maniparambil, Dominik Muller, Silvan Mertes, Niklas Schroter, Fabio Hellmann, Miriam Elia, Ine Dirks, Matias Nicolas Bossa, Abel Diaz Berenguer, Tanmoy Mukherjee, Jef Vandemeulebroucke, Hichem Sahli, Nikos Deligiannis, Panagiotis Gonidakis, Ngoc Dung Huynh, Imran Razzak, Reda Bouadjenek, Mario Verdicchio, Pasquale Borrelli, Marco Aiello, James A. Meakin, Alexander Lemm, Christoph Russ, Razvan Ionasec, Nikos Paragios, Bram van Ginneken, and Marie-Pierre Revel Dubois(参考訳) 課題は、自動医療画像分析の最先端を推進する。 彼らが提供する公開トレーニングデータの量は、ソリューションのパフォーマンスを制限できる。 これらのソリューションのトレーニング方法論へのパブリックアクセスはまだ残っていない。 本研究は、プライベートデータ上でのトレーニングソリューションと再利用可能なトレーニング方法論を保証できるType Three (T3)チャレンジフォーマットを実装した。 T3では、チャレンジオーガナイザが参加者が提供するコードベースを、隔離されたトレーニングデータでトレーニングする。 T3はSTOIC2021チャレンジで実施され、CT(Computed tomography)スキャンから被験者が1ヶ月以内にインキュベーションまたは死亡と定義される重症なCOVID-19感染症を患っているかどうかを予測することを目的としている。 stoic2021は、2000年公開のctスキャンを使用してチャレンジソリューションを開発した資格フェーズと、9724名の被験者のctスキャンでソリューションをトレーニングしたトレーニング方法論を参加者が提出する最終フェーズで構成されていた。 主催者は最終段階の8回のうち6回を修了した。 トレーニングと実行のためのコードベースが公開された。 勝利解は、重篤なCOVID-19と非重症なCOVID-19(0.815)の鑑別のために、受信機動作特性曲線の下にある領域を得た。 全ファイナリストのファイナライズフェーズソリューションの改善 -HSUXJM-TNZF9CHSUXJM-TNZF9C-

Challenges drive the state-of-the-art of automated medical image analysis. The quantity of public training data that they provide can limit the performance of their solutions. Public access to the training methodology for these solutions remains absent. This study implements the Type Three (T3) challenge format, which allows for training solutions on private data and guarantees reusable training methodologies. With T3, challenge organizers train a codebase provided by the participants on sequestered training data. T3 was implemented in the STOIC2021 challenge, with the goal of predicting from a computed tomography (CT) scan whether subjects had a severe COVID-19 infection, defined as intubation or death within one month. STOIC2021 consisted of a Qualification phase, where participants developed challenge solutions using 2000 publicly available CT scans, and a Final phase, where participants submitted their training methodologies with which solutions were trained on CT scans of 9724 subjects. The organizers successfully trained six of the eight Final phase submissions. The submitted codebases for training and running inference were released publicly. The winning solution obtained an area under the receiver operating characteristic curve for discerning between severe and non-severe COVID-19 of 0.815. The Final phase solutions of all finalists improved upon their Qualification phase solutions.HSUXJM-TNZF9CHSUXJM-TNZF9C
翻訳日:2023-06-27 20:06:05 公開日:2023-06-25
# 薬物・標的相互作用予測のためのメタパスに基づく確率的ソフト論理

Meta-Path-based Probabilistic Soft Logic for Drug-Target Interaction Prediction ( http://arxiv.org/abs/2306.13770v1 )

ライセンス: Link先を確認
Shengming Zhang and Yizhou Sun(参考訳) 薬物と標的の相互作用(DTI)予測は、薬物が標的に束縛されるかどうかを予測することを目的としており、近年、医薬品設計のコストのかかるプロセスを自動化し、加速することを目的として、広く注目を集めている。 最近提案された手法の多くは、DTI予測に単一薬剤類似情報とターゲット類似情報を用いており、それら間の様々な類似性に関する豊富な情報を活用できない。 近年,多相性情報を活用するための手法が提案されているが,薬物や標的が属するあらゆる知識基盤の豊かなトポロジー情報を考慮する能力に欠ける。 さらに重要なのは、これらのアプローチの時間消費が非常に高く、大規模ネットワーク情報の使用を妨げていることだ。 そこで本研究では,薬物と薬物の類似性,標的の類似性,薬物と標的の相互作用,その他の潜在的な情報を含む多種ネットワーク上のメタパスに対して,確率的ソフトロジック(PSL)を適用したネットワークベースの薬物と標的の相互作用予測手法を提案する。 我々のアプローチはPSLグラフィカルモデルに基づいており、パスインスタンスの代わりにメタパスカウントを使用してPSLのルールインスタンス数を削減している。 3つのオープンソースデータセットで、我々のモデルを5つのメソッドと比較する。 実験の結果,AUPRスコアとAUCスコアにおいて,本手法は5つのベースラインすべてより優れていた。

Drug-target interaction (DTI) prediction, which aims at predicting whether a drug will be bounded to a target, have received wide attention recently, with the goal to automate and accelerate the costly process of drug design. Most of the recently proposed methods use single drug-drug similarity and target-target similarity information for DTI prediction, which are unable to take advantage of the abundant information regarding various types of similarities between them. Very recently, some methods are proposed to leverage multi-similarity information, however, they still lack the ability to take into consideration the rich topological information of all sorts of knowledge bases where the drugs and targets reside in. More importantly, the time consumption of these approaches is very high, which prevents the usage of large-scale network information. We thus propose a network-based drug-target interaction prediction approach, which applies probabilistic soft logic (PSL) to meta-paths on a heterogeneous network that contains multiple sources of information, including drug-drug similarities, target-target similarities, drug-target interactions, and other potential information. Our approach is based on the PSL graphical model and uses meta-path counts instead of path instances to reduce the number of rule instances of PSL. We compare our model against five methods, on three open-source datasets. The experimental results show that our approach outperforms all the five baselines in terms of AUPR score and AUC score.
翻訳日:2023-06-27 19:19:59 公開日:2023-06-25
# 大規模言語モデルによる中国のきめ細かな金融感情分析

Chinese Fine-Grained Financial Sentiment Analysis with Large Language Models ( http://arxiv.org/abs/2306.14096v1 )

ライセンス: Link先を確認
Yinyu Lan, Yanru Wu, Wang Xu, Weiqiang Feng, Youhao Zhang(参考訳) 金融ドメインにおけるエンティティレベルのきめ細かい感情分析は、感情分析の重要なサブタスクであり、現在多くの課題に直面している。 主な課題は、財務的なテキスト感情分析用に特別に設計された高品質で大規模な注釈付きコーパスが欠如していることであり、それによって効果的なテキスト処理技術を開発するために必要なデータの利用が制限される。 大規模言語モデル(llm)の最近の進歩は、自然言語処理タスクにおいて、主に言語パターンマッチングを中心に顕著なパフォーマンスをもたらした。 本稿では,企業早期警戒のための中国における財務感情分析データセットFinChina SAを提案する。 我々のデータセットを用いて、よく知られたオープンソースのLCMを徹底的に評価し、実験した。 我々は、我々のデータセットが、将来の研究の焦点となる実世界の財務感情分析タスクの探索を進めるための貴重なリソースとなると強く信じている。 私たちのデータセットと実験結果を複製するすべてのコードがリリースされます。

Entity-level fine-grained sentiment analysis in the financial domain is a crucial subtask of sentiment analysis and currently faces numerous challenges. The primary challenge stems from the lack of high-quality and large-scale annotated corpora specifically designed for financial text sentiment analysis, which in turn limits the availability of data necessary for developing effective text processing techniques. Recent advancements in large language models (LLMs) have yielded remarkable performance in natural language processing tasks, primarily centered around language pattern matching. In this paper, we propose a novel and extensive Chinese fine-grained financial sentiment analysis dataset, FinChina SA, for enterprise early warning. We thoroughly evaluate and experiment with well-known existing open-source LLMs using our dataset. We firmly believe that our dataset will serve as a valuable resource to advance the exploration of real-world financial sentiment analysis tasks, which should be the focus of future research. Our dataset and all code to replicate the experimental results will be released.
翻訳日:2023-06-27 17:04:08 公開日:2023-06-25
# 対称正弦波駆動をもつ$\mathcal{PT}$-symmetric Floquet量子系におけるラチェット電流

Ratchet current in a $\mathcal{PT}$-symmetric Floquet quantum system with symmetric sinusoidal driving ( http://arxiv.org/abs/2306.14095v1 )

ライセンス: Link先を確認
Zhiqiang Li, Xiaoxiao Hu, Jinpeng Xiao, Yajiang Chen, and Xiaobing Luo(参考訳) 対称時間(高調波)駆動を伴う$\mathcal{PT}$-symmetric Floquet量子系におけるラチェット力学を考察する。 正確な$\mathcal{pt}$位相において、有限個の共振周波数に対して、長い共振電流は対称な時間連続駆動で生成可能であることが示され、それ以外はエルミート極限における有向電流の発生を禁じる。 このような非エルミート共鳴電流は、非エルミートレベルを増大させ、特に、ポテンシャル深さの虚部が実部と等しいという条件の下で共鳴電流ピーク(最大の負の値)を上昇させ、例外点(EP)機構により安定した漸近電流が発生する。 さらに、駆動周波数とともに直線的に増加する対称破断に由来する指向電流を報告し、その背景にあるメカニズムは、駆動周波数が連続的に増加するにつれて、最大虚数準エネルギーを持つフロケット状態の運動量固有状態の遮断が増加することである。 また、共振電流を考慮し、一階共振に対する$\mathcal{pt}$-brokenレジームにおいても弱駆動に対する直接数値結果と驚くほど良い一致を与える非エルミート3レベルモデルを提案する。 その結果,従来はエルミート系の電流を発生させるのにのみ用いられていた滑らかな連続駆動により,非エルミート性制御ラチェット電流を実現する新しい方法が得られた。

We consider the ratchet dynamics in a $\mathcal{PT}$-symmetric Floquet quantum system with symmetric temporal (harmonic) driving. In the exact $\mathcal{PT}$ phase, for a finite number of resonant frequencies, we show that the long-lasting resonant currents can be generated with the symmetric time-continuous driving, which would otherwise forbid the generation of directed currents in the Hermitian limit. Such a non-Hermitian resonant current can be enhanced by increasing the non-Hermitian level, and in particular, the resonant current peaks (reaches the largest negative value) under the condition that the imaginary part of the potential depth is equal to the real part, at which the stable asymptotic current occurs owing to exceptional points (EPs) mechanism. Moreover, the directed currents originating from the symmetry breaking are reported, which increase linearly with the driving frequency, the mechanism behind which is that the cutoff of the momentum eigenstates for the Floquet state with maximum imaginary quasienergy increases as the driving frequency is continuously increased. We also present a non-Hermitian three-level model that can account for the resonant currents and gives surprisingly good agreement with direct numerical results for weak driving, even in the $\mathcal{PT}$-broken regime for the first-order resonance. Our results provide a new means of realizing the non-Hermiticity-controlled ratchet current by means of a smooth continuous driving, previously used only to generate currents in Hermitian systems.
翻訳日:2023-06-27 17:03:51 公開日:2023-06-25
# 最適性を保証したローカル分散オンライン学習

Locally Differentially Private Distributed Online Learning with Guaranteed Optimality ( http://arxiv.org/abs/2306.14094v1 )

ライセンス: Link先を確認
Ziqin Chen and Yongqiang Wang(参考訳) 分散オンライン学習は、大規模なデータセットやストリーミングデータを処理できるユニークな能力によって、勢いを増している。 To address the growing public awareness and concern on privacy protection, plenty of private distributed online learning algorithms have been proposed, mostly based on differential privacy which has emerged as the ``gold standard" for privacy protection. However, these algorithms often face the dilemma of trading learning accuracy for privacy. By exploiting the unique characteristics of online learning, this paper proposes an approach that tackles the dilemma and ensures both differential privacy and learning accuracy in distributed online learning. More specifically, while ensuring a diminishing expected instantaneous regret, the approach can simultaneously ensure a finite cumulative privacy budget, even on the infinite time horizon. To cater for the fully distributed setting, we adopt the local differential-privacy framework which avoids the reliance on a trusted data curator, and hence, provides stronger protection than the classic ``centralized" (global) differential privacy. 私たちの知る限りでは、これは厳密な局所微分プライバシーと学習精度の両方を保証する最初のアルゴリズムです。 提案アルゴリズムの有効性は, ``Mushrooms" と ``Covtype" データセットのロジスティック回帰や, ``MNIST" と ``CIFAR-10" データセットの CNN ベース画像分類など,機械学習タスクを用いて評価される。

Distributed online learning is gaining increased traction due to its unique ability to process large-scale datasets and streaming data. To address the growing public awareness and concern on privacy protection, plenty of private distributed online learning algorithms have been proposed, mostly based on differential privacy which has emerged as the ``gold standard" for privacy protection. However, these algorithms often face the dilemma of trading learning accuracy for privacy. By exploiting the unique characteristics of online learning, this paper proposes an approach that tackles the dilemma and ensures both differential privacy and learning accuracy in distributed online learning. More specifically, while ensuring a diminishing expected instantaneous regret, the approach can simultaneously ensure a finite cumulative privacy budget, even on the infinite time horizon. To cater for the fully distributed setting, we adopt the local differential-privacy framework which avoids the reliance on a trusted data curator, and hence, provides stronger protection than the classic ``centralized" (global) differential privacy. To the best of our knowledge, this is the first algorithm that successfully ensures both rigorous local differential privacy and learning accuracy. The effectiveness of the proposed algorithm is evaluated using machine learning tasks, including logistic regression on the ``Mushrooms" and ``Covtype" datasets and CNN based image classification on the ``MNIST" and ``CIFAR-10" datasets.
翻訳日:2023-06-27 17:03:21 公開日:2023-06-25
# 不均一クラスタを用いた無線フェデレーション学習におけるプライベートアグリゲーション

Private Aggregation in Wireless Federated Learning with Heterogeneous Clusters ( http://arxiv.org/abs/2306.14088v1 )

ライセンス: Link先を確認
Maximilian Egger, Christoph Hofmeister, Antonia Wachter-Zeh and Rawad Bitar(参考訳) フェデレーション学習は、複数の参加するクライアントが保有するプライベートなデータにニューラルネットワークを協調的にトレーニングする。 勾配降下アルゴリズムはよく知られ、よく知られた反復最適化手法であり、ニューラルネットワークを訓練するために実行される。 すべてのクライアントはローカルデータを使用して部分勾配を計算し、結果を集約するフェデレータに送信します。 クライアントのデータのプライバシは大きな懸念事項である。 実際、部分的な勾配の観測は、クライアントのデータを明らかにするのに十分である。 すべてのユーザが相互に接続し,フェデレーターに接続するフェデレーション学習において,プライバシ問題に対処するために,プライベートアグリゲーション方式が検討されている。 本稿では,クライアントが基地局を介してフェデレーターにのみ接続される無線システムアーキテクチャについて考察する。 情報理論のプライバシが必要な場合の通信コストの基本的な制限を導出し、この設定に適したプライベートアグリゲーションスキームを導入・分析する。

Federated learning collaboratively trains a neural network on privately owned data held by several participating clients. The gradient descent algorithm, a well-known and popular iterative optimization procedure, is run to train the neural network. Every client uses its local data to compute partial gradients and sends it to the federator which aggregates the results. Privacy of the clients' data is a major concern. In fact, observing the partial gradients can be enough to reveal the clients' data. Private aggregation schemes have been investigated to tackle the privacy problem in federated learning where all the users are connected to each other and to the federator. In this paper, we consider a wireless system architecture where clients are only connected to the federator via base stations. We derive fundamental limits on the communication cost when information-theoretic privacy is required, and introduce and analyze a private aggregation scheme tailored for this setting.
翻訳日:2023-06-27 17:02:59 公開日:2023-06-25
# アルゴリズム情報理論の回路複雑度定式化

A Circuit Complexity Formulation of Algorithmic Information Theory ( http://arxiv.org/abs/2306.14087v1 )

ライセンス: Link先を確認
Cole Wyeth and Carl Sturtivant(参考訳) インダクティブ推論のソロモンオフ理論に着想を得て,回路複雑性に基づく事前提案を行う。 このアプローチにはいくつかの利点がある。 まず、UTMの選択に依存しない複雑性尺度に依存する。 ブール回路の普遍的な定義は、nand のような普遍的な演算と、and や not のような別の定義への単純な変換を含む。 第二に、停止問題の類似は存在しない。 回路の出力値は、ゲート数に比例した時間でコンピュータによって再帰的に計算でき、短いプログラムは非常に長い時間実行することができる。 我々の以前の仮定では、ブール関数、またはそれと同値な長さのブール弦は、ある種のベイズ回路の混合によって生成される。 このモデルは、部分的情報からブール関数を学ぶのに適しており、機械学習内で「バイナリ分類」としてしばしば発生する問題である。 回路複雑性によって測定された単純な説明に対する帰納的バイアスがこの問題に適切である。

Inspired by Solomonoffs theory of inductive inference, we propose a prior based on circuit complexity. There are several advantages to this approach. First, it relies on a complexity measure that does not depend on the choice of UTM. There is one universal definition for Boolean circuits involving an universal operation such as nand with simple conversions to alternative definitions such as and, or, and not. Second, there is no analogue of the halting problem. The output value of a circuit can be calculated recursively by computer in time proportional to the number of gates, while a short program may run for a very long time. Our prior assumes that a Boolean function, or equivalently, Boolean string of fixed length, is generated by some Bayesian mixture of circuits. This model is appropriate for learning Boolean functions from partial information, a problem often encountered within machine learning as "binary classification." We argue that an inductive bias towards simple explanations as measured by circuit complexity is appropriate for this problem.
翻訳日:2023-06-27 17:02:44 公開日:2023-06-25
# tnpar:イベントシーケンスからグレンジャー因果構造を学ぶためのトポロジカルニューラルポアソン自己回帰モデル

TNPAR: Topological Neural Poisson Auto-Regressive Model for Learning Granger Causal Structure from Event Sequences ( http://arxiv.org/abs/2306.14114v1 )

ライセンス: Link先を確認
Ruichu Cai, Yuequn Liu, Wei Chen, Jie Qiao, Yuguang Yan, Zijian Li, Keli Zhang, Zhifeng Hao(参考訳) イベントシーケンスからグランジャー因果関係を学ぶことは、さまざまなアプリケーションで難しいが不可欠なタスクである。 既存のメソッドのほとんどは、イベントシーケンスが独立かつ同一分散である(i.i.d.)という仮定に依存している。 しかし、この i.d. 仮定は、イベントシーケンス間の固有の依存関係のためにしばしば違反される。 幸いなことに、実際にはこれらの依存関係はトポロジカルネットワークによってモデル化することができ、Granger因果発見に先立つトポロジカルネットワークを導入することで、非i.d.問題に対する潜在的な解決策を示唆している。 この観察は、次の2つの課題に取り組むよう促す。 1)事前トポロジカルネットワークと潜在グランジャー因果構造の両方を取り込んでイベントシーケンスをモデル化する方法、及び 2)グランジャー因果構造をどのように学ぶか。 そこで我々は,2段階統合トポロジカルニューラルポアソン自己回帰モデルを提案する。 生成段階において,神経ポアソン過程の変種を用いて,トポロジカルネットワークとグランジャー因果構造の両方の影響を考慮した事象列のモデル化を行う。 推定段階では、潜在グランジャー因果構造を推測するために、償却推論アルゴリズムを定式化する。 我々はこれら2つのステージを統一された可能性関数にカプセル化し、このタスクのエンドツーエンドフレームワークを提供する。

Learning Granger causality from event sequences is a challenging but essential task across various applications. Most existing methods rely on the assumption that event sequences are independent and identically distributed (i.i.d.). However, this i.i.d. assumption is often violated due to the inherent dependencies among the event sequences. Fortunately, in practice, we find these dependencies can be modeled by a topological network, suggesting a potential solution to the non-i.i.d. problem by introducing the prior topological network into Granger causal discovery. This observation prompts us to tackle two ensuing challenges: 1) how to model the event sequences while incorporating both the prior topological network and the latent Granger causal structure, and 2) how to learn the Granger causal structure. To this end, we devise a two-stage unified topological neural Poisson auto-regressive model. During the generation stage, we employ a variant of the neural Poisson process to model the event sequences, considering influences from both the topological network and the Granger causal structure. In the inference stage, we formulate an amortized inference algorithm to infer the latent Granger causal structure. We encapsulate these two stages within a unified likelihood function, providing an end-to-end framework for this task.
翻訳日:2023-06-27 16:53:42 公開日:2023-06-25
# データ選択による実世界画像分類におけるデータ冗長性の検討

Exploring Data Redundancy in Real-world Image Classification through Data Selection ( http://arxiv.org/abs/2306.14113v1 )

ライセンス: Link先を確認
Zhenyu Tang, Shaoting Zhang, Xiaosong Wang(参考訳) ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多いため、コストが増加する。 集中トレーニングのための分散データ収集など、医療イメージングにおいて特に難しい課題である一方で、品質ラベルの取得は依然として退屈な作業である。 例えば、継続学習、アクティブラーニング、フェデレーション学習など、データ評価プロセスの特定の形態を実際に示す様々なトレーニングパラダイムにおいて、この問題に対処するために多くの方法が提案されている。 しかし、既存の方法は非常に直感的か、実験で一般的なクリーン/トイデータセットに制限されている。 本研究では,実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。 新たなオンラインおよびオフラインデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。 オンラインアプローチでは,各エポックにおける階層型モデルパラメータの更新と勾配を効果的に活用し,さまざまなデータセットで同等の精度を維持しつつ,エポック数とサブセット(19%-59%)を削減したモデルのトレーニングを高速化する。 また、オフラインコアセットの構成にも拡張され、オリジナルの18%-30%のサブセットが生成される。 提案する適応データ選択とコアセット計算のコードは利用可能である(https://github.com/zhenyutang2023/data_selection)。

Deep learning models often require large amounts of data for training, leading to increased costs. It is particularly challenging in medical imaging, i.e., gathering distributed data for centralized training, and meanwhile, obtaining quality labels remains a tedious job. Many methods have been proposed to address this issue in various training paradigms, e.g., continual learning, active learning, and federated learning, which indeed demonstrate certain forms of the data valuation process. However, existing methods are either overly intuitive or limited to common clean/toy datasets in the experiments. In this work, we present two data valuation metrics based on Synaptic Intelligence and gradient norms, respectively, to study the redundancy in real-world image data. Novel online and offline data selection algorithms are then proposed via clustering and grouping based on the examined data values. Our online approach effectively evaluates data utilizing layerwise model parameter updates and gradients in each epoch and can accelerate model training with fewer epochs and a subset (e.g., 19%-59%) of data while maintaining equivalent levels of accuracy in a variety of datasets. It also extends to the offline coreset construction, producing subsets of only 18%-30% of the original. The codes for the proposed adaptive data selection and coreset computation are available (https://github.com/ZhenyuTANG2023/data_selection).
翻訳日:2023-06-27 16:53:21 公開日:2023-06-25
# RLHFは標準RLよりも難易度が高いか?

Is RLHF More Difficult than Standard RL? ( http://arxiv.org/abs/2306.14111v1 )

ライセンス: Link先を確認
Yuanhao Wang, Qinghua Liu, Chi Jin(参考訳) ヒューマンフィードバック(RLHF)からの強化学習は優先信号から学習し、標準強化学習(RL)は報酬信号から直接学習する。 選好は報奨よりも情報が少ないため、選好ベースのRLは明らかに困難である。 本論文は,幅広い選好モデルにおいて,既存のアルゴリズムや手法を用いて,報酬ベースのrlを直接解くことができることを理論的に証明する。 具体的には、(1)報酬ベースの確率モデルから引き出された選好については、報酬の小さな誤差を許容する頑健な報奨ベースのrlに、(2)フォン・ノイマンの勝者を見つけることを目的とした一般の任意の選好については、制限されたポリシーの下で、因子付きマルコフゲームのナッシュ均衡を求めるマルチエージェント報奨ベースのrlに、問題を還元する。 後者の場合、好みが最終状態にのみ依存する場合、さらに敵のMDPに還元することができる。 具体的証明可能なアルゴリズムによりすべての報酬に基づくRLサブルーチンをインスタンス化し、汎用関数近似を用いた表型MDPやMDPを含むモデルのモデルに適用する。 さらに、K-wise比較が利用可能である場合の保証も提供する。

Reinforcement learning from Human Feedback (RLHF) learns from preference signals, while standard Reinforcement Learning (RL) directly learns from reward signals. Preferences arguably contain less information than rewards, which makes preference-based RL seemingly more difficult. This paper theoretically proves that, for a wide range of preference models, we can solve preference-based RL directly using existing algorithms and techniques for reward-based RL, with small or no extra costs. Specifically, (1) for preferences that are drawn from reward-based probabilistic models, we reduce the problem to robust reward-based RL that can tolerate small errors in rewards; (2) for general arbitrary preferences where the objective is to find the von Neumann winner, we reduce the problem to multiagent reward-based RL which finds Nash equilibria for factored Markov games under a restricted set of policies. The latter case can be further reduce to adversarial MDP when preferences only depend on the final state. We instantiate all reward-based RL subroutines by concrete provable algorithms, and apply our theory to a large class of models including tabular MDPs and MDPs with generic function approximation. We further provide guarantees when K-wise comparisons are available.
翻訳日:2023-06-27 16:52:59 公開日:2023-06-25
# SAMがSonarイメージに出会ったとき

When SAM Meets Sonar Images ( http://arxiv.org/abs/2306.14109v1 )

ライセンス: Link先を確認
Lin Wang, Xiufen Ye, Liqiang Zhu, Weijie Wu, Jianguo Zhang, Huiming Xing, Chao Hu(参考訳) Segment Anything Model (SAM)はセグメンテーションのやり方に革命をもたらした。 しかし、自然画像とは異なる領域を含むタスクに適用した場合、SAMのパフォーマンスは低下する可能性がある。 それにもかかわらず、SAMは微調整技術を用いて、医学や惑星科学のような特定の領域で有望な能力を示す。 特に、SAMのソナーイメージングへの応用についての研究は乏しい。 本稿では,SAMのソナー画像における性能を包括的に調査することにより,このギャップに対処することを目的とする。 具体的には,ソナー画像の様々な設定を用いてSAMを評価する。 さらに、プロンプトとセマンティックセグメンテーションの両方で効果的な手法を用いてSAMを微調整し、自動セグメンテーションを必要とするタスクに適用性を広げる。 実験の結果,微調整SAMの性能は著しく向上した。

Segment Anything Model (SAM) has revolutionized the way of segmentation. However, SAM's performance may decline when applied to tasks involving domains that differ from natural images. Nonetheless, by employing fine-tuning techniques, SAM exhibits promising capabilities in specific domains, such as medicine and planetary science. Notably, there is a lack of research on the application of SAM to sonar imaging. In this paper, we aim to address this gap by conducting a comprehensive investigation of SAM's performance on sonar images. Specifically, we evaluate SAM using various settings on sonar images. Additionally, we fine-tune SAM using effective methods both with prompts and for semantic segmentation, thereby expanding its applicability to tasks requiring automated segmentation. Experimental results demonstrate a significant improvement in the performance of the fine-tuned SAM.
翻訳日:2023-06-27 16:52:36 公開日:2023-06-25
# SpikeCodec:スパイキングカメラのためのエンドツーエンドの圧縮フレームワーク

SpikeCodec: An End-to-end Learned Compression Framework for Spiking Camera ( http://arxiv.org/abs/2306.14108v1 )

ライセンス: Link先を確認
Kexiang Feng, Chuanmin Jia, Siwei Ma, and Wen Gao(参考訳) 近年, 連続モーション記録機能を有するバイオインスピレーションスパイクカメラは, 超高時間分解能撮像特性により注目されている。 このような画像特徴は、従来のカメラに比べて膨大なデータストレージと伝送負荷をもたらし、スパイクカメラが捉えたコンテンツの圧縮に深刻な困難と差し迫った必要性を生じさせる。 既存の損失データ圧縮法は, 統合燃焼特性と二項化データ構造により, スパイクストリームの効率よく圧縮できない。 スパイクカメラの撮像原理と情報忠実度を考慮して,スパイクストリームの効果的かつ堅牢な表現を導入する。 この表現に基づいて,シーンリカバリ,変分オートエンコーダ,スパイクシミュレータを用いた新しい学習スパイク圧縮フレームワークを提案する。 我々の知る限り、これは効率的で堅牢なスパイクストリーム圧縮のための最初のデータ訓練モデルである。 実験の結果,本手法は従来のコーデックや学習ベースコーデックよりも優れており,学習スパイクデータ圧縮のための強力なベースラインとなっている。

Recently, the bio-inspired spike camera with continuous motion recording capability has attracted tremendous attention due to its ultra high temporal resolution imaging characteristic. Such imaging feature results in huge data storage and transmission burden compared to that of traditional camera, raising severe challenge and imminent necessity in compression for spike camera captured content. Existing lossy data compression methods could not be applied for compressing spike streams efficiently due to integrate-and-fire characteristic and binarized data structure. Considering the imaging principle and information fidelity of spike cameras, we introduce an effective and robust representation of spike streams. Based on this representation, we propose a novel learned spike compression framework using scene recovery, variational auto-encoder plus spike simulator. To our knowledge, it is the first data-trained model for efficient and robust spike stream compression. Extensive experimental results show that our method outperforms the conventional and learning-based codecs, contributing a strong baseline for learned spike data compression.
翻訳日:2023-06-27 16:52:24 公開日:2023-06-25
# 半教師付き物体検出:最近の研究と進歩に関する調査

Semi-supervised Object Detection: A Survey on Recent Research and Progress ( http://arxiv.org/abs/2306.14106v1 )

ライセンス: Link先を確認
Yanyang Wang, Zhaoxiang Liu, Shiguo Lian(参考訳) 近年、オブジェクト検出の分野ではディープラーニング技術が成熟しており、ほとんどのアルゴリズムは教師あり学習となっている。 しかし、大量のラベル付きデータは高いコストの人的資源を必要とするため、効率と限界は低い。 半教師対象検出(SSOD)は、高い研究価値と実践性のために、ますます注目されている。 少量のラベル付きデータと大量のラベルなしデータを用いて情報を学ぶように設計されている。 本稿では,5つの側面からSSODアプローチに関する包括的かつ最新の調査を行う。 まず,データ拡張の方法をいくつか紹介する。 そこで我々は,主要な半教師付き戦略を擬似ラベル,一貫した正規化,グラフベースおよび移動学習に基づく手法に掘り下げ,いくつかの手法を導入する。 さらに,広く使用されている損失関数を提示し,共通ベンチマークデータセットを概説し,その精度を代表的手法で比較する。 最後に,本稿をまとめ,将来に向けて有望な研究の方向性について述べる。 本調査は,過去数年間に開発された主要なアプローチについて,より先進的な読者とともに,新たな分野への研究者や実践者に提供することを目的としている。

In recent years, deep learning technology has been maturely applied in the field of object detection, and most algorithms tend to be supervised learning. However, a large amount of labeled data requires high costs of human resources, which brings about low efficiency and limitations. Semi-supervised object detection (SSOD) has been paid more and more attentions due to its high research value and practicability. It is designed to learn information by using small amounts of labeled data and large amounts of unlabeled data. In this paper, we present a comprehensive and up-to-date survey on the SSOD approaches from five aspects. We first briefly introduce several ways of data augmentation. Then, we dive the mainstream semi-supervised strategies into pseudo labels, consistent regularization, graph based and transfer learning based methods, and introduce some methods in challenging settings. We further present widely-used loss functions, and then we outline the common benchmark datasets and compare the accuracy among different representative approaches. Finally, we conclude this paper and present some promising research directions for the future. Our survey aims to provide researchers and practitioners new to the field as well as more advanced readers with a solid understanding of the main approaches developed over the past few years.
翻訳日:2023-06-27 16:52:07 公開日:2023-06-25
# UAV車両再識別のための新しいデュアルプール注意モジュール

A Novel Dual-pooling Attention Module for UAV Vehicle Re-identification ( http://arxiv.org/abs/2306.14104v1 )

ライセンス: Link先を確認
Xiaoyan Guo, Jie Yang, Xinyu Jia, Chuanyan Zang, Yan Xu, Zhaoyang Chen(参考訳) 車両再識別 (re-id) は、他のカメラが撮影したものと同じ車両を識別する。 安全な都市やスマートシティの発展において重要な役割を担っている。 無人航空機(UAV)技術の急速な成長と実装により、UAV空撮シーンにおける車両のRe-IDは、研究者から大きな注目を集めている。 しかし、UAVの高度が高いため、車両画像の撮影角度は時々垂直に近似し、Re-IDの局所的な特徴は少ない。 そこで本稿では,cpa (channel-pooling attention) とspa ( spatial-pooling attention) の2つの分枝を構築し,複数のプーリング操作を用いて車両の細粒度情報への注目度を高めることにより,両チャネルおよび空間次元から車両の局所的重要な情報を抽出・強化する,新しいdpaモジュールを提案する。 具体的には、CpAモジュールは、4つのプール操作を組み合わせて特徴マップのチャネル間で動作し、識別情報を含む車両領域がより注目されるようにする。 SpAモジュールは同じプール操作戦略を使用して、画像領域における識別表現とマージ車両の特徴を重み付けで識別する。 両次元の特徴情報が最後に融合され、ラベル平滑化クロスエントロピー損失とハードマイニング三重項損失を用いて訓練され、uavショットの高さによる詳細情報の欠落が解決される。 提案手法の有効性は,VeRi-UAVとVRUをベースとした車両データセットの広範な実験により実証された。

Vehicle re-identification (Re-ID) involves identifying the same vehicle captured by other cameras, given a vehicle image. It plays a crucial role in the development of safe cities and smart cities. With the rapid growth and implementation of unmanned aerial vehicles (UAVs) technology, vehicle Re-ID in UAV aerial photography scenes has garnered significant attention from researchers. However, due to the high altitude of UAVs, the shooting angle of vehicle images sometimes approximates vertical, resulting in fewer local features for Re-ID. Therefore, this paper proposes a novel dual-pooling attention (DpA) module, which achieves the extraction and enhancement of locally important information about vehicles from both channel and spatial dimensions by constructing two branches of channel-pooling attention (CpA) and spatial-pooling attention (SpA), and employing multiple pooling operations to enhance the attention to fine-grained information of vehicles. Specifically, the CpA module operates between the channels of the feature map and splices features by combining four pooling operations so that vehicle regions containing discriminative information are given greater attention. The SpA module uses the same pooling operations strategy to identify discriminative representations and merge vehicle features in image regions in a weighted manner. The feature information of both dimensions is finally fused and trained jointly using label smoothing cross-entropy loss and hard mining triplet loss, thus solving the problem of missing detail information due to the high height of UAV shots. The proposed method's effectiveness is demonstrated through extensive experiments on the UAV-based vehicle datasets VeRi-UAV and VRU.
翻訳日:2023-06-27 16:51:49 公開日:2023-06-25
# 言語モデルは弱い学習者です

Language models are weak learners ( http://arxiv.org/abs/2306.14101v1 )

ライセンス: Link先を確認
Hariharan Manikandan, Yiding Jiang, J Zico Kolter(参考訳) 実践的および理論的機械学習における中心的な概念は$\textit{weak learner}$であり、(データ上の任意の分布において)より優れたランダム性能を達成する分類器である。 このような弱い学習者は、強化のような標準的な機械学習手法の実践的基盤を形成する。 本稿では,プロンプトベースの大規模言語モデルが,弱学習者のように効果的に動作することを示す。 具体的には,表データに適用するブースティングアルゴリズムにおいて,弱学習者としての大規模言語モデル(llm)の利用について述べる。 LLMは、表データサンプルのテキスト記述(関心の分布に応じて適切なサンプル化)を提供することで、分類のテンプレートとして機能するサンプルの要約を作成し、このタスクにおいて弱い学習者として振る舞う目的を達成できることを示す。 このようなモデルをブースティングアプローチに取り入れることで、llm内の知識を活用して、従来のツリーベースのブーストよりも優れています。 このモデルは、特に少数のデータポイントを含むタスクにおいて、少数ショット学習と、場合によってはより詳細なチューニング手順の両方よりも優れています。 結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。

A central notion in practical and theoretical machine learning is that of a $\textit{weak learner}$, classifiers that achieve better-than-random performance (on any given distribution over data), even by a small margin. Such weak learners form the practical basis for canonical machine learning methods such as boosting. In this work, we illustrate that prompt-based large language models can operate effectively as said weak learners. Specifically, we illustrate the use of a large language model (LLM) as a weak learner in a boosting algorithm applied to tabular data. We show that by providing (properly sampled according to the distribution of interest) text descriptions of tabular data samples, LLMs can produce a summary of the samples that serves as a template for classification and achieves the aim of acting as a weak learner on this task. We incorporate these models into a boosting approach, which in some settings can leverage the knowledge within the LLM to outperform traditional tree-based boosting. The model outperforms both few-shot learning and occasionally even more involved fine-tuning procedures, particularly for tasks involving small numbers of data points. The results illustrate the potential for prompt-based LLMs to function not just as few-shot learners themselves, but as components of larger machine learning pipelines.
翻訳日:2023-06-27 16:51:16 公開日:2023-06-25
# ニューロモルフィック視覚センサを用いた高精度・低遅延広視野ダイヤモンド量子センシング

High-precision and low-latency widefield diamond quantum sensing with neuromorphic vision sensors ( http://arxiv.org/abs/2306.14099v1 )

ライセンス: Link先を確認
Zhiyuan Du, Madhav Gupta, Feng Xu, Kai Zhang, Jiahua Zhang, Yan Zhou, Yiyao Liu, Zhenyu Wang, Jorg Wrachtrup, Ngai Wong, Can Li, Zhiqin Chu(参考訳) 過去10年間、様々な用途で超高感度ダイヤモンド磁気測定の開発に注目が集まってきた。 従来のフレームベースのセンサの採用を改善する試みにもかかわらず、高い時間分解能と感度を同時に達成することは重要な課題である。 これは、ダイヤモンドのスピン欠陥の広視野蛍光強度変化を捉えるために、大量のセンサーデータの転送と処理が主な原因である。 本研究では,神経型視覚センサを用いてこの問題に対処する。 このセンサは、検出された信号を、人間の視覚系の動作によく似た動作原理を用いて、量子センシングのための光検出磁気共鳴(ODMR)測定で前処理する。 光強度の変化をスパイクに符号化することにより、この手法は広いダイナミックレンジ、高時間分解能、および例外的な信号-背景比をもたらす。 理論的実現可能性の徹底的な評価の後, 市販のイベントカメラを用いた実験では, 時間分解能が13倍に向上し, ODMR共鳴周波数の検出精度は, 最先端の高度に専門化されたフレームベースアプローチと比較した。 同じ機構の特殊なカメラシステムは、これらの利点をさらに強化する可能性がある。 このパフォーマンス改善は、主にデータボリュームが桁違いに小さいことに起因するため、レイテンシが低下する。 さらに, ダイヤモンド表面に被覆した金ナノ粒子の動的変調レーザー加熱のモニタリングにおいて, 既存の手法では認識が難しい課題である。 現在の開発は、より効率的なイベントベースのデータ処理のために、新興メモリデバイスと統合可能な、高精度で低レイテンシなワイドフィールド量子センシングのための新しい洞察を提供する。

During the past decade, interest has grown significantly in developing ultrasensitive widefield diamond magnetometry for various applications. Despite attempts to improve the adoption of conventional frame-based sensors, achieving high temporal resolution and sensitivity simultaneously remains a key challenge. This is largely due to the transfer and processing of massive amounts of sensor data to capture the widefield fluorescence intensity changes of spin defects in diamonds. In this study, we adopt a neuromorphic vision sensor to address this issue. This sensor pre-processes the detected signals in optically detected magnetic resonance (ODMR) measurements for quantum sensing, employing a working principle that closely resembles the operation of the human vision system. By encoding the changes of light intensity into spikes, this approach results in a vast dynamic range, high temporal resolution, and exceptional signal-to-background ratio. After a thorough evaluation of theoretical feasibility, our experiment with an off-the-shelf event camera demonstrated a 13x improvement in temporal resolution with comparable precision of detecting ODMR resonance frequencies compared with the state-of-the-art highly specialized frame-based approach. A specialized camera system with the same mechanism has the potential to enhance these benefits further. This performance improvement is primarily attributable to orders of magnitude smaller data volumes and, thus, reduced latency. We further showcase the deployment of this technology in monitoring dynamically modulated laser heating of gold nanoparticles coated on a diamond surface, a recognizably difficult task using existing approaches. The current development provides new insights for high-precision and low-latency widefield quantum sensing, with possibilities for integration with emerging memory devices for more efficient event-based data processing.
翻訳日:2023-06-27 16:50:54 公開日:2023-06-25
# マルチグリッド変動モデルに基づく解釈可能な小訓練セット画像分割ネットワーク

Interpretable Small Training Set Image Segmentation Network Originated from Multi-Grid Variational Model ( http://arxiv.org/abs/2306.14097v1 )

ライセンス: Link先を確認
Junying Meng and Weihong Guo and Jun Liu and Mingrui Yang(参考訳) 画像セグメンテーションの主な目的は、画像をさらに分析するために均質な領域に分割することである。 これは医療画像など多くの応用において重要かつ重要な課題である。 深層学習(DL)手法が提案され,画像分割に広く利用されている。 しかしながら、これらの手法は通常、トレーニングデータとして大量の手動セグメントデータを必要とし、(ブラックボックス問題として知られる)解釈性に乏しい。 古典的なマンフォード・シャーモデル(MS)はセグメント化に有効であり、元の画像の断片的に滑らかな近似を提供する。 本稿では,MSモデルにおける手作りの規則項を,データ適応型一般化学習可能規則項に置き換え,マルチグリッドフレームワークを用いてMSモデルをアンロールし,より一般化性と解釈性のある変動モデルベースセグメンテーションネットワークを得る。 このアプローチにより、学習可能な事前情報をネットワーク構造設計に組み込むことができる。 さらに、マルチグリッドフレームワークは、マルチスケールの特徴抽出を可能にし、良好な画像分割結果を生成するためのU字型ネットワーク構造の有効性に関する数学的説明を提供する。 提案されたネットワークは変動モデルに由来するため、小さなトレーニングサイズの処理も可能である。 我々は,REFUGEデータセット,White Blood Cell画像データセット,および3次元大腿筋磁気共鳴(MR)画像を用いた実験により,訓練データセットが小さい場合でも,アートセグメンテーション手法の関連状況と比較して,より優れたセグメンテーション結果が得られることを示した。

The main objective of image segmentation is to divide an image into homogeneous regions for further analysis. This is a significant and crucial task in many applications such as medical imaging. Deep learning (DL) methods have been proposed and widely used for image segmentation. However, these methods usually require a large amount of manually segmented data as training data and suffer from poor interpretability (known as the black box problem). The classical Mumford-Shah (MS) model is effective for segmentation and provides a piece-wise smooth approximation of the original image. In this paper, we replace the hand-crafted regularity term in the MS model with a data adaptive generalized learnable regularity term and use a multi-grid framework to unroll the MS model and obtain a variational model-based segmentation network with better generalizability and interpretability. This approach allows for the incorporation of learnable prior information into the network structure design. Moreover, the multi-grid framework enables multi-scale feature extraction and offers a mathematical explanation for the effectiveness of the U-shaped network structure in producing good image segmentation results. Due to the proposed network originates from a variational model, it can also handle small training sizes. Our experiments on the REFUGE dataset, the White Blood Cell image dataset, and 3D thigh muscle magnetic resonance (MR) images demonstrate that even with smaller training datasets, our method yields better segmentation results compared to related state of the art segmentation methods.
翻訳日:2023-06-27 16:50:28 公開日:2023-06-25
# 強化学習に基づく編集による安全批判シナリオ生成

Safety-Critical Scenario Generation Via Reinforcement Learning Based Editing ( http://arxiv.org/abs/2306.14131v1 )

ライセンス: Link先を確認
Haolan Liu, Liangjun Zhang, Siva Kumar Sastry Hari, Jishen Zhao(参考訳) 安全クリティカルシナリオの生成は、自動運転車の安全性のテストと検証に不可欠である。 従来の最適化手法は次元の呪いに苦しめられ、探索空間を固定パラメータ空間に制限する。 これらの課題に対処するため,我々は,新しいエージェントの追加や既存エージェントのトラジェクタの変更など,逐次編集によってシナリオを生成する深層強化学習手法を提案する。 我々のフレームワークはリスクと可能性の両方の目的からなる報酬機能を採用している。 妥当性の目標は、変分オートエンコーダのような生成モデルを利用して、トレーニングデータセットから生成されたパラメータの可能性を学習する。 われわれのアプローチは次元的課題を克服し、幅広い安全クリティカルシナリオを探求する。 提案手法は, 従来手法と比較して, 品質の高い安全クリティカルなシナリオを生成することを示す。

Generating safety-critical scenarios is essential for testing and verifying the safety of autonomous vehicles. Traditional optimization techniques suffer from the curse of dimensionality and limit the search space to fixed parameter spaces. To address these challenges, we propose a deep reinforcement learning approach that generates scenarios by sequential editing, such as adding new agents or modifying the trajectories of the existing agents. Our framework employs a reward function consisting of both risk and plausibility objectives. The plausibility objective leverages generative models, such as a variational autoencoder, to learn the likelihood of the generated parameters from the training datasets; It penalizes the generation of unlikely scenarios. Our approach overcomes the dimensionality challenge and explores a wide range of safety-critical scenarios. Our evaluation demonstrates that the proposed method generates safety-critical scenarios of higher quality compared with previous approaches.
翻訳日:2023-06-27 16:44:31 公開日:2023-06-25
# 染色体ストレートニングのための仮設条件変分オートエンコーダ

Masked conditional variational autoencoders for chromosome straightening ( http://arxiv.org/abs/2306.14129v1 )

ライセンス: Link先を確認
Jingxiong Li, Sunyi Zheng, Zhongyi Shui, Shichuan Zhang, Linyi Yang, Yuxuan Sun, Yunlong Zhang, Honglin Li, Yuanxin Ye, Peter M.A. van Ooijen, Kang Li, Lin Yang(参考訳) カリオタイピングはヒト疾患における染色体異常の検出に重要である。 しかし、染色体は顕微鏡画像に容易に湾曲し、細胞遺伝学者が染色体の型を分析するのを防ぐ。 そこで本研究では,仮処理アルゴリズムとマスキング条件変動オートエンコーダ(mc-vae)と呼ばれる生成モデルからなる染色体直線化の枠組みを提案する。 この処理方法はパッチ再構成を利用して、低次曲率の消去の難しさに対処し、MC-VAEに対して合理的な予備結果を与える。 mc-vaeは、曲率を調節した染色体パッチを利用して、結束パターンと条件のマッピングを学ぶことで、結果をさらに直線化する。 モデルトレーニングでは,高マスキング比のマスキング戦略を適用し,冗長性を排除したMC-VAEのトレーニングを行う。 これにより、非自明な再構成作業が得られ、再構成結果における染色体バンドリングパターンと構造の詳細を効果的に保存することができる。 2つのステンドスタイルを持つ3つの公開データセットに対する大規模な実験により、我々のフレームワークはバンドリングパターンと構造の詳細を維持するための最先端の手法の性能を上回ることを示した。 実世界のベント染色体と比較して,提案手法によって生成された高品質のストレート化染色体を用いることで,染色体分類のための様々な深層学習モデルの性能を大きなマージンで向上させることができる。 このようなストレート化アプローチは、染色体解析において細胞遺伝学者を助けるために他の核型システムと組み合わせられる可能性がある。

Karyotyping is of importance for detecting chromosomal aberrations in human disease. However, chromosomes easily appear curved in microscopic images, which prevents cytogeneticists from analyzing chromosome types. To address this issue, we propose a framework for chromosome straightening, which comprises a preliminary processing algorithm and a generative model called masked conditional variational autoencoders (MC-VAE). The processing method utilizes patch rearrangement to address the difficulty in erasing low degrees of curvature, providing reasonable preliminary results for the MC-VAE. The MC-VAE further straightens the results by leveraging chromosome patches conditioned on their curvatures to learn the mapping between banding patterns and conditions. During model training, we apply a masking strategy with a high masking ratio to train the MC-VAE with eliminated redundancy. This yields a non-trivial reconstruction task, allowing the model to effectively preserve chromosome banding patterns and structure details in the reconstructed results. Extensive experiments on three public datasets with two stain styles show that our framework surpasses the performance of state-of-the-art methods in retaining banding patterns and structure details. Compared to using real-world bent chromosomes, the use of high-quality straightened chromosomes generated by our proposed method can improve the performance of various deep learning models for chromosome classification by a large margin. Such a straightening approach has the potential to be combined with other karyotyping systems to assist cytogeneticists in chromosome analysis.
翻訳日:2023-06-27 16:44:19 公開日:2023-06-25
# 動的対向訓練によるロバスト時空間交通予測

Robust Spatiotemporal Traffic Forecasting with Reinforced Dynamic Adversarial Training ( http://arxiv.org/abs/2306.14126v1 )

ライセンス: Link先を確認
Fan Liu and Weijia Zhang and Hao Liu(参考訳) 機械学習に基づく予測モデルは、Intelligent Transportation Systems(ITS)において、交通パターンを予測し、都市全体のサービスを提供するために一般的に使用されている。 しかし、既存のモデルの多くは逆襲の影響を受けやすいため、不正確な予測と混雑や遅延などの負の結果をもたらす可能性がある。 したがって、これらのモデルの対角的堅牢性を向上させることはITSにとって重要である。 本稿では,対人訓練を時空間交通予測タスクに組み込むための新しい枠組みを提案する。 静的ドメインに指定された従来の敵対的トレーニング手法は,動的攻撃に対して効果的に防御できないため,トラヒック予測タスクに直接適用できないことを実証する。 そこで本研究では,動的攻撃防御能力の強化とモデルオーバーフィッティングの低減を同時に行う,敵例の最適ノード選択戦略を学習するための強化学習ベース手法を提案する。 さらに, 学習中に相反ノードを連続的に変更することによる「忘れ問題」を克服するために, 自己認識蒸留正規化モジュールを導入する。 実世界の2つのトラフィックデータセットに対する我々のアプローチを評価し、その優位性を他のベースラインよりも示す。 本手法は時空間交通予測モデルの対向ロバストネスを効果的に向上させる。 私たちのフレームワークのソースコードはhttps://github.com/usail-hkust/rdatで閲覧できます。

Machine learning-based forecasting models are commonly used in Intelligent Transportation Systems (ITS) to predict traffic patterns and provide city-wide services. However, most of the existing models are susceptible to adversarial attacks, which can lead to inaccurate predictions and negative consequences such as congestion and delays. Therefore, improving the adversarial robustness of these models is crucial for ITS. In this paper, we propose a novel framework for incorporating adversarial training into spatiotemporal traffic forecasting tasks. We demonstrate that traditional adversarial training methods designated for static domains cannot be directly applied to traffic forecasting tasks, as they fail to effectively defend against dynamic adversarial attacks. Then, we propose a reinforcement learning-based method to learn the optimal node selection strategy for adversarial examples, which simultaneously strengthens the dynamic attack defense capability and reduces the model overfitting. Additionally, we introduce a self-knowledge distillation regularization module to overcome the "forgetting issue" caused by continuously changing adversarial nodes during training. We evaluate our approach on two real-world traffic datasets and demonstrate its superiority over other baselines. Our method effectively enhances the adversarial robustness of spatiotemporal traffic forecasting models. The source code for our framework is available at https://github.com/usail-hkust/RDAT.
翻訳日:2023-06-27 16:43:55 公開日:2023-06-25
# 連合学習におけるプライバシーと公平性--トレードオフの観点から

Privacy and Fairness in Federated Learning: on the Perspective of Trade-off ( http://arxiv.org/abs/2306.14123v1 )

ライセンス: Link先を確認
Huiqiang Chen, Tianqing Zhu, Tao Zhang, Wanlei Zhou, Philip S. Yu(参考訳) 近年,連合学習(fl)がホットな話題となっている。 導入以来、研究者はプライバシーを保護したり、公正な結果を保証するflシステムを考案しようと努力してきた。 2つの重要な倫理的概念として、プライバシーと公平性の相互作用は比較的研究されていない。 しかし、プライバシと公平性は競合するので、個別に考えると必然的に他方のコストがかかる。 これら2つの重要なトピックを広く見ていくために,プライバシと公平性の問題に関する詳細な文献レビューを行い,flが提起するユニークな課題と,フェデレーション設定におけるソリューションに注目した。 さらに,プライバシとフェアネスの相互作用を体系的に調査し,プライバシとフェアネスが相互にどのように影響するかを明らかにし,フェアとプライベートのflにおける新たな研究方向性を指摘する。

Federated learning (FL) has been a hot topic in recent years. Ever since it was introduced, researchers have endeavored to devise FL systems that protect privacy or ensure fair results, with most research focusing on one or the other. As two crucial ethical notions, the interactions between privacy and fairness are comparatively less studied. However, since privacy and fairness compete, considering each in isolation will inevitably come at the cost of the other. To provide a broad view of these two critical topics, we presented a detailed literature review of privacy and fairness issues, highlighting unique challenges posed by FL and solutions in federated settings. We further systematically surveyed different interactions between privacy and fairness, trying to reveal how privacy and fairness could affect each other and point out new research directions in fair and private FL.
翻訳日:2023-06-27 16:43:35 公開日:2023-06-25
# マルチモーダル名前付きエンティティとマルチモーダル関係抽出のための連鎖式プロンプト蒸留法

Chain-of-Thought Prompt Distillation for Multimodal Named Entity and Multimodal Relation Extraction ( http://arxiv.org/abs/2306.14122v1 )

ライセンス: Link先を確認
Feng Chen and Yujian Feng(参考訳) multimodal named entity recognition (mner) と multimodal relation extraction (mre) は、複雑な言語とマルチモーダル理解のための基本的な推論能力を必要とする。 本研究では,中間的推論ステップの列である \textit{chain of thought} (cot) を生成することにより,大規模言語モデル(llms)の推論能力を,よりコンパクトな学生モデルに蒸留することを検討する。 具体的には,マルチグライン(名詞,文,多様性)とデータ表示(スタイル,実体,画像)の次元をカバーするcotプロンプトを通じて,llmからそのような推論能力の解明を例示することで開始する。 次に, LLMからコモンセンス推論能力を同化させる新しい条件付きプロンプト蒸留法を提案し, 画像やCoTの知識を必要とせず, テキストのみの入力に対処する際の学生モデルの有用性を高める。 広汎な実験により,本手法は最先端の精度を実現し,MNERおよびMREデータセット上での解釈可能性,データ効率,ドメイン間の一般化に関する多くの利点を示す。

Multimodal Named Entity Recognition (MNER) and Multimodal Relation Extraction (MRE) necessitate the fundamental reasoning capacity for intricate linguistic and multimodal comprehension. In this study, we explore distilling the reasoning ability of large language models (LLMs) into a more compact student model by generating a \textit{chain of thought} (CoT) -- a sequence of intermediate reasoning steps. Specifically, we commence by exemplifying the elicitation of such reasoning ability from LLMs through CoT prompts covering multi-grain (noun, sentence, multimodality) and data-augmentation (style, entity, image) dimensions. Subsequently, we present a novel conditional prompt distillation method to assimilate the commonsense reasoning ability from LLMs, thereby enhancing the utility of the student model in addressing text-only inputs without the requisite addition of image and CoT knowledge. Extensive experiments reveal that our approach attains state-of-the-art accuracy and manifests a plethora of advantages concerning interpretability, data efficiency, and cross-domain generalization on MNER and MRE datasets.
翻訳日:2023-06-27 16:43:20 公開日:2023-06-25
# 幾何学的証拠の収集に基づく物体検出

Object Detection based on the Collection of Geometric Evidence ( http://arxiv.org/abs/2306.14120v1 )

ライセンス: Link先を確認
Hui Wei, Fu-yu Tang(参考訳) 人工物体は通常非常に安定な形状の特徴を持ち、幾何学において安定で永続的な性質を持つ。 物体認識の証拠を提供することができる。 形状特徴は外観特徴、色特徴、グレースケール特徴、グラデーション特徴よりも安定し、より識別される。 形状特徴に基づく物体認識の難しさは、物体が色、照明、大きさ、位置、ポーズ、背景の干渉によって異なる可能性があり、現在可能な全ての条件を予測できないことである。 様々なオブジェクトと条件は、幾何学的特徴に基づくオブジェクト認識を非常に困難にする。 本稿では,画像のエッジセグメントの幾何学的証拠の選択,収集,組合せの識別を含む形状テンプレートに基づく手法を提案し,対象オブジェクトを背景から正確に探索し,対象オブジェクトの各ラインセグメントの意味的属性を識別する。 本質的に、この方法は大域的最適組合せ最適化問題を解くことを含む。 大域的最適組合せ最適化問題の複雑さは非常に高いと思われるが、複雑な特徴ベクトルを定義する必要はなく、高価なトレーニングプロセスも不要である。 一般化能力と環境適応性に優れており、認知心理学において他の方法よりも強固な基礎を持っている。 幾何学的証拠を収集する過程は単純で普遍的であり、実用へのかなりの見通しを示している。 実験の結果, 環境の変化, 不変認識, 物体の形状の特定, 探索効率, 効率的な計算において, この手法は大きなアドバンテージを持つことがわかった。 この試みは、オブジェクト認識の過程におけるある種の普遍的処理の理解に寄与する。

Artificial objects usually have very stable shape features, which are stable, persistent properties in geometry. They can provide evidence for object recognition. Shape features are more stable and more distinguishing than appearance features, color features, grayscale features, or gradient features. The difficulty with object recognition based on shape features is that objects may differ in color, lighting, size, position, pose, and background interference, and it is not currently possible to predict all possible conditions. The variety of objects and conditions renders object recognition based on geometric features very challenging. This paper provides a method based on shape templates, which involves the selection, collection, and combination discrimination of geometric evidence of the edge segments of images, to find out the target object accurately from background, and it is able to identify the semantic attributes of each line segment of the target object. In essence, the method involves solving a global optimal combinatorial optimization problem. Although the complexity of the global optimal combinatorial optimization problem seems to be very high, there is no need to define the complex feature vector and no need for any expensive training process. It has very good generalization ability and environmental adaptability, and more solid basis for cognitive psychology than other methods. The process of collecting geometric evidence, which is simple and universal, shows considerable prospects for practical use. The experimental results prove that the method has great advantages in response to changes in the environment, invariant recognition, pinpointing the geometry of objects, search efficiency, and efficient calculation. This attempt contributes to understanding of some types of universal processing during the process of object recognition.
翻訳日:2023-06-27 16:42:59 公開日:2023-06-25
# shisrcnet : 低解像度乳癌病理組織像のための超解像・分類ネットワーク

SHISRCNet: Super-resolution And Classification Network For Low-resolution Breast Cancer Histopathology Image ( http://arxiv.org/abs/2306.14119v1 )

ライセンス: Link先を確認
Luyuan Xie, Cong Li, Zirui Wang, Xin Zhang, Boyan Chen, Qingni Shen, Zhonghai Wu(参考訳) 女性の死因として知られる乳がんの迅速同定と正確な診断は、これらの患者にとって大きな意味を持つようになった。 多数の乳癌組織像分類法が提案されている。 しかし、2つの問題を抱えている。 1) これらの手法は高分解能画像のみを処理できる。 しかし、低解像度(LR)画像はハードウェア条件が限られたデジタルスライドスキャナーによって収集されることが多い。 HR画像と比較すると、LR画像はしばしばテクスチャのような重要な特徴を失い、診断の精度に深く影響を与えます。 2) 既存手法には一定の受容場があるため, 拡大係数の異なる画像に対して, マルチスケールな特徴を抽出・融合することはできない。 これらのギャップを埋めるために、超解法(SR)と分類(CF)モジュールの2つのモジュールからなる、 \textbf{S}ingle \textbf{H}istopathological \textbf{I}mage \textbf{S}uper-\textbf{R}esolution \textbf{C}lassification Network (SHISRCNet)を示す。 SRモジュールはLR画像をSRモジュールに再構成する。 CFモジュールは、分類のためのSR画像のマルチスケール特徴を抽出し、融合する。 トレーニング段階では,ShiSRCNetの性能を高めるため,CFモジュールにHR画像を導入する。 最後に、これらの2つのモジュールの合同訓練により、LR画像の超解像と分類をモデルに統合する。 実験結果から,本手法の有効性は,HR画像を入力として用いたSOTA法に近いことがわかった。

The rapid identification and accurate diagnosis of breast cancer, known as the killer of women, have become greatly significant for those patients. Numerous breast cancer histopathological image classification methods have been proposed. But they still suffer from two problems. (1) These methods can only hand high-resolution (HR) images. However, the low-resolution (LR) images are often collected by the digital slide scanner with limited hardware conditions. Compared with HR images, LR images often lose some key features like texture, which deeply affects the accuracy of diagnosis. (2) The existing methods have fixed receptive fields, so they can not extract and fuse multi-scale features well for images with different magnification factors. To fill these gaps, we present a \textbf{S}ingle \textbf{H}istopathological \textbf{I}mage \textbf{S}uper-\textbf{R}esolution \textbf{C}lassification network (SHISRCNet), which consists of two modules: Super-Resolution (SR) and Classification (CF) modules. SR module reconstructs LR images into SR ones. CF module extracts and fuses the multi-scale features of SR images for classification. In the training stage, we introduce HR images into the CF module to enhance SHISRCNet's performance. Finally, through the joint training of these two modules, super-resolution and classified of LR images are integrated into our model. The experimental results demonstrate that the effects of our method are close to the SOTA methods with taking HR images as inputs.
翻訳日:2023-06-27 16:42:36 公開日:2023-06-25
# 機械学習と消費者データ

Machine Learning and Consumer Data ( http://arxiv.org/abs/2306.14118v1 )

ライセンス: Link先を確認
Hannah H. Chang, Anirban Mukherjee(参考訳) デジタル革命は人間の行動のデジタル化につながり、不整合スケールでの観測可能な行動を理解する前例のない機会を生み出した。 クラウドファンディングやクラウドソーシングといった新興現象は、新たな行動パターンを導入しながら、消費者の行動をさらに明るくしている。 しかし、このデータの量と複雑さは、マーケティング研究者や実践者にとって大きな課題となっている。 消費者データ分析に使われる従来の手法は、新興データソースの幅、精度、スケールを扱うのに不足している。 これを解決するために、一般に構造化データ、テキストデータ、監査データ、視覚データを含む消費者行動に関連する「大きなデータ」を管理する計算手法が開発された。 これらの方法、特に機械学習は、多面データの効率的な解析と処理を可能にする。 これらの最近の展開を踏まえ、本稿では、研究者や実践者が消費者行動の大規模研究のために新しいデータソースと分析技術に精通することを模索する。 これは、一般消費者向けデータの理解と活用における計算社会科学の応用の紹介となる。

The digital revolution has led to the digitization of human behavior, creating unprecedented opportunities to understand observable actions on an unmatched scale. Emerging phenomena such as crowdfunding and crowdsourcing have further illuminated consumer behavior while also introducing new behavioral patterns. However, the sheer volume and complexity of this data present significant challenges for marketing researchers and practitioners. Traditional methods used to analyze consumer data fall short in handling the breadth, precision, and scale of emerging data sources. To address this, computational methods have been developed to manage the "big data" associated with consumer behavior, which typically includes structured data, textual data, audial data, and visual data. These methods, particularly machine learning, allow for effective parsing and processing of multi-faceted data. Given these recent developments, this review article seeks to familiarize researchers and practitioners with new data sources and analysis techniques for studying consumer behavior at scale. It serves as an introduction to the application of computational social science in understanding and leveraging publicly available consumer data.
翻訳日:2023-06-27 16:42:04 公開日:2023-06-25
# CVPR Vision 23 Challenge Track 1 - データ有効欠陥検出のための第2位ソリューション

The Second-place Solution for CVPR VISION 23 Challenge Track 1 -- Data Effificient Defect Detection ( http://arxiv.org/abs/2306.14116v1 )

ライセンス: Link先を確認
Xian Tao, Zhen Qu, Hengliang Luo, Jianwen Han, Yonghao He, Danfeng Liu, Chengkan Lv, Fei Shen, Zhengtao Zhang(参考訳) データ効率のよい欠陥検出のためのヴィジョンチャレンジトラック1は、競合相手がデータ不足設定の工業検査データセット14をインスタンスに要求する。 本報告では,この課題に対するaoi-overfitting-teamの技術的詳細を紹介する。 本手法は,限られたトレーニングサンプルを持つシナリオにおける欠陥マスクのセグメンテーション品質の重要な問題に焦点を当てる。 ハイブリッドタスクカスケード(htc)インスタンスセグメンテーションアルゴリズムに基づいて、cbnetv2にインスパイアされた複合接続を介してトランスフォーマーバックボーン(swin-b)を接続し、ベースライン結果を強化する。 さらに,セグメンテーション効果をさらに高めるためのモデルアンサンブル手法を提案する。1つは意味セグメンテーションをインスタンスセグメンテーションに,もう1つはマルチインスタンスセグメンテーション融合アルゴリズムを用いる。 最後に,マルチスケールトレーニングとテストタイム拡張 (tta) を用いて,48.49%以上の平均map@0.50:0.95と,データ欠失検出課題のテストセットで平均mar@0.50:0.95を66.71%とした。 コードはhttps://github.com/love6tao/aoi-overfitting-teamで入手できる。

The Vision Challenge Track 1 for Data-Effificient Defect Detection requires competitors to instance segment 14 industrial inspection datasets in a data-defificient setting. This report introduces the technical details of the team Aoi-overfifitting-Team for this challenge. Our method focuses on the key problem of segmentation quality of defect masks in scenarios with limited training samples. Based on the Hybrid Task Cascade (HTC) instance segmentation algorithm, we connect the transformer backbone (Swin-B) through composite connections inspired by CBNetv2 to enhance the baseline results. Additionally, we propose two model ensemble methods to further enhance the segmentation effect: one incorporates semantic segmentation into instance segmentation, while the other employs multi-instance segmentation fusion algorithms. Finally, using multi-scale training and test-time augmentation (TTA), we achieve an average mAP@0.50:0.95 of more than 48.49% and an average mAR@0.50:0.95 of 66.71% on the test set of the Data Effificient Defect Detection Challenge. The code is available at https://github.com/love6tao/Aoi-overfitting-team
翻訳日:2023-06-27 16:41:49 公開日:2023-06-25
# 信頼できる説明に向けて:因果的合理化について

Towards Trustworthy Explanation: On Causal Rationalization ( http://arxiv.org/abs/2306.14115v1 )

ライセンス: Link先を確認
Wenbo Zhang, Tong Wu, Yunlong Wang, Yong Cai, Hengrui Cai(参考訳) 近年の自然言語処理の進歩により、有理化は、入力テキストのサブセットを選択して予測の大きな変動を考慮し、ブラックボックスを混乱させるために必要な自己説明図となる。 しかし、合理化に関する既存の関連に基づくアプローチは、2つ以上のスニペットが非常に相関性の高い場合、真の合理性を識別できないため、予測精度、いわゆるスプリアスネスに類似した貢献を与える。 この制限に対処するために、我々は因果推論の観点から2つの因果デシダータ(非純粋性と効率性)を合理的に活用する。 我々は,新しく提案された構造的因果モデルに基づく因果関係の連続確率を定式化し,その理論的同定を学習の重要かつ十分な合理性の主要な構成要素として定式化する。 提案する因果的合理化の優れた性能は,実世界のレビューおよび医療データセットにおいて,最先端の手法と比較して広範な実験によって実証される。

With recent advances in natural language processing, rationalization becomes an essential self-explaining diagram to disentangle the black box by selecting a subset of input texts to account for the major variation in prediction. Yet, existing association-based approaches on rationalization cannot identify true rationales when two or more snippets are highly inter-correlated and thus provide a similar contribution to prediction accuracy, so-called spuriousness. To address this limitation, we novelly leverage two causal desiderata, non-spuriousness and efficiency, into rationalization from the causal inference perspective. We formally define a series of probabilities of causation based on a newly proposed structural causal model of rationalization, with its theoretical identification established as the main component of learning necessary and sufficient rationales. The superior performance of the proposed causal rationalization is demonstrated on real-world review and medical datasets with extensive experiments compared to state-of-the-art methods.
翻訳日:2023-06-27 16:41:25 公開日:2023-06-25
# domaintudio:限定データを用いたドメイン駆動画像生成のための微調整拡散モデル

DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data ( http://arxiv.org/abs/2306.14153v1 )

ライセンス: Link先を確認
Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan(参考訳) denoising diffusion probabilistic models (ddpms) は、大量のデータでトレーニングされた場合、非常に多様な高品質な画像を合成できることが証明されている。 典型的拡散モデルとテキスト・ツー・イメージ生成モデルのような現代の大規模条件生成モデルは、極端に限られたデータに微調整された場合、過度な適合に弱い。 既存の研究は、いくつかの画像を含む参照セットを用いて主題駆動生成を調査してきた。 しかし、DDPMベースのドメイン駆動生成は、多様性を維持しながらターゲットドメインの共通の特徴を学習することを目的としている。 本稿では,大規模ソースデータセット上で事前学習したDDPMを限定データを用いて対象ドメインに適応する新しいDomainStudioアプローチを提案する。 ソースドメインが提供する対象の多様性を維持し、ターゲットドメインで高品質で多様な適応サンプルを取得するように設計されている。 本稿では,適応試料間の相対的距離を保ち,相当な世代多様性を達成することを提案する。 さらに,高頻度ディテールの学習をさらに強化し,高次品質を実現する。 我々のアプローチは無条件拡散モデルと条件拡散モデルの両方と互換性がある。 この研究は、拡散モデルを用いて無条件の少数ショット画像生成を実現し、現在最先端のGANベースのアプローチよりも優れた品質と多様性を実現する最初の試みである。 さらに、条件付き生成の過剰適合を著しく軽減し、高品質なドメイン駆動生成を実現し、現代の大規模テキスト・画像モデルに適用可能なシナリオをさらに拡大する。

Denoising diffusion probabilistic models (DDPMs) have been proven capable of synthesizing high-quality images with remarkable diversity when trained on large amounts of data. Typical diffusion models and modern large-scale conditional generative models like text-to-image generative models are vulnerable to overfitting when fine-tuned on extremely limited data. Existing works have explored subject-driven generation using a reference set containing a few images. However, few prior works explore DDPM-based domain-driven generation, which aims to learn the common features of target domains while maintaining diversity. This paper proposes a novel DomainStudio approach to adapt DDPMs pre-trained on large-scale source datasets to target domains using limited data. It is designed to keep the diversity of subjects provided by source domains and get high-quality and diverse adapted samples in target domains. We propose to keep the relative distances between adapted samples to achieve considerable generation diversity. In addition, we further enhance the learning of high-frequency details for better generation quality. Our approach is compatible with both unconditional and conditional diffusion models. This work makes the first attempt to realize unconditional few-shot image generation with diffusion models, achieving better quality and greater diversity than current state-of-the-art GAN-based approaches. Moreover, this work also significantly relieves overfitting for conditional generation and realizes high-quality domain-driven generation, further expanding the applicable scenarios of modern large-scale text-to-image models.
翻訳日:2023-06-27 16:33:46 公開日:2023-06-25
# 言語モデル圧縮のための低ランクプルーネ・アンド・ファクタライズ

Low-Rank Prune-And-Factorize for Language Model Compression ( http://arxiv.org/abs/2306.14152v1 )

ライセンス: Link先を確認
Siyu Ren, Kenny Q. Zhu(参考訳) PLM(大型重量行列)を支える部品には、かなりの冗長性があることが示されている。 行列論の確立した手法である行列分解は、PLMにおけるパラメータの削減に利用されてきた。 しかし、中程度から高い圧縮速度で良好な性能を維持することができない。 本稿では,微調整plmの \textit{full-rankness} を,行列因子分解の失敗の基本的なボトルネックとし,ネットワークプルーニングを用いて行列因子分解に好適な低位スパルシティパターンを抽出することを検討する。 このような低ランク空間パターンは1次プルーニングによって生成されたモデルにのみ存在し、2つのアプローチを統一し、より効率的なモデル圧縮を実現する動機となる。 さらに、圧縮手順の初期化と訓練を改善するために、空間認識型SVDと混合ランク微調整の2つの手法を提案する。 GLUEと質問応答タスクの実験により,提案手法は既存の手法に比べて圧縮性能のトレードオフが優れていることが示された。

The components underpinning PLMs -- large weight matrices -- were shown to bear considerable redundancy. Matrix factorization, a well-established technique from matrix theory, has been utilized to reduce the number of parameters in PLM. However, it fails to retain satisfactory performance under moderate to high compression rate. In this paper, we identify the \textit{full-rankness} of fine-tuned PLM as the fundamental bottleneck for the failure of matrix factorization and explore the use of network pruning to extract low-rank sparsity pattern desirable to matrix factorization. We find such low-rank sparsity pattern exclusively exists in models generated by first-order pruning, which motivates us to unite the two approaches and achieve more effective model compression. We further propose two techniques: sparsity-aware SVD and mixed-rank fine-tuning, which improve the initialization and training of the compression procedure, respectively. Experiments on GLUE and question-answering tasks show that the proposed method has superior compression-performance trade-off compared to existing approaches.
翻訳日:2023-06-27 16:33:24 公開日:2023-06-25
# SciMRC: マルチパースペクティブな科学機械読解

SciMRC: Multi-perspective Scientific Machine Reading Comprehension ( http://arxiv.org/abs/2306.14149v1 )

ライセンス: Link先を確認
Xiao Zhang, Heqi Zheng, Yuxiang Nie, Heyan Huang, Xian-Ling Mao(参考訳) 科学機械読解(Scientific Machine reading comprehension, SMRC)は、人間との対話を通じて科学的テキストを理解することを目的としている。 私たちが知る限り、フルテキストの科学機械の理解を探求するデータセットは1つしかない。 しかし、データセットは、異なる読者がテキストの理解レベルが異なる可能性があるという事実を無視しており、単一のパースペクティブな質問応答ペアしか含まないため、異なる視点の考慮が欠如している。 上記の課題に対処するために,初心者,学生,専門家の視点を含む,SciMRCと呼ばれる新しい多視点SMRCデータセットを提案する。 提案するsimrcは、741の論文と6,057の質問応答対からなる。 初心者,学生,専門家の各視点は,それぞれ3,306対,1,800対,951対である。 事前学習モデルを用いたSciMRCに関する広範な実験は、SMRCの観点を考えることの重要性を示唆し、マシン理解におけるその挑戦的な性質を示している。

Scientific machine reading comprehension (SMRC) aims to understand scientific texts through interactions with humans by given questions. As far as we know, there is only one dataset focused on exploring full-text scientific machine reading comprehension. However, the dataset has ignored the fact that different readers may have different levels of understanding of the text, and only includes single-perspective question-answer pairs, leading to a lack of consideration of different perspectives. To tackle the above problem, we propose a novel multi-perspective SMRC dataset, called SciMRC, which includes perspectives from beginners, students and experts. Our proposed SciMRC is constructed from 741 scientific papers and 6,057 question-answer pairs. Each perspective of beginners, students and experts contains 3,306, 1,800 and 951 QA pairs, respectively. The extensive experiments on SciMRC by utilizing pre-trained models suggest the importance of considering perspectives of SMRC, and demonstrate its challenging nature for machine comprehension.
翻訳日:2023-06-27 16:33:06 公開日:2023-06-25
# Squeezed State Entanglement Schemeにおける非ガウス状態の生成

Generation of Non-Gaussian States in the Squeezed State Entanglement Scheme ( http://arxiv.org/abs/2306.14148v1 )

ライセンス: Link先を確認
E. N. Bashmakova, S. B. Korolev, T. Yu. Golubeva(参考訳) 本稿では、エンタングル状態光子測定法を用いて、異なる非ガウス状態を生成する可能性について考察する。 本稿では,このスキームの出力状態の波動関数とウィグナー関数を明示的に求める方法を提案する。 さらに、発見された解は特定の場合に限定されないが、最大一般性を持つ(測定された光子の数とスキームの全てのパラメータに依存する)。 このような表記法により、スキームパラメータに応じて出力状態の完全な解析を行うことができた。 明示的な表現を用いて,出力状態の非ガウス性の大きさを解析し,提案手法でどのような状態が得られるかを明らかにする。 我々は、特定の測定例(単一光子測定)を詳細に検討し、出力状態波関数に対して明示的な表現を用いることで、高い忠実度と高い確率を持つ量子誤り訂正符号に適した状態を得るためのスキームパラメータを求めることができることを示した。 振幅 $\alpha=2$ のシュロディンガー猫状態は、約 0.88$ と確率 18% で得られ、絞られたシュロディンガー猫状態 (\alpha=0.5$, $r=1$) は、フィデリティ $f \approx 0.98$ と確率 22%で得られる。

The paper considers the possibility of generating different non-Gaussian states using the entangled state photon measurement scheme. In the paper, we have proposed a way to explicitly find the wave function and the Wigner function of the output state of this scheme. Moreover, the solutions found are not restricted to any particular case, but have maximum generality (depend on the number of measured photons and on all parameters of the scheme). Such a notation allowed us to carry out a complete analysis of the output states, depending on the scheme parameters. Using explicit expressions, we have analyzed the magnitude of non-Gaussianity of the output states, and we have revealed which particular states can be obtained in the proposed scheme. We have considered in detail a particular case of measurement (single photon measurement) and have shown that using explicit expressions for the output state wave function one can find scheme parameters to obtain states suitable for quantum error correction codes with a large fidelity value and high probability. The Schrodinger cat state with amplitude $\alpha=2$ can be obtained with fidelity $F \approx 0.88$ and probability 18 percent, and the squeezed Schrodinger cat state ($\alpha=0.5$, $R=1$) with fidelity $F \approx 0.98$ and probability 22 percent.
翻訳日:2023-06-27 16:32:48 公開日:2023-06-25
# DSE-TTS:言語間テキスト合成のためのデュアル話者埋め込み

DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech ( http://arxiv.org/abs/2306.14145v1 )

ライセンス: Link先を確認
Sen Liu, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu(参考訳) 高忠実度音声は言語内音声合成に利用できるが、話者音色(すなわち話者類似性)を正確に保持し、アクセントを第1言語(すなわちネイティブ性)から排除することが難しいため、言語間テキスト合成(CTTS)は未だに満足できない。 本稿では,ベクトル量子化(vq)音響特徴がメルスペクトログラムよりも話者情報が少ないことを示す。 そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。 ここでは,1つの埋め込みを音響モデルに入力し,発話スタイルを学習し,もう1つの埋め込みをボコーダに統合し,対象話者の音色を模倣する。 両方の埋め込みを組み合わせることで、DSE-TTSは、特にネイティブ性の観点から、言語間合成において最先端のSANE-TTSを著しく上回ることを示した。

Although high-fidelity speech can be obtained for intralingual speech synthesis, cross-lingual text-to-speech (CTTS) is still far from satisfactory as it is difficult to accurately retain the speaker timbres(i.e. speaker similarity) and eliminate the accents from their first language(i.e. nativeness). In this paper, we demonstrated that vector-quantized(VQ) acoustic feature contains less speaker information than mel-spectrogram. Based on this finding, we propose a novel dual speaker embedding TTS (DSE-TTS) framework for CTTS with authentic speaking style. Here, one embedding is fed to the acoustic model to learn the linguistic speaking style, while the other one is integrated into the vocoder to mimic the target speaker's timbre. Experiments show that by combining both embeddings, DSE-TTS significantly outperforms the state-of-the-art SANE-TTS in cross-lingual synthesis, especially in terms of nativeness.
翻訳日:2023-06-27 16:32:21 公開日:2023-06-25
# 水中物体検出のための拡張型クロスドメイン協調ネットワーク

A Gated Cross-domain Collaborative Network for Underwater Object Detection ( http://arxiv.org/abs/2306.14141v1 )

ライセンス: Link先を確認
Linhui Dai, Hong Liu, Pinhao Song, Mengyuan Liu(参考訳) 水中物体検出(UOD)は養殖と海洋環境保護において重要な役割を果たしている。 水中環境における低コントラストおよび低光環境による課題を踏まえ,水中画像の品質向上を目的とした水中画像強調(UIE)手法が提案されている。 しかし、UODは必然的に重要なパターンや水中物体の細部を除去・変更する可能性があるため、改良された画像のみを使用することで性能は向上しない。 対照的に、2つのドメインから補完的な情報を探索することは、UODにとって有益であると考えている。 原画像はシーンの自然的特徴と物体のテクスチャ情報を保存し、強化された画像は水中物体の視認性を向上させる。 この観点から,3つの専用コンポーネントからなる水中環境における低視認性と低コントラストの課題に対処するため,GCC-Net(Gated Cross-domain Collaborative Network)を提案する。 まず,低コントラスト領域におけるオブジェクトの視認性を向上させるため,拡張画像の生成にリアルタイムのuie法を適用した。 第2に,raw と enhanced image の機能間のインタラクションと補完情報をマイニングするためのクロスドメイン機能インタラクションモジュールが導入された。 第3に,信頼できない結果の汚染を防止するため,クロスドメイン情報の融合比を適応的に制御するゲート型特徴融合モジュールを提案する。 本手法は,ドメイン間の情報相互作用と融合の観点から,新しい UOD パラダイムを提案する。 実験の結果,提案したGCC-Netは4つの水中データセット上で最先端の性能を達成できた。

Underwater object detection (UOD) plays a significant role in aquaculture and marine environmental protection. Considering the challenges posed by low contrast and low-light conditions in underwater environments, several underwater image enhancement (UIE) methods have been proposed to improve the quality of underwater images. However, only using the enhanced images does not improve the performance of UOD, since it may unavoidably remove or alter critical patterns and details of underwater objects. In contrast, we believe that exploring the complementary information from the two domains is beneficial for UOD. The raw image preserves the natural characteristics of the scene and texture information of the objects, while the enhanced image improves the visibility of underwater objects. Based on this perspective, we propose a Gated Cross-domain Collaborative Network (GCC-Net) to address the challenges of poor visibility and low contrast in underwater environments, which comprises three dedicated components. Firstly, a real-time UIE method is employed to generate enhanced images, which can improve the visibility of objects in low-contrast areas. Secondly, a cross-domain feature interaction module is introduced to facilitate the interaction and mine complementary information between raw and enhanced image features. Thirdly, to prevent the contamination of unreliable generated results, a gated feature fusion module is proposed to adaptively control the fusion ratio of cross-domain information. Our method presents a new UOD paradigm from the perspective of cross-domain information interaction and fusion. Experimental results demonstrate that the proposed GCC-Net achieves state-of-the-art performance on four underwater datasets.
翻訳日:2023-06-27 16:31:59 公開日:2023-06-25
# マルチスケールコントラスト正規化を用いたスクリブル制御セルセグメンテーション

Scribble-supervised Cell Segmentation Using Multiscale Contrastive Regularization ( http://arxiv.org/abs/2306.14136v1 )

ライセンス: Link先を確認
Hyun-Jic Oh, Kanggeun Lee, Won-Ki Jeong(参考訳) 現在最先端の深層学習に基づくセグメンテーション手法は、医用画像セグメンテーションタスクにおいて優れた性能を示している。 しかし、このような教師付きアプローチでは、完全に注釈付きピクセルレベルの接地ラベルが必要となる。 最近、Scribble2Label (S2L) は、一握りのスクリブルと自己教師付き学習を使用することで、完全なアノテーションなしで正確なセグメンテーション結果が得られることを示した。 しかし、スクリブルのサイズが比較的小さいため、モデルは過適合しにくくなり、その結果はスクリブルの選択に偏っている可能性がある。 本稿では,S2Lに対して,新しいマルチスケールコントラスト正規化項を用いることで,この問題に対処する。 主なアイデアは、ニューラルネットワークの中間層から特徴を抽出することによって、様々なスケールの構造を効果的に分離可能にすることである。 本手法の有効性を検証するため,data science bowl 2018やmonusegなど,よく知られたデータセットに対するアブレーション研究を行った。 その結果,マルチスケールのコントラスト損失は,教師付き学習セグメンテーション法に匹敵するs2lの性能向上に有効であることがわかった。

Current state-of-the-art supervised deep learning-based segmentation approaches have demonstrated superior performance in medical image segmentation tasks. However, such supervised approaches require fully annotated pixel-level ground-truth labels, which are labor-intensive and time-consuming to acquire. Recently, Scribble2Label (S2L) demonstrated that using only a handful of scribbles with self-supervised learning can generate accurate segmentation results without full annotation. However, owing to the relatively small size of scribbles, the model is prone to overfit and the results may be biased to the selection of scribbles. In this work, we address this issue by employing a novel multiscale contrastive regularization term for S2L. The main idea is to extract features from intermediate layers of the neural network for contrastive loss so that structures at various scales can be effectively separated. To verify the efficacy of our method, we conducted ablation studies on well-known datasets, such as Data Science Bowl 2018 and MoNuSeg. The results show that the proposed multiscale contrastive loss is effective in improving the performance of S2L, which is comparable to that of the supervised learning segmentation method.
翻訳日:2023-06-27 16:31:34 公開日:2023-06-25
# スパース自己表現を用いた解釈可能な神経組込み

Interpretable Neural Embeddings with Sparse Self-Representation ( http://arxiv.org/abs/2306.14135v1 )

ライセンス: Link先を確認
Minxue Xia and Hao Zhu(参考訳) 解釈性は表現の理論的理解に役立つ。 既存の単語埋め込みは一般に密度の高い表現である。 したがって、潜在次元の意味を解釈することは困難である。 これにより、単語はブラックボックスのように埋め込まれ、人間が読めるようになり、さらに操作できなくなる。 多くの方法は、解釈可能性を高めるために解釈可能な単語埋め込みを学ぶためにスパース表現を用いる。 しかし、彼らは$\ell1$とオンライン辞書学習におけるグループ選択の不安定な問題も抱えている。 そのため、毎回異なる結果が得られる傾向にある。 この課題を緩和するために,データ自己表現と浅いニューラルネットワークを関連付け,表現豊かで解釈可能な単語埋め込みを学習する新しい手法を提案する。 実験では,結果の単語埋め込みは,ベースライン埋め込みよりも同等で,解釈性も若干向上した。 さらに、我々のアプローチは下流のすべてのタスクにおいて競争力に優れており、ベンチマークの埋め込みよりも優れています。

Interpretability benefits the theoretical understanding of representations. Existing word embeddings are generally dense representations. Hence, the meaning of latent dimensions is difficult to interpret. This makes word embeddings like a black-box and prevents them from being human-readable and further manipulation. Many methods employ sparse representation to learn interpretable word embeddings for better interpretability. However, they also suffer from the unstable issue of grouped selection in $\ell1$ and online dictionary learning. Therefore, they tend to yield different results each time. To alleviate this challenge, we propose a novel method to associate data self-representation with a shallow neural network to learn expressive, interpretable word embeddings. In experiments, we report that the resulting word embeddings achieve comparable and even slightly better interpretability than baseline embeddings. Besides, we also evaluate that our approach performs competitively well on all downstream tasks and outperforms benchmark embeddings on a majority of them.
翻訳日:2023-06-27 16:31:12 公開日:2023-06-25
# メトリック・アウェア・信頼領域手法による確固たるポリシー最適化

Provably Convergent Policy Optimization via Metric-aware Trust Region Methods ( http://arxiv.org/abs/2306.14133v1 )

ライセンス: Link先を確認
Jun Song, Niao He, Lijun Ding and Chaoyue Zhao(参考訳) Kullback-Leibler分散に基づく信頼領域法は、強化学習におけるポリシー最適化の安定化に広く利用されている。 本稿では,より柔軟なメトリクスを活用し,wasserstein と sinkhorn trust region によるポリシー最適化の自然な拡張であるwasserstein policy optimization (wpo) と sinkhorn policy optimization (spo) について検討する。 パラメトリック分布クラスにポリシーを限定する代わりに、政策分布を直接最適化し、ラグランジアン双対性に基づくクローズドフォームのポリシー更新を導出する。 理論的には、WPOは単調性能の向上を保証し、SPOはエントロピー正則化器が減少するにつれてWPOに確実に収束する。 さらに,信頼領域制約に対するラグランジアン乗算器の減衰により,どちらの方法も大域的最適性に収束することを示す。 タブ状領域、ロボットの移動、連続制御タスクにわたる実験は、両方のアプローチの性能改善、WPOのサンプル不足に対する堅牢性の向上、および最先端のポリシー勾配法に対するSPOのより高速な収束性をさらに示している。

Trust-region methods based on Kullback-Leibler divergence are pervasively used to stabilize policy optimization in reinforcement learning. In this paper, we exploit more flexible metrics and examine two natural extensions of policy optimization with Wasserstein and Sinkhorn trust regions, namely Wasserstein policy optimization (WPO) and Sinkhorn policy optimization (SPO). Instead of restricting the policy to a parametric distribution class, we directly optimize the policy distribution and derive their closed-form policy updates based on the Lagrangian duality. Theoretically, we show that WPO guarantees a monotonic performance improvement, and SPO provably converges to WPO as the entropic regularizer diminishes. Moreover, we prove that with a decaying Lagrangian multiplier to the trust region constraint, both methods converge to global optimality. Experiments across tabular domains, robotic locomotion, and continuous control tasks further demonstrate the performance improvement of both approaches, more robustness of WPO to sample insufficiency, and faster convergence of SPO, over state-of-art policy gradient methods.
翻訳日:2023-06-27 16:30:57 公開日:2023-06-25
# DiffMix:不均衡画像データセットにおける核分割と分類のための拡散モデルに基づくデータ合成

DiffMix: Diffusion Model-based Data Synthesis for Nuclei Segmentation and Classification in Imbalanced Pathology Image Datasets ( http://arxiv.org/abs/2306.14132v1 )

ライセンス: Link先を確認
Hyun-Jic Oh and Won-Ki Jeong(参考訳) 核分割と分類は病理画像解析において重要な過程である。 ディープラーニングに基づくアプローチは、このタスクの高精度化に大きく貢献している。 しかし、これらのアプローチは、希少な核種に対して低い分類性能を示す不均衡核データ組成に悩まされている。 本稿では,拡散モデルを用いた現実的なデータ合成手法を提案する。 我々は2種類の仮想パッチを生成し、トレーニングデータ分布を拡大する。これは、核クラスのばらつきのバランスと、様々な核を見る機会の拡大を目的としている。 その後、セマンティックラベル条件付き拡散モデルを用いて、リアルで高品質な画像サンプルを生成する。 本手法の有効性を2つの不均衡な原子核データセットを用いて実験により実証し,現状のネットワークを改良した。 実験結果から,本手法は特異型核分類の分類性能を向上し,非平衡病理核データセットのセグメンテーションと分類性能に優れることが示唆された。

Nuclei segmentation and classification is a significant process in pathology image analysis. Deep learning-based approaches have greatly contributed to the higher accuracy of this task. However, those approaches suffer from the imbalanced nuclei data composition, which shows lower classification performance on the rare nuclei class. In this paper, we propose a realistic data synthesis method using a diffusion model. We generate two types of virtual patches to enlarge the training data distribution, which is for balancing the nuclei class variance and for enlarging the chance to look at various nuclei. After that, we use a semantic-label-conditioned diffusion model to generate realistic and high-quality image samples. We demonstrate the efficacy of our method by experiment results on two imbalanced nuclei datasets, improving the state-of-the-art networks. The experimental results suggest that the proposed method improves the classification performance of the rare type nuclei classification, while showing superior segmentation and classification performance in imbalanced pathology nuclei datasets.
翻訳日:2023-06-27 16:30:36 公開日:2023-06-25
# PrimaDNN':歌声検出のための特徴認識DNNカスタマイズ

PrimaDNN': A Characteristics-aware DNN Customization for Singing Technique Detection ( http://arxiv.org/abs/2306.14191v1 )

ライセンス: Link先を確認
Yuya Yamamoto, Juhan Nam, Hiroko Terasawa(参考訳) プロのボーカリストは、声の音色やピッチを調整して、声の演奏をより表現力のあるものにする。 このようなゆらぎを歌唱技法と呼ぶ。 音声トラックからの歌唱技術の自動検出は,各歌手の演奏の仕方を理解する上で有用であるが,多種多様な歌唱技術によっても困難である。 ディープニューラルネットワーク(DNN)モデルでは,このような多様性を扱えるが,データの特徴を考慮すると,歌唱技術検出の性能が向上する可能性がある。 本稿では,特徴指向の改良型CRNNモデルであるPrimaDNNを提案する。 モデルの特徴は次のとおりである。 1)補助ピッチ情報と多分解能メルスペクトログラムに基づく入力特徴表現 2) Squeeze-and-Excitation(SENet)とインスタンス正規化に基づく畳み込みモジュール。 J-POP の歌唱技術検出の結果,プリマDNN はマクロF 測定で44.9% の最高の結果を得た。 また,各コンポーネントのコントリビューションは,歌唱法の種類によって異なることがわかった。

Professional vocalists modulate their voice timbre or pitch to make their vocal performance more expressive. Such fluctuations are called singing techniques. Automatic detection of singing techniques from audio tracks can be beneficial to understand how each singer expresses the performance, yet it can also be difficult due to the wide variety of the singing techniques. A deep neural network (DNN) model can handle such variety; however, there might be a possibility that considering the characteristics of the data improves the performance of singing technique detection. In this paper, we propose PrimaDNN, a CRNN model with a characteristics-oriented improvement. The features of the model are: 1) input feature representation based on auxiliary pitch information and multi-resolution mel spectrograms, 2) Convolution module based on the Squeeze-and-excitation (SENet) and the Instance normalization. In the results of J-POP singing technique detection, PrimaDNN achieved the best results of 44.9% at the overall macro-F measure, compared to conventional works. We also found that the contribution of each component varies depending on the type of singing technique.
翻訳日:2023-06-27 16:25:42 公開日:2023-06-25
# ニューラルネットワークを用いたgross-pitaevskii方程式の逆問題の解法

Solution of inverse problem for Gross-Pitaevskii equation with artificial neural networks ( http://arxiv.org/abs/2306.14184v1 )

ライセンス: Link先を確認
Stepan P. Pokatov and Tatiana Yu. Ivanova and Denis A. Ivanov(参考訳) 本稿では,1D Gross-Pitaevskii方程式(GPE)の逆問題を解決するために,ニューラルネットワーク(ANN)の設計を提案する。 より正確には、ANNは定常GPE溶液の正方率を入力とし、GPE非線型項の前にあるポテンシャル関数と係数のパラメータを返却する。 物理的観点から、ANNはトラップポテンシャルのパラメータと1Dボース・アインシュタイン凝縮(BEC)の相互作用定数を密度分布によって予測する。 GPEの数値解の結果を,30000ドル以上のGPEパラメータセットをトレーニングおよび検証データセットとして利用し,ANNを高速かつ高精度な逆GPE解法として構築する。

We propose an Artificial Neural Network (ANN) design to solve the inverse problem for a 1D Gross-Pitaevskii equation (GPE). More precise, the ANN takes the squared modulus of the stationary GPE solution as an input and returns the parameters of the potential function and the factor in front of the GPE non-linear term. From the physical point of view the ANN predicts the parameters of a trap potential and the interaction constant of 1D Bose-Einstein Condensate (BEC) by its density distribution. Using the results of numerical solution of GPE for more than $30 000$ sets of GPE parameters as train and validation datasets we build the ANN as a fast and accurate inverse GPE solver.
翻訳日:2023-06-27 16:25:24 公開日:2023-06-25
# Switch-BERT: 意図と入力の切り替えによるマルチモーダルインタラクションのモデル化

Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input ( http://arxiv.org/abs/2306.14182v1 )

ライセンス: Link先を確認
Qingpei Guo, Kaisheng Yao and Wei Chu(参考訳) モーダル内およびモーダル間インタラクションをモデル化する能力は、マルチモーダル機械学習において基本である。 現在の最先端モデルは通常、固定構造を持つディープラーニングモデルを採用する。 特定のタスクにおいて例外的なパフォーマンスを達成できるが、入力モダリティの多様性とその固定構造のため、特にモダリティミスマッチの問題に直面している。 本稿では,共同ビジョンと言語表現学習のための \textbf{Switch-BERT} を提案する。 Switch-BERTは、学習可能な層と層間相互作用を導入することでBERTアーキテクチャを拡張している。 これらの相互作用を表す一連の注意モードから注意を最適化することを学ぶ。 モデルの特徴の1つは、様々な深さから出力に出席することを学び、モダリティミスマッチ問題を緩和することである。 本稿では,視覚的質問応答,画像テキスト検索,参照表現理解実験に関する広範な実験を行う。 結果は、ViLBERT や UNITER といった代替アーキテクチャが特定のタスクに優れているのに対して、Switch-BERT は現在の最先端モデルよりも一貫して優れたパフォーマンスや同等のパフォーマンスを達成できることを示している。 アブレーション研究は,提案モデルがタスク固有のマルチモーダルインタラクションを学習する能力により優れた性能が得られることを示す。

The ability to model intra-modal and inter-modal interactions is fundamental in multimodal machine learning. The current state-of-the-art models usually adopt deep learning models with fixed structures. They can achieve exceptional performances on specific tasks, but face a particularly challenging problem of modality mismatch because of diversity of input modalities and their fixed structures. In this paper, we present \textbf{Switch-BERT} for joint vision and language representation learning to address this problem. Switch-BERT extends BERT architecture by introducing learnable layer-wise and cross-layer interactions. It learns to optimize attention from a set of attention modes representing these interactions. One specific property of the model is that it learns to attend outputs from various depths, therefore mitigates the modality mismatch problem. We present extensive experiments on visual question answering, image-text retrieval and referring expression comprehension experiments. Results confirm that, whereas alternative architectures including ViLBERT and UNITER may excel in particular tasks, Switch-BERT can consistently achieve better or comparable performances than the current state-of-the-art models in these tasks. Ablation studies indicate that the proposed model achieves superior performances due to its ability in learning task-specific multimodal interactions.
翻訳日:2023-06-27 16:25:10 公開日:2023-06-25
# マイニング安定選好:マルチメディアレコメンデーションのための適応的モダリティ相関

Mining Stable Preferences: Adaptive Modality Decorrelation for Multimedia Recommendation ( http://arxiv.org/abs/2306.14179v1 )

ライセンス: Link先を確認
Jinghao Zhang, Qiang Liu, Shu Wu, Liang Wang(参考訳) マルチメディアコンテンツは現代ウェブ時代において優位である。 実際のシナリオでは、複数のモダリティがアイテム属性の異なる側面を明らかにし、通常はユーザの購入決定に異なる重要性を持つ。 しかし,モダリティ間の統計的相関が強いため,モデルによって異なるモダリティに対するユーザの真の嗜好を明らかにすることは困難である。 さらに悪いことに、強い統計的相関は、不連続なモダリティに対する素早い選好を学ぶためにモデルを誤解させる可能性がある。 その結果、データ(モーダル特徴)の分布が変化すると、学習されたスプリアス選好は、トレーニングセットと同様に推論セットに効果があると保証されない可能性がある。 そこで我々は,ユーザの安定な嗜好を学習するための,新しいモダリティ記述型静的学習フレームワークMODESTを提案する。 サンプル再重み付け手法に着想を得た提案手法は,各項目の重み付けを推定し,重み付け分布の異なるモジュラリティの特徴が重み付けされるようにすることを目的としている。 我々はHilbert Schmidt Independence Criterion (HSIC) を2つの多次元変数と非線形変数の相関度を評価するカーネルベースの手法である独立性試験尺度として採用する。 提案手法は,既存のマルチメディアレコメンデーションバックボーンのプレイ・アンド・プラグモジュールとして利用できる。 4つの公開データセットと4つの最先端マルチメディアレコメンデーションバックボーンに関する大規模な実験は、提案手法が大きなマージンで性能を向上できることを示している。

Multimedia content is of predominance in the modern Web era. In real scenarios, multiple modalities reveal different aspects of item attributes and usually possess different importance to user purchase decisions. However, it is difficult for models to figure out users' true preference towards different modalities since there exists strong statistical correlation between modalities. Even worse, the strong statistical correlation might mislead models to learn the spurious preference towards inconsequential modalities. As a result, when data (modal features) distribution shifts, the learned spurious preference might not guarantee to be as effective on the inference set as on the training set. We propose a novel MOdality DEcorrelating STable learning framework, MODEST for brevity, to learn users' stable preference. Inspired by sample re-weighting techniques, the proposed method aims to estimate a weight for each item, such that the features from different modalities in the weighted distribution are decorrelated. We adopt Hilbert Schmidt Independence Criterion (HSIC) as independence testing measure which is a kernel-based method capable of evaluating the correlation degree between two multi-dimensional and non-linear variables. Our method could be served as a play-and-plug module for existing multimedia recommendation backbones. Extensive experiments on four public datasets and four state-of-the-art multimedia recommendation backbones unequivocally show that our proposed method can improve the performances by a large margin.
翻訳日:2023-06-27 16:24:49 公開日:2023-06-25
# サービスメッシュにおけるパフォーマンス目標を動的に満たすためのフレームワーク

A Framework for dynamically meeting performance objectives on a service mesh ( http://arxiv.org/abs/2306.14178v1 )

ライセンス: Link先を確認
Forough Shahab Samani and Rolf Stadler(参考訳) サービスメッシュ上で並列に実行される複数のサービスのエンドツーエンド管理目的を達成するためのフレームワークを提案する。 資源再配置のために定期的に制御動作を行うエージェントの訓練に強化学習(RL)技術を適用した。 IstioとKubernetesプラットフォームがサポートするサービスメッシュ上で情報とコンピューティングサービスを実行する実験室のテストベッドを使用して、フレームワークの開発と評価を行います。 サービス要求のエンドツーエンド遅延境界,スループット目標,コスト関連目標,サービス分化など,さまざまな管理目標について検討する。 テストベッドではなくシミュレータ上での制御ポリシを計算し、学習シナリオの桁違いのトレーニング時間を高速化する。 提案するフレームワークは,管理対象をまず定義し,利用可能な制御アクションにマップするトップダウンアプローチを提唱する点で新規である。 これにより、複数のタイプの制御アクションを同時に実行できます。 まず,テスト済みトレースからシステムモデルと運用領域を学習することにより,エージェントを異なる管理目的に対して並列に訓練することができる。

We present a framework for achieving end-to-end management objectives for multiple services that concurrently execute on a service mesh. We apply reinforcement learning (RL) techniques to train an agent that periodically performs control actions to reallocate resources. We develop and evaluate the framework using a laboratory testbed where we run information and computing services on a service mesh, supported by the Istio and Kubernetes platforms. We investigate different management objectives that include end-to-end delay bounds on service requests, throughput objectives, cost-related objectives, and service differentiation. We compute the control policies on a simulator rather than on the testbed, which speeds up the training time by orders of magnitude for the scenarios we study. Our proposed framework is novel in that it advocates a top-down approach whereby the management objectives are defined first and then mapped onto the available control actions. It allows us to execute several types of control actions simultaneously. By first learning the system model and the operating region from testbed traces, we can train the agent for different management objectives in parallel.
翻訳日:2023-06-27 16:24:07 公開日:2023-06-25
# 知識蒸留によるマップレス軌道予測の強化

Enhancing Mapless Trajectory Prediction through Knowledge Distillation ( http://arxiv.org/abs/2306.14177v1 )

ライセンス: Link先を確認
Yuning Wang, Pu Zhang, Lei Bai, Jianru Xue(参考訳) シーン情報は、交通エージェントの将来的な経路に関する意味的手がかりと制約を提供することで、自動運転の軌道予測システムにおいて重要な役割を果たす。 一般的な軌道予測技術は、入力の一部として高精細地図(HDマップ)を用いてシーン知識を提供する。 HDマップは正確な道路情報を提供するが、それらが広く使われることを制限する注釈や法律の制限のコストが高い。 したがって、これらの手法は、マップレスシナリオで信頼できる予測結果を生成することが期待されている。 本稿では,テスト期間中に地図情報が利用できない場合に,マルチモーダルな予測軌道の整合性と実道路トポロジの整合性を改善する問題に取り組む。 具体的には,アノテーション付きサンプル上でmap-based prediction teacher networkを訓練し,その知識を2倍の知識蒸留フレームワークを用いて学生のmapless prediction networkに転送する。 私たちのソリューションは、共通の軌道予測ネットワークで一般化可能であり、余分な計算負荷をもたらさない。 実験の結果,hdマップの欠如によるギャップを補うため,多種多様な最先端軌道予測ベースラインにおいてmaplessモードの予測性能を安定的に向上できることがわかった。 定性的可視化の結果,我々の手法は未発見の地図情報を推測するのに役立つことがわかった。

Scene information plays a crucial role in trajectory forecasting systems for autonomous driving by providing semantic clues and constraints on potential future paths of traffic agents. Prevalent trajectory prediction techniques often take high-definition maps (HD maps) as part of the inputs to provide scene knowledge. Although HD maps offer accurate road information, they may suffer from the high cost of annotation or restrictions of law that limits their widespread use. Therefore, those methods are still expected to generate reliable prediction results in mapless scenarios. In this paper, we tackle the problem of improving the consistency of multi-modal prediction trajectories and the real road topology when map information is unavailable during the test phase. Specifically, we achieve this by training a map-based prediction teacher network on the annotated samples and transferring the knowledge to a student mapless prediction network using a two-fold knowledge distillation framework. Our solution is generalizable for common trajectory prediction networks and does not bring extra computation burden. Experimental results show that our method stably improves prediction performance in mapless mode on many widely used state-of-the-art trajectory prediction baselines, compensating for the gaps caused by the absence of HD maps. Qualitative visualization results demonstrate that our approach helps infer unseen map information.
翻訳日:2023-06-27 16:23:27 公開日:2023-06-25
# プロンプト学習と機械読解によるトリガーなしでの文レベルのイベント検出

Sentence-level Event Detection without Triggers via Prompt Learning and Machine Reading Comprehension ( http://arxiv.org/abs/2306.14176v1 )

ライセンス: Link先を確認
Tongtao Ling, Lei Chen, Huangxu Sheng, Zicheng Cai, and Hai-Lin Liu(参考訳) 従来の文レベルのイベント検出には、トリガー識別とトリガー分類という2つの重要なサブタスクが含まれている。 しかし、トリガー分類は、豊富な注釈付きトリガー語とトリガー識別の精度に大きく依存する。 実際のシナリオでは、トリガーワードの注釈付けには時間と労力がかかります。 そこで本研究では,イベント検出を機械読解と迅速な学習に基づく2towerモデルに変換するトリガフリーイベント検出モデルを提案する。 既存のトリガーベースとトリガーフリーの手法と比較して、2つのイベント検出ベンチマークデータセット(ACE2005とMAVEN)に関する実験的研究により、提案手法が競合性能を達成できることが示されている。

The traditional way of sentence-level event detection involves two important subtasks: trigger identification and trigger classifications, where the identified event trigger words are used to classify event types from sentences. However, trigger classification highly depends on abundant annotated trigger words and the accuracy of trigger identification. In a real scenario, annotating trigger words is time-consuming and laborious. For this reason, we propose a trigger-free event detection model, which transforms event detection into a two-tower model based on machine reading comprehension and prompt learning. Compared to existing trigger-based and trigger-free methods, experimental studies on two event detection benchmark datasets (ACE2005 and MAVEN) have shown that the proposed approach can achieve competitive performance.
翻訳日:2023-06-27 16:22:45 公開日:2023-06-25
# 遺伝的多様性を考慮した最先端深層学習モデルを用いたWebベースMpox皮膚病変検出システム

A Web-based Mpox Skin Lesion Detection System Using State-of-the-art Deep Learning Models Considering Racial Diversity ( http://arxiv.org/abs/2306.14169v1 )

ライセンス: Link先を確認
Shams Nafisa Ali, Md. Tazuddin Ahmed, Tasnim Jahan, Joydip Paul, S. M. Sakeef Sani, Nawsabah Noor, Anzirun Nahar Asma, Taufiq Hasan(参考訳) 近年の「ムポックス」の流行は、以前は「モンキーポックス」と呼ばれていたが、公衆衛生上の問題となり、世界中で110か国以上に広がった。 mpoxを早期に診断することの課題は、その一部が他のタイプの発疹と類似していることにある。 ポリメラーゼ連鎖反応(PCR)に基づく診断がすぐには利用できない場合に、コンピュータ支援スクリーニングツールが有用であることが証明されている。 ディープラーニングの手法は複雑なデータ表現の学習に有効であるが、その有効性は適切なトレーニングデータに大きく依存する。 この課題に対処するため、これまでに公開されたmpox病変画像を含む最初のデータセットである、オープンアクセスデータセットのフォローアップとして、"Mpox Skin Lesion Dataset Version 2.0 (MSLD v2.0)"を提示する。 このデータセットには、mpoxと他の5つの非mpoxクラス(チキンポックス、麻疹、ハンドフットマウス病、牛痘、健康)の患者の画像が含まれている。 我々はmpoxなどの感染症を分類するために,vgg16,resnet50, densenet121, mobilenetv2, efficientnetb3, inceptionv3, xceptionなど,最先端のディープラーニングモデルのパフォーマンスをベンチマークする。 人種的偏見の影響を低減するために,色空間データ拡張法を用いて,トレーニング中の肌の色変化を増大させる。 さらに,HAM10000データセットから得られたトレーニング済み重量と多彩な色素皮膚病変画像の収集により,最大83.59\pm2.11\%の精度を達成した。 最後に, 開発したモデルをプロトタイプWebアプリケーションに組み込んで, アップロードした皮膚画像を分析し, 被検体が疑わしいハンポックス患者かどうかを判定する。

The recent 'Mpox' outbreak, formerly known as 'Monkeypox', has become a significant public health concern and has spread to over 110 countries globally. The challenge of clinically diagnosing mpox early on is due, in part, to its similarity to other types of rashes. Computer-aided screening tools have been proven valuable in cases where Polymerase Chain Reaction (PCR) based diagnosis is not immediately available. Deep learning methods are powerful in learning complex data representations, but their efficacy largely depends on adequate training data. To address this challenge, we present the "Mpox Skin Lesion Dataset Version 2.0 (MSLD v2.0)" as a follow-up to the previously released openly accessible dataset, one of the first datasets containing mpox lesion images. This dataset contains images of patients with mpox and five other non-mpox classes (chickenpox, measles, hand-foot-mouth disease, cowpox, and healthy). We benchmark the performance of several state-of-the-art deep learning models, including VGG16, ResNet50, DenseNet121, MobileNetV2, EfficientNetB3, InceptionV3, and Xception, to classify mpox and other infectious skin diseases. In order to reduce the impact of racial bias, we utilize a color space data augmentation method to increase skin color variability during training. Additionally, by leveraging transfer learning implemented with pre-trained weights generated from the HAM10000 dataset, an extensive collection of pigmented skin lesion images, we achieved the best overall accuracy of $83.59\pm2.11\%$. Finally, the developed models are incorporated within a prototype web application to analyze uploaded skin images by a user and determine whether a subject is a suspected mpox patient.
翻訳日:2023-06-27 16:22:30 公開日:2023-06-25
# 大規模事前学習言語モデルとビル情報モデリングの統合によるインタラクティブデザイン

Interactive Design by Integrating a Large Pre-Trained Language Model and Building Information Modeling ( http://arxiv.org/abs/2306.14165v1 )

ライセンス: Link先を確認
Suhyung Jang and Ghang Lee(参考訳) 本研究では,建築設計の対話型設計アシスタントとしてビルディング情報モデリング(BIM)ツールと統合した場合,生成人工知能(AI)モデル,特にOpenAIの生成事前学習変換(GPT)シリーズの可能性を検討する。 この研究には3つの重要なコンポーネントの開発と実装が含まれる。 1 BIM2XMLは、BIMデータを拡張可能なマークアップ言語(XML)フォーマットに変換するコンポーネントである。 2)ジェネレーティブAI対応インタラクティブアーキテクチャ設計(GAIA)は、事前学習言語モデルを用いて、設計意図、関連オブジェクト、およびそれらの属性を特定し、XMLの入力設計を洗練するコンポーネントである。 3. XML2BIM - AI生成したXMLデータをBIMツールに変換するコンポーネント。 本研究は, GPTシリーズとRevitを用いて, 設計詳細化を含むケーススタディを通じて提案手法を検証した。 我々の研究は、建築家とAIシステム間の動的コラボレーションを促進するための最先端言語モデルの有効性を示し、さらなる進歩の可能性を強調した。

This study explores the potential of generative artificial intelligence (AI) models, specifically OpenAI's generative pre-trained transformer (GPT) series, when integrated with building information modeling (BIM) tools as an interactive design assistant for architectural design. The research involves the development and implementation of three key components: 1) BIM2XML, a component that translates BIM data into extensible markup language (XML) format; 2) Generative AI-enabled Interactive Architectural design (GAIA), a component that refines the input design in XML by identifying designer intent, relevant objects, and their attributes, using pre-trained language models; and 3) XML2BIM, a component that converts AI-generated XML data back into a BIM tool. This study validated the proposed approach through a case study involving design detailing, using the GPT series and Revit. Our findings demonstrate the effectiveness of state-of-the-art language models in facilitating dynamic collaboration between architects and AI systems, highlighting the potential for further advancements.
翻訳日:2023-06-27 16:21:53 公開日:2023-06-25
# biff: 対話的軌道予測のためのポリリン系座標を用いたbi-level future fusion

BiFF: Bi-level Future Fusion with Polyline-based Coordinate for Interactive Trajectory Prediction ( http://arxiv.org/abs/2306.14161v1 )

ライセンス: Link先を確認
Yiyao Zhu, Di Luan, Shaojie Shen(参考訳) 周囲のエージェントの将来の軌道予測は、安全クリティカルな自動運転に不可欠である。 既存の研究のほとんどは、各エージェントの限界軌道を独立して予測することに焦点を当てている。 しかし,対話型エージェントのジョイント・トラジェクトリーの予測において研究されることは稀である。 本研究では,対話エージェント間の相互作用を明示的に捉えるために,Bi-level Future Fusion (BiFF)を提案する。 具体的には、BiFFは高レベルの将来の意図と低レベルの将来の行動とを融合させる。 次に、ポリリンベースの座標は、データ効率、フレームの堅牢性、予測精度を保証するために、特にマルチエージェント予測のために設計されている。 実験によると、biffはwaymo open motionデータセットのインタラクティブな予測ベンチマークで最先端のパフォーマンスを達成している。

Predicting future trajectories of surrounding agents is essential for safety-critical autonomous driving. Most existing work focuses on predicting marginal trajectories for each agent independently. However, it has rarely been explored in predicting joint trajectories for interactive agents. In this work, we propose Bi-level Future Fusion (BiFF) to explicitly capture future interactions between interactive agents. Concretely, BiFF fuses the high-level future intentions followed by low-level future behaviors. Then the polyline-based coordinate is specifically designed for multi-agent prediction to ensure data efficiency, frame robustness, and prediction accuracy. Experiments show that BiFF achieves state-of-the-art performance on the interactive prediction benchmark of Waymo Open Motion Dataset.
翻訳日:2023-06-27 16:21:33 公開日:2023-06-25
# 二次元半導体における励起子の制御可能な融合

Controllable fusion of excitons in two-dimensional semiconductors ( http://arxiv.org/abs/2306.14225v1 )

ライセンス: Link先を確認
Sergue\"i V. Andreev(参考訳) 二次元(2次元)半導体における同一電磁ボソン(励起子またはポラリトン)の制御可能な相互作用の実装のための物理原理を提案する。 鍵となる成分は、安定なバイエクシトンと、一軸ひずみなどによるホスト構造の面内異方性である。 放射励起子2重項の異方性による分裂は、バイエクシトン状態とボソン散乱状態の連続性を結合させることを示す。 その結果、横磁場を印加したり、マイクロキャビティ光子モードとの結合を調整することにより、バイエクシトンに近接してエネルギー的に調整されたときに、ボソンの2体弾性散乱を共鳴増幅することができる。 励起子に対しては、共鳴を横切る磁場の急激な断熱的掃流によってバイエクシトンから得られる巨大分子(フェシュバッハ二量体)を予測する。 分子は非自明な絡み合い特性を有する。 我々の提案は、強い相関を持つフォトニクスと光の量子化学を約束する。

We propose a physical principle for implementation of controllable interactions of identical electromagnetic bosons (excitons or polaritons) in two-dimensional (2D) semiconductors. The key ingredients are stable biexcitons and in-plane anisotropy of the host structure due to, e.g., a uniaxial strain. We show that anisotropy-induced splitting of the radiative exciton doublet couples the biexciton state to continua of boson scattering states. As a result, two-body elastic scattering of bosons may be resonantly amplified when energetically tuned close to the biexciton by applying a transverse magnetic field or tuning the coupling with the microcavity photon mode. For excitons, we predict giant molecules (Feshbach dimers) which can be obtained from a biexciton via rapid adiabatic sweeping of the magnetic field across the resonance. The molecules possess non-trivial entanglement properties. Our proposal holds promise for the strongly-correlated photonics and the quantum chemistry of light.
翻訳日:2023-06-27 16:14:45 公開日:2023-06-25
# 巨大言語モデルは中国の株価変動を予測できるのか?

Unveiling the Potential of Sentiment: Can Large Language Models Predict Chinese Stock Price Movements? ( http://arxiv.org/abs/2306.14222v1 )

ライセンス: Link先を確認
Haohan Zhang, Fengrui Hua, Chengjin Xu, Jian Guo, Hao Kong, Ruiting Zuo(参考訳) 大規模言語モデル(llm)の急速な発展は、量的株式取引戦略の復活を促進する可能性に関する広範な議論につながった。 この談話は主に、LLMの顕著な理解能力を活用して、インフォメーションと高周波投資ポートフォリオ調整を容易にする感情要因を抽出することを中心に展開されている。 これらのllmを中国の金融文書の分析とその後の中国株式市場における取引戦略開発に成功させるために、中国ニューステキストデータから感情因子抽出の専門分野における様々なタイプのllmの有効性を客観的に評価するための、厳密で包括的なベンチマークおよび標準化されたバックテストフレームワークを提供する。 ベンチマークの仕組みを説明するために、3つの異なるモデルを紹介します。 1) 生成LDM(ChatGPT) 2)中国語固有の事前訓練LDM(Erlangshen-RoBERTa)及び 3)金融ドメイン固有の微調整LDM分類器(China FinBERT)。 本研究は,中国における大量のニュース要約テキストから感情因子を抽出する作業に直接適用する。 次に、得られた感情要因に基づいて、定量的なトレーディング戦略を構築し、現実的なトレーディングシナリオの下でバックテストを実施し、ベンチマークでそれらのパフォーマンスを評価する。 このような比較分析を構築することにより、感情要因抽出におけるLLMの性能向上の最も重要な要素は何かという疑問を提起する。 また,LLMが同一のベンチマークで評価されることを保証し,量的取引に十分な専門知識を備えた標準化された実験手順に従うことにより,このような質問に答える最初の試みを行う。

The rapid advancement of Large Language Models (LLMs) has led to extensive discourse regarding their potential to boost the return of quantitative stock trading strategies. This discourse primarily revolves around harnessing the remarkable comprehension capabilities of LLMs to extract sentiment factors which facilitate informed and high-frequency investment portfolio adjustments. To ensure successful implementations of these LLMs into the analysis of Chinese financial texts and the subsequent trading strategy development within the Chinese stock market, we provide a rigorous and encompassing benchmark as well as a standardized back-testing framework aiming at objectively assessing the efficacy of various types of LLMs in the specialized domain of sentiment factor extraction from Chinese news text data. To illustrate how our benchmark works, we reference three distinctive models: 1) the generative LLM (ChatGPT), 2) the Chinese language-specific pre-trained LLM (Erlangshen-RoBERTa), and 3) the financial domain-specific fine-tuned LLM classifier(Chinese FinBERT). We apply them directly to the task of sentiment factor extraction from large volumes of Chinese news summary texts. We then proceed to building quantitative trading strategies and running back-tests under realistic trading scenarios based on the derived sentiment factors and evaluate their performances with our benchmark. By constructing such a comparative analysis, we invoke the question of what constitutes the most important element for improving a LLM's performance on extracting sentiment factors. And by ensuring that the LLMs are evaluated on the same benchmark, following the same standardized experimental procedures that are designed with sufficient expertise in quantitative trading, we make the first stride toward answering such a question.
翻訳日:2023-06-27 16:14:31 公開日:2023-06-25
# 点雲分類のための相反蒸留

Feature Adversarial Distillation for Point Cloud Classification ( http://arxiv.org/abs/2306.14221v1 )

ライセンス: Link先を確認
YuXing Lee, Wei Wu(参考訳) 点雲の不規則で秩序のない幾何学構造のため、従来の知識蒸留技術は点雲のタスクで直接使われると多くの情報を失った。 本稿では,ポイントクラウド蒸留における汎用的逆損失関数である機能相反蒸留(fad)法を提案する。特徴抽出段階において,教師が抽出した特徴を判別器として使用し,学習段階において新たな特徴を継続的に生み出す。 生徒の特徴は、教師からのフィードバックを攻撃して、生徒が知識をよく学んだかどうかを判断するスコアを得ることによって得られる。 モデルNet40およびScanObjectNNデータセットの標準点クラウド分類実験において,40倍モデル圧縮における蒸留における知識伝達の情報損失を低減し,競争性能を維持した。

Due to the point cloud's irregular and unordered geometry structure, conventional knowledge distillation technology lost a lot of information when directly used on point cloud tasks. In this paper, we propose Feature Adversarial Distillation (FAD) method, a generic adversarial loss function in point cloud distillation, to reduce loss during knowledge transfer.In the feature extraction stage, the features extracted by the teacher are used as the discriminator, and the students continuously generate new features in the training stage. The feature of the student is obtained by attacking the feedback from the teacher and getting a score to judge whether the student has learned the knowledge well or not. In experiments on standard point cloud classification on ModelNet40 and ScanObjectNN datasets, our method reduced the information loss of knowledge transfer in distillation in 40x model compression while maintaining competitive performance.
翻訳日:2023-06-27 16:14:04 公開日:2023-06-25
# total error sheets for datasets (tes-d) -- オンラインプラットフォームデータセットのドキュメント化に関する重要なガイド

Total Error Sheets for Datasets (TES-D) -- A Critical Guide to Documenting Online Platform Datasets ( http://arxiv.org/abs/2306.14219v1 )

ライセンス: Link先を確認
Leon Fr\"ohling (1,2), Indira Sen (1,2), Felix Soldner (1), Leonie Steinbrinker (3), Maria Zens (1), Katrin Weller (1,4) ((1) GESIS - Leibniz Institute for the Social Sciences, Cologne, Germany, (2) RWTH Aachen University, Aachen, Germany, (3) Leipzig University, Leipzig, Germany, (4) CAIS - Center for Advanced Internet Studies, Bochum, Germany)(参考訳) 本稿では,研究目的でオンラインプラットフォームから収集したデータセットを文書化するテンプレートを提案する。 このテンプレートは、データ品質を批判的に反映し、オンラインプラットフォームデータを利用する研究分野における透明性を高めるのに役立つだろう。 本稿では,その動機を述べるとともに,tes-d (total error sheet for datasets) と呼ぶ資料テンプレートの開発手順を概説する。 TES-Dアプローチは、オンラインプラットフォームからのデータのエラーフレームワーク、すなわちオンラインプラットフォーム上の人間の振る舞いのデジタルトレースのためのTotal Error Framework(TED-On, https://doi.org/10.1093/poq/nfab018)の設計において、以前の作業の上に構築されている。

This paper proposes a template for documenting datasets that have been collected from online platforms for research purposes. The template should help to critically reflect on data quality and increase transparency in research fields that make use of online platform data. The paper describes our motivation, outlines the procedure for developing a specific documentation template that we refer to as TES-D (Total Error Sheets for Datasets) and has the current version of the template, guiding questions and a manual attached as supplementary material. The TES-D approach builds upon prior work in designing error frameworks for data from online platforms, namely the Total Error Framework for digital traces of human behavior on online platforms (TED-On, https://doi.org/10.1093/poq/nfab018).
翻訳日:2023-06-27 16:13:48 公開日:2023-06-25
# 意味セグメンテーションモデルの逆ロバスト性評価について

On Evaluating the Adversarial Robustness of Semantic Segmentation Models ( http://arxiv.org/abs/2306.14217v1 )

ライセンス: Link先を確認
Levente Halmosi and Mark Jelasity(参考訳) 逆入力摂動に対する堅牢性を達成することは、機械学習において重要かつ興味深い問題である。 セマンティックイメージセグメンテーションの分野では, 対角的摂動に対する防御手段として, 多くの対角的トレーニング手法が提案されているが, モデルのロバスト性を評価する方法論は, 画像分類と比較してまだ不足している。 ここでは,画像分類と同様に,複数の異なるハードアタックに対してモデルを評価することが重要であることを示す。 グラデーションに基づく反復攻撃のセットを提案し,多数の反復を実行することが不可欠であることを示す。 モデルの内部表現に対する攻撃も含んでいます。 本研究では,有界摂動による誤差の最大化と,所定のレベルの誤差に対する摂動の最小化という2種類の攻撃を適用した。 この一連の攻撃を用いることで、ロバストであると主張する以前の作業における多くのモデルが、実際にはまったくロバストではないことを初めて示す。 次に, 強攻撃群においても, 合理的に堅牢なモデルを生成する, 単純な対向訓練アルゴリズムを評価する。 以上の結果から,ロバスト性を実現するための重要な設計判断は,トレーニング中に相手の例のみを使用することであることが示唆された。 しかし、これは堅牢性と正確性の間のトレードオフをもたらす。

Achieving robustness against adversarial input perturbation is an important and intriguing problem in machine learning. In the area of semantic image segmentation, a number of adversarial training approaches have been proposed as a defense against adversarial perturbation, but the methodology of evaluating the robustness of the models is still lacking, compared to image classification. Here, we demonstrate that, just like in image classification, it is important to evaluate the models over several different and hard attacks. We propose a set of gradient based iterative attacks and show that it is essential to perform a large number of iterations. We include attacks against the internal representations of the models as well. We apply two types of attacks: maximizing the error with a bounded perturbation, and minimizing the perturbation for a given level of error. Using this set of attacks, we show for the first time that a number of models in previous work that are claimed to be robust are in fact not robust at all. We then evaluate simple adversarial training algorithms that produce reasonably robust models even under our set of strong attacks. Our results indicate that a key design decision to achieve any robustness is to use only adversarial examples during training. However, this introduces a trade-off between robustness and accuracy.
翻訳日:2023-06-27 16:13:27 公開日:2023-06-25
# 多極凝縮体と多極ジョセフソン効果

Multipolar condensates and multipolar Josephson effects ( http://arxiv.org/abs/2306.14214v1 )

ライセンス: Link先を確認
Wenhui Xu, Chenwei Lv, and Qi Zhou(参考訳) ある強相関系で単粒子ダイナミクスが抑制されるとき、双極子は量子速度論の一次キャリアとして現れる。 これらの双極子はさらに凝縮し、物理学者に物質のフラクトン相を研究するための豊富な領域を与える。 最近の理論的な発見では、非伝統的な格子モデルが双極子凝縮を基底状態として持つことが示されているが、双極子凝縮は特定のモデルに固有のものよりも一般的な現象であり、双極子凝縮がもたらす新しい量子マクロ現象であるかどうかという根本的な疑問が生じる。 ここでは,双極子凝縮がボソニック系で優勢であることを示す。 単粒子運動学が必然的に双極子の有限次パラメータを誘導する自己近似効果のため、双極子凝縮はボソンの通常の相で容易に起こる。 以上の結果から, 実験者は双極子凝縮相を操作でき, 粒子流の不在時に双極子超電流が発生する双極子ヨーゼフソン効果をもたらすことができる。 自己公理効果は、ジェネリック多極縮合体を生成するためにも利用できる。 n$-次多極子の運動論は、$(n+1)$-次多極子の凝縮を不可避的に生成し、物理学者に全く新しいマクロ量子現象のクラスを与える多極性凝縮体の階層を形成する。

When single-particle dynamics are suppressed in certain strongly correlated systems, dipoles arise as elementary carriers of quantum kinetics. These dipoles can further condense, providing physicists with a rich realm to study fracton phases of matter. Whereas recent theoretical discoveries have shown that an unconventional lattice model may host a dipole condensate as the ground state, fundamental questions arise as to whether dipole condensation is a generic phenomenon rather than a specific one unique to a particular model and what new quantum macroscopic phenomena a dipole condensate may bring us with. Here, we show that dipole condensates prevail in bosonic systems. Because of a self-proximity effect, where single-particle kinetics inevitably induces a finite order parameter of dipoles, dipole condensation readily occurs in conventional normal phases of bosons. Our findings allow experimentalists to manipulate the phase of a dipole condensate and deliver dipolar Josephson effects, where supercurrents of dipoles arise in the absence of particle flows. The self-proximity effects can also be utilized to produce a generic multipolar condensate. The kinetics of the $n$-th order multipoles unavoidably creates a condensate of the $(n+1)$-th order multipoles, forming a hierarchy of multipolar condensates that will offer physicists a whole new class of macroscopic quantum phenomena.
翻訳日:2023-06-27 16:13:05 公開日:2023-06-25
# 地中海アルプス弧における古代フレスコ画の塗装前の深部像

Deep image prior inpainting of ancient frescoes in the Mediterranean Alpine arc ( http://arxiv.org/abs/2306.14209v1 )

ライセンス: Link先を確認
Fabio Merizzi, Perrine Saillard, Oceane Acquier, Elena Morotti, Elena Loli Piccolomini, Luca Calatroni and Rosa Maria Dess\`i(参考訳) ディープニューラルネットワークに基づく画像再構成アプローチの成功は、いくつかの応用分野における処理と分析パラダイムの両方に革命をもたらした。 デジタル・ヒューマニティの分野において、古き良きフレスコ画のデジタル復元の課題は、時間とともに老化、摩耗、破断、そしてリタッチによって得られる訓練データが少ないため、特に困難である。 これらの難しさを克服するために,訓練されていない畳み込みニューラルネットワークの漸進的な更新を頼りに適切な再構成を計算し,手元の画像内の信頼できる情報と一致させながら、他の場所での正規化を促進するdip(deep image prior)インパインティング手法を検討する。 最先端のアプローチ(変分/PDEとパッチベースの手法に基づく)と比較すると、DIPベースのインパインティングはアーティファクトを減らし、コンテキスト/非ローカル情報に適応し、美術史家にとって価値があり効果的なツールを提供する。 本研究では,地中海アルプス弧のいくつかの礼拝堂に収蔵されている中世絵画の高度に損傷を受けたデジタル画像のデータセットを再構成し,損傷した画像領域の識別と再構成にどのように可視・不可視(赤外)情報を統合できるかを詳述する。

The unprecedented success of image reconstruction approaches based on deep neural networks has revolutionised both the processing and the analysis paradigms in several applied disciplines. In the field of digital humanities, the task of digital reconstruction of ancient frescoes is particularly challenging due to the scarce amount of available training data caused by ageing, wear, tear and retouching over time. To overcome these difficulties, we consider the Deep Image Prior (DIP) inpainting approach which computes appropriate reconstructions by relying on the progressive updating of an untrained convolutional neural network so as to match the reliable piece of information in the image at hand while promoting regularisation elsewhere. In comparison with state-of-the-art approaches (based on variational/PDEs and patch-based methods), DIP-based inpainting reduces artefacts and better adapts to contextual/non-local information, thus providing a valuable and effective tool for art historians. As a case study, we apply such approach to reconstruct missing image contents in a dataset of highly damaged digital images of medieval paintings located into several chapels in the Mediterranean Alpine Arc and provide a detailed description on how visible and invisible (e.g., infrared) information can be integrated for identifying and reconstructing damaged image regions.
翻訳日:2023-06-27 16:12:38 公開日:2023-06-25
# twitterデータのスタンス予測と分析 : ガーナ2020年大統領選挙を事例として

Stance Prediction and Analysis of Twitter data : A case study of Ghana 2020 Presidential Elections ( http://arxiv.org/abs/2306.14203v1 )

ライセンス: Link先を確認
Shester Gueuwou and Rose-Mary Owusuaa Mensah Gyening(参考訳) 2020年12月7日、ガーナ人は次の4年間、大統領を選出する投票に参加した。 この大統領選挙で得られた洞察を得るために、我々はスタンス分析(感情分析と必ずしも同等ではない)を行い、人気のあるソーシャルメディアプラットフォームであるTwitterが、この2つの主要大統領候補に関するユーザーの意見をどう反映しているかを理解した。 Twitter API(Tweepy)を使って合計99,356のツイートを収集し、手動で3,090のツイートを3つのクラスに分類した。 その後、ツイートの事前処理を行いました。 得られたデータセットは、vaderとtextblobの2つのレキシコンベースのアプローチと、サポートベクターマシン(svm)、ロジスティック回帰(lr)、多項na\"ive bayes(mnb)、確率勾配降下(sgd)、ランダムフォレスト(rf)の5つの教師付き機械学習ベースのアプローチを用いて、精度、精度、リコール、f1-scoreなどの指標に基づいて評価された。 最高性能は71.13%の精度でロジスティック回帰によって達成された。 抽出された全てのツイートをロジスティック回帰を用いて分類し,結果の分析と考察を行った。 データとコードにアクセスするには、https://github.com/shesterg/stance-detection-ghana-2020-elections.gitをご覧ください。

On December 7, 2020, Ghanaians participated in the polls to determine their president for the next four years. To gain insights from this presidential election, we conducted stance analysis (which is not always equivalent to sentiment analysis) to understand how Twitter, a popular social media platform, reflected the opinions of its users regarding the two main presidential candidates. We collected a total of 99,356 tweets using the Twitter API (Tweepy) and manually annotated 3,090 tweets into three classes: Against, Neutral, and Support. We then performed preprocessing on the tweets. The resulting dataset was evaluated using two lexicon-based approaches, VADER and TextBlob, as well as five supervised machine learning-based approaches: Support Vector Machine (SVM), Logistic Regression (LR), Multinomial Na\"ive Bayes (MNB), Stochastic Gradient Descent (SGD), and Random Forest (RF), based on metrics such as accuracy, precision, recall, and F1-score. The best performance was achieved by Logistic Regression with an accuracy of 71.13%. We utilized Logistic Regression to classify all the extracted tweets and subsequently conducted an analysis and discussion of the results. For access to our data and code, please visit: https://github.com/ShesterG/Stance-Detection-Ghana-2020-Elections.git
翻訳日:2023-06-27 16:12:13 公開日:2023-06-25
# ヤコビアン階制約付き多様体学習問題のオートエンコーダ

Autoencoders for a manifold learning problem with a Jacobian rank constraint ( http://arxiv.org/abs/2306.14194v1 )

ライセンス: Link先を確認
Rustem Takhanov, Y. Sultan Abylkairov, Maxat Tezekbayev(参考訳) 多様体学習問題を、任意の点を ``hidden'' $k$-dimensional manifold 上の近傍に写像する作用素を見つける問題として定式化する。 この演算子を修正関数と呼んでいます。 この定式化では、オートエンコーダは補正関数を近似するツールと見なすことができる。 ヤコビアンが k$ のランクを持つオートエンコーダが与えられると、その範囲が $k$-次元多様体の構造を持つことを古典定数階数定理から推測する。 範囲の$k$の次元性は、オートエンコーダのアーキテクチャ(コード空間の次元を固定することで)によって強制されるか、あるいは、オートエンコーダマッピングのランクが$k$以上でないという追加の制約によって強制される。 この制約は新しい項、すなわちジャコビアン函数の平方体 Ky-Fan $k$-反ノルムとして目的函数に含まれる。 この制約は、アーキテクチャによって定義される縮小に加えて、オートエンコーダの範囲の次元を効果的に減少させる要因であると主張する。 また、目的に新たな曲率項を追加します。 結論として,本手法を合成および実世界のデータセット上でのCAE+H法と比較した。

We formulate the manifold learning problem as the problem of finding an operator that maps any point to a close neighbor that lies on a ``hidden'' $k$-dimensional manifold. We call this operator the correcting function. Under this formulation, autoencoders can be viewed as a tool to approximate the correcting function. Given an autoencoder whose Jacobian has rank $k$, we deduce from the classical Constant Rank Theorem that its range has a structure of a $k$-dimensional manifold. A $k$-dimensionality of the range can be forced by the architecture of an autoencoder (by fixing the dimension of the code space), or alternatively, by an additional constraint that the rank of the autoencoder mapping is not greater than $k$. This constraint is included in the objective function as a new term, namely a squared Ky-Fan $k$-antinorm of the Jacobian function. We claim that this constraint is a factor that effectively reduces the dimension of the range of an autoencoder, additionally to the reduction defined by the architecture. We also add a new curvature term into the objective. To conclude, we experimentally compare our approach with the CAE+H method on synthetic and real-world datasets.
翻訳日:2023-06-27 16:11:43 公開日:2023-06-25
# $\alpha$-$\beta$-Factorization と Simon's Congruence のバイナリケース

$\alpha$-$\beta$-Factorization and the Binary Case of Simon's Congruence ( http://arxiv.org/abs/2306.14192v1 )

ライセンス: Link先を確認
Pamela Fleischmann, Jonas H\"ofer, Annika Huch, Dirk Nowotka(参考訳) 1991年、H'ebrardは単語の因数分解を導入し、単語の散在する要素(散在した)や部分列(サブワード)を調べる強力なツールとなった。 これに基づいて、最初のカランディカールとシュネーベレンは$k$-richnessという概念を導入し、後にBarkerらに$k$-universalityという概念を導入した。 2022年、fleischmannらは、単語とその逆のアーチ分解を交差させることで、アーチ分解の一般化を示した。 著者らは, この因子分解を, 最短欠落因子の探索にのみ用いたが, 本研究では, 新規な$\alpha$-$\beta$-factorization について検討する。 我々は、有名なsimon congruenceのk$universalワードを1$universalワードで特徴づける。 さらに,これらの結果をバイナリ単語に適用する。 この特別な場合、クラスを完全に特徴づけ、合同の指標を計算する。 最後に、三項ケースの調査を開始し、$\alpha\beta\alpha$-factorsの完全なリストを示し、それらの一貫性を特徴づける。

In 1991 H\'ebrard introduced a factorization of words that turned out to be a powerful tool for the investigation of a word's scattered factors (also known as (scattered) subwords or subsequences). Based on this, first Karandikar and Schnoebelen introduced the notion of $k$-richness and later on Barker et al. the notion of $k$-universality. In 2022 Fleischmann et al. presented a generalization of the arch factorization by intersecting the arch factorization of a word and its reverse. While the authors merely used this factorization for the investigation of shortest absent scattered factors, in this work we investigate this new $\alpha$-$\beta$-factorization as such. We characterize the famous Simon congruence of $k$-universal words in terms of $1$-universal words. Moreover, we apply these results to binary words. In this special case, we obtain a full characterization of the classes and calculate the index of the congruence. Lastly, we start investigating the ternary case, present a full list of possibilities for $\alpha\beta\alpha$-factors, and characterize their congruence.
翻訳日:2023-06-27 16:11:19 公開日:2023-06-25
# 連続時間非マルコフ確率制御問題に対するニューラル RDE アプローチ

A Neural RDE approach for continuous-time non-Markovian stochastic control problems ( http://arxiv.org/abs/2306.14258v1 )

ライセンス: Link先を確認
Melker Hoglund, Emilio Ferrucci, Camilo Hernandez, Aitor Muguruza Gonzalez, Cristopher Salvi, Leandro Sanchez-Betancourt, Yufei Zhang(参考訳) 本稿では,Morrill et al. (2021)で導入されたニューラル粗微分方程式(ニューラルRDE)を用いて,連続時間非マルコフ確率制御問題の解法を提案する。 非マルコビアン性は、システム係数の時間遅延効果や駆動ノイズによって制御問題に自然に生じ、システム状態の歴史的軌跡に明示的に依存する最適な制御戦略をもたらす。 制御過程を状態過程によって駆動される神経rdeの解としてモデル化することにより、制御状態関節のダイナミクスが制御不能な拡張ニューラルネットワークrdeによって制御され、軌道シミュレーションとメモリ効率の良いバックプロパゲーションにより、値関数の高速モンテカルロ推定を可能にする。 提案手法は,ランダムな粗い経路の関数の普遍的近似器としてニューラル rdes が機能することを示すことによって,提案手法の理論的基盤を提供する。 非マルコフ確率制御問題に対する徹底的な数値実験を行い,提案手法が時間分解不変であり,既存のrnn法と比較して不規則サンプリングの精度と安定性が向上したことを明らかにした。

We propose a novel framework for solving continuous-time non-Markovian stochastic control problems by means of neural rough differential equations (Neural RDEs) introduced in Morrill et al. (2021). Non-Markovianity naturally arises in control problems due to the time delay effects in the system coefficients or the driving noises, which leads to optimal control strategies depending explicitly on the historical trajectories of the system state. By modelling the control process as the solution of a Neural RDE driven by the state process, we show that the control-state joint dynamics are governed by an uncontrolled, augmented Neural RDE, allowing for fast Monte-Carlo estimation of the value function via trajectories simulation and memory-efficient backpropagation. We provide theoretical underpinnings for the proposed algorithmic framework by demonstrating that Neural RDEs serve as universal approximators for functions of random rough paths. Exhaustive numerical experiments on non-Markovian stochastic control problems are presented, which reveal that the proposed framework is time-resolution-invariant and achieves higher accuracy and better stability in irregular sampling compared to existing RNN-based approaches.
翻訳日:2023-06-27 16:05:13 公開日:2023-06-25
# 近親者学習のための自己エンコーダ

A Self-Encoder for Learning Nearest Neighbors ( http://arxiv.org/abs/2306.14257v1 )

ライセンス: Link先を確認
Armand Boschin and Thomas Bonald and Marc Jeanmougin(参考訳) 本稿では,各データサンプルのアイデンティティを推定するニューラルネットワークであるself-encoderを提案する。 その単純さにもかかわらず、自己管理的な方法で、非常に有用なデータの表現を学ぶ。 具体的には、自己エンコーダはデータサンプルを埋め込み空間に分散させることを学習し、それらを線形に分離する。 これにより、2つのサンプルが微分が容易でないときに埋め込み空間に近くなる幾何学が引き起こされる。 自己エンコーダは、後続の教師付きタスクのために最寄りのneighbor分類器またはレグレッサーと組み合わせることができる。 このデータのエンコーディングによって生じる予測は、通常のニアスとは異なり、機能のスケーリングに不変であり、min-maxスケーリングのようなプリプロセッシングは不要である。 実験では, 数値的特徴とカテゴリー的特徴を混合した異種データにおいて, アプローチの効率性を示す。

We present the self-encoder, a neural network trained to guess the identity of each data sample. Despite its simplicity, it learns a very useful representation of data, in a self-supervised way. Specifically, the self-encoder learns to distribute the data samples in the embedding space so that they are linearly separable from one another. This induces a geometry where two samples are close in the embedding space when they are not easy to differentiate. The self-encoder can then be combined with a nearest-neighbor classifier or regressor for any subsequent supervised task. Unlike regular nearest neighbors, the predictions resulting from this encoding of data are invariant to any scaling of features, making any preprocessing like min-max scaling not necessary. The experiments show the efficiency of the approach, especially on heterogeneous data mixing numerical features and categorical features.
翻訳日:2023-06-27 16:04:50 公開日:2023-06-25
# データベーススキーマプルーニングによるSQLへの多言語翻訳による自己認識の改善

A Multilingual Translator to SQL with Database Schema Pruning to Improve Self-Attention ( http://arxiv.org/abs/2306.14256v1 )

ライセンス: Link先を確認
Marcelo Archanjo Jose and Fabio Gagliardi Cozman(参考訳) テキストの長いシーケンスは、自己保持機構の二次記憶の増加により、トランスフォーマーの文脈では困難である。 この問題は自然言語からsqlクエリへの変換に直接影響するため(通常、質問とデータベーススキーマで連結されたテキストを入力として使用する技術)、長いテキストシーケンスを最大512個の入力トークンを持つトランスフォーマによって処理できる技術を提案する。 データベーススキーマのプルーニング(クエリに役に立たないテーブルと列名の削除)を伴うトレーニングプロセスを提案する。 さらに,mT5-largeモデルを用いて,データ拡張スパイダーデータセットを4つの言語(英語,ポルトガル語,スペイン語,フランス語)で同時に調整した。 提案手法では,spiderデータセットを用いて,検証データセット (dev) の精度を0.718から0.736に向上させた。 ソースコード、評価、チェックポイントは: \underline{https://github.com/C4AI/gap-text2sql}.comで入手できる。

Long sequences of text are challenging in the context of transformers, due to quadratic memory increase in the self-attention mechanism. As this issue directly affects the translation from natural language to SQL queries (as techniques usually take as input a concatenated text with the question and the database schema), we present techniques that allow long text sequences to be handled by transformers with up to 512 input tokens. We propose a training process with database schema pruning (removal of tables and columns names that are useless for the query of interest). In addition, we used a multilingual approach with the mT5-large model fine-tuned with a data-augmented Spider dataset in four languages simultaneously: English, Portuguese, Spanish, and French. Our proposed technique used the Spider dataset and increased the exact set match accuracy results from 0.718 to 0.736 in a validation dataset (Dev). Source code, evaluations, and checkpoints are available at: \underline{https://github.com/C4AI/gap-text2sql}.
翻訳日:2023-06-27 16:04:37 公開日:2023-06-25
# AttResDU-Net: Attention-based Residual U-Net を用いた医用画像分割

AttResDU-Net: Medical Image Segmentation Using Attention-based Residual Double U-Net ( http://arxiv.org/abs/2306.14255v1 )

ライセンス: Link先を確認
Akib Mohammed Khan, Alif Ashrafee, Fahim Shahriar Khan, Md. Bakhtiar Hasan, Md. Hasanul Kabir(参考訳) 大腸癌の大腸内視鏡や皮膚病変の生検からポリプを手作業で検査することは、時間がかかり、手間がかかり、複雑な手順である。 自動医用画像分割は、この診断プロセスの迅速化を目的としている。 しかし、異なる境界を持たない物体の外観や大きさに大きな変化があるため、多くの課題が存在する。 本稿では,既存の医用画像セグメンテーションネットワークを改良した注意ベース残差u-netアーキテクチャ(attresdu-net)を提案する。 このアーキテクチャはDouble U-Netにインスパイアされ、スキップ接続と畳み込みブロックの残余接続に注意ゲートが組み込まれている。 注目ゲートは、モデルが異なる形状や大きさのターゲット領域にフォーカスすることを学習するダウンサンプリングパスから無関係な特徴表現を抑えることにより、より関連性の高い空間情報を保持することができる。 さらに、残差接続は、より良い勾配フローを確保することによって、より深いモデルのトレーニングに役立ちます。 CVC clinic-DB、ISIC 2018、2018 Data Science Bowlの3つのデータセットの実験を行い、それぞれ94.35%、91.68%、92.45%のDice Coefficientスコアを得た。 以上の結果から,AttResDU-Netは医療画像の自動分割の信頼性の高い方法として有用であることが示唆された。

Manually inspecting polyps from a colonoscopy for colorectal cancer or performing a biopsy on skin lesions for skin cancer are time-consuming, laborious, and complex procedures. Automatic medical image segmentation aims to expedite this diagnosis process. However, numerous challenges exist due to significant variations in the appearance and sizes of objects with no distinct boundaries. This paper proposes an attention-based residual Double U-Net architecture (AttResDU-Net) that improves on the existing medical image segmentation networks. Inspired by the Double U-Net, this architecture incorporates attention gates on the skip connections and residual connections in the convolutional blocks. The attention gates allow the model to retain more relevant spatial information by suppressing irrelevant feature representation from the down-sampling path for which the model learns to focus on target regions of varying shapes and sizes. Moreover, the residual connections help to train deeper models by ensuring better gradient flow. We conducted experiments on three datasets: CVC Clinic-DB, ISIC 2018, and the 2018 Data Science Bowl datasets and achieved Dice Coefficient scores of 94.35%, 91.68% and 92.45% respectively. Our results suggest that AttResDU-Net can be facilitated as a reliable method for automatic medical image segmentation in practice.
翻訳日:2023-06-27 16:04:23 公開日:2023-06-25
# 脳腫瘍画像分割における適応的閾値設定法の導入

Introducing A Novel Method For Adaptive Thresholding In Brain Tumor Medical Image Segmentation ( http://arxiv.org/abs/2306.14250v1 )

ライセンス: Link先を確認
Ali Fayzi(参考訳) 深層学習と医用画像セグメンテーションの分野で最も重要な課題の1つは、各ピクセルを分類するための適切なしきい値を決定することである。 このしきい値は、モデルの出力が特定のクラスに属すると考えられる値である。 個人の経験に基づく手動しきい値設定は、特に医療画像のような複雑な問題に対して、エラーを起こしやすく、時間を要する。 このような問題のしきい値を決定するのに従来のしきい値法は有効ではない。 この課題に対処するため,ディープラーニングを用いた自動しきい値設定手法が提案されている。 しかし,これらの手法の主な問題は,入力データの変化を考慮せずにしきい値が静的に決定されることである。 入力データは動的であり、時間とともに変化する可能性があるため、しきい値の決定は適応的で、入力データや環境条件を考慮すべきである。

One of the most significant challenges in the field of deep learning and medical image segmentation is to determine an appropriate threshold for classifying each pixel. This threshold is a value above which the model's output is considered to belong to a specific class. Manual thresholding based on personal experience is error-prone and time-consuming, particularly for complex problems such as medical images. Traditional methods for thresholding are not effective for determining the threshold value for such problems. To tackle this challenge, automatic thresholding methods using deep learning have been proposed. However, the main issue with these methods is that they often determine the threshold value statically without considering changes in input data. Since input data can be dynamic and may change over time, threshold determination should be adaptive and consider input data and environmental conditions.
翻訳日:2023-06-27 16:04:00 公開日:2023-06-25
# FedSampling: フェデレーションラーニングのためのより良いサンプリング戦略

FedSampling: A Better Sampling Strategy for Federated Learning ( http://arxiv.org/abs/2306.14245v1 )

ライセンス: Link先を確認
Tao Qi, Fangzhao Wu, Lingjuan Lyu, Yongfeng Huang, and Xing Xie(参考訳) フェデレートラーニング(FL)は、分散化されたデータからモデルを学ぶための重要なテクニックである。 既存のflメソッドは通常、各ラウンドのローカルモデル学習のためにクライアントを一様にサンプリングする。 しかし、異なるクライアントはデータサイズが著しく異なり、より多くのデータを持つクライアントはモデルトレーニングにより多くの貢献ができることができないため、パフォーマンスが低下する可能性がある。 本稿では,クライアントの均一サンプリングの代わりにフェデレート学習(FedSampling)のための新しいデータ一様サンプリング戦略を提案する。 各フェデレーション学習ラウンドでは、サーバの所望のサンプルサイズと利用可能な全クライアントの合計サンプルサイズに基づいて、各クライアントのローカルデータをランダムにサンプリングしてローカルモデル学習を行う。 各クライアントのデータサイズはプライバシに敏感であるため、差分プライバシー保証により総サンプルサイズを推定するプライバシ保存方式を提案する。 4つのベンチマークデータセットの実験により、FedSamplingはフェデレーション学習のパフォーマンスを効果的に改善できることが示された。

Federated learning (FL) is an important technique for learning models from decentralized data in a privacy-preserving way. Existing FL methods usually uniformly sample clients for local model learning in each round. However, different clients may have significantly different data sizes, and the clients with more data cannot have more opportunities to contribute to model training, which may lead to inferior performance. In this paper, instead of client uniform sampling, we propose a novel data uniform sampling strategy for federated learning (FedSampling), which can effectively improve the performance of federated learning especially when client data size distribution is highly imbalanced across clients. In each federated learning round, local data on each client is randomly sampled for local model learning according to a probability based on the server desired sample size and the total sample size on all available clients. Since the data size on each client is privacy-sensitive, we propose a privacy-preserving way to estimate the total sample size with a differential privacy guarantee. Experiments on four benchmark datasets show that FedSampling can effectively improve the performance of federated learning.
翻訳日:2023-06-27 16:03:47 公開日:2023-06-25
# 無線通信ネットワークにおける省エネルギーフェデレーション学習のための安全な遺伝的アルゴリズム

A Safe Genetic Algorithm Approach for Energy Efficient Federated Learning in Wireless Communication Networks ( http://arxiv.org/abs/2306.14237v1 )

ライセンス: Link先を確認
Lina Magoula, Nikolaos Koursioumpas, Alexandros-Ioannis Thanopoulos, Theodora Panagea, Nikolaos Petropouleas, M. A. Gutierrez-Estevez, Ramin Khalili(参考訳) フェデレートラーニング(FL)は、従来の集中型アプローチとは対照的に、データのプライバシを保ちながら、協調的な方法でモデルトレーニングを行う分散技術として登場した。 flでの既存の取り組みにもかかわらず、無線ネットワークへの適用性に関するいくつかの重大な課題が特定されているため、環境への影響はまだ調査中である。 FLの炭素フットプリントの軽減に向けて、現在の研究は、あるFLモデルの性能目標を保証しつつ、関連するデバイスの計算および通信資源を編成することにより、FLプロセス全体のエネルギー消費と不必要な資源利用の両方を最小化することを目的とした遺伝的アルゴリズム(GA)アプローチを提案する。 ペナルティ関数は、環境の制約に違反する戦略を罰するGAのオフラインフェーズで導入され、安全なGAプロセスが保証される。 評価結果から,提案手法の有効性を2つの最先端ベースラインソリューションと比較し,全エネルギー消費の最大83%の削減を実現した。

Federated Learning (FL) has emerged as a decentralized technique, where contrary to traditional centralized approaches, devices perform a model training in a collaborative manner, while preserving data privacy. Despite the existing efforts made in FL, its environmental impact is still under investigation, since several critical challenges regarding its applicability to wireless networks have been identified. Towards mitigating the carbon footprint of FL, the current work proposes a Genetic Algorithm (GA) approach, targeting the minimization of both the overall energy consumption of an FL process and any unnecessary resource utilization, by orchestrating the computational and communication resources of the involved devices, while guaranteeing a certain FL model performance target. A penalty function is introduced in the offline phase of the GA that penalizes the strategies that violate the constraints of the environment, ensuring a safe GA process. Evaluation results show the effectiveness of the proposed scheme compared to two state-of-the-art baseline solutions, achieving a decrease of up to 83% in the total energy consumption.
翻訳日:2023-06-27 16:03:28 公開日:2023-06-25
# Sparse Sequential Micro-Doppler 再建のための注意ベースアンロール

Enhanced Attention-Based Unrolling for Sparse Sequential micro-Doppler Reconstruction ( http://arxiv.org/abs/2306.14233v1 )

ライセンス: Link先を確認
Riccardo Mazzieri, Jacopo Pegoraro and Michele Rossi(参考訳) ヒト運動のマイクロドップラーシグネチャの再構成は、高周波センシングによる微細な活動認識の鍵となる。 本研究では,JCS(Joint Communication and Sensing)システムに焦点をあて,専用レーダーセンシングシステムとは異なり,検出精度と通信オーバーヘッドとの適切なトレードオフを実現する必要がある。 その結果,マイクロドップラーは通信パケットから得られたスパースチャネルとノイズチャネルの推定値から再構成され,検出のために追加の探索信号の送信を極力制限していることがわかった。 既存のアプローチは圧縮センシングを利用するが、いくつかのチャネル計測が利用可能であれば、非常に貧弱な再構成をもたらす。 加えて、収束するために必要な多数のイテレーションは、リアルタイムシステムでの使用を妨げる。 ここでは,1つの回転しない反復型ハードスレッディング層とアテンション機構を組み合わせた軽量ニューラルネットワークSTARを提案する。 本研究は,マイクロドップラーの時間的相関を利用して,微小ドップラー配列を人間の動きから正確に再構成する手法である。 そうすることで、モデルベースとデータ駆動のアプローチを解釈可能で低複雑さのアーキテクチャに組み合わせることができます。 我々は,60GHz IEEE 802.11ay チャネルによる人的活動トレースの公開 JCS データセット上でSTARを評価した。 実験結果から, 再構成マイクロドップラーの品質において, 最先端のソリューションを著しく上回ることがわかった。 驚くべきことに、starは、既存の技術が失敗する90%のチャネル測定でも、十分な精度でヒューマンアクティビティ認識を可能にする。

The reconstruction of micro-Doppler signatures of human movements is a key enabler for fine-grained activity recognition with radio-frequency sensing. In this work, we focus on Joint Communication and Sensing (JCS) systems where, unlike in dedicated radar sensing systems, a suitable tradeoff between sensing accuracy and communication overhead has to be attained. It follows that the micro-Doppler has to be reconstructed from sparse and noisy channel estimates obtained from communication packets, limiting as much as possible the transmission of additional probing signals for the purpose of sensing. Existing approaches exploit compressed sensing, but produce very poor reconstructions when only a few channel measurements are available, which is often the case in real communication patterns. In addition, the large number of iterations they need to converge hinders their use in real-time systems. Here, we present STAR, a lightweight neural network that combines a single unrolled iterative hard-thresholding layer with an attention mechanism. Our new approach exploits the temporal correlation of the micro-Doppler to accurately reconstruct microDoppler sequences from human movement even from very sparse channel measurements. In doing so, it combines model-based and data-driven approaches into an interpretable and low-complexity architecture, which is amenable to real-time implementations. We evaluate STAR on a public JCS dataset of 60 GHz IEEE 802.11ay channel measurements of human activity traces. Experimental results show that it substantially outperforms state-of-the-art solutions in terms of the reconstructed microDoppler quality. Remarkably, STAR enables human activity recognition with satisfactory accuracy even with 90%-sparse channel measurements, for which existing techniques fail.
翻訳日:2023-06-27 16:03:09 公開日:2023-06-25
# $\left\{ h(1) \oplus h(1) \right\} \uplus u(2)$ Time-dependent quantum Hamiltonian; ファインマンの不協和規則に基づく自己整合分解法

Time evolution operator for a $\left\{ h(1) \oplus h(1) \right\} \uplus u(2)$ time-dependent quantum Hamiltonian; a self-consistent resolution method based on Feynman's disentangling rules ( http://arxiv.org/abs/2306.14231v1 )

ライセンス: Link先を確認
Nibaldo-Edmundo Alvarez-Moraga(参考訳) 本稿では、ハミルトニアンが複素数 $\left\{ h(1) \oplus h(1) \right\} \uplus u(2)$ algebra の元である2つの相互作用する量子振動子の時間発展作用素を、ファインマン時間順序演算子法を用いて解析する。 この方法は条件を常に生成し、そのような演算子に対する明示的な不整合式を正式に見つけるために使われる。 このようにして、全ての問題は複素リカッティ型微分方程式を解くために減少することが示される。 この微分方程式のいくつかの閉解が発見され、時間順序進化作用素に対する具体的な解が与えられる。 最後に、等方性2次元量子発振器に関連付けられたコヒーレント状態の時間進化を時間依存ハミルトニアン系で解析する。

In this article the time evolution operator of two interacting quantum oscillators, whose Hamiltonian is an element of the complex $\left\{ h(1) \oplus h(1) \right\} \uplus u(2)$ algebra, is analyzed using the Feynman time ordering operator techniques. This method is consistently used to generate the conditions and to formally find explicit disentangled expressions for such operator. In this way, it is shown that all the problem reduces to solve a complex Ricatti-type differential equation. Some closed solutions to this differential equation are found and then concrete disentangling expressions for the time-ordered evolution operator are given. Finally, the time evolution of the coherent states linked to the isotropic 2D quantum oscillator are analyzed under alternative time-independent an time-dependent Hamiltonian systems.
翻訳日:2023-06-27 16:02:43 公開日:2023-06-25
# 拡散モデルに基づく宇宙衛星の低照度画像強調

Diffusion Model Based Low-Light Image Enhancement for Space Satellite ( http://arxiv.org/abs/2306.14227v1 )

ライセンス: Link先を確認
Yiman Zhu, Lu Wang, Jingyi Yuan and Yu Guo(参考訳) 空間型可視カメラは、近接操作時の空間状況認識のための重要なセンサである。 しかし、可視カメラは宇宙環境の低照度化によって容易に影響を受ける。 近年,自然画像データセットの画像エンハンスメントにおいて,ディープラーニングのアプローチが目覚ましい成功を収めているが,データボトルネックのため空間に適用されることはほとんどない。 本稿では,拡散モデルに基づく空間環境におけるスピンターゲットの低照度画像強調(LLIE)のためのデータ駆動手法を提案する。 まず、データセット収集方式を考案する。 エリアギャップを低減し、データセットの多様性と品質を向上させるため、低照度条件と宇宙における衛星の相対的姿勢変化を模倣した地上試験システム上で、カメラによるデータを収集する。 衛星の動きは6-DoFロボットによって制御される。 異なるポーズを生成するために、物理シミュレーションにおいて高度なサンプリング法と衝突検出を併用する。 プロセス全体が自動化されます。 本データセットに基づいて,新しい拡散モデルを提案する。 拡散と分別処理はgrayscaleチャネル上で直接行われ、計算資源を節約する。 RGBチャネルの内部情報を活用するために、RGB機能マップを再スケールし、それらをダウンサンプリング層に挿入して特徴抽出を支援する。 提案手法では, 従来手法と比較して, 画像光の強調や画質の競争性が向上することが確認された。 我々の知る限りでは、これは拡散モデルを用いたLLIEの最初の作品である。

Space-based visible camera is an important sensor for space situation awareness during proximity operations. However, visible camera can be easily affected by the low illumination in the space environment. Recently, deep learning approaches have achieved remarkable success in image enhancement of natural images datasets, but seldom applied in space due to the data bottleneck. In this article, we propose a data-driven method for low-light image enhancement (LLIE) of spin targets in space environment based on diffusion model. Firstly, a dataset collection scheme is devised. To reduce the domain gap and improve the diversity and quality of the dataset, we collect the data with the camera on a ground-test system imitating the low lighting conditions and relative attitude change of satellite in space. The satellite motion is controlled by a 6-DoF robot. To generate different poses, a advanced sampling method is combined with collision detection in physical simulation. The entire process is automated. Based on our dataset, a novel diffusion model is proposed. The diffusion and denoising process are directly conducted on the grayscale channel to save computational resources. To take advantage of the inner information of RGB channels, we rescale the RGB feature maps and insert them into the downsampling layers to help feature extraction. The enhanced results with our method have been verified to be better in image light enhancement and competitive in image quality compared with previous methods. To the best of our knowledge, this is the first work of LLIE using diffusion model.
翻訳日:2023-06-27 16:02:22 公開日:2023-06-25
# 放送プロトコルの学習

Learning Broadcast Protocols ( http://arxiv.org/abs/2306.14284v1 )

ライセンス: Link先を確認
Dana Fisman, Noa Izsak, Swen Jacobs(参考訳) 実例から計算モデルを学習する問題は注目されている。 分散システムのモデルは、簡潔さの追加を含むため、特に難しい。 分散システムのモデルを学ぶためのポジティブな結果が得られたが、これまで検討されたモデルは、一定の数のプロセスが相互作用していると仮定している。 この作業では、任意の数のプロセスで分散システムを学習する問題において、カットオフが存在することのみを前提として、初めて(私たちの知識を最大限に活用するために)探しています。 具体的には、細かなブロードキャストプロトコルを考慮し、これらは有限カットオフと隠蔽状態のないブロードキャストプロトコル(BP)である。 SMTソルバの助けを借りて,微細BPと整合したサンプルを正しいBPを推定できる学習アルゴリズムを提案する。 さらに、細かなBPのクラスが教えられることを示し、つまり、与えられた学習アルゴリズムが$\mathcal{S}_B$という一貫したサンプルから正しいBPを正しく推測できるように、クラス内の各BP$B$(いわゆる特徴集合)と有限個の単語の集合を関連付けることができる。 負のサイズの場合、 (a)指数サイズの特性集合は避けられない。 b)微細BPの整合性問題はNP困難であり、 (c)微細BPは多項式的に予測できない。

The problem of learning a computational model from examples has been receiving growing attention. Models of distributed systems are particularly challenging since they encompass an added succinctness. While positive results for learning some models of distributed systems have been obtained, so far the considered models assume a fixed number of processes interact. In this work we look for the first time (to the best of our knowledge) at the problem of learning a distributed system with an arbitrary number of processes, assuming only that there exists a cutoff. Specifically, we consider fine broadcast protocols, these are broadcast protocols (BPs) with a finite cutoff and no hidden states. We provide a learning algorithm that given a sample consistent with a fine BP, can infer a correct BP, with the help of an SMT solver. Moreover we show that the class of fine BPs is teachable, meaning that we can associate a finite set of words $\mathcal{S}_B$ with each BP $B$ in the class (a so-called characteristic set) so that the provided learning algorithm can correctly infer a correct BP from any consistent sample subsuming $\mathcal{S}_B$. On the negative size we show that (a) characteristic sets of exponential size are unavoidable, (b) the consistency problem for fine BPs is NP hard, and (c) fine BPs are not polynomially predictable.
翻訳日:2023-06-27 15:55:24 公開日:2023-06-25
# 重み付け最適化軌道による対人訓練の強化

Enhancing Adversarial Training via Reweighting Optimization Trajectory ( http://arxiv.org/abs/2306.14275v1 )

ライセンス: Link先を確認
Tianjin Huang, Shiwei Liu, Tianlong Chen, Meng Fang, Li Shen, Vlaod Menkovski, Lu Yin, Yulong Pei and Mykola Pechenizkiy(参考訳) 敵対的トレーニングがディープニューラルネットワークの堅牢性向上のデファクト手法になっているにもかかわらず、バニラ対人トレーニングが頑強なオーバーフィッティングに悩まされ、満足のいく堅牢な一般化をもたらすことはよく知られている。 これらの欠点に対処するいくつかのアプローチが提案されている。例えば、余分な正規化、敵の重みの摂動、そして過去数年間のさらなるデータによるトレーニングなどである。 しかし、強固な一般化改善はまだ十分ではない。 本稿では,この課題に新たな視点でアプローチし,歴史的最適化の軌跡を整理する。 本稿では, 時間内学習の最適化トラジェクトリを利用する「textbf{Weighted Optimization Trajectories (WOT)」という新しい手法を提案する。 我々は,様々な対人攻撃におけるWOTの有効性を実証するための広範囲な実験を行った。 以上の結果から,wotは既存の対向訓練手法とシームレスに統合され,強固なオーバーフィッティング問題を一貫して克服し,対向ロバスト性が向上した。 例えば、WOTはAA-$L_{\infty}$アタックのAT-PGDのロバスト精度を1.53\%$\sim$6.11\%向上させ、一方SVHN、CIFAR-10、CIFAR-100、Tiny-ImageNetデータセットのクリーン精度を0.55\%$\sim$5.47\%向上させる。

Despite the fact that adversarial training has become the de facto method for improving the robustness of deep neural networks, it is well-known that vanilla adversarial training suffers from daunting robust overfitting, resulting in unsatisfactory robust generalization. A number of approaches have been proposed to address these drawbacks such as extra regularization, adversarial weights perturbation, and training with more data over the last few years. However, the robust generalization improvement is yet far from satisfactory. In this paper, we approach this challenge with a brand new perspective -- refining historical optimization trajectories. We propose a new method named \textbf{Weighted Optimization Trajectories (WOT)} that leverages the optimization trajectories of adversarial training in time. We have conducted extensive experiments to demonstrate the effectiveness of WOT under various state-of-the-art adversarial attacks. Our results show that WOT integrates seamlessly with the existing adversarial training methods and consistently overcomes the robust overfitting issue, resulting in better adversarial robustness. For example, WOT boosts the robust accuracy of AT-PGD under AA-$L_{\infty}$ attack by 1.53\% $\sim$ 6.11\% and meanwhile increases the clean accuracy by 0.55\%$\sim$5.47\% across SVHN, CIFAR-10, CIFAR-100, and Tiny-ImageNet datasets.
翻訳日:2023-06-27 15:55:01 公開日:2023-06-25
# MEPNet:CT画像における関節スパースビュー再構成と金属アーチファクト低減のためのモデル駆動同変近似ネットワーク

MEPNet: A Model-Driven Equivariant Proximal Network for Joint Sparse-View Reconstruction and Metal Artifact Reduction in CT Images ( http://arxiv.org/abs/2306.14274v1 )

ライセンス: Link先を確認
Hong Wang, Minghao Zhou, Dong Wei, Yuexiang Li, Yefeng Zheng(参考訳) Sparse-view Computed Tomography (CT) は、データ取得を高速化し、放射線線量を減らす重要な手法として採用されている。 しかし、十分な投影データがないため、再構成されたct画像は重度のアーティファクトをしばしば呈し、患者が金属インプラントを持てばさらに増幅される。 この共同スパース・ビューの再構築と金属加工品削減作業では、既存の方法の多くは2つの主な制限に直面している。 1) この特定のタスクの物理的イメージング幾何制約をデュアルドメイン学習に完全に組み込むことなく、共通のネットワークモジュールに基づいてほぼ構築されている。 2) 重要な事前知識のいくつかは深く探求されておらず、十分に活用されていない。 これらの問題に対して,我々は特に双対領域再構成モデルを構築し,モデル駆動の同値近距離ネットワークであるmepnetを提案する。 MEPNetの主な特徴は次のとおりである。 1)最適化にインスパイアされ,明確な動作機構を有する。 2)関与する近位作用素は、回転同変畳み込みニューラルネットワークを介してモデル化され、ctスキャンの基盤となる固有回転前駆体を微妙に表現し、同じ臓器を異なる角度で撮像することができる。 従来の畳み込み型近位ネットワークと比較して, 回転等分散機構を用いることで, ネットワークパラメータを小さくすることで, 提案手法の再構築性能を向上できることを示す。 コードは \url{https://github.com/hongwang01/MEPNet} でリリースします。

Sparse-view computed tomography (CT) has been adopted as an important technique for speeding up data acquisition and decreasing radiation dose. However, due to the lack of sufficient projection data, the reconstructed CT images often present severe artifacts, which will be further amplified when patients carry metallic implants. For this joint sparse-view reconstruction and metal artifact reduction task, most of the existing methods are generally confronted with two main limitations: 1) They are almost built based on common network modules without fully embedding the physical imaging geometry constraint of this specific task into the dual-domain learning; 2) Some important prior knowledge is not deeply explored and sufficiently utilized. Against these issues, we specifically construct a dual-domain reconstruction model and propose a model-driven equivariant proximal network, called MEPNet. The main characteristics of MEPNet are: 1) It is optimization-inspired and has a clear working mechanism; 2) The involved proximal operator is modeled via a rotation equivariant convolutional neural network, which finely represents the inherent rotational prior underlying the CT scanning that the same organ can be imaged at different angles. Extensive experiments conducted on several datasets comprehensively substantiate that compared with the conventional convolution-based proximal network, such a rotation equivariance mechanism enables our proposed method to achieve better reconstruction performance with fewer network parameters. We will release the code at \url{https://github.com/hongwang01/MEPNet}.
翻訳日:2023-06-27 15:54:26 公開日:2023-06-25
# 低リソース言語のための弱教師付きシーンテキスト生成

Weakly Supervised Scene Text Generation for Low-resource Languages ( http://arxiv.org/abs/2306.14269v1 )

ライセンス: Link先を確認
Yangchen Xie, Xinyuan Chen, Hongjian Zhan, Palaiahankote Shivakum(参考訳) シーンテキスト認識モデルのトレーニングには,多数の注釈付きトレーニング画像が不可欠である。 しかし、十分なデータセットの収集は、特に低リソース言語において、労働集約的でコストのかかるプロセスになり得る。 この課題に対処するため、テキストデータの自動生成は問題を緩和する可能性を示している。 残念ながら、既存のシーンテキスト生成手法は、典型的には大量のペアデータに依存しており、低リソース言語では入手が困難である。 本稿では,いくつかの認識レベルラベルを弱い監督として利用する,新しい弱教師付きシーンテキスト生成手法を提案する。 提案手法では,多彩な背景やフォントスタイルを持つシーンテキストを言語横断生成により大量生成することができる。 本手法では,テキスト情報を表す前者,フォント,アライメント,背景などの特徴を表す後者と,シーンテキスト画像の内容とスタイルの特徴を区別する。 生成された画像の完全なコンテンツ構造を維持するため,注意モジュールを統合的に導入する。 さらに、異なる言語スタイルのスタイルギャップをブリッジするために、事前学習されたフォント分類器を組み込む。 本手法は最先端のテキスト認識モデルを用いて評価する。 実験により,生成したシーンテキストがシーン認識精度を大幅に向上し,他の生成手法を補完する場合の精度向上に寄与することを示した。

A large number of annotated training images is crucial for training successful scene text recognition models. However, collecting sufficient datasets can be a labor-intensive and costly process, particularly for low-resource languages. To address this challenge, auto-generating text data has shown promise in alleviating the problem. Unfortunately, existing scene text generation methods typically rely on a large amount of paired data, which is difficult to obtain for low-resource languages. In this paper, we propose a novel weakly supervised scene text generation method that leverages a few recognition-level labels as weak supervision. The proposed method is able to generate a large amount of scene text images with diverse backgrounds and font styles through cross-language generation. Our method disentangles the content and style features of scene text images, with the former representing textual information and the latter representing characteristics such as font, alignment, and background. To preserve the complete content structure of generated images, we introduce an integrated attention module. Furthermore, to bridge the style gap in the style of different languages, we incorporate a pre-trained font classifier. We evaluate our method using state-of-the-art scene text recognition models. Experiments demonstrate that our generated scene text significantly improves the scene text recognition accuracy and help achieve higher accuracy when complemented with other generative methods.
翻訳日:2023-06-27 15:53:59 公開日:2023-06-25
# 局所運動の効率向上のための適応型ウィンドウプルーニング

Adaptive Window Pruning for Efficient Local Motion Deblurring ( http://arxiv.org/abs/2306.14268v1 )

ライセンス: Link先を確認
Haoying Li, Jixin Zhao, Shangchen Zhou, Huajun Feng, Chongyi Li, Chen Change Loy(参考訳) 局所的な動きのぼかしは、露光中の移動物体と静止背景との混合により、実世界の写真で一般的に発生する。 既存の画像デブロアリング法は主に大域的なデブロアリングに焦点を合わせ、局所的にぼやけた画像の背景のシャープさに不注意に影響を与え、特に高解像度画像においてシャープピクセルに不要な計算を無駄にする。 本稿では,局所ぼやけた高分解能画像を適応的かつ効率的に復元することを目的とする。 本稿では,適応型ウィンドウプルーニングトランス (AdaWPT) ブロック上に構築したローカルモーションデブロアリング・ビジョントランス (LMD-ViT) を提案する。 ローカルな領域に集中して計算を減らすため、adawptは不要なウィンドウをプルーンし、アクティブなウィンドウがデブローリングプロセスにのみ関与できるようにする。 プルーニング動作は、Gumbel-Softmax再パラメータ化による再構成損失と、注釈付きブラーマスクで導かれるプルーニング損失を用いて、エンドツーエンドにトレーニングされた信頼予測器によって予測されるブラーリネスの信頼性に依存する。 鋭い領域を歪ませることなく局所的な動きのぼやきを効果的に除去し,その異常な知覚的・定量的改善(+0.24db)を最先端手法と比較した。 さらに,本手法はFLOPを66%削減し,Transformerベースのデブロアリング法に比べて2倍以上の推論速度向上を実現している。 コードと注釈付きのぼやけたマスクを公開します。

Local motion blur commonly occurs in real-world photography due to the mixing between moving objects and stationary backgrounds during exposure. Existing image deblurring methods predominantly focus on global deblurring, inadvertently affecting the sharpness of backgrounds in locally blurred images and wasting unnecessary computation on sharp pixels, especially for high-resolution images. This paper aims to adaptively and efficiently restore high-resolution locally blurred images. We propose a local motion deblurring vision Transformer (LMD-ViT) built on adaptive window pruning Transformer blocks (AdaWPT). To focus deblurring on local regions and reduce computation, AdaWPT prunes unnecessary windows, only allowing the active windows to be involved in the deblurring processes. The pruning operation relies on the blurriness confidence predicted by a confidence predictor that is trained end-to-end using a reconstruction loss with Gumbel-Softmax re-parameterization and a pruning loss guided by annotated blur masks. Our method removes local motion blur effectively without distorting sharp regions, demonstrated by its exceptional perceptual and quantitative improvements (+0.24dB) compared to state-of-the-art methods. In addition, our approach substantially reduces FLOPs by 66% and achieves more than a twofold increase in inference speed compared to Transformer-based deblurring methods. We will make our code and annotated blur masks publicly available.
翻訳日:2023-06-27 15:53:40 公開日:2023-06-25
# クロスタッチとマルチモーダル情報ボトルネックを用いたリモートセンシングにおける視覚的質問応答

Visual Question Answering in Remote Sensing with Cross-Attention and Multimodal Information Bottleneck ( http://arxiv.org/abs/2306.14264v1 )

ライセンス: Link先を確認
Jayesh Songara, Shivam Pande, Shabnam Choudhury, Biplab Banerjee and Rajbabu Velmurugan(参考訳) 本研究では,リモートセンシングにおける視覚的質問応答(VQA)の問題に対処する。 リモートセンシングされた画像は、識別および物体検出のタスクに重要な情報を含んでいるが、高い次元、ボリューム、冗長性のため、処理において大きな課題となる。 さらに、画像情報と言語特徴を併用して処理することで、対応する画像と言語特徴のマッピングなどの制約が追加される。 この問題に対処するために,情報最大化とクロスアテンションに基づくアプローチを提案する。 CNN-LSTMをベースとしたクロスアテンションは、画像と言語モダリティの情報を強調し、両者の接続を確立する一方、情報の最大化は、VQAタスクを実行するために必要なすべての関連情報を持つ低次元ボトルネック層を学習する。 異なる解像度の2つのVQAリモートセンシングデータセットについて評価を行った。 高解像度データセットでは、2つのテストセットに対して79.11%と73.87%の総合精度を達成し、低解像度データセットでは85.98%の総合精度を達成する。

In this research, we deal with the problem of visual question answering (VQA) in remote sensing. While remotely sensed images contain information significant for the task of identification and object detection, they pose a great challenge in their processing because of high dimensionality, volume and redundancy. Furthermore, processing image information jointly with language features adds additional constraints, such as mapping the corresponding image and language features. To handle this problem, we propose a cross attention based approach combined with information maximization. The CNN-LSTM based cross-attention highlights the information in the image and language modalities and establishes a connection between the two, while information maximization learns a low dimensional bottleneck layer, that has all the relevant information required to carry out the VQA task. We evaluate our method on two VQA remote sensing datasets of different resolutions. For the high resolution dataset, we achieve an overall accuracy of 79.11% and 73.87% for the two test sets while for the low resolution dataset, we achieve an overall accuracy of 85.98%.
翻訳日:2023-06-27 15:53:11 公開日:2023-06-25
# 大規模言語モデルによるサイバー脅威検出の革命

Revolutionizing Cyber Threat Detection with Large Language Models ( http://arxiv.org/abs/2306.14263v1 )

ライセンス: Link先を確認
Mohamed Amine Ferrag, Mthandazo Ndhlovu, Norbert Tihanyi, Lucas C. Cordeiro, Merouane Debbah, Thierry Lestable(参考訳) 自然言語処理(nlp)ドメインは、革新的なトランスフォーマーアーキテクチャによって推進され、前例のない進歩を遂げた、事前訓練された大規模言語モデル(llm)の能力によって、革命を経験した。 テキスト列の確率分布を評価するための例外的適性は、NLPモデルの精度と効率を両立させる主要な触媒である。 本稿では,サイバーセキュリティ脅威検出のための事前訓練型言語モデルであるSecurityLLMを初めて紹介する。 SecurityLLMモデルはSecurityBERTとFalconLLMの2つの重要な生成要素を中心に記述されている。 セキュリティBERTはサイバー脅威検出機構として機能し、FalconLLMはインシデント応答とリカバリシステムである。 我々の知る限り、SecurityBERTはサイバー脅威検出におけるBERTの初歩的な応用である。 コンテンツ分類における構文構造の重要性の低下など,入力データや特徴の独特な性質にもかかわらず,この任務に対するbertの適合性は,先駆的な研究により予期せぬ可能性を示している。 我々は,従来の機械学習(ML)手法とディープラーニング(DL)手法を,スクラッチから生成し,LLMと統合した単純な分類モデルが,畳み込みニューラルネットワーク(CNN)やリカレントニューラルネットワーク(RNN)のようなサイバー脅威検出におけるパフォーマンスを上回ることを明らかにした。 我々のSecurityLLMモデルが14種類の14種類の攻撃を98%の精度で識別できることを実証した、収集されたサイバーセキュリティデータセットを用いて行われた実験分析。

Natural Language Processing (NLP) domain is experiencing a revolution due to the capabilities of Pre-trained Large Language Models ( LLMs), fueled by ground-breaking Transformers architecture, resulting into unprecedented advancements. Their exceptional aptitude for assessing probability distributions of text sequences is the primary catalyst for outstanding improvement of both the precision and efficiency of NLP models. This paper introduces for the first time SecurityLLM, a pre-trained language model designed for cybersecurity threats detection. The SecurityLLM model is articulated around two key generative elements: SecurityBERT and FalconLLM. SecurityBERT operates as a cyber threat detection mechanism, while FalconLLM is an incident response and recovery system. To the best of our knowledge, SecurityBERT represents the inaugural application of BERT in cyber threat detection. Despite the unique nature of the input data and features, such as the reduced significance of syntactic structures in content classification, the suitability of BERT for this duty demonstrates unexpected potential, thanks to our pioneering study. We reveal that a simple classification model, created from scratch, and consolidated with LLMs, exceeds the performance of established traditional Machine Learning (ML) and Deep Learning (DL) methods in cyber threat detection, like Convolutional Neural Networks (CNN) or Recurrent Neural Networks (RNN). The experimental analysis, conducted using a collected cybersecurity dataset, proves that our SecurityLLM model can identify fourteen (14) different types of attacks with an overall accuracy of 98%
翻訳日:2023-06-27 15:52:51 公開日:2023-06-25
# 対向ロバスト性理解と改善のためのスペクトル視点

A Spectral Perspective towards Understanding and Improving Adversarial Robustness ( http://arxiv.org/abs/2306.14262v1 )

ライセンス: Link先を確認
Binxiao Huang, Rui Lin, Chaofan Tao, Ngai Wong(参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、極端に脆弱で、不可避な逆境の摂動に弱い。 対人訓練(AT)は効果的な防御手法であることが証明されているが、堅牢性向上のためのATメカニズムは十分に理解されていない。 この研究は、スペクトルの観点から調査し、効果的な防御の設計に新たな洞察を加えます。 特に、ATは、形状バイアスのある表現を保持する低周波領域にもっと焦点を合わせ、堅牢性を得るよう深層モデルに誘導することを示す。 さらに,ホワイトボックス攻撃のスペクトルは主にモデルが焦点を絞った領域に分布し,モデルが脆弱なスペクトル帯域を摂動が攻撃することを発見した。 本研究は,周波数変動摂動に対するモデル耐性を訓練するために,攻撃された逆入力によって推定されるスペクトル出力が,その自然な入力に可能な限り近いスペクトルアライメント正則化(SAR)を提案する。 実験により、SARとそのウェイト平均(WA)拡張は、複数のデータセット(CIFAR-10、CIFAR-100、Tiny ImageNet)と様々な攻撃(PGD、C&W、オートアタック)にまたがって、標準ATと比較して1.14%~3.87%のロバスト精度を向上できることが示された。

Deep neural networks (DNNs) are incredibly vulnerable to crafted, imperceptible adversarial perturbations. While adversarial training (AT) has proven to be an effective defense approach, the AT mechanism for robustness improvement is not fully understood. This work investigates AT from a spectral perspective, adding new insights to the design of effective defenses. In particular, we show that AT induces the deep model to focus more on the low-frequency region, which retains the shape-biased representations, to gain robustness. Further, we find that the spectrum of a white-box attack is primarily distributed in regions the model focuses on, and the perturbation attacks the spectral bands where the model is vulnerable. Based on this observation, to train a model tolerant to frequency-varying perturbation, we propose a spectral alignment regularization (SAR) such that the spectral output inferred by an attacked adversarial input stays as close as possible to its natural input counterpart. Experiments demonstrate that SAR and its weight averaging (WA) extension could significantly improve the robust accuracy by 1.14% ~ 3.87% relative to the standard AT, across multiple datasets (CIFAR-10, CIFAR-100 and Tiny ImageNet), and various attacks (PGD, C&W and Autoattack), without any extra data.
翻訳日:2023-06-27 15:52:27 公開日:2023-06-25
# HOKEM:人間と物体の対話検出のためのキーポイントに基づく拡張モジュール

HOKEM: Human and Object Keypoint-based Extension Module for Human-Object Interaction Detection ( http://arxiv.org/abs/2306.14260v1 )

ライセンス: Link先を確認
Yoshiki Ito(参考訳) 人間と物体の関係を捉えるための人間と物体の相互作用(HOI)検出は、画像の意味的理解において重要な課題である。 グラフ畳み込みネットワーク(GCN)を用いて画像から抽出された人や物体のキーポイントを処理してHOIを検出する場合、対象の種類に関係なく適切な対象のキーポイントを抽出し、キーポイント間の空間的関係を正確にキャプチャするGCNを設計することが重要である。 本稿では,従来の検出モデルの精度を向上させるための拡張モジュールとして,ヒューマンおよびオブジェクトキーポイントベース拡張モジュール(hokem)を提案する。 提案するオブジェクトキーポイント抽出法は単純だが,様々なオブジェクトの形状を正確に表現する。 さらに,適応グラフ最適化と注意機構を導入した人間-対象適応gcn (ho-agcn) は,キーポイント間の空間的関係を正確に把握する。 HOIデータセットであるV-COCOを用いた実験では、HOKEMが外観ベースモデルの精度を大きなマージンで向上させた。

Human-object interaction (HOI) detection for capturing relationships between humans and objects is an important task in the semantic understanding of images. When processing human and object keypoints extracted from an image using a graph convolutional network (GCN) to detect HOI, it is crucial to extract appropriate object keypoints regardless of the object type and to design a GCN that accurately captures the spatial relationships between keypoints. This paper presents the human and object keypoint-based extension module (HOKEM) as an easy-to-use extension module to improve the accuracy of the conventional detection models. The proposed object keypoint extraction method is simple yet accurately represents the shapes of various objects. Moreover, the proposed human-object adaptive GCN (HO-AGCN), which introduces adaptive graph optimization and attention mechanism, accurately captures the spatial relationships between keypoints. Experiments using the HOI dataset, V-COCO, showed that HOKEM boosted the accuracy of an appearance-based model by a large margin.
翻訳日:2023-06-27 15:51:59 公開日:2023-06-25
# コントラストリワードによる参照型識別画像キャプションの改善

Improving Reference-based Distinctive Image Captioning with Contrastive Rewards ( http://arxiv.org/abs/2306.14259v1 )

ライセンス: Link先を確認
Yangjun Mao, Jun Xiao, Dong Zhang, Meng Cao, Jian Shao, Yueting Zhuang, Long Chen(参考訳) 特定画像キャプチャー(DIC: Distinctive Image Captioning)は、過去数年間で注目されている。 近年のDIC法では,対象画像と意味相似参照画像,すなわち参照ベースDIC(Ref-DIC)のセットを比較して,特徴的なキャプションを生成する方法が提案されている。 生成されたキャプションにターゲット画像と参照画像の区別を強制することを目的としている。 Ref-DICモデルがターゲット画像のユニークなオブジェクト(または属性)を確実に認識するために,2つの新しいRef-DICベンチマークを提案し,TransformerベースのRef-DICベースラインTransDICを開発した。 このモデルは、対象画像から視覚的な特徴を抽出するだけでなく、対象画像と参照画像のオブジェクト間の差異を符号化する。 さらにさらに一歩進めて,参照イメージをフル活用するための追加のコントラスト学習モジュールで構成される,より強力なTransDIC++を提案する。 このモジュールはモデルに依存しないため、様々なRef-DICアーキテクチャに簡単に組み込むことができる。 最後に、より信頼性の高いベンチマークを行うために、Ref-DICのためのDisCIDErと呼ばれる新しい評価指標を提案し、生成されたキャプションの精度と識別性を評価した。 実験結果から,TransDIC++は特異なキャプションを生成できることがわかった。 さらに、異なるメトリクスに対して2つの新しいベンチマークでいくつかの最先端モデルを上回っている。

Distinctive Image Captioning (DIC) -- generating distinctive captions that describe the unique details of a target image -- has received considerable attention over the last few years. A recent DIC method proposes to generate distinctive captions by comparing the target image with a set of semantic-similar reference images, i.e., reference-based DIC (Ref-DIC). It aims to force the generated captions to distinguish between the target image and the reference image. To ensure Ref-DIC models really perceive the unique objects (or attributes) in target images, we propose two new Ref-DIC benchmarks and develop a Transformer-based Ref-DIC baseline TransDIC. The model only extracts visual features from the target image, but also encodes the differences between objects in the target and reference images. Taking one step further, we propose a stronger TransDIC++, which consists of an extra contrastive learning module to make full use of the reference images. This new module is model-agnostic, which can be easily incorporated into various Ref-DIC architectures. Finally, for more trustworthy benchmarking, we propose a new evaluation metric named DisCIDEr for Ref-DIC, which evaluates both the accuracy and distinctiveness of the generated captions. Experimental results demonstrate that our TransDIC++ can generate distinctive captions. Besides, it outperforms several state-of-the-art models on the two new benchmarks over different metrics.
翻訳日:2023-06-27 15:51:41 公開日:2023-06-25
# 思考実験をしよう:反事実を使って道徳的推論を改善する

Let's Do a Thought Experiment: Using Counterfactuals to Improve Moral Reasoning ( http://arxiv.org/abs/2306.14308v1 )

ライセンス: Link先を確認
Xiao Ma, Swaroop Mishra, Ahmad Beirami, Alex Beutel, Jilin Chen(参考訳) 言語モデルは、他の多くのタスクにおける印象的なパフォーマンスにもかかわらず、道徳的推論に苦しむ。 特に、MMLU(Multi-task Language Understanding)におけるMoral Scenariosタスクは、GPT-3を含む多くの言語モデルで最悪の実行タスクである。 本研究では,言語モデルに反事実を用いたより優れた道徳的推論を教えるための,新たなプロンプトフレームワークである思考実験を提案する。 実験の結果,本フレームワークはモデルからの反事実的質問と回答を導出し,他のゼロショットベースラインと比較して,モラルシナリオタスクの精度を9~16%向上させる。 興味深いのは、数学の推論タスクとは異なり、ゼロショットのチェーン・オブ・ソート(CoT)推論は最初から動作せず、直接のゼロショットに比べて精度を約4%削減することです。 さらに,人間による管理を最小限に抑えることで,作業の精度を80%まで向上できることを確認した。

Language models still struggle on moral reasoning, despite their impressive performance in many other tasks. In particular, the Moral Scenarios task in MMLU (Multi-task Language Understanding) is among the worst performing tasks for many language models, including GPT-3. In this work, we propose a new prompting framework, Thought Experiments, to teach language models to do better moral reasoning using counterfactuals. Experiment results show that our framework elicits counterfactual questions and answers from the model, which in turn helps improve the accuracy on Moral Scenarios task by 9-16% compared to other zero-shot baselines. Interestingly, unlike math reasoning tasks, zero-shot Chain-of-Thought (CoT) reasoning doesn't work out of the box, and even reduces accuracy by around 4% compared to direct zero-shot. We further observed that with minimal human supervision in the form of 5 few-shot examples, the accuracy of the task can be improved to as much as 80%.
翻訳日:2023-06-27 15:46:53 公開日:2023-06-25
# ロバストスパースネットワークに対する適応シャープネス対応プルーニング

Adaptive Sharpness-Aware Pruning for Robust Sparse Networks ( http://arxiv.org/abs/2306.14306v1 )

ライセンス: Link先を確認
Anna Bair, Hongxu Yin, Maying Shen, Pavlo Molchanov, Jose Alvarez(参考訳) 堅牢性とコンパクト性は、現実世界にデプロイされるディープラーニングモデルの2つの重要なコンポーネントです。 相反するように見える目的 (i)強靭性などの領域をまたいだ一般化 (ii)圧縮における1つのドメインの特異性は、強固なコンパクトモデルを達成するという全体的な設計目標が、非常に重要であるにもかかわらず、まだ難しいオープン問題である理由である。 本稿では,頑健なスパースネットワークを生成するAdaptive Sharpness-Aware Pruning(AdaSAP)を提案する。 提案手法の主目的は, 適応重み摂動による刈り取りを前提とした損失景観の最適化であり, 頑健性を向上させるため, 平坦な領域に向けて一貫した規則化を図っている。 これは、ネットワークシャープネスのレンズを通して両方の目標を統一する。 AdaSAPは、包括的な実験セットで強力なパフォーマンスを達成する。 ImageNetの分類とPascal VOCデータセットのオブジェクト検出のために、AdaSAPはImageNet Cで+6%、ImageNet V2で+4%、破壊されたVOCデータセットで+4%、広範囲の圧縮比率、サリエンシ基準、ネットワークアーキテクチャで、最近のプルーニングアートよりも大きなマージンで、プルーニングモデルの堅牢な精度を向上する。

Robustness and compactness are two essential components of deep learning models that are deployed in the real world. The seemingly conflicting aims of (i) generalization across domains as in robustness, and (ii) specificity to one domain as in compression, are why the overall design goal of achieving robust compact models, despite being highly important, is still a challenging open problem. We introduce Adaptive Sharpness-Aware Pruning, or AdaSAP, a method that yields robust sparse networks. The central tenet of our approach is to optimize the loss landscape so that the model is primed for pruning via adaptive weight perturbation, and is also consistently regularized toward flatter regions for improved robustness. This unifies both goals through the lens of network sharpness. AdaSAP achieves strong performance in a comprehensive set of experiments. For classification on ImageNet and object detection on Pascal VOC datasets, AdaSAP improves the robust accuracy of pruned models by +6% on ImageNet C, +4% on ImageNet V2, and +4% on corrupted VOC datasets, over a wide range of compression ratios, saliency criteria, and network architectures, outperforming recent pruning art by large margins.
翻訳日:2023-06-27 15:46:36 公開日:2023-06-25
# 深層学習を用いた子どもの自閉症スペクトラム障害のスクリーニング : 他モデルとの比較によるYOLOv8分類モデルの評価

Screening Autism Spectrum Disorder in childrens using Deep Learning Approach : Evaluating the classification model of YOLOv8 by comparing with other models ( http://arxiv.org/abs/2306.14300v1 )

ライセンス: Link先を確認
Subash Gautam, Prabin Sharma, Kisan Thapa, Mala Deep Upadhaya, Dikshya Thapa, Salik Ram Khanal, V\'itor Manuel de Jesus Filipe(参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、社会的相互作用、コミュニケーション、行動において重要な課題を示す発達状態である。 早期介入は認知能力の向上と自閉症の症状の軽減に重要な役割を果たしている。 多くの臨床研究は、ALD児と通常発達する(TD)子供とを区別する特徴的な顔の特徴を強調している。 本研究では,yolov8モデルを用いた顔画像を用いたasdスクリーニング手法を提案する。 ディープラーニング技術であるyolov8をkaggleのデータセット上で使用することで,優れた結果を得ることができた。 本モデルは分類精度89.64%,f1-score 0.89。 ASDの小児における顔の特徴の相違に関する臨床的観察を支援する。 得られた高F1スコアは, ASD 児のスクリーニングにおける深層学習モデルの可能性を示す。 対象検出に通常使用されるYoloV8の最新バージョンは、AusstisticおよびNon-autistic画像の分類問題に利用できると結論付けている。

Autism spectrum disorder (ASD) is a developmental condition that presents significant challenges in social interaction, communication, and behavior. Early intervention plays a pivotal role in enhancing cognitive abilities and reducing autistic symptoms in children with ASD. Numerous clinical studies have highlighted distinctive facial characteristics that distinguish ASD children from typically developing (TD) children. In this study, we propose a practical solution for ASD screening using facial images using YoloV8 model. By employing YoloV8, a deep learning technique, on a dataset of Kaggle, we achieved exceptional results. Our model achieved a remarkable 89.64% accuracy in classification and an F1-score of 0.89. Our findings provide support for the clinical observations regarding facial feature discrepancies between children with ASD. The high F1-score obtained demonstrates the potential of deep learning models in screening children with ASD. We conclude that the newest version of YoloV8 which is usually used for object detection can be used for classification problem of Austistic and Non-autistic images.
翻訳日:2023-06-27 15:46:10 公開日:2023-06-25
# 相対的スパーシティの推論

Inference for relative sparsity ( http://arxiv.org/abs/2306.14297v1 )

ライセンス: Link先を確認
Samuel J. Weisenthal, Sally W. Thurston, Ashkan Ertefaie(参考訳) 医療分野では、ポリシーの推定や、共変量から治療決定へのマッピングに多くの関心がある。 近年、これらの推定方針をケア基準に制約することにも関心があり、観測されたデータを生成する。 ケアの基準と説明可能な相違がある政策を導出し、新政策の正当化を促進するために、相対的疎外罰が提案された。 しかし、このペナルティの開発者は推測ではなく、推測のみを考慮した。 本稿では,医学応用において不確実性の特徴付けが不可欠であるため,相対的疎度目的関数の推論を開発する。 さらに、相対的スパース性の研究では、著者らは単段決定の場合のみを考慮し、より一般的な多段決定の場合を考える。 相対スパーシティの目的が、不安定で二項作用の場合の無限推定を持つ非ペナルティ値関数に依存するため、推論は困難である。 さらに、不可分なペナルティにも対処しなければならない。 これらの問題に対処するために,信頼領域政策最適化関数を相対的スパーシティ目標に組み入れ,適応的相対スパーシティペナルティを実装し,選択後の推定のためのサンプルスプリッティングフレームワークを提案する。 提案手法の漸近的挙動を調査し,広範なシミュレーションを行い,実際の電子健康記録データセットを解析した。

In healthcare, there is much interest in estimating policies, or mappings from covariates to treatment decisions. Recently, there is also interest in constraining these estimated policies to the standard of care, which generated the observed data. A relative sparsity penalty was proposed to derive policies that have sparse, explainable differences from the standard of care, facilitating justification of the new policy. However, the developers of this penalty only considered estimation, not inference. Here, we develop inference for the relative sparsity objective function, because characterizing uncertainty is crucial to applications in medicine. Further, in the relative sparsity work, the authors only considered the single-stage decision case; here, we consider the more general, multi-stage case. Inference is difficult, because the relative sparsity objective depends on the unpenalized value function, which is unstable and has infinite estimands in the binary action case. Further, one must deal with a non-differentiable penalty. To tackle these issues, we nest a weighted Trust Region Policy Optimization function within a relative sparsity objective, implement an adaptive relative sparsity penalty, and propose a sample-splitting framework for post-selection inference. We study the asymptotic behavior of our proposed approaches, perform extensive simulations, and analyze a real, electronic health record dataset.
翻訳日:2023-06-27 15:45:55 公開日:2023-06-25
# 樹木ネットワークにおける量子情報の伝播:無限伝播のためのノイズ閾値

Propagation of Quantum Information in Tree Networks: Noise Thresholds for Infinite Propagation ( http://arxiv.org/abs/2306.14294v1 )

ライセンス: Link先を確認
Shiv Akshar Yadavalli and Iman Marvian(参考訳) 木構造を持つ量子ネットワークについて検討し, ネットワーク内の各ノードにおいて, 受信したキュービットが新しいアンシラ量子ビットと一元的に相互作用し, それぞれのキュービットが次のレベルにある別のノードへノイズチャネルを介して送信される。 木の深さが大きくなるにつれて、ノイズチャネルによる量子情報の減衰と、さらなる非局在化によって達成されるノイズに対する追加の保護との競合がある。 各ノードが入力ビットを複数の出力ビットにコピーする古典的な設定では、このモデルは広く応用されているツリーのブロードキャストや再構成問題として研究されてきた。 本研究では,各ノードのエンコーダをCliffordユニタリとし,入力キュービットを安定化器コードにエンコードする,この問題の量子バージョンについて検討する。 このようなノイズの多い量子木は、連結符号のエンコーダ内のノイズの影響を理解するのに有用なモデルを提供する。 我々は、その距離などのコードの性質やエンコーダの特性に依存する特定のノイズしきい値を超えると、情報は木の深さとともに指数関数的に減衰することを示す。 一方,効率の良いデコーダの研究により,距離d>=2と十分小さい(しかし0でない)ノイズ,古典的情報,絡み合いが無限の深さのノイズ木上に伝播することを示す。 実際、これは、各ノードに特定の2-qubitエンコーダを持つバイナリツリーでさえも当てはまり、受信したキュービットは、距離 d=1 のバイナリ反復符号で符号化される。

We study quantum networks with tree structures, where information propagates from a root to leaves: at each node in the network, the received qubit unitarily interacts with fresh ancilla qubits, and then each qubit is sent through a noisy channel to a different node in the next level. As the tree's depth grows, there is a competition between the decay of quantum information due to the noisy channels and the additional protection against noise that is achieved by further delocalizing information. In the classical setting, where each node just copies the input bit into multiple output bits, this model has been studied as the broadcasting or reconstruction problem on trees, which has broad applications. In this work, we study the quantum version of this problem, where the encoder at each node is a Clifford unitary that encodes the input qubit in a stabilizer code. Such noisy quantum trees, for instance, provide a useful model for understanding the effect of noise within the encoders of concatenated codes. We prove that above certain noise thresholds, which depend on the properties of the code such as its distance, as well as the properties of the encoder, information decays exponentially with the depth of the tree. On the other hand, by studying certain efficient decoders, we prove that for codes with distance d>=2 and for sufficiently small (but non-zero) noise, classical information and entanglement propagate over a noisy tree with infinite depth. Indeed, we find that this remains true even for binary trees with certain 2-qubit encoders at each node, which encode the received qubit in the binary repetition code with distance d=1.
翻訳日:2023-06-27 15:45:32 公開日:2023-06-25
# 半監督型医用画像分割のためのマルチスケールクロスコントラスト学習

Multi-Scale Cross Contrastive Learning for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2306.14293v1 )

ライセンス: Link先を確認
Qianying Liu, Xiao Gu, Paul Henderson, Fani Deligianni(参考訳) 半教師付き学習は、ラベルなしのデータからの知識を活用し、医療画像分割において大きな可能性を示している。 しかし、既存のほとんどのアプローチは、その性能を制限する遠隔地間の高度な意味関係を明示的に捉えていない。 本稿では, 半教師あり学習のための表現学習に着目し, 医用画像のセグメンテーション構造に対して, マルチスケールクロス教師ありコントラスト学習(mcsc)フレームワークを開発した。 CNNとTransformerモデルを共同でトレーニングし、さまざまなスケールでセマンティックに一貫性のある機能を規則化しています。 提案手法は,データセット全体のスライス内およびスライス間関係を反映したロバストな特徴表現を抽出するために,地中構造とクロス予測ラベルに基づくマルチスケール特徴と対比する。 クラス不均衡に取り組むために,コントラスト学習を指導する各クラスの普及状況を考慮して,機能的に不適切なクラスを適切に捉えることを保証する。 2つの多構造医療セグメンテーションデータセットに対する大規模な実験は、MCSCの有効性を実証している。 Diceでは最先端の半教師付きメソッドを3.0%以上上回るだけでなく、完全に教師付きメソッドでのパフォーマンスギャップを大幅に減らす。

Semi-supervised learning has demonstrated great potential in medical image segmentation by utilizing knowledge from unlabeled data. However, most existing approaches do not explicitly capture high-level semantic relations between distant regions, which limits their performance. In this paper, we focus on representation learning for semi-supervised learning, by developing a novel Multi-Scale Cross Supervised Contrastive Learning (MCSC) framework, to segment structures in medical images. We jointly train CNN and Transformer models, regularising their features to be semantically consistent across different scales. Our approach contrasts multi-scale features based on ground-truth and cross-predicted labels, in order to extract robust feature representations that reflect intra- and inter-slice relationships across the whole dataset. To tackle class imbalance, we take into account the prevalence of each class to guide contrastive learning and ensure that features adequately capture infrequent classes. Extensive experiments on two multi-structure medical segmentation datasets demonstrate the effectiveness of MCSC. It not only outperforms state-of-the-art semi-supervised methods by more than 3.0% in Dice, but also greatly reduces the performance gap with fully supervised methods.
翻訳日:2023-06-27 15:45:03 公開日:2023-06-25
# Hyp-OW:ハイパーボリック距離を用いた階層構造学習の爆発によるオープンワールド物体検出

Hyp-OW: Exploiting Hierarchical Structure Learning with Hyperbolic Distance Enhances Open World Object Detection ( http://arxiv.org/abs/2306.14291v1 )

ライセンス: Link先を確認
Thang Doan, Xin Li, Sima Behpour, Wenbin He, Liang Gou, Liu Ren(参考訳) open world object detection (owod)は、標準的なオブジェクト検出タスクの範囲を超えた、挑戦的で現実的なタスクである。 既知のオブジェクトと未知のオブジェクトの両方を検出し、将来のタスクのために学習知識を統合する。 しかし、「未知」のレベルは文脈によって大きく異なる。 例えば、木は一般的に、自動運転シーンの背景の一部と見なされるが、家庭の文脈では重要かもしれない。 この外部またはコンテキスト情報は、既に既知のクラスに埋め込まれるべきである、と我々は主張する。 言い換えれば、発見すべき既知の項目と未知の項目の間に、意味的あるいは潜在的な構造関係が存在するべきである。 そこで本研究では,SuperClass Regularizerを用いて既知の項目の階層的表現を学習し,モデル化するHyp-OWを提案する。 この学習表現を利用することで、類似度距離ベースのrelabelingモジュールを使用して、未知のオブジェクトを効果的に検出することができる。 ベンチマークデータセットの大規模な実験は、Hyp-OWの有効性を示し、既知の検出と未知の検出の両方(最大6ポイント)の改善を実現している。 これらの発見は、新しく設計されたベンチマークで特に顕著であり、既知のオブジェクトと未知のオブジェクトの間に強い階層構造が存在する。

Open World Object Detection (OWOD) is a challenging and realistic task that extends beyond the scope of standard Object Detection task. It involves detecting both known and unknown objects while integrating learned knowledge for future tasks. However, the level of 'unknownness' varies significantly depending on the context. For example, a tree is typically considered part of the background in a self-driving scene, but it may be significant in a household context. We argue that this external or contextual information should already be embedded within the known classes. In other words, there should be a semantic or latent structure relationship between the known and unknown items to be discovered. Motivated by this observation, we propose Hyp-OW, a method that learns and models hierarchical representation of known items through a SuperClass Regularizer. Leveraging this learned representation allows us to effectively detect unknown objects using a Similarity Distance-based Relabeling module. Extensive experiments on benchmark datasets demonstrate the effectiveness of Hyp-OW achieving improvement in both known and unknown detection (up to 6 points). These findings are particularly pronounced in our newly designed benchmark, where a strong hierarchical structure exists between known and unknown objects.
翻訳日:2023-06-27 15:44:41 公開日:2023-06-25
# より高速なセグメンテーション:モバイルアプリケーションのための軽量SAMを目指して

Faster Segment Anything: Towards Lightweight SAM for Mobile Applications ( http://arxiv.org/abs/2306.14289v1 )

ライセンス: Link先を確認
Chaoning Zhang, Dongshen Han, Yu Qiao, Jung Uk Kim, Sung-Ho Bae, Seungkyu Lee, Choong Seon Hong(参考訳) Segment Any Model (SAM) は、関心の対象を背景から切り離すためのプロンプト誘導型視覚基盤モデルである。 Meta研究チームがSAプロジェクトをリリースして以来、SAMは印象的なゼロショット転送性能と、画像編集やきめ細かい制御といった高度なビジョンアプリケーションのために他のモデルと互換性があるという高い汎用性のために、大きな注目を集めている。 このようなユースケースの多くは、モバイルアプリのようなリソース制約のあるエッジデバイス上で実行する必要がある。 本研究では,重厚画像エンコーダを軽量画像エンコーダに置き換えることで,SAMをモバイルフレンドリーにすることを目的とする。 オリジナルのSAM論文のように、このような新しいSAMをトレーニングする簡単な方法は、特に限られたトレーニングソースが利用できる場合、不満足なパフォーマンスをもたらす。 画像エンコーダとマスクデコーダの結合最適化が主な原因で,脱カップリング蒸留法を提案する。 具体的には、元のSAMのイメージエンコーダViT-Hから、元のSAMのマスクデコーダと自動的に互換性のある軽量画像エンコーダに、知識を蒸留する。 トレーニングは1日以内で1つのGPU上で完了することができ、その結果得られる軽量SAMはMobileSAMと呼ばれる。 推論速度では、MobileSAMは画像あたり約10msで動作し、画像エンコーダでは8ms、マスクデコーダでは2msである。 優れたパフォーマンスと高い汎用性により、MobileSAMは同時実行時のFastSAMの7倍の速さで、モバイルアプリケーションにもより適しています。 MobileSAMプロジェクトのコードはhttps://github.com/ChaoningZhang/MobileSAMにある。

Segment anything model (SAM) is a prompt-guided vision foundation model for cutting out the object of interest from its background. Since Meta research team released the SA project, SAM has attracted significant attention due to its impressive zero-shot transfer performance and high versatility of being compatible with other models for advanced vision applications like image editing with fine-grained control. Many of such use cases need to be run on resource-constraint edge devices, like mobile Apps. In this work, we aim to make SAM mobile-friendly by replacing the heavyweight image encoder with a lightweight one. A naive way to train such a new SAM as in the original SAM paper leads to unsatisfactory performance, especially when limited training sources are available. We find that this is mainly caused by the coupled optimization of the image encoder and mask decoder, motivated by which we propose decoupled distillation. Concretely, we distill the knowledge from the image encoder ViT-H in the original SAM to a lightweight image encoder, which can be automatically compatible with the mask decoder in the original SAM. The training can be completed on a single GPU within less than one day, and the resulting lightweight SAM is termed MobileSAM which is more than 60 times smaller yet performs on par with the original SAM. For inference speed, MobileSAM runs around 10ms per image: 8ms on the image encoder and 2ms on the mask decoder. With superior performance and a higher versatility, our MobileSAM is 7 times smaller and 4 times faster than the concurrent FastSAM, making it more suitable for mobile applications. The code for MobileSAM project is provided at https://github.com/ChaoningZhang/MobileSAM
翻訳日:2023-06-27 15:44:22 公開日:2023-06-25
# 共生学習による最適ヘテロシドスティック回帰

Near Optimal Heteroscedastic Regression with Symbiotic Learning ( http://arxiv.org/abs/2306.14288v1 )

ライセンス: Link先を確認
Dheeraj Baby and Aniket Das and Dheeraj Nagaraj and Praneeth Netrapalli(参考訳) y_i = \langle \mathbf{w}^{*}, \mathbf{x}_i \rangle + \epsilon_i \cdot \langle \mathbf{f}^{*}, \mathbf{x}_i \rangle$\mathbf{x}_i \rangle$,$\epsilon_i \rangle$,$\mathbf{i}_i \sim n(0,\mathbf{i})$,$\epsilon_i \sim n(0,1)$,$\epsilon_i \rangle$,$\mathbf{x}_i \rangle$,$\mathbf{x}_i \sim n(0,\mathbf{i})$,$\epsilon_i \sigma n(0,1)$,$\mathbf{w}^{*}$ から得られる。 統計学、計量学、時系列分析などの分野におけるヘテロシドスティックモデルの古典的応用に加えて、例えば大規模モデルトレーニングのような、異なるが不適切な品質の複数の情報源からデータが収集される場合、機械学習にも特に関係がある。 我々の研究は、$\tilde{o}\left(\|\mathbf{f}^{*}\|^2 \cdot \left(\frac{1}{n} + \left(\frac{d}{n}\right)^2\right)\right)$の誤差により二乗ノルムにおいて$\mathbf{w}^{*}$を推定し、一致する下界(対数係数まで)を証明できることを示した。 この結果は、これまでの最もよく知られた$\tilde{o}\left(\|\mathbf{f}^{*}\|^2\cdot \frac{d}{n}\right)$の上限を大幅に改善する。 我々の上界結果は、少なくともダビディアヌスとキャロル(1987年)に遡る単純古典的ヒューリスティックの新たな解析に基づいており、このアプローチに対する最初の非漸近収束保証を構成する。 副生成物として,本分析は線形回帰と位相探索の両方において,独立性のある乗法雑音による推定率の向上も提供する。 下位境界結果は、LeCamの2点法を慎重に適用することに依存しており、関連する相互情報量が無限である(LeCamの手法の直接適用を除く)重み付き確率変数を扱うように適応し、より広い関心を持つこともできる。

We consider the classical problem of heteroscedastic linear regression, where we are given $n$ samples $(\mathbf{x}_i, y_i) \in \mathbb{R}^d \times \mathbb{R}$ obtained from $y_i = \langle \mathbf{w}^{*}, \mathbf{x}_i \rangle + \epsilon_i \cdot \langle \mathbf{f}^{*}, \mathbf{x}_i \rangle$, where $\mathbf{x}_i \sim N(0,\mathbf{I})$, $\epsilon_i \sim N(0,1)$, and our task is to estimate $\mathbf{w}^{*}$. In addition to the classical applications of heteroscedastic models in fields such as statistics, econometrics, time series analysis etc., it is also particularly relevant in machine learning when data is collected from multiple sources of varying but apriori unknown quality, e.g., large model training. Our work shows that we can estimate $\mathbf{w}^{*}$ in squared norm up to an error of $\tilde{O}\left(\|\mathbf{f}^{*}\|^2 \cdot \left(\frac{1}{n} + \left(\frac{d}{n}\right)^2\right)\right)$ and prove a matching lower bound (up to logarithmic factors). Our result substantially improves upon the previous best known upper bound of $\tilde{O}\left(\|\mathbf{f}^{*}\|^2\cdot \frac{d}{n}\right)$. Our upper bound result is based on a novel analysis of a simple, classical heuristic going back to at least Davidian and Carroll (1987) and constitutes the first non-asymptotic convergence guarantee for this approach. As a byproduct, our analysis also provides improved rates of estimation for both linear regression and phase retrieval with multiplicative noise, which maybe of independent interest. The lower bound result relies on a careful application of LeCam's two point method, adapted to work with heavy tailed random variables where the relevant mutual information quantities are infinite (precluding a direct application of LeCam's method), and could also be of broader interest.
翻訳日:2023-06-27 15:43:51 公開日:2023-06-25
# 効率的なコンテクストフォーマ:学習画像圧縮における高速コンテクストモデリングのための時空間ウィンドウアテンション

Efficient Contextformer: Spatio-Channel Window Attention for Fast Context Modeling in Learned Image Compression ( http://arxiv.org/abs/2306.14287v1 )

ライセンス: Link先を確認
A. Burakhan Koyuncu, Panqi Jia, Atanas Boev, Elena Alshina, Eckehard Steinbach(参考訳) 本稿では,従来の研究であるContextformerをベースに構築した,学習した画像圧縮におけるコンテキストモデリングのためのEfficient Contextformer(eContextformer)を紹介する。 eContextformerは、効率的なトランスフォーマーと高速コンテキストモデルの最近の進歩と、時空間アテンション機構を組み合わせたものだ。 提案手法は,高効率エントロピーモデリングを実現するために,空間的およびチャネル的潜在依存性をコンテンツ適応的に活用することを可能にする。 いくつかのイノベーションを取り入れることで、eContextformerはデコード速度、モデルの複雑さ、以前の作業よりもレート歪みのパフォーマンスを改善した。 例えば、Contextformerと比較して、eContextformerはモデルの複雑さが145倍、デコード速度が210倍、Kodak、CLIC2020、Tecnickのデータセットで平均的なビット保存を実現する。 標準のVersatile Video Coding (VVC) Test Model (VTM) 16.2と比較して、提案モデルは最大17.1%のビットレート保存を提供し、様々な学習ベースのモデルを上回る。

In this work, we introduce Efficient Contextformer (eContextformer) for context modeling in lossy learned image compression, which is built upon our previous work, Contextformer. The eContextformer combines the recent advancements in efficient transformers and fast context models with the spatio-channel attention mechanism. The proposed model enables content-adaptive exploitation of the spatial and channel-wise latent dependencies for a high performance and efficient entropy modeling. By incorporating several innovations, the eContextformer features improved decoding speed, model complexity and rate-distortion performance over previous work. For instance, compared to Contextformer, the eContextformer requires 145x less model complexity, 210x less decoding speed and achieves higher average bit savings on the Kodak, CLIC2020 and Tecnick datasets. Compared to the standard Versatile Video Coding (VVC) Test Model (VTM) 16.2, the proposed model provides up to 17.1% bitrate savings and surpasses various learning-based models.
翻訳日:2023-06-27 15:42:38 公開日:2023-06-25
# 時間独立ポテンシャルをもつ時空分数Schroedinger方程式の経路積分シミュレーションについて

On the path integral simulation of space-time fractional Schroedinger equation with time independent potentials ( http://arxiv.org/abs/2306.14333v1 )

ライセンス: Link先を確認
Sumita Datta and Radhika Prosad Datta(参考訳) 本研究では,分数量子力学における相互作用系に生じる時空分数シュレーディンガー方程式に関連するコーシー問題を解くために,レヴィ測度に基づくファインマン・カック経路積分法が提案されている。 連続時間ランダムウォーク (Continuous Time Random Walk, CTRW) モデルは、基礎となる Levy プロセスの一般化 Wiener プロセスのシミュレートに使用される。 量子システムの最低エネルギー状態の把握に関心があるため、有限時間に適したmittag-leffler確率変数とは対照的に、pareto分布を用いる。 CTRWモデルを採用することで、標準拡散の場合と同等の単純さと収束率で時空間分数拡散過程をシミュレートすることができる。 これは分数積分の代替として分数次ファインマン・カック経路積分法によって数値的に時空拡散方程式を解くエレガントな方法になると期待する。

In this work a Feynman-Kac path integral method based on Levy measure has been proposed for solving the Cauchy problems associated with the space-time fractional Schroedinger equations arising in interacting systems in fractional quantum mechanics. The Continuous Time Random Walk(CTRW) model is used to simulate the underlying Levy process-a generalized Wiener process. Since we are interested to capture the lowest energy state of quantum systems, we use Pareto distribution as opposed to Mittag-Leffler random variables, which are more suitable for finite time. Adopting the CTRW model we have been able to simulate the space-time fractional diffusion process with comparable simplicity and convergence rate as in the case of a standard diffusion. We hope this paves an elegant way to solve space-time diffusion equations numerically through Fractional Feynman-Kac path integral technique as an alternative to fractional calculus.
翻訳日:2023-06-27 15:35:33 公開日:2023-06-25
# ロバスト分類における計算非対称性

Computational Asymmetries in Robust Classification ( http://arxiv.org/abs/2306.14326v1 )

ライセンス: Link先を確認
Samuele Marro, Michele Lombardi(参考訳) 敵対的堅牢性の文脈では、3つの強く関連する貢献を行う。 まず、relu分類器を攻撃することは$\mathit{np}$-hardであるが、トレーニング時のロバスト性を保証するのは$\sigma^2_p$-hardである。 この非対称性は、堅牢な分類アプローチが文学においてしばしば騙されるという事実の理論的根拠を与える。 第2に,この非対称性により,推論時ロバスト性証明は影響を受けないことを示し,Counter-Attack (CA) という概念実証手法を導入した。 実際、CA は逆非対称性を示す: 防御の実行は $\mathit{NP}$-hard であり、攻撃は $\Sigma_2^P$-hard である。 最後に,前回の結果に動機づけられ,ロバストネス認定の文脈で敵の攻撃が利用でき,その効果を実証的に評価できると主張している。 このプロセスの副産物として、敵攻撃のベンチマークデータセットであるUG100もリリースする。

In the context of adversarial robustness, we make three strongly related contributions. First, we prove that while attacking ReLU classifiers is $\mathit{NP}$-hard, ensuring their robustness at training time is $\Sigma^2_P$-hard (even on a single example). This asymmetry provides a rationale for the fact that robust classifications approaches are frequently fooled in the literature. Second, we show that inference-time robustness certificates are not affected by this asymmetry, by introducing a proof-of-concept approach named Counter-Attack (CA). Indeed, CA displays a reversed asymmetry: running the defense is $\mathit{NP}$-hard, while attacking it is $\Sigma_2^P$-hard. Finally, motivated by our previous result, we argue that adversarial attacks can be used in the context of robustness certification, and provide an empirical evaluation of their effectiveness. As a byproduct of this process, we also release UG100, a benchmark dataset for adversarial attacks.
翻訳日:2023-06-27 15:35:17 公開日:2023-06-25
# ニューロシンボリック逆計画エンジン(nipe) : 言語入力からの確率的社会推論のモデル化

The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling Probabilistic Social Inferences from Linguistic Inputs ( http://arxiv.org/abs/2306.14325v1 )

ライセンス: Link先を確認
Lance Ying, Katherine M. Collins, Megan Wei, Cedegao E. Zhang, Tan Zhi-Xuan, Adrian Weller, Joshua B. Tenenbaum, Lionel Wong(参考訳) 人間は社会的な生き物だ。 私たちは定期的に他のエージェントについて推論し、この社会的推論の重要な要素は、人々の行動について学ぶときに人々の目標を推測することである。 多くの設定で、エージェント、アクション、バックグラウンド環境の言語記述から直感的で信頼性の高いゴール推論を実行できます。 本稿では,確率的目標推論領域における言語駆動過程と社会的推論に影響を与える過程について検討する。 本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。 ニューロ」部分は言語記述をコード表現に変換する大言語モデル(llm)であり、「シンボル」部分はベイズ逆計画エンジンである。 モデルをテストするために、私たちは言語目標推論タスクで人間実験を設計、実行します。 我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。

Human beings are social creatures. We routinely reason about other agents, and a crucial component of this social reasoning is inferring people's goals as we learn about their actions. In many settings, we can perform intuitive but reliable goal inference from language descriptions of agents, actions, and the background environments. In this paper, we study this process of language driving and influencing social reasoning in a probabilistic goal inference domain. We propose a neuro-symbolic model that carries out goal inference from linguistic inputs of agent scenarios. The "neuro" part is a large language model (LLM) that translates language descriptions to code representations, and the "symbolic" part is a Bayesian inverse planning engine. To test our model, we design and run a human experiment on a linguistic goal inference task. Our model closely matches human response patterns and better predicts human judgements than using an LLM alone.
翻訳日:2023-06-27 15:34:57 公開日:2023-06-25
# 圧縮状態を用いた実用的量子セキュア直接通信

Practical quantum secure direct communication with squeezed states ( http://arxiv.org/abs/2306.14322v1 )

ライセンス: Link先を確認
Iris Paparelle, Faezeh Mousavi, Francesco Scazza, Angelo Bassi, Matteo Paris, Alessandro Zavatta(参考訳) qsdc(quantum secure direct communication)は、セキュアな情報を直接送信し、量子鍵分布(quantum key distribution, qkd)を介して鍵ベースの(de)暗号化プロセスを代替する、急速に開発された量子通信手法である。 過去10年間で、離散変数符号化に基づく光QSDCプロトコルが成功している。 近年,セキュリティが証明された,あまり洗練されていない実装の恩恵を受ける,連続変数型(cv)のqsdcスキームが提案されている。 本稿では,CV-QSDCシステムの最初の実験実験を行い,その安全性を評価する。 そこで本研究では,ビームスプリッター攻撃を想定したワイナーワイヤータップチャネル理論を用いて,コヒーレントおよびスクイーズドソースを含む異なる構成のセキュリティを解析する。 この実用的なプロトコルは、cvエンコーディングに基づくqsdcシステムの原理を示すだけでなく、コヒーレントなものよりも圧縮された状態の利点を示し、損失やノイズの多いチャネルにおけるセキュリティと信頼性の高い通信を実現する。 我々の実現は、成熟した通信コンポーネントに基づいており、将来の脅威のない量子メトロポリタンネットワークへの道を開き、既存のadvanced wavelength division multiplexing (wdm)システムと互換性がある。

Quantum secure direct communication (QSDC) is a rapidly developing quantum communication approach, where secure information is directly transmitted, providing an alternative to key-based (de)encryption processes via Quantum Key Distribution (QKD). During the last decade, optical QSDC protocols based on discrete variable encodings have been successfully realized. Recently, continuous-variable (CV) QSDC schemes have been proposed, benefiting from less-sophisticated implementations with proven security. Here, we report the first table-top experimental demonstration of a CV-QSDC system and assess its security. For this realization, we analyze the security of different configurations, including coherent and squeezed sources, with Wyner wiretap channel theory in presence of a beam splitter attack. This practical protocol not only demonstrates the principle of QSDC systems based on CV encoding, but also showcases the advantage of squeezed states over coherent ones in attaining enhanced security and reliable communication in lossy and noisy channels. Our realization, which is founded on mature telecom components, paves the way into future threat-less quantum metropolitan networks, compatible with coexisting advanced wavelength division multiplexing (WDM) systems.
翻訳日:2023-06-27 15:34:42 公開日:2023-06-25
# RobuT: 表QAロバスト性に関する体系的研究

RobuT: A Systematic Study of Table QA Robustness Against Human-Annotated Adversarial Perturbations ( http://arxiv.org/abs/2306.14321v1 )

ライセンス: Link先を確認
Yilun Zhao, Chen Zhao, Linyong Nan, Zhenting Qi, Wenlin Zhang, Xiangru Tang, Boyu Mi, Dragomir Radev(参考訳) 表形式のデータ(Table QA)に対する回答が疑問視されているにもかかわらず、既存のテーブルQAモデルがタスク固有の摂動(例えば、キー質問エンティティを置き換えたり、テーブル列をシャッフルするなど)に対して堅牢であるかどうかは不明だ。 テーブルQAモデルのロバスト性を体系的に研究するために,既存のテーブルQAデータセット(WTQ,WikiSQL-Weak,SQA)をベースとしたRobuTというベンチマークを提案し,テーブルヘッダ,テーブル内容,質問といった点において,人間に注釈を付けた逆の摂動を含む。 以上の結果から,現状のテーブルQAモデルと大規模言語モデル(GPT-3など)の双方が,これらの対向集合に数発の学習フェールを持つことが明らかとなった。 そこで本稿では,大規模言語モデルを用いて,テーブルQAモデルのロバスト性を大幅に向上させる学習例を生成することを提案する。 私たちのデータとコードはhttps://github.com/yilunzhao/robutで公開されています。

Despite significant progress having been made in question answering on tabular data (Table QA), it's unclear whether, and to what extent existing Table QA models are robust to task-specific perturbations, e.g., replacing key question entities or shuffling table columns. To systematically study the robustness of Table QA models, we propose a benchmark called RobuT, which builds upon existing Table QA datasets (WTQ, WikiSQL-Weak, and SQA) and includes human-annotated adversarial perturbations in terms of table header, table content, and question. Our results indicate that both state-of-the-art Table QA models and large language models (e.g., GPT-3) with few-shot learning falter in these adversarial sets. We propose to address this problem by using large language models to generate adversarial examples to enhance training, which significantly improves the robustness of Table QA models. Our data and code is publicly available at https://github.com/yilunzhao/RobuT.
翻訳日:2023-06-27 15:34:17 公開日:2023-06-25
# Im2win:SIMDアーキテクチャ上でのメモリ効率の良い畳み込み

Im2win: Memory Efficient Convolution On SIMD Architectures ( http://arxiv.org/abs/2306.14320v1 )

ライセンス: Link先を確認
Shuai Lu and Jun Chu and Xu T. Liu(参考訳) 畳み込みはニューラルネットワーク操作の中で最も高価な操作であるため、その性能はニューラルネットワーク全体のパフォーマンスに不可欠である。 一般行列乗法(GEMM)ベースの畳み込みと直接畳み込みを含む一般的な畳み込みアプローチは、それぞれデータ変換にim2colに依存するか、あるいはデータ変換を全く使わない。 しかし、im2colのデータ変換は、データ変換を全く使わずに、少なくとも2$\times$メモリフットプリントにつながる可能性があるため、メモリ制限されたシステムで動作するニューラルネットワークモデルのサイズが制限される。 一方、データトランスフォーメーションを使用しない場合、メモリ消費が少ないにもかかわらず、非連続的なメモリアクセスのためにパフォーマンスが悪い。 これらの問題を解決するために,Im2winと呼ばれるメモリ効率の高いデータ変換アルゴリズムを提案する。 このアルゴリズムは入力画像の正方形または矩形ドット製品ウィンドウの列をリファクタリングし、これらのウィンドウ内のユニークな要素を出力テンソルの行にフラット化することで、連続したメモリアクセスとデータの再利用を可能にし、メモリオーバーヘッドを大幅に削減する。 さらに,ベクトル化やループ再順序付けなど,様々な最適化を施した高性能im2winに基づく畳み込みアルゴリズムを提案する。 実験の結果,im2colをベースとしたPyTorchの畳み込み実装と比較してメモリオーバーヘッドを平均41.6%削減し,im2colをベースとした畳み込みよりも平均3.6$\times$と5.3$\times$のパフォーマンス向上を実現した。

Convolution is the most expensive operation among neural network operations, thus its performance is critical to the overall performance of neural networks. Commonly used convolution approaches, including general matrix multiplication (GEMM)-based convolution and direct convolution, rely on im2col for data transformation or do not use data transformation at all, respectively. However, the im2col data transformation can lead to at least 2$\times$ memory footprint compared to not using data transformation at all, thus limiting the size of neural network models running on memory-limited systems. Meanwhile, not using data transformation usually performs poorly due to nonconsecutive memory access although it consumes less memory. To solve those problems, we propose a new memory-efficient data transformation algorithm, called im2win. This algorithm refactorizes a row of square or rectangle dot product windows of the input image and flattens unique elements within these windows into a row in the output tensor, which enables consecutive memory access and data reuse, and thus greatly reduces the memory overhead. Furthermore, we propose a high-performance im2win-based convolution algorithm with various optimizations, including vectorization, loop reordering, etc. Our experimental results show that our algorithm reduces the memory overhead by average to 41.6% compared to the PyTorch's convolution implementation based on im2col, and achieves average to 3.6$\times$ and 5.3$\times$ speedup in performance compared to the im2col-based convolution and not using data transformation, respectively.
翻訳日:2023-06-27 15:33:56 公開日:2023-06-25
# Im2win: GPUの効率的な畳み込みパラダイム

Im2win: An Efficient Convolution Paradigm on GPU ( http://arxiv.org/abs/2306.14316v1 )

ライセンス: Link先を確認
Shuai Lu and Jun Chu and Luanzheng Guo and Xu T. Liu(参考訳) 畳み込みはディープニューラルネットワーク操作において最も時間を要する操作であるため、その性能はニューラルネットワーク全体のパフォーマンスに不可欠である。 gpu上の畳み込みの一般的な方法は、general matrix multiplication (gemm)ベースの畳み込みとdirect convolutionである。 GEMMベースの畳み込みはim2colアルゴリズムに依存しており、結果としてメモリフットプリントが大きくなり、性能が低下する。 直接畳み込みには大きなメモリフットプリントの問題はないが、不連続なメモリアクセスのため、GEMMベースのアプローチと性能は同等ではない。 本稿では,メモリフットプリントの削減だけでなく,連続的なメモリアクセスも実現し,性能の向上を実現するため,GPU上でのウィンドウオーダーベースの畳み込みパラダイムであるim2winを提案する。 さらに,共有メモリ,タイリング,マイクロカーネル,ダブルバッファ,プリフェッチなど,コンボリューションCUDAカーネルに様々な最適化手法を適用する。 PyTorchのGEMMベースのコンボリューションとcuBLASと6つのcuDNNベースのコンボリューション実装を、12の最先端DNNベンチマークで比較した。 実験結果は 我々の実施が 1) メモリフットプリントを23.1%削減し、cuBLASと比較して3.5$\times$ TFLOPSを達成した。 2) メモリフットプリントを32.8%削減し、cuDNNの最高のパフォーマンスの畳み込みに比べて最大1.8$\times$ TFLOPSを達成する。 3) 直接畳み込みに比べて最大155$\times$ TFLOPSを達成する。 さらに, 応用最適化手法に関するアブレーション研究を行い, マイクロカーネルが性能に最も有意な影響を与えることを発見した。

Convolution is the most time-consuming operation in deep neural network operations, so its performance is critical to the overall performance of the neural network. The commonly used methods for convolution on GPU include the general matrix multiplication (GEMM)-based convolution and the direct convolution. GEMM-based convolution relies on the im2col algorithm, which results in a large memory footprint and reduced performance. Direct convolution does not have the large memory footprint problem, but the performance is not on par with GEMM-based approach because of the discontinuous memory access. This paper proposes a window-order-based convolution paradigm on GPU, called im2win, which not only reduces memory footprint but also offers continuous memory accesses, resulting in improved performance. Furthermore, we apply a range of optimization techniques on the convolution CUDA kernel, including shared memory, tiling, micro-kernel, double buffer, and prefetching. We compare our implementation with the direct convolution, and PyTorch's GEMM-based convolution with cuBLAS and six cuDNN-based convolution implementations, with twelve state-of-the-art DNN benchmarks. The experimental results show that our implementation 1) uses less memory footprint by 23.1% and achieves 3.5$\times$ TFLOPS compared with cuBLAS, 2) uses less memory footprint by 32.8% and achieves up to 1.8$\times$ TFLOPS compared with the best performant convolutions in cuDNN, and 3) achieves up to 155$\times$ TFLOPS compared with the direct convolution. We further perform an ablation study on the applied optimization techniques and find that the micro-kernel has the greatest positive impact on performance.
翻訳日:2023-06-27 15:33:25 公開日:2023-06-25
# G-STO:グラフ正規化確率変換器による逐次メインショッピングインテンション検出

G-STO: Sequential Main Shopping Intention Detection via Graph-Regularized Stochastic Transformer ( http://arxiv.org/abs/2306.14314v1 )

ライセンス: Link先を確認
Yuchen Zhuang, Xin Shen, Yan Zhao, Chaosheng Dong, Ming Wang, Jin Li, Chao Zhang(参考訳) 逐次的なレコメンデーションでは、ユーザーの行動、コンテキスト、好みの動的パターンを過去のインタラクションから理解する必要がある。 既存の作品のほとんどはアイテムレベルからのみユーザーとアイテムのインタラクションをモデル化することにフォーカスしており、潜在的なショッピング意図(例えばボールペン、ミニチュアなど)によって駆動されていることを無視している。 amazonのようなeコマースプラットフォームにとって、顧客のショッピング体験の利便性と効率性を高めるために、ユーザーの歴史的相互作用に基づくショッピング意図の検出は重要な側面である。 その重要性にもかかわらず、主要なショッピング意図の検出領域は学術文献では未解明のままである。 このギャップを埋めるために,グラフ正規化確率変換器G-STOを提案する。 意図を製品の集合として、ユーザの嗜好を意図の合成として考えることにより、それらの両方を潜在表現空間における確率的ガウス埋め込みとしてモデル化する。 確率的表現をゼロから訓練する代わりに、正規化の事前知識としてグローバルな意図関係グラフを構築し、関連するショッピング意図を分布的に近接させる。 最後に,トランスフォーマーモデルに正規化された確率埋め込みを投入し,意図的遷移から逐次情報を符号化する。 G-STOはHit@1では18.08%,Hit@10では7.01%,NDCG@10では6.11%,ベースラインよりもはるかに優れたパフォーマンスを実現している。

Sequential recommendation requires understanding the dynamic patterns of users' behaviors, contexts, and preferences from their historical interactions. Most existing works focus on modeling user-item interactions only from the item level, ignoring that they are driven by latent shopping intentions (e.g., ballpoint pens, miniatures, etc). The detection of the underlying shopping intentions of users based on their historical interactions is a crucial aspect for e-commerce platforms, such as Amazon, to enhance the convenience and efficiency of their customers' shopping experiences. Despite its significance, the area of main shopping intention detection remains under-investigated in the academic literature. To fill this gap, we propose a graph-regularized stochastic Transformer method, G-STO. By considering intentions as sets of products and user preferences as compositions of intentions, we model both of them as stochastic Gaussian embeddings in the latent representation space. Instead of training the stochastic representations from scratch, we develop a global intention relational graph as prior knowledge for regularization, allowing relevant shopping intentions to be distributionally close. Finally, we feed the newly regularized stochastic embeddings into Transformer-based models to encode sequential information from the intention transitions. We evaluate our main shopping intention identification model on three different real-world datasets, where G-STO achieves significantly superior performances to the baselines by 18.08% in Hit@1, 7.01% in Hit@10, and 6.11% in NDCG@10 on average.
翻訳日:2023-06-27 15:32:57 公開日:2023-06-25
# 顔アンチ・スプーフィングのための幾何学的時間ダイナミクス

A Closer Look at Geometric Temporal Dynamics for Face Anti-Spoofing ( http://arxiv.org/abs/2306.14313v1 )

ライセンス: Link先を確認
Chih-Jung Chang, Yaw-Chern Lee, Shih-Hsuan Yao, Min-Hung Chen, Chien-Yi Wang, Shang-Hong Lai, Trista Pei-Chun Chen(参考訳) 顔認識システムにはFAS(face anti-spoofing)が不可欠である。 プレゼンテーションアタック(pas)に対して多くのテクスチャ駆動対策が開発されたが、未認識ドメインや未認識のスプーフィングタイプに対する性能は依然として不十分である。 本研究は,すべてのスプーフのバリエーションを網羅的に収集し,ライブ/スプーフのバイナリ決定を行う代わりに,通常動作と異常動作を区別するFASタスクの新たな視点を提供する。 本稿では,時空間グラフ畳み込みネットワーク(ST-GCN)を用いた高密度顔のランドマークを利用したGAIN(Geometry-Aware Interaction Network)を提案する。 さらに、inter-attention機能インタラクションメカニズムにより、gainは他の既存のメソッドと簡単に統合でき、パフォーマンスを大幅に向上できます。 提案手法は,標準内部およびクロスデータセット評価における最先端性能を実現する。 さらに,本モデルはCASIA-SURF 3DMask(+10.26%高得点)上のクロスデータセット・クロスタイププロトコルにおいて,最先端の手法よりも優れた性能を示し,ドメインシフトに対する強い強靭性を示す。

Face anti-spoofing (FAS) is indispensable for a face recognition system. Many texture-driven countermeasures were developed against presentation attacks (PAs), but the performance against unseen domains or unseen spoofing types is still unsatisfactory. Instead of exhaustively collecting all the spoofing variations and making binary decisions of live/spoof, we offer a new perspective on the FAS task to distinguish between normal and abnormal movements of live and spoof presentations. We propose Geometry-Aware Interaction Network (GAIN), which exploits dense facial landmarks with spatio-temporal graph convolutional network (ST-GCN) to establish a more interpretable and modularized FAS model. Additionally, with our cross-attention feature interaction mechanism, GAIN can be easily integrated with other existing methods to significantly boost performance. Our approach achieves state-of-the-art performance in the standard intra- and cross-dataset evaluations. Moreover, our model outperforms state-of-the-art methods by a large margin in the cross-dataset cross-type protocol on CASIA-SURF 3DMask (+10.26% higher AUC score), exhibiting strong robustness against domain shifts and unseen spoofing types.
翻訳日:2023-06-27 15:32:28 公開日:2023-06-25
# エンドツーエンド自動音声認識におけるコールドスタート問題への対処

Addressing Cold Start Problem for End-to-end Automatic Speech Scoring ( http://arxiv.org/abs/2306.14310v1 )

ライセンス: Link先を確認
Jungbae Park, Seungtaek Choi(参考訳) 自動音声スコアリング・アセスメントシステムの統合は、第二言語教育において重要な側面となっている。 自己教師型学習の進歩により、エンドツーエンドの音声スコアリングアプローチは有望な結果を示した。 しかし,本研究では,新たな質問場面における音声スコアリングシステムの性能が著しく低下していることに注目し,項目の観点からのコールドスタート問題として捉えた。 コールドスタート現象の発見により,本論文は以下の方法により問題を緩和することを目指している。 1) 埋め込みの迅速化 2)BERTまたはCLIPモデルを用いた質問コンテキスト埋め込み 3)事前学習した音響モデルの選定。 プロのTOEIC言語評価者によって評価された英語・アズ・ア・セカンダリ(ESL)学習者から収集したTOEIC言語テストデータセットについて実験を行った。 その結果,提案フレームワークはコールドスタート環境におけるロバスト性だけでなく,既知のコンテンツのベースラインよりも優れていた。

Integrating automatic speech scoring/assessment systems has become a critical aspect of second-language speaking education. With self-supervised learning advancements, end-to-end speech scoring approaches have exhibited promising results. However, this study highlights the significant decrease in the performance of speech scoring systems in new question contexts, thereby identifying this as a cold start problem in terms of items. With the finding of cold-start phenomena, this paper seeks to alleviate the problem by following methods: 1) prompt embeddings, 2) question context embeddings using BERT or CLIP models, and 3) choice of the pretrained acoustic model. Experiments are conducted on TOEIC speaking test datasets collected from English-as-a-second-language (ESL) learners rated by professional TOEIC speaking evaluators. The results demonstrate that the proposed framework not only exhibits robustness in a cold-start environment but also outperforms the baselines for known content.
翻訳日:2023-06-27 15:31:48 公開日:2023-06-25
# 因果フレームワークの比較: 潜在的な結果、構造モデル、グラフ、抽象化

Comparing Causal Frameworks: Potential Outcomes, Structural Models, Graphs, and Abstractions ( http://arxiv.org/abs/2306.14351v1 )

ライセンス: Link先を確認
Duligur Ibeling, Thomas Icard(参考訳) 本稿では,ルービン因果モデル (RCM) と構造因果モデル (SCM) の因果推論における関係を明確かつ正確にすることを目的とする。 中立的な論理的視点を採用し、それ以前の作業に基づいて、RCMがSCMで表現できることに必要なものを示す。 主要な結果は、SCMフレームワークによって暗示される代数的原則に違反しているものを含む全てのRCMが、表現可能なRCMの抽象化として現れることを示している。 最後に、rcmの古典的な応用において、scmの原則に重要な役割を課すことで、この説明可能な視点の力を示す;逆に、グラフに含意される代数的制約の特徴付けを提供し、この2つのフレームワーク間のさらなる比較を確証するのに役立つ。

The aim of this paper is to make clear and precise the relationship between the Rubin causal model (RCM) and structural causal model (SCM) frameworks for causal inference. Adopting a neutral logical perspective, and drawing on previous work, we show what is required for an RCM to be representable by an SCM. A key result then shows that every RCM -- including those that violate algebraic principles implied by the SCM framework -- emerges as an abstraction of some representable RCM. Finally, we illustrate the power of this ameliorative perspective by pinpointing an important role for SCM principles in classic applications of RCMs; conversely, we offer a characterization of the algebraic constraints implied by a graph, helping to substantiate further comparisons between the two frameworks.
翻訳日:2023-06-27 15:25:17 公開日:2023-06-25
# CDiffMR:高速MRIのためのK空間アンサンプでガウスノイズを置き換えられるか?

CDiffMR: Can We Replace the Gaussian Noise with K-Space Undersampling for Fast MRI? ( http://arxiv.org/abs/2306.14350v1 )

ライセンス: Link先を確認
Jiahao Huang, Angelica Aviles-Rivero, Carola-Bibiane Sch\"onlieb, Guang Yang(参考訳) 深層学習はMRIの再構成を著しく加速し、測定値の減少を図っている。 近年,拡散モデルが深層学習に基づく生成手法の新たなグループとして注目されている。 これらの手法は,MRI再建に成功しているガウス分布から対象分布に属するデータ点をサンプリングすることを目的とする。 本研究ではCDiffMRと呼ばれる冷拡散型MRI再構成法を提案する。 従来の拡散モデルと異なり,CDiffMRの劣化動作はガウス雑音を付加するのではなく, \textit{k}-space undersamplingに基づいており, 修復ネットワークはデエイリアス機能を利用するように訓練されている。 また,逆処理を誘導・加速するための出発点およびデータ一貫性条件付け戦略も設計する。 さらに興味深いことに、訓練済みのCDiffMRモデルは、アンダーサンプリング率の異なる再構成タスクに再利用することができる。 我々は,広範囲な数値および視覚実験を通じて,提案したCDiffMRが最先端モデルと同等あるいは優れた再構成結果が得られることを示した。 拡散モデルに基づくものと比べ、CDiffMRは推論時間に対してわずか1.6 \sim 3.4\%$で簡単に競合する結果に達する。 コードはhttps://github.com/ayanglab/CDiffMRで公開されている。

Deep learning has shown the capability to substantially accelerate MRI reconstruction while acquiring fewer measurements. Recently, diffusion models have gained burgeoning interests as a novel group of deep learning-based generative methods. These methods seek to sample data points that belong to a target distribution from a Gaussian distribution, which has been successfully extended to MRI reconstruction. In this work, we proposed a Cold Diffusion-based MRI reconstruction method called CDiffMR. Different from conventional diffusion models, the degradation operation of our CDiffMR is based on \textit{k}-space undersampling instead of adding Gaussian noise, and the restoration network is trained to harness a de-aliaseing function. We also design starting point and data consistency conditioning strategies to guide and accelerate the reverse process. More intriguingly, the pre-trained CDiffMR model can be reused for reconstruction tasks with different undersampling rates. We demonstrated, through extensive numerical and visual experiments, that the proposed CDiffMR can achieve comparable or even superior reconstruction results than state-of-the-art models. Compared to the diffusion model-based counterpart, CDiffMR reaches readily competing results using only $1.6 \sim 3.4\%$ for inference time. The code is publicly available at https://github.com/ayanglab/CDiffMR.
翻訳日:2023-06-27 15:25:03 公開日:2023-06-25
# ディープラーニングを利用したデータベース管理システムの自動チューニング

Utilizing deep learning for automated tuning of database management systems ( http://arxiv.org/abs/2306.14349v1 )

ライセンス: Link先を確認
Karthick Prasad Gunasekaran, Kajal Tiwari, Rachana Acharya(参考訳) Managing the configurations of a database system poses significant challenges due to the multitude of configuration knobs that impact various system aspects.The lack of standardization, independence, and universality among these knobs further complicates the task of determining the optimal settings.To address this issue, an automated solution leveraging supervised and unsupervised machine learning techniques was developed.This solution aims to identify influential knobs, analyze previously unseen workloads, and provide recommendations for knob settings.The effectiveness of this approach is demonstrated through the evaluation of a new tool called OtterTune [1] on three different database management systems (DBMSs). The results indicate that OtterTune's recommendations are comparable to or even surpass the configurations generated by existing tools or human experts.In this study, we build upon the automated technique introduced in the original OtterTune paper, utilizing previously collected training data to optimize new DBMS deployments.By employing supervised and unsupervised machine learning methods, we focus on improving latency prediction.Our approach expands upon the methods proposed in the original paper by incorporating GMM clustering to streamline metrics selection and combining ensemble models (such as RandomForest) with non-linear models (like neural networks) for more accurate prediction modeling.

Managing the configurations of a database system poses significant challenges due to the multitude of configuration knobs that impact various system aspects.The lack of standardization, independence, and universality among these knobs further complicates the task of determining the optimal settings.To address this issue, an automated solution leveraging supervised and unsupervised machine learning techniques was developed.This solution aims to identify influential knobs, analyze previously unseen workloads, and provide recommendations for knob settings.The effectiveness of this approach is demonstrated through the evaluation of a new tool called OtterTune [1] on three different database management systems (DBMSs).The results indicate that OtterTune's recommendations are comparable to or even surpass the configurations generated by existing tools or human experts.In this study, we build upon the automated technique introduced in the original OtterTune paper, utilizing previously collected training data to optimize new DBMS deployments.By employing supervised and unsupervised machine learning methods, we focus on improving latency prediction.Our approach expands upon the methods proposed in the original paper by incorporating GMM clustering to streamline metrics selection and combining ensemble models (such as RandomForest) with non-linear models (like neural networks) for more accurate prediction modeling.
翻訳日:2023-06-27 15:24:44 公開日:2023-06-25
# コンセンサスによる協調的分散ベイズ最適化:最適な設計のための協調の力を示す

Collaborative and Distributed Bayesian Optimization via Consensus: Showcasing the Power of Collaboration for Optimal Design ( http://arxiv.org/abs/2306.14348v1 )

ライセンス: Link先を確認
Xubo Yue, Raed Al Kontar, Albert S. Berahas, Yang Liu, Zhenghao Zai, Kevin Edgar, Blake N. Johnson(参考訳) 最適設計は多くのアプリケーションにおいて重要な課題である。 この課題は広範囲な試行錯誤が必要であり、しばしばシミュレーションやフィールド実験を通じて行われる。 幸いなことに、ベイズ風味のサロゲートを使用する際にベイズ最適化とも呼ばれるシーケンシャル最適設計は、効率的なシーケンシャルサンプリング戦略を通じて設計プロセスの加速に重要な役割を果たしている。 しかし、現在では重要な機会が存在している。 エッジデバイスの接続性が高まり、ベイズ最適化のための新しいコラボレーティブパラダイムが確立された。 最適な設計プロセスを改善し、迅速に追跡するために、実験を効果的に分散することで、異なるクライアントが互いに協力して力を借りるパラダイム。 この目的のために、我々はベイズ最適化にコンセンサスの概念をもたらし、クライアントは次のサンプル設計で合意する(すなわちコンセンサスに達する)。 私たちのアプローチは、異なるコラボレーションメカニズムを組み込める汎用的で柔軟なフレームワークを提供します。 これの代わりに、私たちは、クライアントが当初、スキャンされたデータで早期に操作するために、より多くのクライアントに依存する過渡的協調メカニズムを提案し、そして、後期には、クライアント固有のソリューションを得るために、それぞれの目標に焦点を当てる。 理論的には,提案フレームワークに対する後悔のサブ線形成長を示す。 実験により、シミュレーションデータセットと実世界の協調材料探索実験により、我々のフレームワークが最適な設計プロセスを効果的に加速し、改善し、すべての参加者に利益をもたらすことを示す。

Optimal design is a critical yet challenging task within many applications. This challenge arises from the need for extensive trial and error, often done through simulations or running field experiments. Fortunately, sequential optimal design, also referred to as Bayesian optimization when using surrogates with a Bayesian flavor, has played a key role in accelerating the design process through efficient sequential sampling strategies. However, a key opportunity exists nowadays. The increased connectivity of edge devices sets forth a new collaborative paradigm for Bayesian optimization. A paradigm whereby different clients collaboratively borrow strength from each other by effectively distributing their experimentation efforts to improve and fast-track their optimal design process. To this end, we bring the notion of consensus to Bayesian optimization, where clients agree (i.e., reach a consensus) on their next-to-sample designs. Our approach provides a generic and flexible framework that can incorporate different collaboration mechanisms. In lieu of this, we propose transitional collaborative mechanisms where clients initially rely more on each other to maneuver through the early stages with scant data, then, at the late stages, focus on their own objectives to get client-specific solutions. Theoretically, we show the sub-linear growth in regret for our proposed framework. Empirically, through simulated datasets and a real-world collaborative material discovery experiment, we show that our framework can effectively accelerate and improve the optimal design process and benefit all participants.
翻訳日:2023-06-27 15:24:29 公開日:2023-06-25
# 逐次特徴選択によるテストフェーズの高速分類

Fast Classification with Sequential Feature Selection in Test Phase ( http://arxiv.org/abs/2306.14347v1 )

ライセンス: Link先を確認
Ali Mirzaei, Vahid Pourahmadi, Hamid Sheikhzadeh, Alireza Abdollahpourrostam(参考訳) 本稿では,最も有益な特徴のサブセットを順次選択し,コストを最小化しつつ,テスト中に最適な予測性能を達成するための新しい手法を提案する。 提案手法には,既存の手法に比べてはるかに高速で効率の良い新しい遅延モデルが伴うが,精度は同等である。 テストフェーズにおいて,提案手法は,各ステップで最も重要な特徴を特定するために,Fisherスコアを用いて特徴ランク付けを行う。 次のステップでは、選択した特徴の観測値に基づいてトレーニングデータセットをフィルタリングし、このプロセスを継続して、特徴取得の予算の許容精度または限界に達する。 提案手法の性能を,我々の新しい合成データセット,CUBEデータセット,および実際のデータセットフォレストなど,合成および実データに基づいて評価した。 実験結果から,本手法は従来の手法に比べて精度が向上するが,速度面では性能が優れていることが示された。 アルゴリズムのソースコードはgithub.com/alimirzaei/FCwSFSというリンクで公開されている。

This paper introduces a novel approach to active feature acquisition for classification, which is the task of sequentially selecting the most informative subset of features to achieve optimal prediction performance during testing while minimizing cost. The proposed approach involves a new lazy model that is significantly faster and more efficient compared to existing methods, while still producing comparable accuracy results. During the test phase, the proposed approach utilizes Fisher scores for feature ranking to identify the most important feature at each step. In the next step the training dataset is filtered based on the observed value of the selected feature and then we continue this process to reach to acceptable accuracy or limit of the budget for feature acquisition. The performance of the proposed approach was evaluated on synthetic and real datasets, including our new synthetic dataset, CUBE dataset and also real dataset Forest. The experimental results demonstrate that our approach achieves competitive accuracy results compared to existing methods, while significantly outperforming them in terms of speed. The source code of the algorithm is released at github with this link: https://github.com/alimirzaei/FCwSFS.
翻訳日:2023-06-27 15:24:03 公開日:2023-06-25
# データセットの異常値とロバストクラスタリング比較尺度を付加したk$-meansソリューションランドスケープの進化

Evolution of $K$-means solution landscapes with the addition of dataset outliers and a robust clustering comparison measure for their analysis ( http://arxiv.org/abs/2306.14346v1 )

ライセンス: Link先を確認
Luke Dicks and David J. Wales(参考訳) K$-meansアルゴリズムは、その単純さと汎用性から、最も広く使われているクラスタリング手法の1つである。 k$-meansのパフォーマンスは、潜在的に膨大な数のソリューションの中で、コストの少ないminimaの位置に依存する。 ここでは,dataset outlierの増加によるk$-meansソリューション空間の変化を,エネルギーランドスケープアプローチを用いてマッピングし,コスト関数表面がよりファンネル化していることを示す。 速度論的解析により、全ての場合において全体ファンネルは浅い局所燃料領域で構成されており、それぞれがクラスタリングソリューションをサポートしない領域によって分離されていることが明らかになった。 これらの浅い領域は、異なる種類のクラスタリングソリューションに対応し、異常値の増加は、ファンネル内の長い経路と精度とコスト関数の間の相関を減少させる。 最後に,運動解析から得られた速度は,それらの間の経路に関する情報を取り入れたクラスタリング類似性の新たな尺度を提供する。 この尺度は外れ値に対して堅牢であり、複数の外れ値を含むデータセットに適用例を示す。

The $K$-means algorithm remains one of the most widely-used clustering methods due to its simplicity and general utility. The performance of $K$-means depends upon location of minima low in cost function, amongst a potentially vast number of solutions. Here, we use the energy landscape approach to map the change in $K$-means solution space as a result of increasing dataset outliers and show that the cost function surface becomes more funnelled. Kinetic analysis reveals that in all cases the overall funnel is composed of shallow locally-funnelled regions, each of which are separated by areas that do not support any clustering solutions. These shallow regions correspond to different types of clustering solution and their increasing number with outliers leads to longer pathways within the funnel and a reduced correlation between accuracy and cost function. Finally, we propose that the rates obtained from kinetic analysis provide a novel measure of clustering similarity that incorporates information about the paths between them. This measure is robust to outliers and we illustrate the application to datasets containing multiple outliers.
翻訳日:2023-06-27 15:23:44 公開日:2023-06-25
# c*-代数フレームワークにおけるステアリングについて

On steering in the C*-algebraic framework ( http://arxiv.org/abs/2306.14344v1 )

ライセンス: Link先を確認
Michal Banacki(参考訳) 本稿では,特定の作用素代数によってモデル化されたパーティの局所サブシステムと二部ステアリングのシナリオについて論じる。 特に、可換可観測性パラダイムにおける量子集合の概念を定式化し、そのような対象の等価な記述に注目し、以前に散在したアプローチを体系的に分析する。 任意の有限次元アンシラによる信頼サブシステムの拡張の下で安定な量子交換およびテンソルモデルの等価性に必要な十分条件を提供する。 最後に、この最も一般的な二部構成のパラダイムにおけるポスト量子ステアリングの可能性について、ノーゴー結果を提供する。

We discuss a scenario of bipartite steering with local subsystems of the parties modeled by certain operator algebras. In particular, we formalize the notion of quantum assemblages in a commuting observables paradigm and focus on equivalent descriptions of such objects providing a systematic analysis of previously scattered approaches. We provide necessary and sufficient conditions for the equivalence of quantum commuting and tensor models that is stable under extensions of the trusted subsystem by arbitrary finite-dimensional ancillae. Finally, we provide no-go results concerning the possibility of post-quantum steering in this most general bipartite paradigm.
翻訳日:2023-06-27 15:23:26 公開日:2023-06-25
# TCE: 校正誤差測定のためのテストベースアプローチ

TCE: A Test-Based Approach to Measuring Calibration Error ( http://arxiv.org/abs/2306.14343v1 )

ライセンス: Link先を確認
Takuo Matsubara, Niek Tax, Richard Mudd, Ido Guy(参考訳) 本稿では,テストベースキャリブレーション誤差(TCE)と呼ばれる確率的二値分類器の校正誤差を測定するための新しい尺度を提案する。 TCEは,データから推定される確率とモデル予測がどの程度異なるかを調べるために,統計テストに基づく新しい損失関数を組み込んだ。 提供します (i)明確な解釈。 (ii)クラス不均衡の影響を受けない一貫した尺度 (iii)標準信頼性図に準拠した視覚表現の強化。 また,経験的確率の最小推定誤差に基づいて,キャリブレーション誤差メトリクスのバイナリ化手順の最適性基準を提案する。 ビンサイズ制約下での最適ビンに対する新しい計算アルゴリズムを提案する。 複数の実世界の不均衡データセットや ImageNet 1000 など,さまざまな実験を通じてTCEの特性を実証する。

This paper proposes a new metric to measure the calibration error of probabilistic binary classifiers, called test-based calibration error (TCE). TCE incorporates a novel loss function based on a statistical test to examine the extent to which model predictions differ from probabilities estimated from data. It offers (i) a clear interpretation, (ii) a consistent scale that is unaffected by class imbalance, and (iii) an enhanced visual representation with repect to the standard reliability diagram. In addition, we introduce an optimality criterion for the binning procedure of calibration error metrics based on a minimal estimation error of the empirical probabilities. We provide a novel computational algorithm for optimal bins under bin-size constraints. We demonstrate properties of TCE through a range of experiments, including multiple real-world imbalanced datasets and ImageNet 1000.
翻訳日:2023-06-27 15:23:17 公開日:2023-06-25
# 非線形散乱による量子・古典チャネルの盗聴者位置推定

Eavesdropper localization for quantum and classical channels via nonlinear scattering ( http://arxiv.org/abs/2306.14341v1 )

ライセンス: Link先を確認
Alexandra Popp, Florian Sedlmeir, Birgit Stiller, and Christoph Marquardt(参考訳) 光ファイバネットワークは重要なインフラの一部であり、盗聴攻撃を起こしやすいことが知られている。 したがって、通信を保護するために暗号化手法を使用する必要がある。 量子鍵分布(qkd、quantum key distribution)は、物理学の法則に基づいた情報理論的なセキュリティを提供する。 デプロイメントでは、実用的なセキュリティとレジリエンスを考慮する必要があります。 後者は、QKDシステムによって異常が検出された後、考えられる盗聴者の局在を含み、サービス拒否を回避する。 本稿では,刺激ブリルアン散乱を用いた量子チャネルだけでなく,古典チャネルでも使用可能な,盗聴者の位置推定のための新しい手法を提案する。 相関ポンプとプローブ波を用いてファイバーチャネル内の音波を密に局在させることで、センチメートル以内の潜在的な脅威の座標を発見できる。 提案手法は,標準光ファイバー内部のcm精度で1%のエバネッセントアウトカップリングを局在させる作業において,従来のOTDRよりも優れていることを示す。 さらにこのシステムは、市販の標準SMF28を異なるメーカーと明確に区別することができ、高いセキュリティ環境で指紋ファイバーの道を開くことができる。

Optical fiber networks are part of important critical infrastructure and known to be prone to eavesdropping attacks. Hence cryptographic methods have to be used to protect communication. Quantum key distribution (QKD), at its core, offers information theoretical security based on the laws of physics. In deployments one has to take into account practical security and resilience. The latter includes the localization of a possible eavesdropper after an anomaly has been detected by the QKD system to avoid denial-of-service. Here, we present a novel approach to eavesdropper location that can be employed in quantum as well as classical channels using stimulated Brillouin scattering. The tight localization of the acoustic wave inside the fiber channel using correlated pump and probe waves allows to discover the coordinates of a potential threat within centimeters. We demonstrate that our approach outperforms conventional OTDR in the task of localizing an evanescent outcoupling of 1% with cm precision inside standard optical fibers. The system is furthermore able to clearly distinguish commercially available standard SMF28 from different manufacturers, paving the way for fingerprinted fibers in high security environments.
翻訳日:2023-06-27 15:23:06 公開日:2023-06-25
# GPatcher:グラフヘテロフォニーを緩和するシンプルで適応的なMLPモデル

GPatcher: A Simple and Adaptive MLP Model for Alleviating Graph Heterophily ( http://arxiv.org/abs/2306.14340v1 )

ライセンス: Link先を確認
Shuaicheng Zhang, Haohui Wang, Si Zhang, Dawei Zhou(参考訳) グラフヘテロフィリは近年広く研究されているが、基本的な研究課題は、どのようにしてグラフニューラルネットワーク(GNN)の予測性能に影響を及ぼすのか? 本稿では,GNNスペクトルフィルタにおけるグラフヘテロフィリーの影響を解明することを目的とする。 本理論は,GNNの一般化性能を保証するために,グラフの次数が異なる適応多項式フィルタを設計することが重要であることを示す。 MLP-Mixerアーキテクチャを利用したGPatcherというシンプルなGNNを提案する。 提案手法は,(1)各ノードの非ユークリッドグラフ表現を,異次元の異なるeuclideanパッチ表現に自動変換する適応パッチ抽出機能,(2)ローカルコンテキスト情報とグローバル位置情報の両方からサルエントノード表現を学習する効率的なパッチミキサー機能,の2つの主成分からなる。 GPatcherモデルは広範な実験を通じて、一般的なホモフィリーGNNや最先端ヘテロフィリーGNNと比較して、ノード分類における優れた性能を示す。

While graph heterophily has been extensively studied in recent years, a fundamental research question largely remains nascent: How and to what extent will graph heterophily affect the prediction performance of graph neural networks (GNNs)? In this paper, we aim to demystify the impact of graph heterophily on GNN spectral filters. Our theoretical results show that it is essential to design adaptive polynomial filters that adapts different degrees of graph heterophily to guarantee the generalization performance of GNNs. Inspired by our theoretical findings, we propose a simple yet powerful GNN named GPatcher by leveraging the MLP-Mixer architectures. Our approach comprises two main components: (1) an adaptive patch extractor function that automatically transforms each node's non-Euclidean graph representations to Euclidean patch representations given different degrees of heterophily, and (2) an efficient patch mixer function that learns salient node representation from both the local context information and the global positional information. Through extensive experiments, the GPatcher model demonstrates outstanding performance on node classification compared with popular homophily GNNs and state-of-the-art heterophily GNNs.
翻訳日:2023-06-27 15:22:49 公開日:2023-06-25
# 説明可能なセグメンテーションのための微分可能なガウス原型層

A differentiable Gaussian Prototype Layer for explainable Segmentation ( http://arxiv.org/abs/2306.14361v1 )

ライセンス: Link先を確認
Michael Gerstenberger, Steffen Maa{\ss}, Peter Eisert, Sebastian Bosse(参考訳) 勾配に基づくプロトタイプ学習のためのガウス型プロトタイプレイヤを導入し、領域提案に依存する説明可能なセグメンテーションのための2つの新しいネットワークアーキテクチャを実証する。 どちらのモデルも農業データセットで評価される。 ガウス混合モデル(GMM)は、ニューラルネットワークの潜時分布をモデル化するのに使われてきたが、一般的にはEMアルゴリズムを用いる。 代わりに、提案されたプロトタイプ層は勾配に基づく最適化に依存し、エンドツーエンドのトレーニングを可能にする。 これにより開発が容易になり、訓練可能な深層特徴抽出器の潜在能力を最大限に活用することができる。 説明可能なニューラルネットワークのための新しいビルディングブロックとして使用できることを示す。 我々は(1)潜在格子でプロトタイプが検出されるモデルと(2)領域提案としてSLICスーパーピクセルを用いたFast-RCNNにインスパイアされたモデルにガウス原型層を用いる。 前者は最先端技術と同等のパフォーマンスを達成し、後者はわずかに低い精度でより正確なプロトタイプローカライゼーションの利点がある。 グラデーションベースのGMMレイヤーを導入することで、エンド・ツー・エンドトレーニングの利点とGMMのシンプルさと理論的基礎を組み合わせることで、将来的には既存の半教師付き学習戦略を原始的部分モデルに適応させることができる。

We introduce a Gaussian Prototype Layer for gradient-based prototype learning and demonstrate two novel network architectures for explainable segmentation one of which relies on region proposals. Both models are evaluated on agricultural datasets. While Gaussian Mixture Models (GMMs) have been used to model latent distributions of neural networks before, they are typically fitted using the EM algorithm. Instead, the proposed prototype layer relies on gradient-based optimization and hence allows for end-to-end training. This facilitates development and allows to use the full potential of a trainable deep feature extractor. We show that it can be used as a novel building block for explainable neural networks. We employ our Gaussian Prototype Layer in (1) a model where prototypes are detected in the latent grid and (2) a model inspired by Fast-RCNN with SLIC superpixels as region proposals. The earlier achieves a similar performance as compared to the state-of-the art while the latter has the benefit of a more precise prototype localization that comes at the cost of slightly lower accuracies. By introducing a gradient-based GMM layer we combine the benefits of end-to-end training with the simplicity and theoretical foundation of GMMs which will allow to adapt existing semi-supervised learning strategies for prototypical part models in future.
翻訳日:2023-06-27 15:13:03 公開日:2023-06-25
# PolicyClusterGCN: グラフ畳み込みネットワークをトレーニングするための効率的なクラスタの同定

PolicyClusterGCN: Identifying Efficient Clusters for Training Graph Convolutional Networks ( http://arxiv.org/abs/2306.14357v1 )

ライセンス: Link先を確認
Saket Gurukar, Shaileshh Bojja Venkatakrishnan, Balaraman Ravindran, Srinivasan Parthasarathy(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフ構造化データ上での機械学習(ML)タスクにおいて大きな成功を収めている。 近年,GCNの効率的なトレーニングと,MLタスクにおけるGCNの性能向上のために,いくつかのサンプリング手法が提案されている。 特に、ClusterGCNやGraphSAINTのようなサブグラフベースのサンプリングアプローチは、ノード分類タスクで最先端のパフォーマンスを達成した。 これらのサブグラフベースのサンプリングアプローチは、エッジカットによるグラフ分割のようなヒューリスティックスに依存し、gcnトレーニング中にミニバッチとして扱われるクラスタを特定する。 本研究では,そのようなヒューリスティックに頼らずに,効率的なGCN性能をもたらす効率的なクラスタを計算するための強化学習(RL)ポリシーを学習できると仮定する。 そこで我々は,GCNトレーニングのための優れたクラスタを識別可能なオンラインRLフレームワークであるPolicyClusterGCNを提案する。 本稿では,クラスタリングアルゴリズム (Graclus) によって計算されるエッジ上の「重要」重みをポリシネットワークで予測できる新しいマルコフ決定プロセス (MDP) を開発した。 我々は、ポリシーが与えられたクラスタを用いてgcnを訓練しながら、分類アキュラリティーから報酬を計算した標準ポリシー勾配アルゴリズムを用いてポリシーネットワークを訓練する。 6つの実世界のデータセットといくつかの合成データセットの実験は、PolyyClusterGCNがノード分類タスクにおける既存の最先端モデルより優れていることを示している。

Graph convolutional networks (GCNs) have achieved huge success in several machine learning (ML) tasks on graph-structured data. Recently, several sampling techniques have been proposed for the efficient training of GCNs and to improve the performance of GCNs on ML tasks. Specifically, the subgraph-based sampling approaches such as ClusterGCN and GraphSAINT have achieved state-of-the-art performance on the node classification tasks. These subgraph-based sampling approaches rely on heuristics -- such as graph partitioning via edge cuts -- to identify clusters that are then treated as minibatches during GCN training. In this work, we hypothesize that rather than relying on such heuristics, one can learn a reinforcement learning (RL) policy to compute efficient clusters that lead to effective GCN performance. To that end, we propose PolicyClusterGCN, an online RL framework that can identify good clusters for GCN training. We develop a novel Markov Decision Process (MDP) formulation that allows the policy network to predict ``importance" weights on the edges which are then utilized by a clustering algorithm (Graclus) to compute the clusters. We train the policy network using a standard policy gradient algorithm where the rewards are computed from the classification accuracies while training GCN using clusters given by the policy. Experiments on six real-world datasets and several synthetic datasets show that PolicyClusterGCN outperforms existing state-of-the-art models on node classification task.
翻訳日:2023-06-27 15:12:42 公開日:2023-06-25
# EFL教育のスマートトランスフォーメーションと学習アプローチ

Smart Transformation of EFL Teaching and Learning Approaches ( http://arxiv.org/abs/2306.14356v1 )

ライセンス: Link先を確認
Md. Russell Talukder(参考訳) 人工知能によるEFLの教育と学習のアプローチの校正は、利害関係者間の教育と学習におけるパーソナライズされ魅力的な経験を育み、スマートトランスフォーメーションを促進する可能性がある。 本稿は,EFLの教えと学習内容のビッグデータ,分析,機械学習,クラスタドメインに基づくEFLビッグデータエコシステムの開発に焦点をあてる。 それゆえ、この論文は2つの膜を用いてその枠組み、すなわち (i)様々なソースドメインから収集したランダムなデータを格納する開放型ビッグデータ膜 二 特別に構築された半構造化データを格納する機械学習膜。 理論的には、構造化データと半構造化データをスキル、属性、メソッド、選好ごとに作成し、個別の好みや多様な教育や学習のニーズに対応する。 究極の目標は、機械学習を利用して学習体験を最適化し、eflコミュニティの多様な教育と学習のニーズに合わせてカスタマイズされたコンテンツを作ることだ。

The calibration of the EFL teaching and learning approaches with Artificial Intelligence can potentially facilitate a smart transformation, fostering a personalized and engaging experience in teaching and learning among the stakeholders. The paper focuses on developing an EFL Big Data Ecosystem that is based on Big Data, Analytics, Machine Learning and cluster domain of EFL teaching and learning contents. Accordingly, the paper uses two membranes to construe its framework, namely (i) Open Big Data Membrane that stores random data collected from various source domains and (ii) Machine Learning Membrane that stores specially prepared structured and semi-structured data. Theoretically, the structured and semi structured data are to be prepared skill-wise, attribute-wise, method-wise, and preference-wise to accommodate the personalized preferences and diverse teaching and learning needs of different individuals. The ultimate goal is to optimize the learning experience by leveraging machine learning to create tailored content that aligns with the diverse teaching and learning needs of the EFL communities.
翻訳日:2023-06-27 15:12:18 公開日:2023-06-25
# 重要度サンプリングによるコミュニケーション効率の高い連合学習

Communication-Efficient Federated Learning through Importance Sampling ( http://arxiv.org/abs/2306.12625v2 )

ライセンス: Link先を確認
Berivan Isik, Francesco Pase, Deniz Gunduz, Sanmi Koyejo, Tsachy Weissman, Michele Zorzi(参考訳) モデル更新をクライアントからサーバに送信する通信コストが高いことは、スケーラブルな連合学習(fl)にとって大きなボトルネックである。 クライアント$n$は、クライアントのみの確率分布$q_{\phi^{(n)}}$からサンプルを送り、サーバはこれらのサンプルを使用してクライアントの分布の平均を推定する。 しかしながら、これらのメソッドは、トレーニングプロセス全体を通して、クライアントの分散である$q_{\phi^{(n)}}$ in Kullback-Leibler (KL) の分岐に近い、事前データの分散である$p_{\theta}$のサイド情報を持つ、FLセットアップを完全には利用しない。 本研究では,クライアントの分散である$q_{\phi^{(n)}}$ とサーバのサイド情報$p_{\theta}$との密接性を利用し,約$d_{kl}(q_{\phi^{(n)}}|| p_{\theta})$ビットの通信を必要とするフレームワークを提案する。 提案手法は,federated sgld,qsgdなどの既存の確率圧縮フレームワークと統合して,最大50ドルまでのビットレート削減で同じ(かつしばしば高い)テスト精度を達成することができることを示す。

The high communication cost of sending model updates from the clients to the server is a significant bottleneck for scalable federated learning (FL). Among existing approaches, state-of-the-art bitrate-accuracy tradeoffs have been achieved using stochastic compression methods -- in which the client $n$ sends a sample from a client-only probability distribution $q_{\phi^{(n)}}$, and the server estimates the mean of the clients' distributions using these samples. However, such methods do not take full advantage of the FL setup where the server, throughout the training process, has side information in the form of a pre-data distribution $p_{\theta}$ that is close to the client's distribution $q_{\phi^{(n)}}$ in Kullback-Leibler (KL) divergence. In this work, we exploit this closeness between the clients' distributions $q_{\phi^{(n)}}$'s and the side information $p_{\theta}$ at the server, and propose a framework that requires approximately $D_{KL}(q_{\phi^{(n)}}|| p_{\theta})$ bits of communication. We show that our method can be integrated into many existing stochastic compression frameworks such as FedPM, Federated SGLD, and QSGD to attain the same (and often higher) test accuracy with up to $50$ times reduction in the bitrate.
翻訳日:2023-06-27 10:22:27 公開日:2023-06-25