このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231112となっている論文です。

PDF登録状況(公開日: 20231112)

TitleAuthorsAbstract論文公表日・翻訳日
# 集中型か分散型か? ヘデラ・ハッシュグラフのトランザクションネットワークのデータ解析

Centralised or Decentralised? Data Analysis of Transaction Network of Hedera Hashgraph ( http://arxiv.org/abs/2311.06865v1 )

ライセンス: Link先を確認
Lucas Amherd, Sheng-Nan Li, Claudio J. Tessone, (参考訳) 分散型台帳技術の重要な特長は、従来の金融システムよりも高いレベルの分散化である。 しかし実証文学は、多くのシステムが中央集権化の傾向にあることを示唆している。 本研究は,ネットワークノードから直接取得したデータを活用する分散台帳技術であるHedera Hashgraphの分散分散化の度合いを,初めてデータ駆動分析することによって,現在の文献を拡張した。 その結果、リリーススケジュールや日々のアクティブアカウントの増加に比べて、リリースの供給量がかなり多くなっていることがわかった。 また、ヘデラ・ハシュグラフは富の高度集中と、ネットワークの残りの部分の取引仲介役として機能する縮小コアを誇示している。 しかし、中本指数とテイル指数は、より分散化されたネットワークへの最近の進歩を示している。

An important virtue of distributed ledger technologies is their acclaimed higher level of decentralisation compared to traditional financial systems. Empirical literature, however, suggests that many systems tend towards centralisation as well. This study expands the current literature by offering a first-time, data-driven analysis of the degree of decentralisation of the platform Hedera Hashgraph, a public permissioned distributed ledger technology, employing data directly fetched from a network node. The results show a considerably higher amount of released supply compared to the release schedule and a growing number of daily active accounts. Also, Hedera Hashgraph exhibits a high centralisation of wealth and a shrinking core that acts as an intermediary in transactions for the rest of the network. However, the Nakamoto index and Theil index point to recent progress towards a more decentralised network.
翻訳日:2024-03-18 23:32:03 公開日:2023-11-12
# 太陽画像を用いた機械学習による高度熱圏密度推定

High-Cadence Thermospheric Density Estimation enabled by Machine Learning on Solar Imagery ( http://arxiv.org/abs/2312.06845v1 )

ライセンス: Link先を確認
Shreshth A. Malik, James Walsh, Giacomo Acciarini, Thomas E. Berger, At{\i}l{\i}m G\"une\c{s} Baydin(参考訳) 熱圏密度の正確な推定は、低軌道(leo)における衛星抗力の正確なモデリングに不可欠である。 この推定を改善することは、状態推定、衝突回避、再突入計算などのタスクに不可欠である。 熱圏密度を決定する最大の不確実性源は、太陽活動と地磁気活動によって引き起こされる宇宙天気の影響をモデル化することである。 現在の運用モデルは、太陽の出力と地磁気応答の複雑さと完全に相関する地上ベースのプロキシ指標に依存している。 本研究では,nasaのsolar dynamics observatory (sdo) 極紫外線 (euv) スペクトル画像を直接神経熱圏密度モデルに組み込んで,地上のプロキシ指標の代わりに,あるいはそれに加えて空間ベースのeuv画像データを用いて,モデル予測性能が向上するかどうかを判定する。 euv画像は、時間分解能がはるかに高い予測を可能にし、現在の運用モデルと比較して大幅に性能を高めながら、地上ベースのプロキシを置き換えることができる。 本手法は,EUV画像データをLEO衛星ナビゲーションプロセスに用いる運用熱圏密度予測モデルに同化する方法である。

Accurate estimation of thermospheric density is critical for precise modeling of satellite drag forces in low Earth orbit (LEO). Improving this estimation is crucial to tasks such as state estimation, collision avoidance, and re-entry calculations. The largest source of uncertainty in determining thermospheric density is modeling the effects of space weather driven by solar and geomagnetic activity. Current operational models rely on ground-based proxy indices which imperfectly correlate with the complexity of solar outputs and geomagnetic responses. In this work, we directly incorporate NASA's Solar Dynamics Observatory (SDO) extreme ultraviolet (EUV) spectral images into a neural thermospheric density model to determine whether the predictive performance of the model is increased by using space-based EUV imagery data instead of, or in addition to, the ground-based proxy indices. We demonstrate that EUV imagery can enable predictions with much higher temporal resolution and replace ground-based proxies while significantly increasing performance relative to current operational models. Our method paves the way for assimilating EUV image data into operational thermospheric density forecasting models for use in LEO satellite navigation processes.
翻訳日:2024-01-15 14:33:46 公開日:2023-11-12
# 倫理と責任あるAIデプロイメント

Ethics and Responsible AI Deployment ( http://arxiv.org/abs/2311.14705v1 )

ライセンス: Link先を確認
Petar Radanliev, Omar Santos(参考訳) 人工知能(AI)が普及するにつれて、個人のプライバシーを守ることは、対処しなければならない倫理的問題である。 本稿では、倫理基準に従って個人のプライバシーを保護する倫理的AIシステムの必要性について考察する。 多分野のアプローチをとることで、ディファレンシャルプライバシ、ホモモルフィック暗号化、フェデレートラーニング、国際規制フレームワーク、倫理ガイドラインといった革新的なアルゴリズム技術を検討する。 この研究は、これらのアルゴリズムがプライバシー保護を効果的に強化し、AIの有用性と個人情報を保護する必要性のバランスを保っていると結論付けている。 記事は、個人のプライバシーを尊重し保護する方法でaiの力を活用するための、技術的イノベーションと倫理的および規制的な戦略を組み合わせた包括的なアプローチの重要性を強調している。

As Artificial Intelligence (AI) becomes more prevalent, protecting personal privacy is a critical ethical issue that must be addressed. This article explores the need for ethical AI systems that safeguard individual privacy while complying with ethical standards. By taking a multidisciplinary approach, the research examines innovative algorithmic techniques such as differential privacy, homomorphic encryption, federated learning, international regulatory frameworks, and ethical guidelines. The study concludes that these algorithms effectively enhance privacy protection while balancing the utility of AI with the need to protect personal data. The article emphasises the importance of a comprehensive approach that combines technological innovation with ethical and regulatory strategies to harness the power of AI in a way that respects and protects individual privacy.
翻訳日:2023-12-03 13:55:16 公開日:2023-11-12
# カットオフのない簡易dirac相互作用作用素の自己随伴性

Self-adjointness of a simplified Dirac interaction operator without any cutoffs ( http://arxiv.org/abs/2311.12870v1 )

ライセンス: Link先を確認
Mads J. Damgaard(参考訳) ダイラック相互作用作用素の単純化版が$\hat H_\mathrm{I} \propto \int d\mathbf{k}d\mathbf{p}d\mathbf{p}'(\hat a(\mathbf{k}) + \hat a^\dagger(-\mathbf{k})) \hat b^\dagger(\mathbf{p}' + \mathbf{k}) \hat b(\mathbf{p})/\sqrt{|\mathbf{k}|}$ がヒルベルト空間に密接な領域上の自己共役であることを示す。 これを示すために使用するテクニックは、より広い範囲の演算子にも拡張できる可能性がある。 したがって、この手法は将来より数学的に明確に定義されたQFTの理論につながる可能性がある。

We show that a simplified version of the Dirac interaction operator given by $\hat H_\mathrm{I} \propto \int d\mathbf{k}d\mathbf{p}d\mathbf{p}'(\hat a(\mathbf{k}) + \hat a^\dagger(-\mathbf{k})) \hat b^\dagger(\mathbf{p}' + \mathbf{k}) \hat b(\mathbf{p})/\sqrt{|\mathbf{k}|}$ is self-adjoint on a certain domain that is dense in the Hilbert space, even without any cutoffs. The technique that we use for showing this can potentially be extended to a much wider range of operators as well. This technique might therefore potentially lead to more mathematically well-defined theories of QFT in the future.
翻訳日:2023-11-27 00:23:25 公開日:2023-11-12
# 条件付き正規化流による学習可能性

Learning Likelihoods with Conditional Normalizing Flows ( http://arxiv.org/abs/1912.00042v2 )

ライセンス: Link先を確認
Christina Winkler, Daniel Worrall, Emiel Hoogeboom, Max Welling(参考訳) 正規化フロー(NF)は複雑な分布をモデル化できる。 (y)単純基底密度p変換による強次元間相関と高多重性 (z)変数式の変化に基づく可逆ニューラルネットワークを経由する。 このような振る舞いは多変量構造予測タスクにおいて望ましいものであり、手作りのピクセルごとの損失ベース手法は出力次元間の強い相関を不適切に捉えている。 本稿では、入力x上で出力空間マッピングの基底密度が条件付けされたnfsのクラスである条件正規化フロー(cnfs)について、条件密度p(y|x)をモデル化する。 cnfはサンプリングや推論において効率的であり、確率に基づく目標で訓練することができ、cnfは生成フローであり、モード崩壊やトレーニング不安定に苦しむことはない。 我々は,バイナリ問題に対して連続cnfsを訓練する効果的な方法を提案し,特に,標準ベンチマークデータセットにおける競合性能を示す超解像および容器分割タスクに,確率的および従来的指標を用いてこれらのcnfを適用した。

Normalizing Flows (NFs) are able to model complicated distributions p(y) with strong inter-dimensional correlations and high multimodality by transforming a simple base density p(z) through an invertible neural network under the change of variables formula. Such behavior is desirable in multivariate structured prediction tasks, where handcrafted per-pixel loss-based methods inadequately capture strong correlations between output dimensions. We present a study of conditional normalizing flows (CNFs), a class of NFs where the base density to output space mapping is conditioned on an input x, to model conditional densities p(y|x). CNFs are efficient in sampling and inference, they can be trained with a likelihood-based objective, and CNFs, being generative flows, do not suffer from mode collapse or training instabilities. We provide an effective method to train continuous CNFs for binary problems and in particular, we apply these CNFs to super-resolution and vessel segmentation tasks demonstrating competitive performance on standard benchmark datasets in terms of likelihood and conventional metrics.
翻訳日:2023-11-17 18:53:56 公開日:2023-11-12
# 高機能自閉症青年心理カウンセリングにおけるllmに基づく対話型言語治療の効果評価

Evaluating the Efficacy of Interactive Language Therapy Based on LLM for High-Functioning Autistic Adolescent Psychological Counseling ( http://arxiv.org/abs/2311.09243v1 )

ライセンス: Link先を確認
Yujin Cho, Mingeon Kim, Seojin Kim, Oyun Kwon, Ryan Donghan Kwon, Yoonha Lee, Dohyun Lim(参考訳) 本研究では,高機能自閉症青年に対する対話型言語治療におけるLarge Language Models(LLMs)の有効性について検討した。 人工知能の急速な進歩、特に自然言語処理において、LLMは従来の心理学的カウンセリング手法を強化する新しい機会を提供する。 本研究は, 治療環境における共感性, 適応性, 文脈的適切な相互作用に関与するllmの能力の評価を主眼とした。 特別に開発されたスコアカードを用いて,臨床心理学者および精神科医のパネルで総合評価を行った。 この評価は、共感、コミュニケーションスキル、適応性、関与、治療同盟を確立する能力など、llmのパフォーマンスの様々な側面をカバーした。 この研究は、患者との直接検査を避け、プライバシと倫理的考察を優先し、代わりにLLMの有効性を評価するためのシミュレーションシナリオに依存した。 以上の結果から, LLMは治療支援ツールとして有意義な可能性を秘めており, 共感的エンゲージメントの強さと会話の適応性を示すことが示唆された。 しかし, パーソナライゼーションの深みと人間のセラピストの感情的理解特性を達成する上での課題が指摘された。 この研究は、治療的文脈におけるAIの適用における倫理的考慮の重要性を強調している。 本研究は、自閉症青年の心理カウンセリングにおけるLSMの使用の可能性と限界に関する貴重な知見を提供する。 今後、精神医療におけるAIの役割を探求するための基礎を築き、治療設定におけるこれらのモデルの能力を高めるための継続的な開発の必要性を強調している。

This study investigates the efficacy of Large Language Models (LLMs) in interactive language therapy for high-functioning autistic adolescents. With the rapid advancement of artificial intelligence, particularly in natural language processing, LLMs present a novel opportunity to augment traditional psychological counseling methods. This research primarily focuses on evaluating the LLM's ability to engage in empathetic, adaptable, and contextually appropriate interactions within a therapeutic setting. A comprehensive evaluation was conducted by a panel of clinical psychologists and psychiatrists using a specially developed scorecard. The assessment covered various aspects of the LLM's performance, including empathy, communication skills, adaptability, engagement, and the ability to establish a therapeutic alliance. The study avoided direct testing with patients, prioritizing privacy and ethical considerations, and instead relied on simulated scenarios to gauge the LLM's effectiveness. The results indicate that LLMs hold significant promise as supportive tools in therapy, demonstrating strengths in empathetic engagement and adaptability in conversation. However, challenges in achieving the depth of personalization and emotional understanding characteristic of human therapists were noted. The study also highlights the importance of ethical considerations in the application of AI in therapeutic contexts. This research provides valuable insights into the potential and limitations of using LLMs in psychological counseling for autistic adolescents. It lays the groundwork for future explorations into AI's role in mental health care, emphasizing the need for ongoing development to enhance the capabilities of these models in therapeutic settings.
翻訳日:2023-11-17 18:34:38 公開日:2023-11-12
# マルチプログラミング言語コミュニティの探求とソフトウェア品質への影響: Apacheプロジェクトに関する実証的研究

Exploring Multi-Programming-Language Commits and Their Impacts on Software Quality: An Empirical Study on Apache Projects ( http://arxiv.org/abs/2311.08424v1 )

ライセンス: Link先を確認
Zengyang Li, Xiaoxiao Qi, Qinyi Yu, Peng Liang, Ran Mo, Chen Yang(参考訳) コンテキスト: 現代のソフトウェアシステム(Apache Sparkなど)は通常、複数のプログラミング言語(PL)で記述される。 複数のPLで書かれた修正されたソースファイルを含む多言語コミット(MPLC)の現象についてはほとんど理解されていない。 目的: この研究はMPLCとその開発難易度とソフトウェア品質への影響を探求することを目的としています。 メソッド: 我々は18の非自明なApacheプロジェクトに対して,197,566のコミットで実証的研究を行った。 Results: (1) the most commonly used PL combination consists of all the four PLs, i.e., C/C++, Java, JavaScript, and Python; (2) 9% of the commits from all the projects are MPLCs, and the proportion of MPLCs in 83% of the projects goes to a relatively stable level; (3) more than 90% of the MPLCs from all the projects involve source files in two PLs; (4) the change complexity of MPLCs is significantly higher than that of non-MPLCs; (5) issues fixed in MPLCs take significantly longer to be resolved than issues fixed in non-MPLCs in 89% of the projects; (6) MPLCs do not show significant effects on issue reopen; (7) source files undergoing MPLCs tend to be more bug-prone; and (8) MPLCs introduce more bugs than non-MPLCs. 結論: MPLCは開発難度の増加とソフトウェア品質の低下に関連しています。

Context: Modern software systems (e.g., Apache Spark) are usually written in multiple programming languages (PLs). There is little understanding on the phenomenon of multi-programming-language commits (MPLCs), which involve modified source files written in multiple PLs. Objective: This work aims to explore MPLCs and their impacts on development difficulty and software quality. Methods: We performed an empirical study on eighteen non-trivial Apache projects with 197,566 commits. Results: (1) the most commonly used PL combination consists of all the four PLs, i.e., C/C++, Java, JavaScript, and Python; (2) 9% of the commits from all the projects are MPLCs, and the proportion of MPLCs in 83% of the projects goes to a relatively stable level; (3) more than 90% of the MPLCs from all the projects involve source files in two PLs; (4) the change complexity of MPLCs is significantly higher than that of non-MPLCs; (5) issues fixed in MPLCs take significantly longer to be resolved than issues fixed in non-MPLCs in 89% of the projects; (6) MPLCs do not show significant effects on issue reopen; (7) source files undergoing MPLCs tend to be more bug-prone; and (8) MPLCs introduce more bugs than non-MPLCs. Conclusions: MPLCs are related to increased development difficulty and decreased software quality.
翻訳日:2023-11-16 18:53:29 公開日:2023-11-12
# 深層学習を用いた喫煙・呼気の分類

Classification of Smoking and Calling using Deep Learning ( http://arxiv.org/abs/2012.08026v3 )

ライセンス: Link先を確認
Miaowei Wang, Alexander William Mohacey, Hongyu Wang, James Apfel(参考訳) 2014年以降、非常に深い畳み込みニューラルネットワークが提案され、あらゆる種類の競争においてチャンピオンにとって必須の武器となっている。 本報告では,事前学習したインセプションv3を変更することにより,喫煙と呼び出しの分類を行うパイプラインを導入する。 深層学習に基づく明度向上は、この分類タスクの分類と、他の有用なトレーニングトリックを改善するために実施される。 品質と量の結果から, バイアスのあるサンプルの少ないパイプラインは実用的で, 高い精度で有用であることがわかった。

Since 2014, very deep convolutional neural networks have been proposed and become the must-have weapon for champions in all kinds of competition. In this report, a pipeline is introduced to perform the classification of smoking and calling by modifying the pretrained inception V3. Brightness enhancing based on deep learning is implemented to improve the classification of this classification task along with other useful training tricks. Based on the quality and quantity results, it can be concluded that this pipeline with small biased samples is practical and useful with high accuracy.
翻訳日:2023-11-15 19:49:15 公開日:2023-11-12
# 浅部視覚トランスフォーマの理論的理解--学習・一般化・サンプル複雑性

A Theoretical Understanding of Shallow Vision Transformers: Learning, Generalization, and Sample Complexity ( http://arxiv.org/abs/2302.06015v3 )

ライセンス: Link先を確認
Hongkang Li, Meng Wang, Sijia Liu, Pin-yu Chen(参考訳) 自己着脱モジュールを備えた視覚トランスフォーマー(vits)は、近年多くの視覚タスクで大きな成功を収めている。 しかし、層間の非凸相互作用のため、理論的な学習と一般化分析がほとんどである。 本稿では,ラベル関連トークンとラベル関連トークンの両方を特徴付けるデータモデルに基づいて,浅いvit,すなわち1つの自己付着層と2層パーセプトロンを分類タスクとして訓練する最初の理論的解析を行う。 サンプルの複雑さを特徴付け、ゼロ一般化誤差を実現する。 私たちのサンプル複雑性境界は、ラベル関連トークンの分数、トークンノイズレベル、初期モデルエラーの逆と正の相関がある。 また,確率的勾配降下 (sgd) を用いた学習プロセスが,注意度マップのスパース化につながることを証明し,注意度の成功に関する一般直観の形式的検証を行った。 さらに, 適切なトークンスペーシフィケーションは, 相関関係を含むラベル不関連トークンやノイズトークンを除去することにより, テスト性能を向上させることができることを示す。 合成データとCIFAR-10データセットに関する実証実験は、我々の理論結果を正当化し、より深いViTに一般化する。

Vision Transformers (ViTs) with self-attention modules have recently achieved great empirical success in many vision tasks. Due to non-convex interactions across layers, however, theoretical learning and generalization analysis is mostly elusive. Based on a data model characterizing both label-relevant and label-irrelevant tokens, this paper provides the first theoretical analysis of training a shallow ViT, i.e., one self-attention layer followed by a two-layer perceptron, for a classification task. We characterize the sample complexity to achieve a zero generalization error. Our sample complexity bound is positively correlated with the inverse of the fraction of label-relevant tokens, the token noise level, and the initial model error. We also prove that a training process using stochastic gradient descent (SGD) leads to a sparse attention map, which is a formal verification of the general intuition about the success of attention. Moreover, this paper indicates that a proper token sparsification can improve the test performance by removing label-irrelevant and/or noisy tokens, including spurious correlations. Empirical experiments on synthetic data and CIFAR-10 dataset justify our theoretical results and generalize to deeper ViTs.
翻訳日:2023-11-15 19:13:17 公開日:2023-11-12
# ReIDTracker Sea: WACV24のMaCViにおけるBoaTrackとSeaDronesSee-MOTチャレンジの技術報告

ReIDTracker Sea: the technical report of BoaTrack and SeaDronesSee-MOT challenge at MaCVi of WACV24 ( http://arxiv.org/abs/2311.07616v1 )

ライセンス: Link先を確認
Kaer Huang, Weitu Chong(参考訳) マルチオブジェクトトラッキングは、海洋コンピュータビジョンにおいて最も重要な技術の1つである。 我々のソリューションは、無人航空機(UAV)と無人表面車両(USV)の利用シナリオにおける多目的追跡の探索を試みる。 現在のマルチオブジェクト追跡アルゴリズムのほとんどは、より優れたパフォーマンスを達成するために複雑な関連戦略と関連情報(2Dの位置と動き、3Dの動き、3Dの深さ、2Dの外観)を必要とする。 同時に、現在のマルチオブジェクト追跡アルゴリズムのほとんどは、トレーニングにコストがかかるビデオアノテーションデータを必要としている。 我々のソリューションは、完全に教師なしの方法でマルチオブジェクト追跡を探索しようとする。 このスキームは ImageNet 上で自己スーパービジョンを用いてインスタンス表現学習を行う。 そして、高品質な検出器と協調することにより、マルチターゲット追跡タスクを簡便かつ効率的に完了させることができる。 この方式はUAVベースのマルチオブジェクト追跡とUSVベースのマルチオブジェクト追跡ベンチマークの両方で上位3位を獲得し、多くのマルチオブジェクト追跡コンテストで優勝した。 BDD100K MOT、MOTS、Waymo 2D MOTなどです。

Multi-Object Tracking is one of the most important technologies in maritime computer vision. Our solution tries to explore Multi-Object Tracking in maritime Unmanned Aerial vehicles (UAVs) and Unmanned Surface Vehicles (USVs) usage scenarios. Most of the current Multi-Object Tracking algorithms require complex association strategies and association information (2D location and motion, 3D motion, 3D depth, 2D appearance) to achieve better performance, which makes the entire tracking system extremely complex and heavy. At the same time, most of the current Multi-Object Tracking algorithms still require video annotation data which is costly to obtain for training. Our solution tries to explore Multi-Object Tracking in a completely unsupervised way. The scheme accomplishes instance representation learning by using self-supervision on ImageNet. Then, by cooperating with high-quality detectors, the multi-target tracking task can be completed simply and efficiently. The scheme achieved top 3 performance on both UAV-based Multi-Object Tracking with Reidentification and USV-based Multi-Object Tracking benchmarks and the solution won the championship in many multiple Multi-Object Tracking competitions. such as BDD100K MOT,MOTS, Waymo 2D MOT
翻訳日:2023-11-15 17:14:10 公開日:2023-11-12
# epim:エピトームに基づくメモリ内効率的な処理アクセラレータ

EPIM: Efficient Processing-In-Memory Accelerators based on Epitome ( http://arxiv.org/abs/2311.07620v1 )

ライセンス: Link先を確認
Chenyu Wang, Zhen Dong, Daquan Zhou, Zhenhua Zhu, Yu Wang, Jiashi Feng, Kurt Keutzer(参考訳) PIM(Processing-In-Memory)アクセラレーターの探索は、研究コミュニティ内で大きな注目を集めている。 しかし、PIM(Processing-In-Memory)アクセラレーターにおける大規模ニューラルネットワークの利用は、オンチップメモリ容量の制約による課題に直面する。 この問題に取り組むため、現在の研究は畳み込みニューラルネットワーク(cnns)のサイズを減らすためにモデル圧縮アルゴリズムを探求している。 これらのアルゴリズムのほとんどは、縮小サイズのパラメータ(例えば量子化)を持つニューラルネットワークの表現や、ニューラルネットワークの最適な組み合わせ(例えば、ニューラルネットワークの検索)の探索を目的としている。 PIMアクセラレーターの仕様に合わせて神経オペレーターを設計することは、さらなる研究を保証している分野である。 本稿では、PIMアクセラレータ(EPIM)のためのメモリ効率の良いCNN演算子を構築するために、畳み込みのような機能を提供する軽量神経演算子であるEpitomeを紹介する。 ソフトウェア側では,PIMアクセラレータにおけるエピトームのレイテンシとエネルギを評価し,ハードウェア効率を向上させるため,PIM対応層設計手法を導入する。 エピトーム・アウェア・量子化を応用してエピトームのサイズをさらに小さくする。 ハードウェア面では,現在のPIMアクセラレータのデータパスをエピトームに適合させるために修正し,計算コストを削減するために特徴マップ再利用手法を実装した。 実験の結果、我々の3ビット量子化EPIM-ResNet50はImageNetで71.59%の精度を実現し、クロスバー面積を30.65倍削減した。 EPIMはPIMの最先端プルーニング手法を超越している。

The exploration of Processing-In-Memory (PIM) accelerators has garnered significant attention within the research community. However, the utilization of large-scale neural networks on Processing-In-Memory (PIM) accelerators encounters challenges due to constrained on-chip memory capacity. To tackle this issue, current works explore model compression algorithms to reduce the size of Convolutional Neural Networks (CNNs). Most of these algorithms either aim to represent neural operators with reduced-size parameters (e.g., quantization) or search for the best combinations of neural operators (e.g., neural architecture search). Designing neural operators to align with PIM accelerators' specifications is an area that warrants further study. In this paper, we introduce the Epitome, a lightweight neural operator offering convolution-like functionality, to craft memory-efficient CNN operators for PIM accelerators (EPIM). On the software side, we evaluate epitomes' latency and energy on PIM accelerators and introduce a PIM-aware layer-wise design method to enhance their hardware efficiency. We apply epitome-aware quantization to further reduce the size of epitomes. On the hardware side, we modify the datapath of current PIM accelerators to accommodate epitomes and implement a feature map reuse technique to reduce computation cost. Experimental results reveal that our 3-bit quantized EPIM-ResNet50 attains 71.59% top-1 accuracy on ImageNet, reducing crossbar areas by 30.65 times. EPIM surpasses the state-of-the-art pruning methods on PIM.
翻訳日:2023-11-15 16:58:03 公開日:2023-11-12
# 記事推薦のための大規模言語モデルを用いたユーザビューイングフローのモデル化

Modeling User Viewing Flow using Large Language Models for Article Recommendation ( http://arxiv.org/abs/2311.07619v1 )

ライセンス: Link先を確認
Zhenghao Liu, Zulong Chen, Moufeng Zhang, Shaoyang Duan, Hong Wen, Liangyue Li, Nan Li, Yu Gu and Ge Yu(参考訳) 本稿では,ユーザ毎の嗜好とユーザクリック記事からの即時関心をモデル化する,記事推薦タスクのためのユーザビューイングフローモデリング(SINGLE)手法を提案する。 具体的には,ユーザの関心を要約して記事の推薦を行うために,ユーザ定数ビューフローモデリング手法を用いる。 我々はLarge Language Models (LLMs) を用いて、以前クリックした記事(スキルや位置など)から一定のユーザの好みを捉える。 そして,ユーザクリック記事履歴と候補記事とのインタラクションを構築するために,ユーザ・インスタント・ビューング・フロー・モデリング手法を設計する。 ユーザがクリックした記事の表現を注意深く読み出し、ユーザの異なる関心のビューを学習して候補記事にマッチさせることを目的としている。 Alibaba Technology Association(ATA)のWebサイトでの実験結果は、オンラインA/Bテストにおける以前のベースラインモデルよりも2.4%改善されたSINGLEの利点を示しています。 さらなる分析により,singleは,ユーザの異なる記事閲覧行動を模倣し,ユーザの興味に合わせてより適切で多様な記事を推薦することで,よりカスタマイズされたレコメンデーションシステムを構築することができることを示した。

This paper proposes the User Viewing Flow Modeling (SINGLE) method for the article recommendation task, which models the user constant preference and instant interest from user-clicked articles. Specifically, we employ a user constant viewing flow modeling method to summarize the user's general interest to recommend articles. We utilize Large Language Models (LLMs) to capture constant user preferences from previously clicked articles, such as skills and positions. Then we design the user instant viewing flow modeling method to build interactions between user-clicked article history and candidate articles. It attentively reads the representations of user-clicked articles and aims to learn the user's different interest views to match the candidate article. Our experimental results on the Alibaba Technology Association (ATA) website show the advantage of SINGLE, which achieves 2.4% improvements over previous baseline models in the online A/B test. Our further analyses illustrate that SINGLE has the ability to build a more tailored recommendation system by mimicking different article viewing behaviors of users and recommending more appropriate and diverse articles to match user interests.
翻訳日:2023-11-15 16:57:37 公開日:2023-11-12
# 大言語モデルによる数学の理解--情報源批判と外挿

Large Language Models' Understanding of Math: Source Criticism and Extrapolation ( http://arxiv.org/abs/2311.07618v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh and Xuenan Cao(参考訳) gpt-4のような大規模言語モデルは、数学の理解を含むテキスト中の単語間の相関以上の何らかの理解を得たと示唆されている。 本稿では,GPT-4モデルの数学的理解を評価することによって,この主張に対する批判的な考察を行う。 GPT-4のトレーニングセットが秘密であることを考えると、モデルの正しい答えが数学的理解に基づいているか、あるいはモデルが以前に見た証明の複製に基づいているかを簡単に評価することはできない。 我々は、その形式的証明がweb上では容易に利用できない数学的問題や、gpt-4では見られないであろう証明を特に作成する。 GPT-4は単純さにもかかわらずこれらの問題を解決することができない。 GPT-4が基本的な数学的概念さえも理解していることを示す科学的証拠を見つけるのは難しい。 定理証明において GPT-4 の失敗モードを見つけるための簡単な方法は、公式な証明が Web 上で利用できないような質問を作ることである。 我々の発見は, GPT-4の能力は, これまでに見た数学的証明を再現し, 表現し, 洗練することであり, 数学的概念を把握できないことを示唆している。 また、GPT-4の数学的定理を証明する能力は、固定モデルであるという主張にもかかわらず、時間とともに継続的に拡大している。 形式言語での数学的定理の証明のタスクは、googleのような検索エンジンで使われている手法に匹敵するものであり、文中の次の単語を予測することは誤った方法である可能性があり、しばしば過剰な外挿や結果の失敗をもたらすレシピである。 GPT-4 を何度も試すことは GPT-4 や OpenAI の恩恵を受けるかもしれないが,機械学習や定理証明に有用かどうか疑問視する。

It has been suggested that large language models such as GPT-4 have acquired some form of understanding beyond the correlations among the words in text including some understanding of mathematics as well. Here, we perform a critical inquiry into this claim by evaluating the mathematical understanding of the GPT-4 model. Considering that GPT-4's training set is a secret, it is not straightforward to evaluate whether the model's correct answers are based on a mathematical understanding or based on replication of proofs that the model has seen before. We specifically craft mathematical questions which their formal proofs are not readily available on the web, proofs that are more likely not seen by the GPT-4. We see that GPT-4 is unable to solve those problems despite their simplicity. It is hard to find scientific evidence suggesting that GPT-4 has acquired an understanding of even basic mathematical concepts. A straightforward way to find failure modes of GPT-4 in theorem proving is to craft questions where their formal proofs are not available on the web. Our finding suggests that GPT-4's ability is to reproduce, rephrase, and polish the mathematical proofs that it has seen before, and not in grasping mathematical concepts. We also see that GPT-4's ability to prove mathematical theorems is continuously expanding over time despite the claim that it is a fixed model. We suggest that the task of proving mathematical theorems in formal language is comparable to the methods used in search engines such as Google while predicting the next word in a sentence may be a misguided approach, a recipe that often leads to excessive extrapolation and eventual failures. Prompting the GPT-4 over and over may benefit the GPT-4 and the OpenAI, but we question whether it is valuable for machine learning or for theorem proving.
翻訳日:2023-11-15 16:57:12 公開日:2023-11-12
# CLAMP: コントラスト言語と分子事前学習ネットワーク

CLAMP: A Contrastive Language And Molecule Pre-training Network ( http://arxiv.org/abs/2311.07617v1 )

ライセンス: Link先を確認
Neel Redkar(参考訳) 本稿では,材料生成へのアプローチの変遷について述べる。 素材間ではなく,数百万の未使用データを利用した言語間生成アーキテクチャを提案する。 Webスクレイパーを用いてオープンソースの研究論文から結晶テキストペアを収集し、畳み込みグラフニューラルネットワークエンコーダと言語エンコーダを用いてコントラストモデルを訓練することができる。 これにより、言語構造を利用して訓練できる教師なしゼロショット分類が可能になる。 特定のトレーニングデータなしでは、非常に小さなデータセットで光触媒予測の精度が約82\%、精度が約75\%に達した。 この新しいネットワークは、テキストで記述できるあらゆる反応に理想的にクロス応用でき、3dケミカルフレームワーク生成を考えるための全く新しい方法を開くことができる。 完全な実験では、拡散モデルは潜在空間を完全に活用するために組み込まれる可能性が高い。

This paper highlights a shift in how to approach material generation. Instead of material-to-material, we propose a language-to-material generation architecture that utilizes millions of untapped data points. Using a web scraper to collect crystal text pairs from open-source research papers, a contrastive model can be trained using a convolutional graph neural network encoder and a language encoder. This would allow unsupervised zero-shot classification which can be trained by taking advantage of linguistic structure. Without any specific training data, an ~82\% accuracy was achieved and ~75\% accuracy for photocatalyst prediction with an extremely small dataset. This novel network could ideally be cross-applied to any reaction that can be described via text, opening completely new methods to think about 3D chemical framework generation. In the full experiment diffusion models would likely be incorporated to fully exploit the latent space.
翻訳日:2023-11-15 16:56:46 公開日:2023-11-12
# 遠心ファンの故障診断における高密度核融合注意ネットワークの適用

Application of a Dense Fusion Attention Network in Fault Diagnosis of Centrifugal Fan ( http://arxiv.org/abs/2311.07614v1 )

ライセンス: Link先を確認
Ruijun Wang, Yuan Liu, Zhixia Fan, Xiaogang Xu, Huijie Wang(参考訳) 深層学習認識モデルは, 回転機械の状態監視に広く用いられている。 しかし,モデルの構造と機能と診断プロセスとの対応を理解することは依然として困難である。 そこで本稿では,従来の密集カスケード操作ではなく,分散注意モジュールを密接な接続に埋め込む方法について論じる。 空間とチャネルの影響を分離するだけでなく、断層特性適応化特徴量にも影響し、融合注意関数を形成する。 提案した高密度融合は,ネットワーク診断プロセスの可視化に焦点を当て,モデル診断の解釈可能性を高める。 連続的かつ効果的に異なる機能を統合し、障害の特徴を抽出する能力やノイズに抵抗する能力を高める方法が答えられる。 遠心ファン障害データは、このネットワークを検証するために使用される。 実験の結果,ネットワークの診断性能は,他の先進的障害診断モデルよりも高いことがわかった。

Although the deep learning recognition model has been widely used in the condition monitoring of rotating machinery. However, it is still a challenge to understand the correspondence between the structure and function of the model and the diagnosis process. Therefore, this paper discusses embedding distributed attention modules into dense connections instead of traditional dense cascading operations. It not only decouples the influence of space and channel on fault feature adaptive recalibration feature weights, but also forms a fusion attention function. The proposed dense fusion focuses on the visualization of the network diagnosis process, which increases the interpretability of model diagnosis. How to continuously and effectively integrate different functions to enhance the ability to extract fault features and the ability to resist noise is answered. Centrifugal fan fault data is used to verify this network. Experimental results show that the network has stronger diagnostic performance than other advanced fault diagnostic models.
翻訳日:2023-11-15 16:56:32 公開日:2023-11-12
# 高雑音計測による非線形力学系の物理インフォームド機械学習制御法

A Physics-informed Machine Learning-based Control Method for Nonlinear Dynamic Systems with Highly Noisy Measurements ( http://arxiv.org/abs/2311.07613v1 )

ライセンス: Link先を確認
Mason Ma, Jiajie Wu, Chase Post, Tony Shi, Jingang Yi, Tony Schmitz, and Hong Wang(参考訳) 本研究では, 非線形力学系に対する物理インフォームド機械学習に基づく制御手法を提案する。 システム識別に機械学習を用いた既存のデータ駆動制御手法は、ノイズの多い測定に効果的に対応できず、不安定な制御性能をもたらす。 この課題に対処するため,本研究では,非線形力学を制御でモデル化する物理インフォームド機械学習機能を拡張し,それらをモデル予測制御フレームワークに統合する。 提案手法の有効性を実証するため,非線形力学系であるchaotic lorenz 3 systemとturning machine toolを用いて実験を行い,検証を行った。 その結果,提案手法は,高雑音条件下での非線形力学系のモデリング精度と制御性能により,最先端のベンチマークよりも優れていた。

This study presents a physics-informed machine learning-based control method for nonlinear dynamic systems with highly noisy measurements. Existing data-driven control methods that use machine learning for system identification cannot effectively cope with highly noisy measurements, resulting in unstable control performance. To address this challenge, the present study extends current physics-informed machine learning capabilities for modeling nonlinear dynamics with control and integrates them into a model predictive control framework. To demonstrate the capability of the proposed method we test and validate with two noisy nonlinear dynamic systems: the chaotic Lorenz 3 system, and turning machine tool. Analysis of the results illustrate that the proposed method outperforms state-of-the-art benchmarks as measured by both modeling accuracy and control performance for nonlinear dynamic systems under high-noise conditions.
翻訳日:2023-11-15 16:56:17 公開日:2023-11-12
# Binscatterについて

On Binscatter ( http://arxiv.org/abs/1902.09608v4 )

ライセンス: Link先を確認
Matias D. Cattaneo, Richard K. Crump, Max H. Farrell, Yingjie Feng(参考訳) Binscatterは、二変量関係を可視化し、非公式な仕様テストを実行する一般的な方法である。 本手法の特性を形式的に検討し,可視化・計量用ビンスキャッタツールの開発を行った。 条件付き手段を最適バイニングで推定し、不確実性を定量化する。 また,不正確な結論をもたらす共変量調整に関する方法論的問題にも注目する。 提案手法を用いて2つのアプリケーションを再検討し, 従来の非公式なbinscatter法と比較して, かなり異なる結果を得た。 Python、R、Staの汎用ソフトウェアが提供されている。 我々の技術は非パラメトリック分割に基づく推定文献に独立した関心を持っている。

Binscatter is a popular method for visualizing bivariate relationships and conducting informal specification testing. We study the properties of this method formally and develop enhanced visualization and econometric binscatter tools. These include estimating conditional means with optimal binning and quantifying uncertainty. We also highlight a methodological problem related to covariate adjustment that can yield incorrect conclusions. We revisit two applications using our methodology and find substantially different results relative to those obtained using prior informal binscatter methods. General purpose software in Python, R, and Stata is provided. Our technical work is of independent interest for the nonparametric partition-based estimation literature.
翻訳日:2023-11-15 00:59:24 公開日:2023-11-12
# BB-ML:機械学習を用いた基本ブロック性能予測

BB-ML: Basic Block Performance Prediction using Machine Learning Techniques ( http://arxiv.org/abs/2202.07798v3 )

ライセンス: Link先を確認
Hamdy Abdelkhalik, Shamminuj Aktar, Yehia Arafa, Atanu Barai, Gopinath Chennupati, Nandakishore Santhi, Nishant Panda, Nirmal Prajapati, Nazmul Haque Turja, Stephan Eidenbenz and Abdel-Hameed Badawy(参考訳) 近年では、主に粗いレベルで、大規模アプリケーションのパフォーマンスを予測するために機械学習(ml)技術が採用されている。 対照的に,我々はML技術を用いて,より粒度の細かいパフォーマンス予測を行うことを提案する。すなわち,単一エントリであるBasic Block(BB)レベルでは,コンパイラによって解析に使用される単一終了コードブロックを用いて,大規模なコードを管理可能な断片に分解する。 我々は、GPUアプリケーションの基本的なブロック実行数を外挿し、より小さな入力サイズの数から大きな入力サイズのパフォーマンスを予測するためにそれらを使用する。 我々は、ランダムな入力値とアプリケーションの最低入力値を用いて、Poisson Neural Network(PNN)モデルをトレーニングし、入力と基本ブロック数の関係を学習する。 実験の結果,16gpuベンチマークの基本ブロック実行数を正確に予測できることがわかった。 本研究では,小さな入力セットで学習した場合,大規模入力セットの基本ブロック数を推定する精度93.5%,ランダムインスタンスでの基本ブロック数を予測する場合の精度97.7%を達成する。 ケーススタディでは、MLモデルをCUDA GPUベンチマークに適用し、幅広いアプリケーションのパフォーマンス予測を行う。 評価には,グローバルメモリ要求やテンソルコア,ALU,FMAユニットのアクティブサイクルなど,さまざまな指標を使用します。 その結果、グローバルおよび共有メモリ要求に対して平均エラー率0.85%と0.17%の大規模なデータセットのパフォーマンスを予測するモデルの能力を示す。 さらに、AmpereアーキテクチャGPUにおける主要な機能ユニットの利用に対処するため、テンソルコア、ALU、FMA、FP64ユニットのアクティブサイクルを計算し、ALUおよびFMAユニットの平均誤差2.3%と10.66%を達成し、テスト対象のアプリケーションとユニットの最大誤差は18.5%に達する。

Recent years have seen the adoption of Machine Learning (ML) techniques to predict the performance of large-scale applications, mostly at a coarse level. In contrast, we propose to use ML techniques for performance prediction at a much finer granularity, namely at the Basic Block (BB) level, which are single entry, single exit code blocks that are used for analysis by the compilers to break down a large code into manageable pieces. We extrapolate the basic block execution counts of GPU applications and use them for predicting the performance for large input sizes from the counts of smaller input sizes. We train a Poisson Neural Network (PNN) model using random input values as well as the lowest input values of the application to learn the relationship between inputs and basic block counts. Experimental results show that the model can accurately predict the basic block execution counts of 16 GPU benchmarks. We achieve an accuracy of 93.5% in extrapolating the basic block counts for large input sets when trained on smaller input sets and an accuracy of 97.7% in predicting basic block counts on random instances. In a case study, we apply the ML model to CUDA GPU benchmarks for performance prediction across a spectrum of applications. We use a variety of metrics for evaluation, including global memory requests and the active cycles of tensor cores, ALU, and FMA units. Results demonstrate the model's capability of predicting the performance of large datasets with an average error rate of 0.85% and 0.17% for global and shared memory requests, respectively. Additionally, to address the utilization of the main functional units in Ampere architecture GPUs, we calculate the active cycles for tensor cores, ALU, FMA, and FP64 units and achieve an average error of 2.3% and 10.66% for ALU and FMA units while the maximum observed error across all tested applications and units reaches 18.5%.
翻訳日:2023-11-15 00:54:36 公開日:2023-11-12
# 量子技術2023の理解

Understanding Quantum Technologies 2023 ( http://arxiv.org/abs/2111.15352v4 )

ライセンス: Link先を確認
Olivier Ezratty(参考訳) Quantum Technologies 2023は、科学や技術から地政学や社会問題まで、ユニークな360度の量子技術の概要を提供する、クリエイティブ・コモンズの電子書籍である。 It covers quantum physics history, quantum physics 101, gate-based quantum computing, quantum computing engineering (including quantum error corrections and quantum computing energetics), quantum computing hardware (all qubit types, including quantum annealing and quantum simulation paradigms, history, science, research, implementation and vendors), quantum enabling technologies (cryogenics, control electronics, photonics, components fabs, raw materials), unconventional computing (potential alternatives to quantum and classical computing), quantum telecommunications and cryptography, quantum sensing, quantum computing algorithms, software development tools and use cases, quantum technologies around the world, quantum technologies societal impact and even quantum fake sciences. 主な聴衆は、コンピュータサイエンスエンジニア、開発者、ITスペシャリスト、および量子技術がどのように機能するか、特に量子コンピューティングをグローバルに把握したいと思っている量子科学者と学生である。 この版は、2022年10月と2021年10月にそれぞれ出版された2022年版と2021年版のアップデートである。 本書の最後に更新ログが提供されている。

Understanding Quantum Technologies 2023 is a creative-commons ebook that provides a unique 360 degrees overview of quantum technologies from science and technology to geopolitical and societal issues. It covers quantum physics history, quantum physics 101, gate-based quantum computing, quantum computing engineering (including quantum error corrections and quantum computing energetics), quantum computing hardware (all qubit types, including quantum annealing and quantum simulation paradigms, history, science, research, implementation and vendors), quantum enabling technologies (cryogenics, control electronics, photonics, components fabs, raw materials), unconventional computing (potential alternatives to quantum and classical computing), quantum telecommunications and cryptography, quantum sensing, quantum computing algorithms, software development tools and use cases, quantum technologies around the world, quantum technologies societal impact and even quantum fake sciences. The main audience are computer science engineers, developers and IT specialists as well as quantum scientists and students who want to acquire a global view of how quantum technologies work, and particularly quantum computing. This version is an update to the 2022 and 2021 editions published respectively in October 2022 and October 2021. An update log is provided at the end of the book.
翻訳日:2023-11-15 00:52:42 公開日:2023-11-12
# クエリによる量子有限オートマトン学習

Learning Quantum Finite Automata with Queries ( http://arxiv.org/abs/2111.14041v2 )

ライセンス: Link先を確認
Daowen Qiu(参考訳) 有限オートマトン("it model learning}"と呼ばれる)は、機械学習の重要な分野となり、現実的な応用として有用である。 量子有限オートマトン (QFA) は有限メモリを持つ量子コンピュータの単純なモデルである。 単純さのため、QFAは物理的実現性に優れるが、一方通行のQFAは状態複雑性に関して古典有限オートマトンに対して重要な優位性を持つ(一方通行のQFAは計算能力において古典有限オートマトンよりも強力である)。 As a different problem in {\it quantum learning theory} and {\it quantum machine learning}, in this paper, our purpose is to initiate the study of {\it learning QFA with queries} (naturally it may be termed as {\it quantum model learning}), and the main results are regarding learning two basic one-way QFA: (1) We propose a learning algorithm for measure-once one-way QFA (MO-1QFA) with query complexity of polynomial time; (2) We propose a learning algorithm for measure-many one-way QFA (MM-1QFA) with query complexity of polynomial-time, as well.

{\it Learning finite automata} (termed as {\it model learning}) has become an important field in machine learning and has been useful realistic applications. Quantum finite automata (QFA) are simple models of quantum computers with finite memory. Due to their simplicity, QFA have well physical realizability, but one-way QFA still have essential advantages over classical finite automata with regard to state complexity (two-way QFA are more powerful than classical finite automata in computation ability as well). As a different problem in {\it quantum learning theory} and {\it quantum machine learning}, in this paper, our purpose is to initiate the study of {\it learning QFA with queries} (naturally it may be termed as {\it quantum model learning}), and the main results are regarding learning two basic one-way QFA: (1) We propose a learning algorithm for measure-once one-way QFA (MO-1QFA) with query complexity of polynomial time; (2) We propose a learning algorithm for measure-many one-way QFA (MM-1QFA) with query complexity of polynomial-time, as well.
翻訳日:2023-11-15 00:52:22 公開日:2023-11-12
# 幾何学的ブロックモデルにおけるコミュニティリカバリ

Community Recovery in the Geometric Block Model ( http://arxiv.org/abs/2206.11303v2 )

ライセンス: Link先を確認
Sainyam Galhotra, Arya Mazumdar, Soumyabrata Pal, Barna Saha(参考訳) 多くのコミュニティ検出問題の本質的な幾何学的特徴を捉えるために、我々は \textit{geometric block model} と呼ばれる新しいコミュニティのランダムグラフモデルを使うよう提案する。 幾何学ブロックモデルは、Erd\H{o}s-R\'{en}yiランダムグラフ上によく研究された確率ブロックモデルが構築されるのと同じように、空間ネットワークのランダムグラフの基本モデルの一つである 'emph{random geometry graphs} (Gilbert, 1961) の上に構築される。 コミュニティ検出の最近の理論的および実践的な進歩に触発されたランダムなコミュニティモデルの自然な拡張でもある。 幾何学的ブロックモデルを分析するために、まずランダム幾何グラフの一般化である \emph{random annulus graphs} に対する新たな接続結果を提供する。 幾何グラフの接続性は導入以来研究されており、エッジ形成の相関により解析は困難である。 次に,ランダムアニュラスグラフの接続結果を用いて,幾何学的ブロックモデルにおけるコミュニティの効率的な回復に必要な十分条件を提供する。 幾何ブロックモデルのコミュニティを検出する単純な三角計数アルゴリズムがほぼ最適であることを示す。 このため、グラフ密度の2つのレギュレーションを考える。 グラフの平均次数が頂点数と対数的に増加する体制において、我々のアルゴリズムは理論的にも実用的にも非常によく機能することを示す。 対照的に、三角数え上げアルゴリズムは対数次数法における確率的ブロックモデルに最適ではない。 また、グラフの平均次数は頂点数$n$で線形に増加するので、グラフを保存するためには$\Theta(n^2)$メモリが必要である。 我々のアルゴリズムは、潜伏するコミュニティを回復するために、この体制に$O(n \log n)$ edgeだけを格納する必要がある。

To capture inherent geometric features of many community detection problems, we propose to use a new random graph model of communities that we call a \textit{Geometric Block Model}. The geometric block model builds on the \emph{random geometric graphs} (Gilbert, 1961), one of the basic models of random graphs for spatial networks, in the same way that the well-studied stochastic block model builds on the Erd\H{o}s-R\'{en}yi random graphs. It is also a natural extension of random community models inspired by the recent theoretical and practical advancements in community detection. To analyze the geometric block model, we first provide new connectivity results for \emph{random annulus graphs} which are generalizations of random geometric graphs. The connectivity properties of geometric graphs have been studied since their introduction, and analyzing them has been difficult due to correlated edge formation. We then use the connectivity results of random annulus graphs to provide necessary and sufficient conditions for efficient recovery of communities for the geometric block model. We show that a simple triangle-counting algorithm to detect communities in the geometric block model is near-optimal. For this we consider two regimes of graph density. In the regime where the average degree of the graph grows logarithmically with number of vertices, we show that our algorithm performs extremely well, both theoretically and practically. In contrast, the triangle-counting algorithm is far from being optimum for the stochastic block model in the logarithmic degree regime. We also look at the regime where the average degree of the graph grows linearly with the number of vertices $n$, and hence to store the graph one needs $\Theta(n^2)$ memory. We show that our algorithm needs to store only $O(n \log n)$ edges in this regime to recover the latent communities.
翻訳日:2023-11-14 23:09:07 公開日:2023-11-12
# 解釈型注意に基づくシーケンス・ツー・シーケンスモデルを用いた時空間移動距離の流行への影響

The impact of spatio-temporal travel distance on epidemics using an interpretable attention-based sequence-to-sequence model ( http://arxiv.org/abs/2206.02536v2 )

ライセンス: Link先を確認
Yukang Jiang, Ting Tian, Huajun Xie, Hailiang Guo, Xueqin Wang(参考訳) 新型コロナウイルスの感染拡大を緩和するための重要な介入として、旅行制限が浮上している。 本研究では,我々のモデルであるs2sea-net (sequence-to-sequence epidemic attention network) の予測能力を,アテンションモジュールを組み込むことにより向上し,各階層の移動距離が流行のダイナミクスに与える影響を評価する。 さらに,本モデルでは新たな症例や死亡の予測を行う。 これを実現するために、アメリカ合衆国における郡レベルの流行データと合わせて、様々な旅行距離カテゴリーにおける人口移動の日次データを活用する。 距離の異なる旅行者の数量と、COVID-19の軌跡との間には、強い関係があることが判明した。 特に、これらの旅行距離カテゴリーに関して、国家規模で識別可能な空間パターンが出現する。 異なる移動距離における人口移動の地理的変化が流行のダイナミクスに及ぼす影響を明らかにする。 これは、将来の疫病予防と公衆衛生政策のための戦略の定式化に寄与する。

Amidst the COVID-19 pandemic, travel restrictions have emerged as crucial interventions for mitigating the spread of the virus. In this study, we enhance the predictive capabilities of our model, Sequence-to-Sequence Epidemic Attention Network (S2SEA-Net), by incorporating an attention module, allowing us to assess the impact of distinct classes of travel distances on epidemic dynamics. Furthermore, our model provides forecasts for new confirmed cases and deaths. To achieve this, we leverage daily data on population movement across various travel distance categories, coupled with county-level epidemic data in the United States. Our findings illuminate a compelling relationship between the volume of travelers at different distance ranges and the trajectories of COVID-19. Notably, a discernible spatial pattern emerges with respect to these travel distance categories on a national scale. We unveil the geographical variations in the influence of population movement at different travel distances on the dynamics of epidemic spread. This will contribute to the formulation of strategies for future epidemic prevention and public health policies.
翻訳日:2023-11-14 23:07:50 公開日:2023-11-12
# i-Razor:DNNベースのレコメンダシステムにおける特徴選択と次元探索のための微分可能なニューラル入力ラザ

i-Razor: A Differentiable Neural Input Razor for Feature Selection and Dimension Search in DNN-Based Recommender Systems ( http://arxiv.org/abs/2204.00281v2 )

ライセンス: Link先を確認
Yao Yao, Bin Liu, Haoxun He, Dakui Sheng, Ke Wang, Li Xiao, and Huanhuan Cao(参考訳) 入力機能は、ユーザ、アイテム、コンテキスト、インタラクションから数千のカテゴリおよび連続フィールドを持つDNNベースのレコメンデータシステムにおいて重要な役割を果たす。 ノイズのある特徴や不適切な埋め込み次元の割り当ては、レコメンダシステムの性能を悪化させ、モデルトレーニングやオンラインサービスに不要な複雑さをもたらす可能性がある。 特徴選択や埋め込み次元割り当てを含むDNNモデルの入力構成を最適化することは、特徴工学において重要なトピックの1つとなっている。 しかし,既存の産業では,特徴選択と次元探索を順次最適化し,まず特徴選択を行い,次に寸法探索を行い,各特徴に対して最適な寸法サイズを決定する。 このようなシーケンシャルな最適化メカニズムは、トレーニングコストと、最適以下の入力構成を生成するリスクを増加させる。 この問題に対処するために,特徴選択と次元探索を共同で最適化するニューラルインプット・レイザー (i-Razor) を提案する。 具体的には、各特徴の異なる埋め込み領域の相対的重要性を学習するために、エンドツーエンドの微分モデルを導入する。 さらに,特徴フィルタリングと次元導出を同時に行うために,フレキシブルプルーニングアルゴリズムを提案する。 click-through-rate (ctr) 予測タスクにおける2つの大規模パブリックデータセットに関する広範な実験は、モデルの複雑さとパフォーマンスのバランスにおけるi-razorの有効性と優位性を示している。

Input features play a crucial role in DNN-based recommender systems with thousands of categorical and continuous fields from users, items, contexts, and interactions. Noisy features and inappropriate embedding dimension assignments can deteriorate the performance of recommender systems and introduce unnecessary complexity in model training and online serving. Optimizing the input configuration of DNN models, including feature selection and embedding dimension assignment, has become one of the essential topics in feature engineering. However, in existing industrial practices, feature selection and dimension search are optimized sequentially, i.e., feature selection is performed first, followed by dimension search to determine the optimal dimension size for each selected feature. Such a sequential optimization mechanism increases training costs and risks generating suboptimal input configurations. To address this problem, we propose a differentiable neural input razor (i-Razor) that enables joint optimization of feature selection and dimension search. Concretely, we introduce an end-to-end differentiable model to learn the relative importance of different embedding regions of each feature. Furthermore, a flexible pruning algorithm is proposed to achieve feature filtering and dimension derivation simultaneously. Extensive experiments on two large-scale public datasets in the Click-Through-Rate (CTR) prediction task demonstrate the efficacy and superiority of i-Razor in balancing model complexity and performance.
翻訳日:2023-11-14 23:05:00 公開日:2023-11-12
# 類似性に基づく協調均衡

Similarity-based cooperative equilibrium ( http://arxiv.org/abs/2211.14468v2 )

ライセンス: Link先を確認
Caspar Oesterheld, Johannes Treutlein, Roger Grosse, Vincent Conitzer, Jakob Foerster(参考訳) 機械学習エージェントが世界でより自律的に振る舞うようになると、互いに対話し合うようになる。 残念なことに、一発の囚人のジレンマのような多くの社会的ジレンマでは、標準的なゲーム理論はMLエージェントが互いに協力することができないと予測している。 以前の研究は、一発の囚人のジレンマにおける協調的な結果を可能にする方法の一つとして、エージェント同士が相互に透過的にアクセスできるようにすること(Rubinstein 1998, Tennenholtz 2004)、あるいはMLエージェントの場合の重みが示されている。 しかし、完全な透明性はしばしば非現実的であるが、部分的な透明性は一般的である。 さらに、エージェントが完全な透明性設定で協力する方法を学ぶことは困難である。 本稿では,エージェントが互いにどのように類似しているかを示す1つの数字のみを観察する,より現実的な設定を提案する。 これにより、完全な透明性設定と同じ協調的な結果が得られることを証明します。 また,簡単なml手法で協調を学習できることを実験的に示す。

As machine learning agents act more autonomously in the world, they will increasingly interact with each other. Unfortunately, in many social dilemmas like the one-shot Prisoner's Dilemma, standard game theory predicts that ML agents will fail to cooperate with each other. Prior work has shown that one way to enable cooperative outcomes in the one-shot Prisoner's Dilemma is to make the agents mutually transparent to each other, i.e., to allow them to access one another's source code (Rubinstein 1998, Tennenholtz 2004) -- or weights in the case of ML agents. However, full transparency is often unrealistic, whereas partial transparency is commonplace. Moreover, it is challenging for agents to learn their way to cooperation in the full transparency setting. In this paper, we introduce a more realistic setting in which agents only observe a single number indicating how similar they are to each other. We prove that this allows for the same set of cooperative outcomes as the full transparency setting. We also demonstrate experimentally that cooperation can be learned using simple ML methods.
翻訳日:2023-11-14 22:56:50 公開日:2023-11-12
# 追跡誤差の時間領域感度

Time Domain Sensitivity of the Tracking Error ( http://arxiv.org/abs/2210.15783v2 )

ライセンス: Link先を確認
S. O'Neil, S. G. Schirmer, F. C. Langbein, C. A. Weidner, and E. Jonckheere(参考訳) 構造的プラントの不確実性に対するエラー信号の対数感度の厳密な時間領域の定式化を、単純だが代表的な古典的および量子システムを用いて提示し、解析する。 結果として、幅広い物理システムにおいて、性能の最大化(誤り信号の最小化)が漸近的に、あるいは特定の時間において、ログ感性の増加のコストを伴い、周波数領域の同一性である$\mathbf{s(s) + t(s) = i}$ に類似した時間領域の制約が示される。 漸近的安定化や追従に基づく古典的問題において限定的な価値を持つ一方で、時間領域の定式化は、時間に基づく性能指標に基づく高忠実性量子制御スキームと一致するロバストネスコストの低減を評価する上で有用である。

A strictly time-domain formulation of the log-sensitivity of the error signal to structured plant uncertainty is presented and analyzed through simple but representative classical and quantum systems. Results demonstrate that across a wide range of physical systems, maximization of performance (minimization of the error signal) asymptotically or at a specific time comes at the cost of increased log-sensitivity, implying a time-domain constraint analogous to the frequency-domain identity $\mathbf{S(s) + T(s) = I}$. While of limited value in classical problems based on asymptotic stabilization or tracking, such a time-domain formulation is valuable in assessing the reduced robustness cost concomitant with high-fidelity quantum control schemes predicated on time-based performance measures.
翻訳日:2023-11-14 22:54:58 公開日:2023-11-12
# 乱れ木表現を用いたニューラルポリシの解釈

Interpreting Neural Policies with Disentangled Tree Representations ( http://arxiv.org/abs/2210.06650v2 )

ライセンス: Link先を確認
Tsun-Hsuan Wang, Wei Xiao, Tim Seyde, Ramin Hasani, Daniela Rus(参考訳) 複雑な人間中心の環境で機能するロボットの進歩は、機械学習によって駆動される制御ソリューションに依存している。 ロボットが安全に重要なシステムであることから、学習ベースのコントローラーの意思決定方法を理解することが重要である。 これにより、ロボット学習の解釈可能性における説明的要因の形式的かつ定量的な理解が促される。 本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。 決定木を用いて,ロボット学習におけるばらつきの要因 [1] を得る; これらの特徴は,課題解決のためのスキル,行動,戦略をカプセル化する。 ネットワークが基礎となるタスクダイナミクスをいかによく理解しているかを評価するために、我々は、決定の集中、相互情報、モジュール性の観点から学習された神経力学の絡み合いを計測する解釈可能性メトリクスを導入する。 本研究は, 広範囲な実験解析において, 解釈可能性と絡み合いの関連が一貫して有効であることを示す。

The advancement of robots, particularly those functioning in complex human-centric environments, relies on control solutions that are driven by machine learning. Understanding how learning-based controllers make decisions is crucial since robots are often safety-critical systems. This urges a formal and quantitative understanding of the explanatory factors in the interpretability of robot learning. In this paper, we aim to study interpretability of compact neural policies through the lens of disentangled representation. We leverage decision trees to obtain factors of variation [1] for disentanglement in robot learning; these encapsulate skills, behaviors, or strategies toward solving tasks. To assess how well networks uncover the underlying task dynamics, we introduce interpretability metrics that measure disentanglement of learned neural dynamics from a concentration of decisions, mutual information and modularity perspective. We showcase the effectiveness of the connection between interpretability and disentanglement consistently across extensive experimental analysis.
翻訳日:2023-11-14 22:54:22 公開日:2023-11-12
# FastCLIPstyler:スタイル表現を用いたテキストベース画像の最適化

FastCLIPstyler: Optimisation-free Text-based Image Style Transfer Using Style Representations ( http://arxiv.org/abs/2210.03461v3 )

ライセンス: Link先を確認
Ananda Padhmanabhan Suresh, Sanjana Jain, Pavit Noinongyao, and Ankush Ganguly(参考訳) 近年,このスタイルの自然言語記述を用いて,参照スタイル画像の必要性を解消し,新たなタイプのスタイル転送技術として言語駆動型アートスタイル転送が登場している。 これを実現する最初のモデルはCLIPstylerと呼ばれ、印象的なスタイリング結果を示している。 しかし、各クエリに対する実行時の長い最適化手順は、多くの実用的なアプリケーションに対する適合性を制限している。 本稿では,任意のテキスト入力に対して単一のフォワードパスで画像をスタイリングできる汎用テキストベースの画像転送モデルfastclipstylerを提案する。 さらに,リソース制約のあるデバイスとの互換性を想定した軽量モデルedgeclipstylerを提案する。 最先端のアプローチと定量的・定性的な比較を通じて,我々のモデルが,測定可能なメトリクスに基づく優れたスタイライゼーション品質を達成し,特にエッジデバイスにおいて,ランタイム効率を大幅に向上させることを実証する。

In recent years, language-driven artistic style transfer has emerged as a new type of style transfer technique, eliminating the need for a reference style image by using natural language descriptions of the style. The first model to achieve this, called CLIPstyler, has demonstrated impressive stylisation results. However, its lengthy optimisation procedure at runtime for each query limits its suitability for many practical applications. In this work, we present FastCLIPstyler, a generalised text-based image style transfer model capable of stylising images in a single forward pass for arbitrary text inputs. Furthermore, we introduce EdgeCLIPstyler, a lightweight model designed for compatibility with resource-constrained devices. Through quantitative and qualitative comparisons with state-of-the-art approaches, we demonstrate that our models achieve superior stylisation quality based on measurable metrics while offering significantly improved runtime efficiency, particularly on edge devices.
翻訳日:2023-11-14 22:54:06 公開日:2023-11-12
# 接続性を考慮した肺気道セグメンテーションに向けて

Towards Connectivity-Aware Pulmonary Airway Segmentation ( http://arxiv.org/abs/2209.08355v4 )

ライセンス: Link先を確認
Minghui Zhang, Guang-Zhong Yang, Yun Gu(参考訳) 肺気道の詳細な分画は気管支内治療および周辺部肺癌病変の治療において臨床的に重要な課題である。 畳み込みニューラルネットワーク(CNN)は医用画像解析のための有望なツールであるが,気道データや主気管支がボクセルの大部分を占めているのに対して,気道データに当てはまる重要な不均衡な特徴分布が存在する場合,ローバーブロンチと遠位分節気管支はわずかに占める。 本稿では,気道セグメンテーションの性能向上を目的とした,微分位相保存距離変換(DTPDT)フレームワークを提案する。 クラス内分布のトレーニング進捗のバランスをとるため,まず,トポロジー保存サーロゲート(tps)学習戦略を提案する。 さらに、畳み込み距離変換(CDT)は、破壊現象を感度良く識別し、予測と接地間の距離マップのばらつきを最小限に抑えるように設計されている。 提案手法は,パブリックに利用可能なリファレンスエアウェイセグメンテーションデータセットで検証される。 パブリックEXACT'09とBASデータセットの分岐速度と長さは、それぞれ82.1%/79.6%と96.5%/91.5%であり、全体的なトポロジ的精度を維持しながら、セグメンテーション性能の位相的完全性を改善することの信頼性と効率を実証している。

Detailed pulmonary airway segmentation is a clinically important task for endobronchial intervention and treatment of peripheral located lung cancer lesions. Convolutional Neural Networks (CNNs) are promising tools for medical image analysis but have been performing poorly for cases when existing a significant imbalanced feature distribution, which is true for the airway data as the trachea and principal bronchi dominate most of the voxels whereas the lobar bronchi and distal segmental bronchi occupy a small proportion. In this paper, we propose a Differentiable Topology-Preserved Distance Transform (DTPDT) framework to improve the performance of airway segmentation. A Topology-Preserved Surrogate (TPS) learning strategy is first proposed to balance the training progress within-class distribution. Furthermore, a Convolutional Distance Transform (CDT) is designed to identify the breakage phenomenon with superior sensitivity and minimize the variation of the distance map between the predictionand ground-truth. The proposed method is validated with the publically available reference airway segmentation datasets. The detected rate of branch and length on public EXACT'09 and BAS datasets are 82.1%/79.6% and 96.5%/91.5% respectively, demonstrating the reliability and efficiency of the method in terms of improving the topology completeness of the segmentation performance while maintaining the overall topology accuracy.
翻訳日:2023-11-14 22:53:32 公開日:2023-11-12
# 重力理論の確率論的デコンストラクション 第2部:曲線空間

Probabilistic deconstruction of a theory of gravity, Part II: curved space ( http://arxiv.org/abs/2208.12204v3 )

ライセンス: Link先を確認
S. Josephine Suh(参考訳) ホログラフィック双対性と龍高柳公式の基盤となる文脈は、時空の体積測度は量子力学によって制約された確率測度である。 我々は、量子系で実現される連立量子分布をプロジェクタの積の期待値として、量子確率過程を定義する。 反ド・ジッター jt重力では、アインシュタインの方程式は境界によって引き起こされる量子確率過程の下での確率の進化から生じ、重力理論におけるコンパクト化された空間の面積は量子過程の下で進化する確率密度として同定される。 これらと関連する結果をarXiv:2108.10916の平坦なJT重力で外挿することにより、一般相対性理論は量子確率過程に関する確率の進化の半古典的極限に現れると推測する。

We propose that the underlying context of holographic duality and the Ryu-Takayanagi formula is that the volume measure of spacetime is a probability measure constrained by quantum dynamics. We define quantum stochastic processes using joint quantum distributions which are realized in a quantum system as expectation values of products of projectors. In anti-de Sitter JT gravity, we show that Einstein's equations arise from the evolution of probability under the quantum stochastic process induced by the boundary, with the area of compactified space in the gravitational theory identified as a probability density evolving under the quantum process. Extrapolating these and related results in flat JT gravity found in arXiv:2108.10916, we conjecture that general relativity arises in the semi-classical limit of the evolution of probability with respect to quantum stochastic processes.
翻訳日:2023-11-14 22:52:54 公開日:2023-11-12
# 粒子フィルタを用いた画像フレーム列における低SNR物体のトラック前検出

Track Before Detect of Low SNR Objects in a Sequence of Image Frames Using Particle Filter ( http://arxiv.org/abs/2212.13020v4 )

ライセンス: Link先を確認
Reza Rezaie(参考訳) 雑音とクラッタの存在下での映像フレーム列に基づく低信号対雑音比(snr)オブジェクトの検出と追跡のための多元モデルトラック前検出(tbd)粒子フィルタに基づくアプローチを短時間に検討した。 画像のフレームを受信した各時間に、まず、いくつかの前処理アプローチを画像に適用する。 次に、複数のモデルTBD粒子フィルタに送信し、物体の検出と追跡を行う。 ノイズや乱れなどの異なるシナリオにおける物体の検出と追跡のために,アプローチの性能を評価する。

A multiple model track-before-detect (TBD) particle filter-based approach for detection and tracking of low signal to noise ratio (SNR) objects based on a sequence of image frames in the presence of noise and clutter is briefly studied in this letter. At each time instance after receiving a frame of image, first, some preprocessing approaches are applied to the image. Then, it is sent to the multiple model TBD particle filter for detection and tracking of an object. Performance of the approach is evaluated for detection and tracking of an object in different scenarios including noise and clutter.
翻訳日:2023-11-14 22:43:22 公開日:2023-11-12
# htrモデルトレーニングの課題:project donner le gout de l'archive a l'ere numeriqueからのフィードバック

The Challenges of HTR Model Training: Feedback from the Project Donner le gout de l'archive a l'ere numerique ( http://arxiv.org/abs/2212.11146v4 )

ライセンス: Link先を確認
Beatrice Couture (Universit\'e de Montr\'eal), Farah Verret (Universit\'e de Montr\'eal), Maxime Gohier (Universit\'e du Qu\'ebec \`a Rimouski), Dominique Deslandres (Universit\'e de Montr\'eal)(参考訳) 手書き認識技術の登場は、遺産研究に新たな可能性をもたらす。 しかし現在では,研究チームが開発した経験や実践を振り返る必要がある。 2018年以来、transkribusプラットフォームを使用することで、17世紀のフランスの手書き文字を書写するために作られた手書きテキスト認識(htr)モデルのパフォーマンスを向上させる最も重要な方法を探すことができました。 そこで本稿では,トランスクリプションプロトコルの作成,言語モデルの利用,htrモデルの性能向上のためにベースモデルを使用する最善の方法を決定することの影響について報告する。 これらの要素をすべて組み合わせることで、1つのモデルの性能を20%以上向上させることができる(キャラクタエラー率を5%以下にする)。 本稿では、TranskribusのようなHTRプラットフォームの協調的な性質や、手書きテキスト認識モデルの作成やトレーニングの過程で生成されたデータを研究者が共有する方法についても論じる。

The arrival of handwriting recognition technologies offers new possibilities for research in heritage studies. However, it is now necessary to reflect on the experiences and the practices developed by research teams. Our use of the Transkribus platform since 2018 has led us to search for the most significant ways to improve the performance of our handwritten text recognition (HTR) models which are made to transcribe French handwriting dating from the 17th century. This article therefore reports on the impacts of creating transcribing protocols, using the language model at full scale and determining the best way to use base models in order to help increase the performance of HTR models. Combining all of these elements can indeed increase the performance of a single model by more than 20% (reaching a Character Error Rate below 5%). This article also discusses some challenges regarding the collaborative nature of HTR platforms such as Transkribus and the way researchers can share their data generated in the process of creating or training handwritten text recognition models.
翻訳日:2023-11-14 22:42:33 公開日:2023-11-12
# 推定バイアスを低減した一般化同時摂動型勾配探索

Generalized Simultaneous Perturbation-based Gradient Search with Reduced Estimator Bias ( http://arxiv.org/abs/2212.10477v2 )

ライセンス: Link先を確認
Soumen Pachal, Shalabh Bhatnagar and L.A. Prashanth(参考訳) 本稿では,ノイズ関数を用いた一般同時摂動に基づく勾配探索(gspgs)推定器のファミリについて述べる。 各推定器に必要な機能測定の数は、所望の精度によって導かれる。 まず,不均衡同時摂動確率近似 (gspsa) 推定器を詳細に提示し, それらの平衡バージョン (b-gspsa) について述べる。 この考え方をさらに拡張し、一般化スムーズ関数 (GSF) と一般化ランダム方向確率近似 (GRDSA) 推定器、およびそれらのバランスの取れた変種を提示する。 その結果,特定のクラス内において,より多くの関数計測が必要となると,推定バイアスが低下することが示された。 本稿では,得られた確率近似スキームの漸近的および非漸近的収束の詳細な解析を行う。 さらに,Rastriginおよび2次関数の目的に対する各種GSPGS推定器による一連の実験結果を示す。 我々の実験は理論的な結果を検証するのに役立つ。

We present in this paper a family of generalized simultaneous perturbation-based gradient search (GSPGS) estimators that use noisy function measurements. The number of function measurements required by each estimator is guided by the desired level of accuracy. We first present in detail unbalanced generalized simultaneous perturbation stochastic approximation (GSPSA) estimators and later present the balanced versions (B-GSPSA) of these. We extend this idea further and present the generalized smoothed functional (GSF) and generalized random directions stochastic approximation (GRDSA) estimators, respectively, as well as their balanced variants. We show that estimators within any specified class requiring more number of function measurements result in lower estimator bias. We present a detailed analysis of both the asymptotic and non-asymptotic convergence of the resulting stochastic approximation schemes. We further present a series of experimental results with the various GSPGS estimators on the Rastrigin and quadratic function objectives. Our experiments are seen to validate our theoretical findings.
翻訳日:2023-11-14 22:42:13 公開日:2023-11-12
# deepseq: ディープシーケンシャル回路学習

DeepSeq: Deep Sequential Circuit Learning ( http://arxiv.org/abs/2302.13608v2 )

ライセンス: Link先を確認
Sadaf Khan, Zhengyuan Shi, Min Li, Qiang Xu(参考訳) 回路表現学習は電子設計自動化(EDA)分野における有望な研究方向である。 事前トレーニングに十分なデータがあれば、学習された汎用的かつ効果的な表現は、タスク関連データの小さなセットで微調整することで、複数の下流EDAタスクを解決するのに役立ちます。 しかし、既存のソリューションは組合せ回路のみをターゲットにしており、その応用は著しく制限されている。 本稿では,シーケンシャルネットリストのための新しい表現学習フレームワークdeepseqを提案する。 具体的には、逐次回路におけるゲート間の時間相関を利用するために、カスタマイズされた伝搬方式を備えた専用グラフニューラルネットワーク(GNN)を導入する。 効率的な学習を実現するために,各ノードにおける論理確率と遷移確率の2つの強い関連性を持つマルチタスク学習目標を提案する。 両方のタスクを効率的に学習するために,新しい2重注意集約機構を導入する。 各種ベンチマーク回路の実験結果から,DeepSeqは逐次回路学習において他のGNNモデルよりも優れていた。 下流電力推定タスクにおけるDeepSeqの一般化能力を評価する。 微調整後、DeepSeqは異なるワークロード下でさまざまな回路の電力を正確に見積もることができる。

Circuit representation learning is a promising research direction in the electronic design automation (EDA) field. With sufficient data for pre-training, the learned general yet effective representation can help to solve multiple downstream EDA tasks by fine-tuning it on a small set of task-related data. However, existing solutions only target combinational circuits, significantly limiting their applications. In this work, we propose DeepSeq, a novel representation learning framework for sequential netlists. Specifically, we introduce a dedicated graph neural network (GNN) with a customized propagation scheme to exploit the temporal correlations between gates in sequential circuits. To ensure effective learning, we propose to use a multi-task training objective with two sets of strongly related supervision: logic probability and transition probability at each node. A novel dual attention aggregation mechanism is introduced to facilitate learning both tasks efficiently. Experimental results on various benchmark circuits show that DeepSeq outperforms other GNN models for sequential circuit learning. We evaluate the generalization capability of DeepSeq on a downstream power estimation task. After fine-tuning, DeepSeq can accurately estimate power across various circuits under different workloads.
翻訳日:2023-11-14 22:32:08 公開日:2023-11-12
# Plume: 優先順位付きトレースサンプリングによる高性能ディープRLネットワークコントローラフレームワーク

Plume: A Framework for High Performance Deep RL Network Controllers via Prioritized Trace Sampling ( http://arxiv.org/abs/2302.12403v2 )

ライセンス: Link先を確認
Sagar Patel, Junyang Zhang, Sangeetha Abdu Jyothi, Nina Narodytska(参考訳) Deep Reinforcement Learning (DRL)は様々なネットワーク環境において有望である。 しかし、これらの環境は標準DRL技術にいくつかの根本的な課題をもたらす。 高いレベルのノイズや不確実性を探索し示すことは困難である。 これらの課題はトレーニングプロセスを複雑にするが、実際にはDRLトレーニングデータセットの歪んだ入力トレース分布である、これまで見過ごされていた要因に対処することで、その効果を大幅に軽減し、最先端の現実世界のパフォーマンスを達成できる。 一般化されたフレームワークPlumeを導入し、3段階プロセスを用いてスキューを自動的に識別しバランスをとる。 まず,痕跡の挙動を決定する重要な特徴を明らかにする。 第2に、トレースをクラスタに分類する。 最後に、salientクラスタを優先して、コントローラ全体のパフォーマンスを改善します。 PlumeはDRLのアルゴリズムでシームレスに動作し、DRLのワークフローを変更する必要はない。 我々は,適応ビットレートストリーミング,混雑制御,負荷分散といった3つのネットワーク環境におけるPlumeの評価を行った。 Plumeは、異なるコントローラとDRLアルゴリズムでシミュレーションと現実世界の両方で優れたパフォーマンスを提供する。 例えば、私たちの新しいABRコントローラであるGelatoはPlumeでトレーニングし、ライブストリーミングプラットフォームであるPufferで1年以上にわたって、最先端のコントローラよりも一貫して優れています。 このプラットフォームでは、ビデオ品質とストールの両方において統計的に大幅な改善を行い、ストールを最大75%削減した最初のコントローラーである。

Deep Reinforcement Learning (DRL) has shown promise in various networking environments. However, these environments present several fundamental challenges for standard DRL techniques. They are difficult to explore and exhibit high levels of noise and uncertainty. Although these challenges complicate the training process, we find that in practice we can substantially mitigate their effects and even achieve state-of-the-art real-world performance by addressing a factor that has been previously overlooked: the skewed input trace distribution in DRL training datasets. We introduce a generalized framework, Plume, to automatically identify and balance the skew using a three-stage process. First, we identify the critical features that determine the behavior of the traces. Second, we classify the traces into clusters. Finally, we prioritize the salient clusters to improve the overall performance of the controller. Plume seamlessly works across DRL algorithms, without requiring any changes to the DRL workflow. We evaluated Plume on three networking environments, including Adaptive Bitrate Streaming, Congestion Control, and Load Balancing. Plume offers superior performance in both simulation and real-world settings, across different controllers and DRL algorithms. For example, our novel ABR controller, Gelato trained with Plume consistently outperforms prior state-of-the-art controllers on the live streaming platform Puffer for over a year. It is the first controller on the platform to deliver statistically significant improvements in both video quality and stalling, decreasing stalls by as much as 75%.
翻訳日:2023-11-14 22:31:12 公開日:2023-11-12
# 境界を意識した亀裂セグメンテーションのための畳み込み変換ネットワーク

A Convolutional-Transformer Network for Crack Segmentation with Boundary Awareness ( http://arxiv.org/abs/2302.11728v3 )

ライセンス: Link先を確認
Huaqi Tao, Bingxi Liu, Jinqiang Cui and Hong Zhang(参考訳) ひび割れは、製造された建物の安全性と耐久性を評価する上で重要な役割を担っている。 しかし, ひび割れの長期的・鋭い特徴と複雑な背景は, ひび割れの分断を極めて困難にしている。 本稿では,この課題を解決するために,エンコーダ・デコーダアーキテクチャに基づく新しい畳み込み変換ネットワークを提案する。 特に,Dilated Residual Block (DRB) と境界認識モジュール (BAM) を設計した。 DRBはひび割れの局所的な詳細に注意を払い、必要に応じて他のブロックの特徴次元を調整する。 そして、BAMは、拡張クラックラベルから境界特徴を学習する。 さらに、DRBは、グローバル情報をキャプチャして効果的なエンコーダとして機能する軽量トランスフォーマーと組み合わせられている。 実験結果から,提案ネットワークは2つの典型的なデータセット上で,最先端のアルゴリズムよりも優れた性能を示した。 データセット、コード、トレーニングされたモデルはhttps://github.com/HqiTao/CT-cracksegで研究することができる。

Cracks play a crucial role in assessing the safety and durability of manufactured buildings. However, the long and sharp topological features and complex background of cracks make the task of crack segmentation extremely challenging. In this paper, we propose a novel convolutional-transformer network based on encoder-decoder architecture to solve this challenge. Particularly, we designed a Dilated Residual Block (DRB) and a Boundary Awareness Module (BAM). The DRB pays attention to the local detail of cracks and adjusts the feature dimension for other blocks as needed. And the BAM learns the boundary features from the dilated crack label. Furthermore, the DRB is combined with a lightweight transformer that captures global information to serve as an effective encoder. Experimental results show that the proposed network performs better than state-of-the-art algorithms on two typical datasets. Datasets, code, and trained models are available for research at https://github.com/HqiTao/CT-crackseg.
翻訳日:2023-11-14 22:30:49 公開日:2023-11-12
# クラウドコンピューティングにおけるワークロード予測:不確実性を考慮した予測と転校学習に向けて

Forecasting Workload in Cloud Computing: Towards Uncertainty-Aware Predictions and Transfer Learning ( http://arxiv.org/abs/2303.13525v2 )

ライセンス: Link先を確認
Andrea Rossi and Andrea Visentin and Diego Carraro and Steven Prestwich and Kenneth N. Brown(参考訳) クラウドコンピューティングにおける将来のリソース需要予測は、顧客の要求を効率的に提供し、プロビジョニングコストを最小化するトレードオフを最適化するために不可欠である。 予測の不確実性をモデル化することは、資源決定過程をよりよく知るためにも望ましいが、この分野の研究は未検討である。 本稿では,将来のワークロード需要と不確実性を予測する一変量および二変量ベイズ深層学習モデルを提案する。 GoogleとAlibabaのクラスタで広範な実験を行い、まずモデルをさまざまなクラウドプロバイダのデータセットでトレーニングし、LSTMベースのベースラインと比較します。 以上の結果から,予測の不確実性のモデル化は,特にサービスレベルの指標において,パフォーマンスに肯定的な影響を与えることが明らかとなった。 さらに,本モデルがデータセット分布の異なる領域間での伝達学習能力に有用かどうかを検討する。 同じワークロードデータセットの実験では、同じプロバイダ内で許容される転送学習のパフォーマンスが達成可能であることが明らかになった。 また、ソースドメインとターゲットドメインが非常に異なる場合(例えば、異なるプロバイダから)ドメイン知識は転送されないが、ソースドメインのトレーニングセットサイズを増やすことで、このパフォーマンス劣化を軽減できる。

Predicting future resource demand in Cloud Computing is essential for optimizing the trade-off between serving customers' requests efficiently and minimizing the provisioning cost. Modelling prediction uncertainty is also desirable to better inform the resource decision-making process, but research in this field is under-investigated. In this paper, we propose univariate and bivariate Bayesian deep learning models that provide predictions of future workload demand and its uncertainty. We run extensive experiments on Google and Alibaba clusters, where we first train our models with datasets from different cloud providers and compare them with LSTM-based baselines. Results show that modelling the uncertainty of predictions has a positive impact on performance, especially on service level metrics, because uncertainty quantification can be tailored to desired target service levels that are critical in cloud applications. Moreover, we investigate whether our models benefit transfer learning capabilities across different domains, i.e. dataset distributions. Experiments on the same workload datasets reveal that acceptable transfer learning performance can be achieved within the same provider (because distributions are more similar). Also, domain knowledge does not transfer when the source and target domains are very different (e.g. from different providers), but this performance degradation can be mitigated by increasing the training set size of the source domain.
翻訳日:2023-11-14 22:19:39 公開日:2023-11-12
# リハーサルなし連続学習のためのプロンプトチューニングによるステアリングプロトタイプ

Steering Prototypes with Prompt-tuning for Rehearsal-free Continual Learning ( http://arxiv.org/abs/2303.09447v3 )

ライセンス: Link先を確認
Zhuowei Li, Long Zhao, Zizhao Zhang, Han Zhang, Di Liu, Ting Liu, Dimitris N. Metaxas(参考訳) 連続学習の文脈では、記憶の保存と破滅的な忘れの緩和において、プロトタイプを代表的クラスとして組み込む利点がある。 しかし、セマンティックドリフトとプロトタイプの干渉に関する課題は継続する。 本研究では,Contrastive Prototypeal Prompt (CPP) アプローチを紹介する。 対照的な学習目標に基づくタスク固有のプロンプトチューニングを通じて、上記の2つの課題を効果的に解決する。 4つのクラスインクリメンタル・ベンチマークによる評価の結果, CPPは最先端手法よりも4%から6%向上していることがわかった。 重要なことに、cppはリハーサルバッファなしで動作し、連続学習とオフライン共同学習のパフォーマンスのばらつきを狭め、トランスフォーマベースの連続学習システムのための革新的な手法を提案する。

In the context of continual learning, prototypes-as representative class embeddings-offer advantages in memory conservation and the mitigation of catastrophic forgetting. However, challenges related to semantic drift and prototype interference persist. In this study, we introduce the Contrastive Prototypical Prompt (CPP) approach. Through task-specific prompt-tuning, underpinned by a contrastive learning objective, we effectively address both aforementioned challenges. Our evaluations on four challenging class-incremental benchmarks reveal that CPP achieves a significant 4% to 6% improvement over state-of-the-art methods. Importantly, CPP operates without a rehearsal buffer and narrows the performance divergence between continual and offline joint-learning, suggesting an innovative scheme for Transformer-based continual learning systems.
翻訳日:2023-11-14 22:18:26 公開日:2023-11-12
# 正規表現のプロセス解釈のイメージは、バイシミュレーション崩壊下で閉じていない

The Image of the Process Interpretation of Regular Expressions is Not Closed under Bisimulation Collapse ( http://arxiv.org/abs/2303.08553v2 )

ライセンス: Link先を確認
Clemens Grabmayer(参考訳) milner's process semantics (1984) の正規表現の公理化と表現可能性問題は、デッドロック 0 と空のステップ~1 を持つ式の全クラスでは困難であることが判明した。 我々は、0 が利用可能になったときに 1 の追加の存在から生じる現象を報告し、この困難に焦点をあてる重要な理由について報告する。 ウィットにとって、1自由正規表現の解釈は二乗の崩壊下で閉じられているが、任意の正規表現の解釈はそうではない。 1-自由正規表現のプロセスグラフ解釈は、二相崩壊下で保存されるループの存在と除去性 LEE を満たす。 リーのこれらの特徴は、1自由正規表現に対する方程式証明系が完備であること、およびプロセスグラフが1自由正規表現の解釈と双類似であるかどうかを多項式時間で決定可能であることを示すために適用された。 正規表現の解釈は一般には LEE の性質を満たすものではないが、LEE は 1-遷移を持つグラフ(これはオートマチックのサイレントステップに似ている)の洗練された解釈によって復元可能であることを示す。 これはリーが一般の公理化や表現可能性問題にも期待できることを示唆している。 プロセスグラフの「to」の性質は、1-transitions と LEE を持つプロセスグラフに洗練され、バイシミュレーションの崩壊の下では保存されない。 リーを満たす2つの1-遷移を持つ10-バーテックスグラフを提供し、精細性を維持しつつ2つの相似頂点を互いに崩壊させることができないようにする。 このことは、正規表現のプロセス解釈のイメージがバイシミュレーション崩壊の下で閉じていないことを意味する。

Axiomatization and expressibility problems for Milner's process semantics (1984) of regular expressions modulo bisimilarity have turned out to be difficult for the full class of expressions with deadlock 0 and empty step~1. We report on a phenomenon that arises from the added presence of 1 when 0 is available, and that brings a crucial reason for this difficulty into focus. To wit, while interpretations of 1-free regular expressions are closed under bisimulation collapse, this is not the case for the interpretations of arbitrary regular expressions. Process graph interpretations of 1-free regular expressions satisfy the loop existence and elimination property LEE, which is preserved under bisimulation collapse. These features of LEE were applied for showing that an equational proof system for 1-free regular expressions modulo bisimilarity is complete, and that it is decidable in polynomial time whether a process graph is bisimilar to the interpretation of a 1-free regular expression. While interpretations of regular expressions do not satisfy the property LEE in general, we show that LEE can be recovered by refined interpretations as graphs with 1-transitions refined interpretations with 1-transitions (which are similar to silent steps for automata). This suggests that LEE can be expedient also for the general axiomatization and expressibility problems. But a new phenomenon emerges that needs to be addressed: the property of a process graph `to can be refined into a process graph with 1-transitions and with LEE' is not preserved under bisimulation collapse. We provide a 10-vertex graph with two 1-transitions that satisfies LEE, and in which a pair of bisimilar vertices cannot be collapsed on to each other while preserving the refinement property. This implies that the image of the process interpretation of regular expressions is not closed under bisimulation collapse.
翻訳日:2023-11-14 22:18:09 公開日:2023-11-12
# 構造的非単調変分不等式に対するシングルコール確率的漸進法:ウェイカー条件による解析の改善

Single-Call Stochastic Extragradient Methods for Structured Non-monotone Variational Inequalities: Improved Analysis under Weaker Conditions ( http://arxiv.org/abs/2302.14043v2 )

ライセンス: Link先を確認
Sayantan Choudhury, Eduard Gorbunov and Nicolas Loizou(参考訳) 近年,seg (stochastic past extragradient) やsog (stochastic progressive gradient) のような単発確率的超勾配法が注目され,様々な機械学習タスクに現れる大規模min-max最適化と変分不等式問題 (vip) を解決するための最も効率的なアルゴリズムの1つである。 しかし、その不確かさにもかかわらず、SPEG と SOG の現在の収束解析は有界な分散仮定を必要とする。 加えて、これらのメソッドの収束特性に関するいくつかの重要な質問は、ミニバッチ、効率的なステップサイズ選択、異なるサンプリング戦略下での収束保証など、まだオープンである。 本稿では,これらの問題に対処し,構造化非単調vipの2つの大きなクラスに対する収束保証を提供する。 (i)準強単調問題(強単調問題の一般化)及び (II)弱いミンティ変量不等式(モノトーンとミンティVIPの一般化) 我々は, 期待残余条件を導入し, その利点を説明し, 従来使用されていた成長条件, 期待共役性, 有界分散仮定よりも厳密に弱い境界を得るためにどのように使用できるかを示す。 この条件を満たし、定数、減少、およびステップサイズ切換ルールを含む異なるステップサイズ選択に対して、シングルコール超グレードメソッドの収束に関する理論的保証を提供する。 さらに, コンバージェンス解析は, 重要サンプリングと様々なミニバッチ戦略を特別な場合として含む任意のサンプリングパラダイムの下で行う。

Single-call stochastic extragradient methods, like stochastic past extragradient (SPEG) and stochastic optimistic gradient (SOG), have gained a lot of interest in recent years and are one of the most efficient algorithms for solving large-scale min-max optimization and variational inequalities problems (VIP) appearing in various machine learning tasks. However, despite their undoubted popularity, current convergence analyses of SPEG and SOG require a bounded variance assumption. In addition, several important questions regarding the convergence properties of these methods are still open, including mini-batching, efficient step-size selection, and convergence guarantees under different sampling strategies. In this work, we address these questions and provide convergence guarantees for two large classes of structured non-monotone VIPs: (i) quasi-strongly monotone problems (a generalization of strongly monotone problems) and (ii) weak Minty variational inequalities (a generalization of monotone and Minty VIPs). We introduce the expected residual condition, explain its benefits, and show how it can be used to obtain a strictly weaker bound than previously used growth conditions, expected co-coercivity, or bounded variance assumptions. Equipped with this condition, we provide theoretical guarantees for the convergence of single-call extragradient methods for different step-size selections, including constant, decreasing, and step-size-switching rules. Furthermore, our convergence analysis holds under the arbitrary sampling paradigm, which includes importance sampling and various mini-batching strategies as special cases.
翻訳日:2023-11-14 22:15:30 公開日:2023-11-12
# 鎖を破る:極値統計とランダムスピン鎖の局在

Breaking the chains: extreme value statistics and localization in random spin chains ( http://arxiv.org/abs/2305.10574v2 )

ライセンス: Link先を確認
Jeanne Colbois and Nicolas Laflorencie(参考訳) 1次元 (1D) の無秩序な系における単粒子アンダーソンの局所化について非常によく理解されているにもかかわらず、多体効果は依然として驚きに満ちており、その有名な例は相互作用駆動多体局在(MBL)問題である。 興味深いことに、非相互作用限界は非自明な多粒子物理学を研究する自然な場を提供し、非常に大規模な対角化シミュレーションでいくつかの一般的なメカニズムをテストすることができる。 本研究では, 1次元多体アンダーソン絶縁体について, ランダム磁場中の等価スピンチェーンモデルの極分極に着目し, 極値理論のレンズを通して再検討した。 多体鎖破壊機構を数値解析し,解析的に解ける玩具モデルと比較した。 弱い障害強度から大きな障害強度までの統一的な記述は、障害に依存しない平均局在長$\xi(W)$が連鎖破壊につながる極端な事象を支配している。 特に、局所磁化分布のテールは$\xi(w)$で制御される。 また、Fr'echet型法則によって与えられる極分極の完全分布の定量的な理解も得られる。 第2部では、有限相互作用物理学とMBL問題について検討する。 利用可能なシステムサイズについて、相互作用問題と非相互作用アンダーソンの場合の極値分布の差を数値的に定量化する。 厳密には、MBL遷移と一致するかもしれない$W$変化として、鋭い「極端統計遷移」を観察する。

Despite a very good understanding of single-particle Anderson localization in one-dimensional (1D) disordered systems, many-body effects are still full of surprises, a famous example being the interaction-driven many-body localization (MBL) problem, about which much has been written, and perhaps the best is yet to come. Interestingly enough the non-interacting limit provides a natural playground to study non-trivial multiparticle physics, offering the possibility to test some general mechanisms with very large-scale exact diagonalization simulations. In this work, we first revisit the 1D many-body Anderson insulator through the lens of extreme value theory, focusing on the extreme polarizations of the equivalent spin chain model in a random magnetic field. A many-body-induced chain breaking mechanism is explored numerically, and compared to an analytically solvable toy model. A unified description, from weak to large disorder strengths $W$ emerges, where the disorder-dependent average localization length $\xi(W)$ governs the extreme events leading to chain breaks. In particular, tails of the local magnetization distributions are controlled by $\xi(W)$. Remarkably, we also obtain a quantitative understanding of the full distribution of the extreme polarizations, which is given by a Fr\'echet-type law. In a second part, we explore finite interaction physics and the MBL question. For the available system sizes, we numerically quantify the difference in the extreme value distributions between the interacting problem and the non-interacting Anderson case. Strikingly, we observe a sharp "extreme-statistics transition" as $W$ changes, which may coincide with the MBL transition.
翻訳日:2023-11-14 22:07:40 公開日:2023-11-12
# Bare Homography による画像マッチング

Image Matching by Bare Homography ( http://arxiv.org/abs/2305.08946v4 )

ライセンス: Link先を確認
Fabio Bellavia(参考訳) 本稿では,シーンを粗い局所重なり面としてモデル化する,新しい非奥行き画像マッチングフレームワークslimeを提案する。 この中間表現は、キーポイントパッチの局所的なアフィン近似と、空間的および類似性の制約に基づくグローバルマッチングの間に位置し、プレーンが一般的なシーンに関して扱いやすいので、対応の漸進的プルーニングを提供する。 スライムは画像を異なるスケールで重なり合う領域に分解し、ゆるい平面ホモグラフを計算する。 平面は一致するマッチによって相互に拡張され、画像は固定タイルに分割され、タイルのペアごとに最適なホモグラフのみが保持される。 安定マッチは、ペアワイズホモグラフによって提供される許容ステレオ構成のコンセンサスに従って識別される。 タイル内では、粗面はマッチの重なりに応じてマージされ、さらに一貫した対応が抽出される。 プロセス全体はホモグラフィの制約のみを含む。 その結果、シーン上の正しいマッチのカバレッジと安定性の両方が増幅され、困難なシーンでマッチを見つけられるようになり、従来のハイブリッドマッチングパイプラインが、最近のエンドツーエンドのディープマッチングメソッドに対して失われた基盤を構築できるようになった。 さらに、エンドツーエンドのディープ・ネットワークとハイブリッド・パイプラインで表現される画像マッチングにおける最近の最先端画像の比較分析を行った。 この評価は、急激な時間変化や相対的な画像回転の強い変動など、批判的かつ困難なシナリオを考慮して、平面と非平面の両方を考慮する。 この分析によれば、この分野における印象的な進歩にもかかわらず、今後の研究で検討すべき改善の余地は広い。

This paper presents Slime, a novel non-deep image matching framework which models the scene as rough local overlapping planes. This intermediate representation sits in-between the local affine approximation of the keypoint patches and the global matching based on both spatial and similarity constraints, providing a progressive pruning of the correspondences, as planes are easier to handle with respect to general scenes. Slime decomposes the images into overlapping regions at different scales and computes loose planar homographies. Planes are mutually extended by compatible matches and the images are split into fixed tiles, with only the best homographies retained for each pair of tiles. Stable matches are identified according to the consensus of the admissible stereo configurations provided by pairwise homographies. Within tiles, the rough planes are then merged according to their overlap in terms of matches and further consistent correspondences are extracted. The whole process only involves homography constraints. As a result, both the coverage and the stability of correct matches over the scene are amplified, together with the ability to spot matches in challenging scenes, allowing traditional hybrid matching pipelines to make up lost ground against recent end-to-end deep matching methods. In addition, the paper gives a thorough comparative analysis of recent state-of-the-art in image matching represented by end-to-end deep networks and hybrid pipelines. The evaluation considers both planar and non-planar scenes, taking into account critical and challenging scenarios including abrupt temporal image changes and strong variations in relative image rotations. According to this analysis, although the impressive progress done in this field, there is still a wide room for improvements to be investigated in future research.
翻訳日:2023-11-14 22:06:56 公開日:2023-11-12
# クロスドメインロバスト性向上のためのパッチアウェアバッチ正規化

Patch-aware Batch Normalization for Improving Cross-domain Robustness ( http://arxiv.org/abs/2304.02848v2 )

ライセンス: Link先を確認
Lei Qi, Dongjia Zhao, Yinghuan Shi, Xin Geng(参考訳) コンピュータビジョンタスクにおけるディープラーニングの成功にもかかわらず、クロスドメインタスクは、トレーニングセットとテストセットが異なる分布に従うと、モデルのパフォーマンスが低下する課題をまだ示している。 既存の手法の多くは、この問題を解決するためにデータ拡張を達成するために、逆学習やインスタンス正規化を用いる。 対照的に、バッチ正規化(bn)層は未検出領域に対して頑健でなく、画像の局所パッチ間の違いが存在することを考慮し、パッチアウェアバッチ正規化(pbn)と呼ばれる新しい方法を提案する。 具体的には、まずバッチの特徴マップを空間次元に沿って重複しないパッチに分割し、各パッチを独立して正規化し、各イテレーションで共有bnパラメータを共同で最適化する。 画像の局所パッチ間の違いを生かすることにより,提案手法はモデルのパラメータのロバスト性を高めることができる。 さらに,各パッチからの統計は,グローバルな特徴マップに比べてサイズが小さいため不正確な場合があるため,各バッチの統計にグローバルに蓄積された統計情報を組み込んで,各パッチの正規化に関する最終的な統計値を得る。 提案されたPBNは典型的なBNを置き換えることができるため、既存のほとんどの最先端の手法に統合することができる。 広範な実験と分析により、分類、オブジェクト検出、インスタンス検索、セマンティクスセグメンテーションなど、複数のコンピュータビジョンタスクにおけるpbnの有効性が実証された。

Despite the significant success of deep learning in computer vision tasks, cross-domain tasks still present a challenge in which the model's performance will degrade when the training set and the test set follow different distributions. Most existing methods employ adversarial learning or instance normalization for achieving data augmentation to solve this task. In contrast, considering that the batch normalization (BN) layer may not be robust for unseen domains and there exist the differences between local patches of an image, we propose a novel method called patch-aware batch normalization (PBN). To be specific, we first split feature maps of a batch into non-overlapping patches along the spatial dimension, and then independently normalize each patch to jointly optimize the shared BN parameter at each iteration. By exploiting the differences between local patches of an image, our proposed PBN can effectively enhance the robustness of the model's parameters. Besides, considering the statistics from each patch may be inaccurate due to their smaller size compared to the global feature maps, we incorporate the globally accumulated statistics with the statistics from each batch to obtain the final statistics for normalizing each patch. Since the proposed PBN can replace the typical BN, it can be integrated into most existing state-of-the-art methods. Extensive experiments and analysis demonstrate the effectiveness of our PBN in multiple computer vision tasks, including classification, object detection, instance retrieval, and semantic segmentation.
翻訳日:2023-11-14 22:03:56 公開日:2023-11-12
# 準メトリック学習による最適ゴールリーチ強化学習

Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning ( http://arxiv.org/abs/2304.01203v6 )

ライセンス: Link先を確認
Tongzhou Wang, Antonio Torralba, Phillip Isola, Amy Zhang(参考訳) 目標到達強化学習(rl)では、最適値関数は準メトリック構造と呼ばれる特定の幾何学を持つ。 本稿では,準メトリックモデルを用いて最適値関数を学習する新しい rl 手法である quasimetric reinforcement learning (qrl) を提案する。 従来のアプローチとは違い、QRLの目標は特に準計量のために設計されており、強力な理論的回復保証を提供する。 実験的に、離散化されたマウンテンカー環境を徹底的に分析し、QRLの特性と代替品に対する優位性を識別する。 オフラインおよびオンラインの目標達成ベンチマークでは、QRLは、状態ベースと画像ベースの両方で、サンプル効率とパフォーマンスが改善されている。

In goal-reaching reinforcement learning (RL), the optimal value function has a particular geometry, called quasimetric structure. This paper introduces Quasimetric Reinforcement Learning (QRL), a new RL method that utilizes quasimetric models to learn optimal value functions. Distinct from prior approaches, the QRL objective is specifically designed for quasimetrics, and provides strong theoretical recovery guarantees. Empirically, we conduct thorough analyses on a discretized MountainCar environment, identifying properties of QRL and its advantages over alternatives. On offline and online goal-reaching benchmarks, QRL also demonstrates improved sample efficiency and performance, across both state-based and image-based observations.
翻訳日:2023-11-14 22:02:44 公開日:2023-11-12
# 視覚言語モデルにおける音声接地部分空間の部分

Parts of Speech-Grounded Subspaces in Vision-Language Models ( http://arxiv.org/abs/2305.14053v2 )

ライセンス: Link先を確認
James Oldfield, Christos Tzelepis, Yannis Panagakis, Mihalis A. Nicolaou, Ioannis Patras(参考訳) 視覚言語モデルから生じる潜在画像表現は、様々な下流タスクに非常に有用であることが証明された。 しかし、その実用性は、異なる視覚特性に対する絡み合いによって制限される。 例えば、最近の研究によると、CLIPの画像表現は予測不可能な方法で(オブジェクトやアクションなど)特定の視覚特性に偏っていることが多い。 本稿では,CLIPの関節視覚言語空間における異なる視覚的モダリティの表現を,音声の一部と特定の視覚的モードの関連性を利用して分離する(例えば,名詞は対象に関連し,形容詞は外観を記述する)。 これは、音声の特定の部分に対応する変動を捉えた部分空間を学習する適切な成分分析モデルを定式化し、残りの部分への変動を最小化する。 そのような部分空間は、表現が横たわる多様体の基底幾何学を尊重しながら、画像やテキストの異なる視覚的性質の閉形式の非交叉表現を与える。 さらに,提案モデルにより,特定の視覚的外観(例えばアーティストの絵画スタイル)に対応するサブスペースの学習が促進され,CLIPベースのテキスト・ツー・イメージ合成から視覚的テーマ全体を選択的に除去できることを示す。 サブスペースの投影をテキストから画像へのモデルで可視化し,アーティストのスタイルを模倣することを防止し,クラス非分散メトリクスとベースラインゼロショット分類の改善を通じて定量的にモデルを検証する。

Latent image representations arising from vision-language models have proved immensely useful for a variety of downstream tasks. However, their utility is limited by their entanglement with respect to different visual attributes. For instance, recent work has shown that CLIP image representations are often biased toward specific visual properties (such as objects or actions) in an unpredictable manner. In this paper, we propose to separate representations of the different visual modalities in CLIP's joint vision-language space by leveraging the association between parts of speech and specific visual modes of variation (e.g. nouns relate to objects, adjectives describe appearance). This is achieved by formulating an appropriate component analysis model that learns subspaces capturing variability corresponding to a specific part of speech, while jointly minimising variability to the rest. Such a subspace yields disentangled representations of the different visual properties of an image or text in closed form while respecting the underlying geometry of the manifold on which the representations lie. What's more, we show the proposed model additionally facilitates learning subspaces corresponding to specific visual appearances (e.g. artists' painting styles), which enables the selective removal of entire visual themes from CLIP-based text-to-image synthesis. We validate the model both qualitatively, by visualising the subspace projections with a text-to-image model and by preventing the imitation of artists' styles, and quantitatively, through class invariance metrics and improvements to baseline zero-shot classification.
翻訳日:2023-11-14 21:53:56 公開日:2023-11-12
# 転送不要データ効率多言語スロットラベリング

Transfer-Free Data-Efficient Multilingual Slot Labeling ( http://arxiv.org/abs/2305.13528v2 )

ライセンス: Link先を確認
Evgeniia Razumovskaia, Ivan Vuli\'c, Anna Korhonen(参考訳) スロットラベリング(SL)はタスク指向対話(ToD)システムの中核的なコンポーネントであり、スロットと対応する値は通常言語、タスク、ドメイン固有である。 したがって、システムを新しい言語-ドメイン-タスク構成に拡張するには、高価でリソース集約的なデータアノテーションプロセスを実行する必要がある。 固有データ不足の問題を緩和するため、現在の多言語ToDの研究は、英語の注釈付きデータが特定のタスクやドメインで常に利用できると仮定し、標準の言語間転送設定で動作している。 この作業では、このしばしば非現実的な仮定から離れます。 本研究は, 英語を読まない言語で, 転送不要なシナリオにおいて, 複数言語のデータ効率の高いスロットラベルをブートストラップすることに重点を置いている。 標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。 段階1では、SL適応型コントラスト学習に頼り、少数のSL注釈付き例で、文エンコーダをタスク固有のスパンエンコーダに変換する。 ステージ2では、SLをトークン分類から、より単純でデータ集約の少ないスパン分類タスクに再キャストします。 本研究は,TWOSLの有効性とロバスト性を確認するために,標準多言語TODデータセットと多言語にわたって行った。 特に、転送不要な複数ショットのセットアップにおいて、ToD用の多言語スロットラベルの高速でデータ効率のよいブートストラップを実現するのに有効である。

Slot labeling (SL) is a core component of task-oriented dialogue (ToD) systems, where slots and corresponding values are usually language-, task- and domain-specific. Therefore, extending the system to any new language-domain-task configuration requires (re)running an expensive and resource-intensive data annotation process. To mitigate the inherent data scarcity issue, current research on multilingual ToD assumes that sufficient English-language annotated data are always available for particular tasks and domains, and thus operates in a standard cross-lingual transfer setup. In this work, we depart from this often unrealistic assumption. We examine challenging scenarios where such transfer-enabling English annotated data cannot be guaranteed, and focus on bootstrapping multilingual data-efficient slot labelers in transfer-free scenarios directly in the target languages without any English-ready data. We propose a two-stage slot labeling approach (termed TWOSL) which transforms standard multilingual sentence encoders into effective slot labelers. In Stage 1, relying on SL-adapted contrastive learning with only a handful of SL-annotated examples, we turn sentence encoders into task-specific span encoders. In Stage 2, we recast SL from a token classification into a simpler, less data-intensive span classification task. Our results on two standard multilingual TOD datasets and across diverse languages confirm the effectiveness and robustness of TWOSL. It is especially effective for the most challenging transfer-free few-shot setups, paving the way for quick and data-efficient bootstrapping of multilingual slot labelers for ToD.
翻訳日:2023-11-14 21:52:44 公開日:2023-11-12
# particlewnn:偏微分方程式を解くための新しいニューラルネットワークフレームワーク

ParticleWNN: a Novel Neural Networks Framework for Solving Partial Differential Equations ( http://arxiv.org/abs/2305.12433v3 )

ライセンス: Link先を確認
Yaohua Zang, Gang Bao(参考訳) 近年、偏微分方程式(PDE)の解法としてディープニューラルネットワーク(DNN)が広く用いられている。 本研究では、PDEを弱い形で解くために、ParticleWNN(Particle Weak-form Based Neural Networks)と呼ばれる新しいディープラーニングベースのフレームワークを開発した。 このフレームワークでは、試行空間はDNNの空間として定義され、試験空間は、粒子を中心とする非常に小さな領域でコンパクトに支持される関数からなる。 ニューラルネットワークのトレーニングを容易にするため、トレーニング中の領域の半径を適応的に修正するR適応戦略が設計されている。 particlewnn は弱変量定式化の利点を継承し、解の正則性が少なく、積分の計算には少数の二次点を必要とする。 さらに、テスト関数の特別な構成のため、ParticleWNNは極めて小さな領域でのみ並列な実装と積分計算が可能である。 このフレームワークは高次元および複雑な領域の問題を解くのに特に望ましい。 ParticleWNNの効率と精度はいくつかの数値的な例を通して示され、最先端手法よりも優れていることを示す。 本稿では,数値例のソースコードをhttps://github.com/yaohua32/particlewnnで公開する。

Deep neural networks (DNNs) have been widely used to solve partial differential equations (PDEs) in recent years. In this work, a novel deep learning-based framework named Particle Weak-form based Neural Networks (ParticleWNN) is developed for solving PDEs in the weak form. In this framework, the trial space is defined as the space of DNNs, while the test space consists of functions compactly supported in extremely small regions, centered around particles. To facilitate the training of neural networks, an R-adaptive strategy is designed to adaptively modify the radius of regions during training. The ParticleWNN inherits the benefits of weak/variational formulation, requiring less regularity of the solution and a small number of quadrature points for computing integrals. Additionally, due to the special construction of the test functions, ParticleWNN enables parallel implementation and integral calculations only in extremely small regions. This framework is particularly desirable for solving problems with high-dimensional and complex domains. The efficiency and accuracy of ParticleWNN are demonstrated through several numerical examples, showcasing its superiority over state-of-the-art methods. The source code for the numerical examples presented in this paper is available at https://github.com/yaohua32/ParticleWNN.
翻訳日:2023-11-14 21:51:31 公開日:2023-11-12
# フラクタル場理論における量子クエンチ

Quantum quenches in fractonic field theories ( http://arxiv.org/abs/2306.14951v3 )

ライセンス: Link先を確認
Dmitry S. Ageev and Vasilii V. Pushkarev(参考訳) フラクトロンスカラー場理論における大域量子クエンチによる平衡外ダイナミクスについて検討する。 数種類のクエンチ、特に離散回転対称性の異なる理論における質量クエンチ(\mathbb{z}_4$ および $\mathbb{z}_8$)とそれらの間の遷移による瞬時クエンチを考える。 また, ユークリッド時間に有限幅スラブ上に初期状態が作成されるフラクタル境界クエンチについても検討した。 有限体積におけるフラクトロン系の摂動は、特に、特定の$\mathbb{Z}_4$-対称空間構造の形成とその後の進化を通じて制限されたモビリティを強調する。 我々は$\mathbb{Z}_n$-対称場理論への一般化について議論し、適切な正則化を導入し、フラクトロン場理論に固有の発散を明示的に扱うことができる。

We study out-of-equilibrium dynamics caused by global quantum quenches in fractonic scalar field theories. We consider several types of quenches, in particular, the mass quench in theories with different types of discrete rotational symmetries ($\mathbb{Z}_4$ and $\mathbb{Z}_8$), as well as an instantaneous quench via the transition between them. We also investigate fractonic boundary quenches, where the initial state is prepared on a finite-width slab in Euclidean time. We find that perturbing a fractonic system in finite volume especially highlights the restricted mobility via the formation and subsequent evolution of specific $\mathbb{Z}_4$-symmetric spatial structures. We discuss a generalization to $\mathbb{Z}_n$-symmetric field theories, and introduce a proper regularization, which allows us to explicitly deal with divergences inherent to fractonic field theories.
翻訳日:2023-11-14 21:30:14 公開日:2023-11-12
# ジャコビアン行列とリプシッツ定数による深層学習の最適化

Understanding Optimization of Deep Learning via Jacobian Matrix and Lipschitz Constant ( http://arxiv.org/abs/2306.09338v3 )

ライセンス: Link先を確認
Xianbiao Qi, Jianan Wang and Lei Zhang(参考訳) 本稿では、ディープラーニングにおける最適化の包括的理解を提供し、勾配消滅と勾配爆発の課題に主に焦点をあて、モデル表現能力の低下とトレーニング不安定性をそれぞれ引き起こす。 この2つの課題を,勾配流の改善やネットワークのリプシッツ定数に対する制約の付与など,いくつかの戦略的手法を用いて分析する。 現在の最適化手法を理解するために、明示的な最適化と暗黙的な最適化の2つのクラスに分類する。 明示的な最適化手法は、重み、勾配、学習率、体重減少などの最適化パラメータを直接操作する。 対照的に暗黙的最適化手法は、残差ショートカット、正規化方法、注意機構、アクティベーションといったモジュールを拡張して、ネットワーク全体の景観を改善することに焦点を当てている。 本稿では,これら2つの最適化クラスを詳細に分析し,多種多様なディープラーニングモジュールのヤコビ行列とリプシッツ定数の徹底的な検討を行い,既存の問題と潜在的な改善点を強調した。 さらに、理論的な議論を裏付ける一連の分析実験も実施する。 この記事では、新しいオプティマイザやネットワークを提案することを目的としていない。 むしろ、深層学習における最適化の包括的理解を示すことを意図しています。 この記事は読者がこの分野の深い洞察を得ることを支援し、より堅牢で効率的でハイパフォーマンスなモデルの開発を促進することを望んでいる。

This article provides a comprehensive understanding of optimization in deep learning, with a primary focus on the challenges of gradient vanishing and gradient exploding, which normally lead to diminished model representational ability and training instability, respectively. We analyze these two challenges through several strategic measures, including the improvement of gradient flow and the imposition of constraints on a network's Lipschitz constant. To help understand the current optimization methodologies, we categorize them into two classes: explicit optimization and implicit optimization. Explicit optimization methods involve direct manipulation of optimizer parameters, including weight, gradient, learning rate, and weight decay. Implicit optimization methods, by contrast, focus on improving the overall landscape of a network by enhancing its modules, such as residual shortcuts, normalization methods, attention mechanisms, and activations. In this article, we provide an in-depth analysis of these two optimization classes and undertake a thorough examination of the Jacobian matrices and the Lipschitz constants of many widely used deep learning modules, highlighting existing issues as well as potential improvements. Moreover, we also conduct a series of analytical experiments to substantiate our theoretical discussions. This article does not aim to propose a new optimizer or network. Rather, our intention is to present a comprehensive understanding of optimization in deep learning. We hope that this article will assist readers in gaining a deeper insight in this field and encourages the development of more robust, efficient, and high-performing models.
翻訳日:2023-11-14 21:27:35 公開日:2023-11-12
# OT-Net: 再利用可能なニューラル最適輸送ソリューション

OT-Net: A Reusable Neural Optimal Transport Solver ( http://arxiv.org/abs/2306.08233v2 )

ライセンス: Link先を確認
Zezeng Li, Shenghao Li, Lianbao Jin, Na Lei, Zhongxuan Luo(参考訳) 最適輸送(ot)の広範な適用により、その計算は必須となり、様々なアルゴリズムが出現した。 しかし、既存の手法は効率が低く、不連続写像を表現できない。 そこで,新しい再利用可能なニューラルネットワークotソルバot-netが提案され,まずブレニアの高さ表現をニューラルネットワークで学習し,その電位の勾配を計算してotマップを得た。 アルゴリズムには2つのメリットがある。 1) 不連続写像を容易に表現でき、不連続な支持を持つ任意の対象分布と一致し、鋭い境界を達成することができる。 これにより、生成されたモデルのモード崩壊をなくすことができる。 2) OTマップは,新たなターゲットサンプルを追加すると,提案アルゴリズムによって直接的に計算できるため,マップの効率と再利用性が大幅に向上する。 さらに, アルゴリズムの理論的誤差境界を解析し, 画像生成, 色移動, ドメイン適応におけるアプローチの実証的成功を実証した。

With the widespread application of optimal transport (OT), its calculation becomes essential, and various algorithms have emerged. However, the existing methods either have low efficiency or cannot represent discontinuous maps. A novel reusable neural OT solver OT-Net is thus presented, which first learns Brenier's height representation via the neural network to obtain its potential, and then gained the OT map by computing the gradient of the potential. The algorithm has two merits, 1) it can easily represent discontinuous maps, which allows it to match any target distribution with discontinuous supports and achieve sharp boundaries. This can well eliminate mode collapse in the generated models. 2) The OT map can be calculated straightly by the proposed algorithm when new target samples are added, which greatly improves the efficiency and reusability of the map. Moreover, the theoretical error bound of the algorithm is analyzed, and we have demonstrated the empirical success of our approach in image generation, color transfer, and domain adaptation.
翻訳日:2023-11-14 21:27:11 公開日:2023-11-12
# 契約によるコンテキストロボットミッションの正しい構成設計

Correct-by-Construction Design of Contextual Robotic Missions Using Contracts ( http://arxiv.org/abs/2306.08144v2 )

ライセンス: Link先を確認
Piergiuseppe Mallozzi, Pierluigi Nuzzo, Nir Piterman, Gerardo Schneider, Patrizio Pelliccione(参考訳) ロボットミッションを効果的に指定し実装することは、ロボットシステムのソフトウェア工学にいくつかの課題をもたらす。 これらの課題は、現実の運用環境において、さまざまなアプリケーションシナリオや状況(コンテキストとしても知られる)を考慮して、ロボットのハイレベルなタスクを形式化し実行する必要があることに起因する。 複数のコンテキストを明示的に記述した正確なミッション仕様を書くのは面倒でエラーを起こしやすい。 さらに、コンテキストの数が増え、したがって仕様の複雑さが増すにつれて、コンストラクションの正しい実装(例えば、合成法を使って)を生成することができる。 これらの問題に対処するための実行可能なアプローチは、ミッション仕様をより小さく管理可能なサブミッションに分解し、それぞれのサブミッションを特定のコンテキストに合わせて調整することである。 しかしながら、この構成的アプローチは、ミッション全体の正しさを保証するために、独自の課題を導入する。 本稿では,前提-保証契約を用いたコンテキストロボットミッションの特定と実装のための新しい構成フレームワークを提案する。 ミッション仕様は階層的でモジュラーな方法で構成されており、各サブミッションを独立したロボットコントローラとして合成することができる。 本稿では,事前定義された条件下での精度を確保しつつ,サブミッションコントローラ間の動的切り替えの問題に対処する。

Effectively specifying and implementing robotic missions poses a set of challenges to software engineering for robotic systems. These challenges stem from the need to formalize and execute a robot's high-level tasks while considering various application scenarios and conditions, also known as contexts, in real-world operational environments. Writing correct mission specifications that explicitly account for multiple contexts can be tedious and error-prone. Furthermore, as the number of contexts, and consequently the complexity of the specification, increases, generating a correct-by-construction implementation (e.g., by using synthesis methods) can become intractable. A viable approach to address these issues is to decompose the mission specification into smaller, manageable sub-missions, with each sub-mission tailored to a specific context. Nevertheless, this compositional approach introduces its own set of challenges in ensuring the overall mission's correctness. In this paper, we propose a novel compositional framework for specifying and implementing contextual robotic missions using assume-guarantee contracts. The mission specification is structured in a hierarchical and modular fashion, allowing for each sub-mission to be synthesized as an independent robot controller. We address the problem of dynamically switching between sub-mission controllers while ensuring correctness under predefined conditions.
翻訳日:2023-11-14 21:26:54 公開日:2023-11-12
# villandiffusion:拡散モデルのための統一バックドア攻撃フレームワーク

VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion Models ( http://arxiv.org/abs/2306.06874v4 )

ライセンス: Link先を確認
Sheng-Yen Chou, Pin-Yu Chen, Tsung-Yi Ho(参考訳) 拡散モデル(dms)は、反復的ノイズ付加と雑音除去から可逆的破壊過程を学ぶ最先端の生成モデルである。 これらは、テキストから画像への条件生成など、多くの生成AIアプリケーションのバックボーンである。 しかし、最近の研究では、基本的な無条件DM(DDPMやDDIMなど)は、モデル入力における悪意ある埋め込みパターンによって引き起こされる出力操作攻撃であるバックドアインジェクションに弱いことが示されている。 本稿では,dmsのバックドア解析の現在の範囲を拡大するための統一バックドアアタックフレームワーク(villandiffusion)を提案する。 本フレームワークは, 主流の非条件および条件付きDM(デノジングベースおよびスコアベース)と, 総合評価のための各種トレーニングフリーサンプリングを対象とする。 実験により,dm構成のバックドア解析を容易にするとともに,dmsに対するキャプションに基づくバックドア攻撃に対する新たな洞察を提供する。 私たちのコードはgithubで入手できる。 \url{https://github.com/ibm/villandiffusion}

Diffusion Models (DMs) are state-of-the-art generative models that learn a reversible corruption process from iterative noise addition and denoising. They are the backbone of many generative AI applications, such as text-to-image conditional generation. However, recent studies have shown that basic unconditional DMs (e.g., DDPM and DDIM) are vulnerable to backdoor injection, a type of output manipulation attack triggered by a maliciously embedded pattern at model input. This paper presents a unified backdoor attack framework (VillanDiffusion) to expand the current scope of backdoor analysis for DMs. Our framework covers mainstream unconditional and conditional DMs (denoising-based and score-based) and various training-free samplers for holistic evaluations. Experiments show that our unified framework facilitates the backdoor analysis of different DM configurations and provides new insights into caption-based backdoor attacks on DMs. Our code is available on GitHub: \url{https://github.com/IBM/villandiffusion}
翻訳日:2023-11-14 21:26:33 公開日:2023-11-12
# style over substance: 大規模言語モデルに対する評価バイアス

Style Over Substance: Evaluation Biases for Large Language Models ( http://arxiv.org/abs/2307.03025v3 )

ライセンス: Link先を確認
Minghao Wu, Alham Fikri Aji(参考訳) 大きな言語モデル(LLM)が進歩を続けるにつれ、そのパフォーマンスを正確かつ包括的に評価することはますます困難になっている。 elo評価に基づくllmの相対的パフォーマンスのランキングは、人間の判断によれば、人気が高まっている。 しかしながら、人間とLLMがどの程度の能力を持つかは未だ不明である。 本研究では,異なるモデルからのアウトプットを比較する際に,クラウドソースおよびエキスパートアノテータおよびLPMの挙動について検討する。 これを実現するために、故意に欠陥のあるマシン生成回答のデータセットをキュレートする。 事実的誤りを伴う回答は,短すぎる回答や文法的誤りを含む回答よりも好意的に評価されるため,評価プロセスにバイアスが伴うことが明らかとなった。 この問題に対処するために,すべての評価面を1つのスコアにまとめるのではなく,複数の次元にわたるマシン生成テキストを独立に評価することを提案する。 このアイデアをEloレーティングシステムでインスタンス化し,MERS(Multi-Elo Rating System)を実現する。 本研究から得られた実験結果から,本手法はLLMによる評価,特に実測精度を著しく向上させることが明らかとなった。 しかし,クラウドソーシングによる評価では顕著な改善は見られず,さらなる調査の必要性が示唆された。

As large language models (LLMs) continue to advance, accurately and comprehensively evaluating their performance becomes increasingly challenging. Ranking the relative performance of LLMs based on Elo ratings, according to human judgment, is gaining more popularity. However, the extent to which humans and LLMs are capable evaluators remains uncertain. This study investigates the behavior of crowd-sourced and expert annotators, as well as LLMs, when comparing outputs from different models. To achieve this, we curate a dataset of intentionally flawed machine-generated answers. Our findings reveal a concerning bias in the evaluation process, as answers with factual errors are rated more favorably than answers that are too short or contained grammatical errors. To address this issue, we propose independently evaluating machine-generated text across multiple dimensions, rather than merging all the evaluation aspects into a single score. We instantiate this idea with the Elo rating system, resulting in the Multi-Elo Rating System (MERS). Empirical results from our study reveal that this proposed approach significantly enhances the quality of LLM-based evaluations, particularly in terms of factual accuracy. However, there is no significant improvement in crowd-sourced-based evaluations, indicating the need for further investigation.
翻訳日:2023-11-14 21:16:34 公開日:2023-11-12
# 画像多様体の確率的・意味的記述とその応用

Probabilistic and Semantic Descriptions of Image Manifolds and Their Applications ( http://arxiv.org/abs/2307.02881v5 )

ライセンス: Link先を確認
Peter Tu, Zhaoyuan Yang, Richard Hartley, Zhiwei Xu, Jing Zhang, Yiwei Fu, Dylan Campbell, Jaskirat Singh, Tianyu Wang(参考訳) 本論文は,高次元画像空間の制限領域に通常そのようなデータが配置されるという観察を反映した画像確率密度関数を推定する手法の説明から始まる。 画像は高次元空間の低次元多様体上にあると言うのが一般的である。 しかし、多様体上のすべての点が像である確率が等しいというわけではない。 画像は多様体上に不均一に分布し、この分布を確率分布としてモデル化する方法を考案する。 したがって、一般的な生成モデルを考える。 我々の目的のために、生成的・確率的モデルは性質を持つべきである 1)サンプル生成:この分布からモデル密度関数で試料を採取する可能性、及び 2) 確率計算: 興味のあるデータセットから以前に見つからなかったサンプルが与えられた場合、少なくとも正規化定数までその確率を計算することができる。 そこで本研究では,流れの正規化や拡散モデルなどの手法について検討する。 次に、多様体上の点を記述するために意味解釈がどのように使われるかを示す。 これを実現するために、与えられた多様体上に存在する点の不等角表現に変分エンコーダを用いる創発的言語フレームワークを考える。 多様体上の点間の軌跡は、進化する意味的記述として記述することができる。 また、このような確率的記述(有界)は、敵攻撃に対する防御を構築することによって意味的一貫性を向上させることができることを示す。 提案手法は,semantic robustnessおよびood detection機能の改善,説明可能かつ編集可能なセマンティック補間,パッチ攻撃時の分類精度の向上により評価した。 また拡散モデルの制限についても論じる。

This paper begins with a description of methods for estimating image probability density functions that reflects the observation that such data is usually constrained to lie in restricted regions of the high-dimensional image space-not every pattern of pixels is an image. It is common to say that images lie on a lower-dimensional manifold in the high-dimensional space. However, it is not the case that all points on the manifold have an equal probability of being images. Images are unevenly distributed on the manifold, and our task is to devise ways to model this distribution as a probability distribution. We therefore consider popular generative models. For our purposes, generative/probabilistic models should have the properties of 1) sample generation: the possibility to sample from this distribution with the modelled density function, and 2) probability computation: given a previously unseen sample from the dataset of interest, one should be able to compute its probability, at least up to a normalising constant. To this end, we investigate the use of methods such as normalising flow and diffusion models. We then show how semantic interpretations are used to describe points on the manifold. To achieve this, we consider an emergent language framework that uses variational encoders for a disentangled representation of points that reside on a given manifold. Trajectories between points on a manifold can then be described as evolving semantic descriptions. We also show that such probabilistic descriptions (bounded) can be used to improve semantic consistency by constructing defences against adversarial attacks. We evaluate our methods with improved semantic robustness and OoD detection capability, explainable and editable semantic interpolation, and improved classification accuracy under patch attacks. We also discuss the limitation in diffusion models.
翻訳日:2023-11-14 21:16:13 公開日:2023-11-12
# ALPCAH:Tail Singular Value Regularizationを用いたサンプルワイズヘテロシダスティックPCA

ALPCAH: Sample-wise Heteroscedastic PCA with Tail Singular Value Regularization ( http://arxiv.org/abs/2307.02745v2 )

ライセンス: Link先を確認
Javier Salazar Cavazos, Jeffrey A. Fessler, Laura Balzano(参考訳) 主成分分析(PCA)はデータ次元削減の分野で重要なツールであり、様々なデータサイエンス問題に有用である。 しかし、多くの応用は、異なるデータ源に関連するノイズ特性により品質が変化する異種データを含む。 この混合データセットを扱う手法はヘテロシデスティック法として知られている。 HePPCATのような現在の手法は、実際は成り立たない基底係数のガウス的仮定を作る。 重み付きPCA (WPCA) のような他の手法はノイズの分散が知られていると仮定するが、実際は知るのが難しい。 本稿では,サンプル単位の雑音分散を推定できるPCA法を開発し,この情報を用いてデータの低ランク構造に関連する部分空間ベースの推定を改善する。 これは低ランク成分の分布的な仮定やノイズ分散が知られていると仮定せずに行われる。 シミュレーションでは, データのヘテロセシスティック性を考慮し, 全データと良好なデータのみを保持することの利点, PCA, Robust PCA (RPCA) や HePPCAT などの文献で確立されている他の PCA 手法との比較を行った。 コードはhttps://github.com/javiersc1/alpcahで利用可能

Principal component analysis (PCA) is a key tool in the field of data dimensionality reduction that is useful for various data science problems. However, many applications involve heterogeneous data that varies in quality due to noise characteristics associated with different sources of the data. Methods that deal with this mixed dataset are known as heteroscedastic methods. Current methods like HePPCAT make Gaussian assumptions of the basis coefficients that may not hold in practice. Other methods such as Weighted PCA (WPCA) assume the noise variances are known, which may be difficult to know in practice. This paper develops a PCA method that can estimate the sample-wise noise variances and use this information in the model to improve the estimate of the subspace basis associated with the low-rank structure of the data. This is done without distributional assumptions of the low-rank component and without assuming the noise variances are known. Simulations show the effectiveness of accounting for such heteroscedasticity in the data, the benefits of using such a method with all of the data versus retaining only good data, and comparisons are made against other PCA methods established in the literature like PCA, Robust PCA (RPCA), and HePPCAT. Code available at https://github.com/javiersc1/ALPCAH
翻訳日:2023-11-14 21:15:48 公開日:2023-11-12
# mvdiffusion:対応認識拡散を用いた総合的多視点画像生成の実現

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion ( http://arxiv.org/abs/2307.01097v5 )

ライセンス: Link先を確認
Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa(参考訳) 本稿では,画素間対応が与えられたテキストプロンプト(例えば,パノラマからの視点作物や深度マップやポーズが与えられたマルチビュー画像など)から一貫したマルチビュー画像を生成する,単純かつ効果的な手法であるmvdiffusionを提案する。 反復的な画像ワープや塗装に依存する従来の方法とは異なり、MVDiffusionはグローバルな認識で全ての画像を同時に生成する。 MVDiffusionのコアとなるのは、事前訓練されたテキスト-画像拡散モデルと平行に視点画像を処理し、新しい対応対応型アテンション層を統合して、クロスビューインタラクションを容易にすることである。 パノラマ生成では、10kパノラマでしか訓練されていないが、MVDiffusionは任意のテキストに対して高解像度のフォトリアリスティック画像を生成することができる。 多視点深度画像生成では、MVDiffusionはシーンメッシュのテクスチャ化のための最先端性能を示す。 プロジェクトページはhttps://mvdiffusion.github.io/にある。

This paper introduces MVDiffusion, a simple yet effective method for generating consistent multi-view images from text prompts given pixel-to-pixel correspondences (e.g., perspective crops from a panorama or multi-view images given depth maps and poses). Unlike prior methods that rely on iterative image warping and inpainting, MVDiffusion simultaneously generates all images with a global awareness, effectively addressing the prevalent error accumulation issue. At its core, MVDiffusion processes perspective images in parallel with a pre-trained text-to-image diffusion model, while integrating novel correspondence-aware attention layers to facilitate cross-view interactions. For panorama generation, while only trained with 10k panoramas, MVDiffusion is able to generate high-resolution photorealistic images for arbitrary texts or extrapolate one perspective image to a 360-degree view. For multi-view depth-to-image generation, MVDiffusion demonstrates state-of-the-art performance for texturing a scene mesh. The project page is at https://mvdiffusion.github.io/.
翻訳日:2023-11-14 21:14:41 公開日:2023-11-12
# ディープニューラルネットワークのサンプリング重み

Sampling weights of deep neural networks ( http://arxiv.org/abs/2306.16830v2 )

ライセンス: Link先を確認
Erik Lien Bolager and Iryna Burak and Chinmay Datar and Qing Sun and Felix Dietrich(参考訳) 完全連結ニューラルネットワークの重みとバイアスに対して,効率的なサンプリングアルゴリズムと組み合わせた確率分布を導入する。 教師付き学習では、トレーニングされたネットワークを得るために、内部ネットワークパラメータの反復最適化や勾配計算は不要である。 サンプリングはランダム特徴モデルのアイデアに基づいている。 しかし、例えば正規分布のようなデータに依存しない分布の代わりに、入力データと出力トレーニングデータの両方を使って浅層および深層ネットワークをサンプリングする。 サンプルネットワークが普遍近似であることを示す。 バロン関数の場合、サンプリングされた浅層ネットワークの$L^2$-approximation誤差はニューロン数の平方根によって減少する。 我々のサンプリング方式は、剛体変換や入力データのスケーリングに不変であり、多くの一般的な前処理技術は不要である。 数値実験では,サンプルネットワークは反復的に訓練されたネットワークに匹敵する精度を実現するが,桁違いに高速に構築できることを示した。 テストケースでは、OpenMLの分類ベンチマーク、関数空間内のマップを表すニューラル演算子のサンプリング、よく知られたアーキテクチャを用いたトランスファー学習を含む。

We introduce a probability distribution, combined with an efficient sampling algorithm, for weights and biases of fully-connected neural networks. In a supervised learning context, no iterative optimization or gradient computations of internal network parameters are needed to obtain a trained network. The sampling is based on the idea of random feature models. However, instead of a data-agnostic distribution, e.g., a normal distribution, we use both the input and the output training data to sample shallow and deep networks. We prove that sampled networks are universal approximators. For Barron functions, we show that the $L^2$-approximation error of sampled shallow networks decreases with the square root of the number of neurons. Our sampling scheme is invariant to rigid body transformations and scaling of the input data, which implies many popular pre-processing techniques are not required. In numerical experiments, we demonstrate that sampled networks achieve accuracy comparable to iteratively trained ones, but can be constructed orders of magnitude faster. Our test cases involve a classification benchmark from OpenML, sampling of neural operators to represent maps in function spaces, and transfer learning using well-known architectures.
翻訳日:2023-11-14 21:13:37 公開日:2023-11-12
# OpenNDD:神経発達障害検出のためのオープンセット認識

OpenNDD: Open Set Recognition for Neurodevelopmental Disorders Detection ( http://arxiv.org/abs/2306.16045v2 )

ライセンス: Link先を確認
Jiaming Yu, Zihao Guan, Xinyue Chang, Shujie Liu, Zhenshan Shi, Xiumei Liu, Changcai Yang, Riqing Chen, Lanyan Xue, Lifang Wei(参考訳) 注意欠陥性高活動障害などのNDDの強い相同性は、自閉症スペクトラム障害(ASD)の正確な診断に干渉する可能性があるため、未知のクラスを特定することは、NDDからは非常に重要で難しい。 そこで本研究では,asd診断のための新しいオープンセット認識フレームワークであるopenndd(openndd)を設計し,自動エンコーダと逆位置学習とを組み合わせることで,asdの識別を精度良く行えるようにした。 NDD間の強い類似性を考慮すると、未知のNDDを識別しやすくするために、Min-MaxスケーリングとStandardization(MMS)を組み合わせた共同スケーリング手法を提案する。 我々は,Autism Brain Imaging Data Exchange I (ABIDE I) とADHD-200 SAMPLE (ADHD-200) のハイブリッドデータセットを用いて,4つのサイトから791個のサンプルを用いて実験を行った。 OpenNDDは77.38%、AUROCは75.53%、オープンセットの分類率は59.43%という有望な性能を実現しています。

Since the strong comorbid similarity in NDDs, such as attention-deficit hyperactivity disorder, can interfere with the accurate diagnosis of autism spectrum disorder (ASD), identifying unknown classes is extremely crucial and challenging from NDDs. We design a novel open set recognition framework for ASD-aided diagnosis (OpenNDD), which trains a model by combining autoencoder and adversarial reciprocal points learning to distinguish in-distribution and out-of-distribution categories as well as identify ASD accurately. Considering the strong similarities between NDDs, we present a joint scaling method by Min-Max scaling combined with Standardization (MMS) to increase the differences between classes for better distinguishing unknown NDDs. We conduct the experiments in the hybrid datasets from Autism Brain Imaging Data Exchange I (ABIDE I) and THE ADHD-200 SAMPLE (ADHD-200) with 791 samples from four sites and the results demonstrate the superiority on various metrics. Our OpenNDD achieves promising performance, where the accuracy is 77.38%, AUROC is 75.53% and the open set classification rate is as high as 59.43%.
翻訳日:2023-11-14 21:12:58 公開日:2023-11-12
# 線形バンディットにおける任意の時間モデル選択

Anytime Model Selection in Linear Bandits ( http://arxiv.org/abs/2307.12897v2 )

ライセンス: Link先を確認
Parnian Kassraie, Nicolas Emmenegger, Andreas Krause, Aldo Pacchiano(参考訳) バンディット最適化の文脈におけるモデル選択は、行動選択だけでなく、モデル選択にも探索と利用のバランスをとる必要があるため、難しい問題である。 自然なアプローチの1つは、異なるモデルを専門家として扱うオンライン学習アルゴリズムに依存することだ。 しかし、既存のメソッドは、残念な点から言えば、M$のモデル数であまりスケールしない(\text{poly}M$)。 我々の重要な洞察は、線形帯域におけるモデル選択において、オンライン学習者への完全な情報フィードバックを好ましいバイアス分散トレードオフでエミュレートできるということです。 ALEXPは、その後悔のために$M$に対する指数関数的に改善された($\log M$)依存を持つ。 alexpはその後悔をいつでも保証し、horizon $n$の知識も必要とせず、最初の純粋に探索的な段階も必要としない。 本手法はラッソの新たな時間一様解析を応用し,オンライン学習と高次元統計の新たな関連性を確立した。

Model selection in the context of bandit optimization is a challenging problem, as it requires balancing exploration and exploitation not only for action selection, but also for model selection. One natural approach is to rely on online learning algorithms that treat different models as experts. Existing methods, however, scale poorly ($\text{poly}M$) with the number of models $M$ in terms of their regret. Our key insight is that, for model selection in linear bandits, we can emulate full-information feedback to the online learner with a favorable bias-variance trade-off. This allows us to develop ALEXP, which has an exponentially improved ($\log M$) dependence on $M$ for its regret. ALEXP has anytime guarantees on its regret, and neither requires knowledge of the horizon $n$, nor relies on an initial purely exploratory stage. Our approach utilizes a novel time-uniform analysis of the Lasso, establishing a new connection between online learning and high-dimensional statistics.
翻訳日:2023-11-14 21:05:23 公開日:2023-11-12
# ユーザエクスペリエンスを保護しながら複合現実における傍観者プライバシーの確保

Securing Bystander Privacy in Mixed Reality While Protecting the User Experience ( http://arxiv.org/abs/2307.12847v2 )

ライセンス: Link先を確認
Matthew Corbett, Brendan David-John, Jiacheng Shang, Y. Charlie Hu, Bo Ji(参考訳) メタバースを実現させる現代の混合現実デバイスは、物理的な世界に関する膨大な情報を必要とし、近隣の傍観者のプライバシーを侵害する可能性がある。 本稿では,この問題,既存の解決策,今後の研究への道程について紹介する。

The modern Mixed Reality devices that make the Metaverse viable require vast information about the physical world and can also violate the privacy of unsuspecting or unwilling bystanders in their vicinity. In this article, we provide an introduction to the problem, existing solutions, and avenues for future research.
翻訳日:2023-11-14 21:05:05 公開日:2023-11-12
# 物理インフォームドニューラルネットワークによる次元の呪いへの取り組み

Tackling the Curse of Dimensionality with Physics-Informed Neural Networks ( http://arxiv.org/abs/2307.12306v4 )

ライセンス: Link先を確認
Zheyuan Hu, Khemraj Shukla, George Em Karniadakis, Kenji Kawaguchi(参考訳) 次元の呪いは計算資源に重きを置き、次元が大きくなるにつれて計算コストが指数関数的に増加する。 これは60年以上前にRichard E. Bellman氏が指摘したように、高次元PDEを解決する上で大きな課題となる。 近年、数値偏微分方程式(PDE)を高次元で解くことに成功したが、そのような計算は違法に高価であり、一般的な非線形PDEの高次元への真のスケーリングは達成されていない。 我々は、任意の高次元PDEを解決するために、物理情報ニューラルネットワーク(PINN)をスケールアップする新しい方法を開発した。 新たな手法はStochastic Dimension Gradient Descent (SDGD)と呼ばれ、PDEの勾配を異なる次元に対応するピースに分解し、トレーニングPINNの各イテレーションでこれらの次元のサブセットをランダムにサンプリングする。 提案手法の収束とその他の望ましい性質を理論的に証明する。 提案手法は,数万次元のハミルトン・ヤコビ・ベルマン方程式やschr\"{o}dinger方程式など,多くの悪名高い高次元psdを,ピンスメッシュフリーアプローチを用いて単一のgpu上で高速に解くことができることを示す。 特に,非自明,異方性,分離不能な非線形PDEを1個のGPU上で12時間で10万の有効次元で解いた。 SDGD は PINN の一般的な訓練手法であるため、任意の高次元 PDE に対してスケールアップするために、現在および将来の PINN の変種に適用することができる。

The curse-of-dimensionality taxes computational resources heavily with exponentially increasing computational cost as the dimension increases. This poses great challenges in solving high-dimensional PDEs, as Richard E. Bellman first pointed out over 60 years ago. While there has been some recent success in solving numerically partial differential equations (PDEs) in high dimensions, such computations are prohibitively expensive, and true scaling of general nonlinear PDEs to high dimensions has never been achieved. We develop a new method of scaling up physics-informed neural networks (PINNs) to solve arbitrary high-dimensional PDEs. The new method, called Stochastic Dimension Gradient Descent (SDGD), decomposes a gradient of PDEs into pieces corresponding to different dimensions and randomly samples a subset of these dimensional pieces in each iteration of training PINNs. We prove theoretically the convergence and other desired properties of the proposed method. We demonstrate in various diverse tests that the proposed method can solve many notoriously hard high-dimensional PDEs, including the Hamilton-Jacobi-Bellman (HJB) and the Schr\"{o}dinger equations in tens of thousands of dimensions very fast on a single GPU using the PINNs mesh-free approach. Notably, we solve nonlinear PDEs with nontrivial, anisotropic, and inseparable solutions in 100,000 effective dimensions in 12 hours on a single GPU using SDGD with PINNs. Since SDGD is a general training methodology of PINNs, it can be applied to any current and future variants of PINNs to scale them up for arbitrary high-dimensional PDEs.
翻訳日:2023-11-14 21:04:40 公開日:2023-11-12
# 模倣ゲーム: chatgptとbardの時代における人間とaiによるテキストの検出

The Imitation Game: Detecting Human and AI-Generated Texts in the Era of ChatGPT and BARD ( http://arxiv.org/abs/2307.12166v2 )

ライセンス: Link先を確認
Kadhim Hayawi, Sakib Shahriar, Sujith Samuel Mathew(参考訳) 人工知能(AI)ベースの大規模言語モデル(LLM)の可能性は、教育、研究、実践に革命をもたらす。 しかし、人書きテキストとAI生成テキストの区別は重要な課題となっている。 本稿では,エッセイ,物語,詩,Pythonコードなど,さまざまなジャンルの人文およびLLM生成テキストのデータセットを新たに導入した比較研究を紹介する。 いくつかの機械学習モデルを使ってテキストを分類する。 結果は、データセットのサンプルサイズが制限されているにもかかわらず、人間とAI生成したテキストを識別する上で、これらのモデルの有効性を示す。 しかし、特にストーリー執筆において、GPT生成テキストの分類が困難になる。 その結果,本モデルでは,人為的テキストと特定のLLMを区別するなどの二項分類タスクにおいて,人為的テキストと複数のLLMを識別するより複雑なマルチクラスタスクと比較して,優れた性能を示した。 我々のデータセットは、この進化する領域における将来の研究の道を開く一方で、AIテキスト検出に対する洞察に富んだ意味を提供する。

The potential of artificial intelligence (AI)-based large language models (LLMs) holds considerable promise in revolutionizing education, research, and practice. However, distinguishing between human-written and AI-generated text has become a significant task. This paper presents a comparative study, introducing a novel dataset of human-written and LLM-generated texts in different genres: essays, stories, poetry, and Python code. We employ several machine learning models to classify the texts. Results demonstrate the efficacy of these models in discerning between human and AI-generated text, despite the dataset's limited sample size. However, the task becomes more challenging when classifying GPT-generated text, particularly in story writing. The results indicate that the models exhibit superior performance in binary classification tasks, such as distinguishing human-generated text from a specific LLM, compared to the more complex multiclass tasks that involve discerning among human-generated and multiple LLMs. Our findings provide insightful implications for AI text detection while our dataset paves the way for future research in this evolving area.
翻訳日:2023-11-14 21:04:10 公開日:2023-11-12
# 感情刺激の理解と拡張が可能な大規模言語モデル

Large Language Models Understand and Can be Enhanced by Emotional Stimuli ( http://arxiv.org/abs/2307.11760v7 )

ライセンス: Link先を確認
Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, Xing Xie(参考訳) 感情の知性は日々の行動や相互作用に大きな影響を与えます。 大規模言語モデル(LLM)は、人工知能への取り組みとして、多くのタスクにおいて顕著なパフォーマンスを示すが、LLMが心的感情的な刺激を真に把握できるかどうかは不明である。 感情的な手がかりを理解して反応することは、問題解決において人間に明確な利点を与える。 本稿では,感情刺激を理解するためのllmの能力を探るための第一歩を踏み出す。 そこで我々はまず,Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, GPT-4 など,45のタスクを対象とした自動実験を行った。 我々のタスクは、包括的な評価シナリオを表す決定論的および生成的アプリケーションにまたがる。 私たちの自動実験では、llmは感情的知能を把握でき、そのパフォーマンスは感情的プロンプト(感情的プロンプトと感情的刺激を組み合わせたemotionprompt)によって改善できることが示されています。 既存の測定値を用いて自動的に評価できる決定論的タスクに加えて,106人の被験者を対象に,バニラと情緒の両方を用いて生成タスクの質を評価する。 人間の研究結果は、emotionpromptが生成的タスクのパフォーマンスを著しく向上させることを示している(パフォーマンス、真理、責任の指標の観点から平均10.9%改善)。 emotionpromptがllmで機能する理由と,そのパフォーマンスに影響する要因について,詳細な議論を行う。 我々は、EmotionPromptが人間とLLMの相互作用に関する学際的知識を探求するための新しい道筋であると仮定する。

Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.
翻訳日:2023-11-14 21:03:31 公開日:2023-11-12
# 相互共振型量子ビットアーキテクチャにおける量子クロストークの緩和

Mitigation of quantum crosstalk in cross-resonance based qubit architectures ( http://arxiv.org/abs/2307.09995v2 )

ライセンス: Link先を確認
Peng Zhao(参考訳) 固定周波数トランスモン量子ビットと固定結合を利用するクロス共鳴(CR)ゲートアーキテクチャは量子コンピューティングの主要な候補である。 それでも、量子ビット周波数やカップリングのような量子ビットパラメータのチューニングがなければ、ゲート操作は常時オンカップリングから生じる量子クロストークの存在によって制限される。 システムサイズを増加させると、製造の不確実性に起因する周波数衝突を考えるとさらに深刻になる可能性がある。 本稿では,量子クロストークと周波数衝突の両方をパッシブに緩和するcrゲートベースのトランスモンアーキテクチャを提案する。 典型的なパラメータを仮定すると、高速かつ高忠実なCRゲートをサポートするために、XY結合を維持しながらZZクロストークを抑えることができる。 このアーキテクチャは、高速で高忠実なCRゲートが可能な動作領域を拡張して、既存の文献を超越することを可能にし、周波数衝突問題を緩和する。 実用性を検討するため,マルチビット格子におけるCRゲート性能を解析し,エラーの原因を特定するための直感的なモデルを提案する。 周波数設定における最先端の精度について,ゲートへの影響をさらに検討する。 ZZクロストークと周波数衝突は近隣の量子ビットに対して大きく緩和できるが、近隣の量子ビット以外の相互作用は新たな周波数衝突をもたらす。 強度は典型的にはサブmhzレベルであるため、量子ビットを選択的にシフトする弱いオフ共振ドライブを追加することで衝突を緩和できる。 この研究は、固定周波数量子ビットと固定結合に基づく大規模量子プロセッサの量子クロストークの抑制とゲートフィダリティの改善に有用である。

The Cross-resonance (CR) gate architecture that exploits fixed-frequency transmon qubits and fixed couplings is a leading candidate for quantum computing. Nonetheless, without the tunability of qubit parameters such as qubit frequencies and couplings, gate operations can be limited by the presence of quantum crosstalk arising from the always-on couplings. When increasing system sizes, this can become even more serious considering frequency collisions caused by fabrication uncertainties. Here, we introduce a CR gate-based transmon architecture with passive mitigation of both quantum crosstalk and frequency collisions. Assuming typical parameters, we show that ZZ crosstalk can be suppressed while maintaining XY couplings to support fast, high-fidelity CR gates. The architecture also allows one to go beyond the existing literature by extending the operating regions in which fast, high-fidelity CR gates are possible, thus alleviating the frequency-collision issue. To examine the practicality, we analyze the CR gate performance in multiqubit lattices and provide an intuitive model for identifying and mitigating the dominant source of error. For the state-of-the-art precision in setting frequencies, we further investigate its impact on the gates. We find that ZZ crosstalk and frequency collisions can be largely mitigated for neighboring qubits, while interactions beyond near neighbor qubits can introduce new frequency collisions. As the strength is typically at the sub-MHz level, adding weak off-resonant drives to selectively shift qubits can mitigate the collisions. This work could be useful for suppressing quantum crosstalk and improving gate fidelities in large-scale quantum processors based on fixed-frequency qubits and fixed couplings.
翻訳日:2023-11-14 21:00:57 公開日:2023-11-12
# 形式論理に基づく合成コーパスからの導出推論の学習

Learning Deductive Reasoning from Synthetic Corpus based on Formal Logic ( http://arxiv.org/abs/2308.07336v2 )

ライセンス: Link先を確認
Terufumi Morishita, Gaku Morio, Atsuki Yamaguchi, Yasuhiro Sogawa(参考訳) 言語モデルのための合成コーパスベースアプローチ(lms)による論理推論能力の獲得について検討した。 前回の研究では、特定の推論規則を用いて推論例を生成した。 しかし、これらの規則は限定的あるいは任意のものであり、獲得した推論能力の一般化性を制限する。 我々はこれを再考し、形式論理理論に基づく十分な根拠を持つ推論規則の集合を採用し、多段階の方法で結合すると他の推論規則を導出することができる。 次に、FLD(Formal Logic Deduction)と呼ばれる提案したコーパスを用いて、最新のLCMの論理的推論能力を評価し、解析する。 GPT-4でさえ、知識から分離された純粋論理的推論はLLMにとって依然として困難であり、論理的推論に特化した追加の訓練は確かに不可欠である。 次に、fldコーパスで訓練されたlmsがより一般化可能な推論能力を得ることを実証的に検証する。 さらに,推論能力の面において,推論コーパスがlmsを向上できるか,できないかを明らかにするとともに,各側面の今後の方向性について考察する。 リリースされたコーパスは、学習リソースと挑戦的なベンチマークの両方を提供する。

We study a synthetic corpus based approach for language models (LMs) to acquire logical deductive reasoning ability. The previous studies generated deduction examples using specific sets of deduction rules. However, these rules were limited or otherwise arbitrary, limiting the generalizability of acquired reasoning ability. We rethink this and adopt a well-grounded set of deduction rules based on formal logic theory, which can derive any other deduction rules when combined in a multistep way. Then, using the proposed corpora, which we name FLD (Formal Logic Deduction), we first evaluate and analyze the logical reasoning ability of the latest LLMs. Even GPT-4 can solve only half of the problems, suggesting that pure logical reasoning isolated from knowledge is still challenging for the LLMs, and additional training specialized in logical reasoning is indeed essential. We next empirically verify that LMs trained on FLD corpora acquire more generalizable reasoning ability. Furthermore, we identify the aspects of reasoning ability on which deduction corpora can enhance LMs and those on which they cannot, and discuss future directions on each aspect. The released corpora serve both as learning resources and as challenging benchmarks.
翻訳日:2023-11-14 20:52:04 公開日:2023-11-12
# 三元重み生成言語モデルのためのトークンスケールロジット蒸留

Token-Scaled Logit Distillation for Ternary Weight Generative Language Models ( http://arxiv.org/abs/2308.06744v3 )

ライセンス: Link先を確認
Minsoo Kim, Sihwa Lee, Janghwan Lee, Sukjin Hong, Du-Seong Chang, Wonyong Sung, Jungwook Choi(参考訳) ジェネレーティブ言語モデル(GLM)は、テキスト生成、理解、推論といったタスクにおいて素晴らしいパフォーマンスを示している。 しかし、大きなモデルサイズは実用的なデプロイメントに課題をもたらします。 この問題を解決するため,QAT(Quantization-Aware Training)が普及している。 しかし, 生成モデルに対する現在のQAT法では, 精度が著しく低下している。 本稿では, GLMを対象とした新しい知識蒸留法を提案する。 本手法はトークンスケールドロジット蒸留法と呼ばれ,教師モデルや基礎的真理から優れた学習を提供する。 本研究は,複合度が1.0未満の大規模glmの3次重み量子化・アウェアトレーニングを初めて評価し,常識qaや算術推論,自然言語理解などのタスクにおける精度の向上を実現する。 私たちのコードはhttps://github.com/aiha-lab/tsldで利用可能です。

Generative Language Models (GLMs) have shown impressive performance in tasks such as text generation, understanding, and reasoning. However, the large model size poses challenges for practical deployment. To solve this problem, Quantization-Aware Training (QAT) has become increasingly popular. However, current QAT methods for generative models have resulted in a noticeable loss of accuracy. To counteract this issue, we propose a novel knowledge distillation method specifically designed for GLMs. Our method, called token-scaled logit distillation, prevents overfitting and provides superior learning from the teacher model and ground truth. This research marks the first evaluation of ternary weight quantization-aware training of large-scale GLMs with less than 1.0 degradation in perplexity and achieves enhanced accuracy in tasks like common-sense QA and arithmetic reasoning as well as natural language understanding. Our code is available at https://github.com/aiha-lab/TSLD.
翻訳日:2023-11-14 20:51:45 公開日:2023-11-12
# 医学的アウト・オブ・ディストリビューション(mood)チャレンジにおける最先端性能の実現

Achieving state-of-the-art performance in the Medical Out-of-Distribution (MOOD) challenge using plausible synthetic anomalies ( http://arxiv.org/abs/2308.01412v2 )

ライセンス: Link先を確認
Sergio Naval Marimont and Giacomo Tarroni(参考訳) 異常の検出と局所化は重要な医用画像解析の課題である。 最も一般的には、コンピュータビジョン異常検出アプローチは、時間と取得コストの両方がかかる手動アノテーションに依存している。 教師なし異常検出(out-of-distribution detection)は、正常と見なされる注釈のないサンプルのみに依存する異常サンプルを特定することを目的としている。 本研究では,新しい教師なし異常検出法を提案する。 本手法は,局所的な合成異常を識別するためのセグメンテーションネットワークを訓練する自己教師型戦略に基づいている。 我々の貢献は、合成異常発生プロセスを改善し、合成異常をより均一で困難なものにする。 1)複雑なランダムな形状と 2) 合成異常のエッジを滑らかにすることで, ネットワークは画像と合成異常の間の高勾配に依存しない。 実装では,3次元U-Netアーキテクチャ,パッチワイドトレーニング,モデルアンサンブルなど,3次元医用画像セグメンテーションの標準プラクティスを採用しました。 本手法は,異なる種類の合成異常を有する検証セットを用いて評価した。 実験の結果,本手法のベースライン性能は大幅に向上した。 また,2022年にmiccaiで開催されたmedical out-of-distribution (mood) チャレンジに参加し,サンプル単位と画素単位の両方において第1位を得た。 最新のmood challengeの実験と結果から,我々のシンプルかつ効果的なアプローチは,合成異常に依存する分散検出手法の性能を大幅に向上させることができることが示された。

The detection and localization of anomalies is one important medical image analysis task. Most commonly, Computer Vision anomaly detection approaches rely on manual annotations that are both time consuming and expensive to obtain. Unsupervised anomaly detection, or Out-of-Distribution detection, aims at identifying anomalous samples relying only on unannotated samples considered normal. In this study we present a new unsupervised anomaly detection method. Our method builds upon the self-supervised strategy consisting on training a segmentation network to identify local synthetic anomalies. Our contributions improve the synthetic anomaly generation process, making synthetic anomalies more heterogeneous and challenging by 1) using complex random shapes and 2) smoothing the edges of synthetic anomalies so networks cannot rely on the high gradient between image and synthetic anomalies. In our implementation we adopted standard practices in 3D medical image segmentation, including 3D U-Net architecture, patch-wise training and model ensembling. Our method was evaluated using a validation set with different types of synthetic anomalies. Our experiments show that our method improved substantially the baseline method performance. Additionally, we evaluated our method by participating in the Medical Out-of-Distribution (MOOD) Challenge held at MICCAI in 2022 and achieved first position in both sample-wise and pixel-wise tasks. Our experiments and results in the latest MOOD challenge show that our simple yet effective approach can substantially improve the performance of Out-of-Distribution detection techniques which rely on synthetic anomalies.
翻訳日:2023-11-14 20:49:50 公開日:2023-11-12
# 多元多目的ドメイン適応における混合重み推定とモデル予測

Mixture Weight Estimation and Model Prediction in Multi-source Multi-target Domain Adaptation ( http://arxiv.org/abs/2309.10736v2 )

ライセンス: Link先を確認
Yuyang Deng, Ilja Kuzborskij, Mehrdad Mahdavi(参考訳) 複数の異種源からモデルを学習することの問題点を,新たなターゲット分布の精度向上を目的として検討する。 学習者の目標は、これらのデータソースを目標分散認識方法で混合し、混合ソースに対する経験的リスクを同時に最小化することである。 この文献は混合領域での学習理論の確立に顕著な進展をもたらした。 しかし、未解決の問題が2つある。 第二に、複数のターゲットドメインが存在する場合、計算的に効率的な方法で、データソースの潜在的にユニークな混合を用いて、各ターゲットに対する経験的リスク最小化(ERM)を解決する方法である。 本稿では, 両問題を効率よく, 保証とともに解決する。 最初の問題である混合重み推定(mixed weight estimation)を凸非凸合成ミニマックス問題として定性保証のある効率的な確率的アルゴリズムを提案する。 次に、2つ目の問題として、特定の状態において、それぞれの対象領域に対して個別にERMを解くことは避けられ、代わりに、対象の最適モデルのパラメータを混合係数の空間上の非線形関数と見なすことができる。 これに基づいて、オフライン環境では、GDトレーニングされた過パラメータニューラルネットワークが、指定されたERM問題を解決する代わりに、ターゲットドメインのモデルを予測するために、そのような機能を確実に学習できることが示される。 最後に, 任意の混合係数列を与えられた新しいターゲットに対するパラメータを予測し, 後悔の保証を享受する, ラベル効率の良いオンラインアルゴリズムを提案する。

We consider the problem of learning a model from multiple heterogeneous sources with the goal of performing well on a new target distribution. The goal of learner is to mix these data sources in a target-distribution aware way and simultaneously minimize the empirical risk on the mixed source. The literature has made some tangible advancements in establishing theory of learning on mixture domain. However, there are still two unsolved problems. Firstly, how to estimate the optimal mixture of sources, given a target domain; Secondly, when there are numerous target domains, how to solve empirical risk minimization (ERM) for each target using possibly unique mixture of data sources in a computationally efficient manner. In this paper we address both problems efficiently and with guarantees. We cast the first problem, mixture weight estimation, as a convex-nonconcave compositional minimax problem, and propose an efficient stochastic algorithm with provable stationarity guarantees. Next, for the second problem, we identify that for certain regimes, solving ERM for each target domain individually can be avoided, and instead parameters for a target optimal model can be viewed as a non-linear function on a space of the mixture coefficients. Building upon this, we show that in the offline setting, a GD-trained overparameterized neural network can provably learn such function to predict the model of target domain instead of solving a designated ERM problem. Finally, we also consider an online setting and propose a label efficient online algorithm, which predicts parameters for new targets given an arbitrary sequence of mixing coefficients, while enjoying regret guarantees.
翻訳日:2023-11-14 20:41:03 公開日:2023-11-12
# 量子位置検証の実用化に向けて

Towards practical quantum position verification ( http://arxiv.org/abs/2309.10070v2 )

ライセンス: Link先を確認
George Cowperthwaite, Adrian Kent and Damian Pitalua-Garcia(参考訳) 我々は,タギングデバイスが古典的データを安全に保持できるという標準量子暗号に基づく量子位置検証方式のプロトコルについて考察する [kent, 2011]。 我々のスキームは量子鍵分布によって補足された古典鍵を使用する。 位置検証は量子通信や量子情報処理を必要としない。 古典データのセキュリティは、セキュアなタグを使用しないスキームに適用する非ローカルな偽造攻撃に対して、スキームをセキュアにする。 このスキームは現在の技術では実用的であり、エラーや損失を許容する。 本稿では,実証実験の実施方法について述べる。

We discuss protocols for quantum position verification schemes based on the standard quantum cryptographic assumption that a tagging device can keep classical data secure [Kent, 2011]. Our schemes use a classical key replenished by quantum key distribution. The position verification requires no quantum communication or quantum information processing. The security of classical data makes the schemes secure against non-local spoofing attacks that apply to schemes that do not use secure tags. The schemes are practical with current technology and allow for errors and losses. We describe how a proof-of-principle demonstration might be carried out.
翻訳日:2023-11-14 20:40:38 公開日:2023-11-12
# 駆動型Jaynes-Cummingsモデルに対する不変アプローチ

Invariant approach to the Driven Jaynes-Cummings model ( http://arxiv.org/abs/2309.00729v2 )

ライセンス: Link先を確認
I. Bocanegra, L. Hern\'andez-S\'anchez, I. Ramos-Prieto, F. Soto-Eguibar and H. M. Moya-Cessa(参考訳) 2段階の原子が量子化された場と相互作用し、原子と磁場の両方が外部の古典場によって駆動される駆動型jaynes-cummingsモデルのダイナミクスを調べる。 不変なアプローチにより、対応するハミルトニアンを標準のJaynes-Cummingsモデルの1つに変換することができる。 その後、駆動系に対するシュリンガー方程式の正確な解析解が得られ、その動的変数のいくつかを分析するために用いられる。

We investigate the dynamics of the driven Jaynes-Cummings model, where a two-level atom interacts with a quantized field and both, atom and field, are driven by an external classical field. Via an invariant approach, we are able to transform the corresponding Hamiltonian into the one of the standard Jaynes-Cummings model. Subsequently, the exact analytical solution of the Schr\"odinger equation for the driven system is obtained and employed to analyze some of its dynamical variables.
翻訳日:2023-11-14 20:39:00 公開日:2023-11-12
# 比較トピックモデリングアプローチに基づく黄斑変性の栄養学的予防への視点

Insights Into the Nutritional Prevention of Macular Degeneration based on a Comparative Topic Modeling Approach ( http://arxiv.org/abs/2309.00312v3 )

ライセンス: Link先を確認
Lucas Cassiel Jacaruso(参考訳) トピックモデリングとテキストマイニングは、自然言語処理(NLP)のサブセットであり、メタ分析(MA)と体系的レビュー(SR)の実施に関係している。 証拠合成では、従来のNLP法は、SRとMAの必須フェーズを自動化するために、トピック固有の文献検索やレポートからの値抽出に用いられている。 そこで本研究では,同じ一般研究質問に対する矛盾した結果の報告を分析するための,比較トピックモデリング手法を提案する。 具体的には、有意な影響の報告(および分布の整合性)に比例して分類することで、利害関係に有意な結果をもたらすトピックを識別することを目的とする。 本手法は, 補充栄養成分が黄斑変性(MD)に有益であるか否かを, 広視野で検討した。 6種類の化合物がMDに有意な効果を示す報告と特異的に関連していると同定された。 これらのうち4つは, 続いて文献による検証(オメガ-3脂肪酸, 銅, ゼアキサンチン, 硝酸塩)を行った。 追従文献検索(ナイアシンとモリブデン)で支持されていない2つの指標は,提案したスコアシステムの下では最低範囲のスコアを有しており,提案手法のスコアは,興味ある結果と関連する程度に有効であり,潜在的因果関係の探索に有効である可能性が示唆された。 これらの結果から,提案手法は,広視野報告書の効果の理解に特異性を加え,今後の研究の課題を解明し,体系的かつスケーラブルな手法でエビデンス合成を導出する可能性が示唆された。 これら全てはMDの予防に関する貴重な洞察を与えながら達成される。

Topic modeling and text mining are subsets of Natural Language Processing (NLP) with relevance for conducting meta-analysis (MA) and systematic review (SR). For evidence synthesis, the above NLP methods are conventionally used for topic-specific literature searches or extracting values from reports to automate essential phases of SR and MA. Instead, this work proposes a comparative topic modeling approach to analyze reports of contradictory results on the same general research question. Specifically, the objective is to identify topics exhibiting distinct associations with significant results for an outcome of interest by ranking them according to their proportional occurrence in (and consistency of distribution across) reports of significant effects. The proposed method was tested on broad-scope studies addressing whether supplemental nutritional compounds significantly benefit macular degeneration (MD). Six compounds were identified as having a particular association with reports of significant results for benefiting MD. Four of these were further supported in terms of effectiveness upon conducting a follow-up literature search for validation (omega-3 fatty acids, copper, zeaxanthin, and nitrates). The two not supported by the follow-up literature search (niacin and molybdenum) also had scores in the lowest range under the proposed scoring system, suggesting that the proposed methods score for a given topic may be a viable proxy for its degree of association with the outcome of interest and can be helpful in the search for potentially causal relationships. These results underpin the proposed methods potential to add specificity in understanding effects from broad-scope reports, elucidate topics of interest for future research, and guide evidence synthesis in a systematic and scalable way. All of this is accomplished while yielding valuable insights into the prevention of MD.
翻訳日:2023-11-14 20:38:50 公開日:2023-11-12
# 次元フリー remez の不等式とノルム設計

Dimension-free Remez Inequalities and norm designs ( http://arxiv.org/abs/2310.07926v3 )

ライセンス: Link先を確認
Lars Becker, Ohad Klein, Joseph Slote, Alexander Volberg, Haonan Zhang(参考訳) 古典レメズ不等式は、このセグメントの正ルベーグ測度の任意の部分集合 $e$ 上の絶対値の最大値を通じて、あるセグメント上の次数 $d$ の多項式の絶対値の最大値を与える。 同様に、いくつかの変数において、より大きな集合上の次数$d$の多項式の絶対値の最大値は、部分集合上の多項式の絶対値の最大値によって制限される。 文学にはそのような不等式が多数あるが、寸法が大きくなるとすべてが台無しになる。 この記事は、このタイプの次元自由推定に特化しており、ここでは、サブセットはグリッドまたはグリッドの比較的スパースな部分集合である。 次元自由レメズ不等式に対するモチベーションは量子学習理論から非常に自然に生まれており、比較的少数のランダムなクエリによって大きな行列を大確率で復元する必要がある。 我々の次元自由不等式は、天文学的に多量の変数の低次多項式やquditアンサンブル上の低次量子可観測性を学ぶための時間効率とサンプル最適アルゴリズムを与える。

The classical Remez inequality bounds the maximum of the absolute value of a polynomial of degree $d$ on a segment through the maximum of its absolute value on any subset $E$ of positive Lebesgue measure of this segment. Similarly, in several variables the maximum of the absolute value of a polynomial of degree $d$ over a larger set is bounded by the maximum of the absolute value of a polynomial on a subset. There are many such inequalities in the literature, but all of them get spoiled when dimension grows. This article is devoted to the dimension free estimates of this type, where a subset is a grid or a rather sparse subset of the grid. The motivation for the dimension free Remez inequality came very naturally from the quantum learning theory, where we need to approximately restore with large probability a big matrix by a relatively small number of random queries, see \cite{VZ22}, \cite{SVZ}. Our dimension free inequality gives time-efficient and sample-optimal algorithms for learning low-degree polynomials of astronomically large number of variables as well as low-degree quantum observables on qudit ensembles, see \cite{SVZ} for those applications.
翻訳日:2023-11-14 20:28:55 公開日:2023-11-12
# KoMultiText: リアルタイムオンラインサービスにおけるバイアス音声分類のための大規模韓国語テキストデータセット

KoMultiText: Large-Scale Korean Text Dataset for Classifying Biased Speech in Real-World Online Services ( http://arxiv.org/abs/2310.04313v2 )

ライセンス: Link先を確認
Dasol Choi, Jooyoung Song, Eunsun Lee, Jinwoo Seo, Heejune Park, Dongbin Na(参考訳) オンラインサービスの普及に伴い,感情分析や偏りのあるテキスト検出といった高度なテキスト分類アルゴリズムの必要性が高まっている。 オンラインサービスの匿名性は、しばしば偏りのある有害な言語の存在につながり、オンラインコミュニティの健全性を維持するための課題となる。 この現象は韓国では特に重要であり、大規模なヘイトスピーチ検出アルゴリズムはまだ広く研究されていない。 本稿では,韓国の著名なsnsプラットフォームから収集した新しい総合的大規模データセットである「コマルチテキスト」を紹介する。 提案するデータセットは,(1)選好,(2)傾向,(3)テキストサンプルに対する9種類のバイアスを含むアノテーションを提供し,ユーザ生成テキストの同時分類のためのマルチタスク学習を可能にする。 最先端のbertベースの言語モデルを活用することで,多様な分類タスクにおける人間レベルの精度を,さまざまな指標で測定した。 学術的な貢献以外にも、我々の研究は現実のヘイトスピーチとバイアス軽減のための実践的なソリューションを提供し、オンラインコミュニティの健康改善に直接貢献する。 本研究は,オンライン談話の質向上と社会福祉の育成を目的とした今後の研究の基盤となる。 すべてのソースコードとデータセットはhttps://github.com/Dasol-Choi/KoMultiTextで公開されている。

With the growth of online services, the need for advanced text classification algorithms, such as sentiment analysis and biased text detection, has become increasingly evident. The anonymous nature of online services often leads to the presence of biased and harmful language, posing challenges to maintaining the health of online communities. This phenomenon is especially relevant in South Korea, where large-scale hate speech detection algorithms have not yet been broadly explored. In this paper, we introduce "KoMultiText", a new comprehensive, large-scale dataset collected from a well-known South Korean SNS platform. Our proposed dataset provides annotations including (1) Preferences, (2) Profanities, and (3) Nine types of Bias for the text samples, enabling multi-task learning for simultaneous classification of user-generated texts. Leveraging state-of-the-art BERT-based language models, our approach surpasses human-level accuracy across diverse classification tasks, as measured by various metrics. Beyond academic contributions, our work can provide practical solutions for real-world hate speech and bias mitigation, contributing directly to the improvement of online community health. Our work provides a robust foundation for future research aiming to improve the quality of online discourse and foster societal well-being. All source codes and datasets are publicly accessible at https://github.com/Dasol-Choi/KoMultiText.
翻訳日:2023-11-14 20:28:12 公開日:2023-11-12
# 半導体ウェハマップにおける欠陥パターン同定のための機械学習分類手法:調査,実証,実験による評価

Machine Learning Classification Techniques for Identifying the Defective Patterns in Semiconductor Wafer Maps: A Survey, Empirical, and Experimental Evaluations ( http://arxiv.org/abs/2310.10705v2 )

ライセンス: Link先を確認
Kamal Taha(参考訳) 本稿では,半導体製造におけるウエハ欠陥の同定に機械学習(ML)分類技術を用いた方法論の総合的なレビューを行う。 ウェハ欠陥同定におけるmlの有効性を実証する研究が増えているにもかかわらず、本研究の包括的なレビューは明らかでない。 この調査は、利用可能な文献を要約し、ウェハ欠陥検出の領域における様々なML分類アルゴリズムの利点、限界、および潜在的な応用の詳細な分析を提供することによって、この空白を埋めようとしている。 提案する方法論の革新的な分類法では,より洗練されたカテゴリと手法に詳細なアルゴリズムを分類する。 この分類は、幅広い方法論のカテゴリから始まり、特定のサブテクニックで終わる4層構造に従う。 異なるアルゴリズムとその技術の間の複雑な関係を理解するのに役立つ。 我々は,これらの異なる手法をランク付けするために,厳密な経験的および実験的評価を行っている。 実証評価では,4つの基準のセットに基づいて手法を評価する。 実験評価では、同じサブテクニック、テクニック、サブカテゴリ、カテゴリを使用するアルゴリズムをランク付けした。 この多層分類、経験的評価、比較実験の統合は、ウェハ欠陥を特定するためのML技術とアルゴリズムの詳細な理解を提供する。 さらに, ウェハ欠陥の同定, 潜在的な進展, さらなる研究の機会について, ML分類技術の今後の展望を照らす。

This survey paper offers a comprehensive review of methodologies utilizing machine learning (ML) classification techniques for identifying wafer defects in semiconductor manufacturing. Despite the growing body of research demonstrating the effectiveness of ML in wafer defect identification, there is a noticeable absence of comprehensive reviews on this subject. This survey attempts to fill this void by amalgamating available literature and providing an in-depth analysis of the advantages, limitations, and potential applications of various ML classification algorithms in the realm of wafer defect detection. An innovative taxonomy of methodologies that we present provides a detailed classification of algorithms into more refined categories and techniques. This taxonomy follows a four-tier structure, starting from broad methodology categories and ending with specific sub-techniques. It aids researchers in comprehending the complex relationships between different algorithms and their techniques. We employ a rigorous empirical and experimental evaluation to rank these varying techniques. For the empirical evaluation, we assess techniques based on a set of four criteria. The experimental evaluation ranks the algorithms employing the same sub-techniques, techniques, sub-categories, and categories. This integration of a multi-layered taxonomy, empirical evaluations, and comparative experiments provides a detailed and holistic understanding of ML techniques and algorithms for identifying wafer defects. Additionally, the paper illuminates the future prospects of ML classification techniques for wafer defect identification, underscoring potential advancements and opportunities for further research in this field
翻訳日:2023-11-14 20:16:02 公開日:2023-11-12
# Dont Add, Dont Miss: 事前選択されたテキストスパンの効果的なコンテンツ保存

Dont Add, dont Miss: Effective Content Preserving Generation from Pre-Selected Text Spans ( http://arxiv.org/abs/2310.09017v2 )

ライセンス: Link先を確認
Aviv Slobodkin, Avi Caciularu, Eran Hirsch, Ido Dagan(参考訳) 最近導入されたCTRタスクは、典型的な要約スタイルのタスクの中でテキスト生成ステップを分離する。 入力テキスト(``highlights'')内の事前選択されたコンテンツに対応するコヒーレントテキストを生成するために、モデルに挑戦する。 このフレーミングにより、要約のようなタスクのモジュラリティが向上し、単一のCTRモデルとさまざまなコンテンツ選択設定とモジュールを結合することができる。 しかし、現在信頼性の高いCTRモデルは存在しないが、タスクの既存のベースラインのパフォーマンスは平凡であり、実用性に欠けている。 ここでは、コンテンツ保存制約の不適切な実施と最適銀トレーニングデータという2つの重要な制約に対処する、高品質でオープンソースのCTRモデルを導入することで、このギャップに対処する。 これらの問題に対処するため、RLと推論の両方のトレーニングにおいて、制御された復号戦略によりコンテンツ保存制約を増幅する。 さらに, GPT-4蒸留により銀のトレーニングデータ品質を大幅に改善する。 全体として、蒸留したデータセットとハイライト順守戦略を組み合わせれば、現在のベースラインを最大30ROUGE-Lポイントまで上回り、下流での信頼性の高いCTRモデルを提供する。

The recently introduced Controlled Text Reduction (CTR) task isolates the text generation step within typical summarization-style tasks. It does so by challenging models to generate coherent text conforming to pre-selected content within the input text (``highlights''). This framing enables increased modularity in summarization-like tasks, allowing to couple a single CTR model with various content-selection setups and modules. However, there are currently no reliable CTR models, while the performance of the existing baseline for the task is mediocre, falling short of practical utility. Here, we address this gap by introducing a high-quality, open-source CTR model that tackles two prior key limitations: inadequate enforcement of the content-preservation constraint, and suboptimal silver training data. Addressing these, we amplify the content-preservation constraint in both training, via RL, and inference, via a controlled decoding strategy. Further, we substantially improve the silver training data quality via GPT-4 distillation. Overall, pairing the distilled dataset with the highlight-adherence strategies yields marked gains over the current baseline, of up to 30 ROUGE-L points, providing a reliable CTR model for downstream use.
翻訳日:2023-11-14 20:14:19 公開日:2023-11-12
# 有限領域上の知識伝達の基本限界に向けて

Towards the Fundamental Limits of Knowledge Transfer over Finite Domains ( http://arxiv.org/abs/2310.07838v3 )

ライセンス: Link先を確認
Qingyue Zhao and Banghua Zhu(参考訳) 教師からのサンプル$n$ から、ラベル$\mathcal a$ よりも入力空間$\mathcal s$ の確率的学生分類器への知識伝達の統計的効率を特徴付ける。 3つの段階の特権情報が転送を加速することを示す。 第1段階では、ハードラベルを持つサンプルのみが知られており、最大確率推定器が最小値$\sqrt{{|{\mathcal s}||{\mathcal a}|}/{n}}$に達する。 第2のレベルは、サンプルラベルの教師の確率も備えており、これは${{|{\mathcal s}||{\mathcal a}|}/{n}}$ の収束率を下げる結果となる。 しかし、この第2のデータ取得プロトコルでは、クロスエントロピー損失の単純適応が最小化され、漸近的に偏りが生じる。 この制限を克服し、二乗誤差ロジット損失の新たな経験的変種を用いて基本限界を達成する。 第3レベルはさらに、サンプル入力毎に与えられた${\mathcal a}$のソフトラベル(完全ロジット)を学生に供給し、それによって学生は${|{\mathcal s}|}/{n}$の$|{\mathcal a}|$を享受することができる。 最後のケースでは、Kulback-Leibler分散最小化器が最適である。 数値シミュレーションは4人の学習者を区別し、我々の理論を裏付ける。

We characterize the statistical efficiency of knowledge transfer through $n$ samples from a teacher to a probabilistic student classifier with input space $\mathcal S$ over labels $\mathcal A$. We show that privileged information at three progressive levels accelerates the transfer. At the first level, only samples with hard labels are known, via which the maximum likelihood estimator attains the minimax rate $\sqrt{{|{\mathcal S}||{\mathcal A}|}/{n}}$. The second level has the teacher probabilities of sampled labels available in addition, which turns out to boost the convergence rate lower bound to ${{|{\mathcal S}||{\mathcal A}|}/{n}}$. However, under this second data acquisition protocol, minimizing a naive adaptation of the cross-entropy loss results in an asymptotically biased student. We overcome this limitation and achieve the fundamental limit by using a novel empirical variant of the squared error logit loss. The third level further equips the student with the soft labels (complete logits) on ${\mathcal A}$ given every sampled input, thereby provably enables the student to enjoy a rate ${|{\mathcal S}|}/{n}$ free of $|{\mathcal A}|$. We find any Kullback-Leibler divergence minimizer to be optimal in the last case. Numerical simulations distinguish the four learners and corroborate our theory.
翻訳日:2023-11-14 20:13:32 公開日:2023-11-12
# 知識グラフ上の説明可能な推薦のための忠実パス言語モデリング

Faithful Path Language Modelling for Explainable Recommendation over Knowledge Graph ( http://arxiv.org/abs/2310.16452v2 )

ライセンス: Link先を確認
Giacomo Balloccu, Ludovico Boratto, Christian Cancedda, Gianni Fenu, Mirko Marras(参考訳) 知識グラフ上の経路推論手法は、レコメンデーションシステムにおける透明性向上の可能性から人気を集めている。 しかし、結果として得られたモデルは、まだ事前学習された知識グラフの埋め込みに依存しており、推奨のためにkg内のエンティティと関係の間の相互依存を完全に活用できず、不正確な説明を生成する可能性がある。 本稿では,言語モデルによるユーザ行動と製品側知識を効率的に捉える新しいアプローチであるpealmを提案する。 我々のアプローチでは、知識グラフの埋め込みは言語モデルによってKG上の経路から直接学習され、同じ最適化空間におけるエンティティと関係を統一する。 シーケンス復号の制約により、KGに対する経路忠実性も保証される。 2つのデータセットの実験は、最先端のベースラインと比較して、我々のアプローチの有効性を示している。 ソースコードとデータセット:AVAILABLE After GETTING ACCEPTED。

Path reasoning methods over knowledge graphs have gained popularity for their potential to improve transparency in recommender systems. However, the resulting models still rely on pre-trained knowledge graph embeddings, fail to fully exploit the interdependence between entities and relations in the KG for recommendation, and may generate inaccurate explanations. In this paper, we introduce PEARLM, a novel approach that efficiently captures user behaviour and product-side knowledge through language modelling. With our approach, knowledge graph embeddings are directly learned from paths over the KG by the language model, which also unifies entities and relations in the same optimisation space. Constraints on the sequence decoding additionally guarantee path faithfulness with respect to the KG. Experiments on two datasets show the effectiveness of our approach compared to state-of-the-art baselines. Source code and datasets: AVAILABLE AFTER GETTING ACCEPTED.
翻訳日:2023-11-14 20:03:38 公開日:2023-11-12
# 顔データ最小化: プライバシーフィルターとしての浅いモデル

Facial Data Minimization: Shallow Model as Your Privacy Filter ( http://arxiv.org/abs/2310.15590v2 )

ライセンス: Link先を確認
Yuwen Pu, Jiahao Chen, Jiayu Pan, Hao li, Diqun Yan, Xuhong Zhang, Shouling Ji(参考訳) 顔認識サービスは、多くの分野で使われており、人々に多くの利便性をもたらしている。 しかし、ユーザの顔データがサービスプロバイダに送信されると、ユーザはプライベートデータのコントロールを失うことになる。 近年,顔データ漏洩によるセキュリティやプライバシの問題が数多く発生している。 多くのプライバシー保護手法が提案されているが、通常は敵の戦略や補助データにアクセスできない場合に失敗する。 そこで本稿では,顔認識サービスシステムにおいて非常に典型的な顔画像と顔特徴をアップロードする2つの事例を十分に検討し,データプライバシ最小化変換(pmt)法を提案する。 この方法は、認証サービスの浅いモデルに基づいて元の顔データを処理し、難読化データを得る。 難読化されたデータは、認可されたモデルの満足なパフォーマンスを維持し、他の許可されていないモデルのパフォーマンスを制限するだけでなく、AIメソッドや人間の視覚的盗難によって元のプライバシデータが漏洩することを防ぐ。 また,サービスプロバイダが受信したデータに対して事前処理を行うことができるため,PMTの堅牢性を向上させるための摂動法も提案する。 さらに、1つの顔画像を複数のサービスモデルに同時に認可するために、PMTのスケーラビリティを向上させるために複数の制限機構を提案する。 最後に,提案するpmtによる顔再建,データ乱用,顔属性推定攻撃に対する防御効果について,広範な実験を行い,その効果を評価した。 これらの実験結果から, PMTは顔認識精度を維持しつつ, 顔データの乱用やプライバシーの漏洩を防止できることがわかった。

Face recognition service has been used in many fields and brings much convenience to people. However, once the user's facial data is transmitted to a service provider, the user will lose control of his/her private data. In recent years, there exist various security and privacy issues due to the leakage of facial data. Although many privacy-preserving methods have been proposed, they usually fail when they are not accessible to adversaries' strategies or auxiliary data. Hence, in this paper, by fully considering two cases of uploading facial images and facial features, which are very typical in face recognition service systems, we proposed a data privacy minimization transformation (PMT) method. This method can process the original facial data based on the shallow model of authorized services to obtain the obfuscated data. The obfuscated data can not only maintain satisfactory performance on authorized models and restrict the performance on other unauthorized models but also prevent original privacy data from leaking by AI methods and human visual theft. Additionally, since a service provider may execute preprocessing operations on the received data, we also propose an enhanced perturbation method to improve the robustness of PMT. Besides, to authorize one facial image to multiple service models simultaneously, a multiple restriction mechanism is proposed to improve the scalability of PMT. Finally, we conduct extensive experiments and evaluate the effectiveness of the proposed PMT in defending against face reconstruction, data abuse, and face attribute estimation attacks. These experimental results demonstrate that PMT performs well in preventing facial data abuse and privacy leakage while maintaining face recognition accuracy.
翻訳日:2023-11-14 20:03:25 公開日:2023-11-12
# ノイズ量子チャネルとしてのLandau-Streaterチャネル

The Landau-Streater Channel as a Noisy Quantum Channel ( http://arxiv.org/abs/2310.15353v4 )

ライセンス: Link先を確認
Shayan Roofeh, Vahid Karimipour(参考訳) 3次元では、ランダウ・セプター・チャンネルはヴェルナー・ホルボ・チャンネルにすぎない。 このようなチャネルは連続パラメータを持たず、環境ノイズをモデル化することはできない。 我々は、その凸と同一性チャネルとの組合せを考え、クトリッツ上の1パラメータ雑音モデルとして適する。 さらに、Werner-Holevo チャネルは完全ユニタリ群 $SU(3)$ の下で共分散を示すが、拡張族は群 $SO(3)$ の下でのみ共分散を保持する。 この対称性の低減は、元のチャネルの様々な特性に対する影響を調べることができる。 特に, チャネルのスペクトル, 可視性, 相補的チャネル, 正確なあるいは近似的な分解性, および各種のキャパシティへの影響について検討する。 具体的には, 量子容量に対する下界と上界の確立とともに, 単発古典容量と絡み合い支援容量の解析式を導出する。

In three dimensions, the Landau-Streater channel is nothing but the Werner-Holevo channel. Such a channel has no continuous parameter and hence cannot model an environmental noise. We consider its convex combination with the identity channel, making it suitable as a one-parameter noise model on qutrits. Moreover, whereas the original Werner-Holevo channel exhibits covariance under the complete unitary group $SU(3)$, the extended family maintains covariance only under the group $SO(3)$. This symmetry reduction allows us to investigate its impact on various properties of the original channel. In particular, we examine its influence on the channel's spectrum, divisibility, complementary channel, and exact or approximate degradability, as well as its various kinds of capacities. Specifically, we derive analytical expressions for the one-shot classical capacity and the entanglement-assisted capacity, accompanied by the establishment of lower and upper bounds for the quantum capacity.
翻訳日:2023-11-14 20:03:00 公開日:2023-11-12
# 古典的学習器を用いたPKEとFHEのための量子鍵リース

Quantum Key Leasing for PKE and FHE with a Classical Lessor ( http://arxiv.org/abs/2310.14328v2 )

ライセンス: Link先を確認
Orestis Chardouvelis, Vipul Goyal, Aayush Jain, Jiahui Liu(参考訳) 本稿では,Agarwal et. al. Eurocrypt' 23, Ananth et. al. TCC' 23 としても知られるセキュアな鍵リースの問題について,前身のAnanth et. al. TCC' 23 のセキュリティ概念の強化について考察する。 アル ユーロ暗号21号。 この問題の目的は、量子情報の不可解な性質を利用して、レセプタが古典的な機能を評価するために再利用可能な量子鍵をリースできるようにすることである。 その後、レセプタは、レセプタに、確実に鍵を削除するように要求し、レセプタは、評価する能力を完全に奪われる。 本研究では、標準格子仮定から(古典的)公開鍵、準同型暗号スキームの復号鍵をリースする安全な鍵リーススキームを構築する。 プロトコル全体は、古典的な(クライアント)と量子的な(サーバ)の間の古典的なコミュニケーションのみを使用します。 ※ 標準的な仮定を仮定すると、我々のセキュリティ定義では、全ての計算上の有界量子敵は、有効な古典的削除証明書を同時に提供できず、暗号文を区別することができない。 私たちのセキュリティは、誤りを仮定して学ぶことの難しさに依存しています。 このスキームは,上記の2つの性質を満足する標準仮定に基づく最初のスキームである。

In this work, we consider the problem of secure key leasing, also known as revocable cryptography (Agarwal et. al. Eurocrypt' 23, Ananth et. al. TCC' 23), as a strengthened security notion of its predecessor put forward in Ananth et. al. Eurocrypt' 21. This problem aims to leverage unclonable nature of quantum information to allow a lessor to lease a quantum key with reusability for evaluating a classical functionality. Later, the lessor can request the lessee to provably delete the key and then the lessee will be completely deprived of the capability to evaluate. In this work, we construct a secure key leasing scheme to lease a decryption key of a (classical) public-key, homomorphic encryption scheme from standard lattice assumptions. We achieve strong form of security where: * The entire protocol uses only classical communication between a classical lessor (client) and a quantum lessee (server). * Assuming standard assumptions, our security definition ensures that every computationally bounded quantum adversary could not simultaneously provide a valid classical deletion certificate and yet distinguish ciphertexts. Our security relies on the hardness of learning with errors assumption. Our scheme is the first scheme to be based on a standard assumption and satisfying the two properties above.
翻訳日:2023-11-14 20:02:08 公開日:2023-11-12
# 幻覚性(未解答性)の疑わしい事例:過信大言語モデルにおける隠れ状態の真理を見いだす

The Curious Case of Hallucinatory (Un)answerability: Finding Truths in the Hidden States of Over-Confident Large Language Models ( http://arxiv.org/abs/2310.11877v2 )

ライセンス: Link先を確認
Aviv Slobodkin, Omer Goldman, Avi Caciularu, Ido Dagan, Shauli Ravfogel(参考訳) 大規模言語モデル(LLM)は印象的な能力を持つ一方で、応答の忠実さに関して重要な懸念を提起している。 この文脈で生じる主要な問題は、LLMによる(未解決の)問合せの管理であり、しばしば過信による幻覚的行動を引き起こす。 本稿では,(不可解な)クエリを提示した場合のllmの挙動について検討する。 私たちは、モデルが幻覚的な答えを生成するとき、質問が(理解できない)という事実を表していますか? この結果から,入力クエリの応答性を符号化したモデルが強く示唆され,最初の復号化トークンの表現が強い指標であることが示唆された。 これらの発見は、llmの潜在表現内の空間的構造に新しい光を当て、これらのモデルの未調査の面を披露した。 さらに、特にクエリ(未解答性)が懸念されるシナリオにおいて、事実生成に忠実な改良されたデコード技術を開発するための道を開いた。

Large language models (LLMs) have been shown to possess impressive capabilities, while also raising crucial concerns about the faithfulness of their responses. A primary issue arising in this context is the management of (un)answerable queries by LLMs, which often results in hallucinatory behavior due to overconfidence. In this paper, we explore the behavior of LLMs when presented with (un)answerable queries. We ask: do models represent the fact that the question is (un)answerable when generating a hallucinatory answer? Our results show strong indications that such models encode the answerability of an input query, with the representation of the first decoded token often being a strong indicator. These findings shed new light on the spatial organization within the latent representations of LLMs, unveiling previously unexplored facets of these models. Moreover, they pave the way for the development of improved decoding techniques with better adherence to factual generation, particularly in scenarios where query (un)answerability is a concern.
翻訳日:2023-11-14 19:59:54 公開日:2023-11-12
# CT画像による腎細胞癌の病理分類における不確かさ推定を用いたロバスト深層学習法

A Robust Deep Learning Method with Uncertainty Estimation for the Pathological Classification of Renal Cell Carcinoma based on CT Images ( http://arxiv.org/abs/2311.00567v2 )

ライセンス: Link先を確認
Ni Yao, Hang Hu, Kaicong Chen, Chen Zhao, Yuan Guo, Boya Li, Jiaofen Nan, Yanting Li, Chuang Han, Fubao Zhu, Weihua Zhou, Li Tian(参考訳) 目的:CT画像に基づく腎細胞癌(RCC)の病態サブタイプの術前分化を促進するため、不確実性推定を取り入れた深層学習に基づく診断モデルの開発と検証を行う。 病理学的に証明されたrcc668例の手法データをセンター1から回顧的に収集した。 5倍のクロスバリデーションを用いてRCCサブタイプをクリアセルRCC (ccRCC) , 乳頭RCC (pRCC) , クロモフォベRCC (chRCC) に分類する深層学習モデルを開発した。 センター2の78名の外的検証セットは、モデルの性能をさらに評価した。 その結果, RCC, pRCC, chRCCの分類は, それぞれ0.868 (95% CI: 0.826-0.923), 0.846 (95% CI: 0.812-0.886), 0.839 (95% CI: 0.802-0.88) であった。 外部検証セットでは, ccRCC, pRCC, chRCCはそれぞれ0.856 (95% CI: 0.838-0.882), 0.787 (95% CI: 0.757-0.818), 0.793 (95% CI: 0.758-0.831)であった。 結語 発達した深層学習モデルはRCCの病的サブタイプを予測する上で頑健な性能を示し, 包括的不確実性は, 腎腫瘍患者の臨床的意思決定を支援する上で重要な理解モデル信頼性の重要性を強調した。 臨床関連性ステートメント 深層学習アプローチは、不確実性評価と統合され、臨床医に二重の利点をもたらす: 診断信頼性基準を補完する正確なRCCサブタイプ予測、RCC患者の情報意思決定を促進する。

Objectives To develop and validate a deep learning-based diagnostic model incorporating uncertainty estimation so as to facilitate radiologists in the preoperative differentiation of the pathological subtypes of renal cell carcinoma (RCC) based on CT images. Methods Data from 668 consecutive patients, pathologically proven RCC, were retrospectively collected from Center 1. By using five-fold cross-validation, a deep learning model incorporating uncertainty estimation was developed to classify RCC subtypes into clear cell RCC (ccRCC), papillary RCC (pRCC), and chromophobe RCC (chRCC). An external validation set of 78 patients from Center 2 further evaluated the model's performance. Results In the five-fold cross-validation, the model's area under the receiver operating characteristic curve (AUC) for the classification of ccRCC, pRCC, and chRCC was 0.868 (95% CI: 0.826-0.923), 0.846 (95% CI: 0.812-0.886), and 0.839 (95% CI: 0.802-0.88), respectively. In the external validation set, the AUCs were 0.856 (95% CI: 0.838-0.882), 0.787 (95% CI: 0.757-0.818), and 0.793 (95% CI: 0.758-0.831) for ccRCC, pRCC, and chRCC, respectively. Conclusions The developed deep learning model demonstrated robust performance in predicting the pathological subtypes of RCC, while the incorporated uncertainty emphasized the importance of understanding model confidence, which is crucial for assisting clinical decision-making for patients with renal tumors. Clinical relevance statement Our deep learning approach, integrated with uncertainty estimation, offers clinicians a dual advantage: accurate RCC subtype predictions complemented by diagnostic confidence references, promoting informed decision-making for patients with RCC.
翻訳日:2023-11-14 19:51:38 公開日:2023-11-12
# ペニングトラップにおける1つの$^9$Be$^+$イオンの分解側バンド冷却

Resolved-sideband cooling of a single $^9$Be$^+$ ion in a Penning trap ( http://arxiv.org/abs/2310.18262v2 )

ライセンス: Link先を確認
Juan M. Cornejo, Johannes Brombacher, Julia A. Coenders, Moritz von Boehn, Teresa Meiners, Malte Niemann, Stefan Ulmer, Christian Ospelkaus(参考訳) 単一量子レベルで個々の閉じ込められたイオンを操作することは、高周波イオントラップの標準的な実践となり、量子情報処理から精密計測まで応用することができる。 鍵となる要素は、分解側バンドレーザー冷却による粒子の運動の基底状態冷却である。 ペニングイオントラップを用いた超高精度実験は、完全な運動制御によってもたらされる系統的誤差の低減と、原子質量や1g$-factor測定、基本定数の決定、基礎物理学の関連するテストへの応用に大きく貢献する。 さらに、高周波イオントラップにおける新しい種類の精密測定を可能にする技術である量子論理分光法の実装も可能になる。 ここでは,2光子励起ラマン過程を用いた極低温5テスラのペニングトラップ系における1つの^9$be$^+$イオンの軸運動の分解サイドバンドレーザー冷却を行い,平均フォノン数$\bar{n}_z = 0.10(4)$に達した。 これは、標準モデルのバリュニックセクタにおける物質-反物質比較テストのための量子論理分光法の実装における基本的なステップであり、量子限界で動作するペニングトラップにおける精度向上のための重要なステップである。

Manipulating individual trapped ions at the single quantum level has become standard practice in radio-frequency ion traps, enabling applications from quantum information processing to precision metrology. The key ingredient is ground-state cooling of the particle's motion through resolved-sideband laser cooling. Ultra-high-presicion experiments using Penning ion traps will greatly benefit from the reduction of systematic errors offered by full motional control, with applications to atomic masses and $g$-factor measurements, determinations of fundamental constants or related tests of fundamental physics. In addition, it will allow to implement quantum logic spectroscopy, a technique that has enabled a new class of precision measurements in radio-frequency ion traps. Here we demonstrate resolved-sideband laser cooling of the axial motion of a single $^9$Be$^+$ ion in a cryogenic 5 Tesla Penning trap system using a two-photon stimulated-Raman process, reaching a mean phonon number of $\bar{n}_z = 0.10(4)$. This is a fundamental step in the implementation of quantum logic spectroscopy for matter-antimatter comparison tests in the baryonic sector of the Standard Model and a key step towards improved precision experiments in Penning traps operating at the quantum limit.
翻訳日:2023-11-14 19:47:58 公開日:2023-11-12
# 急激な進歩の時代におけるAIリスクの管理

Managing AI Risks in an Era of Rapid Progress ( http://arxiv.org/abs/2310.17688v2 )

ライセンス: Link先を確認
Yoshua Bengio, Geoffrey Hinton, Andrew Yao, Dawn Song, Pieter Abbeel, Yuval Noah Harari, Ya-Qin Zhang, Lan Xue, Shai Shalev-Shwartz, Gillian Hadfield, Jeff Clune, Tegan Maharaj, Frank Hutter, At{\i}l{\i}m G\"une\c{s} Baydin, Sheila McIlraith, Qiqi Gao, Ashwin Acharya, David Krueger, Anca Dragan, Philip Torr, Stuart Russell, Daniel Kahneman, Jan Brauner, S\"oren Mindermann(参考訳) 本稿では,今後のAIシステムのリスクについて概説する。 我々は、大規模社会被害と悪意のある利用、および自律型AIシステムに対する人間の制御の不可逆的な喪失について検討する。 迅速かつ継続的なAI進歩を踏まえ、我々はAI研究開発とガバナンスの緊急優先事項を提案する。

In this short consensus paper, we outline risks from upcoming, advanced AI systems. We examine large-scale social harms and malicious uses, as well as an irreversible loss of human control over autonomous AI systems. In light of rapid and continuing AI progress, we propose urgent priorities for AI R&D and governance.
翻訳日:2023-11-14 19:46:42 公開日:2023-11-12
# Compute at Scale - データセンター産業の広範な調査

Compute at Scale -- A Broad Investigation into the Data Center Industry ( http://arxiv.org/abs/2311.02651v2 )

ライセンス: Link先を確認
Konstantin Pilz and Lennart Heim(参考訳) このレポートは、データセンター産業とそのAI開発における重要性を特徴づけるものである。 データセンターは大規模に効率的に計算を提供し、今日のデジタル経済のエンジンルームを構成する産業施設である。 大規模AIトレーニングと推論がますます計算コストが高くなるにつれて、これらのインフラストラクチャは、主にこの指定されたインフラストラクチャから実行されます。 データセンターの重要な機能には、大規模な冷却と大量の電力消費を必要とする大規模な計算クラスタ、データセンターとインターネットの両方で高速接続の必要性、セキュリティと信頼性の重視が含まれる。 世界の産業価値は約250億ドルで、今後7年間で倍増すると予想されている。 米国、ヨーロッパ、中国が最も重要な市場を構成しているため、全世界に約500カ所(約10MW)のデータセンターがある可能性が高い。 このレポートはさらに、重要なアクター、ビジネスモデル、主要なインプット、およびデータセンターの典型的な場所を取り上げている。

This report characterizes the data center industry and its importance for AI development. Data centers are industrial facilities that efficiently provide compute at scale and thus constitute the engine rooms of today's digital economy. As large-scale AI training and inference become increasingly computationally expensive, they are dominantly executed from this designated infrastructure. Key features of data centers include large-scale compute clusters that require extensive cooling and consume large amounts of power, the need for fast connectivity both within the data center and to the internet, and an emphasis on security and reliability. The global industry is valued at approximately $250B and is expected to double over the next seven years. There are likely about 500 large (above 10 MW) data centers globally, with the US, Europe, and China constituting the most important markets. The report further covers important actors, business models, main inputs, and typical locations of data centers.
翻訳日:2023-11-14 19:38:58 公開日:2023-11-12
# proto-lm: 大言語モデルにおける組み込み解釈性のためのネットワークベースのプロトタイプフレームワーク

Proto-lm: A Prototypical Network-Based Framework for Built-in Interpretability in Large Language Models ( http://arxiv.org/abs/2311.01732v2 )

ライセンス: Link先を確認
Sean Xie, Soroush Vosoughi and Saeed Hassanpour(参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させてきたが、解釈可能性の欠如が大きな関心事となっている。 LLMの現在の解釈法は、推論時間後に適用されるポストホックであり、低レベルの特徴や高レベルのテキストユニットでの説明可能性の欠如といった制限がある。 本稿では,ネットワークベースのホワイトボックスフレームワークであるproto-lmについて紹介する。 提案手法の適用性と解釈性は,幅広いNLPタスクの実験を通じて実証され,性能を犠牲にすることなく解釈可能なモデルを作成する新たな可能性を示す。 LLMにおける解釈可能性の新たなアプローチは、パフォーマンスを犠牲にすることなく、より解釈可能なモデルの道を開くことができる。

Large Language Models (LLMs) have significantly advanced the field of Natural Language Processing (NLP), but their lack of interpretability has been a major concern. Current methods for interpreting LLMs are post hoc, applied after inference time, and have limitations such as their focus on low-level features and lack of explainability at higher level text units. In this work, we introduce proto-lm, a prototypical network-based white-box framework that allows LLMs to learn immediately interpretable embeddings during the fine-tuning stage while maintaining competitive performance. Our method's applicability and interpretability are demonstrated through experiments on a wide range of NLP tasks, and our results indicate a new possibility of creating interpretable models without sacrificing performance. This novel approach to interpretability in LLMs can pave the way for more interpretable models without the need to sacrifice performance.
翻訳日:2023-11-14 19:37:55 公開日:2023-11-12
# AWEQ:大規模言語モデルに対するアクティベーション-ウェイト等化によるポストトレーニング量子化

AWEQ: Post-Training Quantization with Activation-Weight Equalization for Large Language Models ( http://arxiv.org/abs/2311.01305v3 )

ライセンス: Link先を確認
Baisong Li and Xingwang Wang and Haixiao Xu(参考訳) 大規模言語モデル(LLM)は様々なタスクにまたがって優れた性能を示すが、計算と記憶のコストがかなり高い。 これらのモデルを定量化することは、この問題を軽減する効果的な方法である。 しかし、既存の手法はモデル精度とハードウェア効率のバランスをとるのに苦労している。 ここで、追加のトレーニングオーバーヘッドを必要としないポストトレーニング方法であるAWEQを紹介します。 AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。 重量量子化は活性化量子化よりも難しくないという観測がある。 AWEQは、チャネル等化を用いて活性化量子化の困難さを重みに転送し、両方の量子化の困難さのバランスを達成し、性能を最大化する。 さらに, 量子化バイアス誤差を軽減し, モデルのロバスト性を確保するため, 等化法をさらに洗練した。 LLaMA や OPT のような一般的なモデルに対する大規模な実験は、AWEQ が大規模モデルに対する既存の学習後の量子化手法よりも優れていることを示した。

Large language models(LLMs) exhibit excellent performance across a variety of tasks, but they come with significant computational and storage costs. Quantizing these models is an effective way to alleviate this issue. However, existing methods struggle to strike a balance between model accuracy and hardware efficiency. This is where we introduce AWEQ, a post-training method that requires no additional training overhead. AWEQ excels in both ultra-low-bit quantization and 8-bit weight and activation (W8A8) quantization. There is an observation that weight quantization is less challenging than activation quantization. AWEQ transfers the difficulty of activation quantization to weights using channel equalization, achieving a balance between the quantization difficulties of both, and thereby maximizing performance. We have further refined the equalization method to mitigate quantization bias error, ensuring the robustness of the model. Extensive experiments on popular models such as LLaMA and OPT demonstrate that AWEQ outperforms all existing post-training quantization methods for large models.
翻訳日:2023-11-14 19:36:10 公開日:2023-11-12
# フィッシング,スパム,ハムの検出のための改良されたトランスフォーマーモデル:大規模言語モデルアプローチ

An Improved Transformer-based Model for Detecting Phishing, Spam, and Ham: A Large Language Model Approach ( http://arxiv.org/abs/2311.04913v2 )

ライセンス: Link先を確認
Suhaima Jamal and Hayden Wimmer(参考訳) フィッシングとスパム検出は長年の課題であり、多くの学術研究の対象となっている。 大規模言語モデル(LLM)は社会を変革し、確立された課題を解決するための新しい革新的なアプローチを提供する大きな可能性を秘めている。 フィッシングとスパムは、世界中のeメールユーザーに財政的な困難と時間とリソースの喪失をもたらし、ランサムウェアの脅威アクターの入り口となることが多い。 検出アプローチ、特にヒューリスティックベースのアプローチは存在するが、LSMは、この課題を理解し解決するための新たな未調査領域に参入する可能性を提供する。 LLMは、ビジネス、消費者、学界全体から急速に状況を変え、社会の可能性の変革の可能性を示している。 これに基づいて、これらの新しい革新的なアプローチを電子メール検出に適用することは、学術研究における合理的な次のステップである。 本稿では,フィッシングおよびスパムメールを特異的に検出するためにbertファミリーを微調整したモデルであるipsdmを提案する。 当社の微調整バージョンであるipsdmは、バランスのとれたデータセットとバランスのとれたデータセットの両方で、eメールをよりよく分類することができます。 この作業は、情報システムのセキュリティを改善するためにLLMを採用するための重要な第一歩として役立ちます。

Phishing and spam detection is long standing challenge that has been the subject of much academic research. Large Language Models (LLM) have vast potential to transform society and provide new and innovative approaches to solve well-established challenges. Phishing and spam have caused financial hardships and lost time and resources to email users all over the world and frequently serve as an entry point for ransomware threat actors. While detection approaches exist, especially heuristic-based approaches, LLMs offer the potential to venture into a new unexplored area for understanding and solving this challenge. LLMs have rapidly altered the landscape from business, consumers, and throughout academia and demonstrate transformational potential for the potential of society. Based on this, applying these new and innovative approaches to email detection is a rational next step in academic research. In this work, we present IPSDM, our model based on fine-tuning the BERT family of models to specifically detect phishing and spam email. We demonstrate our fine-tuned version, IPSDM, is able to better classify emails in both unbalanced and balanced datasets. This work serves as an important first step towards employing LLMs to improve the security of our information systems.
翻訳日:2023-11-14 19:26:56 公開日:2023-11-12
# 高品位スクリーニングにおける弱教師付きクロスモーダル学習

Weakly supervised cross-modal learning in high-content screening ( http://arxiv.org/abs/2311.04678v2 )

ライセンス: Link先を確認
Watkinson Gabriel and Cohen Ethan and Bourriez Nicolas and Bendidi Ihab and Bollot Guillaume and Genovesio Auguste(参考訳) さまざまなモダリティから利用可能なデータの急増に伴い、さまざまなデータタイプ間のギャップを埋める必要性が高まっている。 本研究では,創薬のための画像データと分子表現のクロスモーダル表現を学習するための新しいアプローチを提案する。 本稿では,CLIP上に構築された2つの革新的な損失関数であるEMMとIMMを提案する。 クロスモーダル検索における既知のベースラインに対するモデルの評価により,提案手法はより優れた表現の学習とバッチ効果の緩和を可能にすることを示す。 さらに,必要な空間を85Tbからわずか7Tbまで効果的に削減し,摂動や情報内容のほとんどを保持するJUMP-CPデータセットの事前処理方法を提案する。

With the surge in available data from various modalities, there is a growing need to bridge the gap between different data types. In this work, we introduce a novel approach to learn cross-modal representations between image data and molecular representations for drug discovery. We propose EMM and IMM, two innovative loss functions built on top of CLIP that leverage weak supervision and cross sites replicates in High-Content Screening. Evaluating our model against known baseline on cross-modal retrieval, we show that our proposed approach allows to learn better representations and mitigate batch effect. In addition, we also present a preprocessing method for the JUMP-CP dataset that effectively reduce the required space from 85Tb to a mere usable 7Tb size, still retaining all perturbations and most of the information content.
翻訳日:2023-11-14 19:25:36 公開日:2023-11-12
# 思考のすべて:思考生成のためのペンローズ三角形の法則の否定

Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation ( http://arxiv.org/abs/2311.04254v2 )

ライセンス: Link先を確認
Ruomeng Ding, Chaoyun Zhang, Lu Wang, Yong Xu, Minghua Ma, Wei Zhang, Si Qin, Saravan Rajmohan, Qingwei Lin and Dongmei Zhang(参考訳) 大規模言語モデル(LLM)の最近の進歩は、複雑な問題をより管理可能な言語シーケンスに分解することで、意思決定に革命をもたらした。 効果的な思考設計は、パフォーマンス、効率、柔軟性の3つの重要な観点を考慮するべきです。 しかし、現存する思想には2つの属性がある。 これらの制約に対処するため、既存の思考パラダイムの「ペンローズ三角形」の法則を無視する「思考のすべて」と呼ばれる新しい思考促進手法を導入する。 XoTは、事前訓練された強化学習とモンテカルロ木探索(MCTS)を活用して、外部のドメイン知識を思考に組み込むことにより、LLMの能力を向上し、問題の発見を効率的に一般化できるようにする。 MCTS-LLM協調思考修正フレームワークの利用により、最小限のLLM相互作用を伴う高品質な包括的認知マッピングを自律的に作成する。 さらに、XoTはLLMに制約のない思考を強制し、複数のソリューションの問題に対する柔軟な認知マッピングを可能にする。 我々は,ゲーム24,8-Puzzle,Pocket Cubeなど,難解な複数解問題に対するXoTの評価を行った。 以上の結果から,XoTは既存手法よりも大幅に優れていた。 特に、XoT は 1 つの LLM コールで複数のソリューションを生成できるため、様々な領域にまたがる複雑な問題に対処する卓越した能力を示している。

Recent advancements in Large Language Models (LLMs) have revolutionized decision-making by breaking down complex problems into more manageable language sequences referred to as ``thoughts''. An effective thought design should consider three key perspectives: performance, efficiency, and flexibility. However, existing thought can at most exhibit two of these attributes. To address these limitations, we introduce a novel thought prompting approach called ``Everything of Thoughts'' (XoT) to defy the law of ``Penrose triangle of existing thought paradigms. XoT leverages pretrained reinforcement learning and Monte Carlo Tree Search (MCTS) to incorporate external domain knowledge into thoughts, thereby enhancing LLMs' capabilities and enabling them to generalize to unseen problems efficiently. Through the utilization of the MCTS-LLM collaborative thought revision framework, this approach autonomously produces high-quality comprehensive cognitive mappings with minimal LLM interactions. Additionally, XoT empowers LLMs to engage in unconstrained thinking, allowing for flexible cognitive mappings for problems with multiple solutions. We evaluate XoT on several challenging multi-solution problem-solving tasks, including Game of 24, 8-Puzzle, and Pocket Cube. Our results demonstrate that XoT significantly outperforms existing approaches. Notably, XoT can yield multiple solutions with just one LLM call, showcasing its remarkable proficiency in addressing complex problems across diverse domains.
翻訳日:2023-11-14 19:24:15 公開日:2023-11-12
# ソフトウェアエンジニアリングデータの時間依存性を無視する。 間違いだ

Ignoring Time Dependence in Software Engineering Data. A Mistake ( http://arxiv.org/abs/2311.03114v2 )

ライセンス: Link先を確認
Mikel Robredo and Nyyti Saarimaki and Rafael Penaloza and Valentina Lenarduzzi(参考訳) 研究者はしばしば、ソフトウェアプロジェクトの歴史データから派生したさまざまな要因間のつながりを掘り下げる。 例えば、学者はこれらの要因の関連性を探究する努力を注いでいる。 しかし、これらの研究の大部分は、これらの変数間の時間的相互依存によって生じる制限と、時間的接続を伴うデータ分析に不適当な統計方法の使用に関連する潜在的なリスクを考慮できていない。 我々の目標は、現在の研究におけるデータ分析における時間依存の無視の結果を強調することです。 データ内の時間的側面を無視した時に生じる潜在的な問題を指摘し、理論と実例の両方で議論を支持した。

Researchers often delve into the connections between different factors derived from the historical data of software projects. For example, scholars have devoted their endeavors to the exploration of associations among these factors. However, a significant portion of these studies has failed to consider the limitations posed by the temporal interdependencies among these variables and the potential risks associated with the use of statistical methods ill-suited for analyzing data with temporal connections. Our goal is to highlight the consequences of neglecting time dependence during data analysis in current research. We pinpointed out certain potential problems that arise when disregarding the temporal aspect in the data, and support our argument with both theoretical and real examples.
翻訳日:2023-11-14 19:23:18 公開日:2023-11-12
# 内IoU:補助バウンディングボックスによるユニオン損失に対するより効果的なインターセクション

Inner-IoU: More Effective Intersection over Union Loss with Auxiliary Bounding Box ( http://arxiv.org/abs/2311.02877v3 )

ライセンス: Link先を確認
Hao Zhang, Cong Xu, Shuaijie Zhang(参考訳) 検出器の急速な開発に伴い、バウンディングボックス回帰(BBR)損失関数は常に更新され、最適化されている。 しかし、既存のIoUベースのBBRは、IoU損失項自体の制限を無視して、新たな損失項を追加することで収束を加速することに注力している。 理論的には、IoU損失はバウンディングボックス回帰の状態を効果的に記述できるが、実際は異なる検出器や検出タスクに従って自分自身を調整できず、強力な一般化を持たない。 以上に基づいて,まずBBRモデルを解析し,異なる回帰サンプルを識別し,異なるスケールの補助的境界ボックスを用いて損失を計算することにより,境界ボックス回帰過程を効果的に加速することができると結論付けた。 高いIoUサンプルでは、損失を計算するために小さい補助的境界ボックスを使用することで収束を加速し、大きな補助的境界ボックスは低いIoUサンプルに適している。 そこで我々は,補助的バウンディングボックスを通じてIoU損失を算出する内IoU損失を提案する。 異なるデータセットと検出器に対して、損失を計算するための補助境界ボックスのスケールサイズを制御するためのスケーリング係数比を導入する。 最後に、シミュレーションと比較実験のために既存のIoUベースの損失関数にInner-IoUを統合する。 実験の結果,本論文で提案する手法の活用により検出性能がさらに向上し,内部iou損失の有効性と一般化性が検証された。 コードはhttps://github.com/instinct323/wiouで入手できる。

With the rapid development of detectors, Bounding Box Regression (BBR) loss function has constantly updated and optimized. However, the existing IoU-based BBR still focus on accelerating convergence by adding new loss terms, ignoring the limitations of IoU loss term itself. Although theoretically IoU loss can effectively describe the state of bounding box regression,in practical applications, it cannot adjust itself according to different detectors and detection tasks, and does not have strong generalization. Based on the above, we first analyzed the BBR model and concluded that distinguishing different regression samples and using different scales of auxiliary bounding boxes to calculate losses can effectively accelerate the bounding box regression process. For high IoU samples, using smaller auxiliary bounding boxes to calculate losses can accelerate convergence, while larger auxiliary bounding boxes are suitable for low IoU samples. Then, we propose Inner-IoU loss, which calculates IoU loss through auxiliary bounding boxes. For different datasets and detectors, we introduce a scaling factor ratio to control the scale size of the auxiliary bounding boxes for calculating losses. Finally, integrate Inner-IoU into the existing IoU-based loss functions for simulation and comparative experiments. The experiment result demonstrate a further enhancement in detection performance with the utilization of the method proposed in this paper, verifying the effectiveness and generalization ability of Inner-IoU loss. Code is available at https://github.com/Instinct323/wiou.
翻訳日:2023-11-14 19:22:25 公開日:2023-11-12
# MathNAS: ブロックに数学的アーキテクチャ設計の役割があるなら

MathNAS: If Blocks Have a Role in Mathematical Architecture Design ( http://arxiv.org/abs/2311.04943v2 )

ライセンス: Link先を確認
Wang Qinsi and Ke Jinghan and Liang Zhi and Zhang Sihai(参考訳) ニューラルネットワーク探索(NAS)は、効果的なニューラルネットワークの探索方法として好まれている。 近年,大規模モデルの開発により,検索速度の向上と検索結果の精度向上が求められている。 しかし,NASによる大規模モデルの設計は,検索空間の劇的な増加とそれに伴う膨大な性能評価コストのために困難である。 NASで広く使われている典型的なモジュラー検索空間を考えると、ニューラルネットワークは$m$ブロックノードで構成され、ブロックノードは$n$代替ブロックを持つ。 Facing the space containing $n^m$ candidate networks, existing NAS methods attempt to find the best one by searching and evaluating candidate networks directly.Different from the general strategy that takes architecture search as a whole problem, we propose a novel divide-and-conquer strategy by making use of the modular nature of the search space.Here, we introduce MathNAS, a general NAS framework based on mathematical programming.In MathNAS, the performances of the $m*n$ possible building blocks in the search space are calculated first, and then the performance of a network is directly predicted based on the performances of its building blocks. ブロック性能の推定にはネットワークトレーニングが伴うが、既存のNAS手法でネットワーク性能評価が起こっているように、ネットワーク性能の予測は完全にトレーニング不要であり、非常に高速である。 既存のNAS手法で評価する$n^m$の候補ネットワークとは対照的に、MathNASではトレーニングと計算負荷が厳しいため、扱えるブロックはわずか$m*n$である。 したがって、このアプローチはネットワーク性能評価の複雑さを効果的に低減します。

Neural Architecture Search (NAS) has emerged as a favoured method for unearthing effective neural architectures. Recent development of large models has intensified the demand for faster search speeds and more accurate search results. However, designing large models by NAS is challenging due to the dramatical increase of search space and the associated huge performance evaluation cost. Consider a typical modular search space widely used in NAS, in which a neural architecture consists of $m$ block nodes and a block node has $n$ alternative blocks. Facing the space containing $n^m$ candidate networks, existing NAS methods attempt to find the best one by searching and evaluating candidate networks directly.Different from the general strategy that takes architecture search as a whole problem, we propose a novel divide-and-conquer strategy by making use of the modular nature of the search space.Here, we introduce MathNAS, a general NAS framework based on mathematical programming.In MathNAS, the performances of the $m*n$ possible building blocks in the search space are calculated first, and then the performance of a network is directly predicted based on the performances of its building blocks. Although estimating block performances involves network training, just as what happens for network performance evaluation in existing NAS methods, predicting network performance is completely training-free and thus extremely fast. In contrast to the $n^m$ candidate networks to evaluate in existing NAS methods, which require training and a formidable computational burden, there are only $m*n$ possible blocks to handle in MathNAS. Therefore, our approach effectively reduces the complexity of network performance evaluation.Our code is available at https://github.com/wangqinsi1/MathNAS.
翻訳日:2023-11-14 19:09:24 公開日:2023-11-12
# DeepQC:土壌水分センサ時系列データの自動品質管理のためのディープラーニングシステム

DeepQC: A Deep Learning System for Automatic Quality Control of In-situ Soil Moisture Sensor Time Series Data ( http://arxiv.org/abs/2311.06735v1 )

ライセンス: Link先を確認
Lahari Bandaru, Bharat C Irigireddy, Brian Davis(参考訳) 気候の変化の中で、リアルタイムの土壌水分モニタリングは、農家が天候関連リスクを管理するためのシーズン内意思決定支援ツールの開発に不可欠である。 精密持続可能な農業(PSA)は、最近、中央、中西部、東部にリアルタイムの土壌水分モニタリングネットワークを構築したが、フィールドスケールのセンサー観測は、しばしばデータギャップと異常を伴う。 意思決定ツールの開発に必要なデータ品質を維持するためには,品質管理システムが必要である。 国際土壌水分ネットワーク(ISMN)は、土壌水分観測における異常検出のためのフラジットモジュールを導入した。 しかし、一定の条件下では、フラジットの品質制御アプローチは異常を識別するには不十分である。 近年,様々な分野における時系列データの異常検出に深層学習が成功している。 しかし、農業における利用については未だ調査されていない。 本研究では,土壌水分データ中の異常を識別するための双方向長短期記憶(LSTM)モデルであるDeepQCの開発に焦点をあてる。 手動フラグ付きPSA観測は、80:10:10分割後のトレーニング、検証、テストに使用された。 調査では、DeepQCとFragitベースの見積もりを比較して、相対的なパフォーマンスを評価した。 フラジットは修正された観測の95.5%と異常な観測の50.3%を修正した。 一方、DeepQCは正確な観測の99.7%と異常の95.6%をかなり少ない時間で正確にフラグ付けし、フラジット法よりも優れていることを示した。 重要なことに、DeepQCのパフォーマンスは異常の数に関わらず一貫していた。 DeepQCで得られた有望な成果を踏まえると、将来の研究は、このモデルを全国的およびグローバルな土壌水分ネットワークに実装することに集中する。

Amidst changing climate, real-time soil moisture monitoring is vital for the development of in-season decision support tools to help farmers manage weather related risks. Precision Sustainable Agriculture (PSA) recently established a real-time soil moisture monitoring network across the central, Midwest, and eastern U.S., but field-scale sensor observations often come with data gaps and anomalies. To maintain the data quality needed for development of decision tools, a quality control system is necessary. The International Soil Moisture Network (ISMN) introduced the Flagit module for anomaly detection in soil moisture observations. However, under certain conditions, Flagit's quality control approaches may underperform in identifying anomalies. Recently deep learning methods have been successfully applied to detect anomalies in time series data in various disciplines. However, their use in agriculture has not been yet investigated. This study focuses on developing a Bi-directional Long Short-Term Memory (LSTM) model, referred to as DeepQC, to identify anomalies in soil moisture data. Manual flagged PSA observations were used for training, validation, and testing the model, following an 80:10:10 split. The study then compared the DeepQC and Flagit based estimates to assess their relative performance. Flagit corrected flagged 95.5% of the corrected observations and 50.3% of the anomaly observations, indicating its limitations in identifying anomalies. On the other hand, the DeepQC correctly flagged 99.7% of the correct observations and 95.6% of the anomalies in significantly less time, demonstrating its superiority over Flagit approach. Importantly, DeepQC's performance remained consistent regardless of the number of anomalies. Given the promising results obtained with the DeepQC, future studies will focus on implementing this model on national and global soil moisture networks.
翻訳日:2023-11-14 17:23:01 公開日:2023-11-12
# 伝達可能性指標を用いた強化学習のための利点に基づく政策伝達アルゴリズム

An advantage based policy transfer algorithm for reinforcement learning with metrics of transferability ( http://arxiv.org/abs/2311.06731v1 )

ライセンス: Link先を確認
Md Ferdous Alam, Parinaz Naghizadeh, David Hoelzle(参考訳) 強化学習(RL)は、新しい状態-作用対の獲得が効率的である場合、例えば環境との相互作用が安価である場合に、複雑な環境と高次元環境におけるシーケンシャルな意思決定を可能にする。 しかし、多くの相互作用が実現不可能である現実世界のアプリケーションには無数のものがある。 これらの環境では、1つまたは複数のソース環境から対象環境への知識伝達に使用できる転送RLアルゴリズムが学習速度を向上し、初期および漸近的性能を向上させることが示されている。 しかしながら、既存の転送RLアルゴリズムの多くは、オン・ポリティとサンプル非効率であり、しばしばアルゴリズム設計においてヒューリスティックな選択を必要とする。 本稿では,固定ドメイン環境に対するオフポリシーアドバンテージに基づくポリシー転送アルゴリズムapt-rlを提案する。 その新しさは、'advantage'という一般的な概念を正規化として使用して、ターゲットで学んだ新しい知識と比較して、ソースから転送すべき知識を重み付け、ヒューリスティックな選択の必要性をなくすことにある。 さらに,提案アルゴリズムの性能を評価し,既存の転送RLフレームワークを統合するための新しい転送性能指標を提案する。 最後に,提案する伝達可能性指標と対象環境間の類似性との関係を説明するために,スケーラブルで理論的に支援されたタスク類似度測定アルゴリズムを提案する。 3つの連続制御ベンチマークタスクに関する数値実験では、APT-RLは既存のトランスファーRLアルゴリズムよりも優れており、スクラッチから学習するよりも10\%から75\%のサンプリング効率が高いことが示されている。

Reinforcement learning (RL) can enable sequential decision-making in complex and high-dimensional environments if the acquisition of a new state-action pair is efficient, i.e., when interaction with the environment is inexpensive. However, there are a myriad of real-world applications in which a high number of interactions are infeasible. In these environments, transfer RL algorithms, which can be used for the transfer of knowledge from one or multiple source environments to a target environment, have been shown to increase learning speed and improve initial and asymptotic performance. However, most existing transfer RL algorithms are on-policy and sample inefficient, and often require heuristic choices in algorithm design. This paper proposes an off-policy Advantage-based Policy Transfer algorithm, APT-RL, for fixed domain environments. Its novelty is in using the popular notion of ``advantage'' as a regularizer, to weigh the knowledge that should be transferred from the source, relative to new knowledge learned in the target, removing the need for heuristic choices. Further, we propose a new transfer performance metric to evaluate the performance of our algorithm and unify existing transfer RL frameworks. Finally, we present a scalable, theoretically-backed task similarity measurement algorithm to illustrate the alignments between our proposed transferability metric and similarities between source and target environments. Numerical experiments on three continuous control benchmark tasks demonstrate that APT-RL outperforms existing transfer RL algorithms on most tasks, and is $10\%$ to $75\%$ more sample efficient than learning from scratch.
翻訳日:2023-11-14 17:22:31 公開日:2023-11-12
# ソーシャル・メディア・談話における語彙と感情の相補的オントロジー

Comprehending Lexical and Affective Ontologies in the Demographically Diverse Spatial Social Media Discourse ( http://arxiv.org/abs/2311.06729v1 )

ライセンス: Link先を確認
Salim Sazzed(参考訳) 本研究は, 英語スタイル, 伝達感情, 語彙の多様性など, 言語的・社会的なデコグラフィー的特徴を理解することを目的とする。 そこで,本研究では,異なる2つのグループから構成されたレビューを精査するケーススタディを行った。 本分析では,これら2つのグループから統計的,文法的,感情的特徴を抽出・検討する。 次に、これらの特徴を機械学習(ML)分類器で活用し、グループ間の効果的な差別化の可能性を明らかにする。 本研究は,2つのグループ間の言語特性の相違について明らかにした。 ML分類器に統合されると、これらの属性はグループを区別する上で顕著な有効性を示し、マクロF1スコアは約0.85である。 さらに,これらの言語的特徴と単語 n-gram に基づく語彙的特徴を比較検討し,分類学的に多様なレビューデータを見分ける。 予想通り、n-gramの語彙特徴と微調整されたトランスフォーマーベースのモデルは優れた性能を示し、95\%を超え、マクロF1スコアは0.96を超えた。 我々は,人口統計学的に多様なレビューデータを効果的に識別する上で,言語的特徴と感情的特徴の有効性を検証した。 本研究は,様々なソーシャルメディアプラットフォームにおけるテキストコンテンツの人口パターン分析に関する今後の研究に有用なガイドラインを提供する。

This study aims to comprehend linguistic and socio-demographic features, encompassing English language styles, conveyed sentiments, and lexical diversity within spatial online social media review data. To this end, we undertake a case study that scrutinizes reviews composed by two distinct and demographically diverse groups. Our analysis entails the extraction and examination of various statistical, grammatical, and sentimental features from these two groups. Subsequently, we leverage these features with machine learning (ML) classifiers to discern their potential in effectively differentiating between the groups. Our investigation unveils substantial disparities in certain linguistic attributes between the two groups. When integrated into ML classifiers, these attributes exhibit a marked efficacy in distinguishing the groups, yielding a macro F1 score of approximately 0.85. Furthermore, we conduct a comparative evaluation of these linguistic features with word n-gram-based lexical features in discerning demographically diverse review data. As expected, the n-gram lexical features, coupled with fine-tuned transformer-based models, show superior performance, attaining accuracies surpassing 95\% and macro F1 scores exceeding 0.96. Our meticulous analysis and comprehensive evaluations substantiate the efficacy of linguistic and sentimental features in effectively discerning demographically diverse review data. The findings of this study provide valuable guidelines for future research endeavors concerning the analysis of demographic patterns in textual content across various social media platforms.
翻訳日:2023-11-14 17:22:03 公開日:2023-11-12
# 制御可能なトピック指向抽象要約

Controllable Topic-Focused Abstractive Summarization ( http://arxiv.org/abs/2311.06724v1 )

ライセンス: Link先を確認
Seyed Ali Bahrainian, Martin Jaggi, Carsten Eickhoff(参考訳) 制御された抽象要約は、生成したテキストの分布を所望のスタイル(例えばトピックのセット)にシフトすることで、特定の側面をカバーするソース記事の凝縮バージョンの作成に焦点を当てている。 その後、結果の要約はユーザー定義の要件に合わせることができる。 本稿では,トピック指向の要約を生成可能な新しいトランスフォーマティブアーキテクチャを提案する。 アーキテクチャはトランスフォーマのクロスアテンション機構を修正し、モデルにこれ以上パラメータを追加せずに、生成プロセスにトピックフォーカス制御をもたらす。 提案モデルでは,トピックに着目した抽象的な要約やトピック・プレバレンススコアの観点から,NEWTSデータセット上に新たな技術状況を設定する。 さらに,提案手法をbartやt5といった様々なトランスフォーマーモデルに適用し,cnn/dailymail や xsum ベンチマークデータセットの性能を改善し,抽象的要約を行うことができることを示す。 これは、スクラッチからトレーニングを必要とせずに、微調整によって達成される。 最後に、人間の評価を通して、我々のモデルは最先端のフロストモデルよりも忠実な要約を生成することを示す。

Controlled abstractive summarization focuses on producing condensed versions of a source article to cover specific aspects by shifting the distribution of generated text towards a desired style, e.g., a set of topics. Subsequently, the resulting summaries may be tailored to user-defined requirements. This paper presents a new Transformer-based architecture capable of producing topic-focused summaries. The architecture modifies the cross-attention mechanism of the Transformer to bring topic-focus control to the generation process while not adding any further parameters to the model. We show that our model sets a new state of the art on the NEWTS dataset in terms of topic-focused abstractive summarization as well as a topic-prevalence score. Moreover, we show via extensive experiments that our proposed topical cross-attention mechanism can be plugged into various Transformer models, such as BART and T5, improving their performance on the CNN/Dailymail and XSum benchmark datasets for abstractive summarization. This is achieved via fine-tuning, without requiring training from scratch. Finally, we show through human evaluation that our model generates more faithful summaries outperforming the state-of-the-art Frost model.
翻訳日:2023-11-14 17:21:42 公開日:2023-11-12
# Cappy: 小型スコーラによる大規模マルチタスクLMの性能向上

Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer ( http://arxiv.org/abs/2311.06720v1 )

ライセンス: Link先を確認
Bowen Tan, Yun Zhu, Lijuan Liu, Eric Xing, Zhiting Hu, Jindong Chen(参考訳) T0, FLAN, OPT-IMLといった大規模言語モデル(LLM)は、統一的な命令追従パラダイムの下でマルチタスクで優れており、未確認タスクに対して顕著な一般化能力を示す。 優れた性能にもかかわらず、これらのLSMは数十億から数十億のパラメータを持ち、かなりの計算資源を必要とするため、トレーニングと推論は高価で非効率である。 さらに、これらのモデルを下流のアプリケーション、特に複雑なタスクに適応させることは、プロンプトチューニングのようなパラメータ効率の良いアプローチを利用する場合でも、ファインタニングのハードウェア要件が広いため、しばしば実現不可能である。 さらに opt-iml-175b や flan-palm-540b など、最も強力なマルチタスクllm は、公開されていない。 これらの課題に対処するために,マルチタスク LLM の性能と効率を向上させるために,事前訓練された小型スコアラ Cappy を導入する。 3360万のパラメータを持つcappyは、分類タスクとは独立に機能するか、llmの補助コンポーネントとして機能し、パフォーマンスを向上させる。 さらに、CappyはLLMの微調整やパラメータへのアクセスを必要とせずに、下流の監視を効率的に統合できる。 我々の実験では、PromptSourceから11の言語理解タスクを独立に行う場合、Cappyは数桁のLLMよりも優れています。 加えて、BIG-Benchの45の複雑なタスクにおいて、Cappyは高度なマルチタスクLLMであるFLAN-T5の性能を大幅に向上させる。 さらにCappyは、微調整やコンテキスト内学習など、他のLLM適応と連携する柔軟性があり、さらなるパフォーマンス向上を提供する。

Large language models (LLMs) such as T0, FLAN, and OPT-IML, excel in multi-tasking under a unified instruction-following paradigm, where they also exhibit remarkable generalization abilities to unseen tasks. Despite their impressive performance, these LLMs, with sizes ranging from several billion to hundreds of billions of parameters, demand substantial computational resources, making their training and inference expensive and inefficient. Furthermore, adapting these models to downstream applications, particularly complex tasks, is often unfeasible due to the extensive hardware requirements for finetuning, even when utilizing parameter-efficient approaches such as prompt tuning. Additionally, the most powerful multi-task LLMs, such as OPT-IML-175B and FLAN-PaLM-540B, are not publicly accessible, severely limiting their customization potential. To address these challenges, we introduce a pretrained small scorer, Cappy, designed to enhance the performance and efficiency of multi-task LLMs. With merely 360 million parameters, Cappy functions either independently on classification tasks or serve as an auxiliary component for LLMs, boosting their performance. Moreover, Cappy enables efficiently integrating downstream supervision without requiring LLM finetuning nor the access to their parameters. Our experiments demonstrate that, when working independently on 11 language understanding tasks from PromptSource, Cappy outperforms LLMs that are several orders of magnitude larger. Besides, on 45 complex tasks from BIG-Bench, Cappy boosts the performance of the advanced multi-task LLM, FLAN-T5, by a large margin. Furthermore, Cappy is flexible to cooperate with other LLM adaptations, including finetuning and in-context learning, offering additional performance enhancement.
翻訳日:2023-11-14 17:21:24 公開日:2023-11-12
# 創造領域におけるユーザ生成テキストの人気に影響を与える要因は何か? 書評の事例研究

What factors influence the popularity of user-generated text in the creative domain? A case study of book reviews ( http://arxiv.org/abs/2311.06714v1 )

ライセンス: Link先を確認
Salim Sazzed(参考訳) 本研究は,本書レビューの心理学的,語彙的,意味的,可読性的特徴を調査し,その人気感の要因を明らかにする。 この目的を達成するために,意見のタイプや頻度,感情満足語,コネクティブ,キャラクタ言及,単語の特異性,共通性,文構造など,さまざまな特徴を統計的に分析する。 さらに,2つの可読性テストを用いて,読みやすさとレビュー人気との関連性を検討した。 最後に,従来の機械学習分類器と,n-gram機能を備えた変換言語モデルを用いて,レビューの人気を自動的に判定する。 以上の結果から,いくつかの特徴(例えば,レビューの長さ,感情,単語の独特性)を除いて,ほとんどの属性は,人気レビューグループと非人気レビューグループの間に有意な差異を示さないことが示唆された。 さらに、n-gramという単語を用いた機械学習分類器の性能の低さは、クリエイティブドメインの人気決定に関わる課題を強調している。 総じて,本研究はレビュー人気の背景となる要因について考察し,特に創造的領域におけるさらなる研究の必要性を強調した。

This study investigates a range of psychological, lexical, semantic, and readability features of book reviews to elucidate the factors underlying their perceived popularity. To this end, we conduct statistical analyses of various features, including the types and frequency of opinion and emotion-conveying terms, connectives, character mentions, word uniqueness, commonness, and sentence structure, among others. Additionally, we utilize two readability tests to explore whether reading ease is positively associated with review popularity. Finally, we employ traditional machine learning classifiers and transformer-based fine-tuned language models with n-gram features to automatically determine review popularity. Our findings indicate that, with the exception of a few features (e.g., review length, emotions, and word uniqueness), most attributes do not exhibit significant differences between popular and non-popular review groups. Furthermore, the poor performance of machine learning classifiers using the word n-gram feature highlights the challenges associated with determining popularity in creative domains. Overall, our study provides insights into the factors underlying review popularity and highlights the need for further research in this area, particularly in the creative realm.
翻訳日:2023-11-14 17:20:35 公開日:2023-11-12
# 反応T5:限定反応データの適用に向けた大規模事前学習モデル

ReactionT5: a large-scale pre-trained model towards application of limited reaction data ( http://arxiv.org/abs/2311.06708v1 )

ライセンス: Link先を確認
Tatsuya Sagawa and Ryosuke Kojima(参考訳) トランスフォーマーベースのディープニューラルネットワークは、分子を記号配列として扱うことによって、分子関連予測タスクの分野に革命をもたらした。 これらのモデルは、幅広い複合ライブラリで事前訓練し、その後、特定のタスクのためにより小さな内部データセットで微調整することで、様々な有機化学応用に成功している。 しかし、多くの従来の方法は主に単一分子に焦点を当てており、複数の分子を含む反応の事前訓練は限られていた。 本稿では,公開可能な大規模リソースであるオープンリアクションデータベース(ord)の事前トレーニングを活用した,新しいモデルであるreactiont5を提案する。 このモデルを収率予測と製品予測タスク用に微調整し,従来のモデルと比較して微調整データが少ない場合でもその印象的な性能を示す。 事前訓練されたReactionT5モデルは、Hugging Faceプラットフォーム上で公開されている。

Transformer-based deep neural networks have revolutionized the field of molecular-related prediction tasks by treating molecules as symbolic sequences. These models have been successfully applied in various organic chemical applications by pretraining them with extensive compound libraries and subsequently fine-tuning them with smaller in-house datasets for specific tasks. However, many conventional methods primarily focus on single molecules, with limited exploration of pretraining for reactions involving multiple molecules. In this paper, we propose ReactionT5, a novel model that leverages pretraining on the Open Reaction Database (ORD), a publicly available large-scale resource. We further fine-tune this model for yield prediction and product prediction tasks, demonstrating its impressive performance even with limited fine-tuning data compared to traditional models. The pre-trained ReactionT5 model is publicly accessible on the Hugging Face platform.
翻訳日:2023-11-14 17:19:56 公開日:2023-11-12
# 転校学習によるcovid-19検出モデルへの患者こぎりのインクリメンタル付加による検出

Transfer Learning to Detect COVID-19 Coughs with Incremental Addition of Patient Coughs to Healthy People's Cough Detection Models ( http://arxiv.org/abs/2311.06707v1 )

ライセンス: Link先を確認
Sudip Vhaduri, Seungyeon Paik, and Jessica E Huber(参考訳) 新型コロナウイルスで世界中で何百万人もの人が死亡した。 死者数の増加に加えて、covid-19は個人にとって耐え難い苦痛をもたらし、医療業界に大きな世界的な負担となっている。 そこで研究者たちは、この人体感染性疾患の症状を遠隔で検出し、その急速な拡散を抑えるツールを開発しようとしている。 coughingは、スマートフォンのマイクセンシングから客観的に検出しようとしている一般的な症状の1つだ。 干ばつ症状の検出と追跡のアプローチのほとんどは、大量の患者データから開発された機械学習モデルに依存しているが、アウトブレイクの初期段階では不可能である。 そこで本研究では,本研究は,健康な人のせきとcovid-19患者のせきとの間の関係を利用して,事前訓練した健康なせき検出モデルと比較的少ない患者いきを用いて,適切な精度で検出するインクリメンタル・トランスファー・ラーニング・アプローチを提案する。 このタイプのモデルは、新規な呼吸器ウイルスの発症を検出するゲームチェンジャーとなる。

Millions of people have died worldwide from COVID-19. In addition to its high death toll, COVID-19 has led to unbearable suffering for individuals and a huge global burden to the healthcare sector. Therefore, researchers have been trying to develop tools to detect symptoms of this human-transmissible disease remotely to control its rapid spread. Coughing is one of the common symptoms that researchers have been trying to detect objectively from smartphone microphone-sensing. While most of the approaches to detect and track cough symptoms rely on machine learning models developed from a large amount of patient data, this is not possible at the early stage of an outbreak. In this work, we present an incremental transfer learning approach that leverages the relationship between healthy peoples' coughs and COVID-19 patients' coughs to detect COVID-19 coughs with reasonable accuracy using a pre-trained healthy cough detection model and a relatively small set of patient coughs, reducing the need for large patient dataset to train the model. This type of model can be a game changer in detecting the onset of a novel respiratory virus.
翻訳日:2023-11-14 17:19:34 公開日:2023-11-12
# 人間中心AIの実現:方法論的視点

Enabling Human-Centered AI: A Methodological Perspective ( http://arxiv.org/abs/2311.06703v1 )

ライセンス: Link先を確認
Wei Xu, Zaifeng Gao(参考訳) 人間中心AI(Human-centered AI, HCAI)は、インテリジェントシステムの設計、開発、デプロイにおいて人間を優先させることを提唱する設計哲学である。 HCAIは影響を受け続けているが、方法論に関するガイダンスの欠如は、その採用を困難にしている。 本稿では,設計目標,設計原則,実装アプローチ,学際チーム,HCAIメソッド,HCAIプロセスなど,従来の統合コンポーネントを用いた総合的なHCAIフレームワークを提案する。 本稿では,フレームワークの実装を容易にする"3層"アプローチを提案する。 この体系的で実行可能なフレームワークは、現在のHCAIフレームワークの弱点と、現在実際に直面している課題を克服できると考えています。

Human-centered AI (HCAI) is a design philosophy that advocates prioritizing humans in designing, developing, and deploying intelligent systems, aiming to maximize the benefits of AI to humans and avoid potential adverse impacts. While HCAI continues to influence, the lack of guidance on methodology in practice makes its adoption challenging. This paper proposes a comprehensive HCAI framework based on our previous work with integrated components, including design goals, design principles, implementation approaches, interdisciplinary teams, HCAI methods, and HCAI processes. This paper also presents a "three-layer" approach to facilitate the implementation of the framework. We believe this systematic and executable framework can overcome the weaknesses in current HCAI frameworks and the challenges currently faced in practice, putting it into action to enable HCAI further.
翻訳日:2023-11-14 17:18:57 公開日:2023-11-12
# マルコフモデルを用いたB型肝炎ウイルスゲノムの検討

An Investigation of Hepatitis B Virus Genome using Markov Models ( http://arxiv.org/abs/2311.06699v1 )

ライセンス: Link先を確認
Khadijeh (Hoda) Jahanian, Elnaz Shalbafian, Morteza Saberi, Roohallah Alizadehsani, Iman Dehzangi(参考訳) ヒトゲノムはAPOBEC3 (apolipoprotein B mRNA editing enzyme, Catalyst polypeptide-like 3)として知られる編集酵素のファミリーをコードする。 APO-BEC3G、APOBEC3F、APOBEC3H haplotype IIなどの家族はHIVなどのウイルスに対して活性を示す。 これらの酵素はウイルスゲノムの負の鎖にC-to-U変異を誘導し、複数のG-to-A変異をもたらす。 例えば、apobec3gはgg、tgg、tgggコンテキスト内でgを優先的に変異させ、他のメンバーはga、tga、tgaaコンテキスト内でgを変異させる。 しかし、これらの酵素とHBVに関して、同じ配列の文脈は研究されていない。 本研究の目的は,HBVゲノム中のAPOBEC3酵素の変異足跡を同定することである。 そこで本研究では,APOBEC3酵素による変異のモチーフ選好と潜在的配列階層を,様々な自然感染患者からの全ゲノムHBV配列を用いて解析するために多変量データ解析手法を用いた。 このアプローチにより,モノトテトラヌクレオチドモチーフの表現に基づいて,正規配列と過変化配列を区別できる。 さらに,HBVゲノム中の異なるAPOBEC3酵素によって誘導される過剰変異に関連するモチーフを同定することを目的とする。 解析の結果,APOBEC3酵素はHBVに対して活性がないか,あるいはこれらの酵素によるG-to-A変異の誘導はHBVゲノムの配列に依存しないことがわかった。

The human genome encodes a family of editing enzymes known as APOBEC3 (apolipoprotein B mRNA editing enzyme, catalytic polypeptide-like 3). Several family members, such as APO-BEC3G, APOBEC3F, and APOBEC3H haplotype II, exhibit activity against viruses such as HIV. These enzymes induce C-to-U mutations in the negative strand of viral genomes, resulting in multiple G-to-A changes, commonly referred to as 'hypermutation.' Mutations catalyzed by these enzymes are sequence context-dependent in the HIV genome; for instance, APOBEC3G preferen-tially mutates G within GG, TGG, and TGGG contexts, while other members mutate G within GA, TGA, and TGAA contexts. However, the same sequence context has not been explored in relation to these enzymes and HBV. In this study, our objective is to identify the mutational footprint of APOBEC3 enzymes in the HBV genome. To achieve this, we employ a multivariable data analytics technique to investigate motif preferences and potential sequence hierarchies of mutation by APOBEC3 enzymes using full genome HBV sequences from a diverse range of naturally infected patients. This approach allows us to distinguish between normal and hypermutated sequences based on the representation of mono- to tetra-nucleotide motifs. Additionally, we aim to identify motifs associated with hypermutation induced by different APOBEC3 enzymes in HBV genomes. Our analyses reveal that either APOBEC3 enzymes are not active against HBV, or the induction of G-to-A mutations by these enzymes is not sequence context-dependent in the HBV genome.
翻訳日:2023-11-14 17:18:23 公開日:2023-11-12
# 大規模言語モデルにおける信頼できるソースアライメント

Trusted Source Alignment in Large Language Models ( http://arxiv.org/abs/2311.06697v1 )

ライセンス: Link先を確認
Vasilisa Bashlovkina, Zhaobin Kuang, Riley Matthews, Edward Clifford, Yennie Jun, William W. Cohen, Simon Baumgartner(参考訳) 大規模言語モデル(LLM)は、様々な信頼性のソースから必然的に矛盾する事実情報を含むWebスケールコーパスで訓練される。 本稿では,信頼ソースアライメント(trusted source alignment, tsa)と呼ばれるllm特性を測定することを提案する。 本稿では,事実チェック記事のコーパスに基づくTSA評価データセットであるFactCheckQAを提案する。 本稿では,tsaを簡易に評価するためのプロトコルについて述べるとともに,応答抽出,クレームコンテキスト化,バイアスといった設計上の考慮事項の詳細な分析を行う。 このプロトコルをpalm-2に適用すると、モデルサイズをスケールアップすることで、factcheckqaのモデルパフォーマンスがほぼランダムから最大80%のバランスの取れた精度に向上することがわかった。

Large language models (LLMs) are trained on web-scale corpora that inevitably include contradictory factual information from sources of varying reliability. In this paper, we propose measuring an LLM property called trusted source alignment (TSA): the model's propensity to align with content produced by trusted publishers in the face of uncertainty or controversy. We present FactCheckQA, a TSA evaluation dataset based on a corpus of fact checking articles. We describe a simple protocol for evaluating TSA and offer a detailed analysis of design considerations including response extraction, claim contextualization, and bias in prompt formulation. Applying the protocol to PaLM-2, we find that as we scale up the model size, the model performance on FactCheckQA improves from near-random to up to 80% balanced accuracy in aligning with trusted sources.
翻訳日:2023-11-14 17:17:23 公開日:2023-11-12
# 翻訳のための単純かつ効果的な入力再構成

Simple and Effective Input Reformulations for Translation ( http://arxiv.org/abs/2311.06696v1 )

ライセンス: Link先を確認
Brian Yu and Hansen Lillemark and Kurt Keutzer(参考訳) 基礎言語モデルは、入力コンテキストの微調整から異なる方法で学習する。 本稿では, 翻訳課題に対する微調整中の入力を再構成し, 下流性能向上のための新しい手法による事前学習からモデルの強みを生かした。 これらの修正は単純なデータレベルの修正であり、追加のトレーニングデータや推論時のデータの修正を必要としない。 それらは単一の言語ペア翻訳タスクや多言語翻訳タスクにも適用できる。 これらのテクニックによる実験は、Flores200の翻訳ベンチマークで$\textbf{3.5 chrF++までの大幅なパフォーマンス向上を示している。 われわれの研究はデータの微調整効率を向上し、より効果的なトレーニングにより、最先端のパフォーマンスを向上できることを期待している。 私たちのコードは $\href{https://github.com/bri25yu/LanguageModelExperimentation}{here} でリリースされています。 $

Foundation language models learn from their finetuning input context in different ways. In this paper, we reformulate inputs during finetuning for challenging translation tasks, leveraging model strengths from pretraining in novel ways to improve downstream performance. These reformulations are simple data level modifications, require no additional collection of training data or modification of data at inference time. They can be applied either on single language pair translation tasks or massively multilingual translation tasks. Experiments with these techniques demonstrate significant performance improvements up to $\textbf{3.5 chrF++ on the Flores200 translation benchmark}$. We hope our research accessibly improves finetuning data efficiency, enabling more effective training to scalably improve state-of-the-art performance. Our code is released $\href{https://github.com/bri25yu/LanguageModelExperimentation}{here}.$
翻訳日:2023-11-14 17:17:06 公開日:2023-11-12
# Conversational Data Exploration: データサイエンスパイプラインを設計するためのゲームチェンジャー

Conversational Data Exploration: A Game-Changer for Designing Data Science Pipelines ( http://arxiv.org/abs/2311.06695v1 )

ライセンス: Link先を確認
Genoveva Vargas-Solar, Tania Cerquitelli, Javier A. Espinosa-Oviedo, Fran\c{c}ois Cheval, Anthelme Buchaille, Luca Polgar(参考訳) 本稿では,直感的なデータ探索体験を駆動するためのシステムChatinによる対話型アプローチを提案する。 我々の研究は、データ分析と人工知能の可能性を、新しい世代のデータサイエンスソリューションで解き放つことを目的としています。 Chatinは、AI駆動ソリューションへのアクセスを民主化する最先端のツールで、さまざまな分野の非技術ユーザに対して、データの探索と知識の抽出を可能にする。

This paper proposes a conversational approach implemented by the system Chatin for driving an intuitive data exploration experience. Our work aims to unlock the full potential of data analytics and artificial intelligence with a new generation of data science solutions. Chatin is a cutting-edge tool that democratises access to AI-driven solutions, empowering non-technical users from various disciplines to explore data and extract knowledge from it.
翻訳日:2023-11-14 17:16:53 公開日:2023-11-12
# 比較多視点言語グラウンドング

Comparative Multi-View Language Grounding ( http://arxiv.org/abs/2311.06694v1 )

ライセンス: Link先を確認
Chancharik Mitra, Abrar Anwar, Rodolfo Corona, Dan Klein, Jesse Thomason(参考訳) 本研究では,比較言語記述が与えられた場合,対象参照を解消する作業について考察する。 本稿では,複数の画像ビューと言語記述が与えられたオブジェクトを現実的に解析するために,トランスフォーマーを活用するマルチビュー・コンテクスト(MAGiC)を提案する。 参照コンテキストを完全に考慮せずに視覚と言語を接続しようとする過去の取り組みとは対照的に、MAGiCはオブジェクト参照候補と参照言語表現の両方の複数のビューを共同で推論することで比較情報を利用する。 本稿では,比較推論がsnareオブジェクト参照タスクにおけるsoma性能に寄与することを示す分析を行う。

In this work, we consider the task of resolving object referents when given a comparative language description. We present a Multi-view Approach to Grounding in Context (MAGiC) that leverages transformers to pragmatically reason over both objects given multiple image views and a language description. In contrast to past efforts that attempt to connect vision and language for this task without fully considering the resulting referential context, MAGiC makes use of the comparative information by jointly reasoning over multiple views of both object referent candidates and the referring language expression. We present an analysis demonstrating that comparative reasoning contributes to SOTA performance on the SNARE object reference task.
翻訳日:2023-11-14 17:16:46 公開日:2023-11-12
# 逆行訓練によるグローバル最適化言語構造学習

Learning Globally Optimized Language Structure via Adversarial Training ( http://arxiv.org/abs/2311.06771v1 )

ライセンス: Link先を確認
Xuwang Yin(参考訳) 最近の研究は、自動回帰言語モデルとエネルギーベースモデル(EBM)を統合することで、テキスト生成能力を向上している。 しかし,テキストに対する効果的なEMMの学習は,言語の性質の相違により困難である。 本研究は,事前の努力の限界に対処する対人訓練戦略を提案する。 具体的には、自己回帰モデルからテキストを摂動させることでebmを訓練するための負のサンプルを生成する反復逆攻撃アルゴリズムを提案する。 これは、ebmがデータ分散のサポートの外のスプリアスモードを抑制することを目的としている。 算術シーケンス生成タスクにおける実験により,提案手法は,従来の手法と比較して,生成シーケンスの品質を大幅に向上できることを示す。 その結果,個別のEMM訓練を改善するための対人的手法の約束が浮き彫りになった。 主な貢献は,(1)負のサンプルを生成するためにテキストに適した敵攻撃戦略,(2)これらの攻撃を利用するEMMに対する敵訓練アルゴリズム,(3)シーケンス生成タスクにおけるパフォーマンス改善の実証的検証である。

Recent work has explored integrating autoregressive language models with energy-based models (EBMs) to enhance text generation capabilities. However, learning effective EBMs for text is challenged by the discrete nature of language. This work proposes an adversarial training strategy to address limitations in prior efforts. Specifically, an iterative adversarial attack algorithm is presented to generate negative samples for training the EBM by perturbing text from the autoregressive model. This aims to enable the EBM to suppress spurious modes outside the support of the data distribution. Experiments on an arithmetic sequence generation task demonstrate that the proposed adversarial training approach can substantially enhance the quality of generated sequences compared to prior methods. The results highlight the promise of adversarial techniques to improve discrete EBM training. Key contributions include: (1) an adversarial attack strategy tailored to text to generate negative samples, circumventing MCMC limitations; (2) an adversarial training algorithm for EBMs leveraging these attacks; (3) empirical validation of performance improvements on a sequence generation task.
翻訳日:2023-11-14 17:08:58 公開日:2023-11-12
# ロバスト不変集合の分解による予測安全フィルタの学習

Learning Predictive Safety Filter via Decomposition of Robust Invariant Set ( http://arxiv.org/abs/2311.06769v1 )

ライセンス: Link先を確認
Zeyang Li, Chuxiong Hu, Weiye Zhao, Changliu Liu(参考訳) モデル不確実性と外乱の下での非線形システムの安全性確保は特に実世界の制御タスクにおいて重要である。 堅牢なモデル予測制御(RMPC)のような予測手法では、非凸最適化問題をオンラインで解く必要があり、高い計算負担とスケーラビリティの低下につながる。 強化学習(RL)は複雑なシステムでうまく機能するが、厳格な安全保証を失う費用を支払う。 本稿では, rmpc と rl の双方の利点を橋渡し, 状態依存及び動作依存の不確実性を有する非線形システムの安全フィルタを合成する理論的枠組みを提案する。 我々は、ロバスト不変集合(RIS)をRMPCの終端領域設計と整合するターゲット集合と、RISの残りの部分を占めるリーチエイド集合の2つの部分に分解する。 本稿では,強固な到達回避問題に対するポリシー反復手法を提案し,その単調収束性を確立する。 本手法は、到達回避ポリシーネットワーク、外乱ポリシーネットワーク、到達回避値ネットワークを同時に合成する、敵対的アクター批判深層rlアルゴリズムのステージを設定する。 学習したリーチ・アビドポリシーネットワークを使用して、オンライン検証のための名目上のトラジェクトリを生成し、最悪のケース障害を適用した場合にシステムを安全でない領域に誘導する可能性のある、潜在的に安全でないアクションをフィルタリングする。 我々は,システムレベル合成を用いたオンライン検証のための2次コーンプログラミング(SOCP)アプローチを定式化し,任意の軌道の最悪の到達回避値に最適化する。 提案する安全フィルタは, rmpcよりも計算複雑性がはるかに低く, 持続的な堅牢な安全性保証を享受できる。 本手法の有効性を数値例で示す。

Ensuring safety of nonlinear systems under model uncertainty and external disturbances is crucial, especially for real-world control tasks. Predictive methods such as robust model predictive control (RMPC) require solving nonconvex optimization problems online, which leads to high computational burden and poor scalability. Reinforcement learning (RL) works well with complex systems, but pays the price of losing rigorous safety guarantee. This paper presents a theoretical framework that bridges the advantages of both RMPC and RL to synthesize safety filters for nonlinear systems with state- and action-dependent uncertainty. We decompose the robust invariant set (RIS) into two parts: a target set that aligns with terminal region design of RMPC, and a reach-avoid set that accounts for the rest of RIS. We propose a policy iteration approach for robust reach-avoid problems and establish its monotone convergence. This method sets the stage for an adversarial actor-critic deep RL algorithm, which simultaneously synthesizes a reach-avoid policy network, a disturbance policy network, and a reach-avoid value network. The learned reach-avoid policy network is utilized to generate nominal trajectories for online verification, which filters potentially unsafe actions that may drive the system into unsafe regions when worst-case disturbances are applied. We formulate a second-order cone programming (SOCP) approach for online verification using system level synthesis, which optimizes for the worst-case reach-avoid value of any possible trajectories. The proposed safety filter requires much lower computational complexity than RMPC and still enjoys persistent robust safety guarantee. The effectiveness of our method is illustrated through a numerical example.
翻訳日:2023-11-14 17:08:41 公開日:2023-11-12
# ドメイン自然言語理解のための知識強化文脈言語表現法

Learning Knowledge-Enhanced Contextual Language Representations for Domain Natural Language Understanding ( http://arxiv.org/abs/2311.06761v1 )

ライセンス: Link先を確認
Ruyao Xu, Taolin Zhang, Chengyu Wang, Zhongjie Duan, Cen Chen, Minghui Qiu, Dawei Cheng, Xiaofeng He, Weining Qian(参考訳) 知識強化事前学習言語モデル(KEPLM)は、大規模知識グラフ(KG)から知識事実を注入することにより、様々な下流NLPタスクの性能を向上させる。 しかし, 既存のKEPLMの事前学習手法は, 十分なドメイングラフのセマンティクスが欠如しているため, 閉領域に適応することが困難である。 本稿では,エンティティ間の暗黙のグラフ構造を捉えることにより,様々な閉じたドメイン(kangaroo)に対する知識強化型言語表現学習フレームワークを提案する。 Specifically, since the entity coverage rates of closed-domain KGs can be relatively low and may exhibit the global sparsity phenomenon for knowledge injection, we consider not only the shallow relational representations of triples but also the hyperbolic embeddings of deep hierarchical entity-class structures for effective knowledge fusion.Moreover, as two closed-domain entities under the same entity-class often have locally dense neighbor subgraphs counted by max point biconnected component, we further propose a data augmentation strategy based on contrastive learning over subgraphs to construct hard negative samples of higher quality. これにより、KELPMはこれらの隣接するエンティティのセマンティクスをよりよく区別し、グローバルなセマンティクスの疎結合をさらに補完する。 実験では,各種知識認識タスクと一般NLPタスクをフルおよび少数ショットの学習設定で評価し,クローズドドメインにおける様々なKEPLM訓練パラダイムのパフォーマンスを著しく向上させた。

Knowledge-Enhanced Pre-trained Language Models (KEPLMs) improve the performance of various downstream NLP tasks by injecting knowledge facts from large-scale Knowledge Graphs (KGs). However, existing methods for pre-training KEPLMs with relational triples are difficult to be adapted to close domains due to the lack of sufficient domain graph semantics. In this paper, we propose a Knowledge-enhanced lANGuAge Representation learning framework for various clOsed dOmains (KANGAROO) via capturing the implicit graph structure among the entities. Specifically, since the entity coverage rates of closed-domain KGs can be relatively low and may exhibit the global sparsity phenomenon for knowledge injection, we consider not only the shallow relational representations of triples but also the hyperbolic embeddings of deep hierarchical entity-class structures for effective knowledge fusion.Moreover, as two closed-domain entities under the same entity-class often have locally dense neighbor subgraphs counted by max point biconnected component, we further propose a data augmentation strategy based on contrastive learning over subgraphs to construct hard negative samples of higher quality. It makes the underlying KELPMs better distinguish the semantics of these neighboring entities to further complement the global semantic sparsity. In the experiments, we evaluate KANGAROO over various knowledge-aware and general NLP tasks in both full and few-shot learning settings, outperforming various KEPLM training paradigms performance in closed-domains significantly.
翻訳日:2023-11-14 17:08:11 公開日:2023-11-12
# GALA-n:IBM量子コンピュータにおけるコスト効果実現のためのレイアウト対応nビット量子演算子の汎用アーキテクチャ

GALA-n: Generic Architecture of Layout-Aware n-Bit Quantum Operators for Cost-Effective Realization on IBM Quantum Computers ( http://arxiv.org/abs/2311.06760v1 )

ライセンス: Link先を確認
A. Al-Bayaty, M. Perkowski(参考訳) n >= 3 である IBM 量子コンピュータのレイアウトと n 近傍の物理量子ビット数に基づいて,n ビット量子演算子の汎用的アーキテクチャを提案する。 このアーキテクチャは「GALA-n量子演算子」と呼ばれる。 GALA-n量子演算子は、IBMネイティブゲート(X、X、RZ、CNOTの平方根)の回転量子演算の視覚的表現から、ブロッホ球の視覚的アプローチを用いて設計されている。 そこで,本研究では,ネイティブゲートの総数,SWAPゲートの総数,最終的な量子回路の深さを計算し,量子コストの新たな式を提案する。 この公式は「トランスパイル量子コスト」と呼ばれる。 伝送後,提案したGALA-n量子演算子は,費用のかかるnビットトフォリゲートを主成分とする従来のnビット量子演算子よりも低い伝送量子コストを持つ。

A generic architecture of n-bit quantum operators is proposed for cost-effective transpilation, based on the layouts and the number of n neighbor physical qubits for IBM quantum computers, where n >= 3. This proposed architecture is termed "GALA-n quantum operator". The GALA-n quantum operator is designed using the visual approach of the Bloch sphere, from the visual representations of the rotational quantum operations for IBM native gates (square root of X, X, RZ, and CNOT). In this paper, we also proposed a new formula for the quantum cost, which calculates the total numbers of native gates, SWAP gates, and the depth of the final transpiled quantum circuits. This formula is termed the "transpilation quantum cost". After transpilation, our proposed GALA-n quantum operator always has a lower transpilation quantum cost than that of conventional n-bit quantum operators, which are mainly constructed from costly n-bit Toffoli gates.
翻訳日:2023-11-14 17:07:48 公開日:2023-11-12
# 共有・指導・調整:言語間機械読解理解のための知識伝達学習

Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension ( http://arxiv.org/abs/2311.06758v1 )

ライセンス: Link先を確認
Tingfeng Cao, Chengyu Wang, Chuanqi Tan, Jun Huang, Jinhui Zhu(参考訳) 言語間理解において、機械翻訳は、ソース言語からターゲットへのトレーニングデータを翻訳するか、あるいは推論を支援するためにターゲットからソースへ変換することによって、言語間のモデルの転送性を高めるためにしばしば用いられる。 しかし, 言語間機械読解(MRC)では, 異なる言語における解答幅の変動のため, 言語間移動の促進に深い支援を行うことは困難である。 本稿では,言語間MRCの新しいアプローチであるX-STAを提案する。 具体的には、注意深い教師を用いて、ソース言語の回答範囲をターゲットの回答出力空間に微妙に転送する。 クロスアテンションブロックを改良したグラディエント距離知識共有手法を提案する。 さらに,複数の粒度から意味的アライメントを学習させ,教師指導によるモデル出力の校正を行い,言語間伝達性を高める。 3つの多言語MRCデータセットを用いた実験により,本手法の有効性が示された。

In cross-lingual language understanding, machine translation is often utilized to enhance the transferability of models across languages, either by translating the training data from the source language to the target, or from the target to the source to aid inference. However, in cross-lingual machine reading comprehension (MRC), it is difficult to perform a deep level of assistance to enhance cross-lingual transfer because of the variation of answer span positions in different languages. In this paper, we propose X-STA, a new approach for cross-lingual MRC. Specifically, we leverage an attentive teacher to subtly transfer the answer spans of the source language to the answer output space of the target. A Gradient-Disentangled Knowledge Sharing technique is proposed as an improved cross-attention block. In addition, we force the model to learn semantic alignments from multiple granularities and calibrate the model outputs with teacher guidance to enhance cross-lingual transferability. Experiments on three multi-lingual MRC datasets show the effectiveness of our method, outperforming state-of-the-art approaches.
翻訳日:2023-11-14 17:07:29 公開日:2023-11-12
# Moreau Envelopeを用いたADMMによる個人化フェデレーション学習

Personalized Federated Learning via ADMM with Moreau Envelope ( http://arxiv.org/abs/2311.06756v1 )

ライセンス: Link先を確認
Shengkun Zhu, Jinshan Zeng, Sheng Wang, Yuan Sun, Zhiyong Peng(参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)は異種データに対する収束性の低い問題に対処する手法である。 しかし、既存のほとんどのPFLフレームワークは収束に強い仮定を必要とする。 本稿では, 勾配リプシッツ連続性の比較的弱い仮定に頼って, サブ線形収束率を実現するモローエンベロープ(FLAME)を用いたPFLモデルの学習用乗算器(ADMM)の交互方向法を提案する。 さらに、ADMMの勾配のない性質のため、FLAMEはハイパーパラメータチューニングの必要性を軽減し、特にグローバルモデルをトレーニングする際の学習率の調整を避ける。 さらに,PFLモデルの学習の収束を早めるため,バイアスのあるクライアント選択戦略を提案する。 我々の理論解析は, 偏りのないクライアント選択戦略と偏りのないクライアント選択戦略の両方の下でグローバル収束を確立する。 私たちの実験では、異種データでトレーニングされた場合、モデル性能の点で最先端のメソッドを上回っています。 通信効率に関しては、ベースラインに比べて平均速度が3.75倍である。 さらに,偏りのあるクライアント選択戦略がパーソナライズモデルとグローバルモデルの収束を早めることを確認した。

Personalized federated learning (PFL) is an approach proposed to address the issue of poor convergence on heterogeneous data. However, most existing PFL frameworks require strong assumptions for convergence. In this paper, we propose an alternating direction method of multipliers (ADMM) for training PFL models with Moreau envelope (FLAME), which achieves a sublinear convergence rate, relying on the relatively weak assumption of gradient Lipschitz continuity. Moreover, due to the gradient-free nature of ADMM, FLAME alleviates the need for hyperparameter tuning, particularly in avoiding the adjustment of the learning rate when training the global model. In addition, we propose a biased client selection strategy to expedite the convergence of training of PFL models. Our theoretical analysis establishes the global convergence under both unbiased and biased client selection strategies. Our experiments validate that FLAME, when trained on heterogeneous data, outperforms state-of-the-art methods in terms of model performance. Regarding communication efficiency, it exhibits an average speedup of 3.75x compared to the baselines. Furthermore, experimental results validate that the biased client selection strategy speeds up the convergence of both personalized and global models.
翻訳日:2023-11-14 17:07:11 公開日:2023-11-12
# 複雑から単純へ:小さな言語モデルによる推論のための認知木を解く

From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models ( http://arxiv.org/abs/2311.06754v1 )

ライセンス: Link先を確認
Junbing Yan, Chengyu Wang, Taolin Zhang, Xiaofeng He, Jun Huang, Wei Zhang(参考訳) 推論は人間特有の能力であり、それらを一連の管理可能な認知ステップに分割することで複雑な問題に対処できる。 しかし、複雑な論理的推論は言語モデルではいまだに困難である。 認知科学における二重プロセス理論に基づいて、私たちは言語モデルの認知的推論能力を初めて解明する。 本フレームワークはコグニティブツリー(cogtree)を構築するために反復的手法を用いる。 このツリーのルートノードは最初のクエリを表し、リーフノードは直接答えられる簡単な質問で構成されています。 この構成には、暗黙的抽出モジュール(直観的システムと呼ばれる)と明示的推論モジュール(反射システムと呼ばれる)の2つの主要コンポーネントが含まれる。 直観的なシステムは文脈内サンプルを用いて複数の応答を迅速に生成し、反射システムは比較学習を用いてこれらの応答をスコア付けする。 スコアは、その後の生成ステップにおいて直感的なシステムを導く。 GPT-3.5 の 5% 未満のパラメータ (=7B) を含む言語モデルを用いて, GPT-3.5 に匹敵する性能レベルを達成することができることを示す。

Reasoning is a distinctive human capacity, enabling us to address complex problems by breaking them down into a series of manageable cognitive steps. Yet, complex logical reasoning is still cumbersome for language models. Based on the dual process theory in cognitive science, we are the first to unravel the cognitive reasoning abilities of language models. Our framework employs an iterative methodology to construct a Cognitive Tree (CogTree). The root node of this tree represents the initial query, while the leaf nodes consist of straightforward questions that can be answered directly. This construction involves two main components: the implicit extraction module (referred to as the intuitive system) and the explicit reasoning module (referred to as the reflective system). The intuitive system rapidly generates multiple responses by utilizing in-context examples, while the reflective system scores these responses using comparative learning. The scores guide the intuitive system in its subsequent generation step. Our experimental results on two popular and challenging reasoning tasks indicate that it is possible to achieve a performance level comparable to that of GPT-3.5 (with 175B parameters), using a significantly smaller language model that contains fewer parameters (<=7B) than 5% of GPT-3.5.
翻訳日:2023-11-14 17:06:50 公開日:2023-11-12
# 非ペアデータを用いた大規模言語モデルの汎用音声能力の実現に向けて

Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data ( http://arxiv.org/abs/2311.06753v1 )

ライセンス: Link先を確認
Yassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer(参考訳) そこで本研究では,多岐にわたるllm能力を維持しつつ,エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型llama-2モデルを拡張した。 提案モデルでは,音声プロンプトをテキストの代替として活用し,会話を維持することができる。 このようなモデルは、他の多くのクローズドおよびオープンドメインタスクで音声質問応答、音声翻訳、音声要約を実行できるような、拡張されたクロスモーダル機能を備えている。 これは、限られた数の事前定義されたタスクのために、llmがオーディオを扱うように拡張される、以前の音声のアプローチと異なります。 実験により、我々のエンドツーエンドアプローチは、プロンプトに対する応答をモデル化する上で、カスケードシステム(音声認識器+LLM)に匹敵する、あるいは優れることを示した。 さらに, カスケードと異なり, 本手法では, テキストと音声のモダリティを交換し, 会話における事前の文脈を利用して, より良い結果を提供する能力を示す。

In this work, we extend the instruction-tuned Llama-2 model with end-to-end general-purpose speech processing and reasoning abilities while maintaining the wide range of LLM capabilities, without using any carefully curated paired data. The proposed model can utilize audio prompts as a replacement for text and sustain a conversation. Such a model also has extended cross-modal capabilities such as being able to perform speech question answering, speech translation, and audio summarization amongst many other closed and open-domain tasks. This is unlike prior approaches in speech, in which LLMs are extended to handle audio for a limited number of pre-designated tasks. Experiments show that our end-to-end approach is on par with or outperforms a cascaded system (speech recognizer + LLM) in terms of modeling the response to a prompt. Furthermore, unlike a cascade, our approach shows the ability to interchange text and audio modalities and utilize the prior context in a conversation to provide better results.
翻訳日:2023-11-14 17:06:30 公開日:2023-11-12
# beautifulprompt:テキストから画像への合成のための自動プロンプトエンジニアリング

BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis ( http://arxiv.org/abs/2311.06752v1 )

ライセンス: Link先を確認
Tingfeng Cao, Chengyu Wang, Bingyan Liu, Ziheng Wu, Jinhui Zhu, Jun Huang(参考訳) 近年、拡散に基づく深層生成モデル(例えば、安定拡散)は、テキスト・画像合成において顕著な結果を示している。 しかし、現在のテキストから画像へのモデルは、現実世界のアプリケーションで満足のいく結果を生み出すために、人間によるプロンプトエンジニアリングの複数のパスを必要とすることが多い。 beautifulpromptは、非常に単純な生記述から高品質なプロンプトを生成するための深層生成モデルであり、拡散ベースのモデルによりより美しい画像を生成することができる。 私たちの研究で最初にbeautifulpromptモデルを、低品質で高品質な収集プロンプトペアに微調整しました。 次に、生成したプロンプトがより美しい画像を生成することを保証するため、生成したプロンプトの報酬値を最大化するために、Visual AI Feedback技術を用いた強化学習を提案し、PickScoreとAesthetic Scoresに基づいて報酬値を計算した。 その結果,視覚的なAIフィードバックから学習することで,生成したプロンプトや画像の品質を大幅に向上する可能性が示唆された。 さらに、クラウドネイティブなAIプラットフォームにBeautifulPromptを統合することで、より優れたテキスト-画像生成サービスをクラウドに提供しています。

Recently, diffusion-based deep generative models (e.g., Stable Diffusion) have shown impressive results in text-to-image synthesis. However, current text-to-image models often require multiple passes of prompt engineering by humans in order to produce satisfactory results for real-world applications. We propose BeautifulPrompt, a deep generative model to produce high-quality prompts from very simple raw descriptions, which enables diffusion-based models to generate more beautiful images. In our work, we first fine-tuned the BeautifulPrompt model over low-quality and high-quality collecting prompt pairs. Then, to ensure that our generated prompts can generate more beautiful images, we further propose a Reinforcement Learning with Visual AI Feedback technique to fine-tune our model to maximize the reward values of the generated prompts, where the reward values are calculated based on the PickScore and the Aesthetic Scores. Our results demonstrate that learning from visual AI feedback promises the potential to improve the quality of generated prompts and images significantly. We further showcase the integration of BeautifulPrompt to a cloud-native AI platform to provide better text-to-image generation service in the cloud.
翻訳日:2023-11-14 17:06:12 公開日:2023-11-12
# 一般化、堅牢性、公平性のための連合学習:調査とベンチマーク

Federated Learning for Generalization, Robustness, Fairness: A Survey and Benchmark ( http://arxiv.org/abs/2311.06750v1 )

ライセンス: Link先を確認
Wenke Huang, Mang Ye, Zekun Shi, Guancheng Wan, He Li, Bo Du, Qiang Yang(参考訳) 連合学習は、異なる当事者間のプライバシー保護コラボレーションの有望なパラダイムとして現れてきた。 近年,連合学習の普及に伴い,様々な現実的な課題にアプローチが流入している。 本研究では,連合学習研究の重要かつ最近の展開を体系的に概観する。 まず,この領域の歴史と用語の定義を紹介する。 次に,それぞれの背景概念,タスク設定,主な課題を紹介することで,一般化,堅牢性,公平性という3つの基本的な研究を総合的にレビューする。 また,提案手法とデータセットについて,代表文献の詳細な概要を述べる。 我々はさらに、いくつかのよく知られたデータセットでレビューされたメソッドをベンチマークする。 最後に、この分野のいくつかのオープンな問題を指摘し、さらなる研究の機会を提案する。 私たちはまた、この速い進歩の分野での開発を継続的に追跡するパブリックウェブサイトも提供しています。

Federated learning has emerged as a promising paradigm for privacy-preserving collaboration among different parties. Recently, with the popularity of federated learning, an influx of approaches have delivered towards different realistic challenges. In this survey, we provide a systematic overview of the important and recent developments of research on federated learning. Firstly, we introduce the study history and terminology definition of this area. Then, we comprehensively review three basic lines of research: generalization, robustness, and fairness, by introducing their respective background concepts, task settings, and main challenges. We also offer a detailed overview of representative literature on both methods and datasets. We further benchmark the reviewed methods on several well-known datasets. Finally, we point out several open issues in this field and suggest opportunities for further research. We also provide a public website to continuously track developments in this fast advancing field: https://github.com/WenkeHuang/MarsFL.
翻訳日:2023-11-14 17:05:49 公開日:2023-11-12
# Aggregate, Decompose, Fine-Tune: 視覚変換器の簡易かつ効果的な因子調整法

Aggregate, Decompose, and Fine-Tune: A Simple Yet Effective Factor-Tuning Method for Vision Transformer ( http://arxiv.org/abs/2311.06749v1 )

ライセンス: Link先を確認
Dongping Chen(参考訳) 近年の進歩は、視覚変換器(ViT)の文脈において、LoRAやFacTのようなテンソル化分解パラメータ効率の高い微調整法の有効性を照らしている。 しかし,これらの手法は,層内および層間冗長性に不適切な対処を行うという課題に対処する。 この問題に対処するために,簡易かつ効果的な微調整手法である effective factor-tuning (efft) を導入する。 VTAB-1Kデータセット内では、EFFTはすべてのベースラインを超え、トップ1の精度で75.9%、フル微調整のパラメータの0.28%で最先端のパフォーマンスを達成した。 EFFTの単純さと有効性を考えると、基礎ベンチマークとして機能する可能性を秘めている。 コードとモデルはhttps://github.com/Dongping-Chen/EFFT-EFfective-Factor-Tuningで公開されている。

Recent advancements have illuminated the efficacy of some tensorization-decomposition Parameter-Efficient Fine-Tuning methods like LoRA and FacT in the context of Vision Transformers (ViT). However, these methods grapple with the challenges of inadequately addressing inner- and cross-layer redundancy. To tackle this issue, we introduce EFfective Factor-Tuning (EFFT), a simple yet effective fine-tuning method. Within the VTAB-1K dataset, our EFFT surpasses all baselines, attaining state-of-the-art performance with a categorical average of 75.9% in top-1 accuracy with only 0.28% of the parameters for full fine-tuning. Considering the simplicity and efficacy of EFFT, it holds the potential to serve as a foundational benchmark. The code and model are now available at https://github.com/Dongping-Chen/EFFT-EFfective-Factor-Tuning.
翻訳日:2023-11-14 17:05:35 公開日:2023-11-12
# ミニマル・ノーム・シャロー・デノイザは関数空間でどのように見えるか?

How do Minimum-Norm Shallow Denoisers Look in Function Space? ( http://arxiv.org/abs/2311.06748v1 )

ライセンス: Link先を確認
Chen Zeno, Greg Ongie, Yaniv Blumenfeld, Nir Weinberger, Daniel Soudry(参考訳) ニューラルネットワーク(NN)デノイザは、画像再構成から画像生成まで、多くの共通タスクにおいて必須のビルディングブロックである。 しかし、これらのモデルの成功は理論的観点からはよく理解されていない。 本稿では,浅いReLU NNデノイザによって実現される関数を,最小表現コスト(最小の$\ell^2$標準重み)で補間(ゼロトレーニング損失)の一般的な理論的設定で特徴付けることを目的とする。 まず、単変量データに対して、NNデノイザ関数の閉形式を導出し、クリーンなデータ点に対して収縮的であることを確認し、低雑音レベルにおける経験的MMSE推定器よりも優れた一般化を証明した。 次に,低次元部分空間に含まれるデータ,片側線合体に含まれるデータ,あるいはいくつかの種類の単純なデータといった,トレーニングデータ上の幾何的仮定の下で,NNデノイザ関数を閉じた形で発見する。 これらの関数は、エッジや/またはトレーニングサンプルを接続する面と整列した単純なランクワンの線形補間の和に分解される。 我々はこのアライメント現象を合成データと実画像で実証的に検証する。

Neural network (NN) denoisers are an essential building block in many common tasks, ranging from image reconstruction to image generation. However, the success of these models is not well understood from a theoretical perspective. In this paper, we aim to characterize the functions realized by shallow ReLU NN denoisers -- in the common theoretical setting of interpolation (i.e., zero training loss) with a minimal representation cost (i.e., minimal $\ell^2$ norm weights). First, for univariate data, we derive a closed form for the NN denoiser function, find it is contractive toward the clean data points, and prove it generalizes better than the empirical MMSE estimator at a low noise level. Next, for multivariate data, we find the NN denoiser functions in a closed form under various geometric assumptions on the training data: data contained in a low-dimensional subspace, data contained in a union of one-sided rays, or several types of simplexes. These functions decompose into a sum of simple rank-one piecewise linear interpolations aligned with edges and/or faces connecting training samples. We empirically verify this alignment phenomenon on synthetic data and real images.
翻訳日:2023-11-14 17:05:20 公開日:2023-11-12
# グラフ埋め込みに関する2つのストリームシーン理解

Two Stream Scene Understanding on Graph Embedding ( http://arxiv.org/abs/2311.06746v1 )

ライセンス: Link先を確認
Wenkai Yang, Wenyuan Sun, Runxaing Huang(参考訳) 本稿では,コンピュータビジョンにおけるシーン理解を強化するための2ストリームネットワークアーキテクチャを提案する。 このアーキテクチャは、グラフ特徴ストリームと画像特徴ストリームを利用し、画像分類とシーングラフ生成タスクのパフォーマンスを改善するために両方のモダリティの強みを融合することを目的としている。 グラフ特徴ストリームネットワークは、セグメンテーション構造、シーングラフ生成、およびグラフ表現モジュールを含む。 セグメンテーション構造は、残差ネットワーク、vit、swinトランスフォーマであるバックボーンを備えたupsnetアーキテクチャを採用している。 シーングラフ生成コンポーネントは、セマンティックマップからオブジェクトラベルと近隣関係を抽出してシーングラフを作成することに焦点を当てる。 Graph Convolutional Networks (GCN)、GraphSAGE、Graph Attention Networks (GAT)はグラフ表現に使われ、ノードの特徴と相互接続のキャプチャに重点を置いている。 一方、画像特徴ストリームネットワークは、視覚トランスフォーマーとスウィントランスモデルを用いて画像分類に焦点を当てている。 2つのストリームは様々なデータ融合方式で融合される。 この融合は, ade20kデータセット上で行った実験により, 従来の手法と比較して画像分類精度を向上させるための2ストリームネットワークの有効性を実証するものである。 この研究は、特にシーン理解と画像分類の分野で、グラフベースのアプローチと画像ベースのアプローチを効果的に組み合わせることで、コンピュータビジョンの分野に重要な貢献をする。

The paper presents a novel two-stream network architecture for enhancing scene understanding in computer vision. This architecture utilizes a graph feature stream and an image feature stream, aiming to merge the strengths of both modalities for improved performance in image classification and scene graph generation tasks. The graph feature stream network comprises a segmentation structure, scene graph generation, and a graph representation module. The segmentation structure employs the UPSNet architecture with a backbone that can be a residual network, Vit, or Swin Transformer. The scene graph generation component focuses on extracting object labels and neighborhood relationships from the semantic map to create a scene graph. Graph Convolutional Networks (GCN), GraphSAGE, and Graph Attention Networks (GAT) are employed for graph representation, with an emphasis on capturing node features and their interconnections. The image feature stream network, on the other hand, focuses on image classification through the use of Vision Transformer and Swin Transformer models. The two streams are fused using various data fusion methods. This fusion is designed to leverage the complementary strengths of graph-based and image-based features.Experiments conducted on the ADE20K dataset demonstrate the effectiveness of the proposed two-stream network in improving image classification accuracy compared to conventional methods. This research provides a significant contribution to the field of computer vision, particularly in the areas of scene understanding and image classification, by effectively combining graph-based and image-based approaches.
翻訳日:2023-11-14 17:04:57 公開日:2023-11-12
# 大規模視覚言語モデルを用いたマルチモーダルミームにおけるヘイトスピーチの検出と修正

Detecting and Correcting Hate Speech in Multimodal Memes with Large Visual Language Model ( http://arxiv.org/abs/2311.06737v1 )

ライセンス: Link先を確認
Minh-Hao Van, Xintao Wu(参考訳) 近年,大規模言語モデル (LLM) が自然言語処理において注目されている。 さらに、視覚にllmsを統合することで、ユーザはマルチモダリティにおけるより創発的な能力を探求できる。 LLaVA、Flamingo、GPT-4などの視覚言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。 その結果、ソーシャルメディアプラットフォームで使用可能な巨大なモデルには膨大な応用がある。 しかしながら、VLMによる憎しみのあるミームの検出や修正には、関連する作業が欠如している。 本研究では,ゼロショットプロンプトによる憎悪なミーム検出および憎悪なミーム修正タスクにおけるVLMの能力について検討する。 実証実験から,事前学習したLLaVAモデルの有効性を示し,これらの課題の長所と短所について考察する。

Recently, large language models (LLMs) have taken the spotlight in natural language processing. Further, integrating LLMs with vision enables the users to explore more emergent abilities in multimodality. Visual language models (VLMs), such as LLaVA, Flamingo, or GPT-4, have demonstrated impressive performance on various visio-linguistic tasks. Consequently, there are enormous applications of large models that could be potentially used on social media platforms. Despite that, there is a lack of related work on detecting or correcting hateful memes with VLMs. In this work, we study the ability of VLMs on hateful meme detection and hateful meme correction tasks with zero-shot prompting. From our empirical experiments, we show the effectiveness of the pretrained LLaVA model and discuss its strengths and weaknesses in these tasks.
翻訳日:2023-11-14 17:04:32 公開日:2023-11-12
# LLMは厳密な論理共振器か? 逆ステップワイズデコーディングによる自然言語証明生成の強化

Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding ( http://arxiv.org/abs/2311.06736v1 )

ライセンス: Link先を確認
Ying Su, Xiaojin Fu, Mingwen Liu, Zhijiang Guo(参考訳) 論理的推論は、人工知能の領域において重要な要素である。 大規模言語モデル(LLM)の最近の進化は、この領域で顕著な進歩を遂げている。 チェーン・オブ・ソート(CoT)のような戦略の採用により、様々な推論タスクにおけるLCMのパフォーマンスが向上した。 それでも、証明計画、特に説明精度の検証を必要とするものを含む論理的推論は、いまだに不安定なブロックを提示し続けている。 本研究ではまず,これらの課題に対する高度なCoT戦略によるLCMの有効性を評価する。 分析の結果、llmは複雑な推論連鎖をナビゲートするのに依然として苦労していることが明らかとなった。 この問題に対処するため、より小さな言語モデルを微調整し、証明対象をより管理しやすいサブゴールに分解する。 また,ステップワイズ証明生成に対するコントラスト復号法を導入し,論理推論のためのモデルの能力を強化するために負の推論パスを用いる。 言語モデルの証明計画能力の強化における本手法の成功の核心は,entailmentbankの実験である。

Logical reasoning remains a pivotal component within the realm of artificial intelligence. The recent evolution of large language models (LLMs) has marked significant progress in this domain. The adoption of strategies like chain-of-thought (CoT) has enhanced the performance of LLMs across diverse reasoning tasks. Nonetheless, logical reasoning that involves proof planning, specifically those that necessitate the validation of explanation accuracy, continues to present stumbling blocks. In this study, we first evaluate the efficacy of LLMs with advanced CoT strategies concerning such tasks. Our analysis reveals that LLMs still struggle to navigate complex reasoning chains, which demand the meticulous linkage of premises to derive a cogent conclusion. To address this issue, we finetune a smaller-scale language model, equipping it to decompose proof objectives into more manageable subgoals. We also introduce contrastive decoding to stepwise proof generation, making use of negative reasoning paths to strengthen the model's capacity for logical deduction. Experiments on EntailmentBank underscore the success of our method in augmenting the proof planning abilities of language models.
翻訳日:2023-11-14 17:04:18 公開日:2023-11-12
# フェアネスハッキング:アルゴリズムの不公平さを損なう悪質な行為

Fairness Hacking: The Malicious Practice of Shrouding Unfairness in Algorithms ( http://arxiv.org/abs/2311.06826v1 )

ライセンス: Link先を確認
Kristof Meding, Thilo Hagendorff(参考訳) 機械学習におけるフェアネス(英: Fairness in machine learning, ML)は、アルゴリズムの識別による有害な多様体ポテンシャルによる、継続的な研究分野である。 このような害を防ぐため、多くの文献が公正性を定量化するための新しいアプローチを開発した。 ここでは、アルゴリズムの不公平さを隠蔽する目的で「フェアネスハッキング」と呼ぶプラクティスを説明することによって、フェアネスの定量化をいかに分散させるかを検討する。 これにより、学習アルゴリズムに依存するエンドユーザや、公正なAIプラクティスに関心のある広いコミュニティに影響を与える。 p-hacking(p-hacking)の概念を参考に、フェアネスハックの2つのカテゴリを紹介した。 最初のカテゴリであるintra-metric fairness hackは、分析から機密性の高い属性を追加または削除することで、特定のメトリックの誤用を記述する。 この文脈では、pハッキングの防止や削減のために開発された対策を、同様にフェアネスハッキングの防止や軽減に応用することができる。 フェアネスハッキングの第2のカテゴリは、メトリックフェアネスハッキングである。 メトリック間のフェアネスハッキングは、特定の属性を持つ特定のフェアネスメトリックの検索である。 我々は、メトリックフェアネスハッキングを予防または軽減するための対策は、まだ初期段階にあると論じる。 最後に,実データを用いた公平性ハッキングの両タイプを実演する。 本稿は、公平度メトリクスの誤用を防止または低減し、mlアプリケーション全体の害を軽減すべく、公正なmlコミュニティ内の議論のガイダンスとして機能することを目的としています。

Fairness in machine learning (ML) is an ever-growing field of research due to the manifold potential for harm from algorithmic discrimination. To prevent such harm, a large body of literature develops new approaches to quantify fairness. Here, we investigate how one can divert the quantification of fairness by describing a practice we call "fairness hacking" for the purpose of shrouding unfairness in algorithms. This impacts end-users who rely on learning algorithms, as well as the broader community interested in fair AI practices. We introduce two different categories of fairness hacking in reference to the established concept of p-hacking. The first category, intra-metric fairness hacking, describes the misuse of a particular metric by adding or removing sensitive attributes from the analysis. In this context, countermeasures that have been developed to prevent or reduce p-hacking can be applied to similarly prevent or reduce fairness hacking. The second category of fairness hacking is inter-metric fairness hacking. Inter-metric fairness hacking is the search for a specific fair metric with given attributes. We argue that countermeasures to prevent or reduce inter-metric fairness hacking are still in their infancy. Finally, we demonstrate both types of fairness hacking using real datasets. Our paper intends to serve as a guidance for discussions within the fair ML community to prevent or reduce the misuse of fairness metrics, and thus reduce overall harm from ML applications.
翻訳日:2023-11-14 16:58:15 公開日:2023-11-12
# Tunable Soft Promptsはフェデレーションラーニングのメッセンジャー

Tunable Soft Prompts are Messengers in Federated Learning ( http://arxiv.org/abs/2311.06805v1 )

ライセンス: Link先を確認
Chenhe Dong, Yuexiang Xie, Bolin Ding, Ying Shen, Yaliang Li(参考訳) フェデレートラーニング(FL)は、複数の参加者が分散データソースを使用して機械学習モデルを協調的にトレーニングすることを可能にする。 しかしながら、flにおけるモデルプライバシ保護の欠如は、特にプロプライエタリな大型言語モデルに基づいたモデルを連邦的に微調整したい場合、無視できない課題となっている。 本研究では,調整可能なソフトプロンプトによって参加者間の情報交換を実現する新しいflトレーニング手法を提案する。 これらのソフトプロンプトはサーバとクライアントの間で更新され送信され、グローバルモデルパラメータの役割を担い、ローカルデータとグローバルモデルから有用な知識を提供するメッセンジャーとして機能する。 グローバルモデル自体の共有を必要とせず,グローバルモデルよりも少ないパラメータを持つ補助モデルに基づいてローカルトレーニングを行うため,提案手法は,FLにおける通信や計算コストを低減しつつ,グローバルモデルを保護する。 広範な実験により,提案手法の有効性が複数のベースラインと比較された。 ソースコードは \url{https://github.com/alibaba/FederatedScope/tree/fedsp/federatedscope/nlp/fedsp} で公開しました。

Federated learning (FL) enables multiple participants to collaboratively train machine learning models using decentralized data sources, alleviating privacy concerns that arise from directly sharing local data. However, the lack of model privacy protection in FL becomes an unneglectable challenge, especially when people want to federally finetune models based on a proprietary large language model. In this study, we propose a novel FL training approach that accomplishes information exchange among participants via tunable soft prompts. These soft prompts, updated and transmitted between the server and clients, assume the role of the global model parameters and serve as messengers to deliver useful knowledge from the local data and global model. As the global model itself is not required to be shared and the local training is conducted based on an auxiliary model with fewer parameters than the global model, the proposed approach provides protection for the global model while reducing communication and computation costs in FL. Extensive experiments show the effectiveness of the proposed approach compared to several baselines. We have released the source code at \url{https://github.com/alibaba/FederatedScope/tree/fedsp/federatedscope/nlp/fedsp}.
翻訳日:2023-11-14 16:57:55 公開日:2023-11-12
# 連合学習における顧客選択に関する包括的調査

A Comprehensive Survey On Client Selections in Federated Learning ( http://arxiv.org/abs/2311.06801v1 )

ライセンス: Link先を確認
Ala Gouissem and Zina Chkirbene and Ridha Hamila(参考訳) Federated Learning(FL)は、複数の分散デバイス間でデータをトレーニングできる機械学習の急速に成長する分野である。 トレーニングプロセスに参加するクライアントの選択は、システム全体のパフォーマンスにとって重要な要素である。 本調査では,FLにおける最先端クライアント選択技術の概要を概観し,その強みや限界,対処すべき課題やオープンな課題について概説する。 トレーニング対象のクライアントのすべてあるいは一部をランダムに選択する,従来の選択手法について述べる。 また、リソース制約のあるネットワークや異種ネットワークのリソースアウェア選択についても取り上げる。 また,モデルセキュリティ強化におけるクライアント選択の利用について述べる。 最後に,動的制約付き,異種ネットワークにおけるクライアント選択に関するオープン問題と課題について考察する。

Federated Learning (FL) is a rapidly growing field in machine learning that allows data to be trained across multiple decentralized devices. The selection of clients to participate in the training process is a critical factor for the performance of the overall system. In this survey, we provide a comprehensive overview of the state-of-the-art client selection techniques in FL, including their strengths and limitations, as well as the challenges and open issues that need to be addressed. We cover conventional selection techniques such as random selection where all or partial random of clients is used for the trained. We also cover performance-aware selections and as well as resource-aware selections for resource-constrained networks and heterogeneous networks. We also discuss the usage of client selection in model security enhancement. Lastly, we discuss open issues and challenges related to clients selection in dynamic constrained, and heterogeneous networks.
翻訳日:2023-11-14 16:57:33 公開日:2023-11-12
# MetaMix: 混合精度アクティベーション量子化のためのメタ状態精度サーカ

MetaMix: Meta-state Precision Searcher for Mixed-precision Activation Quantization ( http://arxiv.org/abs/2311.06798v1 )

ライセンス: Link先を確認
Han-Byul Kim, Joo Hyung Lee, Sungjoo Yoo, Hong-Seok Kim(参考訳) 効率的なネットワークの混合精度量子化は、ビット選択の探索でしばしば生じる活性化不安定性に苦しむ。 そこで本研究では,ビット選択とウェイトトレーニングフェーズからなるMetaMixと呼ばれる新しい手法を提案する。 ビット選択フェーズは,(1)混合精度対応重み更新,(2)固定混合精度対応重み付きビットサーベイトレーニングの2段階を反復し,両者が混合精度量子化における活性化不安定性を低減し,高速かつ高品質なビット選択に寄与する。 ウェイトトレーニングフェーズは、ビット選択フェーズでトレーニングされたウェイトとステップサイズを利用して微調整し、高速なトレーニングを提供する。 画像ネット上での効率的かつ定量化ネットワーク,すなわちmobilenet v2およびv3,およびresnet-18を用いた実験により,提案手法が混合精度量子化と演算の両面において,混合精度soma法と単精度sota法を上回ることで,混合精度量子化の境界を押し上げることを示した。

Mixed-precision quantization of efficient networks often suffer from activation instability encountered in the exploration of bit selections. To address this problem, we propose a novel method called MetaMix which consists of bit selection and weight training phases. The bit selection phase iterates two steps, (1) the mixed-precision-aware weight update, and (2) the bit-search training with the fixed mixed-precision-aware weights, both of which combined reduce activation instability in mixed-precision quantization and contribute to fast and high-quality bit selection. The weight training phase exploits the weights and step sizes trained in the bit selection phase and fine-tunes them thereby offering fast training. Our experiments with efficient and hard-to-quantize networks, i.e., MobileNet v2 and v3, and ResNet-18 on ImageNet show that our proposed method pushes the boundary of mixed-precision quantization, in terms of accuracy vs. operations, by outperforming both mixed- and single-precision SOTA methods.
翻訳日:2023-11-14 16:57:20 公開日:2023-11-12
# RGB-Dデータを用いた産業異常検出のためのデュアルブランチ再構成ネットワーク

Dual-Branch Reconstruction Network for Industrial Anomaly Detection with RGB-D Data ( http://arxiv.org/abs/2311.06797v1 )

ライセンス: Link先を確認
Chenyang Bi, Yueyang Li and Haichi Luo(参考訳) 非監督的異常検出法は産業的異常検出の最前線にあり、顕著な進歩を遂げている。 これまでは主に2D情報を入力として用いていたが、3DポイントクラウドとRGB画像に基づくマルチモーダル産業異常検出が登場し始めている。 通常のアプローチでは、機能表現のためにトレーニング済みの大きなモデルを使用し、それらをメモリバンクに格納する。 しかし、上記の手法はより長い推論時間と高いメモリ使用量を必要とするため、業界のリアルタイム要件を満たすことはできない。 これらの問題を解決するために、RGB-D入力に基づく軽量な二重分岐再構成ネットワーク(DBRN)を提案し、通常例と異常例の判定境界を学習する。 2つのモダリティ間のアライメントの要件は、ポイントクラウド入力の代わりに深度マップを使用することによって排除される。 さらに,これらの2つの特徴から特徴を融合させ,総合的な判別結果を得るために,識別ネットワークにおいて重要度スコアリングモジュールを導入する。 DBRNは92.8%のAUROCを実現し、MVTec 3D-ADデータセット上で大きなトレーニング済みモデルやメモリバンクなしで高い推論効率を実現している。

Unsupervised anomaly detection methods are at the forefront of industrial anomaly detection efforts and have made notable progress. Previous work primarily used 2D information as input, but multi-modal industrial anomaly detection based on 3D point clouds and RGB images is just beginning to emerge. The regular approach involves utilizing large pre-trained models for feature representation and storing them in memory banks. However, the above methods require a longer inference time and higher memory usage, which cannot meet the real-time requirements of the industry. To overcome these issues, we propose a lightweight dual-branch reconstruction network(DBRN) based on RGB-D input, learning the decision boundary between normal and abnormal examples. The requirement for alignment between the two modalities is eliminated by using depth maps instead of point cloud input. Furthermore, we introduce an importance scoring module in the discriminative network to assist in fusing features from these two modalities, thereby obtaining a comprehensive discriminative result. DBRN achieves 92.8% AUROC with high inference efficiency on the MVTec 3D-AD dataset without large pre-trained models and memory banks.
翻訳日:2023-11-14 16:56:58 公開日:2023-11-12
# 鳥の目視に基づく深層視差変換に基づく車両位置推定

Deep Perspective Transformation Based Vehicle Localization on Bird's Eye View ( http://arxiv.org/abs/2311.06796v1 )

ライセンス: Link先を確認
Abtin Mahyar, Hossein Motamednia, Dara Rahmati(参考訳) 自動運転車の周囲環境の正確な理解は、ナビゲーションシステムにとって不可欠である。 既存のアルゴリズムの有効性を高め、さらなる研究を容易にするためには、ルーティングシステムに包括的なデータを提供することが不可欠である。 従来のアプローチでは、環境をシミュレートするために複数のセンサーをインストールする必要があった。 本稿では,シーンのトップダウン表現を生成して,エゴ車に対する他の車間距離と方向の抽出を可能にする方法を提案する。 我々は,エゴ車とその環境に関する情報を各フレームに提供し,類似の下流タスクに有用なリソースを提供する,新しい合成データセットを提案する。 さらに,ビュービューRGB画像を周囲の車両を分割した鳥眼ビューマップに変換するアーキテクチャを提案する。 このアプローチは、自動運転車の重要な環境情報を取得するための効率的で費用対効果の高い方法を提供する。 コードとデータセットはhttps://github.com/IPM-HPC/Perspective-BEV-Transformerで入手できる。

An accurate understanding of a self-driving vehicle's surrounding environment is crucial for its navigation system. To enhance the effectiveness of existing algorithms and facilitate further research, it is essential to provide comprehensive data to the routing system. Traditional approaches rely on installing multiple sensors to simulate the environment, leading to high costs and complexity. In this paper, we propose an alternative solution by generating a top-down representation of the scene, enabling the extraction of distances and directions of other cars relative to the ego vehicle. We introduce a new synthesized dataset that offers extensive information about the ego vehicle and its environment in each frame, providing valuable resources for similar downstream tasks. Additionally, we present an architecture that transforms perspective view RGB images into bird's-eye-view maps with segmented surrounding vehicles. This approach offers an efficient and cost-effective method for capturing crucial environmental information for self-driving cars. Code and dataset are available at https://github.com/IPM-HPC/Perspective-BEV-Transformer.
翻訳日:2023-11-14 16:56:40 公開日:2023-11-12
# 機械学習からの学習: 1064トラップにおけるツリウム原子のボース・アインシュタイン凝縮の最適化

Learning from machine learning: optimization of the Bose-Einstein condensate of the thulium atom at a 1064 trap ( http://arxiv.org/abs/2311.06795v1 )

ライセンス: Link先を確認
D.A. Kumpilov, D.A. Pershin, I.S. Cojocaru, V.A. Khlebnikov, I.A. Pyrkh, A.E. Rudnev, E.A. Fedotova, K.A. Khoruzhii, P.A. Aksentsev, D.V. Gaifutdinov, A.K. Zykova, V.V. Tsyganok, A.V. Akimov(参考訳) ボース=アインシュタイン凝縮は興味深い現象であり、ここ数十年で大きな注目を集めている。 凝縮物中の原子数によって、実行できる実験のスケールが決定され、量子シミュレーションにとって重要である。 その結果, 1064nmの双極子トラップにおけるツリウム原子の凝縮が達成され, 原子数の最適化が行われた。 驚いたことに、飽和した原子の数は、532nmの双極子トラップで達成された数によく似ている。 機械学習の結果から得られた知見から、3体の組換えプロセスは原子数を制限する可能性が高いと結論づけた。 この制限はファノ・フェシュバッハ共鳴を利用して達成された。 また、冷却時間の最適化も行われた。

Bose-Einstein condensation is an intriguing phenomenon that has garnered significant attention in recent decades. The number of atoms within the condensate determines the scale of experiments that can be performed, making it crucial for quantum simulations. Consequently, a condensate of thulium atoms at a 1064-nm dipole trap was successfully achieved, and optimization of the atom count was performed. Surprisingly, the number of atoms exhibited saturation, closely resembling the count achieved in a dipole trap at 532 nm. Drawing insights from machine learning results, it was concluded that a 3-body recombination process was likely limiting the number of atoms. This limitation was successfully overcome by leveraging Fano-Feshbach resonances. Additionally, optimization of the cooling time was implemented.
翻訳日:2023-11-14 16:56:22 公開日:2023-11-12
# CL-Flow:より良い異常検出のためのコントラスト学習による正規化フローの強化

CL-Flow:Strengthening the Normalizing Flows by Contrastive Learning for Better Anomaly Detection ( http://arxiv.org/abs/2311.06794v1 )

ライセンス: Link先を確認
Shunfeng Wang, Yueyang Li, Haichi Luo and Chenyang Bi(参考訳) 異常検出分野において,異常サンプルの不足は,教師なし異常検出に重点を置いた最近の研究に向けられている。 これらの教師なし異常検出手法は便利であるが、異常サンプルに埋め込まれた重要な事前情報も見落としている。 さらに,多くのディープラーニング手法の中で,教師なし手法に比べ,教師なし手法の方が優れた性能を示した。 以上の理由を考慮し,コントラスト学習と2D-Flowを組み合わせた自己教師付き異常検出手法を提案する。 一方,本論文では,産業シナリオに則って異常なサンプルを産出する異常合成手法を,そのサロゲートアノテーションとともに導入する。 一方,多数の異常サンプルが得られたため,コントラスト学習を取り入れた2D-Flowフレームワークを強化し,多様なプロキシタスクを活用してネットワークを微調整する。 本手法により,ネットワークは2dフローの軽量な特性を維持しつつ,自己生成ラベルからより正確なマッピング関係を学習できる。 本手法は,主流の教師なし手法と比較して,検出精度が向上し,モデルパラメータが減少し,推論速度が速くなった。 さらに、トレーニングと推論のプロセス全体がエンドツーエンドです。 BTADデータセットでは,MVTecADデータセットでは画像レベルAUROCが99.6\%,BTADデータセットでは画像レベルAUROCが96.8\%であった。

In the anomaly detection field, the scarcity of anomalous samples has directed the current research emphasis towards unsupervised anomaly detection. While these unsupervised anomaly detection methods offer convenience, they also overlook the crucial prior information embedded within anomalous samples. Moreover, among numerous deep learning methods, supervised methods generally exhibit superior performance compared to unsupervised methods. Considering the reasons mentioned above, we propose a self-supervised anomaly detection approach that combines contrastive learning with 2D-Flow to achieve more precise detection outcomes and expedited inference processes. On one hand, we introduce a novel approach to anomaly synthesis, yielding anomalous samples in accordance with authentic industrial scenarios, alongside their surrogate annotations. On the other hand, having obtained a substantial number of anomalous samples, we enhance the 2D-Flow framework by incorporating contrastive learning, leveraging diverse proxy tasks to fine-tune the network. Our approach enables the network to learn more precise mapping relationships from self-generated labels while retaining the lightweight characteristics of the 2D-Flow. Compared to mainstream unsupervised approaches, our self-supervised method demonstrates superior detection accuracy, fewer additional model parameters, and faster inference speed. Furthermore, the entire training and inference process is end-to-end. Our approach showcases new state-of-the-art results, achieving a performance of 99.6\% in image-level AUROC on the MVTecAD dataset and 96.8\% in image-level AUROC on the BTAD dataset.
翻訳日:2023-11-14 16:56:11 公開日:2023-11-12
# 拡散モデルを用いた知覚的一様サンプリングによる画像モーフィング

IMPUS: Image Morphing with Perceptually-Uniform Sampling Using Diffusion Models ( http://arxiv.org/abs/2311.06792v1 )

ライセンス: Link先を確認
Zhaoyuan Yang, Zhengyang Yu, Zhiwei Xu, Jaskirat Singh, Jing Zhang, Dylan Campbell, Peter Tu, and Richard Hartley(参考訳) 画像ペアが与えられたスムーズで直接的でリアルな補間を生成するIMPUSを用いた拡散型画像モーフィング手法を提案する。 潜時拡散モデルは、2つの画像それぞれについて、特に異なるクラスに属する場合、異なる条件分布とデータ埋め込みを持つ。 このギャップを埋めるために、局所線型かつ連続的なテキスト埋め込み空間とガウス潜在空間を補間する。 まず、まずエンドポイントテキストの埋め込みを最適化し、次に確率フローODEを用いてイメージを潜在空間にマッピングする。 間接的モーフィングパスを取る既存の作業とは異なり、モデル適応は直接経路を生じさせ、補間された画像内のゴーストアーティファクトを抑制する。 そこで本研究では,新たな相対的知覚経路の多様性スコアに基づく適応的ボトルネック制約を提案する。 また,補間画像間の視覚的な変化を可能にする知覚的一様サンプリング手法を提案する。 広範囲な実験により、IMPUSはスムーズで、直接的で、現実的な画像変形を実現し、他の画像生成タスクに適用できることが検証された。

We present a diffusion-based image morphing approach with perceptually-uniform sampling (IMPUS) that produces smooth, direct, and realistic interpolations given an image pair. A latent diffusion model has distinct conditional distributions and data embeddings for each of the two images, especially when they are from different classes. To bridge this gap, we interpolate in the locally linear and continuous text embedding space and Gaussian latent space. We first optimize the endpoint text embeddings and then map the images to the latent space using a probability flow ODE. Unlike existing work that takes an indirect morphing path, we show that the model adaptation yields a direct path and suppresses ghosting artifacts in the interpolated images. To achieve this, we propose an adaptive bottleneck constraint based on a novel relative perceptual path diversity score that automatically controls the bottleneck size and balances the diversity along the path with its directness. We also propose a perceptually-uniform sampling technique that enables visually smooth changes between the interpolated images. Extensive experiments validate that our IMPUS can achieve smooth, direct, and realistic image morphing and be applied to other image generation tasks.
翻訳日:2023-11-14 16:55:47 公開日:2023-11-12
# InfMLLM:ビジュアル言語タスクのための統一フレームワーク

InfMLLM: A Unified Framework for Visual-Language Tasks ( http://arxiv.org/abs/2311.06791v1 )

ライセンス: Link先を確認
Qiang Zhou, Zhibin Wang, Wei Chu, Yinghui Xu, Hao Li, Yuan Qi(参考訳) 大規模言語モデル(LLM)は、包括的な言語中心のアプリケーションを扱う上で、その顕著な汎用性を証明している。 LLMの機能をより広い範囲のモーダル入力に拡張するために、マルチモーダル大言語モデル(MLLM)が注目されている。 この作業は、llmがより視覚言語に関連したタスク、特に画像キャプション、視覚質問応答(vqa)、視覚の接地に取り組むことを可能にすることに役立ちます。 この目的のために,軽量アライメントプリトレーニングから中等級のマルチタスクハイブリッドトレーニング,最後にllm微調整による命令追従能力の向上という3段階のトレーニングスキームを実装した。 トレーニングプロセスを通じて、GPUメモリの要件は徐々に増加する。 位置情報を保存しながらLLMに渡される視覚的埋め込み数を効果的に管理するために,プールアダプタと呼ばれる単純な視覚的アダプターモジュールを導入する。 実験により,プール適応器を通して視覚埋め込みの位置情報を保存することは,視覚接地などのタスクに特に有益であることが示された。 我々は,提案手法をInfMLLMと命名し,様々なベンチマークデータセットで広く評価した。 以上の結果から,InfMLLMは最新のMLLMに匹敵する,最先端のSOTA(State-of-the-art)性能を達成できることが示された。 コードとモデルはオープンソースにされる。 \url{https://github.com/mightyzau/InfMLLM}。

Large language models (LLMs) have proven their remarkable versatility in handling a comprehensive range of language-centric applications. To expand LLMs' capabilities to a broader spectrum of modal inputs, multimodal large language models (MLLMs) have attracted growing interest. This work delves into enabling LLMs to tackle more vision-language-related tasks, particularly image captioning, visual question answering (VQA,) and visual grounding. To this end, we implemented a three-stage training scheme: starting with lightweight alignment pretraining, then moderate-weight multitask hybrid training, and finally, LLM fine-tuning to improve instruction following capability. Throughout the training process, the requirements on GPU memory gradually increase. To effectively manage the number of visual embeddings passed to the LLM while preserving their positional information, we introduce a straightforward visual adapter module dubbed pool-adapter. Our experiments demonstrate that preserving the positional information of visual embeddings through the pool-adapter is particularly beneficial for tasks like visual grounding. We name our proposed approach InfMLLM and have evaluated it extensively on various benchmark datasets. Our results demonstrate that InfMLLM achieves either state-of-the-art (SOTA) performance or performance comparable to recent MLLMs. The code and model will be made open-source at: \url{https://github.com/mightyzau/InfMLLM}.
翻訳日:2023-11-14 16:55:26 公開日:2023-11-12
# 視覚変換器の解説可能性 : 概観と新たな展望

Explainability of Vision Transformers: A Comprehensive Review and New Perspectives ( http://arxiv.org/abs/2311.06786v1 )

ライセンス: Link先を確認
Rojina Kashefi, Leili Barekatain, Mohammad Sabokrou, Fatemeh Aghaeipoor(参考訳) トランスフォーマーは自然言語処理に大きな影響を与え、最近コンピュータビジョンにおけるその可能性を実証した。 彼らは基本的なコンピュータビジョンタスクにおいて畳み込みニューラルネットワークよりも有望な結果を示している。 しかし、科学コミュニティはビジョントランスフォーマーの内部動作や意思決定の基盤を完全に把握していないため、説明可能性の方法の重要性が強調されている。 これらのモデルがどのように決定に達するかを理解することは、パフォーマンスを向上するだけでなく、AIシステムへの信頼を構築する。 本研究では,視覚変換器に提案する様々な説明可能性手法について検討し,そのモチベーション,構造,応用シナリオに応じて分類する。 さらに、説明可能性ツールやフレームワークと同様に、説明結果の比較に使用できる評価基準の包括的なレビューも提供する。 最後に,視覚トランスフォーマーの説明可能性を高めるための必須だが未熟な側面を強調し,今後の投資に向けて有望な研究方向を提案する。

Transformers have had a significant impact on natural language processing and have recently demonstrated their potential in computer vision. They have shown promising results over convolution neural networks in fundamental computer vision tasks. However, the scientific community has not fully grasped the inner workings of vision transformers, nor the basis for their decision-making, which underscores the importance of explainability methods. Understanding how these models arrive at their decisions not only improves their performance but also builds trust in AI systems. This study explores different explainability methods proposed for visual transformers and presents a taxonomy for organizing them according to their motivations, structures, and application scenarios. In addition, it provides a comprehensive review of evaluation criteria that can be used for comparing explanation results, as well as explainability tools and frameworks. Finally, the paper highlights essential but unexplored aspects that can enhance the explainability of visual transformers, and promising research directions are suggested for future investment.
翻訳日:2023-11-14 16:54:59 公開日:2023-11-12
# Q-Instruct: マルチモーダリティ基礎モデルのための低レベル視覚能力の改善

Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models ( http://arxiv.org/abs/2311.06783v1 )

ライセンス: Link先を確認
Haoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Kaixin Xu, Chunyi Li, Jingwen Hou, Guangtao Zhai, Geng Xue, Wenxiu Sun, Qiong Yan, Weisi Lin(参考訳) GPT-4Vで表されるマルチモダリティ基礎モデルは、低レベルの視覚知覚と理解タスクのための新しいパラダイムを導入し、モデル内の幅広い人間の指示に対応することができる。 既存の基礎モデルは、低レベルの視覚タスクにエキサイティングなポテンシャルを示してきたが、関連する能力はまだ予備的であり、改善する必要がある。 これらのモデルを強化するために,我々は,低レベルの視覚において,膨大な数の実際の人間のフィードバックを収集する大規模主観実験を行う。 各フィードバックは、画像の視認性、色、明るさ*など、低レベルの視覚的外観に関する詳細な説明から始まり、平均45ワードの平均的な結論で終わる経路に従っている。 構築された**Q-Pathway**データセットには、18,973の画像に対する58万の詳細な人間のフィードバックが含まれている。 さらに,基礎モデルを多様な質問に頑健に応答させるため,これらのフィードバックを多種多様な200K命令応答対に処理するGPT参加型変換を設計する。 実験結果から、*Q-インストラクト** はいくつかの基礎モデルの低レベル知覚と理解能力を一貫して高めていることが示されている。 私たちのデータセットは、汎用知性が低レベルの視覚的外観を知覚し、理解し、人間のように視覚品質を評価する未来への道を開くことができると予測しています。 私たちのデータセット、モデル動物園、デモはhttps://q-future.github.io/q-instructで公開しています。

Multi-modality foundation models, as represented by GPT-4V, have brought a new paradigm for low-level visual perception and understanding tasks, that can respond to a broad range of natural human instructions in a model. While existing foundation models have shown exciting potentials on low-level visual tasks, their related abilities are still preliminary and need to be improved. In order to enhance these models, we conduct a large-scale subjective experiment collecting a vast number of real human feedbacks on low-level vision. Each feedback follows a pathway that starts with a detailed description on the low-level visual appearance (*e.g. clarity, color, brightness* of an image, and ends with an overall conclusion, with an average length of 45 words. The constructed **Q-Pathway** dataset includes 58K detailed human feedbacks on 18,973 images with diverse low-level appearance. Moreover, to enable foundation models to robustly respond to diverse types of questions, we design a GPT-participated conversion to process these feedbacks into diverse-format 200K instruction-response pairs. Experimental results indicate that the **Q-Instruct** consistently elevates low-level perception and understanding abilities across several foundational models. We anticipate that our datasets can pave the way for a future that general intelligence can perceive, understand low-level visual appearance and evaluate visual quality like a human. Our dataset, model zoo, and demo is published at: https://q-future.github.io/Q-Instruct.
翻訳日:2023-11-14 16:54:44 公開日:2023-11-12
# マルチビヘイビアグラフ協調フィルタリングのための行動データ不均衡の緩和

Alleviating Behavior Data Imbalance for Multi-Behavior Graph Collaborative Filtering ( http://arxiv.org/abs/2311.06777v1 )

ライセンス: Link先を確認
Yijie Zhang, Yuanchen Bei, Shiqi Yang, Hao Chen, Zhiqing Li, Lijia Chen, Feiran Huang(参考訳) ユーザとイテムのインタラクショングラフ上でメッセージの伝搬を通じてユーザとアイテムの表現を学習するグラフ協調フィルタリングは、推奨性能を効果的に向上させる。 しかし、現在のグラフコラボレーティブフィルタリングモデルのほとんどは、クリック、カート、購入などのアクションを含む現実世界のプラットフォーム上で、ユーザがさまざまな種類の振る舞いを示すにもかかわらず、単一の行動ドメイン(クリックなど)上でインタラクショングラフを構築する。 さらに、ユーザのエンゲージメントの変動により、さまざまなタイプの行動の規模に不均衡が存在する。 例えば、ユーザーは複数のアイテムをクリックして見ることができるが、その小さなサブセットからしか購入できない。 行動の不均衡を緩和し、複数の行動グラフからの情報を同時に活用して、ターゲットの行動変換(購入など)を改善する方法については、未検討のままである。 この目的のために,マルチビヘイビアグラフ協調フィルタリングのための振舞いデータ不均衡を緩和する簡易かつ効果的なモデルであるIGGCFを提案する。 特に、IMGCFはマルチタスク学習フレームワークを使用して、マルチビヘイビアグラフ上の協調フィルタリングを行う。 そして、データ不均衡問題を緩和するために、ICGCFは、豊富なデータボリュームを持つ振る舞い領域から学習した表現を活用することにより、スパース動作の表現学習を改善する。 広く使われている2つのマルチビヘイビアデータセットの実験は、IGGCFの有効性を実証している。

Graph collaborative filtering, which learns user and item representations through message propagation over the user-item interaction graph, has been shown to effectively enhance recommendation performance. However, most current graph collaborative filtering models mainly construct the interaction graph on a single behavior domain (e.g. click), even though users exhibit various types of behaviors on real-world platforms, including actions like click, cart, and purchase. Furthermore, due to variations in user engagement, there exists an imbalance in the scale of different types of behaviors. For instance, users may click and view multiple items but only make selective purchases from a small subset of them. How to alleviate the behavior imbalance problem and utilize information from the multiple behavior graphs concurrently to improve the target behavior conversion (e.g. purchase) remains underexplored. To this end, we propose IMGCF, a simple but effective model to alleviate behavior data imbalance for multi-behavior graph collaborative filtering. Specifically, IMGCF utilizes a multi-task learning framework for collaborative filtering on multi-behavior graphs. Then, to mitigate the data imbalance issue, IMGCF improves representation learning on the sparse behavior by leveraging representations learned from the behavior domain with abundant data volumes. Experiments on two widely-used multi-behavior datasets demonstrate the effectiveness of IMGCF.
翻訳日:2023-11-14 16:54:22 公開日:2023-11-12
# 2次元$U(1)$量子リンク格子ゲージ理論における部分格子傷およびそれ以上

Sublattice scars and beyond in two-dimensional $U(1)$ quantum link lattice gauge theories ( http://arxiv.org/abs/2311.06773v1 )

ライセンス: Link先を確認
Indrajit Sau, Paolo Stornati, Debasish Banerjee, Arnab Sen(参考訳) 本稿では,物質フリーな u(1)$ 量子リンクゲージ理論の異常な高エネルギー状態の構造と性質を数値的および解析的手法を用いて解明する。 このような異常な状態は、この文献で量子多体傷として知られるが、熱水の性質から多くの関心を寄せている。 私たちの出発するハミルトニアンは$H = \mathcal{O}_{\mathrm{kin}} + \lambda \mathcal{O}_{\mathrm{pot}}$, where $\lambda$ is a real-valued coupling, $\mathcal{O}_{\mathrm{kin}}$$$$\mathcal{O}_{\mathrm{pot}}$)は、初等格子の上に作用する電気フラックス基底の局所対角(対角)作用素である。 このモデルのスピン-$\frac{1}{2}$表現の$L_x \times L_y$格子は、ある部分格子上のすべての初等ラケットに対して$\mathcal{O}_{\mathrm{pot},\square} |\psi_s\rangle$と$ \mathcal{O}_{\mathrm{pot},\square} | \psi_s \rangle =0$を満足する部分格子(sublattice scars)の存在を明らかにし、一方は$\mathcal{O}_{\mathrm{pot},\square} | \psi_s \rangle =0$である。 我々は,$ \mathcal{o}_{\mathrm{kin}} $ の非零整数固有値に対して,$\mathcal{o}_{\mathrm{kin}} = 0$ の固有値を持つ特定の部分的傷跡と接続する ``triangle relation''' を示す。 部分格子の傷跡のごく一部は、解析的境界を置く始短一重項の項で単純な記述を持つ。 我々はさらに、$ \mathcal{o}_{\mathrm{kin}} $ のヌル空間内の全ての部分格子の傷が一意な基底状態となり、スペクトルのいくつかの性質を解明する長距離の親ハミルトニアンを構築する。 特に、この親ハミルトニアンのゼロエネルギー状態は、スタッガード短距離対角項を持つ別の u(1)$ 量子リンクモデルの正確な傷であることが判明した。

In this article, we elucidate the structure and properties of a class of anomalous high-energy states of matter-free $U(1)$ quantum link gauge theory Hamiltonians using numerical and analytical methods. Such anomalous states, known as quantum many-body scars in the literature, have generated a lot of interest due to their athermal nature. Our starting Hamiltonian is $H = \mathcal{O}_{\mathrm{kin}} + \lambda \mathcal{O}_{\mathrm{pot}}$, where $\lambda$ is a real-valued coupling, and $\mathcal{O}_{\mathrm{kin}}$ ($\mathcal{O}_{\mathrm{pot}}$) are summed local diagonal (off-diagonal) operators in the electric flux basis acting on the elementary plaquette $\square$. The spectrum of the model in its spin-$\frac{1}{2}$ representation on $L_x \times L_y$ lattices reveal the existence of sublattice scars, $|\psi_s \rangle$, which satisfy $\mathcal{O}_{\mathrm{pot},\square} |\psi_s\rangle = |\psi_s\rangle$ for all elementary plaquettes on one sublattice and $ \mathcal{O}_{\mathrm{pot},\square} | \psi_s \rangle =0 $ on the other, while being simultaneous zero modes or nonzero integer-valued eigenstates of $\mathcal{O}_{\mathrm{kin}}$. We demonstrate a ``triangle relation'' connecting the sublattice scars with nonzero integer eigenvalues of $ \mathcal{O}_{\mathrm{kin}} $ to particular sublattice scars with $\mathcal{O}_{\mathrm{kin}} = 0$ eigenvalues. A fraction of the sublattice scars have a simple description in terms of emergent short singlets, on which we place analytic bounds. We further construct a long-ranged parent Hamiltonian for which all sublattice scars in the null space of $ \mathcal{O}_{\mathrm{kin}} $ become unique ground states and elucidate some of the properties of its spectrum. In particular, zero energy states of this parent Hamiltonian turn out to be exact scars of another $U(1)$ quantum link model with a staggered short-ranged diagonal term.
翻訳日:2023-11-14 16:53:46 公開日:2023-11-12
# ChatAnything: LLM強化ペルソナによる顔チャット

ChatAnything: Facetime Chat with LLM-Enhanced Personas ( http://arxiv.org/abs/2311.06772v1 )

ライセンス: Link先を確認
Yilin Zhao, Xinbin Yuan, Shanghua Gao, Zhijie Lin, Qibin Hou, Jiashi Feng, Daquan Zhou(参考訳) 本報告では, テキスト記述のみを用いて, 視覚, パーソナリティ, 音色を含む, llmに基づく文字の擬人化人格生成を目標とした。 そこで我々はまず,システムプロンプトの集合を慎重に設計し,LLMのコンテキスト内学習能力を人格生成に活用する。 次に,音声の混合(MoV)とディフューザの混合(MoD)の2つの新しい概念を提案する。 MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義されたトーンで利用し,ユーザが提供するテキスト記述に基づいて最も一致するものを選択する。 MoDでは,最近普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。 フレームワーク全体をchatanythingと呼んでいます。 これによってユーザーは、ほんの数個のテキスト入力を使って人為的なペルソナを何でもアニメーションできる。 しかし、現在の生成モデルによって生成された擬人化物は、事前訓練された顔ランドマーク検出器では検出できない場合が多く、訓練中にその画像がほとんど見られる(例えばoodサンプル)ため、顔の動き生成が失敗している。 この問題に対処するために、画像生成フェーズ中に人間の顔のランドマークを注入するためのピクセルレベルのガイダンスを組み込んだ。 これらの指標をベンチマークするために、評価データセットを構築しました。 これに基づいて,顔のランドマークの検出率は57.0%から92.5%に大幅に向上し,生成した音声コンテンツに基づいた自動顔アニメーションが可能となった。 コードはhttps://chatanything.github.io/にある。

In this technical report, we target generating anthropomorphized personas for LLM-based characters in an online manner, including visual appearance, personality and tones, with only text descriptions. To achieve this, we first leverage the in-context learning capability of LLMs for personality generation by carefully designing a set of system prompts. We then propose two novel concepts: the mixture of voices (MoV) and the mixture of diffusers (MoD) for diverse voice and appearance generation. For MoV, we utilize the text-to-speech (TTS) algorithms with a variety of pre-defined tones and select the most matching one based on the user-provided text description automatically. For MoD, we combine the recent popular text-to-image generation techniques and talking head algorithms to streamline the process of generating talking objects. We termed the whole framework as ChatAnything. With it, users could be able to animate anything with any personas that are anthropomorphic using just a few text inputs. However, we have observed that the anthropomorphic objects produced by current generative models are often undetectable by pre-trained face landmark detectors, leading to failure of the face motion generation, even if these faces possess human-like appearances because those images are nearly seen during the training (e.g., OOD samples). To address this issue, we incorporate pixel-level guidance to infuse human face landmarks during the image generation phase. To benchmark these metrics, we have built an evaluation dataset. Based on it, we verify that the detection rate of the face landmark is significantly increased from 57.0% to 92.5% thus allowing automatic face animation based on generated speech content. The code and more results can be found at https://chatanything.github.io/.
翻訳日:2023-11-14 16:51:58 公開日:2023-11-12
# 拡散モデルのためのサンプリングスケジューラ

Sampler Scheduler for Diffusion Models ( http://arxiv.org/abs/2311.06845v1 )

ライセンス: Link先を確認
Zitong Cheng(参考訳) 拡散モデリング(DM)は高品質な生成性能を有し,サンプリング問題はDM性能の重要な部分である。 効率的な微分方程式解法によりサンプリング速度を低減でき、より高いサンプリング品質が保証される。 しかし、現在、拡散に基づく生成モデルに対するサンプルには矛盾があり、メインストリームのサンプル選択は多様であり、それぞれが性能の点で独自の特性を持っている。 しかし、生成過程のすべてのサンプリングステップにおいて、単一のサンプリングアルゴリズムしか特定できない。 言い換えれば、各サンプルの利点を十分に活用することは困難である。 本稿では,本論文では,各サンプルの更新式を解析・一般化し,同一サンプリングプロセスの異なるサンプリングステップで異なるサンプリング器(ode/sde)を使用することが,サンプリング結果をある程度改善できることを実験的に実証する。 特に,初期サンプリングステップにおけるSDEと,後期サンプリングステップにおけるODEの組み合わせは,両者を単独で使用することによる本質的な問題を解くことも確認した。 設計変更により,過去の作業におけるサンプリング効率と品質が向上することを示す。 例えば、NFE (Number of Function Evaluations) = 24のとき、ODE Sampler SchedulerはCIFAR-10データセットのFIDスコアが1.91であるのに対して、DPM++ 2Mの2.02、DPM2の 1.97、同じNFEの 11.90 である。 一方、SDEとODEのスケジューリングを組み合わせたSampler Schedulerは、Euler aの18.63、DPM2 aの3.14、DPM++ SDEの23.14に対して1.899に達する。

Diffusion modeling (DM) has high-quality generative performance, and the sampling problem is an important part of the DM performance. Thanks to efficient differential equation solvers, the sampling speed can be reduced while higher sampling quality is guaranteed. However, currently, there is a contradiction in samplers for diffusion-based generative models: the mainstream sampler choices are diverse, each with its own characteristics in terms of performance. However, only a single sampler algorithm can be specified on all sampling steps in the generative process. This often makes one torn between sampler choices; in other words, it makes it difficult to fully utilize the advantages of each sampler. In this paper, we propose the feasibility of using different samplers (ODE/SDE) on different sampling steps of the same sampling process based on analyzing and generalizing the updating formulas of each mainstream sampler, and experimentally demonstrate that such a multi-sampler scheduling improves the sampling results to some extent. In particular, we also verify that the combination of using SDE in the early sampling steps and ODE in the later sampling steps solves the inherent problems previously caused by using both singly. We show that our design changes improve the sampling efficiency and quality in previous work. For instance, when Number of Function Evaluations (NFE) = 24, the ODE Sampler Scheduler achieves a FID score of 1.91 on the CIFAR-10 dataset, compared to 2.02 for DPM++ 2M, 1.97 for DPM2, and 11.90 for Heun for the same NFE. Meanwhile the Sampler Scheduler with the combined scheduling of SDE and ODE reaches 1.899, compared to 18.63 for Euler a, 3.14 for DPM2 a and 23.14 for DPM++ SDE.
翻訳日:2023-11-14 16:44:12 公開日:2023-11-12
# 断熱圧縮キラルp波ボース-アインシュタイン凝縮最低地平線

Adiabatically compressing chiral p-wave Bose-Einstein condensates into the lowest landau level ( http://arxiv.org/abs/2311.06844v1 )

ライセンス: Link先を確認
Xinyang Yu, Xingze Qiu, Xiaopeng Li(参考訳) 格子揺らぎ、部分格子スワッピング、格子ポテンシャルプログラミングなど、光学格子における$p$軌道自由度を制御している最近の進歩がある。 ここでは,2次元光学格子に閉じ込められたp$-orbital bose-einstein condensate を断熱圧縮することにより,低温原子の最低ランダウ準位 (lll) 状態を作成するプロトコルを提案する。 この系はキラル $p+ip$ Bose-Einstein condensate (BEC) 状態から始まり、自発的対称性の破れによって有限角運動量を得る。 このようなキラルBEC状態は、最近、$p$バンドにロードされたコールド原子に対する光学格子実験で達成されている。 格子ポテンシャルの断熱的調整により、3次元のBECを2次元系に圧縮し、軌道自由度をLLL状態に連続的に変化させる。 この過程は格子ポテンシャルの離散回転対称性によって強制される。 最後の量子状態は、元のキラル$p+ip$状態から大きな角運動量を受け継ぎ、1粒子あたり1つの量子化単位を持つ。 接触反発を考慮したLLLにおける相互作用ボソンの量子多体基底状態について検討した。 これにより、エキゾチックなBEC状態が生じる。 我々の理論は、必要な技術が現在の光格子実験に全てアクセス可能な実験で容易にテストできる。

There has been much recent progress in controlling $p$-orbital degrees of freedom in optical lattices, for example with lattice shaking, sublattice swapping, and lattice potential programming. Here, we present a protocol of preparing lowest Landau level (LLL) states of cold atoms by adiabatically compressing $p$-orbital Bose-Einstein condensates confined in two-dimensional optical lattices. The system starts from a chiral $p+ip$ Bose-Einstein condensate (BEC) state, which acquires finite angular momentum by spontaneous symmetry breaking. Such chiral BEC states have been achieved in recent optical lattice experiments for cold atoms loaded in the $p$-bands. Through an adiabatic adjustment of the lattice potential, we compress the three-dimensional BEC into a two-dimensional system, in which the orbital degrees of freedom continuously morph into LLL states. This process is enforced by the discrete rotation symmetry of the lattice potential. The final quantum state inherits large angular momentum from the original chiral $p+ip$ state, with one quantized unit per particle. We investigate the quantum many-body ground state of interacting bosons in the LLL considering contact repulsion. This leads to an exotic gapped BEC state. Our theory can be readily tested in experiments for the required techniques are all accessible to the current optical lattice experiments.
翻訳日:2023-11-14 16:43:39 公開日:2023-11-12
# 分布再重み付けと投票パラドックス

Distribution Re-weighting and Voting Paradoxes ( http://arxiv.org/abs/2311.06840v1 )

ライセンス: Link先を確認
Bijan Mazaheri, Siddharth Jain, Matthew Cook, Jehoshua Bruck(参考訳) トレーニングは可能なすべてのラベルのサブセットに限られる,ドメインの専門知識と呼ばれる,特定のタイプの分散シフトについて検討する。 この設定は専門の人間専門家や特定の研究に共通している。 我々は、データ再重み付けを伴う分散シフトに対する標準的なアプローチが、異なるドメインの専門知識間でパラドックス的な相違をもたらすことを示す。 また、因果推論の標準調整が如何に同じパラドックスをもたらすかを示す。 これらのパラドックスの特徴は、投票者の選好の集合の中で生じる別のパラドックスの集合を正確に模倣していることを証明する。

We explore a specific type of distribution shift called domain expertise, in which training is limited to a subset of all possible labels. This setting is common among specialized human experts, or specific focused studies. We show how the standard approach to distribution shift, which involves re-weighting data, can result in paradoxical disagreements among differing domain expertise. We also demonstrate how standard adjustments for causal inference lead to the same paradox. We prove that the characteristics of these paradoxes exactly mimic another set of paradoxes which arise among sets of voter preferences.
翻訳日:2023-11-14 16:43:13 公開日:2023-11-12
# 推論と干渉:差動的確率的勾配降下におけるクリッピング、刈り取り、ロスランドスケープの役割

Inference and Interference: The Role of Clipping, Pruning and Loss Landscapes in Differentially Private Stochastic Gradient Descent ( http://arxiv.org/abs/2311.06839v1 )

ライセンス: Link先を確認
Lauren Watson, Eric Gan, Mohan Dantam, Baharan Mirzasoleiman, Rik Sarkar(参考訳) 個別確率勾配降下(DP-SGD)は、通常の確率勾配降下(SGD)と比較して、大きなニューラルネットワーク上での訓練と試験性能が劣っていることが知られている。 本稿では,2つのプロセスの詳細な研究と比較を行い,新しい知見をいくつか明らかにする。 早期と後期の2つのプロセスの挙動を別々に比較することにより,DP-SGDは早期の進行を遅くするが,最終結果を決定するのは後期の行動であることがわかった。 このDP-SGDのクリッピングとノイズ付加ステップの分離分析により、ノイズはプロセスにエラーをもたらすが、クリッピングされていない場合には勾配降下はこれらのエラーから回復し、クリッピングはノイズよりも大きな影響を持つことが示された。 これらの効果は、損失盆地が低次元空間を占める高次元(大規模ニューラルネットワーク)で増幅される。 理論的に論じ,広範にわたる実験により,大切削は寸法低減技術として適しており,重切削がDPSGDのテスト精度を向上させることが確認された。

Differentially private stochastic gradient descent (DP-SGD) is known to have poorer training and test performance on large neural networks, compared to ordinary stochastic gradient descent (SGD). In this paper, we perform a detailed study and comparison of the two processes and unveil several new insights. By comparing the behavior of the two processes separately in early and late epochs, we find that while DP-SGD makes slower progress in early stages, it is the behavior in the later stages that determines the end result. This separate analysis of the clipping and noise addition steps of DP-SGD shows that while noise introduces errors to the process, gradient descent can recover from these errors when it is not clipped, and clipping appears to have a larger impact than noise. These effects are amplified in higher dimensions (large neural networks), where the loss basin occupies a lower dimensional space. We argue theoretically and using extensive experiments that magnitude pruning can be a suitable dimension reduction technique in this regard, and find that heavy pruning can improve the test accuracy of DPSGD.
翻訳日:2023-11-14 16:43:05 公開日:2023-11-12
# giellm:相互強化効果を利用した日本語一般情報抽出大言語モデル

GIELLM: Japanese General Information Extraction Large Language Model Utilizing Mutual Reinforcement Effect ( http://arxiv.org/abs/2311.06838v1 )

ライセンス: Link先を確認
Chengguang Gan, Qinghao Zhang, Tatsunori Mori(参考訳) 情報抽出(IE)は自然言語処理の基盤であり、伝統的に異なるサブタスクに分類される。 大規模言語モデル(llms)の出現はパラダイムシフトを象徴し、複数のieサブタスクに対応する特異モデルの実現可能性を示している。 本稿では,テキスト分類,感性分析,名前付きエンティティ認識,関係抽出,イベント抽出を統一的な入力出力スキーマを用いて統合した汎用情報抽出大言語モデル(GIELLM)を提案する。 このイノベーションは、このような多様なIEサブタスクを同時に扱うモデルの最初の例である。 特に、GIELLMはMRE(Mutual Reinforcement Effect)を活用し、独立したタスクに比べて統合タスクのパフォーマンスを向上させる。 GPT-3.5-Turboをはるかに上回る6つの混合データセットのうち5つは、SOTA(State-of-the-Art)の結果を示す。 さらに、新しいテキスト分類関係とイベント抽出(TCREE)データセットを用いた独立評価は、テキスト分類と単語分類におけるMREの相乗効果を裏付けるものである。 このブレークスルーは、ほとんどのIEサブタスクが単一のLLMフレームワークで仮定される方法を示している。 特別な微調整タスク特化モデルはもはや不要である。

Information Extraction (IE) stands as a cornerstone in natural language processing, traditionally segmented into distinct sub-tasks. The advent of Large Language Models (LLMs) heralds a paradigm shift, suggesting the feasibility of a singular model addressing multiple IE subtasks. In this vein, we introduce the General Information Extraction Large Language Model (GIELLM), which integrates text Classification, Sentiment Analysis, Named Entity Recognition, Relation Extraction, and Event Extraction using a uniform input-output schema. This innovation marks the first instance of a model simultaneously handling such a diverse array of IE subtasks. Notably, the GIELLM leverages the Mutual Reinforcement Effect (MRE), enhancing performance in integrated tasks compared to their isolated counterparts. Our experiments demonstrate State-of-the-Art (SOTA) results in five out of six Japanese mixed datasets, significantly surpassing GPT-3.5-Turbo. Further, an independent evaluation using the novel Text Classification Relation and Event Extraction(TCREE) dataset corroborates the synergistic advantages of MRE in text and word classification. This breakthrough paves the way for most IE subtasks to be subsumed under a singular LLM framework. Specialized fine-tune task-specific models are no longer needed.
翻訳日:2023-11-14 16:42:41 公開日:2023-11-12
# GraNNDis: 大規模クラスタ上でのディープGNNのための効率的な統一分散トレーニングフレームワーク

GraNNDis: Efficient Unified Distributed Training Framework for Deep GNNs on Large Clusters ( http://arxiv.org/abs/2311.06837v1 )

ライセンス: Link先を確認
Jaeyong Song, Hongsun Jang, Jaewon Jung, Youngsok Kim, Jinho Lee(参考訳) グラフニューラルネットワーク(GNN)は、ディープラーニングにおいて最も急速に成長している分野の1つである。 データセットの成長とGNNで使用されるモデルサイズによると、重要な問題は、ネットワーク全体をGPUメモリ上に保持することがほぼ不可能になることだ。 多くの試みの中で、分散トレーニングはこの問題に対処するための一般的なアプローチである。 しかし、GNNの性質のため、既存の分散アプローチはスケーラビリティが悪く、主に外部サーバの通信が遅いためである。 本稿では,大規模グラフおよび深層層上でGNNを学習するための分散GNNトレーニングフレームワークであるGraNNDisを提案する。 GraNNDisは3つの新しいテクニックを導入した。 まず、共有プリローディングはマルチgpuサーバのクラスタのトレーニング構造を提供する。 低帯域の外部サーバ通信を減らすために,本質的な頂点依存性のサーバワイドプリロードを提案する。 第2に,拡張対応サンプリングを提案する。 共有プリロードだけでは、隣の爆発のために制限があるため、拡張対応サンプリングは、サーバ境界を越えた頂点依存性を減らす。 第3に、フルグラフおよびミニバッチトレーニングのための統合フレームワークを作成するための協調的バッチ化を提案する。 ミニバッチトレーニングにおける冗長メモリ使用量を大幅に削減する。 これによりGraNNDisは、特にグラフ全体がGPUメモリに収まらない場合の統一を通じて、フルグラフとミニバッチトレーニングの間の合理的なトレードオフを可能にする。 マルチサーバ/マルチGPUクラスタ上での実験により、GraNNDisは最先端の分散GNNトレーニングフレームワークよりも優れたスピードアップを提供することを示した。

Graph neural networks (GNNs) are one of the most rapidly growing fields within deep learning. According to the growth in the dataset and the model size used for GNNs, an important problem is that it becomes nearly impossible to keep the whole network on GPU memory. Among numerous attempts, distributed training is one popular approach to address the problem. However, due to the nature of GNNs, existing distributed approaches suffer from poor scalability, mainly due to the slow external server communications. In this paper, we propose GraNNDis, an efficient distributed GNN training framework for training GNNs on large graphs and deep layers. GraNNDis introduces three new techniques. First, shared preloading provides a training structure for a cluster of multi-GPU servers. We suggest server-wise preloading of essential vertex dependencies to reduce the low-bandwidth external server communications. Second, we present expansion-aware sampling. Because shared preloading alone has limitations because of the neighbor explosion, expansion-aware sampling reduces vertex dependencies that span across server boundaries. Third, we propose cooperative batching to create a unified framework for full-graph and minibatch training. It significantly reduces redundant memory usage in mini-batch training. From this, GraNNDis enables a reasonable trade-off between full-graph and mini-batch training through unification especially when the entire graph does not fit into the GPU memory. With experiments conducted on a multi-server/multi-GPU cluster, we show that GraNNDis provides superior speedup over the state-of-the-art distributed GNN training frameworks.
翻訳日:2023-11-14 16:42:19 公開日:2023-11-12
# 正規構造正規化による開集合グラフ異常検出

Open-Set Graph Anomaly Detection via Normal Structure Regularisation ( http://arxiv.org/abs/2311.06835v1 )

ライセンス: Link先を確認
Qizhou Wang, Guansong Pang, Mahsa Salehi, Wray Buntine, Christopher Leckie(参考訳) 本稿では,少数のラベル付きトレーニング正規ノードと,可能なすべての異常を説明できない異常ノード(異常として見られる)を用いて異常ノードを検出することを目的とした,未探索のグラフ異常検出(GAD)タスク,すなわちオープンセットGADについて考察する。 このタスクは、検出エラーを実質的に低減できるラベル情報からの異常事前知識が利用可能であることから、注目を集めている。 しかし、現在の手法は見かけの異常を過度に強調する傾向があるため、見当たらない異常、すなわちラベル付き異常ノードによって示されない異常を検出するための弱い一般化能力をもたらす。 さらに、これらはユークリッドデータを扱うために導入され、GADの重要な非ユークリッド特徴を効果的に捉えられなかった。 本研究では,ラベル付きノードに埋め込まれたリッチな正規グラフ構造を利用して,上記の2つの問題に対処する,新しいオープンセットGAD手法,すなわち正規構造正規化(NSReg)を提案する。 特にnsregは、正規ノードのコンパクトで意味的にリッチな表現を強制するためにプラグ・アンド・プレイ正規化項を用いて、異常識別教師付きグラフ異常検出器を訓練する。 この目的のために、正規化は、ローカルに接続されたラベル付き正常ノードや接続されていないノードを含む、様々な種類の正常ノードを区別するように設計されている。 これにより、監督された異常検出学習に強い正規性を組み込むことができ、その過度な異常を軽減できる。 実世界のデータセットに関する広範な実験結果から,提案するnsregのオープンセットgadに対する優位性が示された。

This paper considers an under-explored Graph Anomaly Detection (GAD) task, namely open-set GAD, which aims to detect anomalous nodes using a small number of labelled training normal and anomaly nodes (known as seen anomalies) that cannot illustrate all possible inference-time abnormalities. The task has attracted growing attention due to the availability of anomaly prior knowledge from the label information that can help to substantially reduce detection errors. However, current methods tend to over-emphasise fitting the seen anomalies, leading to a weak generalisation ability to detect unseen anomalies, i.e., those that are not illustrated by the labelled anomaly nodes. Further, they were introduced to handle Euclidean data, failing to effectively capture important non-Euclidean features for GAD. In this work, we propose a novel open-set GAD approach, namely normal structure regularisation (NSReg), to leverage the rich normal graph structure embedded in the labelled nodes to tackle the aforementioned two issues. In particular, NSReg trains an anomaly-discriminative supervised graph anomaly detector, with a plug-and-play regularisation term to enforce compact, semantically-rich representations of normal nodes. To this end, the regularisation is designed to differentiate various types of normal nodes, including labelled normal nodes that are connected in their local neighbourhood, and those that are not connected. By doing so, it helps incorporate strong normality into the supervised anomaly detector learning, mitigating their overfitting to the seen anomalies. Extensive empirical results on real-world datasets demonstrate the superiority of our proposed NSReg for open-set GAD.
翻訳日:2023-11-14 16:41:56 公開日:2023-11-12
# 画像分割と自己監督学習を用いた手関節X線による骨粗しょう症の予測

Osteoporosis Prediction from Hand and Wrist X-rays using Image Segmentation and Self-Supervised Learning ( http://arxiv.org/abs/2311.06834v1 )

ライセンス: Link先を確認
Hyungeun Lee, Ung Hwang, Seungwon Yu, Chang-Hun Lee, Kijung Yoon(参考訳) 骨粗しょう症は, 骨密度(BMD)検査に制限があるため, 診断も治療も行われていないが, 骨粗しょう症は慢性的なメタボリック骨疾患である。 この課題への対応として, 骨粗しょう症検出に向けた最近の進歩は, 費用や時間を追加することなく, スクリーニング率を高めることを目的として, 末梢骨領域からの代替指標を検査することによって行われている。 本稿では,手や手首のx線画像を用いて骨ポローシスを予測する手法を提案するが,dxaデータとの関連は十分に検討されていない。 まず, 画像分割のための基礎モデルを用いて尺骨, 半径, 中手骨を分割した。 そこで我々は,自己指導型学習手法を用いて,明示的なラベルを必要とせずに意味のある表現を抽出し,さらに指導的な方法で骨粗しょう症を分類する。 本手法は192名を対象に, 標準的なDXA試験と比較し, 骨粗しょう症の診断条件を相互参照した。 特筆すべき分類スコア (AUC=0.83) を用いて, 周辺骨格の骨粗しょう症同定に視覚を用いた手法を応用するための先駆的な試みを示す。

Osteoporosis is a widespread and chronic metabolic bone disease that often remains undiagnosed and untreated due to limited access to bone mineral density (BMD) tests like Dual-energy X-ray absorptiometry (DXA). In response to this challenge, current advancements are pivoting towards detecting osteoporosis by examining alternative indicators from peripheral bone areas, with the goal of increasing screening rates without added expenses or time. In this paper, we present a method to predict osteoporosis using hand and wrist X-ray images, which are both widely accessible and affordable, though their link to DXA-based data is not thoroughly explored. Initially, our method segments the ulnar, radius, and metacarpal bones using a foundational model for image segmentation. Then, we use a self-supervised learning approach to extract meaningful representations without the need for explicit labels, and move on to classify osteoporosis in a supervised manner. Our method is evaluated on a dataset with 192 individuals, cross-referencing their verified osteoporosis conditions against the standard DXA test. With a notable classification score (AUC=0.83), our model represents a pioneering effort in leveraging vision-based techniques for osteoporosis identification from the peripheral skeleton sites.
翻訳日:2023-11-14 16:41:29 公開日:2023-11-12
# 四足歩行ロボットの連続強化学習に向けて

Towards Continual Reinforcement Learning for Quadruped Robots ( http://arxiv.org/abs/2311.06828v1 )

ライセンス: Link先を確認
Giovanni Minelli and Vassilis Vassiliades(参考訳) 四足歩行ロボットは、現在シミュレーターを利用して、さらなる訓練を必要とせずに現実世界で機能するロバストなコントローラーを開発する進化する技術として登場している。 しかし,実世界のあらゆる状況を予測することは不可能であるため,本研究では,展開後も学習を継続できる可能性を探究する。 そこで我々は,2つの連続学習シナリオを設計し,ロボットを異なる環境で順次訓練し,その性能を同時に評価した。 われわれのアプローチは、前向きと後向きの両方のスキル伝達の程度と、ロボットが以前獲得したスキルを忘れる程度に光を当てている。 これらの要因に対処することで、現実のシナリオにおける四足ロボットの適応性と性能の向上を期待する。

Quadruped robots have emerged as an evolving technology that currently leverages simulators to develop a robust controller capable of functioning in the real-world without the need for further training. However, since it is impossible to predict all possible real-world situations, our research explores the possibility of enabling them to continue learning even after their deployment. To this end, we designed two continual learning scenarios, sequentially training the robot on different environments while simultaneously evaluating its performance across all of them. Our approach sheds light on the extent of both forward and backward skill transfer, as well as the degree to which the robot might forget previously acquired skills. By addressing these factors, we hope to enhance the adaptability and performance of quadruped robots in real-world scenarios.
翻訳日:2023-11-14 16:41:06 公開日:2023-11-12
# フィードバック信号を用いた多段深層分類器の訓練

Training A Multi-stage Deep Classifier with Feedback Signals ( http://arxiv.org/abs/2311.06823v1 )

ライセンス: Link先を確認
Chao Xu, Yu Yang, Rongzhao Wang, Guan Wang, Bojia Lin(参考訳) 多段階分類器(multi-stage classifier, msc) - 整列した順序で順次動作し、各ステップで分類決定を行ういくつかの分類器は、様々な資源制限のために工業用途で広く使われている。 多段階プロセスの分類器は通常、後段からの信号を考慮せずに独立に、または推論順序で訓練されたニューラルネットワーク(NN)モデルである。 最も一般的なMSCである2段階のバイナリ分類プロセスを対象として,フィードバックトレーニングという新しいトレーニングフレームワークを提案する。 分類器は実際の作業順序とは逆の順序で訓練され、後期段階の分類器はサンプル重み付け法により初期段階分類器の訓練を導くために使用される。 提案手法の有効性を実験的に明らかにし, 数発訓練のシナリオにおいて, その優れた性能を示す。

Multi-Stage Classifier (MSC) - several classifiers working sequentially in an arranged order and classification decision is partially made at each step - is widely used in industrial applications for various resource limitation reasons. The classifiers of a multi-stage process are usually Neural Network (NN) models trained independently or in their inference order without considering the signals from the latter stages. Aimed at two-stage binary classification process, the most common type of MSC, we propose a novel training framework, named Feedback Training. The classifiers are trained in an order reverse to their actual working order, and the classifier at the later stage is used to guide the training of initial-stage classifier via a sample weighting method. We experimentally show the efficacy of our proposed approach, and its great superiority under the scenario of few-shot training.
翻訳日:2023-11-14 16:40:53 公開日:2023-11-12
# Cricket Player Profiling:テキストコメンタリーデータによる強度と弱さの解明

Cricket Player Profiling: Unraveling Strengths and Weaknesses Using Text Commentary Data ( http://arxiv.org/abs/2311.06818v1 )

ライセンス: Link先を確認
Swarup Ranjan Behera and Vijaya V. Saradhi(参考訳) クリケットでプレイヤー固有の戦略を開発するには、各プレイヤーの固有の強みと弱点を慎重に理解する必要がある。 しかし、クリケット選手からそのような洞察を抽出するための決定的な計算手法が存在しないことは、大きな課題である。 本稿では,プレイヤーの強みと弱みを規定するルールを抽出する計算モデルを構築し,個々のプレイヤーに適した戦略の開発を容易にすることにより,このギャップに対処することを目的とする。 この取り組みの複雑さは、適切なデータセットの選択、強度と弱みの規則の正確な定義、適切な学習アルゴリズムの同定、派生したルールの検証など、いくつかの重要な領域にある。 これらの課題に対処するために,クリケット選手の包括的強みと弱みを規定する貴重な資料として,非構造化データ,特にクリケットテキストコメンタリーの利用を提案する。 また,これらのルール構築のための計算可能な定義を導入し,ルール構築プロセスの次元削減手法を提案する。 このアプローチの実用性を示すために,100万以上のテキストコメンタリーからなる膨大なコーパスを用いてクリケット選手の強さと弱点を詳細に分析する。 さらに,本質的と外部的という2つの異なる方法論によって構築された規則を検証する。 この研究の結果は、収集されたデータ、ソースコード、250以上のクリケットプレーヤーに対する結果など、公開的にアクセス可能となり、https://bit.ly/2PKuzx8でアクセスできる。

Devising player-specific strategies in cricket necessitates a meticulous understanding of each player's unique strengths and weaknesses. Nevertheless, the absence of a definitive computational approach to extract such insights from cricket players poses a significant challenge. This paper seeks to address this gap by establishing computational models designed to extract the rules governing player strengths and weaknesses, thereby facilitating the development of tailored strategies for individual players. The complexity of this endeavor lies in several key areas: the selection of a suitable dataset, the precise definition of strength and weakness rules, the identification of an appropriate learning algorithm, and the validation of the derived rules. To tackle these challenges, we propose the utilization of unstructured data, specifically cricket text commentary, as a valuable resource for constructing comprehensive strength and weakness rules for cricket players. We also introduce computationally feasible definitions for the construction of these rules, and present a dimensionality reduction technique for the rule-building process. In order to showcase the practicality of this approach, we conduct an in-depth analysis of cricket player strengths and weaknesses using a vast corpus of more than one million text commentaries. Furthermore, we validate the constructed rules through two distinct methodologies: intrinsic and extrinsic. The outcomes of this research are made openly accessible, including the collected data, source code, and results for over 250 cricket players, which can be accessed at https://bit.ly/2PKuzx8.
翻訳日:2023-11-14 16:40:38 公開日:2023-11-12
# 深部ニューラルネットワークにおける空間接続性について

On original and latent space connectivity in deep neural networks ( http://arxiv.org/abs/2311.06816v1 )

ライセンス: Link先を確認
Boyang Gu, Anastasia Borovykh(参考訳) 同一クラスからの入力が、元の表現空間や潜在表現空間において連続経路で接続可能かどうかを、ニューラルネットワークモデルによって同一クラスにマッピングされるように検討する。 ニューラルネットワークが自身の入力空間をどのように見ているか、潜在空間がどのように構造化されているかを理解することは、説明可能性と堅牢性に価値がある。 同一クラス入力を接続する経路は,すべての場合において,線形あるいは非線形に存在することを示す。

We study whether inputs from the same class can be connected by a continuous path, in original or latent representation space, such that all points on the path are mapped by the neural network model to the same class. Understanding how the neural network views its own input space and how the latent spaces are structured has value for explainability and robustness. We show that paths, linear or nonlinear, connecting same-class inputs exist in all cases studied.
翻訳日:2023-11-14 16:40:11 公開日:2023-11-12
# 胸部X線印象生成のためのGPT-4の評価:パフォーマンスと知覚に関する読者研究

Evaluation of GPT-4 for chest X-ray impression generation: A reader study on performance and perception ( http://arxiv.org/abs/2311.06815v1 )

ライセンス: Link先を確認
Sebastian Ziegelmayer, Alexander W. Marka, Nicolas Lenhart, Nadja Nehls, Stefan Reischl, Felix Harder, Andreas Sauter, Marcus Makowski, Markus Graf, and Joshua Gawlitza(参考訳) マルチモーダル基礎モデルの顕著な生成能力は、現在様々なアプリケーションで検討されている。 放射線学的インプレッションの生成は、放射線科医の作業負荷を大幅に削減できる課題である。 本研究は胸部x線インプレッション生成のためのgpt-4生成能の検討と解析を行った。 異なる入力モダリティ(画像,テキスト,テキスト,画像)に基づいて胸部X線の印象を生成・評価するために,公用NIHデータセットの25ケースについて盲検放射線学レポートを作成した。 GPT-4は、入力依存的な印象を生成するために、画像、検索部または両方を順次与えた。 盲目のランダム化読解では、4人の放射線学者が印象を評価され、印象の起源(Human, AI)を分類するよう求められ、その決定を正当化した。 最後に,テキストモデル評価指標と放射線学的スコア(4次元推定)との相関について検討した。 放射線学的評価では、人間による印象は高い評価を受けたが、テキストによる印象とは大きく異なるものではない。 自動評価尺度では, 画像印象に対する放射線学的評価値とある程度の相関がみられたが, 個々のスコアは入力間で高い差があり, 放射線学的品質の表現が不十分であった。 AI生成インプレッションの検出は入力によって異なり,テキストベースインプレッションでは61%であった。 AI生成と分類された印象は、放射線学者によって書かれたときでさえ非常に悪い放射線学的スコアを示し、潜在的なバイアスを示している。 本研究は,放射線学的評価とモデル入力による一般的な自動評価指標との間に有意な相違を認めた。 AIによって生成された発見の検出は、高い評価を受けた印象が人間によって書かれたと認識されるバイアスを受ける。

The remarkable generative capabilities of multimodal foundation models are currently being explored for a variety of applications. Generating radiological impressions is a challenging task that could significantly reduce the workload of radiologists. In our study we explored and analyzed the generative abilities of GPT-4 for Chest X-ray impression generation. To generate and evaluate impressions of chest X-rays based on different input modalities (image, text, text and image), a blinded radiological report was written for 25-cases of the publicly available NIH-dataset. GPT-4 was given image, finding section or both sequentially to generate an input dependent impression. In a blind randomized reading, 4-radiologists rated the impressions and were asked to classify the impression origin (Human, AI), providing justification for their decision. Lastly text model evaluation metrics and their correlation with the radiological score (summation of the 4 dimensions) was assessed. According to the radiological score, the human-written impression was rated highest, although not significantly different to text-based impressions. The automated evaluation metrics showed moderate to substantial correlations to the radiological score for the image impressions, however individual scores were highly divergent among inputs, indicating insufficient representation of radiological quality. Detection of AI-generated impressions varied by input and was 61% for text-based impressions. Impressions classified as AI-generated had significantly worse radiological scores even when written by a radiologist, indicating potential bias. Our study revealed significant discrepancies between a radiological assessment and common automatic evaluation metrics depending on the model input. The detection of AI-generated findings is subject to bias that highly rated impressions are perceived as human-written.
翻訳日:2023-11-14 16:40:03 公開日:2023-11-12
# 難易度変化問題に対する質問書き換えシステムのロバスト性について

On the Robustness of Question Rewriting Systems to Questions of Varying Hardness ( http://arxiv.org/abs/2311.06807v1 )

ライセンス: Link先を確認
Hai Ye and Hwee Tou Ng and Wenjuan Han(参考訳) 会話型質問応答(CQA)では、コンテキストにおける質問書き換えのタスク~(QR)は、コンテキストに依存した質問を、同じ答えを与える同等の自己完結した質問に書き換えることを目的としている。 本稿では,難易度や難易度が異なる質問に対するQRシステムの堅牢性に関心がある。 書き直し難易度に基づいて分類された質問の欠如から,まず,質問と書き直しの相違を計測することにより,質問を様々な難易度のサブセットに自動的に分類するヒューリスティック手法を提案する。 質問の書き直しの難しさや難易度を知るために、質問の書き直し難しさを注釈付けするために人間の評価を行う。 最後に, QRシステムの堅牢性を, 様々な難易度を問う質問に高めるために, まず, 特定の難易度の質問のサブセットに対して, QRモデルを独立に訓練する新しいQR学習フレームワークを提案し, そして, これらのQRモデルを推論のジョイントモデルとして組み合わせた。 2つのデータセットに対する実験結果から,本フレームワークはベースラインに比べて全体的なパフォーマンスを向上することが示された。

In conversational question answering (CQA), the task of question rewriting~(QR) in context aims to rewrite a context-dependent question into an equivalent self-contained question that gives the same answer. In this paper, we are interested in the robustness of a QR system to questions varying in rewriting hardness or difficulty. Since there is a lack of questions classified based on their rewriting hardness, we first propose a heuristic method to automatically classify questions into subsets of varying hardness, by measuring the discrepancy between a question and its rewrite. To find out what makes questions hard or easy for rewriting, we then conduct a human evaluation to annotate the rewriting hardness of questions. Finally, to enhance the robustness of QR systems to questions of varying hardness, we propose a novel learning framework for QR that first trains a QR model independently on each subset of questions of a certain level of hardness, then combines these QR models as one joint model for inference. Experimental results on two datasets show that our framework improves the overall performance compared to the baselines.
翻訳日:2023-11-14 16:39:34 公開日:2023-11-12
# ネパールにおけるstemmedデータとnon-stemmedデータを用いた妊娠チャットボットの検索と生成 : 比較研究

Retrieval and Generative Approaches for a Pregnancy Chatbot in Nepali with Stemmed and Non-Stemmed Data : A Comparative Study ( http://arxiv.org/abs/2311.06898v1 )

ライセンス: Link先を確認
Sujan Poudel, Nabin Ghimire, Bipesh Subedi, Saugat Singh(参考訳) 人間の言語をサポートするために人工知能を使用する自然言語処理の分野は、その高品質な特徴から、大きな成長を遂げている。 言語翻訳、チャットボット、バーチャルアシスタント、検索オートコンプリート、オートコレクトといった応用は、医療、広告、カスタマーサービス、ターゲット広告など様々な分野で広く利用されている。 健康ドメインチャットボットが提案されている妊娠関連情報を提供するため、本研究は2つの異なるnlpベースのチャットボットの開発方法を検討する。 第1のアプローチは、BERTに基づく多言語BERTと多言語DistilBERTを用いたマルチクラス分類に基づく検索手法である。 ネパール語におけるステムドデータセットと非ステムドデータセットのパフォーマンスを,それぞれのアプローチで分析した。 実験結果から,BERTをベースとした事前学習モデルでは,スクラッチトランスフォーマーモデルの方がステムデータでは良好な性能を示した。 DistilBERTモデルをテストしたモデルのうち、非学習データセット上の検索ベースモデルアーキテクチャの実装において、最高のトレーニングと検証の精度とテスト精度が0.9165に達した。 同様に、トランス1グラムBLEUと2グラムBLEUスコア0.3570と0.1413の生成的アプローチアーキテクチャ実装が達成された。

The field of Natural Language Processing which involves the use of artificial intelligence to support human languages has seen tremendous growth due to its high-quality features. Its applications such as language translation, chatbots, virtual assistants, search autocomplete, and autocorrect are widely used in various domains including healthcare, advertising, customer service, and target advertising. To provide pregnancy-related information a health domain chatbot has been proposed and this work explores two different NLP-based approaches for developing the chatbot. The first approach is a multiclass classification-based retrieval approach using BERTbased multilingual BERT and multilingual DistilBERT while the other approach employs a transformer-based generative chatbot for pregnancy-related information. The performance of both stemmed and non-stemmed datasets in Nepali language has been analyzed for each approach. The experimented results indicate that BERT-based pre-trained models perform well on non-stemmed data whereas scratch transformer models have better performance on stemmed data. Among the models tested the DistilBERT model achieved the highest training and validation accuracy and testing accuracy of 0.9165 on the retrieval-based model architecture implementation on the non-stemmed dataset. Similarly, in the generative approach architecture implementation with transformer 1 gram BLEU and 2 gram BLEU scores of 0.3570 and 0.1413 respectively were achieved.
翻訳日:2023-11-14 16:32:07 公開日:2023-11-12
# ベクトル自己回帰モデルを用いた交通量に対する気象・周辺交通流の影響解析

An Application of Vector Autoregressive Model for Analyzing the Impact of Weather And Nearby Traffic Flow On The Traffic Volume ( http://arxiv.org/abs/2311.06894v1 )

ライセンス: Link先を確認
Anh Thi-Hoang Nguyen, Dung Ha Nguyen, Trong-Hop Do(参考訳) 本稿では,付近の交通量と気象条件に基づいて,ある道路区間における交通流を予測することを目的とする。 また、気象条件や付近の交通量が目標地点の交通量に与える影響についても調査した。 分析結果は,交通流予測の課題を解決し,効率的な交通移動と交通渋滞を最小限に抑える最適な交通ネットワークの構築に寄与する。 この問題を解決するために、時間毎の天候と交通の流れデータを選択する。 本稿では,データセットと予測のトレーニングに時間的傾向と定数を持つモデルVAR(36)を用いる。 RMSEは平均565.0768111であり、いくつかの統計テストでは残留物が不安定で非正常であることが示唆されているが、適切なモデルと考えられている。 また,予測システム構築時のデータ収集プロセスの簡略化を支援するため,予測に役に立たない変数についても指摘する。

This paper aims to predict the traffic flow at one road segment based on nearby traffic volume and weather conditions. Our team also discover the impact of weather conditions and nearby traffic volume on the traffic flow at a target point. The analysis results will help solve the problem of traffic flow prediction and develop an optimal transport network with efficient traffic movement and minimal traffic congestion. Hourly historical weather and traffic flow data are selected to solve this problem. This paper uses model VAR(36) with time trend and constant to train the dataset and forecast. With an RMSE of 565.0768111 on average, the model is considered appropriate although some statistical tests implies that the residuals are unstable and non-normal. Also, this paper points out some variables that are not useful in forecasting, which helps simplify the data-collecting process when building the forecasting system.
翻訳日:2023-11-14 16:31:44 公開日:2023-11-12
# サッカービデオにおけるロングショットリアルタイムプレーヤのベースライン設定とボール検出

Setting a Baseline for long-shot real-time Player and Ball detection in Soccer Videos ( http://arxiv.org/abs/2311.06892v1 )

ライセンス: Link先を確認
Konstantinos Moutselos, Ilias Maglogiannis(参考訳) プレーヤーとボール検出は、フットボール分析プラットフォームで最初に必要とされるステップである。 最近まで、ほとんどのモデルの評価に基づいていた既存のオープンデータセットでは不十分だった。 本稿では,それらの弱点を指摘するとともに,stewartnet v3の出現とともに,そのデータセットの編集部分であるyolo正規化アノテーション形式によるトレーニング・評価を提案し,コミュニティに届ける。 メソッドとメトリクスのコードは、将来の比較でベンチマークとして使用できるように提供されている。 最近のYOLO8nモデルは、フットボール場でのボールと選手の長時間のリアルタイム検出において、フットアンドボールより優れていることを証明している。

Players and ball detection are among the first required steps on a football analytics platform. Until recently, the existing open datasets on which the evaluations of most models were based, were not sufficient. In this work, we point out their weaknesses, and with the advent of the SoccerNet v3, we propose and deliver to the community an edited part of its dataset, in YOLO normalized annotation format for training and evaluation. The code of the methods and metrics are provided so that they can be used as a benchmark in future comparisons. The recent YOLO8n model proves better than FootAndBall in long-shot real-time detection of the ball and players on football fields.
翻訳日:2023-11-14 16:31:30 公開日:2023-11-12
# グラフニューラルネットワークにおけるノードレベルのプライバシ保護

Preserving Node-level Privacy in Graph Neural Networks ( http://arxiv.org/abs/2311.06888v1 )

ライセンス: Link先を確認
Zihang Xiang, Tianhao Wang, Di Wang(参考訳) ディファレンシャルプライバシ(dp)は、インスタンスレベルのプライバシが関係する表、イメージ、シーケンシャルデータで学習する上で、非常に多くの応用がある。 グラフの学習では、ノードレベルのプライバシに関する作業は非常に少ない。 既存のDPプロトコルがグラフニューラルネットワーク(GNN)のメッセージパッシング機構にはほとんど適用されないため、課題が生じる。 本研究では,ノードレベルのプライバシの問題に対処するソリューションを提案する。 私たちのプロトコルは2つの主要コンポーネントから構成されています。 1) 特定のノードサンプリング戦略と一連の調整された操作を用いて所望の特性を持つサブグラフのバッチを生成するHeterPoissonというサンプリングルーチン 2) 一般的なガウス雑音の代わりに対称多変量ラプラス雑音(SML)を用いるランダム化ルーチン。 われわれのプライバシー会計は、この組み合わせがプライバシーの保証を提供することを示している。 さらに,本プロトコルは,実世界の5つのデータセットを用いた実験で示されるように,gnn学習を優れたパフォーマンスで実現している。 実験的にも 1)我々のプロトコルに対する会員推測攻撃を行い、 2)プライバシ監査手法を適用して,プロトコルのプライバシ整合性を確認する。 続編では,ノードレベルのプライバシを差分的にプライベートなノード/インスタンスの埋め込みを通じて保護する,一見魅力的なアプローチであるuse{sajadmanesh2023gap} (USENIX'23) について述べる。 残念ながら、このような研究には基本的なプライバシーの欠陥があり、徹底したケーススタディによって特定される。 さらに重要なことは、プライベートインスタンスの埋め込みによって(強力な)プライバシと(受け入れ可能な)ユーティリティの両方を達成することが不可能であることを証明します。 このようなアプローチは、差分プライバシーを強制する際、本質的に実用上の障壁を持つ。

Differential privacy (DP) has seen immense applications in learning on tabular, image, and sequential data where instance-level privacy is concerned. In learning on graphs, contrastingly, works on node-level privacy are highly sparse. Challenges arise as existing DP protocols hardly apply to the message-passing mechanism in Graph Neural Networks (GNNs). In this study, we propose a solution that specifically addresses the issue of node-level privacy. Our protocol consists of two main components: 1) a sampling routine called HeterPoisson, which employs a specialized node sampling strategy and a series of tailored operations to generate a batch of sub-graphs with desired properties, and 2) a randomization routine that utilizes symmetric multivariate Laplace (SML) noise instead of the commonly used Gaussian noise. Our privacy accounting shows this particular combination provides a non-trivial privacy guarantee. In addition, our protocol enables GNN learning with good performance, as demonstrated by experiments on five real-world datasets; compared with existing baselines, our method shows significant advantages, especially in the high privacy regime. Experimentally, we also 1) perform membership inference attacks against our protocol and 2) apply privacy audit techniques to confirm our protocol's privacy integrity. In the sequel, we present a study on a seemingly appealing approach \cite{sajadmanesh2023gap} (USENIX'23) that protects node-level privacy via differentially private node/instance embeddings. Unfortunately, such work has fundamental privacy flaws, which are identified through a thorough case study. More importantly, we prove an impossibility result of achieving both (strong) privacy and (acceptable) utility through private instance embedding. The implication is that such an approach has intrinsic utility barriers when enforcing differential privacy.
翻訳日:2023-11-14 16:31:17 公開日:2023-11-12
# ユーザニーズを予想する: コンピュータ思考のための会話エージェントの設計から

Anticipating User Needs: Insights from Design Fiction on Conversational Agents for Computational Thinking ( http://arxiv.org/abs/2311.06887v1 )

ライセンス: Link先を確認
Jacob Penney, Jo\~ao Felipe Pimentel, Igor Steinmacher, Marco A. Gerosa(参考訳) コンピュータ思考、そして拡張によって、コンピュータプログラミングは学習するのが非常に難しい。 対話エージェントと生成人工知能(genAI)は、パーソナライズされたガイダンス、対話型学習体験、コード生成を提供することで、この学習プロセスを促進する可能性がある。 しかし、現在のgenAIベースのチャットボットはプロの開発者に焦点を当てており、教育的ニーズを十分に考慮していない可能性がある。 教育ツールの構想に教育者を巻き込むことは、有用性とユーザビリティを確保するために重要である。 我々は,genAIが支援する会話エージェントが表示するような,デザインフィクションのセッションに参加するために,numParticipants{}インストラクターを募集した。 参加者は、演習を通じて学生を段階的に指導する会話エージェントを構想し、その指導方法を教育的背景、スキルと欠陥、学習の好みを意識して調整した。 本稿では,計算思考とコンピュータプログラミングの教育を指向した学習エージェントの今後の実装について考察する。

Computational thinking, and by extension, computer programming, is notoriously challenging to learn. Conversational agents and generative artificial intelligence (genAI) have the potential to facilitate this learning process by offering personalized guidance, interactive learning experiences, and code generation. However, current genAI-based chatbots focus on professional developers and may not adequately consider educational needs. Involving educators in conceiving educational tools is critical for ensuring usefulness and usability. We enlisted \numParticipants{} instructors to engage in design fiction sessions in which we elicited abilities such a conversational agent supported by genAI should display. Participants envisioned a conversational agent that guides students stepwise through exercises, tuning its method of guidance with an awareness of the educational background, skills and deficits, and learning preferences. The insights obtained in this paper can guide future implementations of tutoring conversational agents oriented toward teaching computational thinking and computer programming.
翻訳日:2023-11-14 16:30:49 公開日:2023-11-12
# pFedES:特徴外共有を用いたモデル不均一な個人化フェデレーション学習

pFedES: Model Heterogeneous Personalized Federated Learning with Feature Extractor Sharing ( http://arxiv.org/abs/2311.06879v1 )

ライセンス: Link先を確認
Liping Yi, Han Yu, Gang Wang, Xiaoguang Liu(参考訳) プライバシーを保全する機械学習パラダイムとして、フェデレーション学習(fl)は学界や業界からも大きな関心を集めている。 各データ所有者(FLクライアント)が、そのローカルデータ分布、システムリソース、モデル構造に対する要求に基づいて、異種でパーソナライズされたローカルモデルをトレーニングできるようにするため、モデル-異種パーソナライズド・フェデレーション・ラーニング(MHPFL)の分野が出現した。 既存のMHPFLアプローチは、知識伝達を促進するために特別な特徴を持つ公開データセットの可用性に頼るか、高い計算と通信コストを発生させるか、潜在的なモデル漏洩リスクに直面している。 これらの制限に対処するため,我々は特徴抽出子共有(pfedes)に基づくモデルヘテロジェンス型フェデレーション学習手法を提案する。 各クライアントのヘテロジニアスなローカルモデルに小さな均質な特徴抽出器を組み込む。 クライアントは提案した反復学習手法により、グローバルな一般化された知識とローカルなパーソナライズされた知識の交換を可能にする。 ローカルトレーニング後に生成された小さな局所同質抽出器をFLサーバにアップロードし、クライアント間の知識共有を容易にする。 理論的には、pFedESは壁面と壁面の間に収束できる。 6つの最先端手法に対する2つの実世界のデータセットに対する大規模な実験は、pFedESが最も正確なモデルを構築し、通信と計算コストが低いことを示している。 最高性能のベースラインと比較して1.61%高いテスト精度を実現し、通信コストと計算コストをそれぞれ99.6%と82.9%削減した。

As a privacy-preserving collaborative machine learning paradigm, federated learning (FL) has attracted significant interest from academia and the industry alike. To allow each data owner (a.k.a., FL clients) to train a heterogeneous and personalized local model based on its local data distribution, system resources and requirements on model structure, the field of model-heterogeneous personalized federated learning (MHPFL) has emerged. Existing MHPFL approaches either rely on the availability of a public dataset with special characteristics to facilitate knowledge transfer, incur high computation and communication costs, or face potential model leakage risks. To address these limitations, we propose a model-heterogeneous personalized Federated learning approach based on feature Extractor Sharing (pFedES). It incorporates a small homogeneous feature extractor into each client's heterogeneous local model. Clients train them via the proposed iterative learning method to enable the exchange of global generalized knowledge and local personalized knowledge. The small local homogeneous extractors produced after local training are uploaded to the FL server and for aggregation to facilitate easy knowledge sharing among clients. We theoretically prove that pFedES can converge over wall-to-wall time. Extensive experiments on two real-world datasets against six state-of-the-art methods demonstrate that pFedES builds the most accurate model, while incurring low communication and computation costs. Compared with the best-performing baseline, it achieves 1.61% higher test accuracy, while reducing communication and computation costs by 99.6% and 82.9%, respectively.
翻訳日:2023-11-14 16:30:32 公開日:2023-11-12
# 再生可能エネルギー向上のための統合機械学習タスクとデータセット

Unified machine learning tasks and datasets for enhancing renewable energy ( http://arxiv.org/abs/2311.06876v1 )

ライセンス: Link先を確認
Arsam Aryandoust, Thomas Rigoni, Francesco di Stefano, Anthony Patt(参考訳) マルチタスク機械学習(ml)モデルは、トレーニングデータ(few-shotとzero-shot learning)がほとんどないドメインで予測能力を示す。 過パラメータmlモデルはさらにゼロロストレーニングとほぼ最適一般化性能を持つ。 オープンな研究課題は、これらの新しいパラダイムが再生可能エネルギー移行の促進と気候変動の緩和に関連する課題にどのように貢献するかである。 このドメインから統合されたMLタスクとデータセットのコレクションは、そのようなモデルの開発と経験的テストを大幅に促進するが、現在は欠落している。 本稿では、再生可能エネルギーの強化に関連する6つのアプリケーションドメインから17のデータセットを収集したett-17(energy transition tasks-17)を紹介する。 すべてのタスクとデータセットを統一し、単一のマルチタスクMLモデルで解決できるようにします。 さらに、各データセットの次元を分析し、過パラメータ化モデルの設計に必要なものを調査し、各タスクとデータセットの重要な特性を記述したデータセットスコアのセットを導入し、パフォーマンスベンチマークを提供します。

Multi-tasking machine learning (ML) models exhibit prediction abilities in domains with little to no training data available (few-shot and zero-shot learning). Over-parameterized ML models are further capable of zero-loss training and near-optimal generalization performance. An open research question is, how these novel paradigms contribute to solving tasks related to enhancing the renewable energy transition and mitigating climate change. A collection of unified ML tasks and datasets from this domain can largely facilitate the development and empirical testing of such models, but is currently missing. Here, we introduce the ETT-17 (Energy Transition Tasks-17), a collection of 17 datasets from six different application domains related to enhancing renewable energy, including out-of-distribution validation and testing data. We unify all tasks and datasets, such that they can be solved using a single multi-tasking ML model. We further analyse the dimensions of each dataset; investigate what they require for designing over-parameterized models; introduce a set of dataset scores that describe important properties of each task and dataset; and provide performance benchmarks.
翻訳日:2023-11-14 16:29:58 公開日:2023-11-12
# 負転移防止における微調整概念

Concept-wise Fine-tuning Matters in Preventing Negative Transfer ( http://arxiv.org/abs/2311.06868v1 )

ライセンス: Link先を確認
Yunqiao Yang, Long-Kai Huang, Ying Wei(参考訳) 多数のトレーニング済みの事前学習モデルが人工知能の開発において大きなマイルストーンを告げる一方で、微調整は、トレーニング済みモデルをさまざまなターゲットデータセットで目立たせるようにするための一般的なプラクティスである。 実験結果から,市販のファインタニング技術は,未学習モデルにおける2種類の低性能特徴,稀な特徴,急激な相関特徴などによる負の伝達を軽減できないことがわかった。 微調整後の予測の構造的因果モデルに根ざし,各パッチが概念を符号化するパッチのレベルで特徴表現を洗練する概念的微調整(概念調整)アプローチを提案する。 概念チューニングは,(1) 稀な特徴のスライス(パッチ)と(2) チャネルや特徴スライス(パッチ)における注目ニューラルネットワークによる前向きの調整を同一カテゴリの事例間の相互情報を最大化することにより,稀な特徴の負の影響を最小化し,素早い相関性を持たせる。 提案するコンセプトチューニングは,11個のデータセットの事前の微調整方法,さまざまな事前学習戦略(教師あり,自己教師あり),さまざまなネットワークアーキテクチャ,ターゲットデータセットのサンプルサイズを,一貫して,かつ(最大4.76%まで)大幅に改善する。

A multitude of prevalent pre-trained models mark a major milestone in the development of artificial intelligence, while fine-tuning has been a common practice that enables pretrained models to figure prominently in a wide array of target datasets. Our empirical results reveal that off-the-shelf finetuning techniques are far from adequate to mitigate negative transfer caused by two types of underperforming features in a pre-trained model, including rare features and spuriously correlated features. Rooted in structural causal models of predictions after fine-tuning, we propose a Concept-wise fine-tuning (Concept-Tuning) approach which refines feature representations in the level of patches with each patch encoding a concept. Concept-Tuning minimizes the negative impacts of rare features and spuriously correlated features by (1) maximizing the mutual information between examples in the same category with regard to a slice of rare features (a patch) and (2) applying front-door adjustment via attention neural networks in channels and feature slices (patches). The proposed Concept-Tuning consistently and significantly (by up to 4.76%) improves prior state-of-the-art fine-tuning methods on eleven datasets, diverse pre-training strategies (supervised and self-supervised ones), various network architectures, and sample sizes in a target dataset.
翻訳日:2023-11-14 16:29:38 公開日:2023-11-12
# 非一様拡大と一面非零背景を持つマクスウェルブローチ系について

On Maxwell-Bloch systems with inhomogeneous broadening and one-sided nonzero background ( http://arxiv.org/abs/2311.06867v1 )

ライセンス: Link先を確認
Asela Abeya, Gino Biondini, Gregor Kova\v{c}i\v{c} and Barbara Prinari(参考訳) 逆散乱変換は、将来無限大で消えない光パルスの場合、不均一な拡張を伴う2レベル系を記述する方程式のマクスウェル・ブロッホ方程式を解くために開発された。 直接問題は、適切に定義された一様化変数の項で定式化され、形式主義の特徴と減衰と非退化場を組み合わせる。 逆問題は 2\times 2$ matrix riemann-hilbert problem という項で定式化されている。 問題の新たな側面として、無反射解は存在せず、ソリトンは常に放射能を伴う。 同時に, 媒質が初期基底状態にあるとき, 溶液の放射成分は媒質中に伝播すると崩壊し, 漸近的に反射しない状態になることを示した。 光パルスが遠い過去と遠い未来で急速に崩壊したときのように、最初に励起された媒体は安定基底状態に$t\to \infty$として崩壊し、十分に大きな伝播距離を持つ。 最後に、媒体の漸近状態と媒体内部の光パルスの特定の特徴を考察し、媒体内の伝播に伴う遷移領域の出現について概説する。

The inverse scattering transform is developed to solve the Maxwell-Bloch system of equations that describes two-level systems with inhomogeneous broadening, in the case of optical pulses that do not vanish at infinity in the future. The direct problem, which is formulated in terms of a suitably-defined uniformization variable, combines features of the formalism with decaying as well as non-decaying fields. The inverse problem is formulated in terms of a $2\times 2$ matrix Riemann-Hilbert problem. A novel aspect of the problem is that no reflectionless solutions can exist, and solitons are always accompanied by radiation. At the same time, it is also shown that, when the medium is initially in the ground state, the radiative components of the solutions decay upon propagation into the medium, giving rise to an asymptotically reflectionless states. Like what happens when the optical pulse decays rapidly in the distant past and the distant future, a medium that is initially excited decays to the stable ground state as $t\to \infty$ and for sufficiently large propagation distances. Finally, the asymptotic state of the medium and certain features of the optical pulse inside the medium are considered, and the emergence of a transition region upon propagation in the medium is briefly discussed.
翻訳日:2023-11-14 16:29:09 公開日:2023-11-12
# 科学ジャーナリズム領域における計算型ニュース発見ツールに関する実践の理解

Understanding Practices around Computational News Discovery Tools in the Domain of Science Journalism ( http://arxiv.org/abs/2311.06864v1 )

ライセンス: Link先を確認
Sachita Nishal, Jasmine Sinchai, Nicholas Diakopoulos(参考訳) 今日、科学とテクノロジーのジャーナリストは、ワークロードの増加、リソースの削減、科学出版のエコシステムの拡大など、ニュースに値するリードを見つけることの課題に直面している。 この状況を踏まえて,これらのジャーナリストのニュース発見を支援する計算手法を,時間効率と機関の観点から検討する。 特に,3つの計算情報助成金を対話型ツールとして試作し,そのようなツールがプロフェッショナル・サイエンス・ジャーナリストのプラクティスをどのように活用するか,あるいはより広範に形作るのかを探究した。 本研究は,これらのツールがデザインに影響を及ぼしうる科学ジャーナリストのエージェンシー,文脈,責任に関する中心的な考察を明らかにするものである。 これに基づいて、より長期のユーザエージェンシーのためのデザイン機会を提案し、コンテクスト的、個人的、コラボレーティブなニュース適性の概念を取り入れ、柔軟なインターフェースと生成モデルを活用する。 全体として,コンピュータニュース発見ツールに関する社会学的システムのより豊かな視点を提供し,科学ジャーナリストの実践をより良く支援するためのツールを改善する方法を提案する。

Science and technology journalists today face challenges in finding newsworthy leads due to increased workloads, reduced resources, and expanding scientific publishing ecosystems. Given this context, we explore computational methods to aid these journalists' news discovery in terms of time-efficiency and agency. In particular, we prototyped three computational information subsidies into an interactive tool that we used as a probe to better understand how such a tool may offer utility or more broadly shape the practices of professional science journalists. Our findings highlight central considerations around science journalists' agency, context, and responsibilities that such tools can influence and could account for in design. Based on this, we suggest design opportunities for greater and longer-term user agency; incorporating contextual, personal and collaborative notions of newsworthiness; and leveraging flexible interfaces and generative models. Overall, our findings contribute a richer view of the sociotechnical system around computational news discovery tools, and suggest ways to improve such tools to better support the practices of science journalists.
翻訳日:2023-11-14 16:28:47 公開日:2023-11-12
# 大規模言語モデルは、概念や関係を欠く生物医学的オントロジーを増強できるか?

Can Large Language Models Augment a Biomedical Ontology with missing Concepts and Relations? ( http://arxiv.org/abs/2311.06858v1 )

ライセンス: Link先を確認
Antonio Zaitoun, Tomer Sagi, Szymon Wilk, Mor Peleg(参考訳) オントロジーは知識の組織化と表現において重要な役割を果たす。 しかし、現在の存在論でさえすべての関連する概念や関係を包含していない。 本稿では,既存のオントロジーを半自動的に拡張する大規模言語モデル (LLM) の可能性を探る。 我々は,広く使用されているumls意味ネットワークからの意味関係型を利用した生物医学的オントロジーsnomed-ctのアプローチを実証する。 SNOMED-CTに存在しない新しい医療概念間の関連性を検出するために,LLMとの対話を用いた臨床実践ガイドライン(CPG)の分析手法を提案する。 会話のプロンプトを使った最初の実験は、手動で生成した金の標準から有望な予備結果を得た。

Ontologies play a crucial role in organizing and representing knowledge. However, even current ontologies do not encompass all relevant concepts and relationships. Here, we explore the potential of large language models (LLM) to expand an existing ontology in a semi-automated fashion. We demonstrate our approach on the biomedical ontology SNOMED-CT utilizing semantic relation types from the widely used UMLS semantic network. We propose a method that uses conversational interactions with an LLM to analyze clinical practice guidelines (CPGs) and detect the relationships among the new medical concepts that are not present in SNOMED-CT. Our initial experimentation with the conversational prompts yielded promising preliminary results given a manually generated gold standard, directing our future potential improvements.
翻訳日:2023-11-14 16:28:26 公開日:2023-11-12
# 注意運動を伴う空間列の学習について

On learning spatial sequences with the movement of attention ( http://arxiv.org/abs/2311.06856v1 )

ライセンス: Link先を確認
Viacheslav M. Osaulenko(参考訳) 本稿では,人間の皮膚上の動きを視覚的経験のみで認識することは,どのようにして可能か,という簡単な質問から始める。 あるいは一般に、異なる様相をまたいだスケール、回転、および変換に不変な空間列の表現とは何か。 そこで我々は,空間列の数学的表現を再考し,最小記述長の原理に反対し,注意の移動に焦点を当てた。 我々は、空間列は異なる抽象レベルで表現されなければならず、冗長性が増すが認識と一般化には必要であるという考えを前進させる。 ひとつは、いくつかのモデルでパラメータを見つけるのではなく、選択主義学習を探求すること、もうひとつは、ニューラルネットワークアーキテクチャではなく、新しいデータ構造を見つけること、もうひとつは冗長な機能を効率的に保存し、運用すること、の2つだ。 注意の動きは人間の認知の中心であり、新しい学習アルゴリズムに教訓を適用するべきである。

In this paper we start with a simple question, how is it possible that humans can recognize different movements over skin with only a prior visual experience of them? Or in general, what is the representation of spatial sequences that are invariant to scale, rotation, and translation across different modalities? To answer, we rethink the mathematical representation of spatial sequences, argue against the minimum description length principle, and focus on the movements of attention. We advance the idea that spatial sequences must be represented on different levels of abstraction, this adds redundancy but is necessary for recognition and generalization. To address the open question of how these abstractions are formed we propose two hypotheses: the first invites exploring selectionism learning, instead of finding parameters in some models; the second proposes to find new data structures, not neural network architectures, to efficiently store and operate over redundant features to be further selected. Movements of attention are central to human cognition and lessons should be applied to new better learning algorithms.
翻訳日:2023-11-14 16:28:13 公開日:2023-11-12
# DialMAT:モーメントベース対向訓練による対話型変換器

DialMAT: Dialogue-Enabled Transformer with Moment-Based Adversarial Training ( http://arxiv.org/abs/2311.06855v1 )

ライセンス: Link先を確認
Kanta Kaneda, Ryosuke Korekata, Yuiga Wada, Shunya Nagashima, Motonari Kambara, Yui Iioka, Haruka Matsuo, Yuto Imai, Takayuki Nishimura, Komei Sugiura(参考訳) 本稿では,エージェントがそのタスクについて積極的に質問できる設定において,その指示に従うタスクであるダイヤルフレードタスクに注目した。 この課題に対処するため,DialMATを提案する。 dialmatは、言語、画像、アクションの潜在空間に敵の摂動を組み込んだモーメントベースの敵意トレーニングを導入する。 さらに、言語と画像の両方に基礎モデルを適用するクロスモーダル並列特徴抽出機構も導入している。 dialfredデータセットから構築したデータセットを用いて評価を行い、成功率とパス重み付け成功率の点で、ベースライン法と比較して優れた性能を示した。 このモデルは、CVPR 2023 Embodied AIワークショップで行われたDialFRED Challengeでトップの地位を確保した。

This paper focuses on the DialFRED task, which is the task of embodied instruction following in a setting where an agent can actively ask questions about the task. To address this task, we propose DialMAT. DialMAT introduces Moment-based Adversarial Training, which incorporates adversarial perturbations into the latent space of language, image, and action. Additionally, it introduces a crossmodal parallel feature extraction mechanism that applies foundation models to both language and image. We evaluated our model using a dataset constructed from the DialFRED dataset and demonstrated superior performance compared to the baseline method in terms of success rate and path weighted success rate. The model secured the top position in the DialFRED Challenge, which took place at the CVPR 2023 Embodied AI workshop.
翻訳日:2023-11-14 16:27:56 公開日:2023-11-12
# 表情認識のためのビュー不変表現のコントラスト学習

Contrastive Learning of View-Invariant Representations for Facial Expressions Recognition ( http://arxiv.org/abs/2311.06852v1 )

ライセンス: Link先を確認
Shuvendu Roy, Ali Etemad(参考訳) 顔表情認識(FER)の分野では、多くの進歩があったが、既存の方法の多くは、前向きではなく、トレーニングプロセスで使用されるものとはかなり異なる視角から捉えられた画像で表現される。 本稿では,コントラスト学習に基づく新しいビュー不変FERフレームワークであるViewFXを提案する。 viewfxは、自己教師付きコントラスト損失を用いて表現のビュー不変な特徴を学習し、同じ対象の異なるビューと埋め込み空間内の特定の表現を結合する。 また,各表現の学習観不変特徴を他の表現から遠ざけるために,教師付きコントラスト損失を導入する。 顔の表情はしばしば、学習した特徴空間の非常に微妙な違いで区別されるため、学習した表現の冗長性と相関性を低減するために、Barlow twins lossを組み込む。 提案手法は従来提案されていたCL-MExの大幅な拡張であり,自己監督的損失しかなかった。 提案フレームワークを,kdefとddcfの2つの公開マルチビュー表情認識データセット上でテストした。 実験の結果,本手法は従来の手法よりも優れており,両データセットの新たな最先端性を設定しつつ,難解な角度に対する感度とトレーニングに使用する出力ラベルの数を大幅に低減していることがわかった。 また, モデルにおける各種成分の影響や, 異なるパラメータに対する感度を評価するため, 詳細な感度およびアブレーション実験を行った。

Although there has been much progress in the area of facial expression recognition (FER), most existing methods suffer when presented with images that have been captured from viewing angles that are non-frontal and substantially different from those used in the training process. In this paper, we propose ViewFX, a novel view-invariant FER framework based on contrastive learning, capable of accurately classifying facial expressions regardless of the input viewing angles during inference. ViewFX learns view-invariant features of expression using a proposed self-supervised contrastive loss which brings together different views of the same subject with a particular expression in the embedding space. We also introduce a supervised contrastive loss to push the learnt view-invariant features of each expression away from other expressions. Since facial expressions are often distinguished with very subtle differences in the learned feature space, we incorporate the Barlow twins loss to reduce the redundancy and correlations of the representations in the learned representations. The proposed method is a substantial extension of our previously proposed CL-MEx, which only had a self-supervised loss. We test the proposed framework on two public multi-view facial expression recognition datasets, KDEF and DDCF. The experiments demonstrate that our approach outperforms previous works in the area and sets a new state-of-the-art for both datasets while showing considerably less sensitivity to challenging angles and the number of output labels used for training. We also perform detailed sensitivity and ablation experiments to evaluate the impact of different components of our model as well as its sensitivity to different parameters.
翻訳日:2023-11-14 16:27:33 公開日:2023-11-12
# ヘイトスピーチ検出のためのテキストの自動正規化

Automatic Textual Normalization for Hate Speech Detection ( http://arxiv.org/abs/2311.06851v1 )

ライセンス: Link先を確認
Anh Thi-Hoang Nguyen, Dung Ha Nguyen, Nguyet Thi Nguyen, Khanh Thanh-Duy Ho, Kiet Van Nguyen(参考訳) ソーシャルメディアデータは研究にとって貴重な資源であるが、幅広い非標準語(NSW)を含んでいる。 これらの不規則さはNLPツールの効果的な操作を妨げる。 ベトナム語における現在の最先端の手法は、この問題を語彙正規化の問題として扱い、手動ルールの作成や、複雑なルールを構築するための広範囲な努力を必要とする多段階のディープラーニングフレームワークの実装を含む。 対照的に、我々のアプローチは単純であり、Seq2Seq(Seq2Seq)モデルのみを用いる。 本研究では,2,181人の注釈付きコメントと0.9014のアノテーション間合意からなるテキスト正規化のためのデータセットを提供する。 テキスト正規化にseq2seqモデルを用いることで,精度が70%弱であることが判明した。 それでもテキスト正規化は、Hate Speech Detection (HSD)タスクの精度を約2%向上させ、複雑なNLPタスクのパフォーマンスを向上させる可能性を示している。 私たちのデータセットは研究目的で利用できます。

Social media data is a valuable resource for research, yet it contains a wide range of non-standard words (NSW). These irregularities hinder the effective operation of NLP tools. Current state-of-the-art methods for the Vietnamese language address this issue as a problem of lexical normalization, involving the creation of manual rules or the implementation of multi-staged deep learning frameworks, which necessitate extensive efforts to craft intricate rules. In contrast, our approach is straightforward, employing solely a sequence-to-sequence (Seq2Seq) model. In this research, we provide a dataset for textual normalization, comprising 2,181 human-annotated comments with an inter-annotator agreement of 0.9014. By leveraging the Seq2Seq model for textual normalization, our results reveal that the accuracy achieved falls slightly short of 70%. Nevertheless, textual normalization enhances the accuracy of the Hate Speech Detection (HSD) task by approximately 2%, demonstrating its potential to improve the performance of complex NLP tasks. Our dataset is accessible for research purposes.
翻訳日:2023-11-14 16:26:44 公開日:2023-11-12
# 行政危機をシミュレートする新しい生成エージェントに基づくシミュレーションシステム : 社会科学研究における技術障壁の低減

Simulating Public Administration Crisis: A Novel Generative Agent-Based Simulation System to Lower Technology Barriers in Social Science Research ( http://arxiv.org/abs/2311.06957v1 )

ライセンス: Link先を確認
Bushi Xiao and Ziyuan Yin and Zixuan Shan(参考訳) 本稿では,GPT-3.5大言語モデルに基づく社会シミュレーションパラダイムを提案する。 これには、人間の認知、記憶、意思決定のフレームワークをエミュレートする生成エージェントの構築と、安定した操作が可能な仮想ソーシャルシステムの構築、標準化された公開イベントの挿入メカニズムの確立が含まれる。 このプロジェクトは、タウンシップの水質汚染事件をシミュレートし、特定の行政イベントに対する仮想政府の反応を総合的に検討することに焦点を当てている。 制御された変数実験は、生成エージェントの記憶が個々の意思決定とソーシャルネットワークの両方に大きく影響を与えることを示した。 生成エージェントに基づくシミュレーションシステムは,社会科学と行政研究に新たなアプローチを導入する。 エージェントはパーソナライズされたカスタマイズを示し、公開イベントは自然言語処理によってシームレスに組み込まれる。 その高い柔軟性と広範な社会的相互作用は、社会科学の研究に非常に応用できる。 このシステムは、複雑な社会シミュレーションの構築に伴う複雑さを効果的に低減し、解釈可能性を高める。

This article proposes a social simulation paradigm based on the GPT-3.5 large language model. It involves constructing Generative Agents that emulate human cognition, memory, and decision-making frameworks, along with establishing a virtual social system capable of stable operation and an insertion mechanism for standardized public events. The project focuses on simulating a township water pollution incident, enabling the comprehensive examination of a virtual government's response to a specific public administration event. Controlled variable experiments demonstrate that the stored memory in generative agents significantly influences both individual decision-making and social networks. The Generative Agent-Based Simulation System introduces a novel approach to social science and public administration research. Agents exhibit personalized customization, and public events are seamlessly incorporated through natural language processing. Its high flexibility and extensive social interaction render it highly applicable in social science investigations. The system effectively reduces the complexity associated with building intricate social simulations while enhancing its interpretability.
翻訳日:2023-11-14 16:18:53 公開日:2023-11-12
# SegReg: MR画像とCTアノテーションの登録によるOARのセグメンテーション

SegReg: Segmenting OARs by Registering MR Images and CT Annotations ( http://arxiv.org/abs/2311.06956v1 )

ライセンス: Link先を確認
Zeyu Zhang, Xuyin Qi, Bowen Zhang, Biao Wu, Hien Le, Bora Jeong, Minh-Son To, Richard Hartley(参考訳) 臓器リスクセグメンテーション(OAR)は頭頸部腫瘍などの放射線治療計画において重要なプロセスである。 それでも臨床実践では、放射線腫瘍学者は主にCTスキャンで手動でOARセグメンテーションを行う。 この手作業は、非常に時間がかかり高価であり、タイムリーな放射線治療を受ける患者の数を制限する。 さらに、CTスキャンはMRIと比較してソフト・タスクのコントラストが低い。 MRIは優れたソフト・タスク・ビジュアライゼーションを提供するが、その時間を要する性質により、リアルタイムな治療計画では不可能である。 これらの課題に対処するために,MRIの登録にElastic Symmetric Normalizationを利用するSegRegという手法を提案する。 SegRegはCTのみのベースラインを16.78%、mIoUは18.77%で上回り、CTの幾何学的精度とMRIの優れたソフト・コントラストを効果的に組み合わせ、正確なOARセグメンテーションを臨床訓練のために実現している。

Organ at risk (OAR) segmentation is a critical process in radiotherapy treatment planning such as head and neck tumors. Nevertheless, in clinical practice, radiation oncologists predominantly perform OAR segmentations manually on CT scans. This manual process is highly time-consuming and expensive, limiting the number of patients who can receive timely radiotherapy. Additionally, CT scans offer lower soft-tissue contrast compared to MRI. Despite MRI providing superior soft-tissue visualization, its time-consuming nature makes it infeasible for real-time treatment planning. To address these challenges, we propose a method called SegReg, which utilizes Elastic Symmetric Normalization for registering MRI to perform OAR segmentation. SegReg outperforms the CT-only baseline by 16.78% in mDSC and 18.77% in mIoU, showing that it effectively combines the geometric accuracy of CT with the superior soft-tissue contrast of MRI, making accurate automated OAR segmentation for clinical practice become possible.
翻訳日:2023-11-14 16:18:39 公開日:2023-11-12
# 大規模データセット上での深い分類木を訓練するためのgpu高速化移動ホライゾンアルゴリズム

A GPU-Accelerated Moving-Horizon Algorithm for Training Deep Classification Trees on Large Datasets ( http://arxiv.org/abs/2311.06952v1 )

ライセンス: Link先を確認
Jiayang Ren, Valent\'in Osuna-Enciso, Morimasa Okamoto, Qiangqiang Mao, Chaojie Ji, Liang Cao, Kaixun Hua, Yankai Cao(参考訳) 決定木は訓練に必須であるがnp完全であり、カートのようなヒューリスティックな方法が広く使われ、その欲望の強い性質のために最適でない性能に苦しめられている。 近年、最適決定木を見つけるためのブレークスルーが出現しているが、これらの手法は依然として大きな計算コストに直面し、大規模データセットやディープツリーの継続的な特徴に苦しむ。 これらの制約に対処するために、連続的な特徴を持つ分類木(MH-DEOCT)に対する移動水平微分進化アルゴリズムを導入する。 提案手法は,隣接するサンプル間の重複探索を除去する離散木復号法と,実行時間を大幅に短縮するGPU高速化実装と,各ノードの浅いサブツリーを反復的にトレーニングし,ビジョンとオプティマイザ能力のバランスをとる移動水平戦略からなる。 68のuciデータセットに関する包括的研究は、トレーニングとテストの精度を平均3.44%と1.71%というヒューリスティックな手法を上回っていることを示している。 さらに,これらの数値実験により,mh-deoctが最適に近い性能(トレーニングやテストのグローバル最適法よりも0.38%,0.06%低い)を達成できることが実証され,深木(深さ=8)や大規模データセット(例:1000万サンプル)のスケーラビリティが著しく向上した。

Decision trees are essential yet NP-complete to train, prompting the widespread use of heuristic methods such as CART, which suffers from sub-optimal performance due to its greedy nature. Recently, breakthroughs in finding optimal decision trees have emerged; however, these methods still face significant computational costs and struggle with continuous features in large-scale datasets and deep trees. To address these limitations, we introduce a moving-horizon differential evolution algorithm for classification trees with continuous features (MH-DEOCT). Our approach consists of a discrete tree decoding method that eliminates duplicated searches between adjacent samples, a GPU-accelerated implementation that significantly reduces running time, and a moving-horizon strategy that iteratively trains shallow subtrees at each node to balance the vision and optimizer capability. Comprehensive studies on 68 UCI datasets demonstrate that our approach outperforms the heuristic method CART on training and testing accuracy by an average of 3.44% and 1.71%, respectively. Moreover, these numerical studies empirically demonstrate that MH-DEOCT achieves near-optimal performance (only 0.38% and 0.06% worse than the global optimal method on training and testing, respectively), while it offers remarkable scalability for deep trees (e.g., depth=8) and large-scale datasets (e.g., ten million samples).
翻訳日:2023-11-14 16:18:19 公開日:2023-11-12
# 競合攻撃に対するグラフニューラルネットワークを改良した契約型システム

Contractive Systems Improve Graph Neural Networks Against Adversarial Attacks ( http://arxiv.org/abs/2311.06942v1 )

ライセンス: Link先を確認
Moshe Eliasof, Davide Murari, Ferdia Sherry, Carola-Bibiane Sch\"onlieb(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフベースのタスクに対処するための重要なコンポーネントとして、自らを確立している。 彼らの顕著な成功にもかかわらず、GNNは相変わらず敵の攻撃の形で摂動を入力できる。 本稿では, 収縮力学系のレンズを用いて, 対向摂動に対するGNNの強化手法を提案する。 本手法は,GNNの強靭性を改善するために,縮退特性を持つ微分方程式に基づくグラフニューラル層を導入する。 提案手法の特徴は、ノード特徴と隣接行列の両方を同時に学習し、入力特徴の摂動に対するモデルロバスト性とグラフの接続性が本質的に向上する点である。 我々は数学的に新しい建築の基礎を導出し、その期待された行動に関する理論的洞察を提供する。 本手法の有効性を実世界のベンチマークで実証し,既存の手法と同等か,あるいは改善した性能を示す。

Graph Neural Networks (GNNs) have established themselves as a key component in addressing diverse graph-based tasks. Despite their notable successes, GNNs remain susceptible to input perturbations in the form of adversarial attacks. This paper introduces an innovative approach to fortify GNNs against adversarial perturbations through the lens of contractive dynamical systems. Our method introduces graph neural layers based on differential equations with contractive properties, which, as we show, improve the robustness of GNNs. A distinctive feature of the proposed approach is the simultaneous learned evolution of both the node features and the adjacency matrix, yielding an intrinsic enhancement of model robustness to perturbations in the input features and the connectivity of the graph. We mathematically derive the underpinnings of our novel architecture and provide theoretical insights to reason about its expected behavior. We demonstrate the efficacy of our method through numerous real-world benchmarks, reading on par or improved performance compared to existing methods.
翻訳日:2023-11-14 16:17:52 公開日:2023-11-12
# 5GネットワークとIoTデバイス:ディープラーニング技術によるDDoS攻撃の軽減

5G Networks and IoT Devices: Mitigating DDoS Attacks with Deep Learning Techniques ( http://arxiv.org/abs/2311.06938v1 )

ライセンス: Link先を確認
Reem M. Alzhrani and Mohammed A. Alliheedi(参考訳) モノのインターネット(IoT)デバイスの開発と実装は近年劇的に加速している。 結果として、これらのデバイスに収集および送信される大量のデータを扱うために、スーパーネットワークが必要である。 第5世代(5G)技術は、IoTの主要な実現技術となる可能性を秘めた、新しい包括的ワイヤレス技術である。 IoTデバイスの急速な普及は、多くのセキュリティ制限と懸念に直面する可能性がある。 その結果、新しくて深刻なセキュリティとプライバシーのリスクが生まれました。 攻撃者はIoTデバイスを使用して大規模な攻撃を起動する。最も有名なのは、Distributed Denial of Service(DDoS)攻撃である。 ディープラーニング技術は、DDoS攻撃を検出し緩和する効果を証明している。 本稿では,5Gネットワーク内のIoTデバイスに特化して設計されたデータセットに,CNN(Convolutional Neural Network)とFNN(Feed Forward Neural Network)の2つのディープラーニングアルゴリズムを適用した。 INET と Simu5G フレームワークを用いて OMNeT++ を用いて 5G ネットワーク基盤を構築した。 データセットは通常のネットワークトラフィックとddos攻撃の両方を含んでいる。 Deep LearningのアルゴリズムであるCNNとFNNは、どちらも99%に達している。 これらの結果は、5Gネットワーク内のIoTデバイスのセキュリティを強化するためのDeep Learningの可能性を強調している。

The development and implementation of Internet of Things (IoT) devices have been accelerated dramatically in recent years. As a result, a super-network is required to handle the massive volumes of data collected and transmitted to these devices. Fifth generation (5G) technology is a new, comprehensive wireless technology that has the potential to be the primary enabling technology for the IoT. The rapid spread of IoT devices can encounter many security limits and concerns. As a result, new and serious security and privacy risks have emerged. Attackers use IoT devices to launch massive attacks; one of the most famous is the Distributed Denial of Service (DDoS) attack. Deep Learning techniques have proven their effectiveness in detecting and mitigating DDoS attacks. In this paper, we applied two Deep Learning algorithms Convolutional Neural Network (CNN) and Feed Forward Neural Network (FNN) in dataset was specifically designed for IoT devices within 5G networks. We constructed the 5G network infrastructure using OMNeT++ with the INET and Simu5G frameworks. The dataset encompasses both normal network traffic and DDoS attacks. The Deep Learning algorithms, CNN and FNN, showed impressive accuracy levels, both reaching 99%. These results underscore the potential of Deep Learning to enhance the security of IoT devices within 5G networks.
翻訳日:2023-11-14 16:17:36 公開日:2023-11-12
# 末梢血流推定によるビデオによる交感神経刺激の評価

Video-based sympathetic arousal assessment via peripheral blood flow estimation ( http://arxiv.org/abs/2311.06930v1 )

ライセンス: Link先を確認
Bjoern Braun, Daniel McDuff, Tadas Baltrusaitis, Christian Holz(参考訳) 心電活動(EDA)は交感神経活動の標準マーカーであると考えられている。 しかし、従来のEDA測定では皮膚と安定に接触する電極が必要である。 rgbカメラのような光学センサだけで交感神経覚醒を測定することができるか? 本稿では, 顔や手の末梢血流を光学的に測定することで, 交感神経刺激を推し進める新しいアプローチを提案する。 参加者の顔とヤシの同期映像と金標準EDAと光胸腺造影(PPG)信号からなる21人の参加者の自己記録データセットを作成した。 以上の結果から, 末梢交感神経反応の測定は, EDAと密接に相関していることが明らかとなった。 被験者の手のひら, 額, PPG信号の映像のみを用いて, 推定信号と地上真理EDAとの正中相関を0.57~0.63とした。 また, 頭, 指, 手のひらから交感神経刺激が最善であることを示す。

Electrodermal activity (EDA) is considered a standard marker of sympathetic activity. However, traditional EDA measurement requires electrodes in steady contact with the skin. Can sympathetic arousal be measured using only an optical sensor, such as an RGB camera? This paper presents a novel approach to infer sympathetic arousal by measuring the peripheral blood flow on the face or hand optically. We contribute a self-recorded dataset of 21 participants, comprising synchronized videos of participants' faces and palms and gold-standard EDA and photoplethysmography (PPG) signals. Our results show that we can measure peripheral sympathetic responses that closely correlate with the ground truth EDA. We obtain median correlations of 0.57 to 0.63 between our inferred signals and the ground truth EDA using only videos of the participants' palms or foreheads or PPG signals from the foreheads or fingers. We also show that sympathetic arousal is best inferred from the forehead, finger, or palm.
翻訳日:2023-11-14 16:17:19 公開日:2023-11-12
# 生体神経力学からの因果関係発見への注意

Attention for Causal Relationship Discovery from Biological Neural Dynamics ( http://arxiv.org/abs/2311.06928v1 )

ライセンス: Link先を確認
Ziyu Lu, Anika Tabassum, Shruti Kulkarni, Lu Mi, J. Nathan Kutz, Eric Shea-Brown, Seung-Hwan Lim(参考訳) 本稿では,神経生物学的および生体物理ネットワークのように,各ノードに複雑な非線形ダイナミクスを持つネットワークにおけるグランガー因果関係を学習するためのトランスフォーマーモデルの可能性について検討する。 本研究は主に、基礎となる接続マトリックスを介して基底的因果関係が知られているシミュレーションニューラルネットワークに基づく概念実証研究に焦点をあてた。 神経集団動態を予測するために訓練されたトランスフォーマーモデルに対し、クロスアテンションモジュールはニューロン間の因果関係を効果的に捉え、最も一般的なグランガー因果解析法と同等かそれ以上の精度で得ることを示した。 現実の神経生物学のデータは、動的接続性や観測されていない変動性など、さらなる課題をもたらすことを認めていますが、この研究は、神経科学における因果表現学習のためのトランスフォーマーモデルの有用性について、前向きな予見を与えてくれます。

This paper explores the potential of the transformer models for learning Granger causality in networks with complex nonlinear dynamics at every node, as in neurobiological and biophysical networks. Our study primarily focuses on a proof-of-concept investigation based on simulated neural dynamics, for which the ground-truth causality is known through the underlying connectivity matrix. For transformer models trained to forecast neuronal population dynamics, we show that the cross attention module effectively captures the causal relationship among neurons, with an accuracy equal or superior to that for the most popular Granger causality analysis method. While we acknowledge that real-world neurobiology data will bring further challenges, including dynamic connectivity and unobserved variability, this research offers an encouraging preliminary glimpse into the utility of the transformer model for causal representation learning in neuroscience.
翻訳日:2023-11-14 16:17:02 公開日:2023-11-12
# マイクロ波量子memristor

Microwave Quantum Memristors ( http://arxiv.org/abs/2311.06925v1 )

ライセンス: Link先を確認
X.-Y. Qiu, S. Kumar, F. A. C\'ardenas-L\'opez, G. Alvarado Barrios, E. Solano and F.Albarr\'an-Arriagada(参考訳) 本研究では,マイクロ波領域における超伝導量子memristiveデバイス,すなわちマイクロ波量子memristorの設計を提案する。 2つの連結共振器から構成されており、主共振器は超伝導量子干渉装置(SQUID)に結合され、外部磁束による共振器特性の調整を可能にする。 補助共振器は弱い測定により動作し、SQUIDを介して一次共振器にフィードバックを与え、外部磁束を介して安定した旋回挙動を確立する。 この装置は、一方の空洞で古典的な入力信号で動作し、もう一方の空洞で応答を読み、マイクロ波量子メムリスタアレイの基本的な構築ブロックとして機能する。 この意味で、二部構造は、絡み合いと量子相関を得ながら、その分裂挙動を維持することができる。 本研究は, 量子量子デバイスとマイクロ波量子メムリスタのアレイを, ニューロモルフィック量子コンピューティングへの道のりの実験的実装の扉を開くものである。

We propose a design of a superconducting quantum memristive device in the microwave regime, that is, a microwave quantum memristor. It comprises two linked resonators, where the primary one is coupled to a superconducting quantum interference device (SQUID), allowing the adjustment of the resonator properties with an external magnetic flux. The auxiliary resonator is operated through weak measurements, providing feedback to the primary resonator via the SQUID and establishing stable memristive behavior via the external magnetic flux. The device operates with a classical input signal in one cavity while reading the response in the other, serving as a fundamental building block for arrays of microwave quantum memristors. In this sense, we observe that a bipartite setup can retain its memristive behavior while gaining entanglement and quantum correlations. Our findings open the door to the experimental implementation of memristive superconducting quantum devices and arrays of microwave quantum memristors on the path to neuromorphic quantum computing.
翻訳日:2023-11-14 16:16:44 公開日:2023-11-12
# 概念マッチング:クラスタリングに基づく連続学習

Concept Matching: Clustering-based Federated Continual Learning ( http://arxiv.org/abs/2311.06921v1 )

ライセンス: Link先を確認
Xiaopeng Jiang, Cristian Borcea(参考訳) 連立学習(FCL)は、連立学習(FL)と連立学習(CL)を組み合わせた有望なパラダイムとして登場した。 モデル精度を向上させるために、FCLはCLにおけるコンセプトドリフトによる破滅的な忘れに対処し、FLにおけるクライアント間の潜在的な干渉を克服する必要がある。 これらの課題に対処するために、FCLのためのクラスタリングベースのフレームワークであるConcept Matching (CM)を提案する。 cmフレームワークはクライアントモデルをコンセプトモデルクラスタにグループ化し、さまざまなグローバルモデルを構築して、時間とともにflでさまざまなコンセプトをキャプチャする。 各ラウンドにおいて、サーバはグローバルコンセプトモデルをクライアントに送信する。 破滅的な忘れ物を避けるため、各クライアントは現在のデータの概念に最も合う概念モデルを選択し、さらに微調整を行う。 異なる概念を持つクライアントモデル間の干渉を避けるために、サーバは、同じ概念を表すモデルをクラスタ化し、各クラスタ内のモデル重みを集約し、同じ概念のクラスタモデルでグローバルコンセプトモデルを更新する。 サーバは集約されたクラスタモデルで得られた概念を知らないので,クラスタモデルを用いてグローバルな概念モデルを効果的に更新する新しいサーバ概念マッチングアルゴリズムを提案する。 cmフレームワークは、さまざまなクラスタリング、アグリゲーション、コンセプトマッチングアルゴリズムを使用するための柔軟性を提供する。 評価の結果、cmは最先端のシステムよりも優れており、クライアント数やモデルサイズとよく合っていることがわかった。

Federated Continual Learning (FCL) has emerged as a promising paradigm that combines Federated Learning (FL) and Continual Learning (CL). To achieve good model accuracy, FCL needs to tackle catastrophic forgetting due to concept drift over time in CL, and to overcome the potential interference among clients in FL. We propose Concept Matching (CM), a clustering-based framework for FCL to address these challenges. The CM framework groups the client models into concept model clusters, and then builds different global models to capture different concepts in FL over time. In each round, the server sends the global concept models to the clients. To avoid catastrophic forgetting, each client selects the concept model best-matching the concept of the current data for further fine-tuning. To avoid interference among client models with different concepts, the server clusters the models representing the same concept, aggregates the model weights in each cluster, and updates the global concept model with the cluster model of the same concept. Since the server does not know the concepts captured by the aggregated cluster models, we propose a novel server concept matching algorithm that effectively updates a global concept model with a matching cluster model. The CM framework provides flexibility to use different clustering, aggregation, and concept matching algorithms. The evaluation demonstrates that CM outperforms state-of-the-art systems and scales well with the number of clients and the model size.
翻訳日:2023-11-14 16:16:28 公開日:2023-11-12
# 一般化ラビ模型における量子性と量子から古典への遷移

Quantumness and quantum to classical transition in the generalized Rabi model ( http://arxiv.org/abs/2311.06920v1 )

ライセンス: Link先を確認
Wei-Feng Zhuang, Yun-Tong Yang, Hong-Gang Luo, Ming Gong, Guang-Can Guo(参考訳) qct(quantum to classical transition)は、量子物理学における中心的な謎の一つである。 この過程は一般に、測定からの状態崩壊や環境との相互作用から脱コヒーレンスと解釈される。 ここでは、量子と古典的記述の間の自由エネルギー差によってハミルトンの量子性を定義する。 我々は、この基準を多体rabiモデルに適用し、その相転移のスケーリング則を研究し、温度とプランク定数だけでなく、全てのモデルパラメータがこの遷移に重要であることを発見した。 我々は、Jaynes-Cummingsモデルと反Jaynes-Cummingsモデルが、Rabiモデルよりも高い量子性を示すことを示す。 さらに,本モデルにおける回転波と反回転波の項はQCTでは逆の量子性を持つことを示す。 量子性は臨界点において強化または抑制されることを実証する。 最後に、現在のトラップイオン実験において、Rabiモデルの量子性を推定する。 量子性は、多数の多体モデルでQCTを特徴づける重要なツールを提供する。

The quantum to classical transition (QCT) is one of the central mysteries in quantum physics. This process is generally interpreted as state collapse from measurement or decoherence from interacting with the environment. Here we define the quantumness of a Hamiltonian by the free energy difference between its quantum and classical descriptions, which vanishes during QCT. We apply this criterion to the many-body Rabi model and study its scaling law across the phase transition, finding that not only the temperature and Planck constant, but also all the model parameters are important for this transition. We show that the Jaynes-Cummings and anti Jaynes-Cummings models exhibit greater quantumness than the Rabi model. Moreover, we show that the rotating wave and anti-rotating wave terms in this model have opposite quantumness in QCT. We demonstrate that the quantumness may be enhanced or suppressed at the critical point. Finally, we estimate the quantumness of the Rabi model in current trapped ion experiments. The quantumness provides an important tool to characterize the QCT in a vast number of many-body models.
翻訳日:2023-11-14 16:16:05 公開日:2023-11-12
# 無線ネットワークにおけるビデオキャッシングのためのリソースアウェア階層型フェデレート学習

Resource-Aware Hierarchical Federated Learning for Video Caching in Wireless Networks ( http://arxiv.org/abs/2311.06918v1 )

ライセンス: Link先を確認
Md Ferdous Pervej and Andreas F Molisch(参考訳) ビデオキャッシングは、ユーザーが頻繁に要求する人気のコンテンツをローカルに保存することで、交通渋滞を著しく改善することができる。 ユーザの要求が時間とともにどのように変化するかを学ぶためには,プライバシ保護手法が望ましい。 そこで本研究では,コンテンツ要求が散発的であり,ユーザのデータセットは要求されたコンテンツの情報に基づいてのみ更新可能であるという現実的な仮定の下で,ユーザの今後のコンテンツ要求を予測するための,リソース対応階層型学習(RawHFL)ソリューションを提案する。 部分的なクライアント参加の場合を考えると、まず、クライアントのローカルトレーニングラウンドに依存するグローバルグラデーションノルムの上限と、無線リンク上で蓄積されたグラデーションの受信の成功を導出する。 遅延,エネルギー,無線リソースの制約の下で,RawHFLの収束をエネルギー効率よく促進する重み付きユーティリティ関数を最小化するために,クライアントの選択とその局所ラウンドとCPU周波数を最適化する。 シミュレーション結果から,提案手法は予測精度と総エネルギー消費量の点で基準値を大きく上回ることがわかった。

Video caching can significantly improve backhaul traffic congestion by locally storing the popular content that users frequently request. A privacy-preserving method is desirable to learn how users' demands change over time. As such, this paper proposes a novel resource-aware hierarchical federated learning (RawHFL) solution to predict users' future content requests under the realistic assumptions that content requests are sporadic and users' datasets can only be updated based on the requested content's information. Considering a partial client participation case, we first derive the upper bound of the global gradient norm that depends on the clients' local training rounds and the successful reception of their accumulated gradients over the wireless links. Under delay, energy and radio resource constraints, we then optimize client selection and their local rounds and central processing unit (CPU) frequencies to minimize a weighted utility function that facilitates RawHFL's convergence in an energy-efficient way. Our simulation results show that the proposed solution significantly outperforms the considered baselines in terms of prediction accuracy and total energy expenditure.
翻訳日:2023-11-14 16:15:49 公開日:2023-11-12
# FLASH-RL:強化学習を用いたフェデレーションラーニングアドレッシングシステムと静的不均一性

FLASH-RL: Federated Learning Addressing System and Static Heterogeneity using Reinforcement Learning ( http://arxiv.org/abs/2311.06917v1 )

ライセンス: Link先を確認
Sofiane Bouaziz, Hadjer Benmeziane, Youcef Imine, Leila Hamdad, Smail Niar, Hamza Ouarnoughi(参考訳) フェデレーテッド・ラーニング(FL)は有望な機械学習パラダイムとして登場し、複数のユーザがローカルデータを保存しながら、共用モデルのトレーニングを可能にする。 パラメータ転送に伴う計算と通信コストを最小限に抑えるため、FLでは各トレーニングラウンドでクライアントのサブセットを選択するのが一般的である。 この選択はシステムと静的不均一性の両方を考慮する必要がある。 そこで本研究では,Double Deep QLearning (DDQL) を利用したFLASH-RLを提案する。 flash-rlは新しい評判ベースのユーティリティ機能を導入し、クライアントのコントリビュートを現在のパフォーマンスと過去のパフォーマンスに基づいて評価する。 さらに、学習プロセスを高速化するために、適応型DDQLアルゴリズムを提案する。 MNISTとCIFAR-10データセットの実験結果は、FLASH-RLが既存のソリューションに対するモデル性能とエンドツーエンドのレイテンシのバランスの取れたトレードオフを達成する上での有効性を示した。 実際、FLASH-RLはFedAVGの24.83%、FAVORの24.67%の遅延を減少させる。 また、FedAVGと比較して60.44%、FAVORに比べて+76%のトレーニングラウンドを短縮している。 MobiActデータセットによる秋の検知では、FLASH-RLはFedAVGを最大2.82%の性能で上回り、レイテンシを最大34.75%削減する。 さらにFLASH-RLはFedAVGと比較して45.32%のトレーニングラウンドで目標性能を向上した。

Federated Learning (FL) has emerged as a promising Machine Learning paradigm, enabling multiple users to collaboratively train a shared model while preserving their local data. To minimize computing and communication costs associated with parameter transfer, it is common practice in FL to select a subset of clients in each training round. This selection must consider both system and static heterogeneity. Therefore, we propose FLASH-RL, a framework that utilizes Double Deep QLearning (DDQL) to address both system and static heterogeneity in FL. FLASH-RL introduces a new reputation-based utility function to evaluate client contributions based on their current and past performances. Additionally, an adapted DDQL algorithm is proposed to expedite the learning process. Experimental results on MNIST and CIFAR-10 datasets have shown FLASH-RL's effectiveness in achieving a balanced trade-off between model performance and end-to-end latency against existing solutions. Indeed, FLASH-RL reduces latency by up to 24.83% compared to FedAVG and 24.67% compared to FAVOR. It also reduces the training rounds by up to 60.44% compared to FedAVG and +76% compared to FAVOR. In fall detection using the MobiAct dataset, FLASH-RL outperforms FedAVG by up to 2.82% in model's performance and reduces latency by up to 34.75%. Additionally, FLASH-RL achieves the target performance faster, with up to a 45.32% reduction in training rounds compared to FedAVG.
翻訳日:2023-11-14 16:15:28 公開日:2023-11-12
# TSViT:故障診断のための時系列ビジョン変換器

TSViT: A Time Series Vision Transformer for Fault Diagnosis ( http://arxiv.org/abs/2311.06916v1 )

ライセンス: Link先を確認
Shouhua Zhang, Jiehan Zhou, Xue Ma, Chenglin Wen, Susanna Pirttikangas, Chen Yu, Weishan Zhang, Chunsheng Yang(参考訳) 畳み込みニューラルネットワーク(cnns)を用いた従来の故障診断手法は、時間的特徴(すなわち、時間経過に伴う振動信号の変動)を捉える際の限界に直面する。 本稿では, 故障診断に特化して設計された新しいモデルであるTSViTを提案する。 一方、TSViTモデルは畳み込み層を統合し、振動信号を分割し、局所的な特徴を捉える。 一方で、長期的な時間情報を学ぶためにトランスフォーマエンコーダを用いる。 2つの異なるデータセットの他の手法による実験結果は、TSViTの有効性と一般化性をモデル性能、計算複雑性、および全体パラメータ量に対するハイパーパラメータの影響の比較分析により検証した。 TSViTは2つのテストセットで平均100%と99.99%に達する。

Traditional fault diagnosis methods using Convolutional Neural Networks (CNNs) face limitations in capturing temporal features (i.e., the variation of vibration signals over time). To address this issue, this paper introduces a novel model, the Time Series Vision Transformer (TSViT), specifically designed for fault diagnosis. On one hand, TSViT model integrates a convolutional layer to segment vibration signals and capture local features. On the other hand, it employs a transformer encoder to learn long-term temporal information. The experimental results with other methods on two distinct datasets validate the effectiveness and generalizability of TSViT with a comparative analysis of its hyperparameters' impact on model performance, computational complexity, and overall parameter quantity. TSViT reaches average accuracies of 100% and 99.99% on two test sets, correspondingly.
翻訳日:2023-11-14 16:15:00 公開日:2023-11-12
# 批判的、しかし願わくば、QBがバレンタインに反応

A Critical, But Hopefully Cordial, QBist Reply to Ballentine ( http://arxiv.org/abs/2311.06904v1 )

ライセンス: Link先を確認
Blake C. Stacey(参考訳) 量子力学のqbist解釈に関するl. e. ballentineの今日の物理学での発言は、概してその目印である。

L. E. Ballentine's remarks in Physics Today about the QBist interpretation of quantum mechanics are generally wide of the mark.
翻訳日:2023-11-14 16:14:46 公開日:2023-11-12
# Flames: 中国の大規模言語モデルのベンチマーク値アライメント

Flames: Benchmarking Value Alignment of Chinese Large Language Models ( http://arxiv.org/abs/2311.06899v1 )

ライセンス: Link先を確認
Kexin Huang, Xiangyang Liu, Qianyu Guo, Tianxiang Sun, Jiawei Sun, Yaru Wang, Zeyang Zhou, Yixu Wang, Yan Teng, Xipeng Qiu, Yingchun Wang, Dahua Lin(参考訳) 大規模言語モデル (LLM) の普及は, 人的価値との整合性を評価する緊急の必要性を浮き彫りにしている。 しかし、現在のベンチマークでは、LLMの安全性上の脆弱性を効果的に発見できなかった。 これらの評価において、多くのモデルがハイスコアと「チャートのトッピング」を達成しているにもかかわらず、llmsの人間的価値との深い整合と真の無害性には依然として大きなギャップがある。 そこで本研究では,手作業によるプロンプト2,251件,微粒なアノテーション付き18.7Kモデル応答,特定のスコアラからなるFlamesという,最初の高度に敵対的なベンチマークを提案する。 我々の枠組みは、公正、安全、合法、データ保護といった一般的な無害の原則と、調和のような特定の中国の価値観を統合するユニークな道徳的側面の両方を含んでいる。 このフレームワークに基づき、我々は複雑なシナリオとジェイルブレイクメソッドを組み込んだ敵対的プロンプトを慎重に設計する。 このような敵対的に構築されたプロンプトをメインストリームのllmに促すことで、モデル応答を得る。 以上の結果から, 評価されたLLMは, フラムの安全性, 公正度が比較的低いことが示唆された。 クロードは全体として最高の成績のモデルだが、無害率はわずか63.08%であり、GPT-4は39.04%である。 Flames の複雑さは既存のベンチマークをはるかに上回り、現代の LLM に新たな課題を与え、LLM のさらなるアライメントの必要性を強調している。 ベンチマークで新しいモデルを効率よく評価するために,複数の次元にまたがってLLMをスコアリングし,77.4%の精度を達成できる特定のスコアラを開発した。 Flames Benchmarkはhttps://github.com/AIFlames/Flamesで公開されている。

The widespread adoption of large language models (LLMs) across various regions underscores the urgent need to evaluate their alignment with human values. Current benchmarks, however, fall short of effectively uncovering safety vulnerabilities in LLMs. Despite numerous models achieving high scores and 'topping the chart' in these evaluations, there is still a significant gap in LLMs' deeper alignment with human values and achieving genuine harmlessness. To this end, this paper proposes the first highly adversarial benchmark named Flames, consisting of 2,251 manually crafted prompts, ~18.7K model responses with fine-grained annotations, and a specified scorer. Our framework encompasses both common harmlessness principles, such as fairness, safety, legality, and data protection, and a unique morality dimension that integrates specific Chinese values such as harmony. Based on the framework, we carefully design adversarial prompts that incorporate complex scenarios and jailbreaking methods, mostly with implicit malice. By prompting mainstream LLMs with such adversarially constructed prompts, we obtain model responses, which are then rigorously annotated for evaluation. Our findings indicate that all the evaluated LLMs demonstrate relatively poor performance on Flames, particularly in the safety and fairness dimensions. Claude emerges as the best-performing model overall, but with its harmless rate being only 63.08% while GPT-4 only scores 39.04%. The complexity of Flames has far exceeded existing benchmarks, setting a new challenge for contemporary LLMs and highlighting the need for further alignment of LLMs. To efficiently evaluate new models on the benchmark, we develop a specified scorer capable of scoring LLMs across multiple dimensions, achieving an accuracy of 77.4%. The Flames Benchmark is publicly available on https://github.com/AIFlames/Flames.
翻訳日:2023-11-14 16:14:41 公開日:2023-11-12
# 感染症疫学の分野別コモンズの作成

Creating a Discipline-specific Commons for Infectious Disease Epidemiology ( http://arxiv.org/abs/2311.06989v1 )

ライセンス: Link先を確認
Michael M. Wagner, William Hogan, John Levander, Adam Darr, Matt Diller, Max Sibilla, Alexander T. Loiacono. Terence Sperringer, Jr. and Shawn T. Brown(参考訳) 目的:疫学者、公衆衛生担当者、データ生産者、ソフトウェア開発者がデータとソフトウェアを共有するだけでなく、相互運用を改善する支援を受けることができる感染症疫学の共通点を作成すること。 資料と方法:586のデータセット,54のソフトウェア,24のデータフォーマットをowl 2で表現し,論理クエリを使用して,ソフトウェアとデータセットの相互運用可能な組み合わせと,コレクションの公平性に関する統計を推測した。 DATS 2.2のオブジェクトと、それ自身の設計のソフトウェアメタデータスキーマを表現した。 これらの表現を、midasデジタルコモンズを構成するコンテンツ、検索、フェアオメーター、ワークフローページの基礎として使用しました。 結果: ソフトウェアの入出力フォーマットの標準化の欠如により相互運用性が制限された。 フォーマットが存在するとき、それらは人間可読仕様(22/24; 92%)であり、3つのフォーマット(13%)だけが機械可読仕様であった。 それでも、名前付きデータ形式に基づくトリプルストアの論理的検索は、ソフトウェアとデータセットの相互運用可能な組み合わせのスコアを識別することができた。 議論: ソフトウェアとデータセットのサンプルの発見性と可用性を改善し、相互運用性を評価するためのメトリクスを開発しました。 相互運用性の障壁には、ソフトウェアインプット/アウトプットフォーマットのドキュメントが貧弱で、この分野のほとんどのタイプのデータの標準化にはほとんど注意が払われなかった。 結論: コモンズ内のデジタルオブジェクトの表現の集中化と形式化は公平性を促進し、時間とともにその測定を可能にし、データとソフトウェアの相互運用可能な組み合わせの同定を可能にする。

Objective: To create a commons for infectious disease (ID) epidemiology in which epidemiologists, public health officers, data producers, and software developers can not only share data and software, but receive assistance in improving their interoperability. Materials and Methods: We represented 586 datasets, 54 software, and 24 data formats in OWL 2 and then used logical queries to infer potentially interoperable combinations of software and datasets, as well as statistics about the FAIRness of the collection. We represented the objects in DATS 2.2 and a software metadata schema of our own design. We used these representations as the basis for the Content, Search, FAIR-o-meter, and Workflow pages that constitute the MIDAS Digital Commons. Results: Interoperability was limited by lack of standardization of input and output formats of software. When formats existed, they were human-readable specifications (22/24; 92%); only 3 formats (13%) had machine-readable specifications. Nevertheless, logical search of a triple store based on named data formats was able to identify scores of potentially interoperable combinations of software and datasets. Discussion: We improved the findability and availability of a sample of software and datasets and developed metrics for assessing interoperability. The barriers to interoperability included poor documentation of software input/output formats and little attention to standardization of most types of data in this field. Conclusion: Centralizing and formalizing the representation of digital objects within a commons promotes FAIRness, enables its measurement over time and the identification of potentially interoperable combinations of data and software.
翻訳日:2023-11-14 16:06:01 公開日:2023-11-12
# SELF-EXPLAIN:大規模言語モデルによる複雑な質問の推論

SELF-EXPLAIN: Teaching Large Language Models to Reason Complex Questions by Themselves ( http://arxiv.org/abs/2311.06985v1 )

ライセンス: Link先を確認
Jiachen Zhao, Zonghai Yao, Zhichao Yang, Hong Yu(参考訳) 大規模言語モデル(LLM)は中間推論ステップを生成することができる。 信頼できる推論を引き出すために、一般的なプラクティスは、推論のためのいくつかのコンテキスト内デモが質問に先立って行われる、数発のチェーン・オブ・シントプロンプトを使うことである。 しかし、このような思考連鎖の例は、特に専門分野において、製作に費用がかかり、人間の注釈者によっては高いばらつきを持つことがある。 そこで本研究では,LLMが人間による実演なしで理性を教えることができるかどうかを検討する。 人間の記憶検索における「符号化特異性」にインスパイアされたLLMを用いて,SELF-EXPLAINを用いてCoTのサンプルを生成する。 自己説明を用いることで、LLMはより自信を持ち、より校正され、複雑な質問に答えるときにバイアスが少なくなる。 さらに, 自己説明によるプロンプトは, 複数の複雑な質問応答データセット上で, 人造CoTよりもはるかに優れることがわかった。

Large language models (LLMs) can generate intermediate reasoning steps. To elicit the reliable reasoning, the common practice is to employ few-shot chain-of-thought prompting, where several in-context demonstrations for reasoning are prepended to the question. However, such chain-of-thought examples are expensive to craft, especially for professional domains, and can have high variance depending on human annotators. Therefore, this work investigates whether LLMs can teach themselves to reason without human-crafted demonstrations. We propose SELF-EXPLAIN to generate CoT examples by LLMs inspired by "encoding specificity" in human memory retrieval. We find using self-explanations makes LLMs more confident, more calibrated and less biased when answering complex questions. Moreover, we find prompting with self-explanations can even significantly outperform using human-crafted CoTs on several complex question answering dataset.
翻訳日:2023-11-14 16:05:32 公開日:2023-11-12
# 大規模言語モデルによるプログラムポリシーの解釈可能性の評価

Assessing the Interpretability of Programmatic Policies with Large Language Models ( http://arxiv.org/abs/2311.06979v1 )

ライセンス: Link先を確認
Zahra Bashir, Michael Bowling, Levi H. S. Lelis(参考訳) ポリシーを符号化するプログラムの合成は、しばしば解釈可能性の約束をもたらすが、このような評価の複雑さのために、これらのポリシーの解釈可能性を評価する体系的な評価は行われなかった。 本稿では,大規模言語モデル(llm)を用いてプログラム政策の解釈可能性を評価する新しい指標を提案する。 我々のメトリクスでは、LLMはプログラムと関連するプログラミング言語の記述の両方を与えられる。 LLMはその後、プログラムの自然言語説明を定式化する。 この説明はその後第2のLSMに送られ、自然言語の説明からプログラムを再構築しようとする。 再建プログラムとオリジナルとの行動的類似度を測定した。 古典的なプログラミング問題を解くために用いられる難読化プログラムを用いて,我々のアプローチを検証する。 また,実時間戦略ゲーム用に合成されたプログラム的ポリシーを用いて,既存のシステムで合成されたプログラム的ポリシーの解釈可能性スコアと,同一プログラムの難解なバージョンを比較した。 LLMベースの解釈可能性スコアは、より低い解釈可能なプログラムとより高い解釈可能なプログラムを一貫してランク付けします。 これらの結果は, プログラム政策の解釈可能性を評価する上で, 信頼性が高く安価なツールとなりうることを示唆する。

Although the synthesis of programs encoding policies often carries the promise of interpretability, systematic evaluations to assess the interpretability of these policies were never performed, likely because of the complexity of such an evaluation. In this paper, we introduce a novel metric that uses large-language models (LLM) to assess the interpretability of programmatic policies. For our metric, an LLM is given both a program and a description of its associated programming language. The LLM then formulates a natural language explanation of the program. This explanation is subsequently fed into a second LLM, which tries to reconstruct the program from the natural language explanation. Our metric measures the behavioral similarity between the reconstructed program and the original. We validate our approach using obfuscated programs that are used to solve classic programming problems. We also assess our metric with programmatic policies synthesized for playing a real-time strategy game, comparing the interpretability scores of programmatic policies synthesized by an existing system to lightly obfuscated versions of the same programs. Our LLM-based interpretability score consistently ranks less interpretable programs lower and more interpretable ones higher. These findings suggest that our metric could serve as a reliable and inexpensive tool for evaluating the interpretability of programmatic policies.
翻訳日:2023-11-14 16:05:14 公開日:2023-11-12
# 拡張ブリッジマッチング

Augmented Bridge Matching ( http://arxiv.org/abs/2311.06978v1 )

ライセンス: Link先を確認
Valentin De Bortoli, Guan-Horng Liu, Tianrong Chen, Evangelos A. Theodorou, Weilie Nie(参考訳) フローとブリッジマッチングは拡散モデルを包含する新しいプロセスのクラスである。 柔軟性の向上の大きな側面の1つは、これらのモデルが任意のデータ分布間を補間できる、すなわち、生成的モデリングを超えて一般化し、2つの与えられた分布間の任意の転送タスクの確率的(および決定論的)過程の学習に適用できることである。 本稿では, 流れとブリッジマッチングのプロセスが限界分布の情報を保持する一方で, より強固な最適性条件を満たさない限り, 必ずしも結合情報を保存できないことを強調する。 これは、元の経験的ペアリングを保存しようとすると問題となる。 一致するプロセスの簡単な変更により,初期試料点の情報と速度場(あるいはドリフト)を増大させることで,この結合を回復することを示す。 そのため、プロセスのマルコフ的性質は失われるが、分布間のカップリング情報は保持される。 画像翻訳タスクの混合学習における拡張の効率について説明する。

Flow and bridge matching are a novel class of processes which encompass diffusion models. One of the main aspect of their increased flexibility is that these models can interpolate between arbitrary data distributions i.e. they generalize beyond generative modeling and can be applied to learning stochastic (and deterministic) processes of arbitrary transfer tasks between two given distributions. In this paper, we highlight that while flow and bridge matching processes preserve the information of the marginal distributions, they do \emph{not} necessarily preserve the coupling information unless additional, stronger optimality conditions are met. This can be problematic if one aims at preserving the original empirical pairing. We show that a simple modification of the matching process recovers this coupling by augmenting the velocity field (or drift) with the information of the initial sample point. Doing so, we lose the Markovian property of the process but preserve the coupling information between distributions. We illustrate the efficiency of our augmentation in learning mixture of image translation tasks.
翻訳日:2023-11-14 16:04:52 公開日:2023-11-12
# CD-COCO:シーン認識型コンピュータビジョンのための多機能複合歪みCOCOデータベース

CD-COCO: A Versatile Complex Distorted COCO Database for Scene-Context-Aware Computer Vision ( http://arxiv.org/abs/2311.06976v1 )

ライセンス: Link先を確認
Ayman Beghdadi, Azeddine Beghdadi, Malik Mallem, Lotfi Beji, Faouzi Alaya Cheikh(参考訳) 近年、視覚に応用されるディープラーニング手法の開発により、複雑なコンピュータビジョン(cv)タスクを実行する実世界アプリケーションへの統合が増加している。 しかし、画像取得条件は、ハイレベル画像処理の性能に大きな影響を及ぼす。 これらの制限を克服するための可能な解決策は、トレーニングデータベースを人工的に拡張するか、あるいは信号歪みに頑健なディープラーニングモデルを設計することだ。 ここでは、既存のデータベースでこれまで無視されていた複雑で現実的な歪みでデータベースを豊かにすることで、最初のソリューションを選択します。 そこで我々は,MS-COCOデータベースをベースとした多目的データベースを構築し,局所的およびグローバルなフォトリアリスティック歪みを適用した。 これらの新しい局所的歪みは、高レベルのフォトリアリズムを保証する画像のシーンコンテキストを考慮して生成される。 歪みは、シーン内のオブジェクトの深さ情報とそれらのセマンティクスを利用して生成される。 これにより、高レベルのフォトリアリズムが保証され、様々なCVアプリケーション専用の従来のデータベースで無視される実際のシナリオを探索することができる。 汎用データベースは,オブジェクト検出(od)やシーンセグメンテーション,歪み型分類手法など,cvタスクのロバスト性を改善するための効率的なソリューションを提供する。 画像データベース、シーン分類インデックス、歪み生成コードは、github.com/aymanbegh/cd-coco}} で公開されている。

The recent development of deep learning methods applied to vision has enabled their increasing integration into real-world applications to perform complex Computer Vision (CV) tasks. However, image acquisition conditions have a major impact on the performance of high-level image processing. A possible solution to overcome these limitations is to artificially augment the training databases or to design deep learning models that are robust to signal distortions. We opt here for the first solution by enriching the database with complex and realistic distortions which were ignored until now in the existing databases. To this end, we built a new versatile database derived from the well-known MS-COCO database to which we applied local and global photo-realistic distortions. These new local distortions are generated by considering the scene context of the images that guarantees a high level of photo-realism. Distortions are generated by exploiting the depth information of the objects in the scene as well as their semantics. This guarantees a high level of photo-realism and allows to explore real scenarios ignored in conventional databases dedicated to various CV applications. Our versatile database offers an efficient solution to improve the robustness of various CV tasks such as Object Detection (OD), scene segmentation, and distortion-type classification methods. The image database, scene classification index, and distortion generation codes are publicly available \footnote{\url{https://github.com/Aymanbegh/CD-COCO}}
翻訳日:2023-11-14 16:04:36 公開日:2023-11-12
# 時間同期配電系統状態推定のためのディープニューラルネットワークの性能解析検証

Analytical Verification of Deep Neural Network Performance for Time-Synchronized Distribution System State Estimation ( http://arxiv.org/abs/2311.06973v1 )

ライセンス: Link先を確認
Behrouz Azimian, Shiva Moshtagh, Anamitra Pal, Shanshan Ma(参考訳) 近年,リアルタイム観測不能な分散システムのためのディープニューラルネットワーク(DNN)を用いた時間同期状態推定器の成功例が報告されている。 本稿では,入力測定における摂動関数として,その状態推定器の性能に関する解析的境界を与える。 テストデータセットのみに基づいてパフォーマンスを評価することは、トレーニング済みのDNNが入力摂動を処理する能力を効果的に示すものではないことがすでに示されている。 そこで我々はDNNの堅牢性と信頼性を解析的に検証し,それらを混合整数線形プログラミング(MILP)問題として扱う。 MILP定式化のスケーラビリティ制限に対処する際のバッチ正規化の能力も強調されている。 このフレームワークは、修正されたieee 34ノードシステムと実世界の大規模分散システムに対する時間同期分布系状態推定を行い、いずれもマイクロファサー測定ユニットによって不完全に観測される。

Recently, we demonstrated success of a time-synchronized state estimator using deep neural networks (DNNs) for real-time unobservable distribution systems. In this letter, we provide analytical bounds on the performance of that state estimator as a function of perturbations in the input measurements. It has already been shown that evaluating performance based on only the test dataset might not effectively indicate a trained DNN's ability to handle input perturbations. As such, we analytically verify robustness and trustworthiness of DNNs to input perturbations by treating them as mixed-integer linear programming (MILP) problems. The ability of batch normalization in addressing the scalability limitations of the MILP formulation is also highlighted. The framework is validated by performing time-synchronized distribution system state estimation for a modified IEEE 34-node system and a real-world large distribution system, both of which are incompletely observed by micro-phasor measurement units.
翻訳日:2023-11-14 16:04:14 公開日:2023-11-12
# 逐次意思決定のための拡張可能な機械学習最適化フレームワーク

An Expandable Machine Learning-Optimization Framework to Sequential Decision-Making ( http://arxiv.org/abs/2311.06972v1 )

ライセンス: Link先を確認
Dogacan Yilmaz and \.I. Esra B\"uy\"uktahtak{\i}n(参考訳) 最適解における二項決定変数の値を予測することにより、逐次決定問題を効率的に解決する統合予測最適化(PredOpt)フレームワークを提案する。 本稿では,機械学習(ML)における逐次依存,実現可能性,一般化といった課題に対処し,組合せ問題に対する最適解の予測を行う。 組合せ最適化問題の逐次的性質は、繰り返しニューラルネットワークとスライディングアテンションウインドウで把握される。 我々は,注意に基づくエンコーダ・デコーダニューラルネットワークアーキテクチャと,実現可能性排除・一般化フレームワークを統合し,時間依存最適化問題に対する高品質な実現可能な解法を学習する。 このフレームワークでは、ML予測の可能性を排除するために、必要なレベルの予測が最適化される。 これらの予測は、MIP(Mixed-Integer Programming)問題で修正され、商用の問題解決者によって迅速に解決される。 MCLSP(Multi-item capacitated lot-size)とMSMK(Multi-dimensional knapsack)という2つのよく知られた動的NP-Hard最適化問題に対処するアプローチを実証する。 その結果,より短小のインスタンスで学習したモデルを用いて,より長大な問題を予測することができた。 解の時間は、平均最適性ギャップが0.1%未満の3桁に縮めることができる。 PredOptと様々な設計のヒューリスティックスを比較し、我々のフレームワークがそれらより優れていることを示す。 PredOptは、即座に反復的に解決する必要がある動的なMIP問題を解決するのに有利である。

We present an integrated prediction-optimization (PredOpt) framework to efficiently solve sequential decision-making problems by predicting the values of binary decision variables in an optimal solution. We address the key issues of sequential dependence, infeasibility, and generalization in machine learning (ML) to make predictions for optimal solutions to combinatorial problems. The sequential nature of the combinatorial optimization problems considered is captured with recurrent neural networks and a sliding-attention window. We integrate an attention-based encoder-decoder neural network architecture with an infeasibility-elimination and generalization framework to learn high-quality feasible solutions to time-dependent optimization problems. In this framework, the required level of predictions is optimized to eliminate the infeasibility of the ML predictions. These predictions are then fixed in mixed-integer programming (MIP) problems to solve them quickly with the aid of a commercial solver. We demonstrate our approach to tackling the two well-known dynamic NP-Hard optimization problems: multi-item capacitated lot-sizing (MCLSP) and multi-dimensional knapsack (MSMK). Our results show that models trained on shorter and smaller-dimensional instances can be successfully used to predict longer and larger-dimensional problems. The solution time can be reduced by three orders of magnitude with an average optimality gap below 0.1%. We compare PredOpt with various specially designed heuristics and show that our framework outperforms them. PredOpt can be advantageous for solving dynamic MIP problems that need to be solved instantly and repetitively.
翻訳日:2023-11-14 16:04:00 公開日:2023-11-12
# 実時間センシングシステムのための物理インフォームドデータデノイング

Physics-Informed Data Denoising for Real-Life Sensing Systems ( http://arxiv.org/abs/2311.06968v1 )

ライセンス: Link先を確認
Xiyuan Zhang, Xiaohan Fu, Diyan Teng, Chengyu Dong, Keerthivasan Vijayakumar, Jiayun Zhang, Ranak Roy Chowdhury, Junsheng Han, Dezhi Hong, Rashmi Kulkarni, Jingbo Shang, Rajesh Gupta(参考訳) 現実世界の物理的プロセスを測定するセンサーは、今日の相互接続された世界でユビキタスである。 これらのセンサーには本質的にノイズがあり、それらがサポートするシステムの性能や信頼性に悪影響を及ぼす。 古典的なフィルタリングに基づくアプローチは、感覚計測の時間または周波数特性に関する強い仮定を導入している一方、学習に基づく認知的アプローチは一般に、多くの現実世界のアプリケーションで入手することがしばしば困難または違法なデノナイジングモデルをトレーニングするために、基底真理クリーンデータを使用することに依存している。 多くのシナリオにおいて、異なるセンサー測定(例えば位置と加速度)の関係は物理学の法則(例えば二階微分方程式)によって解析的に記述される。 このような物理制約を組み込むことで,基礎的真理データがない場合でも,デノナイジングプロセスの改善を導くことができる。 これを踏まえ、基礎となる物理によって支配される異なる測定値間の固有代数的関係を利用する物理インフォームド・デノナイジングモデルを設計する。 地上の真実を清浄なデータの必要性を回避し,実世界のアプリケーションに実用的なデノジングソリューションを提供する。 慣性ナビゲーション,CO2モニタリング,HVAC制御など,様々な領域で実験を行い,従来のデノナイジング法と比較して最先端の性能を達成した。 提案手法は, 高精度で高精度なセンサベースシステムにおいて, 高精度で高効率なアプローチを実現するために, 低コストなノイズセンサのデータをリアルタイム (4ms) にデノマイズすることができる。

Sensors measuring real-life physical processes are ubiquitous in today's interconnected world. These sensors inherently bear noise that often adversely affects performance and reliability of the systems they support. Classic filtering-based approaches introduce strong assumptions on the time or frequency characteristics of sensory measurements, while learning-based denoising approaches typically rely on using ground truth clean data to train a denoising model, which is often challenging or prohibitive to obtain for many real-world applications. We observe that in many scenarios, the relationships between different sensor measurements (e.g., location and acceleration) are analytically described by laws of physics (e.g., second-order differential equation). By incorporating such physics constraints, we can guide the denoising process to improve even in the absence of ground truth data. In light of this, we design a physics-informed denoising model that leverages the inherent algebraic relationships between different measurements governed by the underlying physics. By obviating the need for ground truth clean data, our method offers a practical denoising solution for real-world applications. We conducted experiments in various domains, including inertial navigation, CO2 monitoring, and HVAC control, and achieved state-of-the-art performance compared with existing denoising methods. Our method can denoise data in real time (4ms for a sequence of 1s) for low-cost noisy sensors and produces results that closely align with those from high-precision, high-cost alternatives, leading to an efficient, cost-effective approach for more accurate sensor-based systems.
翻訳日:2023-11-14 16:03:33 公開日:2023-11-12
# アンカーデータ拡張

Anchor Data Augmentation ( http://arxiv.org/abs/2311.06965v1 )

ライセンス: Link先を確認
Nora Schneider, Shirin Goshtasbpour, Fernando Perez-Cruz(参考訳) 非線形過パラメータ回帰におけるデータ拡張のための新しいアルゴリズムを提案する。 我々のデータ拡張アルゴリズムは、因果関係を文献から借用し、最近提案されたデータ拡張のためのアンカー回帰(AR)法を拡張し、これはMixupの文献に依存する現在の最先端のドメインに依存しないソリューションとは対照的である。 私たちのAnchor Data Augmentation(ADA)では、ARの修正サンプルのレプリカをいくつか使用して、さらなるトレーニング例を提供しています。 ニューラルネットワークを用いた線形および非線形回帰問題に対してADAを適用した。 ADAは最先端のC-Mixupソリューションと競合する。

We propose a novel algorithm for data augmentation in nonlinear over-parametrized regression. Our data augmentation algorithm borrows from the literature on causality and extends the recently proposed Anchor regression (AR) method for data augmentation, which is in contrast to the current state-of-the-art domain-agnostic solutions that rely on the Mixup literature. Our Anchor Data Augmentation (ADA) uses several replicas of the modified samples in AR to provide more training examples, leading to more robust regression predictions. We apply ADA to linear and nonlinear regression problems using neural networks. ADA is competitive with state-of-the-art C-Mixup solutions.
翻訳日:2023-11-14 16:03:03 公開日:2023-11-12
# adaptive recurrent visionは、目に見えない難易度までゼロショット計算をスケールする

Adaptive recurrent vision performs zero-shot computation scaling to unseen difficulty levels ( http://arxiv.org/abs/2311.06964v1 )

ライセンス: Link先を確認
Vijay Veerabadran, Srinivas Ravishankar, Yuan Tang, Ritik Raina, Virginia R. de Sa(参考訳) アルゴリズム的(または)推論問題を解く人間は、通常、問題の難しさの関数として成長する解時間を示す。 適応リカレントニューラルネットワークは、様々な言語処理タスクにこの特性を示すことが示されている。 しかし、そのような適応的な計算が、トレーニング分布の難易度を超える解を視覚モデルが外挿できるかどうかを評価するための作業はほとんど行われていない。 本研究では、繰り返しニューラルネットワークを用いた適応処理における重要な機能的役割について考察する。PathFinder と Mazes という2つの難解な視覚的推論タスクを用いて、学習中に見えない新しい難易度にゼロショットの一般化を可能にする入力要求に基づく計算資源を動的にスケールする。 畳み込みリカレントニューラルネットワーク(convolutional recurrent neural networks, convrnns)と,graves(2016)に基づく学習可能な停止機構を組み合わせた。 我々は,このような適応型convrnn (adrnn) の様々な実装について検討する。 私たちはそれを示します 1)AdRNNは、処理の早期(または遅滞)を動的に停止することを学び、より簡単な(あるいはより難しい)問題を解決する。 2) これらのRNNのゼロショットは,テスト時の反復回数を動的に増加させることで,トレーニング中に表示されないより困難な問題設定に一般化する。 本研究は, 逐次処理により, 入力要求に応じて計算資源を適応的に割り当てることができ, 学習なしで視覚的推論問題の難易度を一般化できるという仮説を支持するモデリングエビデンスを提供する。

Humans solving algorithmic (or) reasoning problems typically exhibit solution times that grow as a function of problem difficulty. Adaptive recurrent neural networks have been shown to exhibit this property for various language-processing tasks. However, little work has been performed to assess whether such adaptive computation can also enable vision models to extrapolate solutions beyond their training distribution's difficulty level, with prior work focusing on very simple tasks. In this study, we investigate a critical functional role of such adaptive processing using recurrent neural networks: to dynamically scale computational resources conditional on input requirements that allow for zero-shot generalization to novel difficulty levels not seen during training using two challenging visual reasoning tasks: PathFinder and Mazes. We combine convolutional recurrent neural networks (ConvRNNs) with a learnable halting mechanism based on Graves (2016). We explore various implementations of such adaptive ConvRNNs (AdRNNs) ranging from tying weights across layers to more sophisticated biologically inspired recurrent networks that possess lateral connections and gating. We show that 1) AdRNNs learn to dynamically halt processing early (or late) to solve easier (or harder) problems, 2) these RNNs zero-shot generalize to more difficult problem settings not shown during training by dynamically increasing the number of recurrent iterations at test time. Our study provides modeling evidence supporting the hypothesis that recurrent processing enables the functional advantage of adaptively allocating compute resources conditional on input requirements and hence allowing generalization to harder difficulty levels of a visual reasoning problem without training.
翻訳日:2023-11-14 16:02:53 公開日:2023-11-12
# 学習を力づける: スタンドアローン, ブラウザオンリーのシームレス教育コース

Empowering Learning: Standalone, Browser-Only Courses for Seamless Education ( http://arxiv.org/abs/2311.06961v1 )

ライセンス: Link先を確認
Babak Moghadas, Brian S. Caffo(参考訳) 大規模オープンオンラインコース(moocs)は、特にデータサイエンスや人工知能といったデータ中心の分野において、スケーラブルで柔軟な学習機会を提供している。 AIとデータサイエンスをMOOCに組み込むことは、適応的な学習アプローチを通じて学習経験を向上させる潜在的手段である。 この文脈では、コースコンテンツ維持における自律性、透明性、コラボレーションの基盤となる概念実証のオープンソースMOOC配信システムであるPyGlideを紹介します。 我々はPyGlideのユーザーフレンドリーでステップバイステップのガイドを提供し、学生にローカルソフトウェアをインストールする必要がないという利点を強調した。 アクセシビリティ、インクリビティ、コース資料の管理性を高める可能性を強調して、GitHubの継続的インテグレーションパイプラインでPyGlideの実践的な応用を紹介します。 PyGlideはオープンソースMOOCの将来に向けて有望なコースであり、オンライン教育における重要な課題を効果的に解決していると考えています。

Massive Open Online Courses (MOOCs) have transformed the educational landscape, offering scalable and flexible learning opportunities, particularly in data-centric fields like data science and artificial intelligence. Incorporating AI and data science into MOOCs is a potential means of enhancing the learning experience through adaptive learning approaches. In this context, we introduce PyGlide, a proof-of-concept open-source MOOC delivery system that underscores autonomy, transparency, and collaboration in maintaining course content. We provide a user-friendly, step-by-step guide for PyGlide, emphasizing its distinct advantage of not requiring any local software installation for students. Highlighting its potential to enhance accessibility, inclusivity, and the manageability of course materials, we showcase PyGlide's practical application in a continuous integration pipeline on GitHub. We believe that PyGlide charts a promising course for the future of open-source MOOCs, effectively addressing crucial challenges in online education.
翻訳日:2023-11-14 16:02:21 公開日:2023-11-12
# 平均不確実性に対するロバスト回帰

Robust Regression over Averaged Uncertainty ( http://arxiv.org/abs/2311.06960v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Yu Ma(参考訳) そこで本稿では,不確実性集合のすべての実現と平均的アプローチを取り入れ,最小二乗回帰問題に対する最適解を求めることにより,ロバスト回帰の新たな定式化を提案する。 この定式化はリッジ回帰を驚くほど回復し、既存の回帰問題に対するロバスト最適化と平均二乗誤差アプローチの間に欠落したリンクを確立する。 まず, 楕円形, ボックス, ダイヤモンド, 予算の4つの不確実性集合の等価性を証明し, サンプルサイズ, 特徴量, 摂動保護強度の関数として, ペナルティ項の閉形式の定式化を行う。 次に,摂動のレベルが異なる合成データセットにおいて,既存の最悪条件に対する平均定式化の一貫した改善を示す。 重要となるのは,摂動レベルが上昇するにつれて改善が進み,高雑音環境における本手法のアドバンテージを確認することである。 UCIデータセットから得られた実世界の回帰問題におけるサンプル外データセットの類似した改善について報告する。

We propose a new formulation of robust regression by integrating all realizations of the uncertainty set and taking an averaged approach to obtain the optimal solution for the ordinary least-squared regression problem. We show that this formulation surprisingly recovers ridge regression and establishes the missing link between robust optimization and the mean squared error approaches for existing regression problems. We first prove the equivalence for four uncertainty sets: ellipsoidal, box, diamond, and budget, and provide closed-form formulations of the penalty term as a function of the sample size, feature size, as well as perturbation protection strength. We then show in synthetic datasets with different levels of perturbations, a consistent improvement of the averaged formulation over the existing worst-case formulation in out-of-sample performance. Importantly, as the perturbation level increases, the improvement increases, confirming our method's advantage in high-noise environments. We report similar improvements in the out-of-sample datasets in real-world regression problems obtained from UCI datasets.
翻訳日:2023-11-14 16:02:03 公開日:2023-11-12
# 条件付き時空間正規化流を用いた確率的気象予報

Towards probabilistic Weather Forecasting with Conditioned Spatio-Temporal Normalizing Flows ( http://arxiv.org/abs/2311.06958v1 )

ライセンス: Link先を確認
Christina Winkler(参考訳) 生成正規化流はマルチモーダル空間分布をモデル化することができ、時間的相関をうまくモデル化することが示されている。 これらのモデルは、トレーニングの安定性、可逆性、サンプリングと推論の効率性のために、他の種類の生成モデルよりもいくつかの利点を提供する。 これは、地球科学、天体物理学、分子科学など、多くの科学分野において一様である確率的時空間予測問題の候補となる。 本稿では,確率的時空間モデリングのための条件付き正規化フローについて述べる。 本手法は,ERA5データセットからの日中温度と時空間地図予測のタスクに基づいて評価する。 実験により,本手法は時空間相関を捉えることができ,トレーニング中に使用する時間的地平線をはるかに越えることができることがわかった。

Generative normalizing flows are able to model multimodal spatial distributions, and they have been shown to model temporal correlations successfully as well. These models provide several benefits over other types of generative models due to their training stability, invertibility and efficiency in sampling and inference. This makes them a suitable candidate for stochastic spatio-temporal prediction problems, which are omnipresent in many fields of sciences, such as earth sciences, astrophysics or molecular sciences. In this paper, we present conditional normalizing flows for stochastic spatio-temporal modelling. The method is evaluated on the task of daily temperature and hourly geopotential map prediction from ERA5 datasets. Experiments show that our method is able to capture spatio-temporal correlations and extrapolates well beyond the time horizon used during training.
翻訳日:2023-11-14 16:01:43 公開日:2023-11-12
# 複数のカメラビューからの監視映像におけるMILによる異常検出

A MIL Approach for Anomaly Detection in Surveillance Videos from Multiple Camera Views ( http://arxiv.org/abs/2307.00562v4 )

ライセンス: Link先を確認
Silas Santiago Lopes Pereira, Jos\'e Everardo Bessa Maia(参考訳) 閉塞と乱れは、監視ビデオで異常を検出するのが難しくなる2つのシーン状態である。 さらに、異常事象は稀であり、結果として、クラス不均衡とラベル付き異常データの欠如もこの課題の重要な特徴である。 そのため、この用途には弱い教師付き手法が深く研究されている。 本稿では、ラベルの欠如に対処するためにMIL(Multiple Instance Learning)とMC(Multiple Camera Views)を組み合わせることで、監視ビデオにおける異常検出の典型的な問題に取り組む。 得られたMC-MILアルゴリズムでは、SultaniのMILランキング関数を用いた回帰ネットワークのトレーニングに多重カメラ複合損失関数を適用した。 ここで最初に提案されたMC-MILアルゴリズムを評価するために、複数のカメラビューからの異常検出タスクに対して、複数のカメラPETS-2009ベンチマークデータセットを再ラベルした。 その結果、シングルカメラ構成に比べてF1スコアが大幅に向上した。

Occlusion and clutter are two scene states that make it difficult to detect anomalies in surveillance video. Furthermore, anomaly events are rare and, as a consequence, class imbalance and lack of labeled anomaly data are also key features of this task. Therefore, weakly supervised methods are heavily researched for this application. In this paper, we tackle these typical problems of anomaly detection in surveillance video by combining Multiple Instance Learning (MIL) to deal with the lack of labels and Multiple Camera Views (MC) to reduce occlusion and clutter effects. In the resulting MC-MIL algorithm we apply a multiple camera combined loss function to train a regression network with Sultani's MIL ranking function. To evaluate the MC-MIL algorithm first proposed here, the multiple camera PETS-2009 benchmark dataset was re-labeled for the anomaly detection task from multiple camera views. The result shows a significant performance improvement in F1 score compared to the single-camera configuration.
翻訳日:2023-11-14 11:06:33 公開日:2023-11-12