このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230902となっている論文です。

PDF登録状況(公開日: 20230902)

TitleAuthorsAbstract論文公表日・翻訳日
# 関節対象物に基づく微細粒度画像記述生成法

A Fine-Grained Image Description Generation Method Based on Joint Objectives ( http://arxiv.org/abs/2311.12799v1 )

ライセンス: Link先を確認
Yifan Zhang and Chunzhen Lin and Donglin Cao and Dazhen Lin(参考訳) 細粒度画像記述生成技術の目的は、画像から詳細な情報を学習し、画像内容に関するコヒーレントで包括的なテキスト的詳細を提供する人間的な記述をシミュレートすることである。 現在、これらの手法のほとんどは、説明の繰り返しと省略の2つの主な課題に直面している。 さらに、既存の評価指標は、これらの2つの問題におけるモデルの性能をはっきりと反映できない。 これらの課題に対処するため,我々は,共同目的に基づく微細な画像記述生成モデルを提案する。 さらに、記述繰り返しや省略処理において、モデルの性能をより直感的に評価するための新しいオブジェクトベース評価指標を導入する。 この新しいアプローチは、画像レベルとオブジェクトレベルの両方の視覚的特徴を組み合わせて、その利点を最大化し、記述の繰り返しを減らすためにオブジェクトペナルティメカニズムを組み込む。 実験の結果,提案手法はcider評価指標を著しく改善し,記述反復や欠落問題に対処する上で優れた性能を示すことがわかった。

The goal of fine-grained image description generation techniques is to learn detailed information from images and simulate human-like descriptions that provide coherent and comprehensive textual details about the image content. Currently, most of these methods face two main challenges: description repetition and omission. Moreover, the existing evaluation metrics cannot clearly reflect the performance of models on these two issues. To address these challenges, we propose an innovative Fine-grained Image Description Generation model based on Joint Objectives. Furthermore, we introduce new object-based evaluation metrics to more intuitively assess the model's performance in handling description repetition and omission. This novel approach combines visual features at both the image level and object level to maximize their advantages and incorporates an object penalty mechanism to reduce description repetition. Experimental results demonstrate that our proposed method significantly improves the CIDEr evaluation metric, indicating its excellent performance in addressing description repetition and omission issues.
翻訳日:2024-01-15 15:59:48 公開日:2023-09-02
# deepscaler: 適応グラフ学習を用いた時空間gnnに基づくマイクロサービスの総合的自動スケーリング

DeepScaler: Holistic Autoscaling for Microservices Based on Spatiotemporal GNN with Adaptive Graph Learning ( http://arxiv.org/abs/2309.00859v1 )

ライセンス: Link先を確認
Chunyang Meng, Shijie Song, Haogang Tong, Maolin Pan, Yang Yu(参考訳) オートスケーリング機能は、現代のクラウドコンピューティングパラダイムにおける弾力性を実現する基盤を提供する。 ワークロードの変動に対応するために、人手による介入なしに、クラウドソフトウェアサービスやアプリケーションのための動的プロビジョニングや非プロビジョニングのリソースを可能にする。 しかし、マイクロサービスのオートスケーリングはさまざまな要因から難しい。 特に、複雑で時間的なサービスの依存関係を正確に定量化することは困難で、リソースを割り当てる際にカスケード効果をもたらす可能性がある。 本稿では、サービスレベルのアグリーメント(SLA)とコスト効率を最適化するために、サービス依存に対処することに焦点を当てた、ディープラーニングベースのマイクロサービスのための総合的オートスケーリングアプローチであるDeepScalerを提案する。 DeepScalerが採用 一 サービス依存を明らかにする親和性行列を適応的に生成するための期待最大化に基づく学習方法 (ii)グラフ構造データの隣人の情報を集約してマイクロサービスの時空間的特徴を抽出するための注意に基づくグラフ畳み込みネットワーク。 このようにDeepScalerは、より多くの潜在的なサービス依存関係をキャプチャし、動的ワークロードの下ですべてのサービスのリソース要件を正確に見積もることができる。 これにより、deepscalerは、相互作用するサービスのリソースを1つのリソースプロビジョニング操作で同時に再構成することができ、サービス依存によるカスケード効果を回避できる。 実験結果から,本手法は,リソースを正確に割り当てるだけでなく,依存関係の変更にも適応し,低コストで平均41%のsla違反を低減できる,より効果的な自動スケーリング機構を実装していることが分かった。

Autoscaling functions provide the foundation for achieving elasticity in the modern cloud computing paradigm. It enables dynamic provisioning or de-provisioning resources for cloud software services and applications without human intervention to adapt to workload fluctuations. However, autoscaling microservice is challenging due to various factors. In particular, complex, time-varying service dependencies are difficult to quantify accurately and can lead to cascading effects when allocating resources. This paper presents DeepScaler, a deep learning-based holistic autoscaling approach for microservices that focus on coping with service dependencies to optimize service-level agreements (SLA) assurance and cost efficiency. DeepScaler employs (i) an expectation-maximization-based learning method to adaptively generate affinity matrices revealing service dependencies and (ii) an attention-based graph convolutional network to extract spatio-temporal features of microservices by aggregating neighbors' information of graph-structural data. Thus DeepScaler can capture more potential service dependencies and accurately estimate the resource requirements of all services under dynamic workloads. It allows DeepScaler to reconfigure the resources of the interacting services simultaneously in one resource provisioning operation, avoiding the cascading effect caused by service dependencies. Experimental results demonstrate that our method implements a more effective autoscaling mechanism for microservice that not only allocates resources accurately but also adapts to dependencies changes, significantly reducing SLA violations by an average of 41% at lower costs.
翻訳日:2023-10-23 09:14:52 公開日:2023-09-02
# 異常拡散軌道を用いた事前学習型コンピュータビジョンモデルのグラミアン角場への応用

Gramian Angular Fields for leveraging pretrained computer vision models with anomalous diffusion trajectories ( http://arxiv.org/abs/2310.01416v1 )

ライセンス: Link先を確認
\`Oscar Garibo-i-Orts and Nicol\'as Firbas and Laura Sebasti\'a and J. Alberto Conejero(参考訳) 異常な拡散は、原子から大きなスケールまで、あらゆるスケールに存在する。 例としては、超低温原子、細胞核のテロメア、セメント系材料の水分輸送、節足動物の自由移動、鳥類の移動パターンなどがある。 拡散のキャラクタリゼーションは、これらの系のダイナミクスに関する重要な情報を与え、拡散輸送を研究するための学際的な枠組みを提供する。 したがって、基礎となる拡散状態を特定し、異常拡散指数 {$\alpha$} を高い信頼性で推定する問題は、物理学、化学、生物学、生態学において重要である。 機械学習技術とそれらから抽出した統計を組み合わせた生軌跡の分類と解析は、異常拡散チャレンジge(munoz-gil et al., 2021)で広く研究されている。 ここでは、拡散軌跡を扱うための新しいデータ駆動方式を提案する。 本手法は,1次元軌跡を画像(グラミアン行列)として符号化するために,GAF(Gramian Angular Fields)を用いて,コンピュータビジョンモデルへの入力のための時空間構造を保存する。 これにより、よく訓練された2つのコンピュータビジョンモデル、ResNetとMobileNetを利用して、基礎となる拡散体制を特徴づけ、異常拡散指数 {$\alpha$} を推測することができる。 10から50までの短い生の軌道は、単一粒子追跡実験で一般的に見られ、最も特徴付けるのが困難である。 そこで本研究では,gaf画像を用いることで,機械学習手法へのアクセシビリティを高めつつ,現在の最先端技術を上回ることができることを示す。

Anomalous diffusion is present at all scales, from atomic to large scales. Some exemplary systems are; ultra-cold atoms, telomeres in the nucleus of cells, moisture transport in cement-based materials, the free movement of arthropods, and the migration patterns of birds. The characterization of the diffusion gives critical information about the dynamics of these systems and provides an interdisciplinary framework with which to study diffusive transport. Thus, the problem of identifying underlying diffusive regimes and inferring the anomalous diffusion exponent {$\alpha$} with high confidence is critical to physics, chemistry, biology, and ecology. Classification and analysis of raw trajectories combining machine learning techniques with statistics extracted from them have widely been studied in the Anomalous Diffusion Challenge ge (Munoz-Gil et al., 2021). Here we present a new data-driven method for working with diffusive trajectories. This method utilizes Gramian Angular Fields (GAF) to encode one-dimensional trajectories as images (Gramian Matrices), while preserving their spatiotemporal structure for input to computer-vision models. This allows us to leverage two well-established pre-trained computer-vision models, ResNet and MobileNet, to characterize the underlying diffusive regime, and infer the anomalous diffusion exponent {$\alpha$}. Short raw trajectories, of lengths between 10 and 50, are commonly encountered in single-particle tracking experiments and are the most difficult to characterize. We show that by using GAF images, we can outperform the current state-of-the-art while increasing accessibility to machine learning methods in an applied setting.
翻訳日:2023-10-08 11:08:05 公開日:2023-09-02
# AIを用いたピアレビューの倫理に関する批判的考察

A Critical Examination of the Ethics of AI-Mediated Peer Review ( http://arxiv.org/abs/2309.12356v1 )

ライセンス: Link先を確認
Laurie A. Schintler, Connie L. McNeely, James Witte(参考訳) ChatGPTのような大規模言語モデルを含む人工知能(AI)システムの最近の進歩は、学術的なピアレビューの約束と危機を提供する。 一方、AIは長い公開遅延のような問題に対処することで効率を向上させることができる。 一方、これは、相互レビュープロセスと結果の整合性を損なう倫理的および社会的懸念をもたらします。 しかしながら、人間のピアレビューシステムは、バイアスや虐待、透明性の欠如など、すでに信頼性を低下させるような関連する問題も抱えている。 ピアレビューにおけるaiの利用に注目が集まっている一方で、学術雑誌出版において、ピアレビューが位置づけられる幅広い認識論、社会的、文化的、社会的な認識論を無視して、盗作主義と著者シップを中心に議論が展開されている。 ai駆動のピアレビューの正当性は、科学的な倫理と一致し、学術的なコミュニティにおいて適切な行動を定義する道徳的および認識論的規範を包含する。 この点において、ピアレビューにおけるAIの受容性は、制度論理、倫理的慣行、内部規制機構によって形作られています。 ここでの議論は、AI主導のピアレビューの正当性を批判的に評価することの必要性を強調し、その実装と影響を形作る広範な疫学、社会的、倫理的、規制的要因に対する利点と欠点に対処する。

Recent advancements in artificial intelligence (AI) systems, including large language models like ChatGPT, offer promise and peril for scholarly peer review. On the one hand, AI can enhance efficiency by addressing issues like long publication delays. On the other hand, it brings ethical and social concerns that could compromise the integrity of the peer review process and outcomes. However, human peer review systems are also fraught with related problems, such as biases, abuses, and a lack of transparency, which already diminish credibility. While there is increasing attention to the use of AI in peer review, discussions revolve mainly around plagiarism and authorship in academic journal publishing, ignoring the broader epistemic, social, cultural, and societal epistemic in which peer review is positioned. The legitimacy of AI-driven peer review hinges on the alignment with the scientific ethos, encompassing moral and epistemic norms that define appropriate conduct in the scholarly community. In this regard, there is a "norm-counternorm continuum," where the acceptability of AI in peer review is shaped by institutional logics, ethical practices, and internal regulatory mechanisms. The discussion here emphasizes the need to critically assess the legitimacy of AI-driven peer review, addressing the benefits and downsides relative to the broader epistemic, social, ethical, and regulatory factors that sculpt its implementation and impact.
翻訳日:2023-10-01 12:44:40 公開日:2023-09-02
# マルコフモデルを用いた遷移解析とプロセスマイニングの現代的アプローチ:Rを用いたチュートリアル

A modern approach to transition analysis and process mining with Markov models: A tutorial with R ( http://arxiv.org/abs/2309.08558v1 )

ライセンス: Link先を確認
Jouni Helske, Satu Helske, Mohammed Saqr, Sonsoles L\'opez-Pernas, Keefe Murphy(参考訳) 本章では,シーケンスデータ解析のためのマルコフモデルについて紹介する。 前回のシーケンス分析章に見られる決定論的アプローチとは対照的に、マルコフモデルは確率的モデルであり、シーケンス全体を研究するのではなく、状態間の遷移に焦点を当てている。 この章は、この方法を紹介し、最も一般的なバリエーションである1次マルコフモデル、隠れマルコフモデル、混合マルコフモデル、混合マルコフモデルとを区別する。 既存の文献における詳細な説明と文脈化に加えて、この章はrパッケージseqhmmを使用してマルコフモデルの各タイプの実装方法に関するステップバイステップのチュートリアルを提供している。 また、markovianモデルによる確率的プロセスマイニングの実行や、異なるプロセスモデルをプロット、比較、クラスタリングするための完全なガイドを提供する。

This chapter presents an introduction to Markovian modeling for the analysis of sequence data. Contrary to the deterministic approach seen in the previous sequence analysis chapters, Markovian models are probabilistic models, focusing on the transitions between states instead of studying sequences as a whole. The chapter provides an introduction to this method and differentiates between its most common variations: first-order Markov models, hidden Markov models, mixture Markov models, and mixture hidden Markov models. In addition to a thorough explanation and contextualization within the existing literature, the chapter provides a step-by-step tutorial on how to implement each type of Markovian model using the R package seqHMM. The chaper also provides a complete guide to performing stochastic process mining with Markovian models as well as plotting, comparing and clustering different process models.
翻訳日:2023-09-24 04:24:11 公開日:2023-09-02
# chatgpt生成テキストによる事前学習が下流タスクに与える影響の検討

Studying the impacts of pre-training using ChatGPT-generated text on downstream tasks ( http://arxiv.org/abs/2309.05668v1 )

ライセンス: Link先を確認
Sarthak Anand(参考訳) 近年、言語モデルの分野では、特にインターネットアーカイブから抽出された膨大なデータに基づいて訓練された大規模言語モデル(llm)が出現するなど、大きな進歩が見られる。 これらのLLM(ChatGPT)は広く普及しており、ユーザーは記事、エッセイ、ジョーク、詩など様々な目的でテキストを生成することができる。 LLMはRedditやTwitterのようなプラットフォームを含むさまざまなテキストソースでトレーニングされているため、将来のトレーニングデータセットには、モデル自体の以前のイテレーションによって生成されたテキストも組み込まれるだろう。 本研究は,言語モデルの事前学習段階における人工テキストの影響について検討することを目的としている。 具体的には、CNN/DailyMailのニュース記事を用いて事前学習したRoBERTaと、そのトレーニングに同じ記事を使用し、3つの下流タスクと潜在的な性別バイアスを指標として評価したChatGPTの比較分析を行った。 一連の実験を通じて,学習中の人工テキストの利用が,ダウンストリームタスクにおけるモデルのパフォーマンスや性別バイアスに大きな影響を与えないことを実証した。 以上の結果から,LLMが生成したテキストを事前学習プロセスに組み込むことは,下流タスクにおけるモデルの性能や潜在的な性別バイアスに重大な影響を及ぼさないことが示唆された。

In recent times, significant advancements have been witnessed in the field of language models, particularly with the emergence of Large Language Models (LLMs) that are trained on vast amounts of data extracted from internet archives. These LLMs, such as ChatGPT, have become widely accessible, allowing users to generate text for various purposes including articles, essays, jokes, and poetry. Given that LLMs are trained on a diverse range of text sources, encompassing platforms like Reddit and Twitter, it is foreseeable that future training datasets will also incorporate text generated by previous iterations of the models themselves. In light of this development, our research aims to investigate the influence of artificial text in the pre-training phase of language models. Specifically, we conducted a comparative analysis between a language model, RoBERTa, pre-trained using CNN/DailyMail news articles, and ChatGPT, which employed the same articles for its training and evaluated their performance on three downstream tasks as well as their potential gender bias, using sentiment analysis as a metric. Through a series of experiments, we demonstrate that the utilization of artificial text during pre-training does not have a significant impact on either the performance of the models in downstream tasks or their gender bias. In conclusion, our findings suggest that the inclusion of text generated by LLMs in their own pre-training process does not yield substantial effects on the subsequent performance of the models in downstream tasks or their potential gender bias.
翻訳日:2023-09-17 13:59:36 公開日:2023-09-02
# CNN-SAEDN-Resに基づく短期電力負荷予測手法

Short-term power load forecasting method based on CNN-SAEDN-Res ( http://arxiv.org/abs/2309.07140v1 )

ライセンス: Link先を確認
Yang Cui, Han Zhu, Yijian Wang, Lu Zhang, Yang Li(参考訳) ディープラーニングでは,非時間的要因を持つ負荷データをシーケンスモデルで処理することは困難である。 この問題は予測の精度が不十分である。 そこで,畳み込みニューラルネットワーク(cnn),自己アテンションエンコーダデコーダネットワーク(saedn),残差細化(res)に基づく短時間負荷予測手法を提案する。 この方法では、特徴抽出モジュールは、2次元畳み込みニューラルネットワークで構成され、データ間の局所的相関をマイニングし、高次元データ特徴を得る。 最初のロードフォアキャストモジュールは、自己アテンションエンコーダデコーダネットワークとフィードフォワードニューラルネットワーク(FFN)から構成される。 このモジュールは自己保持機構を利用して高次元特徴を符号化する。 この操作はデータ間の大域的な相関を得ることができる。 したがって,非時系列因子を混合したデータ内のデータ間の結合関係に基づいて重要な情報を保持することができる。 そして、セルフアテンション復号化を行い、フィードフォワードニューラルネットワークを用いて回帰初期負荷を行う。 本稿では負荷最適化モジュールを構築するための残留メカニズムを紹介する。 モジュールは初期負荷を最適化するために残負荷値を生成する。 シミュレーションの結果,提案手法は予測精度と予測安定性の点で利点があることがわかった。

In deep learning, the load data with non-temporal factors are difficult to process by sequence models. This problem results in insufficient precision of the prediction. Therefore, a short-term load forecasting method based on convolutional neural network (CNN), self-attention encoder-decoder network (SAEDN) and residual-refinement (Res) is proposed. In this method, feature extraction module is composed of a two-dimensional convolutional neural network, which is used to mine the local correlation between data and obtain high-dimensional data features. The initial load fore-casting module consists of a self-attention encoder-decoder network and a feedforward neural network (FFN). The module utilizes self-attention mechanisms to encode high-dimensional features. This operation can obtain the global correlation between data. Therefore, the model is able to retain important information based on the coupling relationship between the data in data mixed with non-time series factors. Then, self-attention decoding is per-formed and the feedforward neural network is used to regression initial load. This paper introduces the residual mechanism to build the load optimization module. The module generates residual load values to optimize the initial load. The simulation results show that the proposed load forecasting method has advantages in terms of prediction accuracy and prediction stability.
翻訳日:2023-09-17 13:38:49 公開日:2023-09-02
# 孤立手話認識のための自己監督型ビデオ変換器

Self-Supervised Video Transformers for Isolated Sign Language Recognition ( http://arxiv.org/abs/2309.02450v1 )

ライセンス: Link先を確認
Marcelo Sandoval-Castaneda, Yanhong Li, Diane Brentari, Karen Livescu, Gregory Shakhnarovich(参考訳) 本稿では,孤立手話認識(ISLR)のための様々な自己超越手法を詳細に分析する。 最近導入された4つのトランスフォーマーベースのビデオからの自己教師型学習アプローチと4つの事前学習データレジームについて検討し、WLASL2000データセット上ですべての組み合わせについて検討する。 以上の結果から,maskfeatはポーズベースおよび教師付きビデオモデルよりも性能が優れており,光沢ベースwlasl2000では,トップ1の精度79.02%であった。 さらに,種々の音韻的特徴に基づく線形探索を用いて,これらのモデルがASL符号の表現を生成する能力を解析した。 本研究は,ISLRにおけるアーキテクチャと事前学習タスクの選択の価値を裏付けるものである。 具体的には,WLASL2000において,マスク付き再構成事前学習のパワーを強調し,線形探索の結果から手話表現における階層型視覚変換器の重要性が示された。

This paper presents an in-depth analysis of various self-supervision methods for isolated sign language recognition (ISLR). We consider four recently introduced transformer-based approaches to self-supervised learning from videos, and four pre-training data regimes, and study all the combinations on the WLASL2000 dataset. Our findings reveal that MaskFeat achieves performance superior to pose-based and supervised video models, with a top-1 accuracy of 79.02% on gloss-based WLASL2000. Furthermore, we analyze these models' ability to produce representations of ASL signs using linear probing on diverse phonological features. This study underscores the value of architecture and pre-training task choices in ISLR. Specifically, our results on WLASL2000 highlight the power of masked reconstruction pre-training, and our linear probing results demonstrate the importance of hierarchical vision transformers for sign language representation.
翻訳日:2023-09-07 18:20:30 公開日:2023-09-02
# League of Legends: リアルタイムの成果予測

League of Legends: Real-Time Result Prediction ( http://arxiv.org/abs/2309.02449v1 )

ライセンス: Link先を確認
Jailson B. S. Junior and Claudio E. C. Campelo(参考訳) 本稿では,機械学習技術を用いて,電子ゲームリーグ・オブ・レジェンド(LoL)の試合結果の予測について検討する。 マッチングの異なる変数とステージを考慮し、リアルタイム結果を予測する能力を検討することを目的として、未公開データをこのプロセスの基本的な部分として用いることを強調する。 LoLの人気が高まり、トーナメントの出現とともに、ゲームに関連した賭けも出現し、この分野の調査はさらに関連性を高めている。 様々なモデルが評価され、結果は奨励された。 lightgbmに基づくモデルが最も優れた性能を示し、経過時間の割合が60\%から80\%の間であれば、マッチの中間段階で平均81.62\%の精度を達成した。 一方、ロジスティック回帰と勾配強化モデルはゲームの初期段階でより効果的であることが証明され、有望な結果が得られた。 この研究は、電子ゲームに適用される機械学習の分野に貢献し、league of legendsのリアルタイム予測に対する貴重な洞察を提供する。 得られた結果は、戦略の改善を目指すプレイヤーと、ゲームに関連する賭け業界の両方に関係があるかもしれない。

This paper presents a study on the prediction of outcomes in matches of the electronic game League of Legends (LoL) using machine learning techniques. With the aim of exploring the ability to predict real-time results, considering different variables and stages of the match, we highlight the use of unpublished data as a fundamental part of this process. With the increasing popularity of LoL and the emergence of tournaments, betting related to the game has also emerged, making the investigation in this area even more relevant. A variety of models were evaluated and the results were encouraging. A model based on LightGBM showed the best performance, achieving an average accuracy of 81.62\% in intermediate stages of the match when the percentage of elapsed time was between 60\% and 80\%. On the other hand, the Logistic Regression and Gradient Boosting models proved to be more effective in early stages of the game, with promising results. This study contributes to the field of machine learning applied to electronic games, providing valuable insights into real-time prediction in League of Legends. The results obtained may be relevant for both players seeking to improve their strategies and the betting industry related to the game.
翻訳日:2023-09-07 18:20:14 公開日:2023-09-02
# 空間損失を考慮した事前対応型QKDプロトコル

Prepare-and-measure based QKD protocol under free-space losses ( http://arxiv.org/abs/2309.02451v1 )

ライセンス: Link先を確認
Mitali Sisodia and Joyee Ghosh(参考訳) 本研究では,自由空間上のSARG04プロトコルを理論的に提案した。 高い秘密鍵レートは、ノイズの許容範囲が最大である自由空間の損失の下でも可能であることが示されている。

In this study, we have theoretically presented a prepare-and-measure-based SARG04 protocol over free space. It has shown that the highest secret key rate is possible even under free-space losses with a maximum tolerance of noise.
翻訳日:2023-09-07 18:04:11 公開日:2023-09-02
# 豪華なジャックポット、訓練済みモデルで現存

Lottery Jackpots Exist in Pre-trained Models ( http://arxiv.org/abs/2104.08700v7 )

ライセンス: Link先を確認
Yuxin Zhang, Mingbao Lin, Yunshan Zhong, Fei Chao, Rongrong Ji(参考訳) ネットワークプルーニングは、許容できる性能の妥協によってネットワークの複雑さを減らす効果的なアプローチである。 既存の研究では、時間を要する重みトレーニングや、幅が拡大したネットワークの複雑な探索によって、ニューラルネットワークのスパース性を実現している。 本稿では,未拡張幅の事前学習モデルにおいて,重みトレーニングを伴わないハイパフォーマンスでスパースなサブネットワークであるlottery jackpotsの存在を示す。 さらに,2つの視点から宝くじの探索効率を向上させる。 まず,既存の刈り取り基準から得られたスパースマスクは,我々の宝くじの探索マスクと重なり合い,その内,等級に基づく刈り取りは我々のものと最もよく似たマスクとなることを観察した。 その結果、検索した宝くじのジャックポットはResNet-50の90%の重量を除去し、ImageNetの検索エポックは5つしかなく、70%以上のトップ-1の精度を得ることができた。 この知見に従えば、大まかなプルーニングを用いてスパースマスクを初期化し、ロタリー・ジャックポット探索において少なくとも3倍のコスト削減を実現しつつ、同等またはそれ以上の性能を達成することができる。 次に,宝くじの探索過程を詳細に解析する。 我々の理論的結果は、現代のネットワークにおける重み間の依存により、重量探索におけるトレーニング損失の減少が妨げられることを示唆している。 これを軽減するために,トレーニング損失に悪影響を及ぼす可能性のあるマスクの変化を制限するための,新しい制限手法を提案する。 私たちのコードはhttps://github.com/zyxxmu/lottery-jackpotsで利用可能です。

Network pruning is an effective approach to reduce network complexity with acceptable performance compromise. Existing studies achieve the sparsity of neural networks via time-consuming weight training or complex searching on networks with expanded width, which greatly limits the applications of network pruning. In this paper, we show that high-performing and sparse sub-networks without the involvement of weight training, termed "lottery jackpots", exist in pre-trained models with unexpanded width. Furthermore, we improve the efficiency for searching lottery jackpots from two perspectives. Firstly, we observe that the sparse masks derived from many existing pruning criteria have a high overlap with the searched mask of our lottery jackpot, among which, the magnitude-based pruning results in the most similar mask with ours. Consequently, our searched lottery jackpot removes 90% weights in ResNet-50, while it easily obtains more than 70% top-1 accuracy using only 5 searching epochs on ImageNet. In compliance with this insight, we initialize our sparse mask using the magnitude-based pruning, resulting in at least 3x cost reduction on the lottery jackpot searching while achieving comparable or even better performance. Secondly, we conduct an in-depth analysis of the searching process for lottery jackpots. Our theoretical result suggests that the decrease in training loss during weight searching can be disturbed by the dependency between weights in modern networks. To mitigate this, we propose a novel short restriction method to restrict change of masks that may have potential negative impacts on the training loss. Our code is available at https://github.com/zyxxmu/lottery-jackpots.
翻訳日:2023-09-07 12:34:19 公開日:2023-09-02
# 測定に基づく決定論的想像時間進化

Measurement-based deterministic imaginary time evolution ( http://arxiv.org/abs/2202.09100v3 )

ライセンス: Link先を確認
Yuping Mao, Manish Chaudhary, Manikandan Kondappan, Junheng Shi, Ebubechukwu O. Ilo-Okeke, Valentin Ivannikov, and Tim Byrnes(参考訳) 本稿では,制御可能な量子システムにおいて,計測と条件付きユニタリ演算を用いて仮想時間発展を行う手法を提案する。 スズキ-トロッター分解によって構築された所望のハミルトニアンに基づいて一連の弱い測定を行うことで、想像上の時間発展を近似する進化を実現することができる。 測定によるランダム性は条件付きユニタリ演算を用いて補正され、進化は決定論的となる。 アルゴリズムに必要な測定と条件付きユニタリ演算の両方を効率的に構築することができる。 アルゴリズムが特定のエネルギーしきい値以下で収束することを示し,その複雑性を特定の問題に対して推定する。

We introduce a method to perform imaginary time evolution in a controllable quantum system using measurements and conditional unitary operations. By performing a sequence of weak measurements based on the desired Hamiltonian constructed by a Suzuki-Trotter decomposition, an evolution approximating imaginary time evolution can be realized. The randomness due to measurement is corrected using conditional unitary operations, making the evolution deterministic. Both the measurements required for the algorithm and the conditional unitary operations can be constructed efficiently. We show that the algorithm converges only below a specified energy threshold and the complexity is estimated for some specific problem instances.
翻訳日:2023-09-07 12:25:13 公開日:2023-09-02
# LoNLI: NLIのさまざまな論理推論機能をテストする拡張可能なフレームワーク

LoNLI: An Extensible Framework for Testing Diverse Logical Reasoning Capabilities for NLI ( http://arxiv.org/abs/2112.02333v2 )

ライセンス: Link先を確認
Ishan Tarunesh, Somak Aditya, Monojit Choudhury(参考訳) 自然言語推論(NLI)は、自然言語理解(NLU)をテストするための代表的なタスクと考えられている。 本研究では,NLIに必要な多種多様な論理的推論能力(および拡張によりNLU)を総合的に検証する拡張可能なフレームワークを提案する。 振る舞いテストによって動機づけられた私たちは、半合成の大規模なテストベンチ(363テンプレート、363k例)と、以下のユーティリティを提供する関連するフレームワークを作成します。 1)17の推論次元(実用的推論を含む)に沿って個別に推論能力をテスト・分析する。 2 クロス能力情報の内容(持ち出し又は持ち帰り)を研究するための設計実験及び 3) 人工的な性質により, 人工物やバイアスを制御できる。 我々は、自由形式の自然言語テンプレート(CheckList)から自動テストケースインスタンス化のフレームワークを拡張し、自然言語の複雑さを変化させながら、ますます難しいテストケースをカバーするために、適切に定義された機能分類を公開しています。 最先端のNLIシステムの解析を通じて、我々のベンチマークは確かに困難である(そして、追加のリソースのトレーニングにおいても)。 能力によっては難易度が増す。 さらに、きめ細かい分析と微調整実験は、これらの機能とモデル -- 以前の観察をサポートし、拡張する -- に関する洞察を明らかにし、提案されたテストベンチの有用性を示している。

Natural Language Inference (NLI) is considered a representative task to test natural language understanding (NLU). In this work, we propose an extensible framework to collectively yet categorically test diverse Logical reasoning capabilities required for NLI (and, by extension, NLU). Motivated by behavioral testing, we create a semi-synthetic large test bench (363 templates, 363k examples) and an associated framework that offers the following utilities: 1) individually test and analyze reasoning capabilities along 17 reasoning dimensions (including pragmatic reasoning); 2) design experiments to study cross-capability information content (leave one out or bring one in); and 3) the synthetic nature enables us to control for artifacts and biases. We extend a publicly available framework of automated test case instantiation from free-form natural language templates (CheckList) and a well-defined taxonomy of capabilities to cover a wide range of increasingly harder test cases while varying the complexity of natural language. Through our analysis of state-of-the-art NLI systems, we observe that our benchmark is indeed hard (and non-trivial even with training on additional resources). Some capabilities stand out as harder. Further, fine-grained analysis and fine-tuning experiments reveal more insights about these capabilities and the models -- supporting and extending previous observations; thus showing the utility of the proposed testbench.
翻訳日:2023-09-07 12:24:12 公開日:2023-09-02
# クリーンラベルデータ中毒によるハッシュ画像検索におけるバックドア攻撃

Backdoor Attack on Hash-based Image Retrieval via Clean-label Data Poisoning ( http://arxiv.org/abs/2109.08868v3 )

ライセンス: Link先を確認
Kuofeng Gao, Jiawang Bai, Bin Chen, Dongxian Wu, Shu-Tao Xia(参考訳) バックドアのディープハッシュモデルは、オリジナルのクエリイメージで正常に動作し、特定のトリガーパターンが存在するときにターゲットラベルでイメージを返すことが期待されている。 そこで本研究では混乱性摂動誘発バックドアアタック(ciba)を提案する。 トレーニングデータに、正しいラベルの付いた少数の毒画像を注入することで、攻撃を検出するのが困難になる。 有毒画像を作成するために,まず,ハッシュ化コード学習を邪魔する混乱する摂動法を提案する。 したがって、ハッシュモデルはトリガーについてもっと学ぶことができる。 紛らわしい摂動は、ハミング空間のクラス内分散とクラス間シフトを最適化することによって生じる。 次に,攻撃性能向上のためのバックドアトリガーとして,標的となる敵パッチを用いる。 提案したCIBAの有効性を検証するための広範な実験を行った。 私たちのコードはhttps://github.com/kuofenggao/cibaで利用可能です。

A backdoored deep hashing model is expected to behave normally on original query images and return the images with the target label when a specific trigger pattern presents. To this end, we propose the confusing perturbations-induced backdoor attack (CIBA). It injects a small number of poisoned images with the correct label into the training data, which makes the attack hard to be detected. To craft the poisoned images, we first propose the confusing perturbations to disturb the hashing code learning. As such, the hashing model can learn more about the trigger. The confusing perturbations are imperceptible and generated by optimizing the intra-class dispersion and inter-class shift in the Hamming space. We then employ the targeted adversarial patch as the backdoor trigger to improve the attack performance. We have conducted extensive experiments to verify the effectiveness of our proposed CIBA. Our code is available at https://github.com/KuofengGao/CIBA.
翻訳日:2023-09-07 12:23:28 公開日:2023-09-02
# 修正エピポーラ平面画像による光深度推定

Light Field Depth Estimation via Stitched Epipolar Plane Images ( http://arxiv.org/abs/2203.15201v2 )

ライセンス: Link先を確認
Ping Zhou, Xiaoyang Liu, Jing Jin, Yuting Zhang, and Junhui Hou(参考訳) 深度推定は光場処理の基本的な問題である。 エピポーラ平面画像(EPI)に基づく手法は、離散化誤差や角度分解能の制限による勾配計算の精度の低下といった問題にしばしば遭遇する。 既存の手法は、ほとんどの地域ではうまく機能するが、閉ざされた地域で鋭い縁を作り、テクスチャのない地域で曖昧さを解決するのに苦労している。 これらの問題に対処するため,我々は斜面計算を強化するためのstitched-epi (sepi) の概念を提案する。 SEPIは、同じ3Dポイントに対応する異なるEPIから線をシフトして連結することでこれを達成している。 さらに, 咬合処理を行う行の非閉塞部分のみに焦点をあてたハーフセピアルゴリズムを提案する。 さらに,テクスチャレス領域における深度推定の改善を目的とした深度伝搬戦略を提案する。 この戦略は、エッジから内部へ進み、粗い領域上の正確な領域を優先することで、そのような領域の深さを決定することである。 広範囲な実験評価とアブレーション実験を行い,提案手法の有効性を検証した。 その結果,最先端の手法と比較して,全領域にわたって高精度でロバストな奥行き地図を生成することができることがわかった。 ソースコードはhttps://github.com/PingZhou-LF/Light-Field-Depth-Estimation-Based-on-Stitched-EPIsで公開されている。

Depth estimation is a fundamental problem in light field processing. Epipolar-plane image (EPI)-based methods often encounter challenges such as low accuracy in slope computation due to discretization errors and limited angular resolution. Besides, existing methods perform well in most regions but struggle to produce sharp edges in occluded regions and resolve ambiguities in texture-less regions. To address these issues, we propose the concept of stitched-EPI (SEPI) to enhance slope computation. SEPI achieves this by shifting and concatenating lines from different EPIs that correspond to the same 3D point. Moreover, we introduce the half-SEPI algorithm, which focuses exclusively on the non-occluded portion of lines to handle occlusion. Additionally, we present a depth propagation strategy aimed at improving depth estimation in texture-less regions. This strategy involves determining the depth of such regions by progressing from the edges towards the interior, prioritizing accurate regions over coarse regions. Through extensive experimental evaluations and ablation studies, we validate the effectiveness of our proposed method. The results demonstrate its superior ability to generate more accurate and robust depth maps across all regions compared to state-of-the-art methods. The source code will be publicly available at https://github.com/PingZhou-LF/Light-Field-Depth-Estimation-Based-on-Stitched-EPIs.
翻訳日:2023-09-07 12:11:56 公開日:2023-09-02
# DeltaCNN:ビデオにおけるスパースフレーム差のエンドツーエンドCNN推論

DeltaCNN: End-to-End CNN Inference of Sparse Frame Differences in Videos ( http://arxiv.org/abs/2203.03996v2 )

ライセンス: Link先を確認
Mathias Parger, Chengcheng Tang, Christopher D. Twigg, Cem Keskin, Robert Wang, Markus Steinberger(参考訳) ビデオデータの畳み込みニューラルネットワーク推論は、リアルタイム処理に強力なハードウェアを必要とする。 連続するフレーム間のコヒーレンスを考えると、ビデオの大部分がほとんど変化しない。 同一の画像領域をスキップし、重要な画素更新をトラッピングすることにより、理論的には計算冗長性を著しく低減することができる。 しかし、これらの理論的な貯蓄は、スパース更新が計算の一貫性とメモリアクセスの一貫性を損なうため、現実のハードウェア上での効率の鍵となるため、実際には変換が困難である。 DeltaCNNでは、スパースフレーム・バイ・フレームの更新を可能にし、実際にビデオ推論を高速化する、スパース畳み込みニューラルネットワークフレームワークを提案する。 典型的なCNNレイヤのスパース実装を提供し、時間とともにエラーを蓄積することなく、スパース機能の更新をエンドツーエンドに伝達します。 DeltaCNNは再トレーニングなしですべての畳み込みニューラルネットワークに適用できる。 我々の知る限りでは、我々は、厳密な参照であるcuDNNを実用的な設定で、精度の限界差で最大7倍のスピードアップを達成し、初めて大幅に上回りました。

Convolutional neural network inference on video data requires powerful hardware for real-time processing. Given the inherent coherence across consecutive frames, large parts of a video typically change little. By skipping identical image regions and truncating insignificant pixel updates, computational redundancy can in theory be reduced significantly. However, these theoretical savings have been difficult to translate into practice, as sparse updates hamper computational consistency and memory access coherence; which are key for efficiency on real hardware. With DeltaCNN, we present a sparse convolutional neural network framework that enables sparse frame-by-frame updates to accelerate video inference in practice. We provide sparse implementations for all typical CNN layers and propagate sparse feature updates end-to-end - without accumulating errors over time. DeltaCNN is applicable to all convolutional neural networks without retraining. To the best of our knowledge, we are the first to significantly outperform the dense reference, cuDNN, in practical settings, achieving speedups of up to 7x with only marginal differences in accuracy.
翻訳日:2023-09-07 12:11:03 公開日:2023-09-02
# SDPに基づくニューラルネットワーク検証のための弦間距離

Chordal Sparsity for SDP-based Neural Network Verification ( http://arxiv.org/abs/2206.03482v2 )

ライセンス: Link先を確認
Anton Xue, Lars Lindemann, Rajeev Alur(参考訳) ニューラルネットワークは多くの新興技術の中心だが、その正確性を検証することは依然として大きな課題である。 ネットワーク出力は小さな入力摂動にも敏感で脆弱であり、予測不能で望ましくない行動のリスクを増大させることが知られている。 したがって、ニューラルネットワークの迅速かつ正確な検証は、その普及に不可欠であり、近年ではこの問題への対応として様々な方法が開発されている。 本稿では,半定義型プログラミング(sdp)に基づくニューラルネットワーク検証手法の改善に着目する。 このような手法は凸問題の定式化を維持しながら複雑な幾何学的制約を表現できるが、実際にはスケーラビリティが大きな問題である。 我々の出発点はfazlyabらによって提案されたdeepsdpフレームワークで、二次制約を使って検証問題を大規模sdpに抽象化する。 しかし、ネットワークサイズが大きくなると、このSDPの解決はすぐに困難になる。 我々のキーとなる観察は、emph{chordal sparsity} を利用することで、大きな線形行列不等式(LMI)であるDeepSDPの計算ボトルネックを、より小さなLMIの等価なコレクションに分解できるということである。 コードスパース最適化プログラムをemph{Chordal-DeepSDP}と呼び、その構成がDeepSDPと同一表現であることを示す。 さらに、Chordal-DeepSDPのさらなる解析により、LMIのコレクションを第2レベルの分解でさらに書き換えることが可能であることを示す。 最後に、学習カートポール力学の実ネットワークに関する数値実験を行い、Chordal-DeepSDPとChordal-DeepSDP-2のDeepSDPに対する計算上の優位性を示す。

Neural networks are central to many emerging technologies, but verifying their correctness remains a major challenge. It is known that network outputs can be sensitive and fragile to even small input perturbations, thereby increasing the risk of unpredictable and undesirable behavior. Fast and accurate verification of neural networks is therefore critical to their widespread adoption, and in recent years a variety of methods have been developed as a response to this problem. In this paper, we focus on improving semidefinite programming (SDP) based techniques for neural network verification. Such techniques offer the power of expressing complex geometric constraints while retaining a convex problem formulation, but in practice, scalability remains a major issue. Our starting point is the DeepSDP framework proposed by Fazlyab et al, which uses quadratic constraints to abstract the verification problem into a large-scale SDP. When the network size grows, however, solving this SDP quickly becomes intractable. Our key observation is that by leveraging \emph{chordal sparsity}, we can decompose the primary computational bottleneck of DeepSDP -- a large linear matrix inequality (LMI) -- into an equivalent collection of smaller LMIs. We call our chordally sparse optimization program \emph{Chordal-DeepSDP} and prove that its construction is identically expressive as that of DeepSDP. Moreover, we show that additional analysis of Chordal-DeepSDP allows us to further rewrite its collection of LMIs in a second level of decomposition that we call \emph{Chordal-DeepSDP-2} -- which results in another significant computational gain. Finally, we provide numerical experiments on real networks of learned cart-pole dynamics, thereby showcasing the computational advantage of Chordal-DeepSDP and Chordal-DeepSDP-2 over DeepSDP.
翻訳日:2023-09-07 12:03:35 公開日:2023-09-02
# 個人プライバシー会計による個人的確率的勾配降下

Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent ( http://arxiv.org/abs/2206.02617v6 )

ライセンス: Link先を確認
Da Yu, Gautam Kamath, Janardhan Kulkarni, Tie-Yan Liu, Jian Yin, Huishuai Zhang(参考訳) differentially private stochasticgradient descent (dp-sgd) は、最近のプライベートディープラーニングにおけるワークホースアルゴリズムである。 データセット内のすべてのデータポイントに対して、単一のプライバシ保証を提供する。 本稿では,DP-SGD で訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付けるために,出力特化 $(\varepsilon,\delta)$-DP を提案する。 また、複数のデータセットにわたる個人のプライバシーを調査する効率的なアルゴリズムを設計する。 ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。 さらに、サンプルのトレーニング損失とプライバシパラメータがよく関連していることが分かりました。 これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。 例えば、CIFAR-10では、テスト精度が最も低いクラスの平均$\varepsilon$は、最も高いクラスよりも44.2\%高い。

Differentially private stochastic gradient descent (DP-SGD) is the workhorse algorithm for recent advances in private deep learning. It provides a single privacy guarantee to all datapoints in the dataset. We propose output-specific $(\varepsilon,\delta)$-DP to characterize privacy guarantees for individual examples when releasing models trained by DP-SGD. We also design an efficient algorithm to investigate individual privacy across a number of datasets. We find that most examples enjoy stronger privacy guarantees than the worst-case bound. We further discover that the training loss and the privacy parameter of an example are well-correlated. This implies groups that are underserved in terms of model utility simultaneously experience weaker privacy guarantees. For example, on CIFAR-10, the average $\varepsilon$ of the class with the lowest test accuracy is 44.2\% higher than that of the class with the highest accuracy.
翻訳日:2023-09-07 12:03:01 公開日:2023-09-02
# 光場圧縮のための量子化による希釈低ランクニューラルラジアンス場

Distilled Low Rank Neural Radiance Field with Quantization for Light Field Compression ( http://arxiv.org/abs/2208.00164v2 )

ライセンス: Link先を確認
Jinglei Shi and Christine Guillemot(参考訳) 本稿では,QDLR-NeRF(Quantized Distilled Low Rank Neural Radiance Field)表現に基づく新しい光場圧縮法を提案する。 既存の圧縮手法は光場サブアパーチャ画像の集合を符号化するが、提案手法は、視線合成を可能にするニューラルレージアンスフィールド(NeRF)の形で暗黙的なシーン表現を学習する。 テンソルトレイン (TT) を分解した低ランク (LR) 制約の下で, 乗算器の交互方向法 (ADMM) の最適化フレームワークを用いてモデルを学習する。 モデルサイズをさらに小さくするには、テンソルトレイン分解の成分を量子化する必要がある。 しかし,低ランク制約と速度制約重み量子化を同時に考慮し,nrfモデルの最適化を行うことは困難である。 このような問題に対処するため,ネットワークトレーニングにおいて低階近似と重み量子化を分離するネットワーク蒸留操作を導入する。 初期LR拘束型NeRF(LR-NeRF)からの情報は、LR-NeRFのTT分解に基づいて、非常に小さな次元(DLR-NeRF)のモデルに蒸留される。 最適化されたグローバルコードブックは、すべてのTTコンポーネントを量子化し、最終的なQDLRNeRFを生成する。 実験の結果,提案手法は最先端の手法と比較して圧縮効率が良く,また,高品質な光界ビューを合成できるという利点があることがわかった。

In this paper, we propose a novel light field compression method based on a Quantized Distilled Low Rank Neural Radiance Field (QDLR-NeRF) representation. While existing compression methods encode the set of light field sub-aperture images, our proposed method instead learns an implicit scene representation in the form of a Neural Radiance Field (NeRF), which also enables view synthesis. For reducing its size, the model is first learned under a Low Rank (LR) constraint using a Tensor Train (TT) decomposition in an Alternating Direction Method of Multipliers (ADMM) optimization framework. To further reduce the model size, the components of the tensor train decomposition need to be quantized. However, performing the optimization of the NeRF model by simultaneously taking the low rank constraint and the rate-constrained weight quantization into consideration is challenging. To deal with this difficulty, we introduce a network distillation operation that separates the low rank approximation and the weight quantization in the network training. The information from the initial LR constrained NeRF (LR-NeRF) is distilled to a model of a much smaller dimension (DLR-NeRF) based on the TT decomposition of the LR-NeRF. An optimized global codebook is then learned to quantize all TT components, producing the final QDLRNeRF. Experimental results show that our proposed method yields better compression efficiency compared with state-of-the-art methods, and it additionally has the advantage of allowing the synthesis of any light field view with a high quality.
翻訳日:2023-09-07 11:54:56 公開日:2023-09-02
# クレデンシャルのコンピング:smart replyからのアクティブパターン抽出

Combing for Credentials: Active Pattern Extraction from Smart Reply ( http://arxiv.org/abs/2207.10802v3 )

ライセンス: Link先を確認
Bargav Jayaraman, Esha Ghosh, Melissa Chase, Sambuddha Roy, Wei Dai, David Evans(参考訳) GPT\nobreakdash-2やBERTのような事前訓練された大きな言語モデルは、ダウンストリームタスクで最先端のパフォーマンスを達成するために微調整されることが多い。 自然な例は ``smart reply'' アプリケーションで、所定のクエリメッセージに対して推奨応答を提供するように事前トレーニングされたモデルを調整する。 チューニングデータはしばしば電子メールやチャットの書き起こしなどのセンシティブなデータであるため、モデルがチューニングデータを漏洩するリスクを理解し緩和することが重要である。 典型的なスマートリプライパイプラインにおける潜在的な情報漏洩脆弱性について検討する。 我々は、どのタイプのクエリをモデルに送信できるかを制約するフロントエンドインターフェースを通じて、敵が基盤となるモデルとのみ対話できる現実的な設定を考えます。 以前の攻撃はこれらの設定では機能しないが、制約のないクエリを直接モデルに送信する必要がある。 クエリに制約がない場合でも、以前の攻撃は通常、有用な情報を抽出するために数千、あるいは数百万のクエリを必要としますが、私たちの攻撃はほんの数回のクエリで機密データを抽出することができます。 センシティブなデータを含むテキストの正準パターンを利用する,新たなタイプのアクティブ抽出攻撃を提案する。 モデルとのインタラクションはすべて,クエリのタイプを制限するフロントエンドを経由しなければならない現実的な設定であっても,トレーニングデータに存在するセンシティブなユーザ情報を抽出することが可能であることを実験的に示す。 我々は、潜在的な緩和戦略を検討し、そのようなパターン抽出攻撃に対して、差分プライバシーが合理的に効果的な防御メカニズムであることを示す。

Pre-trained large language models, such as GPT\nobreakdash-2 and BERT, are often fine-tuned to achieve state-of-the-art performance on a downstream task. One natural example is the ``Smart Reply'' application where a pre-trained model is tuned to provide suggested responses for a given query message. Since the tuning data is often sensitive data such as emails or chat transcripts, it is important to understand and mitigate the risk that the model leaks its tuning data. We investigate potential information leakage vulnerabilities in a typical Smart Reply pipeline. We consider a realistic setting where the adversary can only interact with the underlying model through a front-end interface that constrains what types of queries can be sent to the model. Previous attacks do not work in these settings, but require the ability to send unconstrained queries directly to the model. Even when there are no constraints on the queries, previous attacks typically require thousands, or even millions, of queries to extract useful information, while our attacks can extract sensitive data in just a handful of queries. We introduce a new type of active extraction attack that exploits canonical patterns in text containing sensitive data. We show experimentally that it is possible for an adversary to extract sensitive user information present in the training data, even in realistic settings where all interactions with the model must go through a front-end that limits the types of queries. We explore potential mitigation strategies and demonstrate empirically how differential privacy appears to be a reasonably effective defense mechanism to such pattern extraction attacks.
翻訳日:2023-09-07 11:53:28 公開日:2023-09-02
# gSwin: シフトウィンドウの階層構造を持つ拡張MLPビジョンモデル

gSwin: Gated MLP Vision Model with Hierarchical Structure of Shifted Window ( http://arxiv.org/abs/2208.11718v2 )

ライセンス: Link先を確認
Mocho Go, Hideyuki Tachibana(参考訳) 言語領域の成功に続いて、自己認識機構(トランスフォーマー)がビジョン領域に採用され、近年大きな成功を収めている。 さらに、他のストリームとして、視覚領域において多層パーセプトロン(MLP)も探索される。 従来のCNN以外のこれらのアーキテクチャは近年注目を集めており、多くの手法が提案されている。 パラメータ効率と性能を画像認識の局所性と階層性に結びつけるものとして,2つのストリーム,Swin Transformerと(マルチヘッド)gMLPを組み合わせたgSwinを提案する。 我々は,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションの3つのタスクにおいて,モデルサイズが小さく,より精度の高いgSwinを実現できることを示した。

Following the success in language domain, the self-attention mechanism (transformer) is adopted in the vision domain and achieving great success recently. Additionally, as another stream, multi-layer perceptron (MLP) is also explored in the vision domain. These architectures, other than traditional CNNs, have been attracting attention recently, and many methods have been proposed. As one that combines parameter efficiency and performance with locality and hierarchy in image recognition, we propose gSwin, which merges the two streams; Swin Transformer and (multi-head) gMLP. We showed that our gSwin can achieve better accuracy on three vision tasks, image classification, object detection and semantic segmentation, than Swin Transformer, with smaller model size.
翻訳日:2023-09-07 11:15:46 公開日:2023-09-02
# 12誘導心電図信号を用いた不整脈分類へのフェデレート学習法の応用

Application of federated learning techniques for arrhythmia classification using 12-lead ECG signals ( http://arxiv.org/abs/2208.10993v2 )

ライセンス: Link先を確認
Daniel Mauricio Jimenez Gutierrez, Hafiz Muuhammad Hassan, Lorella Landi, Andrea Vitaletti and Ioannis Chatzigiannakis(参考訳) 大規模でキュレートされた医療データセットの人工知能ベース(AI)分析は、早期発見、診断の高速化、低出力心電図(ECG)モニタリングデバイス情報によるより効率的な治療の提供を約束している。 しかし、不適切な使用、安全でないストレージ、データの漏洩は個人のプライバシーを侵害する可能性があるため、さまざまなソースから機密な医療データにアクセスすることは極めて制限されている。 この研究は、フェデレートラーニング(FL)プライバシ保存手法を使用して、6つの異種ソースから収集された12個のリードセンサーアレイから、異種高解像度のECGセット上でAIモデルをトレーニングする。 中央集権学習(CL)方式で訓練した最先端モデルと比較して,得られたモデルの性能を同等に評価した。 さらに,独立分散IID(Independent and Identical Distributed)と非IIDフェデレーションデータ(non-IID)を比較検討した。 本手法は,深層ニューラルネットワークと長期記憶モデルに基づく機械学習手法を含む。 機能エンジニアリング、選択、データバランシング技術を備えた堅牢なデータ前処理パイプラインを備えている。 我々のAIモデルは、CL、ID、非IIDアプローチを使用してトレーニングされたモデルに匹敵する性能を示した。 彼らは複雑さを減らし、トレーニング時間を短縮し、クラウドエッジアーキテクチャに適するようにした。

Artificial Intelligence-based (AI) analysis of large, curated medical datasets is promising for providing early detection, faster diagnosis, and more effective treatment using low-power Electrocardiography (ECG) monitoring devices information. However, accessing sensitive medical data from diverse sources is highly restricted since improper use, unsafe storage, or data leakage could violate a person's privacy. This work uses a Federated Learning (FL) privacy-preserving methodology to train AI models over heterogeneous sets of high-definition ECG from 12-lead sensor arrays collected from six heterogeneous sources. We evaluated the capacity of the resulting models to achieve equivalent performance compared to state-of-the-art models trained in a Centralized Learning (CL) fashion. Moreover, we assessed the performance of our solution over Independent and Identical distributed (IID) and non-IID federated data. Our methodology involves machine learning techniques based on Deep Neural Networks and Long-Short-Term Memory models. It has a robust data preprocessing pipeline with feature engineering, selection, and data balancing techniques. Our AI models demonstrated comparable performance to models trained using CL, IID, and non-IID approaches. They showcased advantages in reduced complexity and faster training time, making them well-suited for cloud-edge architectures.
翻訳日:2023-09-07 11:15:24 公開日:2023-09-02
# 階層型グラフアテンションリカレントネットワークを用いた活動を考慮した人体移動予測

Activity-aware Human Mobility Prediction with Hierarchical Graph Attention Recurrent Network ( http://arxiv.org/abs/2210.07765v2 )

ライセンス: Link先を確認
Yihong Tang, Junlin He, Zhan Zhao(参考訳) 人間移動予測は、都市計画、位置ベースサービス、インテリジェント交通システムなど、様々な用途に不可欠な基本課題である。 既存の方法は、人間の嗜好やルーチンの推論に不可欠な活動情報を無視したり、時間、活動、場所間の依存関係を単純化した表現を採用することが多い。 そこで本研究では,人間移動予測のための階層型グラフ注意再帰ネットワーク(hgarn)を提案する。 具体的には,すべてのユーザの履歴モビリティレコードに基づいて階層グラフを構築し,階層グラフアテンションモジュールを用いて複雑な時間-アクティビティ-ロケーション依存関係をキャプチャする。 このようにして、HGARNはリッチな人間の旅行セマンティクスで表現を学び、世界レベルでユーザーの好みをモデル化することができる。 また,モデルに依存しない履歴強調信頼 (MAHEC) ラベルを提案し,各ユーザの個人レベルの嗜好に焦点をあてる。 最後に,ユーザの次のアクティビティ(補助タスクとして)と関連するロケーションを共同で予測するリカレント構造を用いた時間モジュールを提案する。 階層的かつ残留的な設計により予測される将来のユーザアクティビティ機能を活用することにより、位置予測の精度をさらに高めることができる。 モデル評価では,HGARNの既存のSOTAに対して,繰り返し設定と爆発設定の両方で性能を試験する。 繰り返し設定は、ユーザの個人レベルの嗜好をキャプチャするモデルの能力を評価することに焦点を当て、爆発的な設定の結果は、ユーザのグローバルレベルの嗜好を学ぶために、さまざまなモデルのパワーを反映する傾向がある。 全体として、我々のモデルは、実際の2つの人間のモビリティデータベンチマークに基づいて、すべての設定において、他のベースラインよりも大幅に優れています。 HGARNのソースコードはhttps://github.com/YihongT/HGARNで公開されている。

Human mobility prediction is a fundamental task essential for various applications, including urban planning, location-based services and intelligent transportation systems. Existing methods often ignore activity information crucial for reasoning human preferences and routines, or adopt a simplified representation of the dependencies between time, activities and locations. To address these issues, we present Hierarchical Graph Attention Recurrent Network (HGARN) for human mobility prediction. Specifically, we construct a hierarchical graph based on all users' history mobility records and employ a Hierarchical Graph Attention Module to capture complex time-activity-location dependencies. This way, HGARN can learn representations with rich human travel semantics to model user preferences at the global level. We also propose a model-agnostic history-enhanced confidence (MAHEC) label to focus our model on each user's individual-level preferences. Finally, we introduce a Temporal Module, which employs recurrent structures to jointly predict users' next activities (as an auxiliary task) and their associated locations. By leveraging the predicted future user activity features through a hierarchical and residual design, the accuracy of the location predictions can be further enhanced. For model evaluation, we test the performances of our HGARN against existing SOTAs in both the recurring and explorative settings. The recurring setting focuses on assessing models' capabilities to capture users' individual-level preferences, while the results in the explorative setting tend to reflect the power of different models to learn users' global-level preferences. Overall, our model outperforms other baselines significantly in all settings based on two real-world human mobility data benchmarks. Source codes of HGARN are available at https://github.com/YihongT/HGARN.
翻訳日:2023-09-07 07:34:37 公開日:2023-09-02
# 光によるトポロジカル物質とフラクショナルエンタングル量子幾何学

Topological Matter and Fractional Entangled Quantum Geometry through Light ( http://arxiv.org/abs/2209.15381v5 )

ライセンス: Link先を確認
Karyn Le Hur(参考訳) 本稿では,量子物理学と位相結晶の幾何学的アプローチにおける最近の進歩を,古典電気力学によるディラック磁気単極子やゲージ場と結びつけて明らかにする。 量子スピン-1/2粒子のブロッホ球は、放射磁場の存在下で整数トポロジカル電荷を取得する。 表面の極から大域的位相特性が符号化され、滑らかな場、計量、量子距離と位相数の正方形との対応が可能であることを示す。 情報は各極から薄いディラック弦上の赤道面へ輸送される。 我々は、空間と時間における「量子トポロメトリー」の理論を開発し、光の円二色性から結晶のトポロジカルバンド構造への量子化された光電効果のニュートンアプローチからの輸送に応用する。 トポロジカル格子モデルに関連するエッジモードは、球体や楕円体をシリンダーに変形する際に解析的に解決される。 ハニカム格子上の量子ホール効果、量子異常ホール効果、および量子スピンホール効果の位相的性質は、光物質結合からブリルアンゾーンで局所的に測定することができる。 形式主義は運動量空間からの相互作用効果を含めることができる。 相互作用はまた、曲線空間内の分数絡み合い幾何学をもたらすこともある。 量子力学における絡み合った波動関数、測地線のコヒーレント重ね合わせ、半位相数への方法、マヨラナフェルミオンの関係を解明する。 トポロジカルな事柄における実現を示す。 本研究では,立方体表面上のアキソニオン電気力学,位相絶縁体とメロンによる2次元球面モデルの関係を示す。

Here, we reveal our recent progress on a geometrical approach of quantum physics and topological crystals linking with Dirac magnetic monopoles and gauge fields through classical electrodynamics. The Bloch sphere of a quantum spin-1/2 particle acquires an integer topological charge in the presence of a radial magnetic field. We show that global topological properties are encoded from the poles of the surface allowing a correspondence between smooth fields, metric and quantum distance with the square of the topological number. The information is transported from each pole to the equatorial plane on a thin Dirac string. We develop the theory, "quantum topometry" in space and time, and present applications on transport from a Newtonian approach, on a quantized photo-electric effect from circular dichroism of light towards topological band structures of crystals. Edge modes related to topological lattice models are resolved analytically when deforming the sphere or ellipse onto a cylinder. Topological properties of the quantum Hall effect, quantum anomalous Hall effect and quantum spin Hall effect on the honeycomb lattice can be measured locally in the Brillouin zone from light-matter coupling. The formalism allows us to include interaction effects from the momentum space. Interactions may also result in fractional entangled geometry within the curved space. We develop a relation between entangled wavefunction in quantum mechanics, coherent superposition of geometries, a way to one-half topological numbers and Majorana fermions. We show realizations in topological matter. We present a link between axion electrodynamics, topological insulators on a surface of a cube and the two-spheres' model via merons.
翻訳日:2023-09-07 07:34:09 公開日:2023-09-02
# 分子特性予測の基礎となるキー要素の探索--系統的研究

Unraveling Key Elements Underlying Molecular Property Prediction: A Systematic Study ( http://arxiv.org/abs/2209.13492v4 )

ライセンス: Link先を確認
Jianyuan Deng, Zhibo Yang, Hehe Wang, Iwao Ojima, Dimitris Samaras, Fusheng Wang(参考訳) 人工知能(AI)は、分子特性予測として主要なタスクを持つ薬物発見に広く応用されている。 分子表現学習の急激な技術にもかかわらず、分子特性予測の根底にある重要な要素はほとんど探索されていない。 本稿では,シグネムネットデータセット,オピオイド関連データセットのスイート,文献から得られた2つの追加アクティビティデータセットを用いて,代表モデルの広範な評価を行う。 低データ・高データ空間における予測能力を調べるために、様々なサイズのディスクリプタデータセットを組み立ててモデルを評価する。 合計で62,820モデル、固定表現の50,220モデル、SMILES配列の4,200モデル、分子グラフの8,400モデルを含む。 大規模な実験と厳密な比較に基づいて,ほとんどのデータセットにおいて,表現学習モデルは分子特性予測において限られた性能を示すことを示す。 さらに、分子特性予測の基礎となる複数の重要な要素が評価結果に影響を与える可能性がある。 さらに,活動限界がモデル予測に大きな影響を及ぼすことを示す。 最後に,表現学習モデルが失敗する可能性について検討し,表現学習モデルにとってデータセットのサイズが重要であることを示す。

Artificial intelligence (AI) has been widely applied in drug discovery with a major task as molecular property prediction. Despite booming techniques in molecular representation learning, key elements underlying molecular property prediction remain largely unexplored, which impedes further advancements in this field. Herein, we conduct an extensive evaluation of representative models using various representations on the MoleculeNet datasets, a suite of opioids-related datasets and two additional activity datasets from the literature. To investigate the predictive power in low-data and high-data space, a series of descriptors datasets of varying sizes are also assembled to evaluate the models. In total, we have trained 62,820 models, including 50,220 models on fixed representations, 4,200 models on SMILES sequences and 8,400 models on molecular graphs. Based on extensive experimentation and rigorous comparison, we show that representation learning models exhibit limited performance in molecular property prediction in most datasets. Besides, multiple key elements underlying molecular property prediction can affect the evaluation results. Furthermore, we show that activity cliffs can significantly impact model prediction. Finally, we explore into potential causes why representation learning models can fail and show that dataset size is essential for representation learning models to excel.
翻訳日:2023-09-07 07:33:41 公開日:2023-09-02
# 未知のQubit-Unitary操作を決定的かつ正確に反転させる

Reversing Unknown Qubit-Unitary Operation, Deterministically and Exactly ( http://arxiv.org/abs/2209.02907v4 )

ライセンス: Link先を確認
Satoshi Yoshida, Akihito Soeda, Mio Murao(参考訳) 我々は、クローズドキュービットシステムの時間反転をシミュレートする未知のキュービットユニタリ演算をリバースするための決定論的かつ厳密なプロトコルを報告する。 普遍的な決定論的完全ユニタリ変換に関する既知のno-go結果を避けるために、量子回路モデル内で未知のユニタリ操作を変換するプロトコルの最も一般的なクラスを検討し、入力ユニタリ操作をシーケンスで複数回呼び、呼び出しの間に固定された量子回路を挿入する。 提案プロトコルでは、入力キュービット単位演算を4回呼び出して逆演算を行い、単位反転の他の実行時に補助系における出力状態を触媒状態として再利用することができる。 また、M. T. Quintino と D. Ebler [Quantum $\textbf{6}$, 679 (2022)] によって提示された任意の次元に対する最適決定論的ユニタリ反転プロトコルを探索するための半定値プログラミングの単純化についても述べる。 我々は,すべての可能なプロトコルを表す大きな探索空間を減少させる手法を示し,ユニタリ演算のための高次量子変換の解析に有用なツールを提供する。

We report a deterministic and exact protocol to reverse any unknown qubit-unitary operation, which simulates the time inversion of a closed qubit system. To avoid known no-go results on universal deterministic exact unitary inversion, we consider the most general class of protocols transforming unknown unitary operations within the quantum circuit model, where the input unitary operation is called multiple times in sequence and fixed quantum circuits are inserted between the calls. In the proposed protocol, the input qubit-unitary operation is called 4 times to achieve the inverse operation, and the output state in an auxiliary system can be reused as a catalyst state in another run of the unitary inversion. We also present the simplification of the semidefinite programming for searching the optimal deterministic unitary inversion protocol for an arbitrary dimension presented by M. T. Quintino and D. Ebler [Quantum $\textbf{6}$, 679 (2022)]. We show a method to reduce the large search space representing all possible protocols, which provides a useful tool for analyzing higher-order quantum transformations for unitary operations.
翻訳日:2023-09-07 07:32:45 公開日:2023-09-02
# transcab: 自然トリガーを用いたオブジェクト検出へのトランスファー可能なクリーンアノテーションバックドア

TransCAB: Transferable Clean-Annotation Backdoor to Object Detection with Natural Trigger in Real-World ( http://arxiv.org/abs/2209.02339v2 )

ライセンス: Link先を確認
Hua Ma, Yinshan Li, Yansong Gao, Zhi Zhang, Alsharif Abuadbba, Anmin Fu, Said F. Al-Sarawi, Nepal Surya, Derek Abbott(参考訳) オブジェクト検出は、セグメンテーション、オブジェクト追跡、イベント検出など、様々な重要なコンピュータビジョンタスクの基礎である。 オブジェクト検出器を十分な精度で訓練するには、大量のデータが必要である。 しかし、大規模なデータセットを注釈付けする作業が集中しているため、このようなデータキュレーションタスクは第三者にアウトソースしたり、ボランティアに頼ったりすることがよくある。 この作業は、このようなデータキュレーションパイプラインの重大な脆弱性を明らかにします。 我々は,データキュレーターが手動で画像の検査を行う場合でも,クリーンアノテートされた画像を作成して,トレーニング対象検出器に密かにバックドアを埋め込むMACABを提案する。 誤分類とクローキングの両方のバックドア効果は、バックドアが不明瞭な自然トリガーで活性化されたとき、野生において頑健に達成されていることを観察する。 クリーンラベルによるバックドア化非分類オブジェクト検出は、被害者や非勝利オブジェクトを含む各フレーム内に複数のオブジェクトを持つことが複雑であるため、既存のイメージ分類タスクをクリーンラベルでバックドアするよりも難しい。 MACABの有効性は、ディープラーニングフレームワークで使用される画像スケーリング機能を構築的に悪用すること、提案手法を取り入れること、および、制約された攻撃予算が与えられた毒データ選択基準を組み合わせることにより確保される。 大規模な実験では、MACABは現実世界の様々な場面で90%以上の攻撃成功率を示す。 これには、小さな攻撃予算で制限された、クローキングと誤分類バックドア効果の両方が含まれる。 有毒試料は最先端検出技術では同定できないが, 総合的なビデオデモはhttps://youtu.be/MA7L_LpXkp4であり, YOLOv4クローキングバックドアとFaster R-CNN誤分類バックドアの毒性率0.14%に基づいている。

Object detection is the foundation of various critical computer-vision tasks such as segmentation, object tracking, and event detection. To train an object detector with satisfactory accuracy, a large amount of data is required. However, due to the intensive workforce involved with annotating large datasets, such a data curation task is often outsourced to a third party or relied on volunteers. This work reveals severe vulnerabilities of such data curation pipeline. We propose MACAB that crafts clean-annotated images to stealthily implant the backdoor into the object detectors trained on them even when the data curator can manually audit the images. We observe that the backdoor effect of both misclassification and the cloaking are robustly achieved in the wild when the backdoor is activated with inconspicuously natural physical triggers. Backdooring non-classification object detection with clean-annotation is challenging compared to backdooring existing image classification tasks with clean-label, owing to the complexity of having multiple objects within each frame, including victim and non-victim objects. The efficacy of the MACAB is ensured by constructively i abusing the image-scaling function used by the deep learning framework, ii incorporating the proposed adversarial clean image replica technique, and iii combining poison data selection criteria given constrained attacking budget. Extensive experiments demonstrate that MACAB exhibits more than 90% attack success rate under various real-world scenes. This includes both cloaking and misclassification backdoor effect even restricted with a small attack budget. The poisoned samples cannot be effectively identified by state-of-the-art detection techniques.The comprehensive video demo is at https://youtu.be/MA7L_LpXkp4, which is based on a poison rate of 0.14% for YOLOv4 cloaking backdoor and Faster R-CNN misclassification backdoor.
翻訳日:2023-09-07 07:32:26 公開日:2023-09-02
# 連続ベクトル空間における数学的表現の意味表現

Semantic Representations of Mathematical Expressions in a Continuous Vector Space ( http://arxiv.org/abs/2211.08142v3 )

ライセンス: Link先を確認
Neeraj Gangwar, Nickvash Kani(参考訳) 数学的表記法は、STEM文献の大部分を構成するが、公式の意味表現を見つけることは難しい問題である。 数学的表記は正確であり、その意味は小さな文字のシフトによって著しく変化するので、自然テキストを扱う方法は必ずしも数学的表現にうまく機能しない。 本研究は,連続ベクトル空間における数式表現のアプローチについて述べる。 視覚的に異なるが数学的に等価な表現を訓練したシーケンシャル・ツー・シーケンス・アーキテクチャのエンコーダを用いてベクトル表現(または埋め込み)を生成する。 この手法と,表現を埋め込む視覚的レイアウトを考慮した構造的アプローチを比較し,提案手法が数学的意味論の獲得に有効であることを示す。 最後に, 今後の研究を進めるために, 等価な超越表現対と代数表現対のコーパスを出版する。

Mathematical notation makes up a large portion of STEM literature, yet finding semantic representations for formulae remains a challenging problem. Because mathematical notation is precise, and its meaning changes significantly with small character shifts, the methods that work for natural text do not necessarily work well for mathematical expressions. This work describes an approach for representing mathematical expressions in a continuous vector space. We use the encoder of a sequence-to-sequence architecture, trained on visually different but mathematically equivalent expressions, to generate vector representations (or embeddings). We compare this approach with a structural approach that considers visual layout to embed an expression and show that our proposed approach is better at capturing mathematical semantics. Finally, to expedite future research, we publish a corpus of equivalent transcendental and algebraic expression pairs.
翻訳日:2023-09-07 07:25:50 公開日:2023-09-02
# PACによる統計的アルゴリズムの検証

PAC Verification of Statistical Algorithms ( http://arxiv.org/abs/2211.17096v2 )

ライセンス: Link先を確認
Saachi Mutreja, Jonathan Shafer(参考訳) Goldwasser et al. (2021)は、最近PAC検証の設定を提案し、ここでは、非依存的なPAC学習目標を満たす仮説(機械学習モデル)を対話的証明を用いて検証する。 本稿では,この概念をさらに様々な方法で展開する。 まず、VC次元$d$の仮説クラスのPAC検証のためのサンプルとして$\Omega\left(\sqrt{d}/\varepsilon^2\right)$ i.d.\の低い境界を証明する。 第二に、$\mathbb{R}$を超える間隔の和のPAC検証のためのプロトコルを提案し、そのタスクのために提案されたプロトコルを改善し、下限の$d$への依存と一致する。 第3に,その定義の自然な一般化を一般統計アルゴリズムの検証に導入する。 提案した定義を裏付ける上で,我々の最終結果は,クエリの組合せ制約を満たす統計的クエリアルゴリズムの検証のためのプロトコルである。

Goldwasser et al. (2021) recently proposed the setting of PAC verification, where a hypothesis (machine learning model) that purportedly satisfies the agnostic PAC learning objective is verified using an interactive proof. In this paper we develop this notion further in a number of ways. First, we prove a lower bound of $\Omega\left(\sqrt{d}/\varepsilon^2\right)$ i.i.d.\ samples for PAC verification of hypothesis classes of VC dimension $d$. Second, we present a protocol for PAC verification of unions of intervals over $\mathbb{R}$ that improves upon their proposed protocol for that task, and matches our lower bound's dependence on $d$. Third, we introduce a natural generalization of their definition to verification of general statistical algorithms, which is applicable to a wider variety of settings beyond agnostic PAC learning. Showcasing our proposed definition, our final result is a protocol for the verification of statistical query algorithms that satisfy a combinatorial constraint on their queries.
翻訳日:2023-09-07 07:15:36 公開日:2023-09-02
# 視覚言語事前学習におけるパーイメージトケン一貫性の活用

Leveraging per Image-Token Consistency for Vision-Language Pre-training ( http://arxiv.org/abs/2211.15398v2 )

ライセンス: Link先を確認
Yunhao Gou, Tom Ko, Hansi Yang, James Kwok, Yu Zhang, Mingxuan Wang(参考訳) 既存の視覚言語事前学習(VLP)アプローチでは、クロスモーダルマスキング言語モデリング(CMLM)を用いて視覚言語関連を学習している。 1) モダリティバイアス: CMLMに含まれる大量のマスクトークンは言語情報のみを用いて復元でき、視覚的入力を無視することができる。 2)未マスクトークンの活用:CMLMは主にマスクトークンに焦点を当てるが,他のトークンを同時に活用して視覚言語関連を学習することはできない。 これらの制約に対処するため,EPIC (lEveraging Per Image-Token Consistency for vision- language pre-training)を提案する。 epicでは、各イメージ・センスペアに対して、画像に順応するトークン(すなわち、塩分ベースのマスキング戦略)をマスクし、言語モデルからサンプリングされた代替トークン(すなわち、一貫性のないトークン生成手順)に置き換える。 提案手法は事前学習法と容易に組み合わせることができる。 大規模な実験により、EPIC法とVLT、ALBEF、METER、X-VLMといった最先端の事前訓練手法を組み合わせることで、下流タスクの大幅な改善が示されている。 コードはhttps://github.com/gyhdog99/epicでリリースされる。

Most existing vision-language pre-training (VLP) approaches adopt cross-modal masked language modeling (CMLM) to learn vision-language associations. However, we find that CMLM is insufficient for this purpose according to our observations: (1) Modality bias: a considerable amount of masked tokens in CMLM can be recovered with only the language information, ignoring the visual inputs. (2) Under-utilization of the unmasked tokens: CMLM primarily focuses on the masked token but it cannot simultaneously leverage other tokens to learn vision-language associations. To handle those limitations, we propose EPIC (lEveraging Per Image-Token Consistency for vision-language pre-training). In EPIC, for each image-sentence pair, we mask tokens that are salient to the image (i.e., Saliency-based Masking Strategy) and replace them with alternatives sampled from a language model (i.e., Inconsistent Token Generation Procedure), and then the model is required to determine for each token in the sentence whether it is consistent with the image (i.e., Image-Token Consistency Task). The proposed EPIC method is easily combined with pre-training methods. Extensive experiments show that the combination of the EPIC method and state-of-the-art pre-training approaches, including ViLT, ALBEF, METER, and X-VLM, leads to significant improvements on downstream tasks. The code is released at https://github.com/gyhdog99/epic.
翻訳日:2023-09-07 07:15:18 公開日:2023-09-02
# 薬物中毒に対するソーシャルメディアマイニング--エンドツーエンドパイプライン,課題,今後の課題

Social media mining for toxicovigilance of prescription medications: End-to-end pipeline, challenges and future work ( http://arxiv.org/abs/2211.10443v2 )

ライセンス: Link先を確認
Abeed Sarker(参考訳) 薬物使用、薬物使用障害、薬物使用に関する過剰摂取は、世界的にも米国でも主要な公衆衛生上の問題である。 公衆衛生の観点からこれらの問題を解決する重要な側面は監視の改善である。 従来の監視システムはラグジーであり、ソーシャルメディアはタイムリーなデータソースとして潜在的に有用である。 しかし、ソーシャルメディアからの知識のマイニングは困難であり、高度な人工知能、特に自然言語処理(NLP)と機械学習手法の開発が必要である。 我々は、ソーシャルメディア、すなわちTwitterとRedditから非医療用処方薬に関する情報をマイニングするための高度なエンドツーエンドパイプラインを開発した。 私たちのパイプラインでは、教師付き機械学習とNLPを使用してノイズをフィルタリングし、チャットを特徴付ける。 本稿では,4年間で開発されたエンドツーエンドパイプラインについて述べる。 データマイニングのインフラを説明することに加え、ソーシャルメディアマイニングにおける有毒物質に対する既存の課題と今後の研究の方向性について論じる。

Substance use, substance use disorder, and overdoses related to substance use are major public health problems globally and in the United States. A key aspect of addressing these problems from a public health standpoint is improved surveillance. Traditional surveillance systems are laggy, and social media are potentially useful sources of timely data. However, mining knowledge from social media is challenging, and requires the development of advanced artificial intelligence, specifically natural language processing (NLP) and machine learning methods. We developed a sophisticated end-to-end pipeline for mining information about nonmedical prescription medication use from social media, namely Twitter and Reddit. Our pipeline employs supervised machine learning and NLP for filtering out noise and characterizing the chatter. In this paper, we describe our end-to-end pipeline developed over four years. In addition to describing our data mining infrastructure, we discuss existing challenges in social media mining for toxicovigilance, and possible future research directions.
翻訳日:2023-09-07 07:13:39 公開日:2023-09-02
# 大孔像完成のための構造誘導拡散モデル

A Structure-Guided Diffusion Model for Large-Hole Image Completion ( http://arxiv.org/abs/2211.10437v2 )

ライセンス: Link先を確認
Daichi Horita, Jiaolong Yang, Dong Chen, Yuki Koyama, Kiyoharu Aizawa, Nicu Sebe(参考訳) 画像補完技術は、画像の欠落領域(すなわち穴)を埋めることに大きな進歩を遂げた。 しかし、構造的な情報が少ないため、大きな穴の完成は難しいままである。 本稿では, 構造誘導型拡散モデル (SGDM) を構成するために, 明示的な構造ガイダンスを拡散に基づく画像補完に組み込むことにより, この問題に対処する。 これは2つのカスケード拡散確率モデル(構造とテクスチャジェネレータ)から構成される。 構造生成器は、穴内の実行可能な構造を表すエッジイメージを生成し、テクスチャ生成プロセスの誘導に使用する。 両ジェネレータを共同で訓練するために, 最適ベイズ分解を利用した新しい手法を考案し, 構造生成器の出力を1ステップで denoiseし, バックプロパゲーションを可能にする。 拡散ベースのアプローチは、画像の一部の編集を可能にする一方で、多彩な補完を可能にします。 自然シーン (Places) と顔 (CelebA-HQ) のデータセットを用いた実験により,本手法が最先端の手法に比べて優れた,あるいは同等の視覚的品質を実現することを示す。 コードはhttps://github.com/udonda/structure_guided_diffusion_modelで研究目的に利用できる。

Image completion techniques have made significant progress in filling missing regions (i.e., holes) in images. However, large-hole completion remains challenging due to limited structural information. In this paper, we address this problem by integrating explicit structural guidance into diffusion-based image completion, forming our structure-guided diffusion model (SGDM). It consists of two cascaded diffusion probabilistic models: structure and texture generators. The structure generator generates an edge image representing plausible structures within the holes, which is then used for guiding the texture generation process. To train both generators jointly, we devise a novel strategy that leverages optimal Bayesian denoising, which denoises the output of the structure generator in a single step and thus allows backpropagation. Our diffusion-based approach enables a diversity of plausible completions, while the editable edges allow for editing parts of an image. Our experiments on natural scene (Places) and face (CelebA-HQ) datasets demonstrate that our method achieves a superior or comparable visual quality compared to state-of-the-art approaches. The code is available for research purposes at https://github.com/UdonDa/Structure_Guided_Diffusion_Model.
翻訳日:2023-09-07 07:13:25 公開日:2023-09-02
# SelfOdom: 双方向の粗大なスケール回復による自己指導型エゴモーションと深層学習

SelfOdom: Self-supervised Egomotion and Depth Learning via Bi-directional Coarse-to-Fine Scale Recovery ( http://arxiv.org/abs/2211.08904v2 )

ライセンス: Link先を確認
Hao Qu, Lilian Zhang, Xiaoping Hu, Xiaofeng He, Xianfei Pan, Changhao Chen(参考訳) 正確な位置とシーンの認識は、自動運転と移動ロボットにとって不可欠だ。 近年のディープラーニングの進歩により、ネットワークのトレーニングに高度に正確なラベルを必要とせず、単眼画像から感情や深度を自己管理的に学習することが可能になった。 しかし、単分子視覚法はスケール曖昧性と呼ばれる限界に悩まされ、絶対スケールが必要なときに応用を制限する。 これを解決するために,モノクロ画像からグローバルスケールでのポーズと深さ推定を頑健かつ一貫して学習し,生成できる自己教師型デュアルネットワークフレームワークであるSelfOdomを提案する。 特に,2段階のプロセスでメートル法スケールを復元できる,新しい粗細なトレーニング戦略を提案する。 さらに、selfodomは柔軟で、イメージに慣性データを組み込むことができるため、注意に基づくフュージョンモジュールを使用して、挑戦的なシナリオにおける堅牢性が向上する。 私たちのモデルは、夜間の難易度を含む通常の照明条件と難易度の両方で優れています。 公開データセットに関する大規模な実験では、SelfOdomが従来のVOおよびVIOモデルよりも優れていることが示されている。

Accurately perceiving location and scene is crucial for autonomous driving and mobile robots. Recent advances in deep learning have made it possible to learn egomotion and depth from monocular images in a self-supervised manner, without requiring highly precise labels to train the networks. However, monocular vision methods suffer from a limitation known as scale-ambiguity, which restricts their application when absolute-scale is necessary. To address this, we propose SelfOdom, a self-supervised dual-network framework that can robustly and consistently learn and generate pose and depth estimates in global scale from monocular images. In particular, we introduce a novel coarse-to-fine training strategy that enables the metric scale to be recovered in a two-stage process. Furthermore, SelfOdom is flexible and can incorporate inertial data with images, which improves its robustness in challenging scenarios, using an attention-based fusion module. Our model excels in both normal and challenging lighting conditions, including difficult night scenes. Extensive experiments on public datasets have demonstrated that SelfOdom outperforms representative traditional and learning-based VO and VIO models.
翻訳日:2023-09-07 07:12:44 公開日:2023-09-02
# Lov\'asz局所補題による組合せ構造のためのマルコフランダムフィールドの学習

Learning Markov Random Fields for Combinatorial Structures via Sampling through Lov\'asz Local Lemma ( http://arxiv.org/abs/2212.00296v4 )

ライセンス: Link先を確認
Nan Jiang, Yi Gu, Yexiang Xue(参考訳) 制約を満たす複雑な組合せ構造を生成することを学ぶことは、多くのアプリケーションドメインに変化をもたらすだろう。 しかし、組込み確率的推論の非常に難解な性質のため、既存のアプローチの能力を超えている。 事前の作業では、トレーニング時間の大半を不正な構造から有効な構造を分離するために費やしているが、有効な構造の帰納バイアスを学ばない。 そこで我々は,Lov\'asz Local Lemma (LLL) をニューラルネットワーク層として組み込んだ NEural Lov\'asz Sampler (Nelson) を開発した。 我々のNelson-CDはこのサンプルをマルコフ確率場の対照的な分岐学習プロセスに埋め込む。 Nelson は現在のモデル分布から有効なサンプルを得ることができます。 対照的な分岐は、これらのサンプルをトレーニングセットのサンプルから分離するために適用される。 NelsonはGPUの並列性を利用して、完全に微分可能なニューラルネットとして実装されている。 いくつかの実世界のドメインにおける実験の結果、ネルソンは100\%の有効構造を生成することを学んでいるのに対し、ベースラインはタイムアウトまたは有効性を保証することができないことが判明した。 ネルソンはランニングタイムやログライク、マップスコアといった他のアプローチよりも優れています。

Learning to generate complex combinatorial structures satisfying constraints will have transformative impacts in many application domains. However, it is beyond the capabilities of existing approaches due to the highly intractable nature of the embedded probabilistic inference. Prior works spend most of the training time learning to separate valid from invalid structures but do not learn the inductive biases of valid structures. We develop NEural Lov\'asz Sampler (Nelson), which embeds the sampler through Lov\'asz Local Lemma (LLL) as a fully differentiable neural network layer. Our Nelson-CD embeds this sampler into the contrastive divergence learning process of Markov random fields. Nelson allows us to obtain valid samples from the current model distribution. Contrastive divergence is then applied to separate these samples from those in the training set. Nelson is implemented as a fully differentiable neural net, taking advantage of the parallelism of GPUs. Experimental results on several real-world domains reveal that Nelson learns to generate 100\% valid structures, while baselines either time out or cannot ensure validity. Nelson also outperforms other approaches in running time, log-likelihood, and MAP scores.
翻訳日:2023-09-07 07:03:53 公開日:2023-09-02
# テストログライクティフィケーションを正しく使用していますか?

Are you using test log-likelihood correctly? ( http://arxiv.org/abs/2212.00219v2 )

ライセンス: Link先を確認
Sameer K. Deshpande and Soumya Ghosh and Tin D. Nguyen and Tamara Broderick(参考訳) テストログは、同じデータの異なるモデルや、同じ確率モデルに適合するための異なる近似推論アルゴリズムを比較するために一般的に使用される。 本稿では,テストログ類似度に基づく比較が,他の目的による比較と矛盾することを示す単純な例を示す。 特に我々の例では (i)より高い試験対数となるベイズ近似アルゴリズムは、より正確な後部近似をもたらさなくてもよい。 (ii)試験ログ類似比較に基づく予測精度に関する結論は,根平均二乗誤差に基づく結論と一致しない可能性がある。

Test log-likelihood is commonly used to compare different models of the same data or different approximate inference algorithms for fitting the same probabilistic model. We present simple examples demonstrating how comparisons based on test log-likelihood can contradict comparisons according to other objectives. Specifically, our examples show that (i) approximate Bayesian inference algorithms that attain higher test log-likelihoods need not also yield more accurate posterior approximations and (ii) conclusions about forecast accuracy based on test log-likelihood comparisons may not agree with conclusions based on root mean squared error.
翻訳日:2023-09-07 07:03:32 公開日:2023-09-02
# Rationaleアライメントを用いた忠実で一貫性のあるグラフニューラルネットワークの解説

Faithful and Consistent Graph Neural Network Explanations with Rationale Alignment ( http://arxiv.org/abs/2301.02791v2 )

ライセンス: Link先を確認
Tianxiang Zhao, Dongsheng Luo, Xiang Zhang and Suhang Wang(参考訳) 近年,グラフニューラルネットワーク(GNN)の予測の背後にある理論的根拠が注目されている。 インスタンスレベルのGNN説明は、ターゲットのGNNが予測に頼っているノードやエッジなどの重要な入力要素を発見することを目的としている。 %であり,これらのサブ構造はGNNの振る舞いを解釈することができる。 様々なアルゴリズムが提案されているが、その多くはオリジナルの予測を保存できる最小部分グラフを探索することでこのタスクを形式化する。 しかし、帰納バイアスはこのフレームワークで深く根付いており、いくつかの部分グラフは元のグラフと同じもしくは類似の出力をもたらす。 その結果、彼らは急激な説明をし、一貫した説明をしない危険がある。 弱いパフォーマンスのGNNを説明するためにそれらを適用することは、これらの問題をさらに増幅する。 本稿では,gnnの予測を因果関係の観点から理論的に検討する。 散発的な説明の典型的な2つの理由は、分布シフトのような潜在変数の効果と、元の入力と異なる因果要因である。 コンバウンディング効果と多様な因果的理性の両方が内部表現にエンコードされていることを観察し、我々は、より忠実な説明目的を本質的に最適化することが理論的に証明されている補助的なアライメント損失を持つ新しい説明枠組みを提案する。 具体的には, このアライメント損失に対して, アンカーベースアライメント, ガウス混合モデルに基づく分布アライメント, 相互情報ベースアライメントなど, 様々な視点を探索する。 この新枠組みの有効性について, 信頼性・一貫性の面から総合的な研究を行い, その利点について考察した。

Uncovering rationales behind predictions of graph neural networks (GNNs) has received increasing attention over recent years. Instance-level GNN explanation aims to discover critical input elements, like nodes or edges, that the target GNN relies upon for making predictions. %These identified sub-structures can provide interpretations of GNN's behavior. Though various algorithms are proposed, most of them formalize this task by searching the minimal subgraph which can preserve original predictions. However, an inductive bias is deep-rooted in this framework: several subgraphs can result in the same or similar outputs as the original graphs. Consequently, they have the danger of providing spurious explanations and failing to provide consistent explanations. Applying them to explain weakly-performed GNNs would further amplify these issues. To address this problem, we theoretically examine the predictions of GNNs from the causality perspective. Two typical reasons for spurious explanations are identified: confounding effect of latent variables like distribution shift, and causal factors distinct from the original input. Observing that both confounding effects and diverse causal rationales are encoded in internal representations, \tianxiang{we propose a new explanation framework with an auxiliary alignment loss, which is theoretically proven to be optimizing a more faithful explanation objective intrinsically. Concretely for this alignment loss, a set of different perspectives are explored: anchor-based alignment, distributional alignment based on Gaussian mixture models, mutual-information-based alignment, etc. A comprehensive study is conducted both on the effectiveness of this new framework in terms of explanation faithfulness/consistency and on the advantages of these variants.
翻訳日:2023-09-07 06:54:57 公開日:2023-09-02
# SPTS v2: シングルポイントシーンテキストスポッティング

SPTS v2: Single-Point Scene Text Spotting ( http://arxiv.org/abs/2301.01635v4 )

ライセンス: Link先を確認
Yuliang Liu, Jiaxin Zhang, Dezhi Peng, Mingxin Huang, Xinyu Wang, Jingqun Tang, Can Huang, Dahua Lin, Chunhua Shen, Xiang Bai, Lianwen Jin(参考訳) エンド・ツー・エンドのシーンテキストスポッティングは、本質的なテキスト検出と認識の相乗効果により大きな進歩を遂げている。 従来の手法では、水平長方形、回転矩形、四角形、多角形などの手動アノテーションを前提条件としており、単点法よりもはるかに高価である。 新しいフレームワークであるSPTS v2では、単一ポイントアノテーションを使用して高パフォーマンステキストスポッティングモデルをトレーニングできます。 spts v2は、同じ予測シーケンス内のすべてのテキストインスタンスの中心点を逐次予測することで、インスタンス割当デコーダ(iad)による自己回帰トランスの利点を予約する一方で、テキスト認識のための並列認識デコーダ(prd)を並列に使用することで、シーケンス長の要求を大幅に削減する。 これら2つのデコーダは同じパラメータを共有し、単純な情報伝達プロセスと対話的に接続され、勾配と情報を渡す。 様々な既存のベンチマークデータセットに関する包括的な実験により、spts v2は、より少ないパラメータで以前の最先端のシングルポイントテキストスポッターを上回ることができ、19$\times$の推論速度を実現している。 SPTS v2フレームワークのコンテキスト内では、他の表現と比較した場合、シーンテキストスポッティングにおける単一点表現の潜在的嗜好が示唆される。 このような試みは、既存のパラダイムの領域を超えたシーンテキストスポッティングアプリケーションにとって重要な機会を提供する。 コードはhttps://github.com/yuliang-liu/sptsv2。

End-to-end scene text spotting has made significant progress due to its intrinsic synergy between text detection and recognition. Previous methods commonly regard manual annotations such as horizontal rectangles, rotated rectangles, quadrangles, and polygons as a prerequisite, which are much more expensive than using single-point. Our new framework, SPTS v2, allows us to train high-performing text-spotting models using a single-point annotation. SPTS v2 reserves the advantage of the auto-regressive Transformer with an Instance Assignment Decoder (IAD) through sequentially predicting the center points of all text instances inside the same predicting sequence, while with a Parallel Recognition Decoder (PRD) for text recognition in parallel, which significantly reduces the requirement of the length of the sequence. These two decoders share the same parameters and are interactively connected with a simple but effective information transmission process to pass the gradient and information. Comprehensive experiments on various existing benchmark datasets demonstrate the SPTS v2 can outperform previous state-of-the-art single-point text spotters with fewer parameters while achieving 19$\times$ faster inference speed. Within the context of our SPTS v2 framework, our experiments suggest a potential preference for single-point representation in scene text spotting when compared to other representations. Such an attempt provides a significant opportunity for scene text spotting applications beyond the realms of existing paradigms. Code is available at: https://github.com/Yuliang-Liu/SPTSv2.
翻訳日:2023-09-07 06:53:29 公開日:2023-09-02
# 量子思考への転換を促進する--知識の再編成・組織化・認識論的課題に取り組む中等教育コースの開発

Promoting the transition to quantum thinking: development of a secondary school course for addressing knowledge revision, organization, and epistemological challenges ( http://arxiv.org/abs/2301.00239v5 )

ライセンス: Link先を確認
Giacomo Zuccarini and Marisa Michelini(参考訳) 本稿では, 古典的知識の改訂, 十分に体系化された知識構造の構築, 量子世界の信頼性と信頼性の確保といった課題に対処するために設計された中等教育のための量子力学コースの開発について述べる。 このコースは概念変化に対する体系的なアプローチに基づいており、古典力学から量子力学への移行における解析に依存し、認知とてんかんの側面をコーディネートする。 このアプローチが設計原則の導出を助長する方法,これらの原則が指導シーケンスの開発とその戦略をいかに導くか,それらの実装が異なる研究視点と学習システムのブレンドを必要とするかを示す。 第1の課題は、理論変化の各概念のダイナミクスに従って事前知識を活用する古典的概念と構成の修正の道を通して解決される。 2つ目は、コンテキストをまたいだ量子計測の統一図の構築を促進するフレームワークの採用である。 3つ目は、学生が理論物理学者のエピステマティックな実践、例えば思考実験の生成や実行、純粋に理論的な環境での数学的モデリングなどに関わるモデリングプロセスに関するコースを設計することである。 すべては、学生が自分の探究のもっともらしい産物として世界の量子的記述を受け入れるのを助けることを目的としている。 このプロセスは、提案された解釈的選択のそれぞれによって引き起こされる基礎的な議論の側面の議論に助けられ、その文化的重要性、選択された立場の制限、オープンな問題に対する認識を促進することを目的としている。 改良のサイクルに関するデータは、一連のアクティビティがローカルレベルでの課題にどのように効果的に対処されたかを示しています。

We describe the development of a course of quantum mechanics for secondary school designed to address the challenges related to the revision of classical knowledge, to the building of a well-organized knowledge structure on the discipline, and to the development of a plausible and reliable picture of the quantum world. The course is based on a systemic approach to conceptual change, which relies on its analysis in the transition from classical to quantum mechanics, and coordinates cognitive and epistemic aspects. We show how our approach drives the derivation of design principles, how these principles guide the development of the instructional sequence and of its strategies, how their implementation requires the blending of different research perspectives and learning systems. The first challenge is addressed through a path of revision of classical concepts and constructs which leverages prior knowledge according to the dynamics of each notion in theory change. The second by adopting a framework that promotes the construction of a unifying picture of quantum measurement across contexts. The third by designing the course around a modelling process that engages students in epistemic practices of the theoretical physicist, such as generating and/or running thought experiments, and mathematical modelling in a purely theoretical setting. All is aimed to help students accept the quantum description of the world as a plausible product of their own inquiry. This process is assisted by the discussion of the facets of the foundational debate that are triggered by each of the suggested interpretive choices, with the goal to promote an awareness of its cultural significance, of the limits the chosen stance, of the open issues. Data on the cycles of refinement illustrate how a set of activities have been made effective in addressing the challenges at a local level.
翻訳日:2023-09-07 06:53:01 公開日:2023-09-02
# テキスト・画像拡散モデルへの条件制御の追加

Adding Conditional Control to Text-to-Image Diffusion Models ( http://arxiv.org/abs/2302.05543v2 )

ライセンス: Link先を確認
Lvmin Zhang and Anyi Rao and Maneesh Agrawala(参考訳) 大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。 controlnetはプロダクション対応の大規模拡散モデルをロックし、数十億のイメージでトレーニングされた深層で堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールのセットを学ぶ。 ニューラル・アーキテクチャは「ゼロ畳み込み」(ゼロ初期化畳み込み層)と接続され、パラメータを徐々にゼロから成長させ、有害なノイズが微調整に影響を与えないようにする。 条件付制御,例えばエッジ,エッジ,深さ,セグメンテーション,人間のポーズ等を,プロンプトの有無にかかわらず,単一または複数条件を用いて安定した拡散でテストする。 ControlNetsのトレーニングは、小さな (50k) と大きな (>1m) データセットで堅牢であることを示す。 画像拡散モデルを制御するため,コントロールネットは広い範囲の応用を促進する可能性がある。

We present ControlNet, a neural network architecture to add spatial conditioning controls to large, pretrained text-to-image diffusion models. ControlNet locks the production-ready large diffusion models, and reuses their deep and robust encoding layers pretrained with billions of images as a strong backbone to learn a diverse set of conditional controls. The neural architecture is connected with "zero convolutions" (zero-initialized convolution layers) that progressively grow the parameters from zero and ensure that no harmful noise could affect the finetuning. We test various conditioning controls, eg, edges, depth, segmentation, human pose, etc, with Stable Diffusion, using single or multiple conditions, with or without prompts. We show that the training of ControlNets is robust with small (<50k) and large (>1m) datasets. Extensive results show that ControlNet may facilitate wider applications to control image diffusion models.
翻訳日:2023-09-07 06:33:55 公開日:2023-09-02
# 境界を意識した亀裂セグメンテーションのための畳み込み変換ネットワーク

A Convolutional-Transformer Network for Crack Segmentation with Boundary Awareness ( http://arxiv.org/abs/2302.11728v2 )

ライセンス: Link先を確認
Huaqi Tao, Bingxi Liu, Jinqiang Cui and Hong Zhang(参考訳) ひび割れは、製造された建物の安全性と耐久性を評価する上で重要な役割を担っている。 しかし, ひび割れの長期的・鋭い特徴と複雑な背景は, ひび割れの分断を極めて困難にしている。 本稿では,この課題を解決するために,エンコーダ・デコーダアーキテクチャに基づく新しい畳み込み変換ネットワークを提案する。 特に,Dilated Residual Block (DRB) と境界認識モジュール (BAM) を設計した。 DRBはひび割れの局所的な詳細に注意を払い、必要に応じて他のブロックの特徴次元を調整する。 そして、BAMは、拡張クラックラベルから境界特徴を学習する。 さらに、DRBは、グローバル情報をキャプチャして効果的なエンコーダとして機能する軽量トランスフォーマーと組み合わせられている。 実験結果から,提案ネットワークは2つの典型的なデータセット上で,最先端のアルゴリズムよりも優れた性能を示した。 データセット、コード、トレーニングされたモデルはhttps://github.com/HqiTao/CT-cracksegで研究することができる。

Cracks play a crucial role in assessing the safety and durability of manufactured buildings. However, the long and sharp topological features and complex background of cracks make the task of crack segmentation extremely challenging. In this paper, we propose a novel convolutional-transformer network based on encoder-decoder architecture to solve this challenge. Particularly, we designed a Dilated Residual Block (DRB) and a Boundary Awareness Module (BAM). The DRB pays attention to the local detail of cracks and adjusts the feature dimension for other blocks as needed. And the BAM learns the boundary features from the dilated crack label. Furthermore, the DRB is combined with a lightweight transformer that captures global information to serve as an effective encoder. Experimental results show that the proposed network performs better than state-of-the-art algorithms on two typical datasets. Datasets, code, and trained models are available for research at https://github.com/HqiTao/CT-crackseg.
翻訳日:2023-09-07 06:24:50 公開日:2023-09-02
# CoLo-CAM:弱ラベル非拘束ビデオにおけるオブジェクトのコローカライゼーションのためのクラスアクティベーションマッピング

CoLo-CAM: Class Activation Mapping for Object Co-Localization in Weakly-Labeled Unconstrained Videos ( http://arxiv.org/abs/2303.09044v2 )

ライセンス: Link先を確認
Soufiane Belharbi, Shakeeb Murtaza, Marco Pedersoli, Ismail Ben Ayed, Luke McCaffrey, Eric Granger(参考訳) 弱教師付きビデオオブジェクトローカライゼーション(WSVOL)法は、しばしば視覚的およびモーション的キューのみに依存するため、不正確なローカライゼーションの影響を受ける。 近年,時間的クラスアクティベーションマッピング (CAM) 法を用いて識別モデルが検討されている。 結果は有望だが、オブジェクトはフレームからフレームへの移動が限られていると仮定され、比較的長期の依存関係でパフォーマンスが低下する。 本稿では,オブジェクトの位置を仮定することなく,トレーニング中にアクティベーションマップの時空間情報を活用する,wsvolのための新しいコロンカム法を提案する。 一連のフレームが与えられると、オブジェクトが隣接するフレーム間で同じ色を持つと仮定して、これらのマップのカラーキューに基づいて局所化の明示的な合同学習が生成される。 CAMアクティベーションは、同様の色を持つピクセルに対して同様の反応を制限され、コローカライゼーションが達成される。 この共同学習は、すべての画像位置および全フレームにわたる画素間の直接通信を生成し、学習したローカライゼーションの転送、集約、補正を可能にし、ローカライゼーションのパフォーマンスを向上させる。 これは、条件付きランダムフィールド(CRF)ロスの色項をフレーム/CAMのシーケンス上で最小化する。 制約のないビデオを持つ2つの挑戦的データセットに関する実証実験、YouTube-Objectsは、我々の方法のメリットと長期依存に対する堅牢性を示し、WSVOLの新たな最先端パフォーマンスをもたらす。

Weakly supervised video object localization (WSVOL) methods often rely on visual and motion cues only, making them susceptible to inaccurate localization. Recently, discriminative models have been explored using a temporal class activation mapping (CAM) method. Although their results are promising, objects are assumed to have limited movement from frame to frame, leading to degradation in performance for relatively long-term dependencies. In this paper, a novel CoLo-CAM method for WSVOL is proposed that leverages spatiotemporal information in activation maps during training without making assumptions about object position. Given a sequence of frames, explicit joint learning of localization is produced based on color cues across these maps, by assuming that an object has similar color across adjacent frames. CAM activations are constrained to respond similarly over pixels with similar colors, achieving co-localization. This joint learning creates direct communication among pixels across all image locations and over all frames, allowing for transfer, aggregation, and correction of learned localization, leading to better localization performance. This is achieved by minimizing the color term of a conditional random field (CRF) loss over a sequence of frames/CAMs. Empirical experiments on two challenging datasets with unconstrained videos, YouTube-Objects, show the merits of our method, and its robustness to long-term dependencies, leading to new state-of-the-art performance for WSVOL.
翻訳日:2023-09-07 06:15:51 公開日:2023-09-02
# 量子ミックスマスター宇宙は自発的なインフレーション相になるのか?

Can a quantum mixmaster universe undergo a spontaneous inflationary phase? ( http://arxiv.org/abs/2303.07873v2 )

ライセンス: Link先を確認
Herve Bergeron, Jaime de Cabo Martin, Jean-Pierre Gazeau and Przemyslaw Malkiewicz(参考訳) 我々はミックスマスター宇宙の半古典モデルを研究する。 まず量子モデルを導出し,その半古典近似を導入する。 我々は、アフィンとワイル・ハイゼンベルク群によって与えられるモデルの対称性を尊重する一般積分量子化法を用い、幅広い種類の量子モデルを生成できる。 半古典近似はコヒーレント状態に基づいている。 半古典力学は複雑であり、解析的な方法では解けない。 我々は,この力学の重要な定性的特徴,すなわち初期異方性宇宙が,異方性エネルギーと半古典的補正を併用した自発的インフレーション相を生じ得るかどうかを考察する。 この質問に対する答えは、代替バウンシングモデルと同様にインフレーションパラダイムに関する有用な視点を提供する。

We study a semiclassical model of the mixmaster universe. We first derive the quantum model and then introduce its semiclassical approximation. We employ a general integral quantization method that respects the symmetries of the model given by the affine and the Weyl-Heisenberg groups, and can produce a wide class of quantum models. The semiclassical approximation is based on the coherent states. The semiclassical dynamics is complex and cannot be solved by analytical methods. We focus on a key qualitative feature of the dynamics, namely, we investigate whether the primordial anisotropic universe can undergo a spontaneous inflationary phase driven by the anisotropic energy combined with semiclassical corrections. The answer to this question provides a useful perspective on the inflationary paradigm as well as on alternative bouncing models.
翻訳日:2023-09-07 06:14:51 公開日:2023-09-02
# 多くのマヨラナエッジモードを持つフロケットトポロジカル超伝導体:位相不変量、絡み合いスペクトル、バルクエッジ対応

Floquet topological superconductors with many Majorana edge modes: topological invariants, entanglement spectrum and bulk-edge correspondence ( http://arxiv.org/abs/2303.04674v3 )

ライセンス: Link先を確認
Hailing Wu, Shenlin Wu, and Longwen Zhou(参考訳) 1次元フロケトポロジカル超伝導体は、0 と $\pi$ quasienerige の2種類の退化マヨラナエッジモードを持ち、静的な結晶よりも境界時間結晶や量子コンピューティングスキームの設計に余分な余地を残している。 本研究では,周期的に駆動されるキタエフ鎖において,位相不変量が大きく,任意に多数のマヨラエッジモードを持つフロッケ超伝導相を発見する。 フロッケ作用素とフロッケ絡み合いハミルトニアンのために定義された位相的巻線数は、異なる駆動プロトコルの下でシステムの位相図、バルクエッジ対応、およびゼロおよび$\pi$ majoranaエッジモードに関する一貫した予測を生成する。 両部エンタングルメントエントロピーは、異なるフロケット超伝導相間のトポロジカル遷移点周辺の非解析的挙動を示す。 これらの一般的な特徴は、周期的にペアリングやホッピング振幅を用いてキタエフ連鎖を調べることによって示される。 我々の発見は、一次元超伝導系の周期駆動場によって引き起こされる豊富な位相位相と多くのマヨラナエッジモードを明らかにする。 さらに、その準エネルギーバンドと絡み合い特性から、フロケトポロジカル超伝導体のクラスに対する統一的な記述を導入する。

One-dimensional Floquet topological superconductors possess two types of degenerate Majorana edge modes at zero and $\pi$ quasieneriges, leaving more room for the design of boundary time crystals and quantum computing schemes than their static counterparts. In this work, we discover Floquet superconducting phases with large topological invariants and arbitrarily many Majorana edge modes in periodically driven Kitaev chains. Topological winding numbers defined for the Floquet operator and Floquet entanglement Hamiltonian are found to generate consistent predictions about the phase diagram, bulk-edge correspondence and numbers of zero and $\pi$ Majorana edge modes of the system under different driving protocols. The bipartite entanglement entropy further show non-analytic behaviors around the topological transition point between different Floquet superconducting phases. These general features are demonstrated by investigating the Kitaev chain with periodically kicked pairing or hopping amplitudes. Our discovery reveals the rich topological phases and many Majorana edge modes that could be brought about by periodic driving fields in one-dimensional superconducting systems. It further introduces a unified description for a class of Floquet topological superconductors from their quasienergy bands and entanglement properties.
翻訳日:2023-09-07 06:13:53 公開日:2023-09-02
# 擬密度行列としての量子力学

Quantum dynamics as a pseudo-density matrix ( http://arxiv.org/abs/2304.03954v3 )

ライセンス: Link先を確認
James Fullwood(参考訳) 相対性理論では、空間は時間とともに時空として知られる単一の実体へと発展するが、量子論は量子状態の力学進化を一つの「時間的状態」にカプセル化する標準的な概念を欠いている。 最近、Fitzsimons、Jones、Vedralの論文において、そのような状態が時間とともに量子力学過程に存在する空間的だけでなく時間的相関を符号化するならば、密度行列ではなく、擬密度行列によって表されるべきであると強調された。 擬密度行列は、境界が密度行列である単位トレースのエルミート行列であり、この研究では、擬密度行列を量子チャネルの有限列に従って進化させる量子システムに関連付けるために、量子チャネルの分解系を用いる。 すると、そのような擬密度行列を時空の局所パッチの量子アナログとみなし、そのような量子力学の擬密度行列とその性質の詳細な数学的解析を行う。 また,与えられた擬似密度行列から量子力学を明示的に抽出する方法を示す。

While in relativity theory space evolves over time into a single entity known as spacetime, quantum theory lacks a standard notion of how to encapsulate the dynamical evolution of a quantum state into a single "state over time". Recently it was emphasized in the work of Fitzsimons, Jones and Vedral that if such a state over time is to encode not only spatial but also temporal correlations which exist within a quantum dynamical process, then it should be represented not by a density matrix, but rather, by a pseudo-density matrix. A pseudo-density matrix is a hermitian matrix of unit trace whose marginals are density matrices, and in this work, we make use a factorization system for quantum channels to associate a pseudo-density matrix with a quantum system which is to evolve according to a finite sequence of quantum channels. We then view such a pseudo-density matrix as the quantum analog of a local patch of spacetime, and we make an in-depth mathematical analysis of such quantum dynamical pseudo-density matrices and the properties they satisfy. We also show how to explicitly extract quantum dynamics from a given pseudo-density matrix, thus solving an open problem posed in the literature.
翻訳日:2023-09-07 05:55:36 公開日:2023-09-02
# Robo3D: 破壊に対するロバストで信頼性の高い3D認識を目指す

Robo3D: Towards Robust and Reliable 3D Perception against Corruptions ( http://arxiv.org/abs/2303.17597v4 )

ライセンス: Link先を確認
Lingdong Kong and Youquan Liu and Xin Li and Runnan Chen and Wenwei Zhang and Jiawei Ren and Liang Pan and Kai Chen and Ziwei Liu(参考訳) 環境やセンサーからの自然汚染下での3D認識システムの堅牢性は、安全に重要な応用にとって重要な要素である。 既存の大規模3D認識データセットは、しばしば注意深く掃除されたデータを含んでいる。 しかし、そのような構成は、デプロイメント段階での知覚モデルの信頼性を反映することはできない。 本研究では,実環境において発生する自然腐敗に対して,分散シナリオ下で3次元検出器とセグメンタのロバスト性を調べる最初の総合ベンチマークであるrobo3dを提案する。 具体的には,厳しい気象条件,外乱,内部センサーの故障による8種類の汚職について考察した。 有望な結果は標準ベンチマークで徐々に達成されているが、最先端の3D認識モデルは腐敗に弱いリスクがある。 モデルの性能に重大な影響を及ぼす可能性のあるデータ表現、拡張スキーム、トレーニング戦略の使用に関する重要な観察を行う。 頑健性を高めるために,モデルレジリエンスを高めるための単純な柔軟なボクセル化戦略とともに,密度非感受性トレーニングフレームワークを提案する。 われわれのベンチマークとアプローチが、より堅牢で信頼性の高い3D知覚モデルの設計に将来の研究を刺激することを期待している。 私たちの堅牢性ベンチマークスイートが公開されています。

The robustness of 3D perception systems under natural corruptions from environments and sensors is pivotal for safety-critical applications. Existing large-scale 3D perception datasets often contain data that are meticulously cleaned. Such configurations, however, cannot reflect the reliability of perception models during the deployment stage. In this work, we present Robo3D, the first comprehensive benchmark heading toward probing the robustness of 3D detectors and segmentors under out-of-distribution scenarios against natural corruptions that occur in real-world environments. Specifically, we consider eight corruption types stemming from severe weather conditions, external disturbances, and internal sensor failure. We uncover that, although promising results have been progressively achieved on standard benchmarks, state-of-the-art 3D perception models are at risk of being vulnerable to corruptions. We draw key observations on the use of data representations, augmentation schemes, and training strategies, that could severely affect the model's performance. To pursue better robustness, we propose a density-insensitive training framework along with a simple flexible voxelization strategy to enhance the model resiliency. We hope our benchmark and approach could inspire future research in designing more robust and reliable 3D perception models. Our robustness benchmark suite is publicly available.
翻訳日:2023-09-07 05:53:59 公開日:2023-09-02
# 光場圧縮のための学習型空間情報と角情報分離

Learning-based Spatial and Angular Information Separation for Light Field Compression ( http://arxiv.org/abs/2304.06322v3 )

ライセンス: Link先を確認
Jinglei Shi, Yihong Xu, Christine Guillemot(参考訳) ライトフィールド(light fields)は、異なる方向からシーンから放出される光を記録して、空間的および角的シーン情報の両方をキャプチャする画像データの一種である。 この文脈では、空間情報は視点に関係なく静的に残る特徴として定義されるが、角情報は視点によって異なる特徴を指す。 本稿では,光場の角度情報と空間情報を分離できる新しいニューラルネットワークを提案する。 ネットワークは、全サブアパーチャ画像(sais)間で共有される空間カーネルと、各saiの角カーネルの集合を用いた角情報を用いて空間情報を表現する。 パラメータ数を増やすことなくネットワークの表現能力をさらに向上するため,角カーネル割り当てとカーネルテンソル分解機構を導入する。 圧縮タスクに適用した場合、我々のネットワークは、他の最先端手法よりも大きなマージンで優れています。 そして、角情報を簡単に他のシーンに転送し、密集したビューをレンダリングし、ビュー合成タスクの分離と潜在的なユースケースを示す。 我々は,この話題についてさらなる研究を奨励するため,論文の受理時にコードを公開する予定だ。

Light fields are a type of image data that capture both spatial and angular scene information by recording light rays emitted by a scene from different orientations. In this context, spatial information is defined as features that remain static regardless of perspectives, while angular information refers to features that vary between viewpoints. We propose a novel neural network that, by design, can separate angular and spatial information of a light field. The network represents spatial information using spatial kernels shared among all Sub-Aperture Images (SAIs), and angular information using sets of angular kernels for each SAI. To further improve the representation capability of the network without increasing parameter number, we also introduce angular kernel allocation and kernel tensor decomposition mechanisms. Extensive experiments demonstrate the benefits of information separation: when applied to the compression task, our network outperforms other state-of-the-art methods by a large margin. And angular information can be easily transferred to other scenes for rendering dense views, showing the successful separation and the potential use case for the view synthesis task. We plan to release the code upon acceptance of the paper to encourage further research on this topic.
翻訳日:2023-09-07 05:45:35 公開日:2023-09-02
# two birds, one stone: an unified framework for joint learning of image and video style transfers

Two Birds, One Stone: A Unified Framework for Joint Learning of Image and Video Style Transfers ( http://arxiv.org/abs/2304.11335v2 )

ライセンス: Link先を確認
Bohai Gu, Heng Fan, Libo Zhang(参考訳) 現在の任意のスタイル転送モデルは、画像ドメインまたはビデオドメインに限られている。 映像と映像の転送を満足させるためには,画像領域と映像領域の訓練プロセスがそれぞれ異なるため,必然的に2つの異なるモデルが必要となる。 本稿では,画像とビデオの両方を対象とした統一スタイル転送フレームワークUniSTを導入することで,これを回避できることを示す。 UniSTのコアとなるドメインインタラクショントランスフォーマー(DIT)は、まず特定のドメイン内のコンテキスト情報を探索し、その後、共同学習のためにコンテキスト化されたドメイン情報と対話する。 特に、DITは、画像スタイル転送タスクのためのビデオからの時間情報の探索を可能にし、一方、映像スタイル転送のための画像からのリッチな外観テクスチャを可能にし、相互に利益をもたらす。 従来のマルチヘッド自己アテンションの計算量を考慮すると,DITのための簡易かつ効果的な軸方向多頭部自己アテンション(AMSA)が提案される。 本研究は,UniSTの有効性を検証するために,画像および映像スタイルの転送タスクについて広範な実験を行い,UniSTが両タスクの最先端アプローチに対して好適に動作することを示す。 コードはhttps://github.com/NevSNev/UniSTで入手できる。

Current arbitrary style transfer models are limited to either image or video domains. In order to achieve satisfying image and video style transfers, two different models are inevitably required with separate training processes on image and video domains, respectively. In this paper, we show that this can be precluded by introducing UniST, a Unified Style Transfer framework for both images and videos. At the core of UniST is a domain interaction transformer (DIT), which first explores context information within the specific domain and then interacts contextualized domain information for joint learning. In particular, DIT enables exploration of temporal information from videos for the image style transfer task and meanwhile allows rich appearance texture from images for video style transfer, thus leading to mutual benefits. Considering heavy computation of traditional multi-head self-attention, we present a simple yet effective axial multi-head self-attention (AMSA) for DIT, which improves computational efficiency while maintains style transfer performance. To verify the effectiveness of UniST, we conduct extensive experiments on both image and video style transfer tasks and show that UniST performs favorably against state-of-the-art approaches on both tasks. Code is available at https://github.com/NevSNev/UniST.
翻訳日:2023-09-07 05:34:03 公開日:2023-09-02
# 弱教師付き意味セグメンテーションのためのマスキング協調コントラスト

Masked Collaborative Contrast for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.08491v4 )

ライセンス: Link先を確認
Fangwen Wu, Jingxuan He, Yufei Yin, Yanbin Hao, Gang Huang, Lechao Cheng(参考訳) 本研究では,弱教師付きセマンティックセマンティックセグメンテーションにおける意味領域を強調するため,Masked Collaborative Contrast (MCC) を提案する。 MCCは暗黙のイメージモデリングと対照的な学習から着想を得て、セマンティック領域に向けた鍵を誘導する新しいフレームワークを考案した。 マスク生成時に入力画像のパッチ領域を直接消去する一般的な手法とは異なり,アフィニティ行列のキーを考慮したマスクを探索することにより,パッチトークンの近傍関係を精査する。 さらに,マスキングローカルアウトプットを活用し,グローバルアウトプットと対比することにより,対照学習において正負のサンプルを生成する。 一般的に使用されるデータセットに関する実験により、提案されたMCCメカニズムが画像内のグローバルとローカルの視点を効果的に整合させ、印象的なパフォーマンスを実現することが証明された。

This study introduces an efficacious approach, Masked Collaborative Contrast (MCC), to highlight semantic regions in weakly supervised semantic segmentation. MCC adroitly draws inspiration from masked image modeling and contrastive learning to devise a novel framework that induces keys to contract toward semantic regions. Unlike prevalent techniques that directly eradicate patch regions in the input image when generating masks, we scrutinize the neighborhood relations of patch tokens by exploring masks considering keys on the affinity matrix. Moreover, we generate positive and negative samples in contrastive learning by utilizing the masked local output and contrasting it with the global output. Elaborate experiments on commonly employed datasets evidences that the proposed MCC mechanism effectively aligns global and local perspectives within the image, attaining impressive performance.
翻訳日:2023-09-07 05:13:53 公開日:2023-09-02
# 自動倉庫のマルチロボットコーディネーションとレイアウト設計

Multi-Robot Coordination and Layout Design for Automated Warehousing ( http://arxiv.org/abs/2305.06436v3 )

ライセンス: Link先を確認
Yulun Zhang, Matthew C. Fontaine, Varun Bhatt, Stefanos Nikolaidis, Jiaoyang Li(参考訳) MAPF(Multi-Agent Path Finding)の急速な進歩により、大規模な自動倉庫で何百ものロボットを協調させるMAPFアルゴリズムをどのように展開するかが研究されている。 ほとんどの研究はMAPFアルゴリズムを改良して倉庫のスループットを向上させるが、倉庫のレイアウトを最適化することでスループットを改善することに重点を置いている。 最先端のMAPFアルゴリズムであっても、人間設計のレイアウトは、多数のロボットを持つ倉庫の混雑を招き、スケーラビリティが制限されることが示されている。 我々は,既存の自動シナリオ生成手法を拡張し,倉庫レイアウトを最適化する。 その結果,(1)交通渋滞を低減しスループットを向上させること,(2)ロボット数を2倍にすることで自動倉庫のスケーラビリティを向上させること,(3)ユーザが特定した多様性対策でレイアウトを生成できることがわかった。 https://github.com/lunjohnzhang/warehouse_env_gen_public

With the rapid progress in Multi-Agent Path Finding (MAPF), researchers have studied how MAPF algorithms can be deployed to coordinate hundreds of robots in large automated warehouses. While most works try to improve the throughput of such warehouses by developing better MAPF algorithms, we focus on improving the throughput by optimizing the warehouse layout. We show that, even with state-of-the-art MAPF algorithms, commonly used human-designed layouts can lead to congestion for warehouses with large numbers of robots and thus have limited scalability. We extend existing automatic scenario generation methods to optimize warehouse layouts. Results show that our optimized warehouse layouts (1) reduce traffic congestion and thus improve throughput, (2) improve the scalability of the automated warehouses by doubling the number of robots in some cases, and (3) are capable of generating layouts with user-specified diversity measures. We include the source code at: https://github.com/lunjohnzhang/warehouse_env_gen_public
翻訳日:2023-09-07 05:13:36 公開日:2023-09-02
# 水中ゴミの効率的な検出のための最適化カスタムデータセット

Optimized Custom Dataset for Efficient Detection of Underwater Trash ( http://arxiv.org/abs/2305.16460v2 )

ライセンス: Link先を確認
Jaskaran Singh Walia and Karthik Seemakurthy(参考訳) 水中廃棄物の正確な定量化と除去は海洋生物の保護と環境保全に重要な役割を果たす。 浮遊および表面の破片の検出は比較的単純であるが、水没した廃棄物の定量化は、光の屈折、吸収、懸濁粒子、色歪みなどの要因によって大きな課題が生じる。 本稿では,これらの課題に対して,カスタムデータセットの開発と,水中の海洋破片の効率的な検出手法を提案する。 データセットは多様な水中環境を含み、デブリのインスタンスの正確なラベル付けのためのアノテーションを含んでいる。 このカスタムデータセットの主な目的は、最先端のディープラーニングアーキテクチャを活用することで、リッターインスタンスの多様性を高め、深海環境における検出精度を向上させることである。

Accurately quantifying and removing submerged underwater waste plays a crucial role in safeguarding marine life and preserving the environment. While detecting floating and surface debris is relatively straightforward, quantifying submerged waste presents significant challenges due to factors like light refraction, absorption, suspended particles, and color distortion. This paper addresses these challenges by proposing the development of a custom dataset and an efficient detection approach for submerged marine debris. The dataset encompasses diverse underwater environments and incorporates annotations for precise labeling of debris instances. Ultimately, the primary objective of this custom dataset is to enhance the diversity of litter instances and improve their detection accuracy in deep submerged environments by leveraging state-of-the-art deep learning architectures.
翻訳日:2023-09-07 05:06:14 公開日:2023-09-02
# 量子非慣性効果の証人としてのラムシフト

Lamb shift as a witness for quantum noninertial effects ( http://arxiv.org/abs/2305.19172v3 )

ライセンス: Link先を確認
Navdeep Arya, Sandeep K. Goyal(参考訳) 原子分光に関する激しい実験的活動と、結果として生じる原子スペクトル線の高精度測定は、量子系における非慣性効果の証人としてラムシフトに関心を惹きつける。 均一な円運動と共振器内の量子電磁場に結合した2段系のラムシフトについて検討した。 異なるキャビティモード間の分離が各キャビティモードの幅よりも大きい場合,ラムシフトに対する慣性と非慣性の両方が収束することを示す。 さらに、純粋な非慣性ラムシフトは、循環原子の角周波数によって決定される量によって原子共鳴から最大化され、キャビティパラメータの適切なチューニングによって効率的に増強される。 我々は、非慣性寄与が加速度$\sim 10^{14}~\mathrm{m/s^2}$で検出できると主張する。

The sustained intense experimental activity around atomic spectroscopy and the resulting high-precision measurements of atomic spectral lines attract interest in Lamb shift as a witness for noninertial effects in quantum systems. We investigate the Lamb shift in a two-level system undergoing uniform circular motion and coupled to a quantum electromagnetic field inside a cavity. We show that when the separation between different cavity modes is large compared to the width of each cavity mode, both the inertial and noninertial contributions to the Lamb shift are convergent. In addition, we find that the purely-noninertial Lamb shift maximizes away from the atomic resonance by an amount decided by the angular frequency of the circulating atom, lending itself to efficient enhancement by a suitable tuning of the cavity parameters. We argue that the noninertial contribution becomes detectable at accelerations $\sim 10^{14}~\mathrm{m/s^2}$.
翻訳日:2023-09-07 04:54:27 公開日:2023-09-02
# アクティブな人間-ロボット共組:人間の意図予測とロバスト安全制御を活用する

Proactive Human-Robot Co-Assembly: Leveraging Human Intention Prediction and Robust Safe Control ( http://arxiv.org/abs/2306.11862v2 )

ライセンス: Link先を確認
Ruixuan Liu, Rui Chen, Abulikemu Abuduweili, Changliu Liu(参考訳) ヒューマンロボットコラボレーション(HRC)は、顧客のニーズに応じて柔軟な製造を実現するための重要なコンポーネントのひとつです。 しかし、いくつかの課題により、人間を安全かつ効率的に支援できるインテリジェントロボットを構築することは困難である。 まず、多様な人間の行動やデータ不足のため、効率的なコラボレーションを実現することは困難である。 第二に、人間の行動の不確実性による対話的安全性を確保することは困難である。 本稿では,プロアクティブHRCのための統合フレームワークを提案する。 事前のタスク情報とループ内トレーニングを活用する頑健な意図予測モジュールを学習し,ロボットの効率的な協調を指導する。 提案フレームワークはロバストなセーフコントロールを使用して、不確実性下でのインタラクティブな安全性を保証する。 開発したフレームワークは,Kinova Gen3ロボットを用いた協調作業に適用される。 この実験は、我々のソリューションが環境の変化や人間の好みや行動に頑健であることを示します。 さらに,タスク効率を約15~20%向上させる。 また,提案手法は協調作業時の安全性を保証できることを示した。

Human-robot collaboration (HRC) is one key component to achieving flexible manufacturing to meet the different needs of customers. However, it is difficult to build intelligent robots that can proactively assist humans in a safe and efficient way due to several challenges. First, it is challenging to achieve efficient collaboration due to diverse human behaviors and data scarcity. Second, it is difficult to ensure interactive safety due to uncertainty in human behaviors. This paper presents an integrated framework for proactive HRC. A robust intention prediction module, which leverages prior task information and human-in-the-loop training, is learned to guide the robot for efficient collaboration. The proposed framework also uses robust safe control to ensure interactive safety under uncertainty. The developed framework is applied to a co-assembly task using a Kinova Gen3 robot. The experiment demonstrates that our solution is robust to environmental changes as well as different human preferences and behaviors. In addition, it improves task efficiency by approximately 15-20%. Moreover, the experiment demonstrates that our solution can guarantee interactive safety during proactive collaboration.
翻訳日:2023-09-07 04:36:08 公開日:2023-09-02
# DynaQuant: 動的量子化によるディープラーニングトレーニングチェックポイントの圧縮

DynaQuant: Compressing Deep Learning Training Checkpoints via Dynamic Quantization ( http://arxiv.org/abs/2306.11800v2 )

ライセンス: Link先を確認
Amey Agrawal, Sameer Reddy, Satwik Bhattamishra, Venkata Prabhakara Sarath Nookala, Vidushi Vashishth, Kexin Rong, Alexey Tumanov(参考訳) 計算リソースと時間消費の観点からのディープラーニング(DL)トレーニングワークロードの規模の増加に伴い、トレーニング中の障害に遭遇する可能性が大幅に増加し、作業とリソースの浪費が失われる。 このような障害は通常、ストレージとネットワーク帯域のオーバーヘッドのコストがかかるチェックポイント機構によってオフセットされる。 最先端のアプローチには、モデル品質(正確性)と圧縮比のトレードオフを引き起こす、損失のあるモデル圧縮機構が含まれる。 デルタ圧縮は、連続するチェックポイント間の差だけを格納することで、オーバーヘッドをさらに削減するために使用される。 モデル重みの圧縮に対する感度はトレーニング中に変化し,異なる重みは異なる量子化レベル(完全精度保持から刈り取りまで)の恩恵を受ける,という観察を可能にするキーとなる。 本研究では,(1)この変動を利用した非一様量子化手法,(2)最適な量子化構成を動的に見つける効率的な探索機構,(3)重みを並べ替えてチェックポイント差を最小化し,圧縮を最大化する量子化対応デルタ圧縮機構を提案する。 DLワークロードチェックポイント圧縮のためのフレームワークであるDynaQuantで、これらのコントリビューションをインスタンス化する。 実験の結果,DynaQuantは従来よりも精度と圧縮率のトレードオフを良好に達成し,最大39倍の圧縮比を達成し,耐故障性トレーニングに適さない精度で最大10個の復元を行うことができた。 dynaquantは、トレーニング障害回復のためのチェックポイントストレージオーバーヘッドの少なくとも1桁の削減と、精度を損なうことなく転送学習ユースケースを実現する。

With the increase in the scale of Deep Learning (DL) training workloads in terms of compute resources and time consumption, the likelihood of encountering in-training failures rises substantially, leading to lost work and resource wastage. Such failures are typically offset by a checkpointing mechanism, which comes at the cost of storage and network bandwidth overhead. State-of-the-art approaches involve lossy model compression mechanisms, which induce a tradeoff between the resulting model quality (accuracy) and compression ratio. Delta compression is then used to further reduce the overhead by only storing the difference between consecutive checkpoints. We make a key enabling observation that the sensitivity of model weights to compression varies during training, and different weights benefit from different quantization levels (ranging from retaining full precision to pruning). We propose (1) a non-uniform quantization scheme that leverages this variation, (2) an efficient search mechanism that dynamically finds the best quantization configurations, and (3) a quantization-aware delta compression mechanism that rearranges weights to minimize checkpoint differences, thereby maximizing compression. We instantiate these contributions in DynaQuant - a framework for DL workload checkpoint compression. Our experiments show that DynaQuant consistently achieves a better tradeoff between accuracy and compression ratios compared to prior works, enabling a compression ratio up to 39x and withstanding up to 10 restores with negligible accuracy impact for fault-tolerant training. DynaQuant achieves at least an order of magnitude reduction in checkpoint storage overhead for training failure recovery as well as transfer learning use cases without any loss of accuracy.
翻訳日:2023-09-07 04:35:53 公開日:2023-09-02
# 空中上の推論: 推論に基づく暗黙的意味認識コミュニケーションフレームワーク

Reasoning over the Air: A Reasoning-based Implicit Semantic-Aware Communication Framework ( http://arxiv.org/abs/2306.11229v2 )

ライセンス: Link先を確認
Yong Xiao, Yiwei Liao, Yingyu Li, Guangming Shi, H. Vincent Poor, Walid Saad, Merouane Debbah, Mehdi Bennis(参考訳) 意味認識コミュニケーション(semantic-aware communication)は、メッセージの意味の伝達に焦点を当てた人間のコミュニケーションから着想を得た新しいパラダイムである。 最近、コミュニケーションの効率と信頼性を改善し、ユーザのQoEを強化する可能性から、大きな関心を集めている。 既存の作業の多くは、ソース信号から直接識別できる明示的な意味の伝達と伝達に重点を置いている。 本稿では,ソース信号から直接観測できない隠された情報を,意図したユーザによって認識・解釈しなければならない暗黙的な意味認識コミュニケーションについて検討する。 この目的のために、ソースユーザと宛先ユーザの間で暗黙的意味を表現、伝達、解釈するための新しい暗黙的意味コミュニケーション(iSAC)アーキテクチャを提案する。 プロジェクションベースセマンティックエンコーダは, 明示的セマンティックスの高次元グラフィカル表現を低次元セマンティックコンステレーション空間に変換し, 効率的な物理チャネル伝送を実現する。 ソースユーザの暗黙のセマンティック推論過程を学習し、模倣できるようにするため、G-RMLと呼ばれる生成逆模倣学習ベースのソリューションを提案する。 既存のコミュニケーションソリューションと異なり、G-RMLのソースユーザーは、できるだけ多くの有用なメッセージを送ることだけに焦点をあてるのではなく、目的のユーザーに対して、観察された明示的なセマンティクスを、セマンティクスの最も関連性の高い暗黙的なセマンティクスにマッピングするための推論メカニズムを学ぶよう誘導する。 既存のソリューションと比較して,提案したG-RMLはコミュニケーションや計算資源をはるかに少なくし,多くの概念と関係性からなる豊富な意味的意味のコミュニケーションを含むシナリオをスケールする。

Semantic-aware communication is a novel paradigm that draws inspiration from human communication focusing on the delivery of the meaning of messages. It has attracted significant interest recently due to its potential to improve the efficiency and reliability of communication and enhance users' QoE. Most existing works focus on transmitting and delivering the explicit semantic meaning that can be directly identified from the source signal. This paper investigates the implicit semantic-aware communication in which the hidden information that cannot be directly observed from the source signal must be recognized and interpreted by the intended users. To this end, a novel implicit semantic-aware communication (iSAC) architecture is proposed for representing, communicating, and interpreting the implicit semantic meaning between source and destination users. A projection-based semantic encoder is proposed to convert the high-dimensional graphical representation of explicit semantics into a low-dimensional semantic constellation space for efficient physical channel transmission. To enable the destination user to learn and imitate the implicit semantic reasoning process of source user, a generative adversarial imitation learning-based solution, called G-RML, is proposed. Different from existing communication solutions, the source user in G-RML does not focus only on sending as much of the useful messages as possible; but, instead, it tries to guide the destination user to learn a reasoning mechanism to map any observed explicit semantics to the corresponding implicit semantics that are most relevant to the semantic meaning. Compared to the existing solutions, our proposed G-RML requires much less communication and computational resources and scales well to the scenarios involving the communication of rich semantic meanings consisting of a large number of concepts and relations.
翻訳日:2023-09-07 04:35:24 公開日:2023-09-02
# rlパーセプトロン:高次元における政策学習の一般化ダイナミクス

The RL Perceptron: Generalisation Dynamics of Policy Learning in High Dimensions ( http://arxiv.org/abs/2306.10404v5 )

ライセンス: Link先を確認
Nishil Patel, Sebastian Lee, Stefano Sarao Mannelli, Sebastian Goldt, Andrew Saxe(参考訳) 強化学習 (Reinforcement Learning, RL) アルゴリズムは、様々な領域において変形を証明している。 現実世界のドメインに取り組むために、これらのシステムはニューラルネットワークを使ってピクセルや他の高次元センサー入力から直接ポリシーを学ぶ。 対照的に、RLの多くの理論は離散状態空間や最悪のケース解析に焦点を合わせており、高次元環境における政策学習のダイナミクスに関する根本的な疑問が残っている。 本稿では、様々な学習プロトコルをキャプチャし、その典型的ダイナミクスを閉形式常微分方程式(odes)の集合として導出する、rlの可解な高次元モデルを提案する。 学習速度と課題難易度に対する最適スケジュール(rlにおけるトレーニング中のアニーリングスキームやカリキュラムに類似)を導出し、このモデルが低報酬下での遅延学習を含むリッチな振る舞いを示すこと、報酬ベースラインに依存する様々な学習レジーム、報酬の厳格性によって駆動される速度・正確性トレードオフを示す。 Procgen ゲーム "Bossfight" や Arcade Learning Environment ゲーム "Pong" の変種に関する実験も、実際にそのような速度精度のトレードオフを示している。 これらの結果は、高次元RLにおける理論と実践の間のギャップを埋めるための一歩となる。

Reinforcement learning (RL) algorithms have proven transformative in a range of domains. To tackle real-world domains, these systems often use neural networks to learn policies directly from pixels or other high-dimensional sensory input. By contrast, much theory of RL has focused on discrete state spaces or worst-case analysis, and fundamental questions remain about the dynamics of policy learning in high-dimensional settings. Here, we propose a solvable high-dimensional model of RL that can capture a variety of learning protocols, and derive its typical dynamics as a set of closed-form ordinary differential equations (ODEs). We derive optimal schedules for the learning rates and task difficulty - analogous to annealing schemes and curricula during training in RL - and show that the model exhibits rich behaviour, including delayed learning under sparse rewards; a variety of learning regimes depending on reward baselines; and a speed-accuracy trade-off driven by reward stringency. Experiments on variants of the Procgen game "Bossfight" and Arcade Learning Environment game "Pong" also show such a speed-accuracy trade-off in practice. Together, these results take a step towards closing the gap between theory and practice in high-dimensional RL.
翻訳日:2023-09-07 04:34:53 公開日:2023-09-02
# 多視点クラスインクリメンタルラーニング

Multi-View Class Incremental Learning ( http://arxiv.org/abs/2306.09675v2 )

ライセンス: Link先を確認
Depeng Li, Tianqi Wang, Junwei Chen, Kenji Kawaguchi, Cheng Lian, Zhigang Zeng(参考訳) マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。 本稿では,MVL手法をオープンエンド環境でより実践的にするために,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムを考察する。 しかし、MVCILは、古い情報の破滅的な忘れと新しい概念の学習への干渉に悩まされている。 そこで本研究では,まず特徴量抽出のためのランダム化に基づく表現学習手法を開発し,その過程でクラスに属する複数のビューを逐次的に提示し,それらを抽出した特徴量にまたがる直交性融合部分空間に1つずつ統合し,さらに,新しいクラスに遭遇しながら学習支援意思決定のための選択的重み統合を提案する。 合成および実世界のデータセットに関する大規模な実験は、我々のアプローチの有効性を検証する。

Multi-view learning (MVL) has gained great success in integrating information from multiple perspectives of a dataset to improve downstream task performance. To make MVL methods more practical in an open-ended environment, this paper investigates a novel paradigm called multi-view class incremental learning (MVCIL), where a single model incrementally classifies new classes from a continual stream of views, requiring no access to earlier views of data. However, MVCIL is challenged by the catastrophic forgetting of old information and the interference with learning new concepts. To address this, we first develop a randomization-based representation learning technique serving for feature extraction to guarantee their separate view-optimal working states, during which multiple views belonging to a class are presented sequentially; Then, we integrate them one by one in the orthogonality fusion subspace spanned by the extracted features; Finally, we introduce selective weight consolidation for learning-without-forgetting decision-making while encountering new classes. Extensive experiments on synthetic and real-world datasets validate the effectiveness of our approach.
翻訳日:2023-09-07 04:33:40 公開日:2023-09-02
# FormAIデータセット: 形式検証のレンズによるソフトウェアセキュリティにおける生成AI

The FormAI Dataset: Generative AI in Software Security Through the Lens of Formal Verification ( http://arxiv.org/abs/2307.02192v2 )

ライセンス: Link先を確認
Norbert Tihanyi, Tamas Bisztray, Ridhi Jain, Mohamed Amine Ferrag, Lucas C. Cordeiro, Vasileios Mavroeidis(参考訳) 本稿では、脆弱性分類付き112,000のAI生成可能な独立したCプログラムの大規模なコレクションであるFormAIデータセットを提案する。 本稿では,大規模言語モデル(llm)を活用した多種多様なプログラムを生成するための動的ゼロショットプロンプト手法を提案する。 データセットはGPT-3.5-turboによって生成され、様々なレベルの複雑さを持つプログラムから構成される。 ネットワーク管理、テーブルゲーム、暗号化といった複雑なタスクを扱うプログラムや、文字列操作のような単純なタスクを扱うプログラムもある。 各プログラムにはソースコード内の脆弱性がラベル付けされ、型、行番号、脆弱な関数名を示す。 この手法は, モデルチェック, 抽象解釈, 制約プログラミング, 満足度モジュロ理論を用いて, プログラムの安全性・セキュリティ特性を推論する, 効率的なSMTベース境界モデルチェッカー (ESBMC) を用いた形式的検証手法を用いて実現されている。 このアプローチは脆弱性を確定的に検出し、反例として知られる形式的なモデルを提供する。 特定された脆弱性を、CWE(Common Weakness Enumeration)番号に関連付けました。 我々は112,000のプログラムでソースコードを公開し、各プログラムで検出された脆弱性を含む別のファイルとともに、データセットをLLMと機械学習アルゴリズムのトレーニングに最適にする。 ESBMCによると、GPT-3.5で生成されたプログラムの51.24%が脆弱性を含んでおり、ソフトウェア安全性とセキュリティにかなりのリスクが生じる。

This paper presents the FormAI dataset, a large collection of 112, 000 AI-generated compilable and independent C programs with vulnerability classification. We introduce a dynamic zero-shot prompting technique constructed to spawn diverse programs utilizing Large Language Models (LLMs). The dataset is generated by GPT-3.5-turbo and comprises programs with varying levels of complexity. Some programs handle complicated tasks like network management, table games, or encryption, while others deal with simpler tasks like string manipulation. Every program is labeled with the vulnerabilities found within the source code, indicating the type, line number, and vulnerable function name. This is accomplished by employing a formal verification method using the Efficient SMT-based Bounded Model Checker (ESBMC), which uses model checking, abstract interpretation, constraint programming, and satisfiability modulo theories to reason over safety/security properties in programs. This approach definitively detects vulnerabilities and offers a formal model known as a counterexample, thus eliminating the possibility of generating false positive reports. We have associated the identified vulnerabilities with Common Weakness Enumeration (CWE) numbers. We make the source code available for the 112, 000 programs, accompanied by a separate file containing the vulnerabilities detected in each program, making the dataset ideal for training LLMs and machine learning algorithms. Our study unveiled that according to ESBMC, 51.24% of the programs generated by GPT-3.5 contained vulnerabilities, thereby presenting considerable risks to software safety and security.
翻訳日:2023-09-07 04:28:15 公開日:2023-09-02
# 南フロリダにおける水ステージ予測のための深層学習モデル

Deep Learning Models for Water Stage Predictions in South Florida ( http://arxiv.org/abs/2306.15907v3 )

ライセンス: Link先を確認
Jimeng Shi, Zeda Yin, Rukmangadh Myana, Khandker Ishtiaq, Anupama John, Jayantha Obeysekera, Arturo Leon, Giri Narasimhan(参考訳) 河川システムにおける水位シミュレーションと予測は,洪水警報,水理操作,洪水軽減に不可欠である。 工学分野では、HEC-RAS、MIKE、SWMMといったツールを使用して、詳細な物理に基づく水理・水理計算モデルを構築し、流域全体をシミュレートし、システム内の任意の時点での水ステージを予測する。 しかし、これらの物理学に基づくモデルは、特に大きな流域やより長いシミュレーションのために、計算集約的である。 この問題を克服するために,我々は複数の深層学習モデル(DL)を代理モデルとして使用し,水ステージを迅速に予測する。 南フロリダのマイアミ川の下流は,本論文の事例研究として選択されている。 データセットは2010年1月1日から2020年12月31日まで、南フロリダ水管理地区(SFWMD)のDBHYDROデータベースからダウンロードされる。 大規模な実験により、DLモデルの性能は極度の降水条件(熱帯嵐)においても物理学に基づくモデルの性能に匹敵することが示された。 さらに,予測長の増加に伴うDLモデルの予測精度の低下について検討した。 今後の水ステージを予測するため,我々のDLモデルでは,近年の河川系の測定変数と,近い将来に確実に予測できる共変量を用いている。 要約すると、ディープラーニングモデルは、物理ベースのモデルと比較して、少なくとも1000倍のスピードアップで、同等またはより良いエラー率を達成する。

Simulating and predicting water levels in river systems is essential for flood warnings, hydraulic operations, and flood mitigations. In the engineering field, tools such as HEC-RAS, MIKE, and SWMM are used to build detailed physics-based hydrological and hydraulic computational models to simulate the entire watershed, thereby predicting the water stage at any point in the system. However, these physics-based models are computationally intensive, especially for large watersheds and for longer simulations. To overcome this problem, we train several deep learning (DL) models for use as surrogate models to rapidly predict the water stage. The downstream stage of the Miami River in South Florida is chosen as a case study for this paper. The dataset is from January 1, 2010, to December 31, 2020, downloaded from the DBHYDRO database of the South Florida Water Management District (SFWMD). Extensive experiments show that the performance of the DL models is comparable to that of the physics-based models, even during extreme precipitation conditions (i.e., tropical storms). Furthermore, we study the decline in prediction accuracy of the DL models with an increase in prediction lengths. In order to predict the water stage in the future, our DL models use measured variables of the river system from the recent past as well as covariates that can be reliably predicted in the near future. In summary, the deep learning models achieve comparable or better error rates with at least 1000x speedup in comparison to the physics-based models.
翻訳日:2023-09-07 04:26:05 公開日:2023-09-02
# ACTI at EVALITA 2023: Overview of the Conspiracy Theory Identification Task

ACTI at EVALITA 2023: Overview of the Conspiracy Theory Identification Task ( http://arxiv.org/abs/2307.06954v3 )

ライセンス: Link先を確認
Giuseppe Russo, Niklas Stoehr, Manoel Horta Ribeiro(参考訳) 共謀理論の証明タスクは、エヴァリタ2023で初めて提案された新しい共有タスクである。 actiチャレンジはtelegramの共謀チャンネルで公開されているコメントのみに基づいており、以下の2つのサブタスクに分割されている。 (i)共謀内容分類:共謀内容の同定及び (ii)特定の共謀理論の分類に関する共謀圏分類。 合計15チームがタスクに参加し、合計81回の応募を行った。 提案手法は,大規模言語モデルの利用に基づくものである。 最後に、オンラインプラットフォームにおける誤情報の拡散防止にこれらのモデルの活用について結論を出す。

Conspiracy Theory Identication task is a new shared task proposed for the first time at the Evalita 2023. The ACTI challenge, based exclusively on comments published on conspiratorial channels of telegram, is divided into two subtasks: (i) Conspiratorial Content Classification: identifying conspiratorial content and (ii) Conspiratorial Category Classification about specific conspiracy theory classification. A total of fifteen teams participated in the task for a total of 81 submissions. We illustrate the best performing approaches were based on the utilization of large language models. We finally draw conclusions about the utilization of these models for counteracting the spreading of misinformation in online platforms.
翻訳日:2023-09-07 04:20:01 公開日:2023-09-02
# 拡散モデルを用いた局所制御によるカラーパレットの適用

Applying a Color Palette with Local Control using Diffusion Models ( http://arxiv.org/abs/2307.02698v3 )

ライセンス: Link先を確認
Vaibhav Vavilala and David Forsyth(参考訳) ファンタジーアートの文脈における2つの新しい編集手順を実証する。 パレット転送は、指定された参照パレットを所定の画像に適用する。 ファンタジーアートでは、パレットの望ましい変化が非常に大きくなり、芸術の『展望』に大きな変化をもたらす。 ベクトル量子化のパイプライン,マッチング,および ''dequantization'' (拡散モデルを用いて) が極端なパレット転送を成功させることを示す。 新たなトレーニング損失は、グラウンド真理目標が利用できない場合でも、制御中の色分布と生成された画像との一致を測定する。 これにより性能が向上する。 セグメント制御により、アーティストは1つ以上の画像セグメントを移動でき、任意に結果の色を指定することができる。 これら2種類の編集の組み合わせは、貴重なワークフローをもたらす。 我々は,Yu-Gi-Ohカードアートデータセットに挑戦する手法を実証する。

We demonstrate two novel editing procedures in the context of fantasy art. Palette transfer applies a specified reference palette to a given image. For fantasy art, the desired change in palette can be very large, leading to huge changes in the ``look'' of the art. We show that a pipeline of vector quantization; matching; and ``dequantization'' (using a diffusion model) produces successful extreme palette transfers. A novel training loss measures the match between color distribution in control and generated images even when a ground truth target is not available. This measurably improves performance. Segment control allows an artist to move one or more image segments, and to optionally specify the desired color of the result. The combination of these two types of edit yields valuable workflows. We demonstrate our methods on the challenging Yu-Gi-Oh card art dataset.
翻訳日:2023-09-07 04:14:07 公開日:2023-09-02
# autoalign: 大規模言語モデルによる完全自動的かつ効果的な知識グラフアライメント

AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Language Models ( http://arxiv.org/abs/2307.11772v2 )

ライセンス: Link先を確認
Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng, Jianzhong Qi(参考訳) 知識グラフ(KG)間のエンティティアライメントのタスクは、同じエンティティを表す2つの異なるKGからすべてのエンティティを識別することを目的としている。 多くの機械学習に基づく手法が提案されている。 しかし、私たちの知る限りでは、既存の手法はすべて手作りのシードアライメントを必要とします。 本稿では,手作業によるシードアライメントを必要としないAutoAlignという,最初の完全自動アライメント手法を提案する。 具体的には、述語埋め込みのために、AutoAlignは2つのKGにわたる述語間の類似性を自動キャプチャするために、大きな言語モデルの助けを借りて述語-近性グラフを構築する。 エンティティ埋め込みでは、autoalignはまずtranseを使って各 kg のエンティティ埋め込みを独立に計算し、2つの kg のエンティティ埋め込みをその属性に基づいてエンティティ間の類似性を計算することによって同じベクトル空間にシフトする。 これにより、手動でシードアライメントを作成することなく、述語アライメントとエンティティアライメントの両方を行うことができる。 AutoAlignは完全に自動化されているだけでなく、非常に効果的だ。 実世界のkgsを用いた実験により、オートアランシングは最先端の手法に比べてエンティティアライメントの性能が大幅に向上することが示された。

The task of entity alignment between knowledge graphs (KGs) aims to identify every pair of entities from two different KGs that represent the same entity. Many machine learning-based methods have been proposed for this task. However, to our best knowledge, existing methods all require manually crafted seed alignments, which are expensive to obtain. In this paper, we propose the first fully automatic alignment method named AutoAlign, which does not require any manually crafted seed alignments. Specifically, for predicate embeddings, AutoAlign constructs a predicate-proximity-graph with the help of large language models to automatically capture the similarity between predicates across two KGs. For entity embeddings, AutoAlign first computes the entity embeddings of each KG independently using TransE, and then shifts the two KGs' entity embeddings into the same vector space by computing the similarity between entities based on their attributes. Thus, both predicate alignment and entity alignment can be done without manually crafted seed alignments. AutoAlign is not only fully automatic, but also highly effective. Experiments using real-world KGs show that AutoAlign improves the performance of entity alignment significantly compared to state-of-the-art methods.
翻訳日:2023-09-07 04:07:58 公開日:2023-09-02
# 1ステップサイズしか持たない新しい勾配TDアルゴリズム:$L$-$\lambda$Smoothnessを用いた収束速度解析

A new Gradient TD Algorithm with only One Step-size: Convergence Rate Analysis using $L$-$\lambda$ Smoothness ( http://arxiv.org/abs/2307.15892v2 )

ライセンス: Link先を確認
Hengshuai Yao(参考訳) gtd(gradient temporal difference)アルゴリズム(sutton et al., 2008, 2009)は、線形関数近似によるオフポリシー学習のための収束保証を持つ最初の$o(d)$(d$ is the number features)アルゴリズムである。 Liu et al. (2015) and Dalal et. al. (2018) は、GTD, GTD2 および TDC の収束率は、ある$\alpha \in (0,1)$に対して$O(t^{-\alpha/2})$であることを示した。 この境界はタイト(dalal et al., 2020)であり、$o(1/\sqrt{t})$よりも遅い。 GTDアルゴリズムには2つのステップサイズパラメータがあり、チューニングが難しい。 文献では、gtdの「シングルタイムスケール」な定式化がある。 しかし、この定式化はまだ2つのステップサイズパラメータを持つ。 本稿では,期待されたtd更新(NEU)目標のノルムを最小化するための,真に単一時間スケールのGTDアルゴリズムを提案する。 我々は、Impression GTDと呼ばれる新しいアルゴリズムが少なくとも$O(1/t)$の速さで収束していることを証明する。 さらに、期待される滑らかさの一般化(Gower et al. 2019)により、$L$-$\lambda$ smoothness と呼ばれる新しい GTD が線型速度でさらに速く収束することを証明することができる。 私たちのレートは、より弱い仮定の下でより厳密な境界で、Gowerらの結果も改善します。 印象 gtd の他に,yao と liu (2008) による他の 3 つの gtd アルゴリズム,a-transpose-td (sutton et al., 2008) と呼ばれるアルゴリズム,および a-transpose-td の対数も証明した。 4つのGTDアルゴリズムの収束速度は、1つのGTDフレームワークで証明され、そこでは$L$-$\lambda$滑らかさが適用される。 Random walk, Boyan chain, and Baird counterexample の実証結果は、Impression GTD が既存の GTD アルゴリズムよりもはるかに早く、オン・ポリティクスとオフ・ポリティクスの両方の学習問題に収束し、大きな範囲で優れたステップサイズを達成していることを示している。

Gradient Temporal Difference (GTD) algorithms (Sutton et al., 2008, 2009) are the first $O(d)$ ($d$ is the number features) algorithms that have convergence guarantees for off-policy learning with linear function approximation. Liu et al. (2015) and Dalal et. al. (2018) proved the convergence rates of GTD, GTD2 and TDC are $O(t^{-\alpha/2})$ for some $\alpha \in (0,1)$. This bound is tight (Dalal et al., 2020), and slower than $O(1/\sqrt{t})$. GTD algorithms also have two step-size parameters, which are difficult to tune. In literature, there is a "single-time-scale" formulation of GTD. However, this formulation still has two step-size parameters. This paper presents a truly single-time-scale GTD algorithm for minimizing the Norm of Expected td Update (NEU) objective, and it has only one step-size parameter. We prove that the new algorithm, called Impression GTD, converges at least as fast as $O(1/t)$. Furthermore, based on a generalization of the expected smoothness (Gower et al. 2019), called $L$-$\lambda$ smoothness, we are able to prove that the new GTD converges even faster, in fact, with a linear rate. Our rate actually also improves Gower et al.'s result with a tighter bound under a weaker assumption. Besides Impression GTD, we also prove the rates of three other GTD algorithms, one by Yao and Liu (2008), another called A-transpose-TD (Sutton et al., 2008), and a counterpart of A-transpose-TD. The convergence rates of all the four GTD algorithms are proved in a single generic GTD framework to which $L$-$\lambda$ smoothness applies. Empirical results on Random walks, Boyan chain, and Baird counterexample show that Impression GTD converges much faster than existing GTD algorithms for both on-policy and off-policy learning problems, with well-performing step-sizes in a big range.
翻訳日:2023-09-07 03:55:18 公開日:2023-09-02
# Floss を用いた周期時系列表現学習の強化:周波数領域正規化アプローチ

Enhancing Representation Learning for Periodic Time Series with Floss: A Frequency Domain Regularization Approach ( http://arxiv.org/abs/2308.01011v4 )

ライセンス: Link先を確認
Chunwei Yang, Xiaoxu Chen, Lijun Sun, Hongyu Yang, Yuankai Wu(参考訳) 時系列解析は様々なアプリケーション領域において基本的な課題であり、深層学習アプローチはこの分野において顕著な性能を示している。 しかし、多くの実世界の時系列データは、既存のディープラーニングベースのソリューションによって適切に捉えられていない重要な周期的または準周期的ダイナミクスを示す。 この結果、関心のある動的振る舞いの完全な表現が得られなくなる。 このギャップに対処するために,周波数領域における学習表現を自動的に規則化するflossと呼ばれる教師なし手法を提案する。 Floss法はまず時系列から主要な周期を自動的に検出する。 その後、周期的シフトとスペクトル密度類似性尺度を用いて、周期的一貫性を持つ有意義な表現を学習する。 さらに、flossは教師なし、半教師なし、教師なしの学習フレームワークの両方に簡単に組み込むことができる。 フロスの有効性を実証するために,時系列分類,予測,異常検出に関する広範囲な実験を行った。 我々はFlossをいくつかの代表的なディープラーニングソリューションに組み込んで、設計選択を正当化し、周期的ダイナミクスを自動的に発見し、最先端のディープラーニングモデルを改善することができることを示す。

Time series analysis is a fundamental task in various application domains, and deep learning approaches have demonstrated remarkable performance in this area. However, many real-world time series data exhibit significant periodic or quasi-periodic dynamics that are often not adequately captured by existing deep learning-based solutions. This results in an incomplete representation of the underlying dynamic behaviors of interest. To address this gap, we propose an unsupervised method called Floss that automatically regularizes learned representations in the frequency domain. The Floss method first automatically detects major periodicities from the time series. It then employs periodic shift and spectral density similarity measures to learn meaningful representations with periodic consistency. In addition, Floss can be easily incorporated into both supervised, semi-supervised, and unsupervised learning frameworks. We conduct extensive experiments on common time series classification, forecasting, and anomaly detection tasks to demonstrate the effectiveness of Floss. We incorporate Floss into several representative deep learning solutions to justify our design choices and demonstrate that it is capable of automatically discovering periodic dynamics and improving state-of-the-art deep learning models.
翻訳日:2023-09-07 03:45:01 公開日:2023-09-02
# DealMVC:マルチビュークラスタリングのためのデュアルコントラスト校正

DealMVC: Dual Contrastive Calibration for Multi-view Clustering ( http://arxiv.org/abs/2308.09000v2 )

ライセンス: Link先を確認
Xihong Yang, Jiaqi Jin, Siwei Wang, Ke Liang, Yue Liu, Yi Wen, Suyuan Liu, Sihang Zhou, Xinwang Liu, En Zhu(参考訳) 強い視点と一貫性のある情報マイニング能力により、マルチビューコントラストクラスタリングは近年多くの注目を集めている。 しかし,クラスタ化性能のさらなる向上を阻害する,以下の欠点を考察する。 既存のマルチビューモデルは、クロスビューシナリオにおける類似しているが異なるサンプルの状況を無視しながら、異なるビューにおける同じサンプルの一貫性に重点を置いている。 そこで本研究では,マルチビュークラスタリング(DealMVC)のための新しいDualコントラストキャリブレーションネットワークを提案する。 具体的には,まずグローバルクロスビュー機能を得るために融合機構を設計する。 次に、ビュー特徴類似度グラフと高信頼擬似ラベルグラフとを整合させることにより、グローバルコントラスト校正損失を提案する。 さらに,多視点情報の多様性を生かして,一対的視点の特徴の一貫性を制約した局所的なコントラストキャリブレーション損失を提案する。 機能構造は信頼できるクラス情報によって規則化されるため、類似したサンプルが異なるビューで類似した機能を持つことが保証される。 トレーニング手順の間、対話型クロスビュー機能は、ローカルレベルとグローバルレベルの両方で共同最適化される。 他の最先端手法と比較して、8つのベンチマークデータセットから得られた総合的な実験結果は、我々のアルゴリズムの有効性と優越性をかなり検証する。 DealMVCのコードはGitHubでhttps://github.com/xihongyang 1999/DealMVCで公開しています。

Benefiting from the strong view-consistent information mining capacity, multi-view contrastive clustering has attracted plenty of attention in recent years. However, we observe the following drawback, which limits the clustering performance from further improvement. The existing multi-view models mainly focus on the consistency of the same samples in different views while ignoring the circumstance of similar but different samples in cross-view scenarios. To solve this problem, we propose a novel Dual contrastive calibration network for Multi-View Clustering (DealMVC). Specifically, we first design a fusion mechanism to obtain a global cross-view feature. Then, a global contrastive calibration loss is proposed by aligning the view feature similarity graph and the high-confidence pseudo-label graph. Moreover, to utilize the diversity of multi-view information, we propose a local contrastive calibration loss to constrain the consistency of pair-wise view features. The feature structure is regularized by reliable class information, thus guaranteeing similar samples have similar features in different views. During the training procedure, the interacted cross-view feature is jointly optimized at both local and global levels. In comparison with other state-of-the-art approaches, the comprehensive experimental results obtained from eight benchmark datasets provide substantial validation of the effectiveness and superiority of our algorithm. We release the code of DealMVC at https://github.com/xihongyang1999/DealMVC on GitHub.
翻訳日:2023-09-07 03:28:22 公開日:2023-09-02
# CONVERT:信頼性向上によるコントラストグラフクラスタリング

CONVERT:Contrastive Graph Clustering with Reliable Augmentation ( http://arxiv.org/abs/2308.08963v2 )

ライセンス: Link先を確認
Xihong Yang, Cheng Tan, Yue Liu, Ke Liang, Siwei Wang, Sihang Zhou, Jun Xia, Stan Z. Li, Xinwang Liu, En Zhu(参考訳) 学習可能なデータ拡張によるグラフノードクラスタリングは、教師なしグラフ学習の分野でホットな研究ポイントである。 既存の手法では,事前定義された拡張のサンプリング分布を学習し,データ駆動拡張を自動的に生成する。 有望なクラスタリング性能は達成されているが、これらの戦略は依然として事前定義された拡張に依存しており、グラフのセマンティクスは容易にドリフトできる。 コントラスト学習のための拡張ビューセマンティクスの信頼性は保証できないため、モデルの性能は制限される。 このような問題に対処するために,信頼オーグメンテイション(COVERT)を用いたContrastiVe Graph ClustEringネットワークを提案する。 具体的には,本手法では,データ拡張を可逆的パーターブ・リカバリネットワークによって処理する。 摂動埋め込みを回復することにより、信頼性の高い意味情報を蒸留する。 さらに、セマンティクスの信頼性をさらに保証するために、摂動と回復を定量化することでネットワークを制約する新たなセマンティクス損失を提案する。 最後に、セマンティックラベルと選択された高信頼クラスタリング擬似ラベルを整列することで、情報をクラスタリングすることでモデルを導くラベルマッチング機構を設計する。 7つのデータセットに関する広範な実験結果から,提案手法の有効性が示された。 https://github.com/xihongyang 1999/CONVERT on GitHubでCONVERTのコードと付録を公開しています。

Contrastive graph node clustering via learnable data augmentation is a hot research spot in the field of unsupervised graph learning. The existing methods learn the sampling distribution of a pre-defined augmentation to generate data-driven augmentations automatically. Although promising clustering performance has been achieved, we observe that these strategies still rely on pre-defined augmentations, the semantics of the augmented graph can easily drift. The reliability of the augmented view semantics for contrastive learning can not be guaranteed, thus limiting the model performance. To address these problems, we propose a novel CONtrastiVe Graph ClustEring network with Reliable AugmenTation (COVERT). Specifically, in our method, the data augmentations are processed by the proposed reversible perturb-recover network. It distills reliable semantic information by recovering the perturbed latent embeddings. Moreover, to further guarantee the reliability of semantics, a novel semantic loss is presented to constrain the network via quantifying the perturbation and recovery. Lastly, a label-matching mechanism is designed to guide the model by clustering information through aligning the semantic labels and the selected high-confidence clustering pseudo labels. Extensive experimental results on seven datasets demonstrate the effectiveness of the proposed method. We release the code and appendix of CONVERT at https://github.com/xihongyang1999/CONVERT on GitHub.
翻訳日:2023-09-07 03:27:58 公開日:2023-09-02
# 3dスケルトンに基づく人間の運動予測に役立つ補助タスク

Auxiliary Tasks Benefit 3D Skeleton-based Human Motion Prediction ( http://arxiv.org/abs/2308.08942v2 )

ライセンス: Link先を確認
Chenxin Xu, Robby T. Tan, Yuhong Tan, Siheng Chen, Xinchao Wang, Yanfeng Wang(参考訳) 観測された動きからの空間的-時間的依存性の探索は、人間の運動予測の核となる課題の1つである。 従来の手法は主に、時間的および空間的依存関係をモデル化する専用のネットワーク構造に重点を置いている。 本稿では,補助タスクを伴うモデル学習フレームワークを導入することで,新たな方向性を考える。 補助作業では、部分体関節の座標はマスキングまたはノイズ付加によって劣化し、残りの座標に依存する劣化座標を復元することが目的である。 補助作業に取り組むために,不完全で破損した動作データを処理し,空間的-時間的依存性を捉えることで座標回復を実現する補助適応トランスを提案する。 補助作業により、補助適応トランスフォーマーは、身体の座標間のより包括的な空間的-時間的依存関係を捉えるように促進され、より優れた特徴学習に繋がる。 その結果,Human3.6M,CMU Mocap,3DPWデータセットにおける関節位置誤差(MPJPE)当たりの3D平均値の差は,それぞれ7.2%,3.7%,9.4%であった。 また,データ不足事例やノイズの多いデータケースにおいて,本手法がより堅牢であることを示す。 コードはhttps://github.com/MediaBrain-SJTU/AuxFormerで入手できる。

Exploring spatial-temporal dependencies from observed motions is one of the core challenges of human motion prediction. Previous methods mainly focus on dedicated network structures to model the spatial and temporal dependencies. This paper considers a new direction by introducing a model learning framework with auxiliary tasks. In our auxiliary tasks, partial body joints' coordinates are corrupted by either masking or adding noise and the goal is to recover corrupted coordinates depending on the rest coordinates. To work with auxiliary tasks, we propose a novel auxiliary-adapted transformer, which can handle incomplete, corrupted motion data and achieve coordinate recovery via capturing spatial-temporal dependencies. Through auxiliary tasks, the auxiliary-adapted transformer is promoted to capture more comprehensive spatial-temporal dependencies among body joints' coordinates, leading to better feature learning. Extensive experimental results have shown that our method outperforms state-of-the-art methods by remarkable margins of 7.2%, 3.7%, and 9.4% in terms of 3D mean per joint position error (MPJPE) on the Human3.6M, CMU Mocap, and 3DPW datasets, respectively. We also demonstrate that our method is more robust under data missing cases and noisy data cases. Code is available at https://github.com/MediaBrain-SJTU/AuxFormer.
翻訳日:2023-09-07 03:27:37 公開日:2023-09-02
# ECPC-IDS:超代謝領域のセグメンテーションと検出のためのベンチマーク内膜癌PET/CT画像データセット

ECPC-IDS:A benchmark endometrail cancer PET/CT image dataset for evaluation of semantic segmentation and detection of hypermetabolic regions ( http://arxiv.org/abs/2308.08313v2 )

ライセンス: Link先を確認
Dechao Tang, Tianming Du, Deguo Ma, Zhiyu Ma, Hongzan Sun, Marcin Grzegorzek, Huiyan Jiang, Chen Li(参考訳) 子宮内膜癌は女性の生殖系で最も一般的な腫瘍の1つであり、卵巣癌と子宮頸癌の後死を引き起こす3番目に一般的な婦人科悪性腫瘍である。 早期診断は5年生存率を大幅に向上させる。 人工知能の開発により、コンピュータ支援診断は診断の正確性と客観性を向上し、医師の作業量を減らす上で、ますます重要な役割を担っている。 しかし, 子宮内膜癌画像データセットの欠如は, コンピュータ支援診断技術の応用を制限している。本論文では, セマンティックセグメンテーション評価用PET/CT画像データセット(ECPC-IDS)を公表する。 具体的には、セグメンテーション部はPETおよびCT画像を含み、合計7159の画像を複数のフォーマットで表示する。 ECPC-IDSにおけるセグメンテーション手法の有効性を証明するため、画像セグメンテーションタスクをテストするために、5つの古典的なディープラーニングセグメンテーション手法を選択した。 オブジェクト検出部はまた、PETおよびCT画像を含み、合計3579の画像とアノテーション情報付きXMLファイルを含む。 本研究は、深層学習に基づくセマンティックセグメンテーションとオブジェクト検出手法を用いて、ECPC-IDSにおける様々な方法の違いを実証する広範囲な実験を行う。 われわれが知る限り、このデータセットは、多数の画像を持つ子宮内膜癌の最初の公開データセットであり、画像とターゲット検出に必要な大量の情報を含んでいる。 ecpc-idsは、研究者がコンピュータ支援技術を強化する新しいアルゴリズムを探求するのに役立つ。

Endometrial cancer is one of the most common tumors in the female reproductive system and is the third most common gynecological malignancy that causes death after ovarian and cervical cancer. Early diagnosis can significantly improve the 5-year survival rate of patients. With the development of artificial intelligence, computer-assisted diagnosis plays an increasingly important role in improving the accuracy and objectivity of diagnosis, as well as reducing the workload of doctors. However, the absence of publicly available endometrial cancer image datasets restricts the application of computer-assisted diagnostic techniques.In this paper, a publicly available Endometrial Cancer PET/CT Image Dataset for Evaluation of Semantic Segmentation and Detection of Hypermetabolic Regions (ECPC-IDS) are published. Specifically, the segmentation section includes PET and CT images, with a total of 7159 images in multiple formats. In order to prove the effectiveness of segmentation methods on ECPC-IDS, five classical deep learning semantic segmentation methods are selected to test the image segmentation task. The object detection section also includes PET and CT images, with a total of 3579 images and XML files with annotation information. Six deep learning methods are selected for experiments on the detection task.This study conduct extensive experiments using deep learning-based semantic segmentation and object detection methods to demonstrate the differences between various methods on ECPC-IDS. As far as we know, this is the first publicly available dataset of endometrial cancer with a large number of multiple images, including a large amount of information required for image and target detection. ECPC-IDS can aid researchers in exploring new algorithms to enhance computer-assisted technology, benefiting both clinical doctors and patients greatly.
翻訳日:2023-09-07 03:26:28 公開日:2023-09-02
# 分散学習のための資源適応ニュートン法

Resource-Adaptive Newton's Method for Distributed Learning ( http://arxiv.org/abs/2308.10154v3 )

ライセンス: Link先を確認
Shuzhen Chen, Yuan Yuan, Youming Tao, Zhipeng Cai and Dongxiao Yu(参考訳) ニュートン法に基づく分散確率最適化法は、曲率情報を利用して性能を向上させることで一階法よりも大きな利点をもたらす。 しかし, ニュートン法の適用性は, ヘッセン行列に付随する高い計算と通信コスト, サブモデル多様性, トレーニングにおける安定性, データの異質性といった課題により, 大規模かつ異質な学習環境において阻害される。 これらの課題に対処するために,簡単なヘッセン初期化と訓練領域の適応的割り当てを用いて,ニュートンの手法の限界を克服するRANLというアルゴリズムを提案する。 このアルゴリズムは、確率最適化の標準的な仮定の下で厳密に解析される印象的な収束特性を示す。 この理論解析は、RANLが利用可能な資源に効果的に適応し、高い効率を維持しながら線形収束率を達成することを証明している。 従来の一階法とは異なり、ranlは問題の条件数から顕著な独立性を示し、複雑なパラメータチューニングの必要性をなくす。 これらの利点により、ranlは実用的なシナリオにおいて分散確率最適化に有望なアプローチとなる。

Distributed stochastic optimization methods based on Newton's method offer significant advantages over first-order methods by leveraging curvature information for improved performance. However, the practical applicability of Newton's method is hindered in large-scale and heterogeneous learning environments due to challenges such as high computation and communication costs associated with the Hessian matrix, sub-model diversity, staleness in training, and data heterogeneity. To address these challenges, this paper introduces a novel and efficient algorithm called RANL, which overcomes the limitations of Newton's method by employing a simple Hessian initialization and adaptive assignments of training regions. The algorithm demonstrates impressive convergence properties, which are rigorously analyzed under standard assumptions in stochastic optimization. The theoretical analysis establishes that RANL achieves a linear convergence rate while effectively adapting to available resources and maintaining high efficiency. Unlike traditional first-order methods, RANL exhibits remarkable independence from the condition number of the problem and eliminates the need for complex parameter tuning. These advantages make RANL a promising approach for distributed stochastic optimization in practical scenarios.
翻訳日:2023-09-07 03:16:12 公開日:2023-09-02
# $\mathcal{pt}$-symmetricシステムにおけるトンネル時間とfaraday/kerr効果

Tunneling time and Faraday/Kerr effects in $\mathcal{PT}$-symmetric systems ( http://arxiv.org/abs/2308.09901v2 )

ライセンス: Link先を確認
Vladimir Gasparian, Peng Guo, Antonio P\'erez-Garrido, and Esther J\'odar(参考訳) 本稿では,faraday と kerr の回転角がパリティと時間 (\mathcal{p}\mathcal{t}$)-対称系におけるトンネル時間の一般化と異常挙動について検討する。 2つの現象の類似性について議論し、どちらも特定のモデルパラメータで相転移のような異常な振る舞いを示す。 $\mathcal{p}\mathcal{t}$-symmetric 系におけるトンネル時間とファラデー/カー角の異常な挙動は、エネルギー/周波数複素平面における散乱振幅の極の運動によって引き起こされる。

We review the generalization of tunneling time and anomalous behaviour of Faraday and Kerr rotation angles in parity and time ($\mathcal{P}\mathcal{T}$)-symmetric systems. Similarities of two phenomena are discussed, both exhibit a phase transition-like anomalous behaviour in certain range of model parameters. Anomalous behaviour of tunneling time and Faraday/Kerr angles in $\mathcal{P}\mathcal{T}$-symmetric systems is caused by the motion of poles of scattering amplitudes in energy/frequency complex plane.
翻訳日:2023-09-07 03:15:37 公開日:2023-09-02
# bairdの反例が解決された:2回スケールのアルゴリズムをデバッグする方法の例

Baird Counterexample is Solved: with an example of How to Debug a Two-time-scale Algorithm ( http://arxiv.org/abs/2308.09732v2 )

ライセンス: Link先を確認
Hengshuai Yao(参考訳) Baird反例は1995年にLeemon Bairdによって提案され、この例で時間差分(TD(0))アルゴリズムが分岐することを示すために最初に使われた。 それ以来、政治以外の学習アルゴリズムのテストや比較にしばしば使用される。 勾配TDアルゴリズムは、Baird反例におけるTDの分散問題を解いた。 しかし、この例におけるそれらの収束は依然として非常に遅く、例えば Sutton と Barto 2018 など、遅くなる性質はよく理解されていない。 特に、この例ではなぜTDCが遅いのかを理解し、この振る舞いを理解するためのデバッグ分析を提供する。 このデバッギング技術は,2時間スケール確率近似アルゴリズムの収束挙動の研究に利用できる。 この例では,最近の印象gtdアルゴリズムの実験結果も提供し,収束が非常に高速であることを示した。 Baird反例は、一般にTD解に対する収束保証と高速収束率のアルゴリズムによって解決されると結論付けている。

Baird counterexample was proposed by Leemon Baird in 1995, first used to show that the Temporal Difference (TD(0)) algorithm diverges on this example. Since then, it is often used to test and compare off-policy learning algorithms. Gradient TD algorithms solved the divergence issue of TD on Baird counterexample. However, their convergence on this example is still very slow, and the nature of the slowness is not well understood, e.g., see (Sutton and Barto 2018). This note is to understand in particular, why TDC is slow on this example, and provide a debugging analysis to understand this behavior. Our debugging technique can be used to study the convergence behavior of two-time-scale stochastic approximation algorithms. We also provide empirical results of the recent Impression GTD algorithm on this example, showing the convergence is very fast, in fact, in a linear rate. We conclude that Baird counterexample is solved, by an algorithm with the convergence guarantee to the TD solution in general, and a fast convergence rate.
翻訳日:2023-09-07 03:14:44 公開日:2023-09-02
# UniDoc: テキストの同時検出、認識、スポッティング、理解のための大規模マルチモーダルモデル

UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding ( http://arxiv.org/abs/2308.11592v2 )

ライセンス: Link先を確認
Hao Feng, Zijian Wang, Jingqun Tang, Jinghui Lu, Wengang Zhou, Houqiang Li, Can Huang(参考訳) 大規模言語モデル(llm)の時代には、マルチモーダル理解の分野で大きな進歩があった。 しかし、既存の高度なアルゴリズムは、これらの大規模事前学習モデルに固有の膨大な表現能力と豊かな世界知識を効果的に活用することに限定されており、テキストリッチシナリオのコンテキストにおけるタスク間の有益な関係は十分に解明されていない。 本稿では,既存の手法に欠けるテキスト検出と認識機能を備えた,新しいマルチモーダルモデルunidocを提案する。 さらに、UniDocは各タスクのパフォーマンスを向上させるために、タスク間の有益なインタラクションに便乗する。 UniDocを実装するために,提案する大規模インストラクションに基づくマルチモーダルインストラクションチューニングを行う。 定量的および定性的な実験結果は、UniDocが複数の挑戦的なベンチマークで最先端のスコアを設定することを示している。 私たちの知る限りでは、これはテキスト検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルです。

In the era of Large Language Models (LLMs), tremendous strides have been made in the field of multimodal understanding. However, existing advanced algorithms are limited to effectively utilizing the immense representation capabilities and rich world knowledge inherent to these large pre-trained models, and the beneficial connections among tasks within the context of text-rich scenarios have not been sufficiently explored. In this work, we introduce UniDoc, a novel multimodal model equipped with text detection and recognition capabilities, which are deficient in existing approaches. Moreover, UniDoc capitalizes on the beneficial interactions among tasks to enhance the performance of each individual task. To implement UniDoc, we perform unified multimodal instruct tuning on the contributed large-scale instruction following datasets. Quantitative and qualitative experimental results show that UniDoc sets state-of-the-art scores across multiple challenging benchmarks. To the best of our knowledge, this is the first large multimodal model capable of simultaneous text detection, recognition, spotting, and understanding.
翻訳日:2023-09-07 03:06:36 公開日:2023-09-02
# 深層強化学習によるコミュニティ間エネルギー相互作用最適スケジューリング

Deep Reinforcement Learning-driven Cross-Community Energy Interaction Optimal Scheduling ( http://arxiv.org/abs/2308.12554v2 )

ライセンス: Link先を確認
Yang Li, Wenjie Ma, Fanjin Bu, Zhen Yang, Bin Wang, Meng Han(参考訳) In order to coordinate energy interactions among various communities and energy conversions among multi-energy subsystems within the multi-community integrated energy system under uncertain conditions, and achieve overall optimization and scheduling of the comprehensive energy system, this paper proposes a comprehensive scheduling model that utilizes a multi-agent deep reinforcement learning algorithm to learn load characteristics of different communities and make decisions based on this knowledge. このモデルでは、統合エネルギーシステムのスケジューリング問題をマルコフ決定プロセスに変換し、マルチコミュニティとマルチエネルギーサブシステムの間の複雑なエネルギー結合関係をモデル化する必要のないデータ駆動型深部強化学習アルゴリズムを用いて解決する。 シミュレーションの結果, 提案手法は, 異なるコミュニティの負荷特性を効果的に把握し, 相補的特徴を利用して適切なエネルギー相互作用を調整できることが示唆された。 これにより風速は16.3%から0%に低下し、全体の運転コストは5445.6元に低下し、経済と環境面で大きな利益をもたらした。

In order to coordinate energy interactions among various communities and energy conversions among multi-energy subsystems within the multi-community integrated energy system under uncertain conditions, and achieve overall optimization and scheduling of the comprehensive energy system, this paper proposes a comprehensive scheduling model that utilizes a multi-agent deep reinforcement learning algorithm to learn load characteristics of different communities and make decisions based on this knowledge. In this model, the scheduling problem of the integrated energy system is transformed into a Markov decision process and solved using a data-driven deep reinforcement learning algorithm, which avoids the need for modeling complex energy coupling relationships between multi-communities and multi-energy subsystems. The simulation results show that the proposed method effectively captures the load characteristics of different communities and utilizes their complementary features to coordinate reasonable energy interactions among them. This leads to a reduction in wind curtailment rate from 16.3% to 0% and lowers the overall operating cost by 5445.6 Yuan, demonstrating significant economic and environmental benefits.
翻訳日:2023-09-07 02:56:43 公開日:2023-09-02
# U-SEANNet:鼻内視鏡画像における鼻疾患診断のための簡便で効率的なU字型ネットワーク

U-SEANNet: A Simple, Efficient and Applied U-Shaped Network for Diagnosis of Nasal Diseases on Nasal Endoscopic Images ( http://arxiv.org/abs/2308.14081v2 )

ライセンス: Link先を確認
Yubiao Yue, Jun Xue, Chao Wang, Haihua Liang, Zhenzhang Li(参考訳) 多くの研究が、深層学習モデルが内視鏡画像の病変の早期診断を容易にすることを裏付けている。 しかし、利用可能なデータセットの欠如は鼻腔内視鏡の研究の進歩を阻害し、既存のモデルはモデル診断のパフォーマンス、モデルの複雑さ、パラメータサイズの間の良好なトレードオフに至らず、実際の用途には適さない。 このギャップを埋めるために、私たちは最初の大規模な鼻内視鏡データセットである7-NasalEIDを作成しました。 その後,U字型アーキテクチャであるU-SEANNetを提案する。 さらに、入力画像のニュアンスの不一致を検出する能力を高めるため、u-seannetはglobal-local channel feature fusionモジュールを使用して、グローバルとローカルの両方のコンテキストからsalient channel機能を利用することができる。 U-SEANNetの可能性を示すために、U-SEANNetを5倍のクロスバリデーションにより17のモダンアーキテクチャと比較した。 実験結果から,U-SEANNetの補正精度は93.58%であった。 特に、U-SEANNet のパラメータサイズと GFLOP はそれぞれ 0.78M と 0.21 である。 U-SEANNetは内視鏡画像における鼻疾患診断の最先端モデルであると考えられた。

Numerous studies have affirmed that deep learning models can facilitate early diagnosis of lesions in endoscopic images. However, the lack of available datasets stymies advancements in research on nasal endoscopy, and existing models fail to strike a good trade-off between model diagnosis performance, model complexity and parameters size, rendering them unsuitable for real-world application. To bridge these gaps, we created the first large-scale nasal endoscopy dataset, named 7-NasalEID, comprising 11,352 images that contain six common nasal diseases and normal samples. Subsequently, we proposed U-SEANNet, an innovative U-shaped architecture, underpinned by depth-wise separable convolution. Moreover, to enhance its capacity for detecting nuanced discrepancies in input images, U-SEANNet employs the Global-Local Channel Feature Fusion module, enabling it to utilize salient channel features from both global and local contexts. To demonstrate U-SEANNet's potential, we benchmarked U-SEANNet against seventeen modern architectures through five-fold cross-validation. The experimental results show that U-SEANNet achieves a commendable accuracy of 93.58%. Notably, U-SEANNet's parameters size and GFLOPs are only 0.78M and 0.21, respectively. Our findings suggest U-SEANNet is the state-of-the-art model for nasal diseases diagnosis in endoscopic images.
翻訳日:2023-09-07 02:47:28 公開日:2023-09-02
# NISQ時代の量子状態の電力関数計算のためのスケーラブルアルゴリズム

Scalable Algorithms for Power Function Calculations of quantum states in NISQ Era ( http://arxiv.org/abs/2308.14675v2 )

ライセンス: Link先を確認
Wencheng Zhao, Tingting Chen, Ruyu Yang(参考訳) 量子コンピューティングは科学の先駆者であり、重ね合わせや絡み合いといった量子力学現象の活用に焦点を当てている。 その目標は、古典的なコンピュータの能力を超えた複雑な問題に対処する革新的な計算モデルを作ることである。 雑音中間スケール量子(NISQ)時代には、密度行列上の非線形関数計算のためのアルゴリズムの開発が最も重要である。 このプロジェクトでは、混合量子状態のパワー関数を計算するスケーラブルなアルゴリズムを設計する。 本研究では,Adamard Test と Gate Set Tomography の2つのアルゴリズムを紹介する。 さらに, ゲートセット・トモグラフィーによる誤差の綿密な評価を伴って, 計算結果の比較を行う。

Quantum computing stands at the vanguard of science, focused on exploiting quantum mechanical phenomena like superposition and entanglement. Its goal is to create innovative computational models that address intricate problems beyond classical computers' capabilities. In the Noisy Intermediate-Scale Quantum (NISQ) era, developing algorithms for nonlinear function calculations on density matrices is of paramount importance. This project endeavors to design scalable algorithms for calculating power functions of mixed quantum states. This study introduces two algorithms based on the Hadamard Test and Gate Set Tomography. Additionally, a comparison of their computational outcomes is offered, accompanied by a meticulous assessment of errors inherent in the Gate Set Tomography based approach
翻訳日:2023-09-07 02:34:32 公開日:2023-09-02
# 効率的な画像認識のためのレイテンシアウェア統一動的ネットワーク

Latency-aware Unified Dynamic Networks for Efficient Image Recognition ( http://arxiv.org/abs/2308.15949v2 )

ライセンス: Link先を確認
Yizeng Han, Zeyu Liu, Zhihang Yuan, Yifan Pu, Chaofei Wang, Shiji Song, Gao Huang(参考訳) 動的計算は深層ネットワークの推論効率を高めるための有望な道として登場した。 計算ユニットの選択的活性化を可能にし、各入力サンプルに対する不要な計算の削減につながる。 しかし、これらの動的モデルの実際の効率は理論的予測から逸脱することができる。 このミスマッチは: 1) 断片化研究による統一的アプローチの欠如 2) 重要なスケジューリング戦略,特にCUDA対応GPUコンテキストにおけるアルゴリズム設計に焦点を当てる。 3) ほとんどのライブラリが静的操作に対応しているため,実用的レイテンシを測定する上での課題がある。 これらの問題に対処するために,我々は,3つの主要な動的パラダイム(分散適応計算,動的層スキップ,動的チャネルスキップ)を統合するフレームワークであるlaudnet( latency-aware unified dynamic networks)を発表した。 理論的および実用的な効率ギャップを埋めるため、LAUDNetはアルゴリズム設計とスケジューリング最適化をマージし、動的演算子の遅延を正確に測定する遅延予測器によって導かれる。 LAUDNetを複数のビジョンタスクでテストし、V100やRTX3090、TX2 GPUといったプラットフォーム上で、ResNet-101のようなモデルの遅延を50%以上削減する能力を示しています。 特に、LAUDNetは精度と効率のバランスで際立っている。 コードは、https://www.github.com/LeapLabTHU/LAUDNetで入手できる。

Dynamic computation has emerged as a promising avenue to enhance the inference efficiency of deep networks. It allows selective activation of computational units, leading to a reduction in unnecessary computations for each input sample. However, the actual efficiency of these dynamic models can deviate from theoretical predictions. This mismatch arises from: 1) the lack of a unified approach due to fragmented research; 2) the focus on algorithm design over critical scheduling strategies, especially in CUDA-enabled GPU contexts; and 3) challenges in measuring practical latency, given that most libraries cater to static operations. Addressing these issues, we unveil the Latency-Aware Unified Dynamic Networks (LAUDNet), a framework that integrates three primary dynamic paradigms-spatially adaptive computation, dynamic layer skipping, and dynamic channel skipping. To bridge the theoretical and practical efficiency gap, LAUDNet merges algorithmic design with scheduling optimization, guided by a latency predictor that accurately gauges dynamic operator latency. We've tested LAUDNet across multiple vision tasks, demonstrating its capacity to notably reduce the latency of models like ResNet-101 by over 50% on platforms such as V100, RTX3090, and TX2 GPUs. Notably, LAUDNet stands out in balancing accuracy and efficiency. Code is available at: https://www.github.com/LeapLabTHU/LAUDNet.
翻訳日:2023-09-07 02:28:54 公開日:2023-09-02
# 心エコー図解釈のためのマルチモーダル基礎モデル

Multimodal Foundation Models For Echocardiogram Interpretation ( http://arxiv.org/abs/2308.15670v2 )

ライセンス: Link先を確認
Matthew Christensen, Milos Vukadinovic, Neal Yuan, David Ouyang(参考訳) マルチモーダルディープラーニング基盤モデルは、画像とテキストの関係を学習することができる。 医療画像の文脈では、画像の言語概念へのマッピングは、診断画像解釈の臨床的タスクを反映するが、現在の汎用基盤モデルは、医療用テキストや画像に制限があるため、この文脈ではうまく機能しない。 この課題に対処し, 心臓生理学の範囲を考慮し, 1,032,975 の心エコービデオとそれに対応する専門的解釈を用いて, 心エコー図用マルチモーダル基礎モデル echoclip を開発した。 EchoCLIPは、心臓機能評価(外的検証左室排出率平均絶対誤差(MAE)7.1%)と移植心内デバイス(ペースメーカーと人工心臓弁の0.84から0.98の曲線下)の同定において、強いゼロショット(明示的に訓練されていない)性能を示す。 また,複数のビデオ(auc 0.86)にまたがる特異な患者を正確に識別し,心臓移植(auc 0.79)や心臓手術(auc 0.77)などの臨床変化を識別し,堅牢な画像対テキスト検索(候補テキストレポートのトップ1%のクロスモーダル検索ランク)を可能にする,独自の心エコー検査レポートテキストトークン化装置(echoclip-r)を開発した。 これらの創発的能力は、心エコー図所見の予備的評価と要約に使用できる。

Multimodal deep learning foundation models can learn the relationship between images and text. In the context of medical imaging, mapping images to language concepts reflects the clinical task of diagnostic image interpretation, however current general-purpose foundation models do not perform well in this context because their training corpus have limited medical text and images. To address this challenge and account for the range of cardiac physiology, we leverage 1,032,975 cardiac ultrasound videos and corresponding expert interpretations to develop EchoCLIP, a multimodal foundation model for echocardiography. EchoCLIP displays strong zero-shot (not explicitly trained) performance in cardiac function assessment (external validation left ventricular ejection fraction mean absolute error (MAE) of 7.1%) and identification of implanted intracardiac devices (areas under the curve (AUC) between 0.84 and 0.98 for pacemakers and artificial heart valves). We also developed a long-context variant (EchoCLIP-R) with a custom echocardiography report text tokenizer which can accurately identify unique patients across multiple videos (AUC of 0.86), identify clinical changes such as orthotopic heart transplants (AUC of 0.79) or cardiac surgery (AUC 0.77), and enable robust image-to-text search (mean cross-modal retrieval rank in the top 1% of candidate text reports). These emergent capabilities can be used for preliminary assessment and summarization of echocardiographic findings.
翻訳日:2023-09-07 02:26:53 公開日:2023-09-02
# グラフ埋め込みにおける局所構造とグローバル構造(LGS)のバランス

Balancing between the Local and Global Structures (LGS) in Graph Embedding ( http://arxiv.org/abs/2308.16403v2 )

ライセンス: Link先を確認
Jacob Miller and Vahan Huroyan and Stephen Kobourov(参考訳) 本稿では,可変パラメータを用いて,グラフ埋め込みにおける局所構造と大域構造(lgs)のバランスをとる手法を提案する。 埋め込む方法は、グローバルな構造を捉えようとするものもあれば、地域の保存を目指すものもある。 両方を行おうとする手法はほとんどなく、局所的な情報と大域的な情報の両方を2次元で捉えることは必ずしも不可能である。 可視化のためにローカルまたはグローバル埋め込みを使うかの選択は、タスクだけでなく基礎となるデータの構造にも依存する。 所定のグラフに対して、lgsは保存するローカル構造とグローバル構造のバランスを良好に確保することを目指している。 我々は,LGSの性能を実世界のデータセットで評価し,ストレスや近隣保存などの確立した品質指標を用いて,最先端の手法と競合することを示す。 中間構造キャプチャーを評価するために,新しい品質指標,クラスタ距離保存を導入する。 ソースコード、データセット、実験、分析はすべてオンラインで利用可能だ。

We present a method for balancing between the Local and Global Structures (LGS) in graph embedding, via a tunable parameter. Some embedding methods aim to capture global structures, while others attempt to preserve local neighborhoods. Few methods attempt to do both, and it is not always possible to capture well both local and global information in two dimensions, which is where most graph drawing live. The choice of using a local or a global embedding for visualization depends not only on the task but also on the structure of the underlying data, which may not be known in advance. For a given graph, LGS aims to find a good balance between the local and global structure to preserve. We evaluate the performance of LGS with synthetic and real-world datasets and our results indicate that it is competitive with the state-of-the-art methods, using established quality metrics such as stress and neighborhood preservation. We introduce a novel quality metric, cluster distance preservation, to assess intermediate structure capture. All source-code, datasets, experiments and analysis are available online.
翻訳日:2023-09-07 02:16:23 公開日:2023-09-02
# MSD_AUDIO.ZIPのバイアスド・ジャーニー

The Biased Journey of MSD_AUDIO.ZIP ( http://arxiv.org/abs/2308.16389v2 )

ライセンス: Link先を確認
Haven Kim, Keunwoo Choi, Mateusz Modrzejewski, Cynthia C. S. Liem(参考訳) 学術データの公平な分配は、研究機会の均等化、そして究極的にはさらなる進歩に不可欠である。 しかし、Million Song Datasetに対応するオーディオデータにAPIを使用することの複雑さ(2016年以前)と、このAPIの廃止(2016年以降)により、このデータへのアクセスはピアツーピアに接続された特定のアフィリエイト内のものに限定されている。 そこで本稿では,データにアクセスしようとしたか,あるいはその作成に役割を果たした22人の個人の経験から,この問題を考察する。 これにより、MIRコミュニティにおけるアクセス権限に関して、より批判的な対話とより思慮深い考察を開始したいと思っています。

The equitable distribution of academic data is crucial for ensuring equal research opportunities, and ultimately further progress. Yet, due to the complexity of using the API for audio data that corresponds to the Million Song Dataset along with its misreporting (before 2016) and the discontinuation of this API (after 2016), access to this data has become restricted to those within certain affiliations that are connected peer-to-peer. In this paper, we delve into this issue, drawing insights from the experiences of 22 individuals who either attempted to access the data or played a role in its creation. With this, we hope to initiate more critical dialogue and more thoughtful consideration with regard to access privilege in the MIR community.
翻訳日:2023-09-07 02:16:07 公開日:2023-09-02
# 物理に変形したバルク流体の相関関数の機械学習

Physics-informed machine learning of the correlation functions in bulk fluids ( http://arxiv.org/abs/2309.00767v1 )

ライセンス: Link先を確認
Wenqian Chen, Peiyuan Gao, Panos Stinis(参考訳) オルンシュタイン・ツェルニケ方程式(ornstein-zernike equation)は、液体の現代的な積分方程式理論における対相関関数計算の基本方程式である。 この研究では、特に物理インフォームドニューラルネットワークや物理インフォームドニューラルネットワークといった機械学習モデルを用いて、OZ方程式を解く。 物理インフォームド機械学習モデルは、様々なバルク流体の前方および逆OZ問題の解法において、高い精度と高い効率を示す。 この結果は、熱力学状態理論への応用のための物理学インフォームド機械学習の有意義な可能性を強調している。

The Ornstein-Zernike (OZ) equation is the fundamental equation for pair correlation function computations in the modern integral equation theory for liquids. In this work, machine learning models, notably physics-informed neural networks and physics-informed neural operator networks, are explored to solve the OZ equation. The physics-informed machine learning models demonstrate great accuracy and high efficiency in solving the forward and inverse OZ problems of various bulk fluids. The results highlight the significant potential of physics-informed machine learning for applications in thermodynamic state theory.
翻訳日:2023-09-07 01:28:51 公開日:2023-09-02
# 高速回転核における新規効果の予測

Predication of novel effects in rotational nuclei at high speed ( http://arxiv.org/abs/2309.00786v1 )

ライセンス: Link先を確認
Jian-You Guo(参考訳) 高速回転物質の研究は、新しい現象の出現による物理学における重要な研究テーマである。 本稿では,共変密度汎関数理論 (cdft) と同様の再正規化群アプローチを組み合わせることで,非相対論的項,動的項,スピン軌道結合,ダーウィン項を含む異なるエルミート成分へハミルトニアンを分解する。 特に,ベクトルポテンシャルの回転と空間成分を考慮した回転項,ゼーマン効果に関する項,スピン回転結合を得た。 これらの演算子を探索することで、回転核で起こる可能性のある新しい現象を識別することを目指している。 シグネチャ分割、ゼーマン効果様、スピン回転カップリング、スピン電流は、回転核で発生する可能性のある新奇性の一つである。 さらに, これらの現象の観測可能性と, 核変形, 回転角速度, 磁場の強度など, 様々な要因への依存性について検討した。

The study of high-speed rotating matter is a crucial research topic in physics due to the emergence of novel phenomena. In this paper, we combined cranking covariant density functional theory (CDFT) with a similar renormalization group approach to decompose the Hamiltonian from the cranking CDFT into different Hermit components, including the non-relativistic term, the dynamical term, the spin-orbit coupling, and the Darwin term. Especially, we obtained the rotational term, the term relating to Zeeman effect-like, and the spin-rotation coupling due to consideration of rotation and spatial component of vector potential. By exploring these operators, we aim to identify novel phenomena that may occur in rotating nuclei. Signature splitting, Zeeman effect-like, spin-rotation coupling, and spin current are among the potential novelties that may arise in rotating nuclei. Additionally, we investigated the observability of these phenomena and their dependence on various factors such as nuclear deformation, rotational angular velocity, and strength of magnetic field.
翻訳日:2023-09-07 01:17:26 公開日:2023-09-02
# 加速MRIとqMRI再構成のための領域条件付き事前誘導を用いた拡散モデリング

Diffusion Modeling with Domain-conditioned Prior Guidance for Accelerated MRI and qMRI Reconstruction ( http://arxiv.org/abs/2309.00783v1 )

ライセンス: Link先を確認
Wanyu Bian, Albert Jang, and Fang Liu(参考訳) 本研究では,ネイティブデータ領域を条件とした拡散モデルに基づく新しい画像再構成手法を提案する。 本手法は,周波数領域とパラメータ領域における領域条件拡散モデルを利用して,マルチコイルMRIと定量的MRI再構成に適用する。 従来のMRI物理は拡散モデルへの埋め込み、トレーニングおよびサンプリングプロセスのガイドのためのデータの一貫性の強制、MRI再構成におけるMRIk空間符号化の特徴、およびqMRI再構成のためのMR信号モデリングの活用として使用される。 さらに、拡散ステップに勾配降下最適化を組み込み、特徴学習を強化し、騒音改善を行う。 提案手法は,特に高加速度度画像の再構成に有意な期待を示す。 特に、様々な解剖学的構造にまたがる静的かつ定量的なMRI再構成において、大幅な再構成精度と効率を維持する。 直近の応用以外にも、この手法は潜在的な一般化能力を提供し、様々な領域にわたる逆問題に適応できる。

This study introduces a novel approach for image reconstruction based on a diffusion model conditioned on the native data domain. Our method is applied to multi-coil MRI and quantitative MRI reconstruction, leveraging the domain-conditioned diffusion model within the frequency and parameter domains. The prior MRI physics are used as embeddings in the diffusion model, enforcing data consistency to guide the training and sampling process, characterizing MRI k-space encoding in MRI reconstruction, and leveraging MR signal modeling for qMRI reconstruction. Furthermore, a gradient descent optimization is incorporated into the diffusion steps, enhancing feature learning and improving denoising. The proposed method demonstrates a significant promise, particularly for reconstructing images at high acceleration factors. Notably, it maintains great reconstruction accuracy and efficiency for static and quantitative MRI reconstruction across diverse anatomical structures. Beyond its immediate applications, this method provides potential generalization capability, making it adaptable to inverse problems across various domains.
翻訳日:2023-09-07 01:17:07 公開日:2023-09-02
# 構造的ラジアル基底関数ネットワーク:多重仮説予測のための多様性のモデル化

Structured Radial Basis Function Network: Modelling Diversity for Multiple Hypotheses Prediction ( http://arxiv.org/abs/2309.00781v1 )

ライセンス: Link先を確認
Alejandro Rodriguez Dominguez, Muhammad Shahzad and Xia Hong(参考訳) マルチモーダル回帰は非定常過程の予測や複雑な分布の混合において重要である。 複数の仮説フレームワークで取り組むことができるが、学習モデルでそれらを効率的に組み合わせることが困難である。 構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。 予測子は、トレーニング中の損失の関数である中心渦テセレーションを形成することができる任意のタイプの回帰モデルである。 この構造モデルにより, このテッセレーションを効率的に補間し, 複数仮説の目標分布を近似できることが証明され, 補間誤差のゼロ集合である予測子のメタ損失を補間することと同値である。 このモデルは、予測器と基底関数の中心との間の固定点反復アルゴリズムを有する。 学習の多様性は、個々の予測器の損失とテッセレーション形成を切断することで、パラメトリックに制御できる。 著者の知識に対して最小二乗の閉形式解が提示され、複数の仮説と構造化予測の文献において最速の解である。 超一般化性能と計算効率は、二層ニューラルネットワークのみを用いて、多様性を成功の鍵となる要素として制御する予測器として達成される。 予測値に関して損失を無視する勾配-退化法が導入された。 ガウス基底関数による構造化モデルの損失に対する期待値は計算され、予測子間の相関が多様化のための適切なツールではないことが分かる。 実験は、文学界のトップコンペティターに対するパフォーマンスを示している。

Multi-modal regression is important in forecasting nonstationary processes or with a complex mixture of distributions. It can be tackled with multiple hypotheses frameworks but with the difficulty of combining them efficiently in a learning model. A Structured Radial Basis Function Network is presented as an ensemble of multiple hypotheses predictors for regression problems. The predictors are regression models of any type that can form centroidal Voronoi tessellations which are a function of their losses during training. It is proved that this structured model can efficiently interpolate this tessellation and approximate the multiple hypotheses target distribution and is equivalent to interpolating the meta-loss of the predictors, the loss being a zero set of the interpolation error. This model has a fixed-point iteration algorithm between the predictors and the centers of the basis functions. Diversity in learning can be controlled parametrically by truncating the tessellation formation with the losses of individual predictors. A closed-form solution with least-squares is presented, which to the authors knowledge, is the fastest solution in the literature for multiple hypotheses and structured predictions. Superior generalization performance and computational efficiency is achieved using only two-layer neural networks as predictors controlling diversity as a key component of success. A gradient-descent approach is introduced which is loss-agnostic regarding the predictors. The expected value for the loss of the structured model with Gaussian basis functions is computed, finding that correlation between predictors is not an appropriate tool for diversification. The experiments show outperformance with respect to the top competitors in the literature.
翻訳日:2023-09-07 01:16:52 公開日:2023-09-02
# Value Kaleidoscope: 複数の人的価値、権利、デューティを備えたAIの実現

Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties ( http://arxiv.org/abs/2309.00779v1 )

ライセンス: Link先を確認
Taylor Sorensen, Liwei Jiang, Jena Hwang, Sydney Levine, Valentina Pyatkin, Peter West, Nouha Dziri, Ximing Lu, Kavel Rao, Chandra Bhagavatula, Maarten Sap, John Tasioulas, Yejin Choi(参考訳) 人間の価値は人間の意思決定に不可欠である。 価値多元論は、複数の正しい値が互いに緊張して保持されるという見方である(例えば、友人に嘘をついて感情を守ることを考えると、友情と誠実さをどのようにバランスさせるのか)。 統計的学習者として、aiシステムはデフォルトで平均値に適合し、これらの既約価値の衝突を取り除きます。 AIシステムを改善するために、第一の課題は、AIシステムが多元的人間の価値、権利、義務、そしてそれらの相互作用をモデル化できる範囲を探索することである。 我々は,31kの人文的状況に関連する218kの値,権利,義務の大規模データセットであるvalueprismを紹介する。 ValuePrismの文脈化値はGPT-4によって生成され、人間のアノテータの91%が高品質と見なしている。 多様な社会的背景や人口統計学的背景にまたがる注釈者による大規模研究を行い,どの価値が表現されているかを理解しようとする。 ValuePrismでは、オープンで軽量で構造化された言語ベースのマルチタスクモデルであるKaleidoを構築します。 人間は教師gpt-4よりもシステムによって出力される値の集合を好み、より正確で広い範囲でそれを見つける。 さらに,コントラストを出力することで,人間の意思決定における多様性を説明する上で有効であることを示す。 最後に,kaleidoの表現を他の哲学的フレームワークやデータセットに移し,明示的,モジュール的,解釈可能なアプローチによる価値多元主義のメリットを確認した。 私たちの仕事が、人間の意思決定の背後にある暗黙的な価値をより明確にし、それに従って意思決定を行うためにaiシステムを統制するステップになることを期待しています。

Human values are crucial to human decision-making. Value pluralism is the view that multiple correct values may be held in tension with one another (e.g., when considering lying to a friend to protect their feelings, how does one balance honesty with friendship?). As statistical learners, AI systems fit to averages by default, washing out these potentially irreducible value conflicts. To improve AI systems to better reflect value pluralism, the first-order challenge is to explore the extent to which AI systems can model pluralistic human values, rights, and duties as well as their interaction. We introduce ValuePrism, a large-scale dataset of 218k values, rights, and duties connected to 31k human-written situations. ValuePrism's contextualized values are generated by GPT-4 and deemed high-quality by human annotators 91% of the time. We conduct a large-scale study with annotators across diverse social and demographic backgrounds to try to understand whose values are represented. With ValuePrism, we build Kaleido, an open, light-weight, and structured language-based multi-task model that generates, explains, and assesses the relevance and valence (i.e., support or oppose) of human values, rights, and duties within a specific context. Humans prefer the sets of values output by our system over the teacher GPT-4, finding them more accurate and with broader coverage. In addition, we demonstrate that Kaleido can help explain variability in human decision-making by outputting contrasting values. Finally, we show that Kaleido's representations transfer to other philosophical frameworks and datasets, confirming the benefit of an explicit, modular, and interpretable approach to value pluralism. We hope that our work will serve as a step to making more explicit the implicit values behind human decision-making and to steering AI systems to make decisions that are more in accordance with them.
翻訳日:2023-09-07 01:16:29 公開日:2023-09-02
# 高周波追従とエッジアウェア最適化に向けて

Towards High-Frequency Tracking and Fast Edge-Aware Optimization ( http://arxiv.org/abs/2309.00777v1 )

ライセンス: Link先を確認
Akash Bapat(参考訳) この論文は,AR/VRトラッキングシステムにおけるトラッキング周波数を桁違いに増加させ,エッジ認識最適化問題に対する効率的なアルゴリズムを提案する。 AR/VRは、物理的世界とデジタル世界が共存するコンピュータと対話する自然な方法である。 我々は、人間がコンピューティングとどのように相互作用するかを根本的に変えようとしている。 人間は現実と仮想世界の小さな不一致に敏感であり、キロヘルツ周波数での追跡が不可欠である。 現在の視覚ベースのシステムは、追跡周波数がカメラのフレームレートによって暗黙的に制限されるため、短い。 本論文は,複数の商品カメラを用いた最先端手法よりも1桁高い精度で追跡できるプロトタイプシステムを提案する。 提案方式では従来, ローリングシャッターやラジアル歪みなどの欠陥としてカメラの特性を生かしている。 実験により, 種々の動きに対する手法の有効性が示された。 さらに、エッジアウェアの最適化は、深度データと画像ベースのレンダリングの正確なフィルタリングのためのコンピュータビジョンアーセナルにおいて欠かせないツールであり、AR/VRのコンテンツ作成や幾何学処理にますます使われている。 アプリケーションの解像度と速度が向上するにつれて、スケールする手法を開発する必要がある。 この論文は、効率的で正確でアルゴリズム的に拡張可能な、エッジ対応の最適化フレームワークを提案しており、これらは全て、技術の現状において共同で見つからない非常に望ましい特徴である。 実験は、計算写真やステレオなど、多数のコンピュータビジョンタスクにおけるフレームワークの有効性を示す。

This dissertation advances the state of the art for AR/VR tracking systems by increasing the tracking frequency by orders of magnitude and proposes an efficient algorithm for the problem of edge-aware optimization. AR/VR is a natural way of interacting with computers, where the physical and digital worlds coexist. We are on the cusp of a radical change in how humans perform and interact with computing. Humans are sensitive to small misalignments between the real and the virtual world, and tracking at kilo-Hertz frequencies becomes essential. Current vision-based systems fall short, as their tracking frequency is implicitly limited by the frame-rate of the camera. This thesis presents a prototype system which can track at orders of magnitude higher than the state-of-the-art methods using multiple commodity cameras. The proposed system exploits characteristics of the camera traditionally considered as flaws, namely rolling shutter and radial distortion. The experimental evaluation shows the effectiveness of the method for various degrees of motion. Furthermore, edge-aware optimization is an indispensable tool in the computer vision arsenal for accurate filtering of depth-data and image-based rendering, which is increasingly being used for content creation and geometry processing for AR/VR. As applications increasingly demand higher resolution and speed, there exists a need to develop methods that scale accordingly. This dissertation proposes such an edge-aware optimization framework which is efficient, accurate, and algorithmically scales well, all of which are much desirable traits not found jointly in the state of the art. The experiments show the effectiveness of the framework in a multitude of computer vision tasks such as computational photography and stereo.
翻訳日:2023-09-07 01:15:54 公開日:2023-09-02
# 透視変換器のコントラスト的特徴マスキング

Contrastive Feature Masking Open-Vocabulary Vision Transformer ( http://arxiv.org/abs/2309.00775v1 )

ライセンス: Link先を確認
Dahun Kim, Anelia Angelova, Weicheng Kuo(参考訳) オープン語彙オブジェクト検出(OVD)のための画像および領域レベルの表現を同時学習する画像テキスト事前学習手法として、コントラスト特徴マスキング視覚変換器(CFM-ViT)を提案する。 提案手法は,マスク付きオートエンコーダ(MAE)の目的と対照的な学習目標を組み合わせ,ローカライゼーションタスクの表現を改善する。 標準的なmaeとは異なり、従来のmae法のようなピクセル空間ではなく、画像テキスト埋め込み空間で再構成を行うことで、モデルが地域レベルのセマンティクスをよりよく学習する。 さらに,プリトレーニング中の位置埋め込みをランダムに切り落として,画像テキストプリトレーニングと検出微調整のスケール変動に対処するため,位置埋め込みドロップアウト(ped)を導入する。 PEDは検出性能を改善し、凍結したViTバックボーンを領域分類器として使用することにより、検出微調整時のオープン語彙知識の忘れを防止する。 lvisopen-vocabulary detectionベンチマークでは、cfm-vitは最先端の33.9 ap$r$を達成し、最良のアプローチを7.6ポイント上回り、より良いゼロショット検出転送を達成している。 最後に、cfm-vitは強い画像レベルの表現を取得し、ゼロショット画像テキスト検索ベンチマークの12の指標のうち8の技法を上回っている。

We present Contrastive Feature Masking Vision Transformer (CFM-ViT) - an image-text pretraining methodology that achieves simultaneous learning of image- and region-level representation for open-vocabulary object detection (OVD). Our approach combines the masked autoencoder (MAE) objective into the contrastive learning objective to improve the representation for localization tasks. Unlike standard MAE, we perform reconstruction in the joint image-text embedding space, rather than the pixel space as is customary with the classical MAE method, which causes the model to better learn region-level semantics. Moreover, we introduce Positional Embedding Dropout (PED) to address scale variation between image-text pretraining and detection finetuning by randomly dropping out the positional embeddings during pretraining. PED improves detection performance and enables the use of a frozen ViT backbone as a region classifier, preventing the forgetting of open-vocabulary knowledge during detection finetuning. On LVIS open-vocabulary detection benchmark, CFM-ViT achieves a state-of-the-art 33.9 AP$r$, surpassing the best approach by 7.6 points and achieves better zero-shot detection transfer. Finally, CFM-ViT acquires strong image-level representation, outperforming the state of the art on 8 out of 12 metrics on zero-shot image-text retrieval benchmarks.
翻訳日:2023-09-07 01:15:27 公開日:2023-09-02
# 未知量子力学における学習保存則

Learning conservation laws in unknown quantum dynamics ( http://arxiv.org/abs/2309.00774v1 )

ライセンス: Link先を確認
Yongtao Zhan, Andreas Elben, Hsin-Yuan Huang, Yu Tong(参考訳) 量子力学における幾何学的局所観測値の和として与えられる保存法則を発見するための学習アルゴリズムを提案する。 これには、閉かつ開量子多体系における局所的および大域的対称性から生じる保存量が含まれる。 このアルゴリズムは、特異値分解とロバスト多項式補間に基づく観測可能およびデータ解析技術の期待値を推定するために古典的な影形式を組み合わせることで、未知の量子力学におけるそのような保存則を厳密な性能保証で発見する。 本手法は量子実験において直接実現可能であり, 数値シミュレーション, $\mathbb{Z}_2$-gauge 理論におけるクローズドおよびオープン量子系力学, および多体局所スピンチェインを用いて述べる。

We present a learning algorithm for discovering conservation laws given as sums of geometrically local observables in quantum dynamics. This includes conserved quantities that arise from local and global symmetries in closed and open quantum many-body systems. The algorithm combines the classical shadow formalism for estimating expectation values of observable and data analysis techniques based on singular value decompositions and robust polynomial interpolation to discover all such conservation laws in unknown quantum dynamics with rigorous performance guarantees. Our method can be directly realized in quantum experiments, which we illustrate with numerical simulations, using closed and open quantum system dynamics in a $\mathbb{Z}_2$-gauge theory and in many-body localized spin-chains.
翻訳日:2023-09-07 01:15:00 公開日:2023-09-02
# 非漸近的境界と不特定モデルによる逆行性過大リスク

Non-Asymptotic Bounds for Adversarial Excess Risk under Misspecified Models ( http://arxiv.org/abs/2309.00771v1 )

ライセンス: Link先を確認
Changyu Liu, Yuling Jiao, Junhui Wang, and Jian Huang(参考訳) 本稿では,不特定モデルにおける逆損失に基づくロバスト推定器の性能評価手法を提案する。 まず,特定の平滑性条件下での分布的敵意攻撃によって引き起こされるリスクと,敵意リスクが等価であることを示す。 これにより、敵のトレーニング手順が明確に定義される。 対向推定器の一般化性能を評価するため, 対向過大リスクについて検討した。 提案手法は一般化誤差と近似誤差の両方について検討する。 次に,リプシッツ損失関数に付随する敵対的過剰リスクに対する非漸近上界を定式化する。 さらに,分類・回帰問題に対する敵意訓練に汎用的な結果を適用する。 非パラメトリック回帰における二次的損失については、一般損失よりも対向的過剰リスク境界を改善できることが示される。

We propose a general approach to evaluating the performance of robust estimators based on adversarial losses under misspecified models. We first show that adversarial risk is equivalent to the risk induced by a distributional adversarial attack under certain smoothness conditions. This ensures that the adversarial training procedure is well-defined. To evaluate the generalization performance of the adversarial estimator, we study the adversarial excess risk. Our proposed analysis method includes investigations on both generalization error and approximation error. We then establish non-asymptotic upper bounds for the adversarial excess risk associated with Lipschitz loss functions. In addition, we apply our general results to adversarial training for classification and regression problems. For the quadratic loss in nonparametric regression, we show that the adversarial excess risk bound can be improved over those for a general loss.
翻訳日:2023-09-07 01:14:43 公開日:2023-09-02
# 大規模言語モデルにおけるバイアスと公正性:調査

Bias and Fairness in Large Language Models: A Survey ( http://arxiv.org/abs/2309.00770v1 )

ライセンス: Link先を確認
Isabel O. Gallegos, Ryan A. Rossi, Joe Barrow, Md Mehrab Tanjim, Sungchul Kim, Franck Dernoncourt, Tong Yu, Ruiyi Zhang, Nesreen K. Ahmed(参考訳) 大規模言語モデル(LLM)の急速な進歩により、人間のようなテキストの処理、理解、生成が可能となり、社会領域に触れるシステムへの統合が拡大した。 この成功にもかかわらず、これらのモデルは有害な社会的バイアスを学び、永続し、増幅することができる。 本稿では,LLMのバイアス評価と緩和技術に関する総合的な調査を行う。 まず自然言語処理における社会的バイアスと公平性の概念を整理し、形式化し、拡張し、異なる害面を定義し、llmの公平性を運用するためにいくつかのデシデラータを導入する。 次に、3つの直感的な分類法、バイアス評価のための2つの指標とデータセット、緩和のための1つを提案する。 バイアス評価のためのメトリクスの最初の分類法は、メトリクスと評価データセットの関係を曖昧にし、それらがモデルで運用するさまざまなレベルによってメトリクスを整理する。 バイアス評価のためのデータセットの第2の分類法は、その構造によるデータセットを対実的な入力やプロンプトとして分類し、ターゲットとなる害や社会集団を特定します。 偏差緩和技術の第3の分類法は, 事前処理, イントレーニング, イントラプロセッシング, ポストプロセッシングの介入によって, 研究動向を解明する粒度のサブカテゴリを分類する。 最後に、今後の作業におけるオープンな問題と課題を特定します。 近年の幅広い研究を合成し、研究者や実践者がLLMのバイアスの伝播をよりよく理解し防止できるように、既存の文献の明確なガイドを提供することを目指している。

Rapid advancements of large language models (LLMs) have enabled the processing, understanding, and generation of human-like text, with increasing integration into systems that touch our social sphere. Despite this success, these models can learn, perpetuate, and amplify harmful social biases. In this paper, we present a comprehensive survey of bias evaluation and mitigation techniques for LLMs. We first consolidate, formalize, and expand notions of social bias and fairness in natural language processing, defining distinct facets of harm and introducing several desiderata to operationalize fairness for LLMs. We then unify the literature by proposing three intuitive taxonomies, two for bias evaluation, namely metrics and datasets, and one for mitigation. Our first taxonomy of metrics for bias evaluation disambiguates the relationship between metrics and evaluation datasets, and organizes metrics by the different levels at which they operate in a model: embeddings, probabilities, and generated text. Our second taxonomy of datasets for bias evaluation categorizes datasets by their structure as counterfactual inputs or prompts, and identifies the targeted harms and social groups; we also release a consolidation of publicly-available datasets for improved access. Our third taxonomy of techniques for bias mitigation classifies methods by their intervention during pre-processing, in-training, intra-processing, and post-processing, with granular subcategories that elucidate research trends. Finally, we identify open problems and challenges for future work. Synthesizing a wide range of recent research, we aim to provide a clear guide of the existing literature that empowers researchers and practitioners to better understand and prevent the propagation of bias in LLMs.
翻訳日:2023-09-07 01:14:30 公開日:2023-09-02
# 機械学習を用いたビデオコーデックのフルリファレンスビデオ品質評価

Full Reference Video Quality Assessment for Machine Learning-Based Video Codecs ( http://arxiv.org/abs/2309.00769v1 )

ライセンス: Link先を確認
Abrar Majeedi, Babak Naderi, Yasaman Hosseinkashi, Juhee Cho, Ruben Alvarez Martinez, Ross Cutler(参考訳) 機械学習ベースのビデオコーデックは、ここ数年で大きな進歩を遂げている。 MLベースのビデオコーデックの開発において重要な領域は、高価で遅い主観的テストを必要としない正確な評価基準である。 DSPをベースとしたビデオコーデックを設計・訓練した既存の評価指標は、MLとビデオコーデックとは全く異なるため、MLビデオコーデックを使用する場合の主観的意見と強く相関しないことを示す。 品質のために正確にラベル付けされたmlビデオコーデックビデオの新しいデータセットを提供する。 また,Pearson correlation Coefficient (PCC) の0.99, Spearman's Rank correlation Coefficient (SRCC) の0.99をモデルレベルで達成する新しいフルリファレンスビデオ品質評価(FRVQA)モデルを提案する。 我々は、データセットとFRVQAモデルをオープンソースにして、MLビデオコーデックの研究を加速させ、他の人がFRVQAモデルをさらに改善できるようにします。

Machine learning-based video codecs have made significant progress in the past few years. A critical area in the development of ML-based video codecs is an accurate evaluation metric that does not require an expensive and slow subjective test. We show that existing evaluation metrics that were designed and trained on DSP-based video codecs are not highly correlated to subjective opinion when used with ML video codecs due to the video artifacts being quite different between ML and video codecs. We provide a new dataset of ML video codec videos that have been accurately labeled for quality. We also propose a new full reference video quality assessment (FRVQA) model that achieves a Pearson Correlation Coefficient (PCC) of 0.99 and a Spearman's Rank Correlation Coefficient (SRCC) of 0.99 at the model level. We make the dataset and FRVQA model open source to help accelerate research in ML video codecs, and so that others can further improve the FRVQA model.
翻訳日:2023-09-07 01:14:01 公開日:2023-09-02
# シミュレーターをバイパスする : 準最適逆線形コンテキストバンディット

Bypassing the Simulator: Near-Optimal Adversarial Linear Contextual Bandits ( http://arxiv.org/abs/2309.00814v1 )

ライセンス: Link先を確認
Haolin Liu, Chen-Yu Wei, Julian Zimmert(参考訳) 損失ベクトルが完全に逆向きに選択され、ラウンドごとのアクションセット(つまりコンテキスト)が固定分布から引き出される、逆線形文脈バンディット問題を考える。 この問題の既存の方法は、自由な文脈を生成するためにシミュレータへのアクセスを必要とするか、$\widetilde{O}(T^{\frac{5}{6}})$以上の最適でない後悔を達成するか、計算的に非効率である。 我々は,各ラウンドのアクションセットが小さい場合に計算効率を保ちながら,シミュレータを使わずに$\widetilde{O}(\sqrt{T})$を後悔することで,これらの結果を大幅に改善する。 対人的損失と確率的腕の可用性を伴う睡眠用バンディットの特別ケースでは,sahaらによるオープン質問に対して肯定的な回答が得られた。 [2020]$poly(d)\sqrt{T}$ regretの多項式時間アルゴリズムが存在するかどうかについて。 提案手法は, 損失が加法的不特定誤差まで線形である場合に自然に対処し, 後悔は誤差の大きさにほぼ最適に依存することを示す。

We consider the adversarial linear contextual bandit problem, where the loss vectors are selected fully adversarially and the per-round action set (i.e. the context) is drawn from a fixed distribution. Existing methods for this problem either require access to a simulator to generate free i.i.d. contexts, achieve a sub-optimal regret no better than $\widetilde{O}(T^{\frac{5}{6}})$, or are computationally inefficient. We greatly improve these results by achieving a regret of $\widetilde{O}(\sqrt{T})$ without a simulator, while maintaining computational efficiency when the action set in each round is small. In the special case of sleeping bandits with adversarial loss and stochastic arm availability, our result answers affirmatively the open question by Saha et al. [2020] on whether there exists a polynomial-time algorithm with $poly(d)\sqrt{T}$ regret. Our approach naturally handles the case where the loss is linear up to an additive misspecification error, and our regret shows near-optimal dependence on the magnitude of the error.
翻訳日:2023-09-07 01:08:36 公開日:2023-09-02
# RenAIssance:大規模モデル時代のAIテキスト・画像生成に関する調査

RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model ( http://arxiv.org/abs/2309.00810v1 )

ライセンス: Link先を確認
Fengxiang Bie, Yibo Yang, Zhongzhu Zhou, Adam Ghanem, Minjia Zhang, Zhewei Yao, Xiaoxia Wu, Connor Holmes, Pareesa Golnari, David A. Clifton, Yuxiong He, Dacheng Tao, Shuaiwen Leon Song(参考訳) text-to-image generation (tti)とは、テキスト入力を処理し、テキスト記述に基づいて忠実度の高い画像を生成するモデルの使用を指す。 ニューラルネットワークを用いたテキスト・ツー・イメージ生成は、GAN(Generative Adversial Network)の出現と、自動回帰変換器(autoregressive Transformer)に遡ることができる。 拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。 拡散モデルの印象的な結果が画像合成に与える影響として、テキスト対画像モデルで使用される主要な画像デコーダとして定着し、機械学習(ml)研究の最前線にテキスト対画像生成をもたらした。 大規模モデルの時代において、モデルサイズを拡大し、大きな言語モデルとの統合により、TTIモデルの性能がさらに向上し、生成結果が実際の画像とほとんど区別できないようになり、画像の検索方法に革命をもたらした。 我々の探索的研究は、革新的なモデルアーキテクチャと予測拡張技術を組み合わせて、テキストから画像へのモデルをスケールする方法がさらにあると考えるきっかけとなった。 我々は,本調査の成果を,テキストから画像への異なる生成方法を検討するために,主要な文献の枠組みを詳述する5つの主要なセクションに分けた。 次に、これらの手法の詳細な比較と批判を行い、今後の研究に改善の道筋を提供する。 今後の研究で、TTI開発は、特にAIGC時代の状況において、創造の生産性を著しく向上させ、ビデオ生成や3D生成といったより複雑なタスクにまで拡張できると論じている。

Text-to-image generation (TTI) refers to the usage of models that could process text input and generate high fidelity images based on text descriptions. Text-to-image generation using neural networks could be traced back to the emergence of Generative Adversial Network (GAN), followed by the autoregressive Transformer. Diffusion models are one prominent type of generative model used for the generation of images through the systematic introduction of noises with repeating steps. As an effect of the impressive results of diffusion models on image synthesis, it has been cemented as the major image decoder used by text-to-image models and brought text-to-image generation to the forefront of machine-learning (ML) research. In the era of large models, scaling up model size and the integration with large language models have further improved the performance of TTI models, resulting the generation result nearly indistinguishable from real-world images, revolutionizing the way we retrieval images. Our explorative study has incentivised us to think that there are further ways of scaling text-to-image models with the combination of innovative model architectures and prediction enhancement techniques. We have divided the work of this survey into five main sections wherein we detail the frameworks of major literature in order to delve into the different types of text-to-image generation methods. Following this we provide a detailed comparison and critique of these methods and offer possible pathways of improvement for future work. In the future work, we argue that TTI development could yield impressive productivity improvements for creation, particularly in the context of the AIGC era, and could be extended to more complex tasks such as video generation and 3D generation.
翻訳日:2023-09-07 01:08:16 公開日:2023-09-02
# IBM量子システムにおける弱値測定の精度と精度の検証

Testing precision and accuracy of weak value measurements in an IBM quantum system ( http://arxiv.org/abs/2309.00809v1 )

ライセンス: Link先を確認
David R. A. Ruelas Paredes, Mariano Uria, Eduardo Massoni, Francisco De Zela(参考訳) 歴史的に、弱い値は量子系の弱い測定と関連付けられてきた。 過去20年間、一連の研究により、任意の強度の測定によって弱い値が決定できることが示されている。 Denkmayrらによるそのような提案。 中性子インターフェロメトリー実験で実施した第118報010402(2017)は,弱い測定値よりも強い結果を得た。 我々はこのスキームを拡張し、量子計算の文脈だけでなく光学的設定でも実装する方法を説明します。 IBMが提供する量子コンピューティングシステムにおける我々の実装は、測定強度の範囲を超えて、弱い値が様々な性能で測定できることを確認します。 しかし、少なくともこのモデルでは、強い測定は弱い測定値よりも常に優れているとは限らない。

Historically, weak values have been associated with weak measurements performed on quantum systems. Over the past two decades, a series of works have shown that weak values can be determined via measurements of arbitrary strength. One such proposal by Denkmayr et al. [Phys. Rev. Lett. 118, 010402 (2017)], carried out in neutron interferometry experiments, yielded better outcomes for strong than for weak measurements. We extend this scheme and explain how to implement it in an optical setting as well as in a quantum computational context. Our implementation in a quantum computing system provided by IBM confirms that weak values can be measured, with varying degrees of performance, over a range of measurement strengths. However, at least for this model, strong measurements do not always perform better than weak ones.
翻訳日:2023-09-07 01:07:43 公開日:2023-09-02
# 政策立案における機械学習手法による異種処理効果推定の公平性

Fairness Implications of Heterogeneous Treatment Effect Estimation with Machine Learning Methods in Policy-making ( http://arxiv.org/abs/2309.00805v1 )

ライセンス: Link先を確認
Patrick Rehill and Nicholas Biddle(参考訳) 不均一な処理効果の推定を柔軟に生成する因果機械学習は、政策の作成と実施を試みる政府にとって非常に有用なツールである。 しかし、重要な人工知能の文献が示すように、政府は機械学習モデルを使用する際に意図しない結果に非常に注意しなければならない。 意図しない悪い結果から守ろうとする1つの方法は、人種や性別のようなセンシティブな変数が結果に影響しない機械学習モデルを作成しようとするAI Fairnessメソッドである。 本稿では、予測機械学習のために開発された標準的なaiフェアネスアプローチは、すべての因果的機械学習アプリケーションには適さないと主張する。因果的機械学習は、一般的に(少なくとも今のところは)モデリングを使用して、究極の意思決定者である人間に通知するが、aiフェアネスアプローチは直接意思決定を行うモデルである。 これらのシナリオを,それぞれ間接的かつ直接的な意思決定として定義し,因果機械学習モデルが間接的な力しか持たないような共同決定として政策決定が最善であることを示す。 このシナリオ - 意思決定者が政策結果のみについて正確に価値判断をする必要がある情報を提供するモデル - に対して公平性を定義し、因果機械学習モデルの複雑さがこれを達成しにくくする、と論じています。 ここでの解決策は、従来のaiフェアネス調整ではなく、これらの方法が記述するであろう意思決定バイアスを注意深くモデル化し、認識することです。

Causal machine learning methods which flexibly generate heterogeneous treatment effect estimates could be very useful tools for governments trying to make and implement policy. However, as the critical artificial intelligence literature has shown, governments must be very careful of unintended consequences when using machine learning models. One way to try and protect against unintended bad outcomes is with AI Fairness methods which seek to create machine learning models where sensitive variables like race or gender do not influence outcomes. In this paper we argue that standard AI Fairness approaches developed for predictive machine learning are not suitable for all causal machine learning applications because causal machine learning generally (at least so far) uses modelling to inform a human who is the ultimate decision-maker while AI Fairness approaches assume a model that is making decisions directly. We define these scenarios as indirect and direct decision-making respectively and suggest that policy-making is best seen as a joint decision where the causal machine learning model usually only has indirect power. We lay out a definition of fairness for this scenario - a model that provides the information a decision-maker needs to accurately make a value judgement about just policy outcomes - and argue that the complexity of causal machine learning models can make this difficult to achieve. The solution here is not traditional AI Fairness adjustments, but careful modelling and awareness of some of the decision-making biases that these methods might encourage which we describe.
翻訳日:2023-09-07 01:07:32 公開日:2023-09-02
# ディープラーニングと逆問題

Deep Learning and Inverse Problems ( http://arxiv.org/abs/2309.00802v1 )

ライセンス: Link先を確認
Ali Mohammad-Djafari, Ning Chu, Li Wang, Liang Yu(参考訳) 機械学習(ml)の手法とツールは、分類、クラスタリング、オブジェクト検出、意味セグメンテーション、言語処理、ヒューマンマシンインタフェースなど、多くのデータ、信号、画像およびビデオ処理タスクで大きな成功を収めています。 コンピュータビジョン、画像、ビデオ処理において、これらの手法は主にニューラルネットワーク(NN)、特に畳み込みNN(CNN)に基づいており、より一般的にはディープNNに基づいている。 逆問題が発生するのは間接的な測定である。 一般に、それらの逆問題は不備であり、それらが事前情報を必要とするような満足な解を得る。 異なる正規化法が提案されており、そこでは問題は確率項と正規化項を持つ基準の最適化となる。 しかし、大きな次元の実際の応用において、主な困難は計算コストである。 NN,特にDeep Learning (DL) を用いたモデルと近似計算は非常に有用である。 本稿では,特に逆問題に適応するNNとDLに焦点を当てる。 第一に、フォワード演算子が物理学制約として知られ、使用される場合、第二に、より一般的なデータ駆動型DL法である。

Machine Learning (ML) methods and tools have gained great success in many data, signal, image and video processing tasks, such as classification, clustering, object detection, semantic segmentation, language processing, Human-Machine interface, etc. In computer vision, image and video processing, these methods are mainly based on Neural Networks (NN) and in particular Convolutional NN (CNN), and more generally Deep NN. Inverse problems arise anywhere we have indirect measurement. As, in general, those inverse problems are ill-posed, to obtain satisfactory solutions for them needs prior information. Different regularization methods have been proposed, where the problem becomes the optimization of a criterion with a likelihood term and a regularization term. The main difficulty, however, in great dimensional real applications, remains the computational cost. Using NN, and in particular Deep Learning (DL) surrogate models and approximate computation, can become very helpful. In this work, we focus on NN and DL particularly adapted for inverse problems. We consider two cases: First the case where the forward operator is known and used as physics constraint, the second more general data driven DL methods.
翻訳日:2023-09-07 01:07:09 公開日:2023-09-02
# 多重ポーラロンアンサッツを用いたサブオーミックスピン-ボソンモデルにおける量子相転移の数値解析

Numerical variational simulations of quantum phase transitions in the sub-Ohmic spin-boson model with multiple polaron ansatz ( http://arxiv.org/abs/2309.00797v1 )

ライセンス: Link先を確認
Yulong Shen and Nengji Zhou(参考訳) 広範囲な変動シミュレーションにより、サブオーミックスピン-ボーソンモデルにおける散逸量子相転移は、環境モードの密集した極限において数値的に研究される。 コヒーレント状態展開からなる一般化されたトライアル波関数を用いることで、様々なスペクトル指数に対して遷移点と臨界指数を正確に決定し、他の高度な数値的手法によって得られたものと良好な一致を示す。 さらに、量子-古典対応は、長距離イジングモデルの理論的予測と比較して、サブオフミック範囲全体で完全に確認される。 深部および浅部では平均場および非平均場臨界挙動が見られ,その物理的メカニズムが明らかにされる。

With extensive variational simulations, dissipative quantum phase transitions in the sub-Ohmic spin-boson model are numerically studied in a dense limit of environmental modes. By employing a generalized trial wave function composed of coherent-state expansions, transition points and critical exponents are accurately determined for various spectral exponents, demonstrating excellent agreement with those obtained by other sophisticated numerical techniques. Besides, the quantum-to-classical correspondence is fully confirmed over the entire sub-Ohmic range, compared with theoretical predictions of the long-range Ising model. Mean-field and non-mean-field critical behaviors are found in the deep and shallow sub-Ohmic regimes, respectively, and distinct physical mechanisms of them are uncovered.
翻訳日:2023-09-07 01:06:47 公開日:2023-09-02
# AttT2M:マルチパースペクティブアテンション機構を用いたテキスト駆動型ヒューマンモーション生成

AttT2M: Text-Driven Human Motion Generation with Multi-Perspective Attention Mechanism ( http://arxiv.org/abs/2309.00796v1 )

ライセンス: Link先を確認
Chongyang Zhong, Lei Hu, Zihao Zhang, Shihong Xia(参考訳) 近年,テキスト記述に基づく3次元人間の動作の生成が研究の焦点となっている。 生成した動きは多様で自然であり、文章の記述に従う必要がある。 人間の動作の複雑な時空間的性質と、テキストと動きの相互モーダル関係を学ぶことの難しさから、テキスト駆動モーション生成は依然として困難な問題である。 そこで本稿では,マルチパースペクティブな注意機構を持つ2段階法である \textbf{body-part attention} と \textbf{global-local motion-text attention} を提案する。 前者は、より表現力のある離散潜在空間を学ぶために、VQ-VAEにボディ部分時空間エンコーダを導入することを意味するモーション埋め込みの観点に焦点を当てている。 後者はクロスモーダルの観点から、文レベルと単語レベルのモーションテキストの相互関係を学習するために使用される。 テキスト駆動動作は最終的に生成トランスで生成される。 また,HumanML3DとKIT-MLの総合的な実験により,本手法は定性的,定量的な評価において最先端の作業よりも優れ,微細な合成と動作2動作を実現していることが示された。 私たちのコードはhttps://github.com/ZcyMonkey/AttT2Mにあります

Generating 3D human motion based on textual descriptions has been a research focus in recent years. It requires the generated motion to be diverse, natural, and conform to the textual description. Due to the complex spatio-temporal nature of human motion and the difficulty in learning the cross-modal relationship between text and motion, text-driven motion generation is still a challenging problem. To address these issues, we propose \textbf{AttT2M}, a two-stage method with multi-perspective attention mechanism: \textbf{body-part attention} and \textbf{global-local motion-text attention}. The former focuses on the motion embedding perspective, which means introducing a body-part spatio-temporal encoder into VQ-VAE to learn a more expressive discrete latent space. The latter is from the cross-modal perspective, which is used to learn the sentence-level and word-level motion-text cross-modal relationship. The text-driven motion is finally generated with a generative transformer. Extensive experiments conducted on HumanML3D and KIT-ML demonstrate that our method outperforms the current state-of-the-art works in terms of qualitative and quantitative evaluation, and achieve fine-grained synthesis and action2motion. Our code is in https://github.com/ZcyMonkey/AttT2M
翻訳日:2023-09-07 01:06:32 公開日:2023-09-02
# FastPoseGait: 効率的なPoseベースの歩行認識のためのツールボックスとベンチマーク

FastPoseGait: A Toolbox and Benchmark for Efficient Pose-based Gait Recognition ( http://arxiv.org/abs/2309.00794v1 )

ライセンス: Link先を確認
Shibei Meng, Yang Fu, Saihui Hou, Chunshui Cao, Xu Liu, Yongzhen Huang(参考訳) 我々はPyTorchに基づくポーズベースの歩行認識のためのオープンソースのツールボックスであるFastPoseGaitを紹介する。 ツールボックスは、最先端のポーズベースの歩行認識アルゴリズムと、関連するさまざまなベンチマークをサポートする。 単一のアルゴリズムにフォーカスする他のポーズベースのプロジェクトとは異なり、FastPoseGaitはいくつかの最先端(SOTA)アルゴリズムを統一フレームワークに統合し、最新の進歩とベストプラクティスの両方を取り入れて、効率性と効率の比較を容易にする。 また,ポーズに基づく歩容認識に関する今後の研究を促進するために,多くの事前学習モデルと詳細なベンチマーク結果を提供し,貴重な洞察を提供し,さらなる調査の参考となる。 高度にモジュール化された構造とFastPoseGaitが提供する多様な手法を利用することで、研究者は素早くポーズベースの歩行認識を掘り下げ、この分野の開発を促進することができる。 本稿では,このツールボックスの様々な特徴を概説し,我々のツールボックスとベンチマークがコラボレーションをさらに促進し,再現性を促進し,ポーズベースの歩行認識のための革新的なアルゴリズムの開発を促進することを目的とした。 FastPoseGaitはhttps://github.com//BNU-IVC/FastPoseGaitで入手できる。 新機能を追加し、引き続きこのレポートを更新します。

We present FastPoseGait, an open-source toolbox for pose-based gait recognition based on PyTorch. Our toolbox supports a set of cutting-edge pose-based gait recognition algorithms and a variety of related benchmarks. Unlike other pose-based projects that focus on a single algorithm, FastPoseGait integrates several state-of-the-art (SOTA) algorithms under a unified framework, incorporating both the latest advancements and best practices to ease the comparison of effectiveness and efficiency. In addition, to promote future research on pose-based gait recognition, we provide numerous pre-trained models and detailed benchmark results, which offer valuable insights and serve as a reference for further investigations. By leveraging the highly modular structure and diverse methods offered by FastPoseGait, researchers can quickly delve into pose-based gait recognition and promote development in the field. In this paper, we outline various features of this toolbox, aiming that our toolbox and benchmarks can further foster collaboration, facilitate reproducibility, and encourage the development of innovative algorithms for pose-based gait recognition. FastPoseGait is available at https://github.com//BNU-IVC/FastPoseGait and is actively maintained. We will continue updating this report as we add new features.
翻訳日:2023-09-07 01:06:05 公開日:2023-09-02
# 弱結合マルチスピン系における量子状態形成による自由誘導減衰の制御

Control of free induction decay with quantum state preparation in a weakly coupled multi-spin system ( http://arxiv.org/abs/2309.00793v1 )

ライセンス: Link先を確認
Qian Cao, Tianzi Wang, and Wenxian Zhang(参考訳) 核磁気共鳴(NMR)は様々な科学分野や実用化で広く使われており、量子制御が相乗的進歩の有望な戦略として出現している。 本稿では,弱結合スピン系,特にトリフルオロヨードエチレン$C_2F_3I$において,NMRと量子状態生成技術を組み合わせて自由誘導減衰(FID)信号を制御する手法を提案する。 本研究では,3スピン系のFID信号について検討し,熱状態におけるFID信号と擬似純状態(PPS)の差を比較した。 本研究の目的は、振動FID信号がしばしば観測される弱い結合スピンにおいて、指数関数的に崩壊する単一FIDを示すことである。 本研究は数値シミュレーションと実験による検証を行い,理論の有効性を正当化する。 提案手法は, スピン系研究の進展と, 様々な科学・実践分野における現在の量子技術によるNMRの能力拡張への扉を開く。

Nuclear magnetic resonance (NMR) has been a widely used tool in various scientific fields and practical applications, with quantum control emerging as a promising strategy for synergistic advancements. In this paper, we propose a novel approach that combines NMR and quantum state preparation techniques to control free induction decay (FID) signals in weakly coupled spin systems, specifically Trifluoroiodoethylene $C_2F_3I$. We investigate the FID signal of the three-spin system and compare the differences between the FID signals in the thermal state and the pseudo-pure state (PPS), where the latter is generated using quantum state preparation techniques. Our approach aims to demonstrate a single exponentially decaying FID in weakly coupled spins, in which oscillatory FID signals are often observed. We validate our findings through numerical simulations and experimental measurements, and justify the validity of the theory. Our method opens a door to advancing spin system research and extending the capabilities of NMR with current quantum technologies in various scientific and practical fields.
翻訳日:2023-09-07 01:05:43 公開日:2023-09-02
# LinkTransformer: トランスフォーマー言語モデルによるレコードリンクのための統一パッケージ

LinkTransformer: A Unified Package for Record Linkage with Transformer Language Models ( http://arxiv.org/abs/2309.00789v1 )

ライセンス: Link先を確認
Abhishek Arora, Melissa Dell(参考訳) 情報源間で情報をリンクすることは、社会科学、ビジネス、政府における様々な分析の基礎である。 大規模な言語モデル(llms)は、ノイズの多いデータセットにおけるレコードリンクを改善するという大きな期待を抱いているが、rやstataのような一般的なソフトウェアでは、多くのドメインで近似文字列マッチングパッケージが主流である。 これらのパッケージはクリーンでシンプルなインタフェースを持ち、様々な言語に容易に拡張できる。 当社のオープンソースパッケージLinkTransformerは,一般的な文字列マッチング手法の親しみやすさと使いやすさを,ディープラーニングに拡張することを目的としています。 これは、レコードリンクをテキスト検索問題として扱うトランスフォーマーLSMとのレコードリンクのための汎用パッケージである。 コアとなるのは、4行のコードでリンクを記録するためにトランスフォーマーモデルを適用する、既製のツールキットである。 LinkTransformerには、複数の言語用に事前訓練されたトランスフォーマーセマンティック類似モデルの豊富なリポジトリが含まれており、Hugging FaceやOpenAIからのトランスフォーマー言語モデルの統合が容易である。 複数のノイズフィールドのブロッキングやリンクなどの標準的な機能をサポートしている。 LinkTransformer APIは、アグリゲーション、ノイズ非重複、翻訳不要な言語間リンクなど、他の一般的なテキストデータ処理タスクも実行する。 重要なのは、LinkTransformerには、効率的なモデルチューニングのための包括的なツールも含まれていることだ。 最後に、再利用性、再現性、拡張性を促進するために、linktransformerはユーザが独自のトレーニングモデルを簡単にmodel hubにコントリビュートできるようにする。 LinkTransformerは、トランスフォーマー言語モデルと、人気のある文字列マッチングパッケージの多くのユーザになじみのある直感的なAPIを組み合わせることで、ディープラーニングフレームワークに馴染みのない人たちの間で、LLMのメリットを民主化することを目指している。

Linking information across sources is fundamental to a variety of analyses in social science, business, and government. While large language models (LLMs) offer enormous promise for improving record linkage in noisy datasets, in many domains approximate string matching packages in popular softwares such as R and Stata remain predominant. These packages have clean, simple interfaces and can be easily extended to a diversity of languages. Our open-source package LinkTransformer aims to extend the familiarity and ease-of-use of popular string matching methods to deep learning. It is a general purpose package for record linkage with transformer LLMs that treats record linkage as a text retrieval problem. At its core is an off-the-shelf toolkit for applying transformer models to record linkage with four lines of code. LinkTransformer contains a rich repository of pre-trained transformer semantic similarity models for multiple languages and supports easy integration of any transformer language model from Hugging Face or OpenAI. It supports standard functionality such as blocking and linking on multiple noisy fields. LinkTransformer APIs also perform other common text data processing tasks, e.g., aggregation, noisy de-duplication, and translation-free cross-lingual linkage. Importantly, LinkTransformer also contains comprehensive tools for efficient model tuning, to facilitate different levels of customization when off-the-shelf models do not provide the required accuracy. Finally, to promote reusability, reproducibility, and extensibility, LinkTransformer makes it easy for users to contribute their custom-trained models to its model hub. By combining transformer language models with intuitive APIs that will be familiar to many users of popular string matching packages, LinkTransformer aims to democratize the benefits of LLMs among those who may be less familiar with deep learning frameworks.
翻訳日:2023-09-07 01:05:28 公開日:2023-09-02
# LeanContext: LLMを使った費用効率の良いドメイン特化質問回答

LeanContext: Cost-Efficient Domain-Specific Question Answering Using LLMs ( http://arxiv.org/abs/2309.00841v1 )

ライセンス: Link先を確認
Md Adnan Arefeen, Biplob Debnath, Srimat Chakradhar(参考訳) QA(QA)は、大規模言語モデル(LLM)、医療、教育、カスタマーサービスにまたがるチャットボット機能を形作る重要な応用である。 しかし, LLM APIの利用コストが高いため, 中小企業へのLLM統合は困難である。 ドメイン固有のデータ(コンテキスト)が、正確なドメイン固有のLLMレスポンスのクエリと一緒に使用されると、コストは急速に上昇します。 1つの選択肢は、LLMを使用してコンテキストを要約し、コンテキストを減らすことである。 しかし、いくつかのドメイン固有のクエリに答えるために必要な有用な情報をフィルタリングすることもできる。 本稿では、人間指向の要約からAIモデルフレンドリーな要約へ移行する。 われわれのアプローチであるLeanContextは、クエリと密接に一致したコンテキストから$k$キー文を効率的に抽出する。 クエリとコンテキストに基づいて$k$を動的に決定する強化学習手法を導入する。 その他の重要でない文は、無料のオープンソーステキスト削減手法を用いて削減される。 本稿では,近年のクエリアウェアおよびクエリアウェアなコンテキストリダクションアプローチ(arxiv論文とBBCニュース記事)に対して,LeanContextを評価した。 コストは37.29.%から67.81.%に削減されているが、LeanContextのROUGE-1スコアは、コンテキスト全体を保持するベースラインに比べてわずか1.41.%から2.65.%に低下している(要約なし)。 さらに、自由事前訓練されたLCMベースの要約器を使って文脈を減らし(人間の消費可能な要約に)、LeanContextはさらに文脈を修正して精度(ROUGE-1スコア)を$13.22\%から$24.61\%に向上させることができる。

Question-answering (QA) is a significant application of Large Language Models (LLMs), shaping chatbot capabilities across healthcare, education, and customer service. However, widespread LLM integration presents a challenge for small businesses due to the high expenses of LLM API usage. Costs rise rapidly when domain-specific data (context) is used alongside queries for accurate domain-specific LLM responses. One option is to summarize the context by using LLMs and reduce the context. However, this can also filter out useful information that is necessary to answer some domain-specific queries. In this paper, we shift from human-oriented summarizers to AI model-friendly summaries. Our approach, LeanContext, efficiently extracts $k$ key sentences from the context that are closely aligned with the query. The choice of $k$ is neither static nor random; we introduce a reinforcement learning technique that dynamically determines $k$ based on the query and context. The rest of the less important sentences are reduced using a free open source text reduction method. We evaluate LeanContext against several recent query-aware and query-unaware context reduction approaches on prominent datasets (arxiv papers and BBC news articles). Despite cost reductions of $37.29\%$ to $67.81\%$, LeanContext's ROUGE-1 score decreases only by $1.41\%$ to $2.65\%$ compared to a baseline that retains the entire context (no summarization). Additionally, if free pretrained LLM-based summarizers are used to reduce context (into human consumable summaries), LeanContext can further modify the reduced context to enhance the accuracy (ROUGE-1 score) by $13.22\%$ to $24.61\%$.
翻訳日:2023-09-07 00:58:10 公開日:2023-09-02
# デモンストレーション誘導強化学習による自律的軟部組織引き抜き

Autonomous Soft Tissue Retraction Using Demonstration-Guided Reinforcement Learning ( http://arxiv.org/abs/2309.00837v1 )

ライセンス: Link先を確認
Amritpal Singh, Wenqi Shi, May D Wang(参考訳) 手術の文脈では、ロボットは縫合、針交換、組織引き込みなどの小さな反復的な作業を行うことで実質的な支援を行うことができ、手術のより複雑な側面に集中することができる。 しかし、既存の外科的課題学習は主に剛体相互作用に関連するが、より高度な外科的ロボットへの進歩は軟体操作を必要とする。 従来の研究は軟組織タスク学習のための組織ファントムに重点を置いていた。 シミュレーション環境は、実際の組織に適用する前に外科的タスクを学習するための安全で効率的な方法を提供する。 本研究では,ロボットオペレーティング・システム(ROS)互換の物理シミュレーション環境を構築し,手術作業における剛体・軟体双方の相互作用を支援する。 さらに,DaVinci手術ロボットの患者側マニピュレータによる軟部組織相互作用について検討した。 ピブルレット物理エンジンを応用し、運動学をシミュレートし、軟組織を操作する際にロボットアームを案内するアンカーポイントを確立する。 実証誘導強化学習(RL)アルゴリズムを用いて,従来の強化学習アルゴリズムと比較して,その性能について検討する。 われわれの in silico 試験は、自律的な外科的軟部組織引き抜きのための概念実証を実証する。 その結果,強化学習剤の応用により,ソフトボディ操作の学習の可能性が高まった。 この研究は、剛組織と軟組織の両方の相互作用を管理できる手術ロボットの開発と洗練に関する将来の研究の基礎を築いている。 コードはhttps://github.com/amritpal-001/tissue_retractで入手できる。

In the context of surgery, robots can provide substantial assistance by performing small, repetitive tasks such as suturing, needle exchange, and tissue retraction, thereby enabling surgeons to concentrate on more complex aspects of the procedure. However, existing surgical task learning mainly pertains to rigid body interactions, whereas the advancement towards more sophisticated surgical robots necessitates the manipulation of soft bodies. Previous work focused on tissue phantoms for soft tissue task learning, which can be expensive and can be an entry barrier to research. Simulation environments present a safe and efficient way to learn surgical tasks before their application to actual tissue. In this study, we create a Robot Operating System (ROS)-compatible physics simulation environment with support for both rigid and soft body interactions within surgical tasks. Furthermore, we investigate the soft tissue interactions facilitated by the patient-side manipulator of the DaVinci surgical robot. Leveraging the pybullet physics engine, we simulate kinematics and establish anchor points to guide the robotic arm when manipulating soft tissue. Using demonstration-guided reinforcement learning (RL) algorithms, we investigate their performance in comparison to traditional reinforcement learning algorithms. Our in silico trials demonstrate a proof-of-concept for autonomous surgical soft tissue retraction. The results corroborate the feasibility of learning soft body manipulation through the application of reinforcement learning agents. This work lays the foundation for future research into the development and refinement of surgical robots capable of managing both rigid and soft tissue interactions. Code is available at https://github.com/amritpal-001/tissue_retract.
翻訳日:2023-09-07 00:57:42 公開日:2023-09-02
# フェア$k$-Min-Sum-Radii in $\mathbb{R}^d$

Approximating Fair $k$-Min-Sum-Radii in $\mathbb{R}^d$ ( http://arxiv.org/abs/2309.00834v1 )

ライセンス: Link先を確認
Lukas Drexler, Annika Hennes, Abhiruk Lahiri, Melanie Schmidt, Julian Wargalla(参考訳) k$-center問題(英語版)は古典的なクラスタリング問題であり、任意のクラスタの最大半径が最小になるように、$p$を$k$クラスタに設定したポイントの分割を求める。 よく研究されている。 しかし、最大半径のクラスタのみを考えるのではなく、クラスタの半径を加算すればどうだろうか? この自然変種は$k$-min-sum-radii 問題と呼ばれる。 近年ではますます関心が高まり、通常のバージョンや制約された設定でk$-min-sum-radii問題の近似アルゴリズムの開発に刺激されている。 任意の次元のユークリッド空間 $\mathbb{R}^d$ の問題を研究するが、クラスターの数 $k$ は定数であると仮定する。 この場合、問題のPTASが知られている(Bandyapadhyay, Lochet and Saurabh, SoCG, 2023)。 我々の目標は、$k$-min-sum-radiiの知識ベースをフェアクラスタリングの領域に拡張することです。 本研究では,Chierichettiらによって導入されたもの(NeurIPS, 2017)など,グループフェアネスの制約について検討する。 このモデルでは、入力ポイントは追加の属性(例えば赤や青のような色)を持ち、クラスタは異なる属性値の比率を保存しなければならない(例えば、基底集合と同じ赤と青の点を持つ)。 この一般的な考え方の異なる変種が文献で研究されている。 私たちの知る限りでは、適切な$k$-sum-radii問題に対して、関連する$k$-center問題に関する膨大な作業にもかかわらず、近似的な結果が知られていない。 定数$k$の場合の任意の次元のユークリッド空間における$k$-min-sum-radii問題に対するPTASを提案する。 私たちの知る限りでは、この問題に対する最初のPTASです。 群フェアネスの異なる概念に対して作用する。

The $k$-center problem is a classical clustering problem in which one is asked to find a partitioning of a point set $P$ into $k$ clusters such that the maximum radius of any cluster is minimized. It is well-studied. But what if we add up the radii of the clusters instead of only considering the cluster with maximum radius? This natural variant is called the $k$-min-sum-radii problem. It has become the subject of more and more interest in recent years, inspiring the development of approximation algorithms for the $k$-min-sum-radii problem in its plain version as well as in constrained settings. We study the problem for Euclidean spaces $\mathbb{R}^d$ of arbitrary dimension but assume the number $k$ of clusters to be constant. In this case, a PTAS for the problem is known (see Bandyapadhyay, Lochet and Saurabh, SoCG, 2023). Our aim is to extend the knowledge base for $k$-min-sum-radii to the domain of fair clustering. We study several group fairness constraints, such as the one introduced by Chierichetti et al. (NeurIPS, 2017). In this model, input points have an additional attribute (e.g., colors such as red and blue), and clusters have to preserve the ratio between different attribute values (e.g., have the same fraction of red and blue points as the ground set). Different variants of this general idea have been studied in the literature. To the best of our knowledge, no approximative results for the fair $k$-min-sum-radii problem are known, despite the immense amount of work on the related fair $k$-center problem. We propose a PTAS for the fair $k$-min-sum-radii problem in Euclidean spaces of arbitrary dimension for the case of constant $k$. To the best of our knowledge, this is the first PTAS for the problem. It works for different notions of group fairness.
翻訳日:2023-09-07 00:57:19 公開日:2023-09-02
# objectlab: オブジェクト検出データにおける誤ラベル画像の自動診断

ObjectLab: Automated Diagnosis of Mislabeled Images in Object Detection Data ( http://arxiv.org/abs/2309.00832v1 )

ライセンス: Link先を確認
Ulyana Tkachenko, Aditya Thyagarajan, Jonas Mueller(参考訳) 自動運転車のようなセンシティブなシステムではありますが、現実のトレーニングデータセットのほとんどを悩ませるアノテーションエラーのために、オブジェクトの検出はかなり不安定なままです。 我々は、オブジェクト検出ラベルの様々なエラーを検出するための単純なアルゴリズムであるobjectlabを提案する。 objectlabはトレーニングされたオブジェクト検出モデルを使用して、各画像のラベル品質をスコア付けする。 誤ったデータを適切に処理することで、既存のモデリングコードを変更することなく、同じオブジェクト検出モデルのより良いバージョンをトレーニングできる。 さまざまなオブジェクト検出データセット(COCOを含む)と異なるモデル(Dectron-X101やFaster-RCNNを含む)が揃って、ObjectLabは、他のラベルの品質スコアよりもはるかに正確/リコールされたアノテーションエラーを一貫して検出する。

Despite powering sensitive systems like autonomous vehicles, object detection remains fairly brittle in part due to annotation errors that plague most real-world training datasets. We propose ObjectLab, a straightforward algorithm to detect diverse errors in object detection labels, including: overlooked bounding boxes, badly located boxes, and incorrect class label assignments. ObjectLab utilizes any trained object detection model to score the label quality of each image, such that mislabeled images can be automatically prioritized for label review/correction. Properly handling erroneous data enables training a better version of the same object detection model, without any change in existing modeling code. Across different object detection datasets (including COCO) and different models (including Detectron-X101 and Faster-RCNN), ObjectLab consistently detects annotation errors with much better precision/recall compared to other label quality scores.
翻訳日:2023-09-07 00:56:48 公開日:2023-09-02
# 成人および胎児エコー画像におけるデータ駆動および解剖学的制約付き画像登録のマルチスケール学習

A Multi-scale Learning of Data-driven and Anatomically Constrained Image Registration for Adult and Fetal Echo Images ( http://arxiv.org/abs/2309.00831v1 )

ライセンス: Link先を確認
Md. Kamrul Hasan, Haobo Zhu, Guang Yang, Choon Hwai Yap(参考訳) 経時的エコー画像登録は、心臓運動推定、心筋ひずみ評価、脳卒中容積定量などの臨床的定量化の基礎である。 deep learning image registration (dlir)は一貫して正確であり、計算労力が少なく、初期のアプリケーションでの結果を奨励している。 しかし, 変形移動画像の解剖学的再現性と画質に重点を置くことで, 頑健なdlir性能を実現することができることを提案する。 さらに、過去の実装は成人のエコーに焦点を当てており、胎児のエコーに対するDLIR実装は存在しない。 胎児と成人の心エコーにおけるDLIRの3つの戦略を組み合わせた枠組みを提案する。(1)生理的心筋と左室の解剖学的トポロジーを保存するための解剖学的形状エンコード損失、(2)歪画像の良好な画像テクスチャ特性を逆向きに学習するデータ駆動損失、(3)データ駆動および解剖学的制約のあるアルゴリズムのマルチスケールトレーニングスキームにより精度を向上する。 実験の結果, 形状符号化損失とデータ駆動逆損失はそれぞれ, 良好な解剖学的トポロジーと画像テクスチャに強く関連していることがわかった。 登録パフォーマンスの異なる側面を重複しない方法で改善し、組み合わせを正当化する。 成人と胎児のエコー画像の基本的な相違にもかかわらず,CAMUS 成人のエコーデータセットとプライベートマルチデマトグラフィ胎児のエコーデータセットを用いて,成人と胎児のエコー画像に優れた登録結果が得られることを示す。 また,本手法は光学フローやElastixなど,従来の非DLゴールド登録手法よりも優れている。 登録の改善は、より正確で正確な心臓射出率の臨床的定量化に翻訳され、翻訳の可能性を示している。

Temporal echo image registration is a basis for clinical quantifications such as cardiac motion estimation, myocardial strain assessments, and stroke volume quantifications. Deep learning image registration (DLIR) is consistently accurate, requires less computing effort, and has shown encouraging results in earlier applications. However, we propose that a greater focus on the warped moving image's anatomic plausibility and image quality can support robust DLIR performance. Further, past implementations have focused on adult echo, and there is an absence of DLIR implementations for fetal echo. We propose a framework combining three strategies for DLIR for both fetal and adult echo: (1) an anatomic shape-encoded loss to preserve physiological myocardial and left ventricular anatomical topologies in warped images; (2) a data-driven loss that is trained adversarially to preserve good image texture features in warped images; and (3) a multi-scale training scheme of a data-driven and anatomically constrained algorithm to improve accuracy. Our experiments show that the shape-encoded loss and the data-driven adversarial loss are strongly correlated to good anatomical topology and image textures, respectively. They improve different aspects of registration performance in a non-overlapping way, justifying their combination. We show that these strategies can provide excellent registration results in both adult and fetal echo using the publicly available CAMUS adult echo dataset and our private multi-demographic fetal echo dataset, despite fundamental distinctions between adult and fetal echo images. Our approach also outperforms traditional non-DL gold standard registration approaches, including Optical Flow and Elastix. Registration improvements could also be translated to more accurate and precise clinical quantification of cardiac ejection fraction, demonstrating a potential for translation.
翻訳日:2023-09-07 00:56:31 公開日:2023-09-02
# 3DバウンディングボックスがSAMと出会う: 弱と雑音のスーパービジョンによるポイントクラウドインスタンスセグメンテーション

When 3D Bounding-Box Meets SAM: Point Cloud Instance Segmentation with Weak-and-Noisy Supervision ( http://arxiv.org/abs/2309.00828v1 )

ライセンス: Link先を確認
Qingtao Yu, Heming Du, Chen Liu, Xin Yu(参考訳) 境界ボックスアノテーションから学ぶことは、弱教師付き3Dポイントクラウドインスタンスセグメンテーションにおいて大きな可能性がある。 しかし,既存の手法では制約付きバウンディングボックスアノテーションによって性能が著しく低下することが判明した。 そこで本研究では,CIP-WPIS法を補完画像として提案する。 CIP-WPISは2DファンデーションモデルSAMと3D幾何学に埋め込まれた事前訓練された知識を活用し、境界ボックスアノテーションから正確なポイントワイズインスタンスラベルを達成する。 具体的には、cp-wpisはまずインスタンスの3d候補ポイントが完全に見える画像ビューを選択する。 そして、投影から補完的な背景と前景のプロンプトを生成し、SAM 2Dインスタンスマスク予測を得る。 これらに従って,信頼度値を,そのインスタンスに属する点の確率を示す点に割り当てる。 さらに、スーパーポイントによって提供される3次元幾何学的均質性を利用して、最終インスタンスラベル割り当てを決定する。 このような方法で,高品質な3Dポイントワイドインスタンスラベルを実現する。 Scannet-v2 と S3DIS のベンチマーク実験により,本手法はノイズの多い3次元バウンディングボックスアノテーションに対して頑健であり,最先端の性能を実現する。

Learning from bounding-boxes annotations has shown great potential in weakly-supervised 3D point cloud instance segmentation. However, we observed that existing methods would suffer severe performance degradation with perturbed bounding box annotations. To tackle this issue, we propose a complementary image prompt-induced weakly-supervised point cloud instance segmentation (CIP-WPIS) method. CIP-WPIS leverages pretrained knowledge embedded in the 2D foundation model SAM and 3D geometric prior to achieve accurate point-wise instance labels from the bounding box annotations. Specifically, CP-WPIS first selects image views in which 3D candidate points of an instance are fully visible. Then, we generate complementary background and foreground prompts from projections to obtain SAM 2D instance mask predictions. According to these, we assign the confidence values to points indicating the likelihood of points belonging to the instance. Furthermore, we utilize 3D geometric homogeneity provided by superpoints to decide the final instance label assignments. In this fashion, we achieve high-quality 3D point-wise instance labels. Extensive experiments on both Scannet-v2 and S3DIS benchmarks demonstrate that our method is robust against noisy 3D bounding-box annotations and achieves state-of-the-art performance.
翻訳日:2023-09-07 00:55:54 公開日:2023-09-02
# 転送類似性ガイド付きグローバルスタイルと量子化局所スタイルによるショットフォント生成

Few shot font generation via transferring similarity guided global style and quantization local style ( http://arxiv.org/abs/2309.00827v1 )

ライセンス: Link先を確認
Wei Pan, Anna Zhu, Xinyu Zhou, Brian Kenji Iwana, Shilin Li(参考訳) 数個のグリフ参照しか持たない新しいフォントを生成することを目的とした自動小ショットフォント生成(AFFG)は、手動でフォントを設計する作業コストを削減する。 しかし、スタイル・コンテント・ディコンタングルメントの伝統的なAFFGパラダイムは、異なるフォントの多様なローカル詳細をキャプチャできない。 そのため、この問題に取り組むために多くのコンポーネントベースのアプローチが提案されている。 コンポーネントベースのアプローチの問題は、通常、様々な言語のAFFGでは実現不可能な、ストロークや急進的な特別なグリフコンポーネントを必要とすることである。 本稿では,文字類似性に基づくグローバルな特徴とスタイル化されたコンポーネントレベルの表現からスタイルを集約する新しいフォント生成手法を提案する。 対象文字と参照サンプルの類似度スコアを、コンテンツ特徴から対応するチャネルに沿っての距離を測定し、グローバルなスタイル特徴を集約する重みとして割り当てることで算出する。 ローカルスタイルをよりよく捉えるために、参照グリフのスタイルをコンポーネントに転送するために、クロスアテンションベースのスタイル転送モジュールが採用されており、コンポーネントは手動定義なしでベクトル量子化によって、自己学習された離散潜在コードである。 これらの設計により、本手法はコンポーネントレベルの表現の完全なセットを得ることができ、またグローバルグリフ特性を制御することができる。 実験結果は, 異なる言語スクリプトにおける提案手法の有効性と一般化を反映し, 他手法と比較してその優越性を示す。 ソースコードはhttps://github.com/awei669/vq-fontにある。

Automatic few-shot font generation (AFFG), aiming at generating new fonts with only a few glyph references, reduces the labor cost of manually designing fonts. However, the traditional AFFG paradigm of style-content disentanglement cannot capture the diverse local details of different fonts. So, many component-based approaches are proposed to tackle this problem. The issue with component-based approaches is that they usually require special pre-defined glyph components, e.g., strokes and radicals, which is infeasible for AFFG of different languages. In this paper, we present a novel font generation approach by aggregating styles from character similarity-guided global features and stylized component-level representations. We calculate the similarity scores of the target character and the referenced samples by measuring the distance along the corresponding channels from the content features, and assigning them as the weights for aggregating the global style features. To better capture the local styles, a cross-attention-based style transfer module is adopted to transfer the styles of reference glyphs to the components, where the components are self-learned discrete latent codes through vector quantization without manual definition. With these designs, our AFFG method could obtain a complete set of component-level style representations, and also control the global glyph characteristics. The experimental results reflect the effectiveness and generalization of the proposed method on different linguistic scripts, and also show its superiority when compared with other state-of-the-art methods. The source code can be found at https://github.com/awei669/VQ-Font.
翻訳日:2023-09-07 00:55:30 公開日:2023-09-02
# 糖尿病網膜症検出のための半監督グラフ学習の活用

Leveraging Semi-Supervised Graph Learning for Enhanced Diabetic Retinopathy Detection ( http://arxiv.org/abs/2309.00824v1 )

ライセンス: Link先を確認
D. Dhinakaran, L. Srinivasan, D. Selvaraj, S. M. Udhaya Sankar(参考訳) 糖尿病網膜症(DR: Diabetic Retinopathy)は、早期発見と治療の緊急の必要性を浮き彫りにしている。 機械学習(ML)技術の最近の進歩は、DR検出における将来性を示しているが、ラベル付きデータの可用性は、しばしばパフォーマンスを制限している。 本研究は、ラベル付きデータとラベルなしデータの関係を利用して精度を高める、DR検出に適した新しい半スーパービジョングラフ学習SSGLアルゴリズムを提案する。 この作業は、画像の品質と特徴の変化の課題に対処するために、データ拡張と前処理技術の調査から始まる。 画像トリミング、リサイズ、コントラスト調整、正規化、データ拡張などの技術を用いて、特徴抽出を最適化し、網膜画像の全体的な品質を改善する。 さらに, 本研究は, 診断と診断を別にして, drの発症リスクや疾患進展の可能性を予測するためのmlアルゴリズムの適用に資する。 患者の個人化リスクスコアは、人口統計情報、医療履歴、網膜画像を含む総合的な患者データを用いて生成される。 提案する半教師付きグラフ学習アルゴリズムは、2つの公開データセット上で厳密に評価され、既存の手法に対してベンチマークされる。 提案アルゴリズムは, 医用画像解析に共通する不均衡データセットの課題に対処し, 実用性の向上を図りつつ, 分類精度, 特異性, 感度の大幅な向上を図っている。

Diabetic Retinopathy (DR) is a significant cause of blindness globally, highlighting the urgent need for early detection and effective treatment. Recent advancements in Machine Learning (ML) techniques have shown promise in DR detection, but the availability of labeled data often limits their performance. This research proposes a novel Semi-Supervised Graph Learning SSGL algorithm tailored for DR detection, which capitalizes on the relationships between labelled and unlabeled data to enhance accuracy. The work begins by investigating data augmentation and preprocessing techniques to address the challenges of image quality and feature variations. Techniques such as image cropping, resizing, contrast adjustment, normalization, and data augmentation are explored to optimize feature extraction and improve the overall quality of retinal images. Moreover, apart from detection and diagnosis, this work delves into applying ML algorithms for predicting the risk of developing DR or the likelihood of disease progression. Personalized risk scores for individual patients are generated using comprehensive patient data encompassing demographic information, medical history, and retinal images. The proposed Semi-Supervised Graph learning algorithm is rigorously evaluated on two publicly available datasets and is benchmarked against existing methods. Results indicate significant improvements in classification accuracy, specificity, and sensitivity while demonstrating robustness against noise and outlie rs.Notably, the proposed algorithm addresses the challenge of imbalanced datasets, common in medical image analysis, further enhancing its practical applicability.
翻訳日:2023-09-07 00:55:03 公開日:2023-09-02
# Mask R-CNNに基づく土壌画像分割

Soil Image Segmentation Based on Mask R-CNN ( http://arxiv.org/abs/2309.00817v1 )

ライセンス: Link先を確認
Yida Chen, Kang Liu, Yi Xin, Xinru Zhao(参考訳) 自然環境下で収集された土壌画像の複雑な背景は、機械視に基づくその後の土壌画像認識に影響を及ぼす。 土壌画像から土壌中心領域を区分することは、複雑な背景の影響を取り除き、その後の土壌画像認識に重要な前処理となる。 まず, 深層学習法を土壌画像のセグメンテーションに適用し, マスクr-cnnモデルを選択し, 土壌画像の位置とセグメンテーションを完了させた。 収集した土壌画像に基づいて土壌画像データセットを構築し、EISegアノテーションツールを使用して土壌領域を土壌としてマークし、アノテーション情報を保存し、Mask R-CNN土壌画像インスタンスのセグメンテーションモデルを訓練する。 The trained model can obtain accurate segmentation results for soil images, and can show good performance on soil images collected in different environments; the trained instance segmentation model has a loss value of 0.1999 in the training set, and the mAP of the validation set segmentation (IoU=0.5) is 0.8804, and it takes only 0.06s to complete image segmentation based on GPU acceleration, which can meet the real-time segmentation and detection of soil images in the field under natural conditions. コードはConclusionsで取得できます。 ホームページはhttps://github.com/YidaMyth。

The complex background in the soil image collected in the field natural environment will affect the subsequent soil image recognition based on machine vision. Segmenting the soil center area from the soil image can eliminate the influence of the complex background, which is an important preprocessing work for subsequent soil image recognition. For the first time, the deep learning method was applied to soil image segmentation, and the Mask R-CNN model was selected to complete the positioning and segmentation of soil images. Construct a soil image dataset based on the collected soil images, use the EISeg annotation tool to mark the soil area as soil, and save the annotation information; train the Mask R-CNN soil image instance segmentation model. The trained model can obtain accurate segmentation results for soil images, and can show good performance on soil images collected in different environments; the trained instance segmentation model has a loss value of 0.1999 in the training set, and the mAP of the validation set segmentation (IoU=0.5) is 0.8804, and it takes only 0.06s to complete image segmentation based on GPU acceleration, which can meet the real-time segmentation and detection of soil images in the field under natural conditions. You can get our code in the Conclusions. The homepage is https://github.com/YidaMyth.
翻訳日:2023-09-07 00:54:37 公開日:2023-09-02
# 署名ネットワーク埋め込みのための信頼性駆動型グラフ畳み込みネットワーク

Trustworthiness-Driven Graph Convolutional Networks for Signed Network Embedding ( http://arxiv.org/abs/2309.00816v1 )

ライセンス: Link先を確認
Min-Jeong Kim, Yeon-Chang Lee, David Y. Kang, Sang-Wook Kim(参考訳) 署名ネットワーク内のノードを低次元ベクトルとして表現する問題は、署名ネットワーク埋め込み (SNE) として近年注目されている。 グラフ畳み込みネットワーク(GCN)に基づくいくつかのSNE法が提案されているが、数十年前のバランス理論が常に実世界で成り立つという仮定に大きく依存していることが指摘されている。 この制限に対処するために、バランス理論によって推定される高次関係に対するエッジサインの信頼性を利用して、GCNに不正な埋め込み伝播を補正するTrustSGCNと呼ばれる新しいGCNベースのSNEアプローチを提案する。 提案手法は, 各ノードの拡張エゴネットワークの生成, (M2) エッジサインの信頼性の測定, (M3) 埋め込みの信頼性に配慮した伝播の3つのモジュールからなる。 さらに、TrustSGCNは、よく知られた2つの社会的理論、すなわちバランスとステータスを活用してノード埋め込みを学ぶ。 4つの実世界で署名されたネットワークデータセットの実験は、TrustSGCNが5つの最先端GCNベースのSNEメソッドを一貫して上回ることを示した。 コードはhttps://github.com/kmj0792/TrustSGCNで入手できる。

The problem of representing nodes in a signed network as low-dimensional vectors, known as signed network embedding (SNE), has garnered considerable attention in recent years. While several SNE methods based on graph convolutional networks (GCN) have been proposed for this problem, we point out that they significantly rely on the assumption that the decades-old balance theory always holds in the real-world. To address this limitation, we propose a novel GCN-based SNE approach, named as TrustSGCN, which corrects for incorrect embedding propagation in GCN by utilizing the trustworthiness on edge signs for high-order relationships inferred by the balance theory. The proposed approach consists of three modules: (M1) generation of each node's extended ego-network; (M2) measurement of trustworthiness on edge signs; and (M3) trustworthiness-aware propagation of embeddings. Furthermore, TrustSGCN learns the node embeddings by leveraging two well-known societal theories, i.e., balance and status. The experiments on four real-world signed network datasets demonstrate that TrustSGCN consistently outperforms five state-of-the-art GCN-based SNE methods. The code is available at https://github.com/kmj0792/TrustSGCN.
翻訳日:2023-09-07 00:54:18 公開日:2023-09-02
# ビッグモデル駆動型Few-shot連続学習

Big-model Driven Few-shot Continual Learning ( http://arxiv.org/abs/2309.00862v1 )

ライセンス: Link先を確認
Ziqi Gu and Chunyan Xu and Zihan Lu and Xin Liu and Anbo Dai and Zhen Cui(参考訳) 少数ショット連続学習(英語版) (fscl) は近年、集中的に注目され、いくつかの進歩を遂げているが、少数ショットのインクリメンタルなサンプルが限られているため、再び精度を大きく前進させることは困難である。 ライフラーニングにおける人間の認知能力に触発された本研究では,世界の大モデル(人間の累積知識など)の牽引の下で,モデルを徐々に進化させる,新たなビッグモデル駆動型Few-shot Continual Learning(B-FSCL)フレームワークを提案する。 具体的には,既存の大規模モデルの強力な符号化能力を活用するために,大規模モデル駆動型トランスファー学習を行い,新たなサンプルに連続モデルを適用することで,過度に適合する問題を回避している。 同一画像に対して,大モデルと連続モデルが異なる知覚結果を持つ可能性があることを考慮し,異なるサンプルに適応した高レベル柔軟性認知支援を提供するために,インスタンスレベルの適応的決定機構を導入する。 適応的決定は、大規模モデルの知識情報の適応蒸留を行い、継続モデルのパラメータを最適化するためにさらに適用することができる。 CIFAR100, minilmageNet, CUB200を含む3つの一般的なデータセットに対するB-FSCLの実験結果が, 最先端FSCLの手法を全面的に上回った。

Few-shot continual learning (FSCL) has attracted intensive attention and achieved some advances in recent years, but now it is difficult to again make a big stride in accuracy due to the limitation of only few-shot incremental samples. Inspired by distinctive human cognition ability in life learning, in this work, we propose a novel Big-model driven Few-shot Continual Learning (B-FSCL) framework to gradually evolve the model under the traction of the world's big-models (like human accumulative knowledge). Specifically, we perform the big-model driven transfer learning to leverage the powerful encoding capability of these existing big-models, which can adapt the continual model to a few of newly added samples while avoiding the over-fitting problem. Considering that the big-model and the continual model may have different perceived results for the identical images, we introduce an instance-level adaptive decision mechanism to provide the high-level flexibility cognitive support adjusted to varying samples. In turn, the adaptive decision can be further adopted to optimize the parameters of the continual model, performing the adaptive distillation of big-model's knowledge information. Experimental results of our proposed B-FSCL on three popular datasets (including CIFAR100, minilmageNet and CUB200) completely surpass all state-of-the-art FSCL methods.
翻訳日:2023-09-07 00:49:20 公開日:2023-09-02
# ゆるやかな文脈に敏感な言語を学ぶトランスフォーマーの能力評価

Evaluating Transformer's Ability to Learn Mildly Context-Sensitive Languages ( http://arxiv.org/abs/2309.00857v1 )

ライセンス: Link先を確認
Shunjie Wang, Shane Steinert-Threlkeld(参考訳) トランスフォーマーはNLPタスクでよく機能するが、最近の研究は、自己注意は理論上、一部の正規言語や文脈自由言語でも学習に限られていることを示唆している。 これらの知見は, 文脈に敏感であると考えられる自然言語のモデリングにおいて, その意味について考えるきっかけとなった。 我々はTransformerが様々な複雑さの文脈に敏感な様々な言語を学習する能力をテストするとともに、それらが不明瞭な分布データによく当てはまることを確かめるが、長い文字列に外挿する能力はLSTMよりも悪い。 分析の結果,学習した自己注意パターンと表現が依存性関係をモデル化し,そのモデルが言語を解くのに役立った可能性が示唆された。

Despite that Transformers perform well in NLP tasks, recent studies suggest that self-attention is theoretically limited in learning even some regular and context-free languages. These findings motivated us to think about their implications in modeling natural language, which is hypothesized to be mildly context-sensitive. We test Transformer's ability to learn a variety of mildly context-sensitive languages of varying complexities, and find that they generalize well to unseen in-distribution data, but their ability to extrapolate to longer strings is worse than that of LSTMs. Our analyses show that the learned self-attention patterns and representations modeled dependency relations and demonstrated counting behavior, which may have helped the models solve the languages.
翻訳日:2023-09-07 00:48:58 公開日:2023-09-02
# 多重デルタポテンシャルを持つ1次元ディラック方程式の束縛状態

Bound states of a one-dimensional Dirac equation with multiple delta-potentials ( http://arxiv.org/abs/2309.00856v1 )

ライセンス: Link先を確認
V. P. Gusynin, O. O. Sobol, A. V. Zolotaryuk and Y. Zolotaryuk(参考訳) ポテンシャルが$N$$\delta$-function Centerからなる1次元ディラック方程式の有界状態の研究のために2つのアプローチが開発されている。 そのうちの1つはグリーン関数法である。 この方法は有限個の$N$の$\delta$-pointセンターに適用でき、 2N\times2N$行列の行列式からエネルギー固有値を求めるための境界状態問題を減らすことができる。 2つ目のアプローチは、この中心の両側境界条件を接続する単一のデルタ中心の行列から始まる。 この接続行列はデルタ関数の片方向定数近似のスクイーズ限界から得られる。 次に、各中心の接続行列をそれぞれ有し、隣り合う中心間の1中心接続行列と自由移動行列を乗算することにより、システム全体の伝送行列を得る。 境界状態エネルギーの方程式は、全移動行列の要素の項で導かれる。 どちらのアプローチにおいても、境界状態エネルギーの超越方程式が導出され、デルタ中心の強さとそれらの間の距離に依存する解が導出され、この依存性は数値計算によって示される。 1, 2, 3つのデルタ中心(n=1,\,2,\,3$)からなるポテンシャルの束縛状態エネルギーは明示的に計算される。 強付加性の原理は、デルタ中心が1つの点で合わさったり、無限大に分岐した場合に限度で解析される。

Two approaches are developed for the study of the bound states of a one-dimensional Dirac equation with the potential consisting of $N$ $\delta$-function centers. One of these uses the Green's function method. This method is applicable to a finite number $N$ of $\delta$-point centers, reducing the bound state problem to finding the energy eigenvalues from the determinant of a $2N\times2N$ matrix. The second approach starts with the matrix for a single delta-center that connects the two-sided boundary conditions for this center. This connection matrix is obtained from the squeezing limit of a piecewise constant approximation of the delta-function. Having then the connection matrices for each center, the transmission matrix for the whole system is obtained by multiplying the one-center connection matrices and the free transfer matrices between neighbor centers. An equation for bound state energies is derived in terms of the elements of the total transfer matrix. Within both the approaches, the transcendental equations for bound state energies are derived, the solutions to which depend on the strength of delta-centers and the distance between them, and this dependence is illustrated by numerical calculations. The bound state energies for the potentials composed of one, two, and three delta-centers ($N=1,\,2,\,3$) are computed explicitly. The principle of strength additivity is analyzed in the limits as the delta-centers merge at a single point or diverge to infinity.
翻訳日:2023-09-07 00:48:44 公開日:2023-09-02
# DoRA:低リソースリアルタイム評価のためのドメインベース自己監視学習フレームワーク

DoRA: Domain-Based Self-Supervised Learning Framework for Low-Resource Real Estate Appraisal ( http://arxiv.org/abs/2309.00855v1 )

ライセンス: Link先を確認
Wei-Wei Du, Wei-Yao Wang, Wen-Chih Peng(参考訳) 需要と供給をつなぐ市場システムは、資産評価において不偏の意思決定を開発するために検討されてきた。 不動産評価は、対応する知識と市場の判断に基づいて見積をドメインの専門家が評価する必要があるため、金融機関の高コスト資産評価タスクの1つとなっている。 ドメインエキスパートの主体性を減らす既存の自動評価モデルは、効果的な評価のために多くのトランザクションを必要としており、トランザクションのラベリング努力だけでなく、新しい発展途上国や農村地域の一般化可能性にも制限されている。 ラベルなしの不動産集合から表現を学習するために、表形式のデータのための既存の自己教師付き学習(SSL)は、様々な重要な特徴を無視し、ドメイン知識を組み込むことができない。 本稿では,低リソース不動産評価のためのドメインベースの自己教師型学習フレームワークDoRAを提案する。 DoRAは、事前のドメイン知識に不動産表現を組み込むための不動産のメタデータに基づいて、プリテキストタスクとしてサンプル内地理的予測を事前訓練する。 さらに、サンプル間コントラスト学習を用いて、下流タスクの限定的なトランザクションに対して堅牢な表現を一般化する。 実世界の取引の3つのプロパティタイプに関するベンチマークの結果から,DoRAは表データ,グラフベースの手法,および教師付きアプローチにおいて,MAPEの少なくとも7.6%,MAEの11.59%,HR10%の3.34%でSSLベースラインを大幅に上回ることがわかった。 我々は、DoRAが新規に構築され、限られた記録を持つプロパティの汎用モデルを必要とする、類似の市場アプリケーションを持つ他の金融実践者にとって有用であることを期待している。 ソースコードはhttps://github.com/wwweiwei/doraで入手できる。

The marketplace system connecting demands and supplies has been explored to develop unbiased decision-making in valuing properties. Real estate appraisal serves as one of the high-cost property valuation tasks for financial institutions since it requires domain experts to appraise the estimation based on the corresponding knowledge and the judgment of the market. Existing automated valuation models reducing the subjectivity of domain experts require a large number of transactions for effective evaluation, which is predominantly limited to not only the labeling efforts of transactions but also the generalizability of new developing and rural areas. To learn representations from unlabeled real estate sets, existing self-supervised learning (SSL) for tabular data neglects various important features, and fails to incorporate domain knowledge. In this paper, we propose DoRA, a Domain-based self-supervised learning framework for low-resource Real estate Appraisal. DoRA is pre-trained with an intra-sample geographic prediction as the pretext task based on the metadata of the real estate for equipping the real estate representations with prior domain knowledge. Furthermore, inter-sample contrastive learning is employed to generalize the representations to be robust for limited transactions of downstream tasks. Our benchmark results on three property types of real-world transactions show that DoRA significantly outperforms the SSL baselines for tabular data, the graph-based methods, and the supervised approaches in the few-shot scenarios by at least 7.6% for MAPE, 11.59% for MAE, and 3.34% for HR10%. We expect DoRA to be useful to other financial practitioners with similar marketplace applications who need general models for properties that are newly built and have limited records. The source code is available at https://github.com/wwweiwei/DoRA.
翻訳日:2023-09-07 00:48:24 公開日:2023-09-02
# ガウス過程運動計画のための統一的変分フレームワーク

A Unifying Variational Framework for Gaussian Process Motion Planning ( http://arxiv.org/abs/2309.00854v1 )

ライセンス: Link先を確認
Lucas Cosier, Rares Iordan, Sicelukwanda Zwane, Giovanni Franzese, James T. Wilson, Marc Peter Deisenroth, Alexander Terenin, Yasemin Bekiroglu(参考訳) ロボットの動きを制御するためには、運動計画アルゴリズムは、モータや関節に関する物理的制約を考慮しつつ、高次元の状態空間における経路を計算し、滑らかで安定した動きを生成し、障害物を避け、衝突を防ぐ必要がある。 したがって、動き計画アルゴリズムは、競合する要求のバランスをとる必要があり、ノイズの処理、モデルエラーの処理、複雑な環境への展開を容易にするために不確実性を取り入れることが理想的である。 これらの問題に対処するために,様々な確率推論に基づく動作計画アルゴリズムを統一・一般化する変分ガウス過程に基づくロボット動作計画フレームワークを提案する。 我々のフレームワークは、エンドツーエンドのトレーニングにおいて、平等ベース、不平等ベース、ソフトモーションプランニング制約を取り入れ、実装が容易で、インターバルベースとモンテカルロベースの不確実性推定の両方を提供する。 異なる環境とロボットを用いて実験を行い,計画経路の実現可能性と障害物回避品質に基づくベースラインアプローチと比較した。 その結果,提案手法は成功率とパス品質のバランスが良好であることがわかった。

To control how a robot moves, motion planning algorithms must compute paths in high-dimensional state spaces while accounting for physical constraints related to motors and joints, generating smooth and stable motions, avoiding obstacles, and preventing collisions. A motion planning algorithm must therefore balance competing demands, and should ideally incorporate uncertainty to handle noise, model errors, and facilitate deployment in complex environments. To address these issues, we introduce a framework for robot motion planning based on variational Gaussian Processes, which unifies and generalizes various probabilistic-inference-based motion planning algorithms. Our framework provides a principled and flexible way to incorporate equality-based, inequality-based, and soft motion-planning constraints during end-to-end training, is straightforward to implement, and provides both interval-based and Monte-Carlo-based uncertainty estimates. We conduct experiments using different environments and robots, comparing against baseline approaches based on the feasibility of the planned paths, and obstacle avoidance quality. Results show that our proposed approach yields a good balance between success rates and path quality.
翻訳日:2023-09-07 00:47:32 公開日:2023-09-02
# ハイアンダーサンプリングMRIにおける相関拡散モデルと多周波拡散モデル

Correlated and Multi-frequency Diffusion Modeling for Highly Under-sampled MRI Reconstruction ( http://arxiv.org/abs/2309.00853v1 )

ライセンス: Link先を確認
Yu Guan, Chuanming Yu, Shiyu Lu, Zhuoxu Cui, Dong Liang, Qiegen Liu(参考訳) 既存のMRI再建法の多くは、特定の組織領域を考慮に入れずに、MR画像全体のtar-geted再構成を行う。 これは診断のために重要でない組織に対する再構成精度を強調できない可能性がある。 本研究では,k空間データの性質と拡散過程の組み合わせを活かし,再構成画像のテクスチャ詳細を予め保存するための戦略を異にするマルチ周波数先行のマイニングに焦点をあてた。 さらに、拡散過程は、その対象分布がプロセス内のノイズ分布によく似ている場合、より早く収束することができる。 これは様々な高周波先行抽出器によって達成できる。 この発見は、スコアベースジェネリックモデルの有効性をさらに固める。 以上の利点に加えて,MRI再構成の精度向上とアセル・エレートサンプリングの精度向上を図る。 実験により,提案手法がより正確な再構築と最先端の手法を上回ることを検証した。

Most existing MRI reconstruction methods perform tar-geted reconstruction of the entire MR image without tak-ing specific tissue regions into consideration. This may fail to emphasize the reconstruction accuracy on im-portant tissues for diagnosis. In this study, leveraging a combination of the properties of k-space data and the diffusion process, our novel scheme focuses on mining the multi-frequency prior with different strategies to pre-serve fine texture details in the reconstructed image. In addition, a diffusion process can converge more quickly if its target distribution closely resembles the noise distri-bution in the process. This can be accomplished through various high-frequency prior extractors. The finding further solidifies the effectiveness of the score-based gen-erative model. On top of all the advantages, our method improves the accuracy of MRI reconstruction and accel-erates sampling process. Experimental results verify that the proposed method successfully obtains more accurate reconstruction and outperforms state-of-the-art methods.
翻訳日:2023-09-07 00:46:32 公開日:2023-09-02
# エリート進化アルゴリズムにおける適合度レベルのドリフト解析

Drift Analysis with Fitness Levels for Elitist Evolutionary Algorithms ( http://arxiv.org/abs/2309.00851v1 )

ライセンス: Link先を確認
Jun He and Yuren Zhou(参考訳) フィットネスレベル法は、エリート進化アルゴリズムの計算時間を解析するための一般的なツールである。 そのアイデアは、検索空間を複数のフィットネスレベルに分割し、フィットネスレベル間の遷移確率を用いて計算時間の下限と上限を見積もることである。 しかし、この方法から生成される下限はしばしばタイトではない。 下限を改善するために,本論文では,適合度レベルに基づいて構築できる最も厳密な下限と上限の関係について,オープンな質問を厳格に研究する。 この問いに答えるために, 適合度レベルのドリフト解析が開発され, 最も厳密な境界問題は, 適応度レベルの制約を受ける多目的最適化問題として定式化されている。 フィットネスレベルから最も厳密な距離境界が構築され、初めて証明される。 すると、計量境界は線型境界に変換され、そこでは既存の線型境界は特別な場合である。 本稿では、自明な係数から最良の係数まで様々な線形境界をカバーできる一般的な枠組みを確立する。 既存のものと同じ境界を描くだけでなく、特にショートカットが存在するフィットネスランドスケープにおいて、より厳密な境界を描くためにも使用できるため、汎用的で有望である。 これは、TwoPath関数を最大化する (1+1) EA のケーススタディで示される。

The fitness level method is a popular tool for analyzing the computation time of elitist evolutionary algorithms. Its idea is to divide the search space into multiple fitness levels and estimate lower and upper bounds on the computation time using transition probabilities between fitness levels. However, the lower bound generated from this method is often not tight. To improve the lower bound, this paper rigorously studies an open question about the fitness level method: what are the tightest lower and upper time bounds that can be constructed based on fitness levels? To answer this question, drift analysis with fitness levels is developed, and the tightest bound problem is formulated as a constrained multi-objective optimization problem subject to fitness level constraints. The tightest metric bounds from fitness levels are constructed and proven for the first time. Then the metric bounds are converted into linear bounds, where existing linear bounds are special cases. This paper establishes a general framework that can cover various linear bounds from trivial to best coefficients. It is generic and promising, as it can be used not only to draw the same bounds as existing ones, but also to draw tighter bounds, especially on fitness landscapes where shortcuts exist. This is demonstrated in the case study of the (1+1) EA maximizing the TwoPath function.
翻訳日:2023-09-07 00:46:10 公開日:2023-09-02
# yolov8を用いたポストプロセッシングベースのベンガル文書レイアウト解析

A Post-Processing Based Bengali Document Layout Analysis with YOLOV8 ( http://arxiv.org/abs/2309.00848v1 )

ライセンス: Link先を確認
Nazmus Sakib Ahmed, Saad Sakib Noor, Ashraful Islam Shanto Sikder, Abhijit Paul(参考訳) 本稿では, YOLOv8モデルと革新的な後処理技術を用いて, Bengali Document Layout Analysis (DLA) の強化に着目する。 我々は、モデルロバストネスにデータ拡張を採用することで、複雑なBengaliスクリプトに特有の課題に取り組む。 精細な検証セットの評価を行った後、完全なデータセットに対するアプローチを微調整し、正確な要素セグメンテーションのための2段階の予測戦略を導いた。 我々のアンサンブルモデルと後処理の組み合わせは、BaDLADデータセットで特定された問題に対処しながら、個々のベースアーキテクチャよりも優れています。 このアプローチを活用することで,ベンガルの文書分析を推進し,OCRの改善と文書理解に寄与することを目指しており,BaDLADはこの取り組みの基盤として機能し,今後の研究を支援する。 さらに,新たな戦略を確立したソリューションに組み込む上で,実験は重要な洞察を与えました。

This paper focuses on enhancing Bengali Document Layout Analysis (DLA) using the YOLOv8 model and innovative post-processing techniques. We tackle challenges unique to the complex Bengali script by employing data augmentation for model robustness. After meticulous validation set evaluation, we fine-tune our approach on the complete dataset, leading to a two-stage prediction strategy for accurate element segmentation. Our ensemble model, combined with post-processing, outperforms individual base architectures, addressing issues identified in the BaDLAD dataset. By leveraging this approach, we aim to advance Bengali document analysis, contributing to improved OCR and document comprehension and BaDLAD serves as a foundational resource for this endeavor, aiding future research in the field. Furthermore, our experiments provided key insights to incorporate new strategies into the established solution.
翻訳日:2023-09-07 00:45:47 公開日:2023-09-02
# pSTarC: 完全テスト時間適応のための擬似ソースガイドターゲットクラスタリング

pSTarC: Pseudo Source Guided Target Clustering for Fully Test-Time Adaptation ( http://arxiv.org/abs/2309.00846v1 )

ライセンス: Link先を確認
Manogna Sreenivas, Goirik Chakrabarty, Soma Biswas(参考訳) テスト時間適応(TTA)は機械学習において重要な概念であり、テストデータの分散がトレーニングと異なる実世界のシナリオでモデルがうまく機能することを可能にする。 本研究では,TTAの比較的未探索領域を実世界のドメインシフト下で扱う,擬似ソースガイド型ターゲットクラスタリング(pSTarC)を提案する。 この方法は、ターゲットクラスタリング技術からインスピレーションを得て、ソース分類器を利用して擬似ソースサンプルを生成する。 テストサンプルは、これらの擬似ソースサンプルと戦略的に整合し、クラスタリングを容易にし、TTA性能を向上させる。 pSTarCは完全なテスト時間適応プロトコル内でのみ動作し、実際のソースデータの必要性を取り除く。 VisDA、Office-Home、DomainNet-126、CIFAR-100Cなど、さまざまなドメインシフトデータセットに対する実験的検証は、pSTarCの有効性を検証する。 本手法は,効率的な計算条件とともに予測精度を大幅に向上させる。 さらに,pSTarCフレームワークの汎用性についても,連続的なTTAフレームワークの有効性を示す。

Test Time Adaptation (TTA) is a pivotal concept in machine learning, enabling models to perform well in real-world scenarios, where test data distribution differs from training. In this work, we propose a novel approach called pseudo Source guided Target Clustering (pSTarC) addressing the relatively unexplored area of TTA under real-world domain shifts. This method draws inspiration from target clustering techniques and exploits the source classifier for generating pseudo-source samples. The test samples are strategically aligned with these pseudo-source samples, facilitating their clustering and thereby enhancing TTA performance. pSTarC operates solely within the fully test-time adaptation protocol, removing the need for actual source data. Experimental validation on a variety of domain shift datasets, namely VisDA, Office-Home, DomainNet-126, CIFAR-100C verifies pSTarC's effectiveness. This method exhibits significant improvements in prediction accuracy along with efficient computational requirements. Furthermore, we also demonstrate the universality of the pSTarC framework by showing its effectiveness for the continuous TTA framework.
翻訳日:2023-09-07 00:45:32 公開日:2023-09-02
# バランストレーニングによるドメインの一般化とモデル能力

Domain Generalization via Balancing Training Difficulty and Model Capability ( http://arxiv.org/abs/2309.00844v1 )

ライセンス: Link先を確認
Xueying Jiang, Jiaxing Huang, Sheng Jin, Shijian Lu(参考訳) ドメイン一般化(DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。 最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされ、訓練された一般化モデルに過度に適合または過度に適合する。 我々は、モデルの能力とトレーニングプロセスにおけるサンプルの困難との間のシーソーのバランスをとることで、ミスアライメントに取り組むMomentum DifficultyフレームワークであるMoDifyを設計する。 修正は2つの新しいデザインから成り、ドメイン一般化可能なモデルを学びながら、不均衡と戦うために協力する。 ひとつはMoDifyベースのData Augmentationで、RGB Shuffle技術を利用して、オンザフライで困難なトレーニングサンプルを生成する。 2つ目は、MoDifyベースのネットワーク最適化で、バランスとスムーズな学習のためのトレーニングサンプルを適切な困難で動的にスケジュールする。 ベルとホイッスルがなければ、MoDifyのシンプルな実装は複数のベンチマークで優れたパフォーマンスを達成する。 さらに、MoDifyはプラグインとして既存のメソッドを補完することができ、ジェネリックであり、異なる視覚的認識タスクで機能する。

Domain generalization (DG) aims to learn domain-generalizable models from one or multiple source domains that can perform well in unseen target domains. Despite its recent progress, most existing work suffers from the misalignment between the difficulty level of training samples and the capability of contemporarily trained models, leading to over-fitting or under-fitting in the trained generalization model. We design MoDify, a Momentum Difficulty framework that tackles the misalignment by balancing the seesaw between the model's capability and the samples' difficulties along the training process. MoDify consists of two novel designs that collaborate to fight against the misalignment while learning domain-generalizable models. The first is MoDify-based Data Augmentation which exploits an RGB Shuffle technique to generate difficulty-aware training samples on the fly. The second is MoDify-based Network Optimization which dynamically schedules the training samples for balanced and smooth learning with appropriate difficulty. Without bells and whistles, a simple implementation of MoDify achieves superior performance across multiple benchmarks. In addition, MoDify can complement existing methods as a plug-in, and it is generic and can work for different visual recognition tasks.
翻訳日:2023-09-07 00:45:18 公開日:2023-09-02
# 記号的注意層を持つ予測関係オブジェクトシンボルの発見

Discovering Predictive Relational Object Symbols with Symbolic Attentive Layers ( http://arxiv.org/abs/2309.00889v1 )

ライセンス: Link先を確認
Alper Ahmetoglu, Batuhan Celik, Erhan Oztop, Emre Ugur(参考訳) 本論文では,テーブルトップ環境における複数の物体とマニピュレータロボットの自己監督型連続的相互作用に基づいて,物体の記号表現とその関連性を発見するための新しいディープラーニングアーキテクチャを提案する。 モデルの重要な特徴は、オブジェクトの数の変化を自然に処理し、オブジェクトとオブジェクトの関係を明示的にシンボリックドメインにマッピングできることである。 モデルでは、オブジェクト間の関係シンボルとして扱われるオブジェクトの特徴から、個別の注意重みを計算する自己注意層を用いる。 これらのリレーショナルシンボルは、学習したオブジェクトシンボルを集約し、実行されたアクションが各オブジェクトに与える影響を予測するために使用される。 その結果、オブジェクトの特徴、アクション、および効果のデータセットから、エンドツーエンドでオブジェクトシンボルとリレーショナルシンボルを作成できるパイプラインが出来ます。 本研究では,ロボットが物体の相対位置に関連するシンボルを探索し,その効果を予測する必要があるシミュレーションテーブル上環境において,提案手法の性能と最先端のシンボル発見手法を比較した。 実験の結果,提案アーキテクチャは他のベースラインよりも性能が良く,オブジェクトシンボルだけでなく関係シンボルも生成できることがわかった。 さらに、学習したシンボルとオブジェクト間の関係パターンを分析し、モデルがどのように環境を解釈するかを学ぶ。 分析の結果,学習したシンボルは,表上の相対的な位置や物体の種類,水平方向の配置に関連し,環境の規則性を反映していることがわかった。

In this paper, we propose and realize a new deep learning architecture for discovering symbolic representations for objects and their relations based on the self-supervised continuous interaction of a manipulator robot with multiple objects on a tabletop environment. The key feature of the model is that it can handle a changing number number of objects naturally and map the object-object relations into symbolic domain explicitly. In the model, we employ a self-attention layer that computes discrete attention weights from object features, which are treated as relational symbols between objects. These relational symbols are then used to aggregate the learned object symbols and predict the effects of executed actions on each object. The result is a pipeline that allows the formation of object symbols and relational symbols from a dataset of object features, actions, and effects in an end-to-end manner. We compare the performance of our proposed architecture with state-of-the-art symbol discovery methods in a simulated tabletop environment where the robot needs to discover symbols related to the relative positions of objects to predict the observed effect successfully. Our experiments show that the proposed architecture performs better than other baselines in effect prediction while forming not only object symbols but also relational symbols. Furthermore, we analyze the learned symbols and relational patterns between objects to learn about how the model interprets the environment. Our analysis shows that the learned symbols relate to the relative positions of objects, object types, and their horizontal alignment on the table, which reflect the regularities in the environment.
翻訳日:2023-09-07 00:37:42 公開日:2023-09-02
# ディファレンシャルプライバシによる機械学習の厳密な境界

Tight Bounds for Machine Unlearning via Differential Privacy ( http://arxiv.org/abs/2309.00886v1 )

ライセンス: Link先を確認
Yiyang Huang, Cl\'ement L. Canonne(参考訳) セハリ,アチャリヤ,カマス,シュレシュ(ニューリプス2021)の「機械未学習」の定式化について検討し,訓練されたモデルが要求に応じて,訓練データから何点かの点を「解き放つ」ことができるよう要求し,それがそもそも含まれていなかったかのように,いわゆる「忘れられる権利」を定式化する。 Sekhari氏らは、モデルの正確性("削除能力")に影響を与えることなく、トレーニングされたモデルによって未学習に成功できるデータポイントの数について、肯定的な結果と否定的な結果を確立し、微分プライベート(DP)アルゴリズムを使用することで、機械学習が達成可能であることを示した。 我々の研究はこのギャップを完全に閉じ、dpベースのマシンアンラーニングアルゴリズムによって実現可能な削除能力の厳密な境界を得た。

We consider the formulation of "machine unlearning" of Sekhari, Acharya, Kamath, and Suresh (NeurIPS 2021), which formalizes the so-called "right to be forgotten" by requiring that a trained model, upon request, should be able to "unlearn" a number of points from the training data, as if they had never been included in the first place. Sekhari et al. established some positive and negative results about the number of data points that can be successfully unlearnt by a trained model without impacting the model's accuracy (the "deletion capacity"), showing that machine unlearning could be achieved by using differentially private (DP) algorithms. However, their results left open a gap between upper and lower bounds on the deletion capacity of these algorithms: our work fully closes this gap, obtaining tight bounds on the deletion capacity achievable by DP-based machine unlearning algorithms.
翻訳日:2023-09-07 00:37:19 公開日:2023-09-02
# 周波数自己教師型表現学習によるジェネリックファンドス画像強調ネットワーク

A Generic Fundus Image Enhancement Network Boosted by Frequency Self-supervised Representation Learning ( http://arxiv.org/abs/2309.00885v1 )

ライセンス: Link先を確認
Heng Li, Haofeng Liu, Huazhu Fu, Yanwu Xu, Hui Shu, Ke Niu, Yan Hu, Jiang Liu(参考訳) 眼科医や知的システムによる臨床検査に影響を及ぼす画像品質の劣化に、眼底写真は苦しむ傾向にある。 劣化画像の基底観察を促進するために拡張アルゴリズムが開発されたが、高いデータ要求と限定的な適用性が臨床展開を妨げる。 このボトルネックを回避するために、監視や余分なデータなしで未知の眼底画像の堅牢な補正を行うために、汎用的眼底画像強調ネットワーク(GFE-Net)を開発した。 画像周波数情報を利用して自己教師付き表現学習を行い、劣化画像から頑健な構造認識表現を学習する。 そして、表現学習と画像強調を兼ね備えたシームレスなアーキテクチャにより、GFE-Netは眼底画像を正確に修正し、網膜構造を保存できる。 GFE-Netの有効性と利点を示すため、総合的な実験を行った。 最先端のアルゴリズムと比較すると、GFE-Netはデータ依存性、パフォーマンスの向上、デプロイメント効率、スケールの一般化性において優れたパフォーマンスを実現している。 また,GFE-Netでは,各モジュールが画像強調に有効であることが確認された。

Fundus photography is prone to suffer from image quality degradation that impacts clinical examination performed by ophthalmologists or intelligent systems. Though enhancement algorithms have been developed to promote fundus observation on degraded images, high data demands and limited applicability hinder their clinical deployment. To circumvent this bottleneck, a generic fundus image enhancement network (GFE-Net) is developed in this study to robustly correct unknown fundus images without supervised or extra data. Levering image frequency information, self-supervised representation learning is conducted to learn robust structure-aware representations from degraded images. Then with a seamless architecture that couples representation learning and image enhancement, GFE-Net can accurately correct fundus images and meanwhile preserve retinal structures. Comprehensive experiments are implemented to demonstrate the effectiveness and advantages of GFE-Net. Compared with state-of-the-art algorithms, GFE-Net achieves superior performance in data dependency, enhancement performance, deployment efficiency, and scale generalizability. Follow-up fundus image analysis is also facilitated by GFE-Net, whose modules are respectively verified to be effective for image enhancement.
翻訳日:2023-09-07 00:37:00 公開日:2023-09-02
# 高精度な確率ロバスト性証明に向けて

Towards Certified Probabilistic Robustness with High Accuracy ( http://arxiv.org/abs/2309.00879v1 )

ライセンス: Link先を確認
Ruihan Zhang, Peixin Zhang, Jun Sun(参考訳) 敵対的な例は、ニューラルネットワーク上に構築された多くの重要なシステム(顔認識システムや自動運転車など)にセキュリティ上の脅威をもたらす。 堅牢なモデルを構築するための多くの方法が提案されているが、確実に堅牢で正確なニューラルネットワークモデルを構築する方法は未解決の問題である。 例えば、敵の訓練は経験的堅牢性を改善するが、モデルの堅牢性を保証するものではない。 一方で、認定トレーニングは、認定された堅牢性を提供するが、かなりの精度低下を犠牲にしている。 本研究では,高い精度と認定確率的ロバスト性を実現するための新しい手法を提案する。 本手法は,発散点における分散最小化を目標とする確率的ロバストトレーニング法と,予測の確率的ロバスト性判定のためのランタイム推論法という2つの部分を有する。 後者は、統計的保証のある実行時にモデルの確率的堅牢性の効率的な認証を可能にする。 これは、モデルロバストネスの一般的な定義から導かれる、与えられた近傍でのモデルの予測のばらつきを最小限に抑える訓練目標によって支持される。 我々のアプローチは様々な摂動に有効で、合理的に効率的です。 異なるデータセットでトレーニングされた複数のモデルに対する実験は、認証率と精度の両面で、既存のアプローチを大きく上回っていることを示している。

Adversarial examples pose a security threat to many critical systems built on neural networks (such as face recognition systems, and self-driving cars). While many methods have been proposed to build robust models, how to build certifiably robust yet accurate neural network models remains an open problem. For example, adversarial training improves empirical robustness, but they do not provide certification of the model's robustness. On the other hand, certified training provides certified robustness but at the cost of a significant accuracy drop. In this work, we propose a novel approach that aims to achieve both high accuracy and certified probabilistic robustness. Our method has two parts, i.e., a probabilistic robust training method with an additional goal of minimizing variance in terms of divergence and a runtime inference method for certified probabilistic robustness of the prediction. The latter enables efficient certification of the model's probabilistic robustness at runtime with statistical guarantees. This is supported by our training objective, which minimizes the variance of the model's predictions in a given vicinity, derived from a general definition of model robustness. Our approach works for a variety of perturbations and is reasonably efficient. Our experiments on multiple models trained on different datasets demonstrate that our approach significantly outperforms existing approaches in terms of both certification rate and accuracy.
翻訳日:2023-09-07 00:36:39 公開日:2023-09-02
# 教師付きコントラスト学習を用いたバイオ音響画像検出のための事前学習

Pretraining Representations for Bioacoustic Few-shot Detection using Supervised Contrastive Learning ( http://arxiv.org/abs/2309.00878v1 )

ライセンス: Link先を確認
Ilyass Moummad, Romain Serizel, Nicolas Farrugia(参考訳) 深層学習は近年,音響事象の検出と分類に広く利用されている。 その成功は、十分に大きなデータセットが利用可能であることと関連している。 バイオ音響アプリケーションでは、長い記録に注釈を付けるのに時間がかかり、費用がかかるため、ほとんどのタスクにラベル付きトレーニングデータはほとんどない。 したがって、教師付き学習は生体音響課題を解決するのに最適ではない。 バイオアコースティックなコミュニティは、数発の学習の枠組み、すなわちわずかにラベル付き例でシステムを訓練する枠組みの中で、音声イベント検出の問題を再放送した。 DCASEチャレンジのバイオアコースティックな音響イベント検出タスクは、興味のあるクラス毎に5つの注釈付き例しか与えられていないロングオーディオ録音におけるイベントの検出に焦点を当てている。 本稿では,教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより,スクラッチからリッチな特徴抽出器を学習することができることを示す。 トレーニングデータ中の未確認クラスの5ショットイベント検出において,このフレームワークが良好に転送できることを強調した。 検証セットで63.46\%、テストセットで42.7\%のFスコアを取得し、DCASEチャレンジで2位となった。 本稿では,データ拡張技術の重要な選択と,トレーニングセットに適用される学習戦略について,アブレーション研究を行う。

Deep learning has been widely used recently for sound event detection and classification. Its success is linked to the availability of sufficiently large datasets, possibly with corresponding annotations when supervised learning is considered. In bioacoustic applications, most tasks come with few labelled training data, because annotating long recordings is time consuming and costly. Therefore supervised learning is not the best suited approach to solve bioacoustic tasks. The bioacoustic community recasted the problem of sound event detection within the framework of few-shot learning, i.e. training a system with only few labeled examples. The few-shot bioacoustic sound event detection task in the DCASE challenge focuses on detecting events in long audio recordings given only five annotated examples for each class of interest. In this paper, we show that learning a rich feature extractor from scratch can be achieved by leveraging data augmentation using a supervised contrastive learning framework. We highlight the ability of this framework to transfer well for five-shot event detection on previously unseen classes in the training data. We obtain an F-score of 63.46\% on the validation set and 42.7\% on the test set, ranking second in the DCASE challenge. We provide an ablation study for the critical choices of data augmentation techniques as well as for the learning strategy applied on the training set.
翻訳日:2023-09-07 00:36:18 公開日:2023-09-02
# fearless luminance adaptation: 露光補正のためのマクロマイクロ階層トランス

Fearless Luminance Adaptation: A Macro-Micro-Hierarchical Transformer for Exposure Correction ( http://arxiv.org/abs/2309.00872v1 )

ライセンス: Link先を確認
Gehui Li, Jinyuan Liu, Long Ma, Zhiying Jiang, Xin Fan, Risheng Liu(参考訳) 理想的でない露出設定で撮影された写真は、しばしば視覚品質が悪い。 補正手順は大きく異なるため、単一のニューラルネットワークが全ての露光問題を処理するのは困難である。 さらに、畳み込みの固有の制限は、モデルが極めて過度に露出した領域の忠実な色や詳細を復元する能力を妨げる。 これらの制約を克服するために, 長距離依存性を捉えるためのマクロ注意, 局所特徴を抽出するマイクロ注意, 粗・細補正のための階層構造からなるマクロマイクロ階層トランスを提案する。 特に、相補的なマクロマイクロアテンションデザインは、グローバルな相互作用を可能にしながら、局所性を高める。 階層構造により、ネットワークは異なるスケール層の露光誤差を層ごとに補正することができる。 さらに、コントラスト制約を提案し、それを損失関数にシームレスに結合し、補正した画像を正のサンプルにプルし、動的に生成された負のサンプルからプッシュする。 これにより、残色歪みや詳細の喪失を除去することができる。 また,低照度顔認識と低照度セマンティクスセグメンテーションのための画像エンハンサーとして拡張した。 実験により,本手法は最先端手法よりも定量的かつ定性的に,より魅力的な結果が得られることが示された。

Photographs taken with less-than-ideal exposure settings often display poor visual quality. Since the correction procedures vary significantly, it is difficult for a single neural network to handle all exposure problems. Moreover, the inherent limitations of convolutions, hinder the models ability to restore faithful color or details on extremely over-/under- exposed regions. To overcome these limitations, we propose a Macro-Micro-Hierarchical transformer, which consists of a macro attention to capture long-range dependencies, a micro attention to extract local features, and a hierarchical structure for coarse-to-fine correction. In specific, the complementary macro-micro attention designs enhance locality while allowing global interactions. The hierarchical structure enables the network to correct exposure errors of different scales layer by layer. Furthermore, we propose a contrast constraint and couple it seamlessly in the loss function, where the corrected image is pulled towards the positive sample and pushed away from the dynamically generated negative samples. Thus the remaining color distortion and loss of detail can be removed. We also extend our method as an image enhancer for low-light face recognition and low-light semantic segmentation. Experiments demonstrate that our approach obtains more attractive results than state-of-the-art methods quantitatively and qualitatively.
翻訳日:2023-09-07 00:35:56 公開日:2023-09-02
# 表現、変換、補償による弱教師付き画像分割の促進

Boosting Weakly-Supervised Image Segmentation via Representation, Transform, and Compensator ( http://arxiv.org/abs/2309.00871v1 )

ライセンス: Link先を確認
Chunyan Wang, Dong Zhang, Rui Yan(参考訳) 弱教師付きイメージセグメンテーション(WSIS)は、画像レベルのクラスラベルに依存するコンピュータビジョンにおいて重要なタスクである。 既存のWSISアプローチでは、多段階の訓練手順が広く使われており、質の高い擬似マスクを基礎として得られ、大きな進歩をもたらした。 しかし、ワンステージのWSIS手法は、実用性を制限する低品質の擬似マスクに悩まされているにもかかわらず、訓練手順を簡素化する可能性から近年注目を集めている。 そこで本研究では,Symese ネットワークとコントラスト学習を併用して,クラスアクティベーションマップ(CAM)の品質向上と自己修復プロセスを実現する,新たなワンステージ WSIS 手法を提案する。 提案手法では,異なる特徴表現をバックボーンから利用することにより,信頼性の高いオブジェクト領域を拡張できる。 さらに、コントラスト学習のための頑健なクラスプロトタイプを学習し、グローバルコンテキスト情報をキャプチャして粗いCAMをフィードバックするクロストランスフォーメーション正規化モジュールを導入し、CAMの品質を向上させる。 最終的な高品質CAMは、セグメント化結果を監督するために擬似マスクとして使用される。 PASCAL VOC 2012データセットの実験結果から,本手法は,PASCAL VOC 2012 valセットとテストセットにおいて,67.2%,68.76% mIoUをそれぞれ達成し,他の最先端手法よりも有意に優れていた。 さらに,本手法は弱教師付きオブジェクトローカライゼーションタスクに拡張され,実験結果から,本手法が競争力のある結果を得ることを示す。

Weakly-supervised image segmentation (WSIS) is a critical task in computer vision that relies on image-level class labels. Multi-stage training procedures have been widely used in existing WSIS approaches to obtain high-quality pseudo-masks as ground-truth, resulting in significant progress. However, single-stage WSIS methods have recently gained attention due to their potential for simplifying training procedures, despite often suffering from low-quality pseudo-masks that limit their practical applications. To address this issue, we propose a novel single-stage WSIS method that utilizes a siamese network with contrastive learning to improve the quality of class activation maps (CAMs) and achieve a self-refinement process. Our approach employs a cross-representation refinement method that expands reliable object regions by utilizing different feature representations from the backbone. Additionally, we introduce a cross-transform regularization module that learns robust class prototypes for contrastive learning and captures global context information to feed back rough CAMs, thereby improving the quality of CAMs. Our final high-quality CAMs are used as pseudo-masks to supervise the segmentation result. Experimental results on the PASCAL VOC 2012 dataset demonstrate that our method significantly outperforms other state-of-the-art methods, achieving 67.2% and 68.76% mIoU on PASCAL VOC 2012 val set and test set, respectively. Furthermore, our method has been extended to weakly supervised object localization task, and experimental results demonstrate that our method continues to achieve very competitive results.
翻訳日:2023-09-07 00:35:34 公開日:2023-09-02
# 遠方政党間のベル状態の非破壊的識別

Nondestructive discrimination of Bell states between distant parties ( http://arxiv.org/abs/2309.00869v1 )

ライセンス: Link先を確認
Bohdan Bilash, Youngrong Lim, Hyukjoon Kwon, Yosep Kim, Hyang-Tag Lim, Wooyeong Song, and Yong-Su Kim(参考訳) ベル状態を破壊せずに特定することは、量子通信や量子コンピューティングといった現代の量子技術でしばしば扱われる。 実際には、量子絡み合った状態は、しばしば遠くのパーティに分散しており、パーティ間のインライン通信をすることなく、それぞれの場所でそれぞれを個別に決定する必要があるかもしれない。 本稿では,2つの当事者に分散した任意のベル状態を破壊せずに判別する方式を提案する。 このスキームには2つの絡み合った状態が必要であり、これらの補助的な資源がなければ、ベル状態を非破壊的に識別する確率は 1/4 であり、これはランダムな推測と同じである。 さらに,IonQ量子コンピュータによる原理実証実験を行い,実用量子プロセッサに適用した場合に古典的境界を超えることができることを示した。

Identifying Bell state without destroying it is frequently dealt with in nowadays quantum technologies such as quantum communication and quantum computing. In practice, quantum entangled states are often distributed among distant parties, and it might be required to determine them separately at each location, without inline communication between parties. We present a scheme for discriminating an arbitrary Bell state distributed to two distant parties without destroying it. The scheme requires two entangled states that are pre-shared between the parties, and we show that without these ancillary resources, the probability of non-destructively discriminating the Bell state is bounded by 1/4, which is the same as random guessing. Furthermore, we demonstrate a proof-of-principle experiment through an IonQ quantum computer that our scheme can surpass classical bounds when applied to practical quantum processor.
翻訳日:2023-09-07 00:35:05 公開日:2023-09-02
# チュートリアル:クラスター分析、潜在クラス分析、多変量混合モデルにおけるサンプルサイズ、効果サイズ、統計パワーの事前推定

Tutorial: a priori estimation of sample size, effect size, and statistical power for cluster analysis, latent class analysis, and multivariate mixture models ( http://arxiv.org/abs/2309.00866v1 )

ライセンス: Link先を確認
Edwin S Dalmaijer(参考訳) データ収集を始める前に、研究者は通常、個々の観察回数を計算する。 これは十分な統計力を持つ研究を行うのに不可欠であり、しばしば事前登録や認可研究の基盤となる。 従来の統計テストでは、一般に許容される統計的パワーのレベル、(gu)推定効果のサイズを決定し、両方の値を使って必要なサンプルサイズを計算する。 しかし、サブグループを特定する分析では、統計力の確立が困難である。 サンプルサイズが十分なしきい値に達すると、効果の大きさは測定された特徴の数と下層のサブグループ分離によって決定される。 その結果、統計力の優先計算は、明らかに複雑である。 本チュートリアルでは、サブグループを特定する分析のためのサンプルサイズと効果サイズを決定するロードマップを提供する。 まず、研究者が選択した分野における効果サイズに関する期待を定式化し、これを用いて測定された変数の最小数を計算する手順を紹介します。 次に、サブグループ分析における最小サンプルサイズを確立する方法について概説する。 最後に,k-means, Ward agglomerative hierarchical clustering, c-means fuzzy clustering, latent class analysis, latent profile analysis, Gaussian mix modellingという,最も一般的なサブグループ分析の基準表を提供するためにシミュレーションを利用する。 この表は、許容可能な統計力を達成するための、期待される部分群(サンプルサイズ)と特徴(測定変数)に対する最小の観測数を示し、研究設計において容易に使用できる。

Before embarking on data collection, researchers typically compute how many individual observations they should do. This is vital for doing studies with sufficient statistical power, and often a cornerstone in study pre-registrations and grant applications. For traditional statistical tests, one would typically determine an acceptable level of statistical power, (gu)estimate effect size, and then use both values to compute the required sample size. However, for analyses that identify subgroups, statistical power is harder to establish. Once sample size reaches a sufficient threshold, effect size is primarily determined by the number of measured features and the underlying subgroup separation. As a consequence, a priory computations of statistical power are notoriously complex. In this tutorial, I will provide a roadmap to determining sample size and effect size for analyses that identify subgroups. First, I introduce a procedure that allows researchers to formalise their expectations about effect sizes in their domain of choice, and use this to compute the minimally required number of measured variables. Next, I outline how to establish the minimum sample size in subgroup analyses. Finally, I use simulations to provide a reference table for the most popular subgroup analyses: k-means, Ward agglomerative hierarchical clustering, c-means fuzzy clustering, latent class analysis, latent profile analysis, and Gaussian mixture modelling. The table shows the minimum numbers of observations per expected subgroup (sample size) and features (measured variables) to achieve acceptable statistical power, and can be readily used in study design.
翻訳日:2023-09-07 00:34:49 公開日:2023-09-02
# Equitable-FL:資源制約環境のための疎結合学習

Equitable-FL: Federated Learning with Sparsity for Resource-Constrained Environment ( http://arxiv.org/abs/2309.00864v1 )

ライセンス: Link先を確認
Indrajeet Kumar Sinha, Shekhar Verma, Krishna Pratap Singh(参考訳) フェデレーション学習では、モデルトレーニングは複数のコンピュータデバイスで実行され、パラメータのみがデータインスタンスを交換することなく共通の中央サーバと共有される。 この戦略は個々のクライアントに豊富なリソースを想定し、これらのリソースを利用してユーザーモデルとしてよりリッチなモデルを構築する。 しかし、資源の豊富さの仮定に違反している場合、一部のノードがプロセスに参加できない場合、学習は不可能になる可能性がある。 本稿では,資源制約環境においてうまく機能する分散型フェデレーション学習を提案する。 私たちの目標は、ノードの空間、コンピューティング、帯域幅の不足に関わらず、学習を可能にすることです。 この手法は, モデルサイズvizが資源不足を定義することに基づいて, 資源制約環境下でのモデルトレーニングにおいて, 精度に影響を与えることなくパラメータ数の削減が重要であることを示す。 この研究では、Lottery Ticket仮説を用いてモデルを段階的に分散し、リソース不足のノードが協調トレーニングに参加するように促す。 我々は、$MNIST$、$F-MNIST$、$CIFAR-10$ベンチマークデータセット、$Brain-MRI$データと$PlantVillage$データセットでEquitable-FLを検証する。 さらに,sparsityがパフォーマンス,モデルサイズコンパクト化,トレーニングのスピードアップに与える影響について検討した。 畳み込みニューラルネットワークの訓練実験の結果, 異種資源制約学習環境における等価FLの有効性が検証された。

In Federated Learning, model training is performed across multiple computing devices, where only parameters are shared with a common central server without exchanging their data instances. This strategy assumes abundance of resources on individual clients and utilizes these resources to build a richer model as user's models. However, when the assumption of the abundance of resources is violated, learning may not be possible as some nodes may not be able to participate in the process. In this paper, we propose a sparse form of federated learning that performs well in a Resource Constrained Environment. Our goal is to make learning possible, regardless of a node's space, computing, or bandwidth scarcity. The method is based on the observation that model size viz a viz available resources defines resource scarcity, which entails that reduction of the number of parameters without affecting accuracy is key to model training in a resource-constrained environment. In this work, the Lottery Ticket Hypothesis approach is utilized to progressively sparsify models to encourage nodes with resource scarcity to participate in collaborative training. We validate Equitable-FL on the $MNIST$, $F-MNIST$, and $CIFAR-10$ benchmark datasets, as well as the $Brain-MRI$ data and the $PlantVillage$ datasets. Further, we examine the effect of sparsity on performance, model size compaction, and speed-up for training. Results obtained from experiments performed for training convolutional neural networks validate the efficacy of Equitable-FL in heterogeneous resource-constrained learning environment.
翻訳日:2023-09-07 00:34:20 公開日:2023-09-02
# 非エルミート準結晶中の絡み合い相転移

Entanglement phase transitions in non-Hermitian quasicrystals ( http://arxiv.org/abs/2309.00924v1 )

ライセンス: Link先を確認
Longwen Zhou(参考訳) 絡み合いエントロピーのスケーリング法則は、量子多体系の非単位進化の間に定性的変化を起こす可能性がある。 本研究では,そのような絡み合い相転移を一次元非エルミート準結晶(nhqcs)で解明する。 非エルミート効果と準周期ポテンシャルの相互作用により、異なるスケーリング法則と臨界挙動を持つ2種類の絡み合い遷移を同定する。 最初のタイプは典型的な体積法則から面積法則遷移を表し、PT対称性の破れと局所化遷移と共に起こる。 第2のタイプは、定常的絡み合いエントロピーにおけるボリュームロースケーリングを伴う臨界相によって媒介される、異常なログロー対領域ロー遷移である。 これらのエンタングリング相と遷移は、NHQCの2つの代表モデルで示される。 その結果,非エルミート乱数系の絡み合い遷移の研究が進み,さらにNHQCの絡み合いパターンが明らかにされた。

The scaling law of entanglement entropy could undergo qualitative changes during the nonunitary evolution of a quantum many-body system. In this work, we uncover such entanglement phase transitions in one-dimensional non-Hermitian quasicrystals (NHQCs). We identify two types of entanglement transitions with different scaling laws and critical behaviors due to the interplay between non-Hermitian effects and quasiperiodic potentials. The first type represents a typical volume-law to area-law transition, which happens together with a PT-symmetry breaking and a localization transition. The second type features an abnormal log-law to area-law transition, which is mediated by a critical phase with a volume-law scaling in the steady-state entanglement entropy. These entangling phases and transitions are demonstrated in two representative models of NHQCs. Our results thus advanced the study of entanglement transitions in non-Hermitian disordered systems and further disclosed the rich entanglement patterns in NHQCs.
翻訳日:2023-09-07 00:29:00 公開日:2023-09-02
# GBE-MLZSL:マルチラベルゼロショット学習のためのグループバイエンハンスメントフレームワーク

GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot Learning ( http://arxiv.org/abs/2309.00923v1 )

ライセンス: Link先を確認
Ziming Liu, Jingcai Guo, Xiaocheng Lu, Song Guo, Peiran Dong, Jiewei Zhang(参考訳) 本稿では,MLZSL(Multi-label scenario)におけるゼロショット学習の難題について考察する。このモデルでは,見知らぬクラスと補助知識(セマンティック情報など)に基づいて,サンプル内の複数の未確認クラス(画像など)を認識できるように訓練されている。 既存の方法は、通常、空間的または意味的な特性の次元からサンプルに居住する様々なクラスの関係を分析し、学習したモデルを目に見えないクラスに転送する。 しかし、ローカル機能とグローバル機能の効果的な統合は無視する。 すなわち、未知のクラスを推論する過程で、グローバルな特徴は特徴空間における画像の主方向を表し、局所的な特徴は特定の範囲内で一意性を維持するべきである。 この統合的な無視により、モデルはイメージの主要コンポーネントの把握を失うことになる。 推論段階における授業の局所的な存在のみを考慮すれば、避けられないバイアスが生じる。 本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、これらの特性を完全に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。 具体的には、特徴マップをいくつかの特徴グループに分割し、各特徴グループをローカル情報識別モジュール(LID)と独立してトレーニングし、特異性を保証する。 一方、グローバルエンハンスメントモジュール(GEM)は主方向を維持するように設計されている。 さらに、静的グラフ構造は、局所的な特徴の相関を構築するために設計されている。 大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験により、提案したGBE-MLZSLは、最先端の手法よりも大きなマージンを持つことを示した。

This paper investigates a challenging problem of zero-shot learning in the multi-label scenario (MLZSL), wherein, the model is trained to recognize multiple unseen classes within a sample (e.g., an image) based on seen classes and auxiliary knowledge, e.g., semantic information. Existing methods usually resort to analyzing the relationship of various seen classes residing in a sample from the dimension of spatial or semantic characteristics, and transfer the learned model to unseen ones. But they ignore the effective integration of local and global features. That is, in the process of inferring unseen classes, global features represent the principal direction of the image in the feature space, while local features should maintain uniqueness within a certain range. This integrated neglect will make the model lose its grasp of the main components of the image. Relying only on the local existence of seen classes during the inference stage introduces unavoidable bias. In this paper, we propose a novel and effective group bi-enhancement framework for MLZSL, dubbed GBE-MLZSL, to fully make use of such properties and enable a more accurate and robust visual-semantic projection. Specifically, we split the feature maps into several feature groups, of which each feature group can be trained independently with the Local Information Distinguishing Module (LID) to ensure uniqueness. Meanwhile, a Global Enhancement Module (GEM) is designed to preserve the principal direction. Besides, a static graph structure is designed to construct the correlation of local features. Experiments on large-scale MLZSL benchmark datasets NUS-WIDE and Open-Images-v4 demonstrate that the proposed GBE-MLZSL outperforms other state-of-the-art methods with large margins.
翻訳日:2023-09-07 00:28:44 公開日:2023-09-02
# 放射線学レポートの多言語構造表現のための知識グラフ埋め込み

Knowledge Graph Embeddings for Multi-Lingual Structured Representations of Radiology Reports ( http://arxiv.org/abs/2309.00917v1 )

ライセンス: Link先を確認
Tom van Sonsbeek, Xiantong Zhen and Marcel Warring(参考訳) 臨床テキストの分析方法は、ここ数年で大きく変化してきた。 BERT のような言語モデルの導入は、PubMedBERT や ClinicalBERT のような(バイオ)医療分野への適応につながった。 これらのモデルは、アーカイブされた医療文書の大規模なデータベースに依存している。 正確性は良好だが、解釈可能性の欠如と言語間の転送制限の両方が臨床での使用を制限している。 本稿では,放射線レポートに特化する新しい軽量グラフベース埋め込み手法を提案する。 報告書の構造と構成を考慮に入れつつ,多言語snomed臨床用語知識ベースを通じて報告書の医療用語を関連付ける。 結果として得られたグラフ埋め込みは、臨床用語の根底にある関係を解明し、大きな事前学習データセットに頼ることなく、臨床医にとってより理解しやすく、臨床的により正確な表現を実現する。 本稿では,X線レポートの疾患分類と画像分類という2つのタスクにこの埋め込みを組み込むことについて述べる。 疾患分類では、当社のモデルはBERTベースのモデルと競合するが、サイズやデータ要件のトレーニングは小さくなっている。 画像分類では,クロスモーダル知識伝達を利用したグラフ埋め込みの有効性を示し,この手法が様々な言語でどのように利用できるかを示す。

The way we analyse clinical texts has undergone major changes over the last years. The introduction of language models such as BERT led to adaptations for the (bio)medical domain like PubMedBERT and ClinicalBERT. These models rely on large databases of archived medical documents. While performing well in terms of accuracy, both the lack of interpretability and limitations to transfer across languages limit their use in clinical setting. We introduce a novel light-weight graph-based embedding method specifically catering radiology reports. It takes into account the structure and composition of the report, while also connecting medical terms in the report through the multi-lingual SNOMED Clinical Terms knowledge base. The resulting graph embedding uncovers the underlying relationships among clinical terms, achieving a representation that is better understandable for clinicians and clinically more accurate, without reliance on large pre-training datasets. We show the use of this embedding on two tasks namely disease classification of X-ray reports and image classification. For disease classification our model is competitive with its BERT-based counterparts, while being magnitudes smaller in size and training data requirements. For image classification, we show the effectiveness of the graph embedding leveraging cross-modal knowledge transfer and show how this method is usable across different languages.
翻訳日:2023-09-07 00:28:12 公開日:2023-09-02
# blsp: 継続文の動作アライメントによるブートストラップ言語学習

BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing ( http://arxiv.org/abs/2309.00916v1 )

ライセンス: Link先を確認
Chen Wang, Minpeng Liao, Zhongqiang Huang, Jinliang Lu, Junhong Wu, Yuchen Liu, Chengqing Zong, Jiajun Zhang(参考訳) 大きな言語モデル(LLM)の出現は、その顕著な言語能力を音声に拡張することに大きな関心を喚起した。 しかし、音声とテキストの相同性はいまだに未解決の問題である。 現在のソリューションは2つの戦略に分類できる。 1つは、別々に訓練された音声認識システムの出力(トークンまたは状態)をLLMの入力として使用するカスケードアプローチであり、音声とテキストのアライメントをモデル化する可能性を制限する。 もう1つは、音声命令データに依存するエンドツーエンドのアプローチであり、膨大な量の収集が困難である。 本稿では,これらの問題に対処し,継続文の動作アライメントによるBootstraps Language-Speech Pre-trainingを提案する。 我々は、凍結音声エンコーダとLDMの間の軽量なモダリティアダプタを学習し、LLMが入力のモダリティ、すなわち音声セグメントまたはその転写文に関わらず、同じ生成挙動を示すことを保証する。 トレーニングプロセスは2つのステップに分けられる。 最初のステップは、LLMにプレフィックスとして音声書き起こしのテキストを生成するように促し、テキスト継続を取得する。 第2のステップでは、これらの継続を教師付き信号として使用して、エンドツーエンドでモダリティアダプタを訓練する。 この簡単なプロセスは、音声認識、音声翻訳、音声言語理解、音声会話をゼロショットのクロスリンガルシナリオでも可能にし、llmの能力を音声に拡張できることを実証する。

The emergence of large language models (LLMs) has sparked significant interest in extending their remarkable language capabilities to speech. However, modality alignment between speech and text still remains an open problem. Current solutions can be categorized into two strategies. One is a cascaded approach where outputs (tokens or states) of a separately trained speech recognition system are used as inputs for LLMs, which limits their potential in modeling alignment between speech and text. The other is an end-to-end approach that relies on speech instruction data, which is very difficult to collect in large quantities. In this paper, we address these issues and propose the BLSP approach that Bootstraps Language-Speech Pre-training via behavior alignment of continuation writing. We achieve this by learning a lightweight modality adapter between a frozen speech encoder and an LLM, ensuring that the LLM exhibits the same generation behavior regardless of the modality of input: a speech segment or its transcript. The training process can be divided into two steps. The first step prompts an LLM to generate texts with speech transcripts as prefixes, obtaining text continuations. In the second step, these continuations are used as supervised signals to train the modality adapter in an end-to-end manner. We demonstrate that this straightforward process can extend the capabilities of LLMs to speech, enabling speech recognition, speech translation, spoken language understanding, and speech conversation, even in zero-shot cross-lingual scenarios.
翻訳日:2023-09-07 00:27:51 公開日:2023-09-02
# 蛍光顕微鏡による転移細胞の自律的検出のための深層マルチアテンションチャネルネットワークを用いた新しい枠組み

A novel framework employing deep multi-attention channels network for the autonomous detection of metastasizing cells through fluorescence microscopy ( http://arxiv.org/abs/2309.00911v1 )

ライセンス: Link先を確認
Michail Mamalakis, Sarah C. Macfarlane, Scott V. Notley, Annica K.B Gad, George Panoutsos(参考訳) 正常細胞と転移細胞を区別できる透明な大規模イメージングベースのフレームワークを開発した。 本手法は、マルチアテンションチャネルネットワークとグローバル・リゾナブル・テクニックの組み合わせを用いて、正常および転移単細胞におけるアクチンおよびビメンチンフィラメントの空間構造を示す蛍光顕微鏡画像に依存する。 正常細胞(bjプライマリ線維芽細胞)と同化・形質転換・浸潤細胞(bjtertsv40trasv12)の分類を試験した。 手動アノテーションは、生物学的に関連する特徴が複雑であるため、自動化するのは簡単ではない。 本研究では,確立されたディープラーニングネットワークと,新たなマルチアテンションチャネルアーキテクチャを用いた。 ネットワークの解釈可能性を高めるため,我々は全セル画像の重み付け幾何平均とその局所的なgradcamスコアを関連付けた解釈可能なグローバル説明可能なアプローチを開発した。 解析の結果, 正常細胞から浸潤細胞, 転移細胞への腫瘍化に伴う細胞骨格の変化について, より詳細な, 生物学的に関連した理解が得られた。 また,転移(ビメンチンの空間分布)に対する診断ツールの開発に向けて,空間マイクロメートルレベルのバイオマーカーの可能性についても検討した。

We developed a transparent computational large-scale imaging-based framework that can distinguish between normal and metastasizing human cells. The method relies on fluorescence microscopy images showing the spatial organization of actin and vimentin filaments in normal and metastasizing single cells, using a combination of multi-attention channels network and global explainable techniques. We test a classification between normal cells (Bj primary fibroblast), and their isogenically matched, transformed and invasive counterpart (BjTertSV40TRasV12). Manual annotation is not trivial to automate due to the intricacy of the biologically relevant features. In this research, we utilized established deep learning networks and our new multi-attention channel architecture. To increase the interpretability of the network - crucial for this application area - we developed an interpretable global explainable approach correlating the weighted geometric mean of the total cell images and their local GradCam scores. The significant results from our analysis unprecedently allowed a more detailed, and biologically relevant understanding of the cytoskeletal changes that accompany oncogenic transformation of normal to invasive and metastasizing cells. We also paved the way for a possible spatial micrometre-level biomarker for future development of diagnostic tools against metastasis (spatial distribution of vimentin).
翻訳日:2023-09-07 00:27:26 公開日:2023-09-02
# magicprop:モーションアウェアの外観伝播を利用した拡散型ビデオ編集

MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation ( http://arxiv.org/abs/2309.00908v1 )

ライセンス: Link先を確認
Hanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng(参考訳) 本論文は,映像の視覚的外観を,動作を保ちながら修正するという課題に対処する。 映像編集プロセスを,映像編集と映像認識の2段階に分けた,magicpropという新たな枠組みが提案されている。 第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。 これらの技法の柔軟性はフレーム内の任意の領域の編集を可能にする。 第2段階では、magicpropは編集されたフレームを外観参照として使用し、残りのフレームを自己回帰レンダリングアプローチで生成する。 これを実現するために, 目標フレームの基準外観, 目標運動, およびそれ以前の外観をコンディショニングすることにより, 目標フレームを合成する拡散型条件生成モデルpropdpmを開発した。 自動回帰編集アプローチは、結果のビデオの時間的一貫性を保証する。 全体的にmagicpropは、画像編集技術の柔軟性と、自己回帰モデリングの時間的一貫性を両立させ、入力ビデオの任意の領域におけるオブジェクトタイプや美的スタイルを柔軟に編集し、フレーム間の時間的一貫性を維持している。 様々なビデオ編集シナリオにおける広範囲な実験がmagicpropの有効性を示している。

This paper addresses the issue of modifying the visual appearance of videos while preserving their motion. A novel framework, named MagicProp, is proposed, which disentangles the video editing process into two stages: appearance editing and motion-aware appearance propagation. In the first stage, MagicProp selects a single frame from the input video and applies image-editing techniques to modify the content and/or style of the frame. The flexibility of these techniques enables the editing of arbitrary regions within the frame. In the second stage, MagicProp employs the edited frame as an appearance reference and generates the remaining frames using an autoregressive rendering approach. To achieve this, a diffusion-based conditional generation model, called PropDPM, is developed, which synthesizes the target frame by conditioning on the reference appearance, the target motion, and its previous appearance. The autoregressive editing approach ensures temporal consistency in the resulting videos. Overall, MagicProp combines the flexibility of image-editing techniques with the superior temporal consistency of autoregressive modeling, enabling flexible editing of object types and aesthetic styles in arbitrary regions of input videos while maintaining good temporal consistency across frames. Extensive experiments in various video editing scenarios demonstrate the effectiveness of MagicProp.
翻訳日:2023-09-07 00:27:03 公開日:2023-09-02
# 動的計算オフロードのためのマルチヘッドアンサンブルマルチタスク学習手法

A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading ( http://arxiv.org/abs/2309.00907v1 )

ライセンス: Link先を確認
Ruihuai Liang, Bo Yang, Zhiwen Yu, Xuelin Cao, Derrick Wing Kwan Ng, Chau Yuen(参考訳) 計算オフロードは、モバイル/マルチアクセスエッジコンピューティング(mec)として知られるモバイルエッジサーバ(mess)にコンピューティングタスクを転送することで、計算集約的でレイテンシに敏感なアプリケーションをサポートする一般的なソリューションとなっている。 MECの性能を改善するには、オフロード決定(例えば、オフロードの有無)とMECの計算資源割り当てを含む最適なオフロード戦略を設計する必要がある。 この設計は、一般にNPハードである混合整数非線形プログラミング(MINLP)問題として定式化することができ、その効果的な解は、よく訓練されたディープニューラルネットワーク(DNN)モデルを用いてオンライン推論を行うことによって得られる。 しかし,システム環境が動的に変化すると,入力パラメータのドリフトによりDNNモデルの有効性が低下し,DNNモデルの一般化能力が低下する可能性がある。 この特異な課題に対処するため、本稿では、共有バックボーンと複数の予測ヘッド(PH)を備えたマルチヘッドマルチタスク学習(MEMTL)アプローチを提案する。 具体的には、共有バックボーンはphsトレーニング中に不変となり、推論結果がアンサンブルされ、必要なトレーニングオーバーヘッドを大幅に削減し、推論パフォーマンスが向上する。 これにより、時変無線環境においても、オフロード決定と資源配分の連立最適化問題を効率的に解決することができる。 実験の結果,MEMTLは,追加のトレーニングデータを必要とすることなく,推定精度と平均二乗誤差の両方でベンチマーク手法より優れていた。

Computation offloading has become a popular solution to support computationally intensive and latency-sensitive applications by transferring computing tasks to mobile edge servers (MESs) for execution, which is known as mobile/multi-access edge computing (MEC). To improve the MEC performance, it is required to design an optimal offloading strategy that includes offloading decision (i.e., whether offloading or not) and computational resource allocation of MEC. The design can be formulated as a mixed-integer nonlinear programming (MINLP) problem, which is generally NP-hard and its effective solution can be obtained by performing online inference through a well-trained deep neural network (DNN) model. However, when the system environments change dynamically, the DNN model may lose efficacy due to the drift of input parameters, thereby decreasing the generalization ability of the DNN model. To address this unique challenge, in this paper, we propose a multi-head ensemble multi-task learning (MEMTL) approach with a shared backbone and multiple prediction heads (PHs). Specifically, the shared backbone will be invariant during the PHs training and the inferred results will be ensembled, thereby significantly reducing the required training overhead and improving the inference performance. As a result, the joint optimization problem for offloading decision and resource allocation can be efficiently solved even in a time-varying wireless environment. Experimental results show that the proposed MEMTL outperforms benchmark methods in both the inference accuracy and mean square error without requiring additional training data.
翻訳日:2023-09-07 00:26:41 公開日:2023-09-02
# 可変sulci認識における学習パターンと重要な部分領域を明らかにするための3次元説明可能性フレームワーク

A 3D explainability framework to uncover learning patterns and crucial sub-regions in variable sulci recognition ( http://arxiv.org/abs/2309.00903v1 )

ライセンス: Link先を確認
Michail Mamalakis, Heloise de Vareilles, Atheer AI-Manea, Samantha C. Mitchell, Ingrid Arartz, Lynn Egeland Morch-Johnsen, Jane Garrison, Jon Simons, Pietro Lio, John Suckling, Graham Murray(参考訳) 脳MRIにおけるsulcal特徴の正確な同定は、脳の折り畳みのばらつきによって困難になる。 本研究では,深層学習ネットワークからの出力を,ヒト脳の前頭内側に存在しうる解剖学的特徴であるパラシンジレート・スルカスを検出する能力で検証する,革新的な3次元説明可能性フレームワークを提案する。 本研究では,GradCamとSHAPを次元還元法による局所的説明可能性手法を併用した2つのネットワークの訓練と試験を行った。 説明可能性フレームワークは局所化とグローバル化の両方の説明と分類結果の正確性を提供し、説明的および統計的特徴の拡散後変換を通じて決定プロセスに寄与する関連する部分領域を明らかにする。 統合失調症患者から取得したmriのtop-osloデータセットを活用すると,左半球と左半球では,各分類結果に寄与する広範囲のサブ領域に比べて,パラシンジレートsulcus検出 (presence or absence) の精度が高かった。 この研究は、ネットワーク性能の公平性を維持する上で、非バイアスのアノテーションプロトコルが重要な役割を誤って強調した。 提案手法は, 変数sulcusの自動的非部分的アノテーションを提供するだけでなく, 脳全体における解剖学的変化に関する知見も提供する。 この方法論の採用は、神経科学の分野でさらなる探究と調査を行うための約束である。

Precisely identifying sulcal features in brain MRI is made challenging by the variability of brain folding. This research introduces an innovative 3D explainability frame-work that validates outputs from deep learning networks in their ability to detect the paracingulate sulcus, an anatomical feature that may or may not be present on the frontal medial surface of the human brain. This study trained and tested two networks, amalgamating local explainability techniques GradCam and SHAP with a dimensionality reduction method. The explainability framework provided both localized and global explanations, along with accuracy of classification results, revealing pertinent sub-regions contributing to the decision process through a post-fusion transformation of explanatory and statistical features. Leveraging the TOP-OSLO dataset of MRI acquired from patients with schizophrenia, greater accuracies of paracingulate sulcus detection (presence or absence) were found in the left compared to right hemispheres with distinct, but extensive sub-regions contributing to each classification outcome. The study also inadvertently highlighted the critical role of an unbiased annotation protocol in maintaining network performance fairness. Our proposed method not only offers automated, impartial annotations of a variable sulcus but also provides insights into the broader anatomical variations associated with its presence throughout the brain. The adoption of this methodology holds promise for instigating further explorations and inquiries in the field of neuroscience.
翻訳日:2023-09-07 00:26:17 公開日:2023-09-02
# 大規模プロセスモデル: 生成AI時代のビジネスプロセス管理

Large Process Models: Business Process Management in the Age of Generative AI ( http://arxiv.org/abs/2309.00900v1 )

ライセンス: Link先を確認
Timotheus Kampik, Christian Warmuth, Adrian Rebmann, Ron Agam, Lukas N.P. Egger, Andreas Gerber, Johannes Hoffart, Jonas Kolk, Philipp Herzig, Gero Decker, Han van der Aa, Artem Polyvyanyy, Stefanie Rinderle-Ma, Ingo Weber, Matthias Weidlich(参考訳) LLM(Large Language Models)や他の生成人工知能アプローチの継続的な成功は、コーパスが厳密に定義されたシンボルモデルよりも大きな情報コーパスが持つことができるという利点を強調し、また、純粋に統計に基づくアプローチが安全性と信頼性の点で持つ課題の証明ポイントとしても機能する。 本研究では,LLMの相関力と知識ベースシステムの分析精度と信頼性,および自動推論手法を組み合わせた大規模プロセスモデル(LPM)の概念を提案する。 LPMは、専門家が蓄積した豊富なプロセス管理経験と、サイズ、地域、産業など様々な特徴を持つ組織のプロセスパフォーマンスデータを直接活用することが想定されている。 このビジョンでは、提案されたlpmによって、組織はコンテキスト固有の(カスタマイズされた)プロセスやその他のビジネスモデル、分析的な深いディビジョン、改善の推奨を受けることができる。 これにより、ビジネス変革に必要な時間と労力を大幅に削減できると同時に、従来よりも深く、より影響力があり、より実行可能な洞察が可能になる。 我々は、LPMの実装は実現可能であるが、LPMビジョンの特定の側面を実装するために解決すべき制限や研究課題も強調する。

The continued success of Large Language Models (LLMs) and other generative artificial intelligence approaches highlights the advantages that large information corpora can have over rigidly defined symbolic models, but also serves as a proof-point of the challenges that purely statistics-based approaches have in terms of safety and trustworthiness. As a framework for contextualizing the potential, as well as the limitations of LLMs and other foundation model-based technologies, we propose the concept of a Large Process Model (LPM) that combines the correlation power of LLMs with the analytical precision and reliability of knowledge-based systems and automated reasoning approaches. LPMs are envisioned to directly utilize the wealth of process management experience that experts have accumulated, as well as process performance data of organizations with diverse characteristics, e.g., regarding size, region, or industry. In this vision, the proposed LPM would allow organizations to receive context-specific (tailored) process and other business models, analytical deep-dives, and improvement recommendations. As such, they would allow to substantially decrease the time and effort required for business transformation, while also allowing for deeper, more impactful, and more actionable insights than previously possible. We argue that implementing an LPM is feasible, but also highlight limitations and research challenges that need to be solved to implement particular aspects of the LPM vision.
翻訳日:2023-09-07 00:25:49 公開日:2023-09-02
# 雑音ラベル学習のためのm-エスティメータの規則的廃止

Regularly Truncated M-estimators for Learning with Noisy Labels ( http://arxiv.org/abs/2309.00894v1 )

ライセンス: Link先を確認
Xiaobo Xia, Pengqian Lu, Chen Gong, Bo Han, Jun Yu, Jun Yu, Tongliang Liu(参考訳) サンプル選択アプローチは、ノイズラベルによる学習で非常に人気がある。 ディープ・ネットワークがパターンを学習する際、サンプル選択に基づいて構築された事前の手法は、類似したトレーニング手順を共有している: 小さいロスの例はクリーンな例と見なすことができ、一般化を助けるのに使うことができる。 しかし、そのような手続きはおそらく2つの折りたたみから議論できる。 (a)選択された小規模事例において、ノイズラベルの悪影響を考慮しない。 (b)廃棄された大失われた例をうまく利用せず、クリーンであるか、一般化に意味のある情報を持っている。 本稿では,これら2つの問題を同時に扱うために,RTME (Trruncated M-estimator) を提案する。 具体的には、RTMEは、切り離されたM推定器とオリジナルのM推定器の間でモードを交互に切り替えることができる。 前者はノイズ率を知らずに小さな損失例を適応的に選択でき、ノイズラベルの副作用を低減できる。 後者は、おそらくクリーンな例だが、一般化を助けるために大きな損失が伴う。 理論的には、我々の戦略はラベルノイズ耐性である。 実験的な実験結果から,本手法は複数のベースラインを上回り,幅広いノイズタイプやレベルに対して堅牢であることが示された。

The sample selection approach is very popular in learning with noisy labels. As deep networks learn pattern first, prior methods built on sample selection share a similar training procedure: the small-loss examples can be regarded as clean examples and used for helping generalization, while the large-loss examples are treated as mislabeled ones and excluded from network parameter updates. However, such a procedure is arguably debatable from two folds: (a) it does not consider the bad influence of noisy labels in selected small-loss examples; (b) it does not make good use of the discarded large-loss examples, which may be clean or have meaningful information for generalization. In this paper, we propose regularly truncated M-estimators (RTME) to address the above two issues simultaneously. Specifically, RTME can alternately switch modes between truncated M-estimators and original M-estimators. The former can adaptively select small-losses examples without knowing the noise rate and reduce the side-effects of noisy labels in them. The latter makes the possibly clean examples but with large losses involved to help generalization. Theoretically, we demonstrate that our strategies are label-noise-tolerant. Empirically, comprehensive experimental results show that our method can outperform multiple baselines and is robust to broad noise types and levels.
翻訳日:2023-09-07 00:25:25 公開日:2023-09-02
# Pressmatch:Nearest Neighbor検索でメディア報道を自動化したジャーナリスト推奨

Pressmatch: Automated journalist recommendation for media coverage with Nearest Neighbor search ( http://arxiv.org/abs/2309.00944v1 )

ライセンス: Link先を確認
Soumya Parekh, Jay Patel(参考訳) リリースのプロダクトをスラットするには、ジャーナリストに自分のプレスリリースでストーリーを流すよう促すことがしばしばある。 良いメディア報道は、しばしば製品のリーチを高め、それらの製品のオーディエンスエンゲージメントを促進する。 したがって、これらのリリースが適切な関心を持つ適切なジャーナリストに売り込まれることを保証することが重要である。 ジャーナリストとの付き合いとメディアの連絡先リストのキュレーションは、多くの場合、巨大で時間を要する作業だ。 本研究は,利用者が提供したプレスリリースでメディア報道を行うための適切なジャーナリストを推薦することで,プロセスの自動化と高速化を行うモデルを提案する。

Slating a product for release often involves pitching journalists to run stories on your press release. Good media coverage often ensures greater product reach and drives audience engagement for those products. Hence, ensuring that those releases are pitched to the right journalists with relevant interests is crucial, since they receive several pitches daily. Keeping up with journalist beats and curating a media contacts list is often a huge and time-consuming task. This study proposes a model to automate and expedite the process by recommending suitable journalists to run media coverage on the press releases provided by the user.
翻訳日:2023-09-07 00:17:57 公開日:2023-09-02
# ラベルなしトラッキング:コントラスト類似性学習による教師なし複数物体追跡

Tracking without Label: Unsupervised Multiple Object Tracking via Contrastive Similarity Learning ( http://arxiv.org/abs/2309.00942v1 )

ライセンス: Link先を確認
Sha Meng, Dian Shao, Jiacheng Guo, Shan Gao(参考訳) 教師なし学習はラベルがないため難しい課題である。 複数のオブジェクト追跡(MOT)は、必然的に相互のオブジェクト干渉、閉塞等に悩まされるが、ラベルの監督なしにはさらに困難である。 本稿では,ビデオフレーム間のサンプル特徴の遅延一貫性について検討し,自己コントラスト,クロスコントラスト,曖昧コントラストの3つのコントラストモジュールを含む,UCSLと呼ばれる教師なしコントラスト類似性学習法を提案する。 具体的には 一 自己コントラストは、フレーム内直接及びフレーム間間接コントラストを用いて、自己相似性を最大化して識別的表現を得る。 二 クロスコントラストは、オブジェクトの閉塞による持続的なマイナス効果を緩和し、クロスフレーム及び連続フレームマッチング結果を整合させる。 そして 三 曖昧さのコントラストがあいまいな対象と一致し、さらに暗黙の方法でその後の対象関係の確実性を高めること。 既存のベンチマークでは、ReIDヘッドからの限られたヘルプのみを用いて既存の教師なしメソッドよりも優れており、多くの教師付きメソッドよりも高い精度を提供する。

Unsupervised learning is a challenging task due to the lack of labels. Multiple Object Tracking (MOT), which inevitably suffers from mutual object interference, occlusion, etc., is even more difficult without label supervision. In this paper, we explore the latent consistency of sample features across video frames and propose an Unsupervised Contrastive Similarity Learning method, named UCSL, including three contrast modules: self-contrast, cross-contrast, and ambiguity contrast. Specifically, i) self-contrast uses intra-frame direct and inter-frame indirect contrast to obtain discriminative representations by maximizing self-similarity. ii) Cross-contrast aligns cross- and continuous-frame matching results, mitigating the persistent negative effect caused by object occlusion. And iii) ambiguity contrast matches ambiguous objects with each other to further increase the certainty of subsequent object association through an implicit manner. On existing benchmarks, our method outperforms the existing unsupervised methods using only limited help from ReID head, and even provides higher accuracy than lots of fully supervised methods.
翻訳日:2023-09-07 00:17:45 公開日:2023-09-02
# 自己教師付きシーケンスモデルの世界モデルにおける創発的線形表現

Emergent Linear Representations in World Models of Self-Supervised Sequence Models ( http://arxiv.org/abs/2309.00941v1 )

ライセンス: Link先を確認
Neel Nanda, Andrew Lee, Martin Wattenberg(参考訳) シーケンスモデルは意思決定プロセスをどのように表現するか? 以前の研究は、Othello-playing Neural Networkがボード状態の非線形モデルを学んだことを示唆している(Li et al., 2023)。 本研究では,板の線形表現が密接に関連していることを示す。 特に、`my color' 対 ``opponent's color'' の探索は、モデルの内部状態を理解するための単純かつ強力な方法であることを示している。 この内部表現の正確な理解により、単純なベクトル演算でモデルの振る舞いを制御できる。 線形表現は重要な解釈可能性の進展を可能にし,世界モデルがどのように計算されるかをさらに探究する。

How do sequence models represent their decision-making process? Prior work suggests that Othello-playing neural network learned nonlinear models of the board state (Li et al., 2023). In this work, we provide evidence of a closely related linear representation of the board. In particular, we show that probing for ``my colour'' vs. ``opponent's colour'' may be a simple yet powerful way to interpret the model's internal state. This precise understanding of the internal representations allows us to control the model's behaviour with simple vector arithmetic. Linear representations enable significant interpretability progress, which we demonstrate with further exploration of how the world model is computed.
翻訳日:2023-09-07 00:17:23 公開日:2023-09-02
# コンテンツプロンプティング:レコメンダ生態系におけるユーザ福祉改善のためのコンテンツプロバイダダイナミクスのモデル化

Content Prompting: Modeling Content Provider Dynamics to Improve User Welfare in Recommender Ecosystems ( http://arxiv.org/abs/2309.00940v1 )

ライセンス: Link先を確認
Siddharth Prasad, Martin Mladenov, Craig Boutilier(参考訳) ユーザは、ニーズ/参照を満たすコンテンツ(またはアイテム)を表面化できる程度まで、レコメンダシステム(rs)から価値を導き出す。 rssはユーザーベース全体にわたるユーザーの好みの包括的なビューを持つことが多いが、コンテンツ提供者は一般的に、コンテンツとやりとりしたユーザーの好みのローカルなビューしか持っていない。 これにより、より広い人口に最適なコンテンツを提供するプロバイダの能力が制限される。 本研究では,この情報非対称性とコンテンツ促進ポリシーを取り扱う。 コンテンツプロンプト(Content prompt)は、RSが未使用ユーザーの要求を予測する新しいコンテンツを作成するためのヒントまたは提案である。 プロンプト・ポリシー(promping policy)は、プロバイダの信念、スキル、インセンティブのダイナミクスに応答する一連のプロンプトである。 我々は,提供者のインセンティブを尊重しつつ,利用者の社会的福祉を均衡的に最適化するコンテンツの提供を,提供者の集合に誘導する共同推進政策を策定することを目的とする。 私たちの貢献には (i)このようなプロンプトをサポートするコンテンツ提供者行動を含むRSエコシステムの抽象モデル。 二 個別提供者に対する逐次的推進政策の設計及び理論的分析 (iii)コンテンツ空間における経路計画を用いた最適ジョイントプロンプトのための混合整数計画定式化 (4) 生態系の健康とユーザ福祉をいかに改善するかを示すシンプルな概念実証実験。

Users derive value from a recommender system (RS) only to the extent that it is able to surface content (or items) that meet their needs/preferences. While RSs often have a comprehensive view of user preferences across the entire user base, content providers, by contrast, generally have only a local view of the preferences of users that have interacted with their content. This limits a provider's ability to offer new content to best serve the broader population. In this work, we tackle this information asymmetry with content prompting policies. A content prompt is a hint or suggestion to a provider to make available novel content for which the RS predicts unmet user demand. A prompting policy is a sequence of such prompts that is responsive to the dynamics of a provider's beliefs, skills and incentives. We aim to determine a joint prompting policy that induces a set of providers to make content available that optimizes user social welfare in equilibrium, while respecting the incentives of the providers themselves. Our contributions include: (i) an abstract model of the RS ecosystem, including content provider behaviors, that supports such prompting; (ii) the design and theoretical analysis of sequential prompting policies for individual providers; (iii) a mixed integer programming formulation for optimal joint prompting using path planning in content space; and (iv) simple, proof-of-concept experiments illustrating how such policies improve ecosystem health and user welfare.
翻訳日:2023-09-07 00:17:12 公開日:2023-09-02
# 互換性によるデータ再利用:計算的視点

Data Repurposing through Compatibility: A Computational Perspective ( http://arxiv.org/abs/2309.00939v1 )

ライセンス: Link先を確認
Asia J. Biega(参考訳) もともと収集された目的を超えた新しいコンテキストにおけるデータの再利用は、技術革新とデータ主題に対する同意負担の軽減に寄与している。 このような再利用を可能にする法的メカニズムの1つは、目的互換性評価である。 本稿では,この機構を計算レンズを用いて詳細に解析する。 さらに、まったく新しいタスクのためのデータの使用とは別に、何を再提案すべきかを検討し、典型的な目的の定式化は意味のある再提案の障害であると主張する。 全体として、本論文は互換性評価を非効率な基準を超えた建設的な実践と位置づけている。

Reuse of data in new contexts beyond the purposes for which it was originally collected has contributed to technological innovation and reducing the consent burden on data subjects. One of the legal mechanisms that makes such reuse possible is purpose compatibility assessment. In this paper, I offer an in-depth analysis of this mechanism through a computational lens. I moreover consider what should qualify as repurposing apart from using data for a completely new task, and argue that typical purpose formulations are an impediment to meaningful repurposing. Overall, the paper positions compatibility assessment as a constructive practice beyond an ineffective standard.
翻訳日:2023-09-07 00:16:48 公開日:2023-09-02
# 共通汚職に対するヒューマンパーサーのロバスト性の検討

Exploring the Robustness of Human Parsers Towards Common Corruptions ( http://arxiv.org/abs/2309.00938v1 )

ライセンス: Link先を確認
Sanyi Zhang, Xiaochun Cao, Rui Wang, Guo-Jun Qi, Jie Zhou(参考訳) human parseは、人間の画像の各ピクセルを、きめ細かなセマンティックカテゴリで分割することを目的としている。 しかし、クリーンなデータで訓練された現在の人間のパーサーは、ぼやけやノイズといった多くの画像の破損によって容易に混乱する。 本稿では,人間のパーサーのロバスト性を改善するために,llip-c,atr-c,pascal-person-part-cと呼ばれる3つの腐敗ロバスト性ベンチマークを構築し,人間の解析モデルのリスク許容性を評価する。 本研究では,データ拡張戦略に触発されて,不均質な拡張強化機構を提案する。 具体的には、異なるビューからの2種類のデータ拡張、すなわち、画像認識拡張とモデル認識画像から画像への変換を連続的に統合して、予期せぬ画像破損に対応させる。 画像認識拡張は、一般的な画像操作の助けを借りて、トレーニング画像の多様性を高めることができる。 モデルのランダム性を考慮して入力データの多様性を向上させるモデル認識強化戦略。 提案されたメソッドはモデルに依存しず、任意の最先端のヒューマンパースフレームワークにプラグアンドプレイすることができる。 実験の結果,提案手法は画像共通汚損に直面した場合に,人間のパースモデルや意味的セグメンテーションモデルの堅牢性を向上できる優れた普遍性を示すことが示された。 一方で、クリーンデータに対する近似的なパフォーマンスも得ることができる。

Human parsing aims to segment each pixel of the human image with fine-grained semantic categories. However, current human parsers trained with clean data are easily confused by numerous image corruptions such as blur and noise. To improve the robustness of human parsers, in this paper, we construct three corruption robustness benchmarks, termed LIP-C, ATR-C, and Pascal-Person-Part-C, to assist us in evaluating the risk tolerance of human parsing models. Inspired by the data augmentation strategy, we propose a novel heterogeneous augmentation-enhanced mechanism to bolster robustness under commonly corrupted conditions. Specifically, two types of data augmentations from different views, i.e., image-aware augmentation and model-aware image-to-image transformation, are integrated in a sequential manner for adapting to unforeseen image corruptions. The image-aware augmentation can enrich the high diversity of training images with the help of common image operations. The model-aware augmentation strategy that improves the diversity of input data by considering the model's randomness. The proposed method is model-agnostic, and it can plug and play into arbitrary state-of-the-art human parsing frameworks. The experimental results show that the proposed method demonstrates good universality which can improve the robustness of the human parsing models and even the semantic segmentation models when facing various image common corruptions. Meanwhile, it can still obtain approximate performance on clean data.
翻訳日:2023-09-07 00:16:39 公開日:2023-09-02
# 2対1深さ:単眼と両眼の自己監督深度推定のギャップを埋める

Two-in-One Depth: Bridging the Gap Between Monocular and Binocular Self-supervised Depth Estimation ( http://arxiv.org/abs/2309.00933v1 )

ライセンス: Link先を確認
Zhengming Zhou and Qiulei Dong(参考訳) 単眼と双眼の自己監督深度推定はコンピュータビジョンにおいて重要な2つのタスクであり、それぞれ1つの画像とステレオ画像のペアからシーン深度を予測することを目的としている。 文献では、2つのタスクは通常2つの異なるモデルによって個別に取り組まれるが、双眼鏡モデルは一般的に単一の画像から深度を予測するのに失敗し、一方単眼モデルでは予測精度は双眼鏡モデルより劣る。 本稿では,2つのタスクを相互に処理するだけでなく,予測精度も向上するTiO-Depthと呼ばれる2-in-One自己教師型深度推定ネットワークを提案する。 tio-depthはシャムアーキテクチャを採用しており、各サブネットワークは単眼深度推定モデルとして使用できる。 両眼深度推定には,両画像間のステレオ知識を取り入れた単眼特徴マッチングモジュールが提案され,深度予測にはフルTiO-Depthが使用される。 また,2つのタスクにおけるTiO-Depthの性能向上のための多段階共同学習戦略を設計する。 kitti, cityscapes, ddadデータセットを用いた実験の結果, tio-depthは, たいていの場合において単眼と双眼の両方の方法よりも優れており, 単眼と双眼の深さ推定のための2対1のネットワークの実現可能性も検証している。 コードはhttps://github.com/zm-zhou/tio-depth_pytorchで入手できる。

Monocular and binocular self-supervised depth estimations are two important and related tasks in computer vision, which aim to predict scene depths from single images and stereo image pairs respectively. In literature, the two tasks are usually tackled separately by two different kinds of models, and binocular models generally fail to predict depth from single images, while the prediction accuracy of monocular models is generally inferior to binocular models. In this paper, we propose a Two-in-One self-supervised depth estimation network, called TiO-Depth, which could not only compatibly handle the two tasks, but also improve the prediction accuracy. TiO-Depth employs a Siamese architecture and each sub-network of it could be used as a monocular depth estimation model. For binocular depth estimation, a Monocular Feature Matching module is proposed for incorporating the stereo knowledge between the two images, and the full TiO-Depth is used to predict depths. We also design a multi-stage joint-training strategy for improving the performances of TiO-Depth in both two tasks by combining the relative advantages of them. Experimental results on the KITTI, Cityscapes, and DDAD datasets demonstrate that TiO-Depth outperforms both the monocular and binocular state-of-the-art methods in most cases, and further verify the feasibility of a two-in-one network for monocular and binocular depth estimation. The code is available at https://github.com/ZM-Zhou/TiO-Depth_pytorch.
翻訳日:2023-09-07 00:16:15 公開日:2023-09-02
# 無線画像キューブの高速検索のためのdeep supervised hashing

Deep supervised hashing for fast retrieval of radio image cubes ( http://arxiv.org/abs/2309.00932v1 )

ライセンス: Link先を確認
Steven Ndung'u, Trienko Grobler, Stefan J. Wijnholds, Dimka Karastoyanova, George Azzopardi(参考訳) 次世代の電波調査で検出される情報源の数は、天文学的なものであり、セレンディピティーの発見につながるだろう。 データ依存型ディープハッシュアルゴリズムは、コンピュータビジョンとマルチメディアの分野における画像検索タスクにおいて効率的であることが示されている。 しかし、天文学の分野におけるこれらの方法論の応用は限られている。 本研究では,大規模データベースにおける類似画像の高速検索にdeep hashingを利用する。 実験では、コンパクト、FRI、FRII、ベントという4つのクラスからなる2708サンプルのバランスの取れたデータセットを使用した。 この手法の性能は平均平均精度(map)測定値を用いて評価され、88.5\%の精度が得られた。 実験結果は,類似した無線画像を効率的にかつ大規模に検索し,検索する能力を示す。 検索は、クエリ画像のバイナリハッシュとデータベース内の参照画像とのハミング距離に基づいて行われる。

The shear number of sources that will be detected by next-generation radio surveys will be astronomical, which will result in serendipitous discoveries. Data-dependent deep hashing algorithms have been shown to be efficient at image retrieval tasks in the fields of computer vision and multimedia. However, there are limited applications of these methodologies in the field of astronomy. In this work, we utilize deep hashing to rapidly search for similar images in a large database. The experiment uses a balanced dataset of 2708 samples consisting of four classes: Compact, FRI, FRII, and Bent. The performance of the method was evaluated using the mean average precision (mAP) metric where a precision of 88.5\% was achieved. The experimental results demonstrate the capability to search and retrieve similar radio images efficiently and at scale. The retrieval is based on the Hamming distance between the binary hash of the query image and those of the reference images in the database.
翻訳日:2023-09-07 00:15:46 公開日:2023-09-02
# S$3$-MonoDETR:モノクロ3次元物体検出のための形状・スケール知覚変形変換器

S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection ( http://arxiv.org/abs/2309.00928v1 )

ライセンス: Link先を確認
Xuan He, Kailun Yang, Junwei Zheng, Jin Yuan, Luis M. Bergasa, Hui Zhang, Zhiyong Li(参考訳) 近年,1枚の2次元画像から3次元特性を予測できるモノクロ3次元物体検出において,トランスフォーマーを用いた手法は例外的な性能を示した。 これらの手法は通常、視覚と奥行きの表現を使ってオブジェクトのクエリポイントを生成し、その品質が検出精度において決定的な役割を果たす。 しかし、トランスの幾何学的外観を意識しない現在の監視されていない注意機構は、クエリポイントのノイズの多い特徴を生じさせるおそれがあり、これはネットワーク性能を著しく制限し、1つのトレーニングプロセスで複数のカテゴリのオブジェクトを検出する能力に欠ける。 そこで,本稿では,単眼3次元物体検出のための"supervised shape & scale-perceptive deformable attention" (s$^3$-da)モジュールを提案する。 具体的には、S$^3$-DAは視覚的特徴と深度的特徴を利用して、様々な形状とスケールを持つ多様な局所特徴を生成し、対応する分布を同時に予測し、各クエリに価値ある形状とスケールの知覚を与える。 これにより、s$^3$-daは、任意のカテゴリに属するクエリポイントの受容フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。 さらに,複数分類に基づくShape$\&$Scale Matching (MSM) の損失を,上記のプロセスの監視のために提案する。 KITTIとWaymo Openデータセットの大規模な実験により、S$^3$-DAは検出精度を著しく向上し、既存のアプローチと比較して、単一カテゴリと複数カテゴリの3Dオブジェクト検出の最先端性能が得られることが示された。 ソースコードはhttps://github.com/mikasa3lili/S3-MonoDETRで公開されている。

Recently, transformer-based methods have shown exceptional performance in monocular 3D object detection, which can predict 3D attributes from a single 2D image. These methods typically use visual and depth representations to generate query points on objects, whose quality plays a decisive role in the detection accuracy. However, current unsupervised attention mechanisms without any geometry appearance awareness in transformers are susceptible to producing noisy features for query points, which severely limits the network performance and also makes the model have a poor ability to detect multi-category objects in a single training process. To tackle this problem, this paper proposes a novel "Supervised Shape&Scale-perceptive Deformable Attention" (S$^3$-DA) module for monocular 3D object detection. Concretely, S$^3$-DA utilizes visual and depth features to generate diverse local features with various shapes and scales and predict the corresponding matching distribution simultaneously to impose valuable shape&scale perception for each query. Benefiting from this, S$^3$-DA effectively estimates receptive fields for query points belonging to any category, enabling them to generate robust query features. Besides, we propose a Multi-classification-based Shape$\&$Scale Matching (MSM) loss to supervise the above process. Extensive experiments on KITTI and Waymo Open datasets demonstrate that S$^3$-DA significantly improves the detection accuracy, yielding state-of-the-art performance of single-category and multi-category 3D object detection in a single training process compared to the existing approaches. The source code will be made publicly available at https://github.com/mikasa3lili/S3-MonoDETR.
翻訳日:2023-09-07 00:15:31 公開日:2023-09-02
# ハイブリッドフォトニック集積回路からの通信波長における時間ビン絡み

Time-bin entanglement at telecom wavelengths from a hybrid photonic integrated circuit ( http://arxiv.org/abs/2309.00926v1 )

ライセンス: Link先を確認
Hannah Thiel, Lennart Jehle, Robert J. Chapman, Stefan Frick, Hauke Conradi, Moritz Kleinert, Holger Suchomel, Martin Kamp, Sven H\"ofling, Christian Schneider, Norbert Keil, Gregor Weihs(参考訳) 量子通信のための大量デプロイ可能な実装は、光子生成、制御、分析のためのコンパクトで信頼性が高く、低コストなハードウェアソリューションを必要とする。 本稿では、光子対発生のための非線形導波路と、ポンプ抑制と光子分離の68dBに達するポリマーインターポーザとからなるファイバーピグテールハイブリッドフォトニック回路について、25dBの偏光消滅比で示す。 ハイブリッドアセンブリの光学安定性は、絡み合いの品質を高め、効率的な背景抑制と光子ルーティングにより、偶発的一致を更に低減する。 これにより,ベル状態に対する96(-8,+3)%の収束と96(-5,+2)%の忠実度が得られる。 生成した光子対は、分散度が低いファイバーネットワーク上でベル対を分散するのに理想的である。

Mass-deployable implementations for quantum communication require compact, reliable, and low-cost hardware solutions for photon generation, control and analysis. We present a fiber-pigtailed hybrid photonic circuit comprising nonlinear waveguides for photon-pair generation and a polymer interposer reaching 68dB of pump suppression and photon separation with >25dB polarization extinction ratio. The optical stability of the hybrid assembly enhances the quality of the entanglement, and the efficient background suppression and photon routing further reduce accidental coincidences. We thus achieve a 96(-8,+3)% concurrence and a 96(-5,+2)% fidelity to a Bell state. The generated telecom-wavelength, time-bin entangled photon pairs are ideally suited for distributing Bell pairs over fiber networks with low dispersion.
翻訳日:2023-09-07 00:14:56 公開日:2023-09-02
# 等価な$Z_2^n$-graded brackets、$n$-bitパラ統計学および超対称量子力学の統計変換

Inequivalent $Z_2^n$-graded brackets, $n$-bit parastatistics and statistical transmutations of supersymmetric quantum mechanics ( http://arxiv.org/abs/2309.00965v1 )

ライセンス: Link先を確認
M. M. Balbino, I. P. de Freitas, R. G. Rana and F. Toppan(参考訳) Z_2^n$-階数作用素の連想環が与えられたとき、階数と整合性を持つリー型の非等価括弧の数は、b_n=n+\lfloor n/2\rfloor+1$である。 これはリッテンベルク・ワイラーとシューナートによる、ブール論理ゲートの項で再検討される "color" Lie (super)algebras の解析によるものである。 z_2^n\times z_2^n\rightarrow z_2$マッピングから回収された等価でないブラケットは、n$-bitのパラ統計に適合する粒子を記述するコンミュータ/反コンミュータの一貫した集合によって定義される。 与えられた次数付きリー(スーパー)代数により、その次数付きセクタは、異なる種類の(パラ)ボソンおよび/または(パラ)フェルミオンを表す異なる同値のクラスに分類することができる。 第一の応用として、$Z_2^2$と$Z_2^3$-graded quantum Hamiltoniansをそれぞれ$b_2=4$と$b_3=5$の同値な多重粒子量子化を許容する(同値なパラ統計学は、ある与えられた状態の観測可能量の固有値を測定することによって判別される)。 主要な物理応用として、n$-extended, $1d$ supersymmetric and superconformal quantum mechanics ($n=1,2,4,8$) がそれぞれ$s_{n}=2,6,10,14 $ で記述されていることを証明した。 これらの数は与えられたスーパーチャージの集合の可能な全ての「統計変換」に対応しており、これは${N}=1,2,4,8$に対して$Z_2^n$-grading with $n=1,2,3,4$である(識別は$N=2^{n-1}$)。 最も単純な${N}=2$設定($sl(2|1)$スペクトル生成超代数を持つデ・DFF変形発振器の2$粒子セクター)では、$Z_2^2$分解パラ統計学は通常のボソン/フェルミオン統計によって再現できないエネルギーレベルの退化を意味する。

Given an associative ring of $Z_2^n$-graded operators, the number of inequivalent brackets of Lie-type which are compatible with the grading and satisfy graded Jacobi identities is $b_n= n+\lfloor n/2\rfloor+1$. This follows from the Rittenberg-Wyler and Scheunert analysis of "color" Lie (super)algebras which is revisited here in terms of Boolean logic gates. The inequivalent brackets, recovered from $Z_2^n\times Z_2^n\rightarrow Z_2$ mappings, are defined by consistent sets of commutators/anticommutators describing particles accommodated into an $n$-bit parastatistics (ordinary bosons/fermions correspond to $1$ bit). Depending on the given graded Lie (super)algebra, its graded sectors can fall into different classes of equivalence expressing different types of (para)bosons and/or (para)fermions. As a first application we construct $Z_2^2$ and $ Z_2^3$-graded quantum Hamiltonians which respectively admit $b_2=4$ and $b_3=5$ inequivalent multiparticle quantizations (the inequivalent parastatistics are discriminated by measuring the eigenvalues of certain observables in some given states). As a main physical application we prove that the $N$-extended, $1D$ supersymmetric and superconformal quantum mechanics, for $N=1,2,4,8$, are respectively described by $s_{N}=2,6,10,14 $ alternative formulations based on the inequivalent graded Lie (super)algebras. These numbers correspond to all possible "statistical transmutations" of a given set of supercharges which, for ${N}=1,2,4,8$, are accommodated into a $Z_2^n$-grading with $n=1,2,3,4$ (the identification is $N= 2^{n-1}$). In the simplest ${N}=2$ setting (the $2$-particle sector of the de DFF deformed oscillator with $sl(2|1)$ spectrum-generating superalgebra), the $Z_2^2$-graded parastatistics imply a degeneration of the energy levels which cannot be reproduced by ordinary bosons/fermions statistics.
翻訳日:2023-09-07 00:10:35 公開日:2023-09-02
# eDKM:大規模言語モデルのための効率的かつ正確な列車時重クラスタリング

eDKM: An Efficient and Accurate Train-time Weight Clustering for Large Language Models ( http://arxiv.org/abs/2309.00964v1 )

ライセンス: Link先を確認
Minsik Cho, Keivan A. Vahid, Qichen Fu, Saurabh Adya, Carlo C Del Mundo, Mohammad Rastegari, Devang Naik, Peter Zatloukal(参考訳) 大規模言語モデル(LLM)は、多くの複雑な言語タスクにおいて、高品質なパフォーマンスを示してきたため、より高速な応答とプライバシー保護のために、これらのLLMをモバイルデバイスに持ち込むことに大きな関心がある。 しかし、LLMのサイズ(すなわち数十億のパラメータ)はストレージ制限されたデバイスに収まるために非常に効率的な圧縮を必要とする。 多くの圧縮技術の中で、非線形量子化の一形態である重みクラスタリングは、LLM圧縮の主要な候補の1つであり、現代のスマートフォンでサポートされている。 しかし、LLMの微調整にはトレーニングのオーバーヘッドが極めて重要である。 特に、微分可能なKMeans Clustering(DKM)は、圧縮比と精度回帰の間の最先端のトレードオフを示しているが、その大きなメモリ複雑性により、列車時のLLM圧縮に適用することはほぼ不可能である。 本稿では,メモリ効率のよいDKM実装であるeDKMを提案し,DKMのメモリフットプリントを桁違いに削減する。 DKMの後続パスのためにCPUに保存されるテンソルに対して、以前にCPUにコピーされた重複テンソルがないかどうかを確認した後、不等化とシャーディングを適用してテンソルを圧縮した。 実験結果から,より広い LLM ベンチマーク(PIQA 77.7 %,Winograde 66.1 %,PIQA 66.1 %)で精度を向上しつつ,デコーダ層のトレインタイムメモリフットプリントを 130$\times$ に削減し,プレトレーニング済みの LLaMA 7B モデルを 12.6 GB から 2.5 GB (3bit/weight) に圧縮できることが確認された。

Since Large Language Models or LLMs have demonstrated high-quality performance on many complex language tasks, there is a great interest in bringing these LLMs to mobile devices for faster responses and better privacy protection. However, the size of LLMs (i.e., billions of parameters) requires highly effective compression to fit into storage-limited devices. Among many compression techniques, weight-clustering, a form of non-linear quantization, is one of the leading candidates for LLM compression, and supported by modern smartphones. Yet, its training overhead is prohibitively significant for LLM fine-tuning. Especially, Differentiable KMeans Clustering, or DKM, has shown the state-of-the-art trade-off between compression ratio and accuracy regression, but its large memory complexity makes it nearly impossible to apply to train-time LLM compression. In this paper, we propose a memory-efficient DKM implementation, eDKM powered by novel techniques to reduce the memory footprint of DKM by orders of magnitudes. For a given tensor to be saved on CPU for the backward pass of DKM, we compressed the tensor by applying uniquification and sharding after checking if there is no duplicated tensor previously copied to CPU. Our experimental results demonstrate that \prjname can fine-tune and compress a pretrained LLaMA 7B model from 12.6 GB to 2.5 GB (3bit/weight) with the Alpaca dataset by reducing the train-time memory footprint of a decoder layer by 130$\times$, while delivering good accuracy on broader LLM benchmarks (i.e., 77.7\% for PIQA, 66.1\% for Winograde, and so on).
翻訳日:2023-09-07 00:09:42 公開日:2023-09-02
# NTU4DRadLM:局所化とマッピングのための4次元レーダー中心多モードデータセット

NTU4DRadLM: 4D Radar-centric Multi-Modal Dataset for Localization and Mapping ( http://arxiv.org/abs/2309.00962v1 )

ライセンス: Link先を確認
Jun Zhang, Huayang Zhuge, Yiyao Liu, Guohao Peng, Zhenyu Wu, Haoyuan Zhang, Qiyang Lyu, Heshan Li, Chunyang Zhao, Dogan Kircali, Sanat Mharolkar, Xun Yang, Su Yi, Yuanzhe Wang and Danwei Wang(参考訳) 同時局在マッピング(SLAM)は、堅牢な知覚年齢に向かっている。 しかし、LiDARおよびビジュアルSLAMは、悪条件(雨、雪、煙、霧など)で容易に失敗する可能性がある。 一方、SLAMは4Dレーダ、サーマルカメラ、IMUをベースとしている。 しかし、文献はごくわずかしか見つからなかった。 主な理由は、関連するデータセットがないため、研究を著しく妨げている。 過去4年間、いくつかのデータセットは4Dレーダーに基づいて提案されてきたが、主にSLAMではなくオブジェクト検出のために設計されている。 また、通常は熱カメラは含まない。 そこで本論文では,この要件を満たすため,NTU4DRadLMを提示する。 主な特徴は次の通りである。 1)4Dレーダー、サーマルカメラ、IMU、3D LiDAR、ビジュアルカメラ、RTK GPSの6つのセンサーを同時に含む唯一のデータセットである。 2) SLAMタスクに特化して設計され, 微調整された実測値と意図的に定式化されたループクロージャを提供する。 3)低速ロボットプラットフォームと高速無人車両プラットフォームの両方を考える。 4)非構造・非構造・半構造環境 5) 中・大規模の屋外環境,すなわち6つの軌道は246mから6.95kmである。 6) 3種類のSLAMアルゴリズムを総合的に評価した。 完全なデータセットは、約17.6km、85mins、50gbで、このリンクからアクセスできる。

Simultaneous Localization and Mapping (SLAM) is moving towards a robust perception age. However, LiDAR- and visual- SLAM may easily fail in adverse conditions (rain, snow, smoke and fog, etc.). In comparison, SLAM based on 4D Radar, thermal camera and IMU can work robustly. But only a few literature can be found. A major reason is the lack of related datasets, which seriously hinders the research. Even though some datasets are proposed based on 4D radar in past four years, they are mainly designed for object detection, rather than SLAM. Furthermore, they normally do not include thermal camera. Therefore, in this paper, NTU4DRadLM is presented to meet this requirement. The main characteristics are: 1) It is the only dataset that simultaneously includes all 6 sensors: 4D radar, thermal camera, IMU, 3D LiDAR, visual camera and RTK GPS. 2) Specifically designed for SLAM tasks, which provides fine-tuned ground truth odometry and intentionally formulated loop closures. 3) Considered both low-speed robot platform and fast-speed unmanned vehicle platform. 4) Covered structured, unstructured and semi-structured environments. 5) Considered both middle- and large- scale outdoor environments, i.e., the 6 trajectories range from 246m to 6.95km. 6) Comprehensively evaluated three types of SLAM algorithms. Totally, the dataset is around 17.6km, 85mins, 50GB and it will be accessible from this link: https://github.com/junzhang2016/NTU4DRadLM
翻訳日:2023-09-07 00:09:02 公開日:2023-09-02
# スパルシリティとラプラシアン制約を用いたネットワークトポロジー推定

Network Topology Inference with Sparsity and Laplacian Constraints ( http://arxiv.org/abs/2309.00960v1 )

ライセンス: Link先を確認
Jiaxi Ying, Xi Han, Rui Zhou, Xiwen Wang, Hing Cheung So(参考訳) 本稿では,グラフラプラシアンによる精度行列の推定としてタスクを再キャストするラプラシアン制約付きガウスモデルを用いて,ネットワークトポロジー推定問題に取り組む。 最近の研究では、このモデルの下でスパースグラフを学ぶ際に広く使われる$\ell_1$-normの制限が明らかになった: 経験的に、解の非零エントリの数は$\ell_1$-normの正規化パラメータによって増加する; 理論的には、大きな正規化パラメータは完全連結(密度)グラフにつながる。 これらの課題を克服するために,$\ell_0$-norm制約を組み込んだグラフラプラシアン推定法を提案する。 スパルシリティとラプラシアン制約を特徴とする最適化問題を解くために,効率的な勾配投影アルゴリズムを開発した。 合成および金融時系列データセットを用いた数値実験により,提案手法がネットワークトポロジー推定に有効であることを示す。

We tackle the network topology inference problem by utilizing Laplacian constrained Gaussian graphical models, which recast the task as estimating a precision matrix in the form of a graph Laplacian. Recent research \cite{ying2020nonconvex} has uncovered the limitations of the widely used $\ell_1$-norm in learning sparse graphs under this model: empirically, the number of nonzero entries in the solution grows with the regularization parameter of the $\ell_1$-norm; theoretically, a large regularization parameter leads to a fully connected (densest) graph. To overcome these challenges, we propose a graph Laplacian estimation method incorporating the $\ell_0$-norm constraint. An efficient gradient projection algorithm is developed to solve the resulting optimization problem, characterized by sparsity and Laplacian constraints. Through numerical experiments with synthetic and financial time-series datasets, we demonstrate the effectiveness of the proposed method in network topology inference.
翻訳日:2023-09-07 00:08:38 公開日:2023-09-02
# 回路のインデックス認識学習

Index-aware learning of circuits ( http://arxiv.org/abs/2309.00958v1 )

ライセンス: Link先を確認
Idoia Cortes Garcia, Peter F\"orster, Lennart Jansen, Wil Schilders, Sebastian Sch\"ops(参考訳) 電気回路は様々な技術の中に存在し、その設計はコンピュータ支援工学の重要な部分となっている。 最終設計に影響を与える調整可能なパラメータの数が増えると、その影響を定量化する新しいアプローチが必要になる。 機械学習は、この点において重要な役割を果たすかもしれないが、現在のアプローチでは、目の前のシステムに関する既存の知識を最適に活用することがしばしばある。 回路の観点では、修正ノーダル解析による記述はよく理解されている。 この特別な定式化は微分代数方程式(英語版)(daes)の体系につながり、解が満たさなければならない隠れた制約など多くの特異性をもたらす。 我々は、ある系を通常の微分方程式に分解できるDAEに対して最近導入された解法の概念を、微分変数と代数変数の関係を記述する純粋代数方程式にのみ適用することを目指している。 そのアイデアは微分変数を学習し、デカップリングの関係を使って代数変数を再構築するだけである。 このアプローチは、代数的制約が非線形システム解決器の精度まで満たされることを保証する。

Electrical circuits are present in a variety of technologies, making their design an important part of computer aided engineering. The growing number of tunable parameters that affect the final design leads to a need for new approaches of quantifying their impact. Machine learning may play a key role in this regard, however current approaches often make suboptimal use of existing knowledge about the system at hand. In terms of circuits, their description via modified nodal analysis is well-understood. This particular formulation leads to systems of differential-algebraic equations (DAEs) which bring with them a number of peculiarities, e.g. hidden constraints that the solution needs to fulfill. We aim to use the recently introduced dissection concept for DAEs that can decouple a given system into ordinary differential equations, only depending on differential variables, and purely algebraic equations that describe the relations between differential and algebraic variables. The idea then is to only learn the differential variables and reconstruct the algebraic ones using the relations from the decoupling. This approach guarantees that the algebraic constraints are fulfilled up to the accuracy of the nonlinear system solver, which represents the main benefit highlighted in this article.
翻訳日:2023-09-07 00:08:19 公開日:2023-09-02
# 視覚運動学グラフ学習によるロボット手術における手技非依存な針先セグメンテーション

Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip Segmentation in Robotic Surgeries ( http://arxiv.org/abs/2309.00957v1 )

ライセンス: Link先を確認
Jiaqi Liu, Yonghao Long, Kai Chen, Cheuk Hei Leung, Zerui Wang, Qi Dou(参考訳) 手術器具先端の正確なセグメンテーションは、外科的スキル評価、ツールとタスクの相互作用、変形モデリング、および外科的自律性など、ロボット手術における下流の応用を可能にする重要なタスクである。 しかし,手術器具の先端部の大きさが小さく,手術場面のばらつきが異なっていたため,この課題は非常に困難である。 視覚ベースの手法では多くの努力がなされているが、既存のセグメンテーションモデルはまだ低ロバスト性に苦しんでいるため、実際には使用できない。 幸いなことに、ロボットシステムのキネマティクスデータは、さまざまな手術の種類によらず、信頼性の高い機器位置を提供することができる。 このようなマルチモーダル情報を利用するために,様々な手術手順を施し,楽器先端を正確に分割する視覚運動グラフ学習フレームワークを提案する。 具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。 次に、クロスモーダルコントラスト損失は、キネマティックスから先端セグメンテーションのイメージへのロバストな幾何学的先行を組み込むように設計されている。 今回我々は, 前立腺摘出術, 腸間膜全摘術, 開腹術, 遠位胃切除術, ブタ胃切除術など, 民間の視覚運動学データセットを用いた実験を行った。 従来のマルチモーダルセグメンテーション手法は,diceでは平均11.2%を上回り,現在の画像に基づく最先端手法を有意に上回っていた。

Accurate segmentation of surgical instrument tip is an important task for enabling downstream applications in robotic surgery, such as surgical skill assessment, tool-tissue interaction and deformation modeling, as well as surgical autonomy. However, this task is very challenging due to the small sizes of surgical instrument tips, and significant variance of surgical scenes across different procedures. Although much effort has been made on visual-based methods, existing segmentation models still suffer from low robustness thus not usable in practice. Fortunately, kinematics data from the robotic system can provide reliable prior for instrument location, which is consistent regardless of different surgery types. To make use of such multi-modal information, we propose a novel visual-kinematics graph learning framework to accurately segment the instrument tip given various surgical procedures. Specifically, a graph learning framework is proposed to encode relational features of instrument parts from both image and kinematics. Next, a cross-modal contrastive loss is designed to incorporate robust geometric prior from kinematics to image for tip segmentation. We have conducted experiments on a private paired visual-kinematics dataset including multiple procedures, i.e., prostatectomy, total mesorectal excision, fundoplication and distal gastrectomy on cadaver, and distal gastrectomy on porcine. The leave-one-procedure-out cross validation demonstrated that our proposed multi-modal segmentation method significantly outperformed current image-based state-of-the-art approaches, exceeding averagely 11.2% on Dice.
翻訳日:2023-09-07 00:08:01 公開日:2023-09-02
# ASF-Net: 時間的アライメントとオンライン適応学習によるロバストなビデオレイアウト

ASF-Net: Robust Video Deraining via Temporal Alignment and Online Adaptive Learning ( http://arxiv.org/abs/2309.00956v1 )

ライセンス: Link先を確認
Xinwei Xue, Jia He, Long Ma, Xiangyu Meng, Wenlin Li, Risheng Liu(参考訳) 近年,ビデオデラリニングの学習に基づく手法が提案されている。 しかし、これらの手法には2つの重要な課題がある: 隣接するフレーム間の時間的相関を利用して、未知の現実世界のシナリオへの適応性を確保する。 これらの課題を克服するために,パラダイムデザインの観点から,ビデオデザイニングを学習戦略構築まで探求する。 具体的には、時間シフトモジュールを組み込んだ新しい計算パラダイムAlignment-Shift-Fusion Network (ASF-Net)を提案する。 このモジュールはこの分野では新しく、特徴空間内のチャネルレベルの情報の交換を容易にすることで、時間情報のより深い探索を提供する。 モデルのキャラクタリゼーション能力を最大限に活用するために,このコミュニティの発展を支援するLArgeスケールのRAINYビデオデータセット(LARA)をさらに構築する。 新たに構築されたデータセットに基づいて,新しい学習戦略を考案し,パラメータ学習プロセスを探索する。 この戦略は、合成シーンと現実世界シーンのギャップを橋渡しし、シーン適応性を高める。 提案手法は,3つのベンチマークで優れた性能を示し,実世界のシナリオにおいて魅力的な視覚品質を示す。 コードはhttps://github.com/vis-opt-group/asf-netで入手できる。

In recent times, learning-based methods for video deraining have demonstrated commendable results. However, there are two critical challenges that these methods are yet to address: exploiting temporal correlations among adjacent frames and ensuring adaptability to unknown real-world scenarios. To overcome these challenges, we explore video deraining from a paradigm design perspective to learning strategy construction. Specifically, we propose a new computational paradigm, Alignment-Shift-Fusion Network (ASF-Net), which incorporates a temporal shift module. This module is novel to this field and provides deeper exploration of temporal information by facilitating the exchange of channel-level information within the feature space. To fully discharge the model's characterization capability, we further construct a LArge-scale RAiny video dataset (LARA) which also supports the development of this community. On the basis of the newly-constructed dataset, we explore the parameters learning process by developing an innovative re-degraded learning strategy. This strategy bridges the gap between synthetic and real-world scenes, resulting in stronger scene adaptability. Our proposed approach exhibits superior performance in three benchmarks and compelling visual quality in real-world scenarios, underscoring its efficacy. The code is available at https://github.com/vis-opt-group/ASF-Net.
翻訳日:2023-09-07 00:07:31 公開日:2023-09-02
# ブリッジ拡散モデル:非英語母語テキスト・画像拡散モデルと英語コミュニティとの橋渡し

Bridge Diffusion Model: bridge non-English language-native text-to-image diffusion model with English communities ( http://arxiv.org/abs/2309.00952v1 )

ライセンス: Link先を確認
Shanyuan Liu, Dawei Leng, Yuhui Yin(参考訳) テキストから画像への生成(tti)技術は、特に英語コミュニティにおいて急速に進歩している。 しかし、英語ネイティブのTTIモデルは本質的に、英語世界中心のトレーニングデータからのバイアスを持ち、他の言語ネイティブのTTIモデルを開発するためのジレンマを生成する。 一般的な選択は、非英語コミュニティから翻訳されたサンプルを用いて、英語ネイティブのTTIモデルを微調整することである。 モデルバイアス問題を完全に解決するに足りません。 あるいは、英語以外のネイティブモデルをスクラッチからトレーニングすることは、英語の世界偏見を効果的に解決することができるが、英語のTTIコミュニティから分離することで、英語のTTIコミュニティで継続的に得られる進歩を活用できない。 英語のTTIコミュニティとの互換性を維持しつつ、非英語のネイティブTTIモデルを構築するために、「ブリッジ拡散モデル」(BDM)と呼ばれる新しいモデル構造を提案する。 提案したBDMは,非英語のセマンティクスを学習するためにバックボーンとブランチのネットワーク構造を用いて,英語のネイティブなTTIバックボーンとの互換性を維持しながら,エンドツーエンドに学習する。 提案されたBDMのユニークな利点は、非英語のセマンティクスを正確に描写するイメージを生成するだけでなく、様々なチェックポイント、LoRA、コントロールネット、ドリームブート、テキストインバージョンなど、様々な英語ネイティブのTTIプラグインと互換性があることである。 さらに、BDMは、非英語のネイティブセマンティクスと英語のネイティブセマンティクスを1つの画像内でシームレスに組み合わせたコンテンツを同時に生成し、文化的相互作用を促進する。 提案手法は中国語ネイティブTTIモデルの構築にBDMを適用して検証するが,本手法は他の言語にも適用可能である。

Text-to-Image generation (TTI) technologies are advancing rapidly, especially in the English language communities. However, English-native TTI models inherently carry biases from English world centric training data, which creates a dilemma for development of other language-native TTI models. One common choice is fine-tuning the English-native TTI model with translated samples from non-English communities. It falls short of fully addressing the model bias problem. Alternatively, training non-English language native models from scratch can effectively resolve the English world bias, but diverges from the English TTI communities, thus not able to utilize the strides continuously gaining in the English TTI communities any more. To build non-English language native TTI model meanwhile keep compatability with the English TTI communities, we propose a novel model structure referred as "Bridge Diffusion Model" (BDM). The proposed BDM employs a backbone-branch network structure to learn the non-English language semantics while keep the latent space compatible with the English-native TTI backbone, in an end-to-end manner. The unique advantages of the proposed BDM are that it's not only adept at generating images that precisely depict non-English language semantics, but also compatible with various English-native TTI plugins, such as different checkpoints, LoRA, ControlNet, Dreambooth, and Textual Inversion, etc. Moreover, BDM can concurrently generate content seamlessly combining both non-English native and English-native semantics within a single image, fostering cultural interaction. We verify our method by applying BDM to build a Chinese-native TTI model, whereas the method is generic and applicable to any other language.
翻訳日:2023-09-07 00:07:10 公開日:2023-09-02
# 多言語テキスト表現

Multilingual Text Representation ( http://arxiv.org/abs/2309.00949v1 )

ライセンス: Link先を確認
Fahim Faisal(参考訳) 現代のNLPのブレークスルーには、100以上の言語でタスクを実行できる大規模な多言語モデルが含まれている。 最先端の言語モデルは、自然言語理解、コモンセンス推論、質問応答といったタスクを実行できる単語の単純でホットな表現から始まり、テキストの構文とセマンティクスの両方を捉えた長い道のりを歩んだ。 同時に、言語モデルは既知の言語境界を越えて拡張され、絶滅危惧言語の非常に低リソースな方言でも競合的に実行されています。 しかし、言語と話者間の統一モデリング空間を通じてテキストの公平な表現を保証するためには、まだ解決すべき問題が残っている。 本研究は,多言語テキスト表現の反復的進展を浮き彫りにし,その結果として現在に至る要因について考察した。 次に,言語民主化の可能性を最大限に活用し,既知の限界を超える可能性と,その領域における改善のスコープについて論じる。

Modern NLP breakthrough includes large multilingual models capable of performing tasks across more than 100 languages. State-of-the-art language models came a long way, starting from the simple one-hot representation of words capable of performing tasks like natural language understanding, common-sense reasoning, or question-answering, thus capturing both the syntax and semantics of texts. At the same time, language models are expanding beyond our known language boundary, even competitively performing over very low-resource dialects of endangered languages. However, there are still problems to solve to ensure an equitable representation of texts through a unified modeling space across language and speakers. In this survey, we shed light on this iterative progression of multilingual text representation and discuss the driving factors that ultimately led to the current state-of-the-art. Subsequently, we discuss how the full potential of language democratization could be obtained, reaching beyond the known limits and what is the scope of improvement in that space.
翻訳日:2023-09-07 00:06:33 公開日:2023-09-02
# 具体的から汎用的な学習集合辞書: 競争的データ構造ブースターを実践する理論的に健全なパラダイム

From Specific to Generic Learned Sorted Set Dictionaries: A Theoretically Sound Paradigm Yelding Competitive Data Structural Boosters in Practice ( http://arxiv.org/abs/2309.00946v1 )

ライセンス: Link先を確認
Domenico Amato, Giosu\'e Lo Bosco and Raffaele Giancarlo(参考訳) この研究は、機械学習と古典的なデータ構造を横断する領域であるLearred Data Structuresに関するものである。 方法論上は重要であり、実践的な影響も大きい。 学習したインデックス、すなわちソートされたセット辞書に焦点を当てます。 これまで利用可能な提案は、テーブル検索手順の時間的パフォーマンスを、例えばバイナリ検索のようにソートされたレイアウトで向上できるという意味で特有である。 我々は、既知の専門用語を補完する新しいパラダイムを提案し、例えば、Eytzingerのように分類されたレイアウト上の平衡二項探索木や二項探索木の学習版を作成することができる。 理論的には、それに基づいて、興味のあるいくつかの結果を得る。 (a)辞書へのアクセスの確率分布のエントロピーによって、平均アクセス時間が制限された最初の学習された最適二分探索林 (b)動的の場合及び償却された分析設定において、古典辞書で知られている同じ時間境界に一致する最初の学習されたソート集合辞書 後者は宇宙の大きさに関する仮定として広く受け入れられている。 ソフトウェア開発に関してやや複雑である実験的な部分は、我々が提案する一般化が、特定のベンチマークモデルであっても、効果的で競争力のある学習データ構造ブースタをもたらすことを明らかに示しています。

This research concerns Learned Data Structures, a recent area that has emerged at the crossroad of Machine Learning and Classic Data Structures. It is methodologically important and with a high practical impact. We focus on Learned Indexes, i.e., Learned Sorted Set Dictionaries. The proposals available so far are specific in the sense that they can boost, indeed impressively, the time performance of Table Search Procedures with a sorted layout only, e.g., Binary Search. We propose a novel paradigm that, complementing known specialized ones, can produce Learned versions of any Sorted Set Dictionary, for instance, Balanced Binary Search Trees or Binary Search on layouts other that sorted, i.e., Eytzinger. Theoretically, based on it, we obtain several results of interest, such as (a) the first Learned Optimum Binary Search Forest, with mean access time bounded by the Entropy of the probability distribution of the accesses to the Dictionary; (b) the first Learned Sorted Set Dictionary that, in the Dynamic Case and in an amortized analysis setting, matches the same time bounds known for Classic Dictionaries. This latter under widely accepted assumptions regarding the size of the Universe. The experimental part, somewhat complex in terms of software development, clearly indicates the nonobvious finding that the generalization we propose can yield effective and competitive Learned Data Structural Booster, even with respect to specific benchmark models.
翻訳日:2023-09-07 00:06:17 公開日:2023-09-02
# 同期と基本時間:相対性理論と量子力学の関係

Synchronization and Fundamental Time: a Connection between Relativity and Quantum Mechanics ( http://arxiv.org/abs/2309.00994v1 )

ライセンス: Link先を確認
Matteo Luca Ruggiero(参考訳) 特殊相対性理論と量子力学の間の興味深い関係は、約60年前に、回転するフレームにおける同期と角運動量の量子化の関連性に焦点を当てたルイ・ド・ブロリーによって提唱された。 ここでは、回転する源の周りの弱い重力場を記述するために応用できる重力電磁気アナロジーを用いて、曲面時空への彼のアプローチを一般化し、結果の新しい解釈を与える。

An interesting connection between special relativity and quantum mechanics was put forward by Louis de Broglie, about 60 years ago, who focused on the link between synchronization in a rotating frame and the quantization of the angular momentum. Here we generalise his approach to curved spacetime, using the gravitoelectromagnetic analogy, which can be applied to describe the weak gravitational field around rotating sources, and give a new interpretation of the results.
翻訳日:2023-09-06 23:59:21 公開日:2023-09-02
# 熱力学および構成パラメータを用いた高エントロピー合金の相・結晶構造予測改善のための機械学習フレームワーク

A Boosted Machine Learning Framework for the Improvement of Phase and Crystal Structure Prediction of High Entropy Alloys Using Thermodynamic and Configurational Parameters ( http://arxiv.org/abs/2309.00993v1 )

ライセンス: Link先を確認
Debsundar Dey, Suchandan Das, Anik Pal, Santanu Dey, Chandan Kumar Raul, Arghya Chatterjee(参考訳) 高エントロピー合金(HEAs)の顕著な性質の背後にある理由は、それらを含む様々な相と結晶構造に根ざしている。 材料情報学の分野では、HEAの相と結晶構造を分類するために機械学習(ML)技術を用いることが大きな意味を持つ。 本研究では,位相を予測するため,異なる組成の1345個のHAAを新たに収集した。 このコレクションには705個のデータがあり、熱力学と電子配置の助けを借りて結晶構造を予測するために使われた。 本研究では,Pearson相関係数という方法論的枠組みを導入し,相関関係の強い特徴の選択と予測精度の向上を支援する。 本研究は、位相と結晶構造を予測するために5つの異なるブースティングアルゴリズムを用い、これらの予測の精度を向上させるためのガイドラインを改良した。 これらのアルゴリズムの中で、XGBoostは位相の予測の最高精度(94.05%)を与え、LightGBMは位相の結晶構造の予測の最高精度(90.07%)を与える。 モデルの精度にパラメータが与える影響の定量化を行い, 位相予測と結晶構造予測のプロセスにおける個々のパラメータの寄与を解明するための新しいアプローチを行った。

The reason behind the remarkable properties of High-Entropy Alloys (HEAs) is rooted in the diverse phases and the crystal structures they contain. In the realm of material informatics, employing machine learning (ML) techniques to classify phases and crystal structures of HEAs has gained considerable significance. In this study, we assembled a new collection of 1345 HEAs with varying compositions to predict phases. Within this collection, there were 705 sets of data that were utilized to predict the crystal structures with the help of thermodynamics and electronic configuration. Our study introduces a methodical framework i.e., the Pearson correlation coefficient that helps in selecting the strongly co-related features to increase the prediction accuracy. This study employed five distinct boosting algorithms to predict phases and crystal structures, offering an enhanced guideline for improving the accuracy of these predictions. Among all these algorithms, XGBoost gives the highest accuracy of prediction (94.05%) for phases and LightGBM gives the highest accuracy of prediction of crystal structure of the phases (90.07%). The quantification of the influence exerted by parameters on the model's accuracy was conducted and a new approach was made to elucidate the contribution of individual parameters in the process of phase prediction and crystal structure prediction.
翻訳日:2023-09-06 23:59:12 公開日:2023-09-02
# 逐次的デクスタリティ:ロングホリゾン操作のためのデクスタラスポリシーの連鎖

Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation ( http://arxiv.org/abs/2309.00987v1 )

ライセンス: Link先を確認
Yuanpei Chen, Chen Wang, Li Fei-Fei, C. Karen Liu(参考訳) 多くの実世界の操作タスクは、互いに著しく異なる一連のサブタスクで構成される。 このような長いホリゾンの複雑なタスクは、適応性と汎用性を持ち、再グラッピングや外部ツールの必要なく、異なるモードの機能をシームレスに切り替えることができるデクスタラスハンドの可能性を浮き彫りにしている。 しかし、この課題は、デキスタラスハンドの高次元の作用空間と、長い水平タスクの複雑な構成力学によって生じる。 本稿では,強化学習(rl)に基づく汎用システムである逐次的デクスタリティ(sequential dexterity)を提案する。 システムのコアは、チェーン成功率を高めるためにサブポリティシーを段階的に微調整するトランジッション実現機能であると同時に、障害からの回復のための自律的なポリシー切り替えと冗長なステージのバイパスを可能にする。 数個のタスクオブジェクトのシミュレーションでしか訓練されていないにもかかわらず、システムは新しいオブジェクト形状への一般化能力を示し、デクスタースハンドを装備した実世界ロボットへのゼロショット転送を可能にする。 詳細とビデオ結果はhttps://sequential-dexterity.github.ioで確認できる。

Many real-world manipulation tasks consist of a series of subtasks that are significantly different from one another. Such long-horizon, complex tasks highlight the potential of dexterous hands, which possess adaptability and versatility, capable of seamlessly transitioning between different modes of functionality without the need for re-grasping or external tools. However, the challenges arise due to the high-dimensional action space of dexterous hand and complex compositional dynamics of the long-horizon tasks. We present Sequential Dexterity, a general system based on reinforcement learning (RL) that chains multiple dexterous policies for achieving long-horizon task goals. The core of the system is a transition feasibility function that progressively finetunes the sub-policies for enhancing chaining success rate, while also enables autonomous policy-switching for recovery from failures and bypassing redundant stages. Despite being trained only in simulation with a few task objects, our system demonstrates generalization capability to novel object shapes and is able to zero-shot transfer to a real-world robot equipped with a dexterous hand. More details and video results could be found at https://sequential-dexterity.github.io
翻訳日:2023-09-06 23:58:50 公開日:2023-09-02
# ModelScope-Agent: オープンソースの大規模言語モデルでカスタマイズ可能なエージェントシステムを構築する

ModelScope-Agent: Building Your Customizable Agent System with Open-source Large Language Models ( http://arxiv.org/abs/2309.00986v1 )

ライセンス: Link先を確認
Chenliang Li, Hehong Chen, Ming Yan, Weizhou Shen, Haiyang Xu, Zhikai Wu, Zhicheng Zhang, Wenmeng Zhou, Yingda Chen, Chen Cheng, Hongzhu Shi, Ji Zhang, Fei Huang, Jingren Zhou(参考訳) 大規模言語モデル(LLM)は、最近、人間の意図を理解し、推論を行い、計画のような振る舞いを設計する顕著な能力を示した。 複雑なタスクを達成するためにLLMの力をさらに解き放つために、ChatGPTのようなLLMと巨大な外部APIと接続するツールを備えたエージェントフレームワークを構築する傾向が強まっている。 本稿では,オープンソースのllmをコントローラとして,実世界のアプリケーション用に汎用かつカスタマイズ可能なエージェントフレームワークであるmodelscope-agentを紹介する。 ユーザフレンドリなシステムライブラリを提供し、カスタマイズ可能なエンジン設計により、複数のオープンソースのLCM上でモデルトレーニングをサポートすると同時に、モデルAPIと共通APIの両方を統一的にシームレスに統合できる。 LLMにツール利用能力を持たせるために、ツール利用データ収集、ツール検索、ツール登録、メモリ制御、カスタマイズされたモデルトレーニング、実用的な実世界のアプリケーションの評価にまたがる包括的なフレームワークが提案されている。 最後に、ModelScope-Agentフレームワークに基づいた、ModelScope Communityの現実的なインテリジェントアシスタントであるModelScopeGPTを紹介します。 ModelScope-Agent library\footnote{https://github.com/modelscope/modelscope-agent}とオンラインデモ\footnote{https://modelscope.cn/studios/damo/ModelScopeGPT/summary}が公開されている。

Large language models (LLMs) have recently demonstrated remarkable capabilities to comprehend human intentions, engage in reasoning, and design planning-like behavior. To further unleash the power of LLMs to accomplish complex tasks, there is a growing trend to build agent framework that equips LLMs, such as ChatGPT, with tool-use abilities to connect with massive external APIs. In this work, we introduce ModelScope-Agent, a general and customizable agent framework for real-world applications, based on open-source LLMs as controllers. It provides a user-friendly system library, with customizable engine design to support model training on multiple open-source LLMs, while also enabling seamless integration with both model APIs and common APIs in a unified way. To equip the LLMs with tool-use abilities, a comprehensive framework has been proposed spanning over tool-use data collection, tool retrieval, tool registration, memory control, customized model training, and evaluation for practical real-world applications. Finally, we showcase ModelScopeGPT, a real-world intelligent assistant of ModelScope Community based on the ModelScope-Agent framework, which is able to connect open-source LLMs with more than 1000 public AI models and localized community knowledge in ModelScope. The ModelScope-Agent library\footnote{https://github.com/modelscope/modelscope-agent} and online demo\footnote{https://modelscope.cn/studios/damo/ModelScopeGPT/summary} are now publicly available.
翻訳日:2023-09-06 23:58:29 公開日:2023-09-02
# 高次元非線形力学系追跡のためのアンサンブルスコアフィルタ

An Ensemble Score Filter for Tracking High-Dimensional Nonlinear Dynamical Systems ( http://arxiv.org/abs/2309.00983v1 )

ライセンス: Link先を確認
Feng Bao, Zezhong Zhang, Guannan Zhang(参考訳) 本稿では,高精度な非線形フィルタ問題を解くためのアンサンブルスコアフィルタ(ensf)を提案する。 粒子フィルタやアンサンブルカルマンフィルタといった既存のフィルタリング方法の大きな欠点は、高次元および高非線形問題を扱う際の精度が低いことである。 ensfは、擬似時間領域で定義されるスコアベースの拡散モデルを利用して、フィルタリング密度の進化を特徴付けることで、この課題に挑戦する。 ensfは、有限モンテカルロサンプル群(粒子フィルタおよびアンサンブルカルマンフィルタで使用される)に情報を格納する代わりに、再帰的に更新されたフィルタリング密度関数の情報をスコア関数に格納する。 既存のニューラルネットワークをトレーニングしてスコア関数を近似する拡散モデルとは異なり、ミニバッチベースのモンテカルロ推定器を用いて任意の擬似空間-時間的位置におけるスコア関数を直接近似するトレーニングフリースコア推定法を開発し、高次元非線形問題を解くのに十分な精度と、ニューラルネットワークのトレーニングに費やされる膨大な時間を削減する。 ensfのもう一つの重要な側面は、データ情報を徐々にスコア関数に組み込む解析的な更新ステップであり、非常に高次元の非線形フィルタリング問題を扱う際に直面する縮退問題を緩和する上で重要である。 本手法の性能を示すために高次元ロレンツシステムを用いる。 ensfは、非常に高次元のlorenz系(最大1,000,000次元)を非常に非線形な観察プロセスで確実に追跡する驚くべき性能を提供する。

We propose an ensemble score filter (EnSF) for solving high-dimensional nonlinear filtering problems with superior accuracy. A major drawback of existing filtering methods, e.g., particle filters or ensemble Kalman filters, is the low accuracy in handling high-dimensional and highly nonlinear problems. EnSF attacks this challenge by exploiting the score-based diffusion model, defined in a pseudo-temporal domain, to characterizing the evolution of the filtering density. EnSF stores the information of the recursively updated filtering density function in the score function, in stead of storing the information in a set of finite Monte Carlo samples (used in particle filters and ensemble Kalman filters). Unlike existing diffusion models that train neural networks to approximate the score function, we develop a training-free score estimation that uses mini-batch-based Monte Carlo estimator to directly approximate the score function at any pseudo-spatial-temporal location, which provides sufficient accuracy in solving high-dimensional nonlinear problems as well as saves tremendous amount of time spent on training neural networks. Another essential aspect of EnSF is its analytical update step, gradually incorporating data information into the score function, which is crucial in mitigating the degeneracy issue faced when dealing with very high-dimensional nonlinear filtering problems. High-dimensional Lorenz systems are used to demonstrate the performance of our method. EnSF provides surprisingly impressive performance in reliably tracking extremely high-dimensional Lorenz systems (up to 1,000,000 dimension) with highly nonlinear observation processes, which is a well-known challenging problem for existing filtering methods.
翻訳日:2023-09-06 23:58:01 公開日:2023-09-02
# リンク予測のためのPure Message Passingは、近隣住民を推定できる

Pure Message Passing Can Estimate Common Neighbor for Link Prediction ( http://arxiv.org/abs/2309.00976v1 )

ライセンス: Link先を確認
Kaiwen Dong, Zhichun Guo, Nitesh V. Chawla(参考訳) メッセージパッシングニューラルネットワーク(MPNN)は、グラフ表現学習におけるデファクト標準として登場した。 しかし、リンク予測に関して、彼らはしばしば苦労し、Common Neighbor (CN)のような単純なヒューリスティックに勝っている。 MPNNはノードレベルの表現が優れているが、CNのようなリンク予測に不可欠な結合構造的特徴を符号化する。 このギャップを埋めるために、入力ベクトルの直交性を利用することで、純粋なメッセージパッシングが実際に結合構造の特徴を捉えることができると仮定する。 具体的には,CNヒューリスティックスを近似するMPNNの習熟度について検討する。 そこで本研究では,新しいリンク予測モデルであるメッセージパッシングリンク予測器(mplp)を提案する。 MPLPは準直交ベクトルをタップしてリンクレベルの構造的特徴を推定する。 さらに,構造的特徴を捉えるためにメッセージパッシングを活用することで,推定分散を犠牲にしてMPNNの表現性制限を相殺できることを示す。 我々は様々な領域のベンチマークデータセットの実験を行い、この手法はベースライン法より一貫して優れています。

Message Passing Neural Networks (MPNNs) have emerged as the {\em de facto} standard in graph representation learning. However, when it comes to link prediction, they often struggle, surpassed by simple heuristics such as Common Neighbor (CN). This discrepancy stems from a fundamental limitation: while MPNNs excel in node-level representation, they stumble with encoding the joint structural features essential to link prediction, like CN. To bridge this gap, we posit that, by harnessing the orthogonality of input vectors, pure message-passing can indeed capture joint structural features. Specifically, we study the proficiency of MPNNs in approximating CN heuristics. Based on our findings, we introduce the Message Passing Link Predictor (MPLP), a novel link prediction model. MPLP taps into quasi-orthogonal vectors to estimate link-level structural features, all while preserving the node-level complexities. Moreover, our approach demonstrates that leveraging message-passing to capture structural features could offset MPNNs' expressiveness limitations at the expense of estimation variance. We conduct experiments on benchmark datasets from various domains, where our method consistently outperforms the baseline methods.
翻訳日:2023-09-06 23:57:12 公開日:2023-09-02
# 土壌サンプリングの最適選択のための深層学習フレームワーク

Deep-Learning Framework for Optimal Selection of Soil Sampling Sites ( http://arxiv.org/abs/2309.00974v1 )

ライセンス: Link先を確認
Tan-Hanh Pham, Praneel Acharya, Sravanthi Bachina, Kristopher Osterloh, Kim-Doang Nguyen(参考訳) この研究は、画像処理におけるディープラーニングの最近の進歩を活用して、フィールドの重要な特性を示す最適な位置を見つける。 訓練用データは, 地形, 流れの蓄積, 斜面, NDVI (正規化差植生指数), 収率の5つの特徴を持つ地域農場の異なるフィールドで収集される。 土壌サンプリングデータセットは、基底真理が高度に不均衡なバイナリ画像であるため、困難である。 そこで,本研究では,畳み込みニューラルネットワーク(cnn)バックボーンを用いた最先端モデルを活用する手法と,トランスフォーマおよび自己着脱の概念に基づくディープラーニング設計を革新する手法の2つを用いてこの問題にアプローチした。 本フレームワークは,自己保持機構をバックボーンとするエンコーダデコーダアーキテクチャで構築されている。 エンコーダでは、セルフアテンション機構が特徴マップを生成する主要な特徴抽出器である。 デコーダでは,抽出された特徴を結合し,融合し,土壌サンプリングに最適な位置をエクスポートするために,有意な畳み込みネットワークを導入する。 現在、このモデルはテストデータセットにおいて、平均精度99.52%、平均IoU(IoU)57.35%、平均Dice係数71.47%、最先端CNNベースのモデルのパフォーマンス指標はそれぞれ66.08%、3.85%、および1.98%という驚くべき結果を得た。 これは,提案手法が土壌サンプルデータセット上でcnn法よりも優れていることを示す。 我々の知る限り、我々の研究は、複数の属性を持つ土壌サンプリングデータセットを初めて提供し、深層学習技術を活用して土壌サンプリングサイトの自動選択を可能にする。 この研究は、他の新興農業問題を解決するために、データサイエンスと機械学習技術の新たな応用の基礎を築いた。

This work leverages the recent advancements of deep learning in image processing to find optimal locations that present the important characteristics of a field. The data for training are collected at different fields in local farms with five features: aspect, flow accumulation, slope, NDVI (normalized difference vegetation index), and yield. The soil sampling dataset is challenging because the ground truth is highly imbalanced binary images. Therefore, we approached the problem with two methods, the first approach involves utilizing a state-of-the-art model with the convolutional neural network (CNN) backbone, while the second is to innovate a deep-learning design grounded in the concepts of transformer and self-attention. Our framework is constructed with an encoder-decoder architecture with the self-attention mechanism as the backbone. In the encoder, the self-attention mechanism is the key feature extractor, which produces feature maps. In the decoder, we introduce atrous convolution networks to concatenate, fuse the extracted features, and then export the optimal locations for soil sampling. Currently, the model has achieved impressive results on the testing dataset, with a mean accuracy of 99.52%, a mean Intersection over Union (IoU) of 57.35%, and a mean Dice Coefficient of 71.47%, while the performance metrics of the state-of-the-art CNN-based model are 66.08%, 3.85%, and 1.98%, respectively. This indicates that our proposed model outperforms the CNN-based method on the soil-sampling dataset. To the best of our knowledge, our work is the first to provide a soil-sampling dataset with multiple attributes and leverage deep learning techniques to enable the automatic selection of soil-sampling sites. This work lays a foundation for novel applications of data science and machine-learning technologies to solve other emerging agricultural problems.
翻訳日:2023-09-06 23:56:37 公開日:2023-09-02
# adler: ワンショット医用画像セグメンテーションのためのラベル誤り訂正による逆行訓練

AdLER: Adversarial Training with Label Error Rectification for One-Shot Medical Image Segmentation ( http://arxiv.org/abs/2309.00971v1 )

ライセンス: Link先を確認
Xiangyu Zhao, Sheng Wang, Zhiyun Song, Zhenrong Shen, Linlin Yao, Haolei Yuan, Qian Wang, Lichi Zhang(参考訳) 医療画像の正確な自動セグメンテーションは、通常、高品質なアノテーションを持つ大規模なデータセットを必要とする。 学習変換(OSSLT)に基づくワンショットセグメンテーションは、ラベル付きデータが極めて限定されている場合、通常、教師なしの変形可能な登録、学習された登録によるデータ拡張、拡張されたデータから学習されたセグメンテーションを含む。 しかし、現在のワンショットセグメンテーション手法は、増大中のデータ多様性の制限と、不完全な登録による潜在的なラベルエラーによって難航している。 これらの課題に対処するため, ラベル誤り訂正(AdLER)を用いた一発画像分割手法を提案し, 生成データの多様性の向上とラベル誤りの修正を目標とし, セグメンテーション性能の向上を図る。 具体的には,新しい二重一貫性制約を実装し,登録エラーを低減させる解剖学的に整合した登録を実現する。 さらに,アトラス画像を強化するための逆訓練戦略を開発し,世代多様性とセグメンテーションの堅牢性を確保した。 また,変形可能な登録の不完全性を補うセグメンテーションの不確かさを推定し,セグメンテーションの信頼性を向上させることにより,拡張アトラス画像における潜在的なラベル誤りを正す手法を提案する。 CANDIデータセットとABIDEデータセットの実験では、提案されたAdLERは、Diceスコアに基づいたセグメンテーションにおいて、それぞれ0.7%(CANDI)、3.6%(ABIDE"seen")、4.9%(ABIDE"unseen")の従来の最先端手法よりも優れていた。 ソースコードはhttps://github.com/hsiangyuzhao/AdLERで入手できる。

Accurate automatic segmentation of medical images typically requires large datasets with high-quality annotations, making it less applicable in clinical settings due to limited training data. One-shot segmentation based on learned transformations (OSSLT) has shown promise when labeled data is extremely limited, typically including unsupervised deformable registration, data augmentation with learned registration, and segmentation learned from augmented data. However, current one-shot segmentation methods are challenged by limited data diversity during augmentation, and potential label errors caused by imperfect registration. To address these issues, we propose a novel one-shot medical image segmentation method with adversarial training and label error rectification (AdLER), with the aim of improving the diversity of generated data and correcting label errors to enhance segmentation performance. Specifically, we implement a novel dual consistency constraint to ensure anatomy-aligned registration that lessens registration errors. Furthermore, we develop an adversarial training strategy to augment the atlas image, which ensures both generation diversity and segmentation robustness. We also propose to rectify potential label errors in the augmented atlas images by estimating segmentation uncertainty, which can compensate for the imperfect nature of deformable registration and improve segmentation authenticity. Experiments on the CANDI and ABIDE datasets demonstrate that the proposed AdLER outperforms previous state-of-the-art methods by 0.7% (CANDI), 3.6% (ABIDE "seen"), and 4.9% (ABIDE "unseen") in segmentation based on Dice scores, respectively. The source code will be available at https://github.com/hsiangyuzhao/AdLER.
翻訳日:2023-09-06 23:55:54 公開日:2023-09-02
# 高効率・高速・低雑音フォトニック量子メモリ

High-efficiency, high-speed, and low-noise photonic quantum memory ( http://arxiv.org/abs/2309.00969v1 )

ライセンス: Link先を確認
Kai Shinbrough, Tegan Loveridge, Benjamin D. Hunt, Sehyun Park, Kathleen Oolman, Thomas O. Reboli, J. Gary Eden, Virginia O. Lorenz(参考訳) 本稿では,フォトニック量子メモリの高効率,高速,低雑音同時動作の実証を行う。 中性バリウム原子蒸気における制御可能な衝突分解を利用して、既存の技術よりもメモリ効率と帯域幅が大幅に向上することを示す。 95%以上のストレージ効率と880ghz帯域光子の合計効率を26%達成し、再生パルスあたり$\mathcal{o}(10^{-5})$ノイズ光子を得る。 これらの超広帯域は、迅速な量子情報処理を可能にし、量子通信、計算、ネットワークにおける潜在的な応用を伴う実用的な量子メモリの開発に寄与する。

We present a demonstration of simultaneous high-efficiency, high-speed, and low-noise operation of a photonic quantum memory. By leveraging controllable collisional dephasing in a neutral barium atomic vapor, we demonstrate a significant improvement in memory efficiency and bandwidth over existing techniques. We achieve greater than 95% storage efficiency and 26% total efficiency of 880 GHz bandwidth photons, with $\mathcal{O}(10^{-5})$ noise photons per retrieved pulse. These ultrabroad bandwidths enable rapid quantum information processing and contribute to the development of practical quantum memories with potential applications in quantum communication, computation, and networking.
翻訳日:2023-09-06 23:55:16 公開日:2023-09-02
# 組成拡散に基づく連続制約解法

Compositional Diffusion-Based Continuous Constraint Solvers ( http://arxiv.org/abs/2309.00966v1 )

ライセンス: Link先を確認
Zhutian Yang, Jiayuan Mao, Yilun Du, Jiajun Wu, Joshua B. Tenenbaum, Tom\'as Lozano-P\'erez, Leslie Pack Kaelbling(参考訳) 本稿では,ロボット推論と計画における連続的制約満足度問題(CCSP)の解法を提案する。 以前の方法は、特定の制約タイプに対して手作業や学習ジェネレータに依存し、他の制約に違反した場合は値割り当てを拒否する。 対照的に, 合成拡散連続制約ソルバ(diffusion-ccsp)は, ccspに対する大域的な解を因子グラフとして表現し, 個々の制約型をサンプルとして訓練した拡散モデルのエネルギーを組み合わせることにより導出する。 拡散CCSPは既知の制約の新たな組み合わせに対して強い一般化を示し、タスクと運動プランナに統合して、離散パラメータと連続パラメータの両方を含むアクションを含む長期計画を作成することができる。 プロジェクトサイト: https://diffusion-ccsp.github.io/

This paper introduces an approach for learning to solve continuous constraint satisfaction problems (CCSP) in robotic reasoning and planning. Previous methods primarily rely on hand-engineering or learning generators for specific constraint types and then rejecting the value assignments when other constraints are violated. By contrast, our model, the compositional diffusion continuous constraint solver (Diffusion-CCSP) derives global solutions to CCSPs by representing them as factor graphs and combining the energies of diffusion models trained to sample for individual constraint types. Diffusion-CCSP exhibits strong generalization to novel combinations of known constraints, and it can be integrated into a task and motion planner to devise long-horizon plans that include actions with both discrete and continuous parameters. Project site: https://diffusion-ccsp.github.io/
翻訳日:2023-09-06 23:55:03 公開日:2023-09-02
# ディープオペレータネットワークの訓練と一般化について

On the training and generalization of deep operator networks ( http://arxiv.org/abs/2309.01020v1 )

ライセンス: Link先を確認
Sanghyun Lee, Yeonjong Shin(参考訳) 本稿では,演算子にとって最も人気のあるニューラルネットワークモデルの一つであるディープ演算子ネットワーク(DeepONets)の新たなトレーニング手法を提案する。 DeepONetsは2つのサブネットワーク、すなわちブランチとトランクネットワークによって構築されている。 通常、2つのサブネットワークは同時に訓練され、これは高次元空間における複雑な最適化問題の解決に繋がる。 さらに、非凸と非線形の性質はトレーニングを非常に困難にする。 そこで本研究では,まず幹線ネットワークをトレーニングし,次に分岐ネットワークを順次トレーニングする2段階のトレーニング手法を提案する。 コアメカニズムは分割・コンカマーパラダイムによって動機付けられ、複雑なトレーニングタスク全体を2つのサブタスクに分解し、複雑さを低減させる。 そこでグラマーシュミット正則化法を導入し、安定性と一般化能力を大幅に改善した。 理論的には、トレーニングデータ数、DeepONetsの幅、入出力センサ数の観点から一般化誤差を推定する。 不均質多孔質媒質中のダーシー流を含む2段階の訓練法の有効性を示す数値的な例を示す。

We present a novel training method for deep operator networks (DeepONets), one of the most popular neural network models for operators. DeepONets are constructed by two sub-networks, namely the branch and trunk networks. Typically, the two sub-networks are trained simultaneously, which amounts to solving a complex optimization problem in a high dimensional space. In addition, the nonconvex and nonlinear nature makes training very challenging. To tackle such a challenge, we propose a two-step training method that trains the trunk network first and then sequentially trains the branch network. The core mechanism is motivated by the divide-and-conquer paradigm and is the decomposition of the entire complex training task into two subtasks with reduced complexity. Therein the Gram-Schmidt orthonormalization process is introduced which significantly improves stability and generalization ability. On the theoretical side, we establish a generalization error estimate in terms of the number of training data, the width of DeepONets, and the number of input and output sensors. Numerical examples are presented to demonstrate the effectiveness of the two-step training method, including Darcy flow in heterogeneous porous media.
翻訳日:2023-09-06 23:49:50 公開日:2023-09-02
# 画像分割参照用トランスを用いたコントラストグルーピング

Contrastive Grouping with Transformer for Referring Image Segmentation ( http://arxiv.org/abs/2309.01017v1 )

ライセンス: Link先を確認
Jiajin Tang, Ge Zheng, Cheng Shi, Sibei Yang(参考訳) 参照画像セグメント化は、自然言語表現に基づく画像条件付けにおいて、ターゲット参照をセグメント化することを目的としている。 既存の1段階の方法はピクセル単位の分類フレームワークを採用しており、視覚と言語をピクセルレベルで直接調整しようとするため、重要なオブジェクトレベルの情報をキャプチャできない。 本稿では,トークンベースの問合せとグループ化戦略を通じて,オブジェクトレベルの情報を明示的にキャプチャするマスク分類フレームワークであるtransformer network (cgformer) を提案する。 具体的には、cgformerはまずオブジェクトを表現するために学習可能なクエリトークンを導入し、次に言語的特徴を交互にクエリし、オブジェクト対応のクロスモーダル推論のためのクエリトークンに視覚的な特徴をグループ化する。 さらに、CGFormerは、2つの連続するレイヤごとにクエリトークンとデコードマスクを共同で更新することで、クロスレベルなインタラクションを実現する。 最後に、CGFormerはグループ戦略と対比学習を行い、参照者に対応するトークンとそのマスクを識別する。 実験の結果,CGFormerはセグメンテーションと一般化の両設定において,最先端の手法よりも一貫して,大幅に優れていた。

Referring image segmentation aims to segment the target referent in an image conditioning on a natural language expression. Existing one-stage methods employ per-pixel classification frameworks, which attempt straightforwardly to align vision and language at the pixel level, thus failing to capture critical object-level information. In this paper, we propose a mask classification framework, Contrastive Grouping with Transformer network (CGFormer), which explicitly captures object-level information via token-based querying and grouping strategy. Specifically, CGFormer first introduces learnable query tokens to represent objects and then alternately queries linguistic features and groups visual features into the query tokens for object-aware cross-modal reasoning. In addition, CGFormer achieves cross-level interaction by jointly updating the query tokens and decoding masks in every two consecutive layers. Finally, CGFormer cooperates contrastive learning to the grouping strategy to identify the token and its mask corresponding to the referent. Experimental results demonstrate that CGFormer outperforms state-of-the-art methods in both segmentation and generalization settings consistently and significantly.
翻訳日:2023-09-06 23:49:33 公開日:2023-09-02
# MPTopic: Masked Permuted Pre-trainingによるトピックモデリングの改善

MPTopic: Improving topic modeling via Masked Permuted pre-training ( http://arxiv.org/abs/2309.01015v1 )

ライセンス: Link先を確認
Xinche Zhang, Evangelos milios(参考訳) トピックモデリングはテキスト内の隠れセマンティック構造を識別する上で重要である。 BERTopicやTop2Vecといったイノベーティブなテクニックは、最近その前面に現れている。 分析の結果,これらの手法はクラスタリング機構の改良を優先しない可能性があり,派生トピッククラスタの品質を損なう可能性がある。 BERTopicはそのトピック抽出にC-TF-IDFを利用するのに対し、Top2Vecはクラスタリング結果のセントロイドを指定しており、これらの課題に対応するために、文書内の用語の関連性を評価するためのユニークなアプローチである"TF-RDF"(Term Frequency - Relative Document Frequency)を導入する。 tf-rdfの強みを基盤として,tf-rdfの知見を生かしたクラスタリングアルゴリズムmptopicを提案する。 総合評価により,MPTopic と TF-RDF の相乗効果が,BERTopic と Top2Vec で抽出したキーワードよりも優れていることが明らかとなった。

Topic modeling is pivotal in discerning hidden semantic structures within texts, thereby generating meaningful descriptive keywords. While innovative techniques like BERTopic and Top2Vec have recently emerged in the forefront, they manifest certain limitations. Our analysis indicates that these methods might not prioritize the refinement of their clustering mechanism, potentially compromising the quality of derived topic clusters. To illustrate, Top2Vec designates the centroids of clustering results to represent topics, whereas BERTopic harnesses C-TF-IDF for its topic extraction.In response to these challenges, we introduce "TF-RDF" (Term Frequency - Relative Document Frequency), a distinctive approach to assess the relevance of terms within a document. Building on the strengths of TF-RDF, we present MPTopic, a clustering algorithm intrinsically driven by the insights of TF-RDF. Through comprehensive evaluation, it is evident that the topic keywords identified with the synergy of MPTopic and TF-RDF outperform those extracted by both BERTopic and Top2Vec.
翻訳日:2023-09-06 23:49:08 公開日:2023-09-02
# 分類による回帰を用いた回帰問題に対するストリーミングアクティブ学習

Streaming Active Learning for Regression Problems Using Regression via Classification ( http://arxiv.org/abs/2309.01013v1 )

ライセンス: Link先を確認
Shota Horiguchi, Kota Dohi, Yohei Kawaguchi(参考訳) マシンラーニングモデルをデプロイする上での課題のひとつは、運用環境が変化すると、モデルのパフォーマンスが低下することです。 パフォーマンスを維持するために、サンプルの予測が十分でない場合には、トレーニングデータセットに新たに注釈付きサンプルを追加して、モデルの再トレーニングを行うストリーミングアクティブラーニングが使用される。 多くのストリーミングアクティブな学習手法が分類のために提案されているが、産業分野でよく扱われる回帰問題に対する取り組みはほとんど行われていない。 本稿では,回帰学習のためのストリーミング能動学習のための回帰情報分類フレームワークを提案する。 レグレッション・ウィズ・クラス化は回帰問題を分類問題に変換し、分類問題に提案されたストリーミングアクティブラーニング手法を回帰問題に直接適用できるようにする。 4つの実データ集合に対する実験的検証により,提案手法は同一のアノテーションコストで高い精度で回帰を行うことができることを示す。

One of the challenges in deploying a machine learning model is that the model's performance degrades as the operating environment changes. To maintain the performance, streaming active learning is used, in which the model is retrained by adding a newly annotated sample to the training dataset if the prediction of the sample is not certain enough. Although many streaming active learning methods have been proposed for classification, few efforts have been made for regression problems, which are often handled in the industrial field. In this paper, we propose to use the regression-via-classification framework for streaming active learning for regression. Regression-via-classification transforms regression problems into classification problems so that streaming active learning methods proposed for classification problems can be applied directly to regression problems. Experimental validation on four real data sets shows that the proposed method can perform regression with higher accuracy at the same annotation cost.
翻訳日:2023-09-06 23:48:47 公開日:2023-09-02
# ピッチ解析のためのロバスト3次元野球選手ポースモデリングのための動作ブラジャーの緩和

Mitigating Motion Blur for Robust 3D Baseball Player Pose Modeling for Pitch Analysis ( http://arxiv.org/abs/2309.01010v1 )

ライセンス: Link先を確認
Jerrin Bright, Yuhao Chen, John Zelek(参考訳) 野球のピッチャーの分析にビデオを使うことは、ストラテジジングとケガ予防に重要な役割を果たす。 コンピュータビジョンに基づくポーズ分析は、時間効率とコスト効率のよいアプローチを提供する。 しかし、30fpsのフレームレートを持つアクセス可能なブロードキャストビデオを使用することで、高速動作中に身体の一部動きがぼやけ、既存のポーズキーポイント推定モデルの性能が制限されることが多い。 以前の作品は主に固定された背景に依存しており、フレーム間の動きの差を最小にするか、マルチビューデータを使用してこの問題に対処していた。 そこで本研究では,ピッチャーのぼやけた動作に対処するモデルの能力を高めるために,合成データ拡張パイプラインを提案する。 さらに私たちは,実世界の状況やカメラ位置の異なる状況下で,モデルを堅牢にするために,wild内ビデオを活用しています。 拡張パラメータを慎重に最適化することにより、2Dと3Dのポーズ推定のためのテストデータセットにおいて、損失が54.2%減少し、36.2%減少した。 既存のポーズ推定にアプローチを適用することで、平均的な改善率は29.2%である。 本研究は,動きのぼけによる課題を軽減し,ポーズ推定の総合的品質を向上させる手法の有効性を強調する。

Using videos to analyze pitchers in baseball can play a vital role in strategizing and injury prevention. Computer vision-based pose analysis offers a time-efficient and cost-effective approach. However, the use of accessible broadcast videos, with a 30fps framerate, often results in partial body motion blur during fast actions, limiting the performance of existing pose keypoint estimation models. Previous works have primarily relied on fixed backgrounds, assuming minimal motion differences between frames, or utilized multiview data to address this problem. To this end, we propose a synthetic data augmentation pipeline to enhance the model's capability to deal with the pitcher's blurry actions. In addition, we leverage in-the-wild videos to make our model robust under different real-world conditions and camera positions. By carefully optimizing the augmentation parameters, we observed a notable reduction in the loss by 54.2% and 36.2% on the test dataset for 2D and 3D pose estimation respectively. By applying our approach to existing state-of-the-art pose estimators, we demonstrate an average improvement of 29.2%. The findings highlight the effectiveness of our method in mitigating the challenges posed by motion blur, thereby enhancing the overall quality of pose estimation.
翻訳日:2023-09-06 23:48:31 公開日:2023-09-02
# BreaKHisデータセットを用いた乳癌診断のためのディープラーニングアーキテクチャの比較解析

Comparative Analysis of Deep Learning Architectures for Breast Cancer Diagnosis Using the BreaKHis Dataset ( http://arxiv.org/abs/2309.01007v1 )

ライセンス: Link先を確認
\.Irem Say{\i}n, Muhammed Ali Soyda\c{s}, Yunus Emre Mert, Arda Yarkada\c{s}, Berk Erg\"un, Selma S\"ozen Yeh, H\"useyin \"Uvet(参考訳) ガンは多くの異なる方法で現れ、多くの異なる臓器や組織に影響を与えるため、非常に困難で危険な健康問題である。 本研究の主な目的は,BreakHisデータセットを用いて乳がん患者を正しく同定する深層学習モデルの能力を評価することである。 breakhisデータセットは、病理組織学的画像の膨大なコレクションを通じて、幅広い種類の乳癌サブタイプをカバーしている。 本研究では,VGG,ResNet,Xception,Inception,InceptionResNetの5つのよく知られたディープラーニングモデルの性能を比較した。 その結果、Xceptionモデルがトップに上がり、F1スコアは0.9、精度は89%となった。 同時に、inceptionresnetモデルとinceptionresnetモデルの両方が87%の精度でヒットした。 しかし、インセプションモデルのf1スコアは87であり、インセプションresnetモデルは86であった。 これらの結果から,乳癌の診断における深層学習法の重要性が示唆された。 これは、患者により良い診断サービスを提供する可能性を強調している。 本研究の知見は, 癌診断の現在の方法を改善するだけでなく, 新規で改良されたがん治療戦略の作成にも大きな貢献をした。 一言で言えば、この研究の結果は、これらの重要な医療目標を達成する方向への大きな前進を示している。

Cancer is an extremely difficult and dangerous health problem because it manifests in so many different ways and affects so many different organs and tissues. The primary goal of this research was to evaluate deep learning models' ability to correctly identify breast cancer cases using the BreakHis dataset. The BreakHis dataset covers a wide range of breast cancer subtypes through its huge collection of histopathological pictures. In this study, we use and compare the performance of five well-known deep learning models for cancer classification: VGG, ResNet, Xception, Inception, and InceptionResNet. The results placed the Xception model at the top, with an F1 score of 0.9 and an accuracy of 89%. At the same time, the Inception and InceptionResNet models both hit accuracy of 87% . However, the F1 score for the Inception model was 87, while that for the InceptionResNet model was 86. These results demonstrate the importance of deep learning methods in making correct breast cancer diagnoses. This highlights the potential to provide improved diagnostic services to patients. The findings of this study not only improve current methods of cancer diagnosis, but also make significant contributions to the creation of new and improved cancer treatment strategies. In a nutshell, the results of this study represent a major advancement in the direction of achieving these vital healthcare goals.
翻訳日:2023-09-06 23:48:09 公開日:2023-09-02
# RevColV2: マスク画像モデリングにおけるアンタングル表現の探索

RevColV2: Exploring Disentangled Representations in Masked Image Modeling ( http://arxiv.org/abs/2309.01005v1 )

ライセンス: Link先を確認
Qi Han, Yuxuan Cai, Xiangyu Zhang(参考訳) Masked Image Modeling (MIM) は、視覚基礎モデルのトレーニング前セットアップとして普及し、有望なパフォーマンスを実現している。 その成功にもかかわらず、既存のMIMメソッドは下流アプリケーション中にデコーダネットワークを破棄し、事前トレーニングと微調整の間に一貫性のない表現をもたらし、下流タスクのパフォーマンスを阻害する。 本稿では,事前学習と微調整の両方において,オートエンコーダアーキテクチャ全体を維持することで,この問題に対処する新しいアーキテクチャRevColV2を提案する。 RevColV2の本体にはボトムアップカラムとトップダウンカラムが含まれており、その間に情報は可逆的に伝播し、徐々に切り離されている。 このような設計により、MIM事前学習においてネットワークの終端において、不整合な低レベルおよびセマンティック情報を維持することができる。 画像分類,セマンティックセグメンテーション,オブジェクト検出など,複数の下流視覚タスクにおいて,分離された特徴を持つ基礎モデルが競合性能を達成できることを示す。 例えば、ImageNet-22Kデータセットの中間微調整の後、RevColV2-LはImageNet-1K分類で88.4%、ADE20Kセマンティックセグメンテーションで58.6 mIoUに達した。 教師と大規模データセットにより、revcolv2-lはcoco検出で62.1ボックスap、ade20kセマンティクスセグメンテーションで60.4miouを達成する。 コードとモデルはhttps://github.com/megvii-research/revcolでリリース

Masked image modeling (MIM) has become a prevalent pre-training setup for vision foundation models and attains promising performance. Despite its success, existing MIM methods discard the decoder network during downstream applications, resulting in inconsistent representations between pre-training and fine-tuning and can hamper downstream task performance. In this paper, we propose a new architecture, RevColV2, which tackles this issue by keeping the entire autoencoder architecture during both pre-training and fine-tuning. The main body of RevColV2 contains bottom-up columns and top-down columns, between which information is reversibly propagated and gradually disentangled. Such design enables our architecture with the nice property: maintaining disentangled low-level and semantic information at the end of the network in MIM pre-training. Our experimental results suggest that a foundation model with decoupled features can achieve competitive performance across multiple downstream vision tasks such as image classification, semantic segmentation and object detection. For example, after intermediate fine-tuning on ImageNet-22K dataset, RevColV2-L attains 88.4% top-1 accuracy on ImageNet-1K classification and 58.6 mIoU on ADE20K semantic segmentation. With extra teacher and large scale dataset, RevColv2-L achieves 62.1 box AP on COCO detection and 60.4 mIoU on ADE20K semantic segmentation. Code and models are released at https://github.com/megvii-research/RevCol
翻訳日:2023-09-06 23:47:49 公開日:2023-09-02
# 辞書学習と符号化のためのベイズ空間とクラス空間

Bayesian sparsity and class sparsity priors for dictionary learning and coding ( http://arxiv.org/abs/2309.00999v1 )

ライセンス: Link先を確認
Alberto Bocchinfuso, Daniela Calvetti, Erkki Somersalo(参考訳) 辞書学習法は、逆問題の解法として人気を博し続けている。 辞書学習のアプローチでは、計算のフォワードモデルは、可能な結果の大きな辞書に置き換えられ、問題は、検索エンジンの従来のクエリマッチングに似た、データに最もよくマッチする辞書エントリを特定することである。 スパース符号化技術は、辞書マッチングが辞書エントリのごく一部を識別することを保証し、辞書圧縮法はマッチング問題の複雑さを軽減するために使用される。 本稿では,辞書マッチングプロセスを容易にするための作業フローを提案する。 まず、完全な辞書は別々に圧縮されたサブディクショナリーに分割される。 辞書圧縮によって引き起こされるエラーは、モデリングエラーとしてベイズフレームワークで処理される。 さらに,辞書マッチングに関係のないサブディクショナリを識別するために,ベイズ型データ駆動グループスパーシティ符号化手法を提案する。 無関係な辞書を捨てた後、辞書マッチングはスパース符号を用いてデフレーション問題として扱う。 圧縮とデフレのステップは計算の複雑さを大幅に減少させる可能性がある。 本手法を実世界問題に適用し,ligo実験における異常検出とハイパースペクトルリモートセンシングを応用し,辞書圧縮誤差の補償と新たなグループスパルシティ促進を用いた辞書の分解の有効性を示した。

Dictionary learning methods continue to gain popularity for the solution of challenging inverse problems. In the dictionary learning approach, the computational forward model is replaced by a large dictionary of possible outcomes, and the problem is to identify the dictionary entries that best match the data, akin to traditional query matching in search engines. Sparse coding techniques are used to guarantee that the dictionary matching identifies only few of the dictionary entries, and dictionary compression methods are used to reduce the complexity of the matching problem. In this article, we propose a work flow to facilitate the dictionary matching process. First, the full dictionary is divided into subdictionaries that are separately compressed. The error introduced by the dictionary compression is handled in the Bayesian framework as a modeling error. Furthermore, we propose a new Bayesian data-driven group sparsity coding method to help identify subdictionaries that are not relevant for the dictionary matching. After discarding irrelevant subdictionaries, the dictionary matching is addressed as a deflated problem using sparse coding. The compression and deflation steps can lead to substantial decreases of the computational complexity. The effectiveness of compensating for the dictionary compression error and using the novel group sparsity promotion to deflate the original dictionary are illustrated by applying the methodology to real world problems, the glitch detection in the LIGO experiment and hyperspectral remote sensing.
翻訳日:2023-09-06 23:47:18 公開日:2023-09-02
# Switch and Conquer: 分散サドルポイント問題に対する確率的勾配Oracleの切り替えによる効率的なアルゴリズム

Switch and Conquer: Efficient Algorithms By Switching Stochastic Gradient Oracles For Decentralized Saddle Point Problems ( http://arxiv.org/abs/2309.00997v1 )

ライセンス: Link先を確認
Chhavi Sharma, Vishnu Narayanan and P. Balamurugan(参考訳) 中央サーバを使わずに分散した環境では,非スムースな強凸型サドルポイント問題を考える。 このクラスにおける問題のコンセンサスを定式化するために、一般の勾配計算オラクルが原始変数と双対変数を更新できる不正確な原始双対勾配(非コンパクトPDHG)法を開発した。 まず, 確率的分散減少勾配 (SVRG) を持つ不正確なPDHGの性能について検討した。 svrg oracle による ipdhg のイテレートの初期保存的進展の有意な現象を明らかにする。 これに対処するため、我々は、更新の初期段階においてイテレートの進捗をサドルポイントソリューションに早めるために、オラクルが適切な結束でsvrg oracleに切り替えるために、一般化された確率勾配(gsg)計算を用いる、シンプルで効果的なスイッチングアイデアを開発した。 提案アルゴリズムは,C-DPSSG(Decentralized Proximal Switching Stochastic Gradient Method with Compression)と名付けられ,線形レートで$\epsilon$-accurate saddle point Solutionに収束することが証明された。 高精度なソリューションの提供とは別に,GSG と SVRG のオーラクルの最適収束位相を利用することで,C-DPSSG が低・ナトリウム精度の解を得るのに適しており,特定の用途に有用であることを示す。 2つのベンチマーク機械学習アプリケーションの数値実験により、C-DPSSGの競合性能が示され、理論的結果が検証された。

We consider a class of non-smooth strongly convex-strongly concave saddle point problems in a decentralized setting without a central server. To solve a consensus formulation of problems in this class, we develop an inexact primal dual hybrid gradient (inexact PDHG) procedure that allows generic gradient computation oracles to update the primal and dual variables. We first investigate the performance of inexact PDHG with stochastic variance reduction gradient (SVRG) oracle. Our numerical study uncovers a significant phenomenon of initial conservative progress of iterates of IPDHG with SVRG oracle. To tackle this, we develop a simple and effective switching idea, where a generalized stochastic gradient (GSG) computation oracle is employed to hasten the iterates' progress to a saddle point solution during the initial phase of updates, followed by a switch to the SVRG oracle at an appropriate juncture. The proposed algorithm is named Decentralized Proximal Switching Stochastic Gradient method with Compression (C-DPSSG), and is proven to converge to an $\epsilon$-accurate saddle point solution with linear rate. Apart from delivering highly accurate solutions, our study reveals that utilizing the best convergence phases of GSG and SVRG oracles makes C-DPSSG well suited for obtaining solutions of low/medium accuracy faster, useful for certain applications. Numerical experiments on two benchmark machine learning applications show C-DPSSG's competitive performance which validate our theoretical findings.
翻訳日:2023-09-06 23:46:58 公開日:2023-09-02
# 改良された空間分解能の超音波セクター画像生成のための拘束型サイクロン

Constrained CycleGAN for Effective Generation of Ultrasound Sector Images of Improved Spatial Resolution ( http://arxiv.org/abs/2309.00995v1 )

ライセンス: Link先を確認
Xiaofei Sun, He Li and Wei-Ning Lee(参考訳) 目的。 フェーズドまたはカービリナーアレイは、遠方部と両面の方位方向において、本質的に劣品質の空間変化画像解像度を示す視野視野(FOV)を有する超音波(US)画像を生成する。 空間分解能が向上したセクターUS画像は、心臓のような大型でダイナミックな臓器の正確な定量的分析に好適である。 そこで本研究では,空間的解像度の低い画像から空間的解像度の低い画像へ変換することを目的とする。 CycleGANは、未ペアの医療画像翻訳において顕著な選択であるが、構造的一貫性を保証したり、入力画像と生成された画像の間の後方散乱パターンを保存することもできない。 アプローチ。 この制限を回避するために、異なる超音波アレイプローブによって取得された未ペア画像で直接US画像を生成する制約付きCycleGAN(CCycleGAN)を提案する。 CCycleGANは、CycleGANの従来の逆方向とサイクル一貫性の損失に加えて、固有のUS後方散乱信号特性に基づく同一の損失と相関係数の損失を導入し、それぞれ構造整合性と後方散乱パターンを制約する。 CCycleGANは後処理のBモード画像の代わりに、ビームフォーミングされた電波信号から直接得られたエンベロープデータを使用する。 主な結果。 In vitro 幻覚実験の結果,CCycleGAN は空間分解能が向上し,PSNR (high peak signal-to-noise ratio) とSSIM ( Structure similarity) が得られた。 重要なこと。 CCycleGANが生成したヒト心臓のUS画像は、特に深部において、ベンチマークによって生成されたものよりも高い品質の心臓壁運動推定を促進する。

Objective. A phased or a curvilinear array produces ultrasound (US) images with a sector field of view (FOV), which inherently exhibits spatially-varying image resolution with inferior quality in the far zone and towards the two sides azimuthally. Sector US images with improved spatial resolutions are favorable for accurate quantitative analysis of large and dynamic organs, such as the heart. Therefore, this study aims to translate US images with spatially-varying resolution to ones with less spatially-varying resolution. CycleGAN has been a prominent choice for unpaired medical image translation; however, it neither guarantees structural consistency nor preserves backscattering patterns between input and generated images for unpaired US images. Approach. To circumvent this limitation, we propose a constrained CycleGAN (CCycleGAN), which directly performs US image generation with unpaired images acquired by different ultrasound array probes. In addition to conventional adversarial and cycle-consistency losses of CycleGAN, CCycleGAN introduces an identical loss and a correlation coefficient loss based on intrinsic US backscattered signal properties to constrain structural consistency and backscattering patterns, respectively. Instead of post-processed B-mode images, CCycleGAN uses envelope data directly obtained from beamformed radio-frequency signals without any other non-linear postprocessing. Main Results. In vitro phantom results demonstrate that CCycleGAN successfully generates images with improved spatial resolution as well as higher peak signal-to-noise ratio (PSNR) and structural similarity (SSIM) compared with benchmarks. Significance. CCycleGAN-generated US images of the in vivo human beating heart further facilitate higher quality heart wall motion estimation than benchmarks-generated ones, particularly in deep regions.
翻訳日:2023-09-06 23:46:30 公開日:2023-09-02
# 繰り返し空間スペクトルサンプリングによる高効率共分散行列再構成

Efficient Covariance Matrix Reconstruction with Iterative Spatial Spectrum Sampling ( http://arxiv.org/abs/2309.01040v1 )

ライセンス: Link先を確認
S. Mohammadzadeh, V. H. Nascimento, R. C. de Lamare and O. Kukrer(参考訳) 本研究では、反復空間パワースペクトル(CMR-ISPS)を用いた効率的な共分散行列再構成に基づくロバスト適応ビームフォーミングアルゴリズムの設計手法を提案する。 提案するcmr-isps法は、ビームフォーマの方向応答を形作るのに使用できる簡易な最大エントロピーパワースペクトル密度関数に基づいて干渉プラスノイズ共分散(inc)行列を再構成する。 まず、利用可能なスナップショットを用いて、干渉源の到着方向(doas)を推定する。 そこで我々は,小さな角領域にある干渉のDoA近傍で係数を推定できるステアリングベクトルの外積の重み付け和を用いて,INC行列を再構成するアルゴリズムを開発した。 また,共役勾配法に基づくコスト効率の良い適応アルゴリズムを考案し,ビームフォーミングウェイトの更新を行い,空間パワースペクトルからsoi(signal of interest)ステアリングベクトルの推定値を得る。 提案するcmr-ispsビームフォーマは、配列の方向応答において十分な深さで切り欠きを発生させることで、soiの方向に近い干渉を抑制することができる。 提案手法の有効性を確認し,既存手法との比較を行うシミュレーション結果を提供する。

This work presents a cost-effective technique for designing robust adaptive beamforming algorithms based on efficient covariance matrix reconstruction with iterative spatial power spectrum (CMR-ISPS). The proposed CMR-ISPS approach reconstructs the interference-plus-noise covariance (INC) matrix based on a simplified maximum entropy power spectral density function that can be used to shape the directional response of the beamformer. Firstly, we estimate the directions of arrival (DoAs) of the interfering sources with the available snapshots. We then develop an algorithm to reconstruct the INC matrix using a weighted sum of outer products of steering vectors whose coefficients can be estimated in the vicinity of the DoAs of the interferences which lie in a small angular sector. We also devise a cost-effective adaptive algorithm based on conjugate gradient techniques to update the beamforming weights and a method to obtain estimates of the signal of interest (SOI) steering vector from the spatial power spectrum. The proposed CMR-ISPS beamformer can suppress interferers close to the direction of the SOI by producing notches in the directional response of the array with sufficient depths. Simulation results are provided to confirm the validity of the proposed method and make a comparison to existing approaches
翻訳日:2023-09-06 23:37:20 公開日:2023-09-02
# ニューロシンボリック強化学習と計画--調査

Neurosymbolic Reinforcement Learning and Planning: A Survey ( http://arxiv.org/abs/2309.01038v1 )

ライセンス: Link先を確認
K. Acharya, W. Raza, C. M. J. M. Dourado Jr, A. Velasquez, H. Song(参考訳) ニューロシンボリック人工知能(Neurosymbolic AI)の領域は急速に発展しており、ニューロシンボリックディープラーニング(Neurosymbolic Deep Learning、ニューロシンボリックDL)やニューロシンボリック強化学習(Neurosymbolic Reinforcement Learning、Neurosymbolic RL)などのサブフィールドを含む、人気のある研究トピックとなっている。 従来の学習方法と比較して、ニューロシンボリックaiは複雑さを単純化し、透明性と説明可能性を提供するという大きな利点を提供する。 Reinforcement Learning(RL)は、報酬と罰を用いて人間の行動を模倣する長年の人工知能(AI)の概念であり、ニューロシンボリックRLの基礎的な構成要素である。 本研究の目的は,文献調査を行うことで,ニューロシンボリックRLの出現する分野に貢献することである。 本評価は神経シンボルRLを構成する3つの成分であるニューロ,シンボリック,およびRLに焦点を当てる。 研究は,RLの神経的・記号的役割に基づいて,推論の学習,学習の推論,学習-推論の3つの分類群に分類した。 これらのカテゴリは、その応用に基づいてサブカテゴリに分類される。 さらに, 状態空間, 動作空間, ポリシーモジュール, rlアルゴリズムを含む各研究作業のrl成分を分析した。 さらに、この動的分野における様々な応用における研究の機会と課題を特定する。

The area of Neurosymbolic Artificial Intelligence (Neurosymbolic AI) is rapidly developing and has become a popular research topic, encompassing sub-fields such as Neurosymbolic Deep Learning (Neurosymbolic DL) and Neurosymbolic Reinforcement Learning (Neurosymbolic RL). Compared to traditional learning methods, Neurosymbolic AI offers significant advantages by simplifying complexity and providing transparency and explainability. Reinforcement Learning(RL), a long-standing Artificial Intelligence(AI) concept that mimics human behavior using rewards and punishment, is a fundamental component of Neurosymbolic RL, a recent integration of the two fields that has yielded promising results. The aim of this paper is to contribute to the emerging field of Neurosymbolic RL by conducting a literature survey. Our evaluation focuses on the three components that constitute Neurosymbolic RL: neural, symbolic, and RL. We categorize works based on the role played by the neural and symbolic parts in RL, into three taxonomies:Learning for Reasoning, Reasoning for Learning and Learning-Reasoning. These categories are further divided into sub-categories based on their applications. Furthermore, we analyze the RL components of each research work, including the state space, action space, policy module, and RL algorithm. Additionally, we identify research opportunities and challenges in various applications within this dynamic field.
翻訳日:2023-09-06 23:36:59 公開日:2023-09-02
# sepal:局所グラフからの空間遺伝子発現予測

SEPAL: Spatial Gene Expression Prediction from Local Graphs ( http://arxiv.org/abs/2309.01036v1 )

ライセンス: Link先を確認
Gabriel Mejia, Paula C\'ardenas, Daniela Ruiz, Angela Castillo, Pablo Arbel\'aez(参考訳) 空間転写学は、病理像を空間的に解決された遺伝子発現プロファイルと整合させる新しい技術である。 多くの病気を理解する可能性を秘めているが、専門機器や専門分野の専門知識など、重大なボトルネックに直面している。 本研究では、視覚組織の外観から遺伝子プロファイルを予測する新しいモデルであるSEPALを提案する。 本手法は,平均表現に対する相対的差異を直接監督することにより,問題の生物学的バイアスを生かし,各座標の局所的視覚文脈を利用してグラフニューラルネットワークを用いて予測を行う。 このアプローチは、現在の手法における完全局所性と完全グローバル性の間のギャップを埋める。 また,スクリプトミクスにおける現在のベストプラクティスに従い,空間パターンが明確である者のみに予測変数を限定することにより,タスクをより適切に定義することを目的とした新しいベンチマークを提案する。 2つの異なるヒト乳癌データセットで広範な評価を行った結果,sepalは従来の最先端の手法や空間的文脈を含む他のメカニズムよりも優れていた。

Spatial transcriptomics is an emerging technology that aligns histopathology images with spatially resolved gene expression profiling. It holds the potential for understanding many diseases but faces significant bottlenecks such as specialized equipment and domain expertise. In this work, we present SEPAL, a new model for predicting genetic profiles from visual tissue appearance. Our method exploits the biological biases of the problem by directly supervising relative differences with respect to mean expression, and leverages local visual context at every coordinate to make predictions using a graph neural network. This approach closes the gap between complete locality and complete globality in current methods. In addition, we propose a novel benchmark that aims to better define the task by following current best practices in transcriptomics and restricting the prediction variables to only those with clear spatial patterns. Our extensive evaluation in two different human breast cancer datasets indicates that SEPAL outperforms previous state-of-the-art methods and other mechanisms of including spatial context.
翻訳日:2023-09-06 23:36:32 公開日:2023-09-02
# 深い変形可能なモデル:部分整合性による3次元形状抽象化の学習

Deep Deformable Models: Learning 3D Shape Abstractions with Part Consistency ( http://arxiv.org/abs/2309.01035v1 )

ライセンス: Link先を確認
Di Liu, Long Zhao, Qilong Zhangli, Yunhe Gao, Ting Liu, Dimitris N. Metaxas(参考訳) 意味的な部分一貫性を持つ形状抽象化のタスクは、自然オブジェクトの複雑なジオメトリのために難しい。 最近の手法では、ターゲットに合う単純なプリミティブのセットを使ってオブジェクトの形状を表現することを学ぶ。 しかし、これらのメソッドでは、使用するプリミティブは必ずしも実際の部分に対応したり、意味解釈の幾何学的柔軟性を欠いているわけではない。 本稿では,正確な形状抽象化のための高度かつ効率的なプリミティブディスクリプタについて検討し, \textit{deep deformable models (ddms)" を提案する。 DDMは大域的変形と微分同相局所変形を用いる。 これらの特性により、ddmはより広い幾何学的範囲とより詳細な詳細を提供する、非常に少ないプリミティブで複雑なオブジェクト形状を抽象化することができる。 DDMはまた、原始変形の微分可能かつ可逆性に起因する部分レベルの意味対応を学習することができる。 さらに、ddm学習定式化は動的およびキネマティックなモデリングに基づいており、プリミティブフィッティング中の各サブトランスフォーメーションのジョイント正則化を可能にする。 textit{shapenet} に関する広範な実験は、ddmが再構築と部分整合性の点で最先端を上回っていることを示している。

The task of shape abstraction with semantic part consistency is challenging due to the complex geometries of natural objects. Recent methods learn to represent an object shape using a set of simple primitives to fit the target. \textcolor{black}{However, in these methods, the primitives used do not always correspond to real parts or lack geometric flexibility for semantic interpretation.} In this paper, we investigate salient and efficient primitive descriptors for accurate shape abstractions, and propose \textit{Deep Deformable Models (DDMs)}. DDM employs global deformations and diffeomorphic local deformations. These properties enable DDM to abstract complex object shapes with significantly fewer primitives that offer broader geometry coverage and finer details. DDM is also capable of learning part-level semantic correspondences due to the differentiable and invertible properties of our primitive deformation. Moreover, DDM learning formulation is based on dynamic and kinematic modeling, which enables joint regularization of each sub-transformation during primitive fitting. Extensive experiments on \textit{ShapeNet} demonstrate that DDM outperforms the state-of-the-art in terms of reconstruction and part consistency by a notable margin.
翻訳日:2023-09-06 23:36:16 公開日:2023-09-02
# オンライン適応マハラノビス距離推定

Online Adaptive Mahalanobis Distance Estimation ( http://arxiv.org/abs/2309.01030v1 )

ライセンス: Link先を確認
Lianke Qin, Aravind Reddy, Zhao Song(参考訳) mahalanobisのメトリクスは、k$-nearestの隣人、$k$-meansクラスタリング、$k$-mediansクラスタリングといった手法とともに、機械学習で広く使われている。 その重要性にもかかわらず、Mahalanobisメトリクスのアルゴリズムを高速化するためにスケッチ技術を適用するという以前の作業はない。 本稿では,マハラノビス計量の次元減少の研究を開始する。 特に,マハラノビス距離の近似距離推定(ade)問題を解決するための効率的なデータ構造を提供する。 まずランダム化されたモンテカルロデータ構造を提供する。 次に,<textit{adaptive} クエリのシーケンスと,Mahalanobis メトリック行列とデータポイントのオンライン更新を処理可能な主要なデータ構造を提供するために,それを適用できることを示し,Mahalanobis メトリックのオンライン学習のための事前アルゴリズムと組み合わせて使用できるようにする。

Mahalanobis metrics are widely used in machine learning in conjunction with methods like $k$-nearest neighbors, $k$-means clustering, and $k$-medians clustering. Despite their importance, there has not been any prior work on applying sketching techniques to speed up algorithms for Mahalanobis metrics. In this paper, we initiate the study of dimension reduction for Mahalanobis metrics. In particular, we provide efficient data structures for solving the Approximate Distance Estimation (ADE) problem for Mahalanobis distances. We first provide a randomized Monte Carlo data structure. Then, we show how we can adapt it to provide our main data structure which can handle sequences of \textit{adaptive} queries and also online updates to both the Mahalanobis metric matrix and the data points, making it amenable to be used in conjunction with prior algorithms for online learning of Mahalanobis metrics.
翻訳日:2023-09-06 23:35:58 公開日:2023-09-02
# 大規模言語モデルの説明可能性:調査

Explainability for Large Language Models: A Survey ( http://arxiv.org/abs/2309.01029v1 )

ライセンス: Link先を確認
Haiyan Zhao, Hanjie Chen, Fan Yang, Ninghao Liu, Huiqi Deng, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Mengnan Du(参考訳) 大規模言語モデル(llm)は自然言語処理において印象的な能力を示している。 しかし、内部メカニズムはまだ不明であり、この透明性の欠如は下流アプリケーションにとって望ましくないリスクをもたらす。 したがって、これらのモデルを理解し説明することは、それらの行動、制限、社会的影響を解明するために重要である。 本稿では,説明可能性の分類法を紹介し,トランスフォーマティブに基づく言語モデルを説明する手法の構造化概要を示す。 従来の微調整型パラダイムとプロンプト型パラダイムという,LLMのトレーニングパラダイムに基づいたテクニックを分類する。 各パラダイムについて,個別予測の局所的説明とモデル知識の全体的説明を生成するための目標と支配的アプローチを要約する。 また、生成した説明を評価するためのメトリクスについても論じ、モデルのデバッグやパフォーマンス向上に説明をどのように活用できるかについて議論する。 最後に,従来の機械学習モデルと比較して,LLMの時代における重要な課題と説明手法の出現機会について検討する。

Large language models (LLMs) have demonstrated impressive capabilities in natural language processing. However, their internal mechanisms are still unclear and this lack of transparency poses unwanted risks for downstream applications. Therefore, understanding and explaining these models is crucial for elucidating their behaviors, limitations, and social impacts. In this paper, we introduce a taxonomy of explainability techniques and provide a structured overview of methods for explaining Transformer-based language models. We categorize techniques based on the training paradigms of LLMs: traditional fine-tuning-based paradigm and prompting-based paradigm. For each paradigm, we summarize the goals and dominant approaches for generating local explanations of individual predictions and global explanations of overall model knowledge. We also discuss metrics for evaluating generated explanations, and discuss how explanations can be leveraged to debug models and improve performance. Lastly, we examine key challenges and emerging opportunities for explanation techniques in the era of LLMs in comparison to conventional machine learning models.
翻訳日:2023-09-06 23:35:40 公開日:2023-09-02
# 量子サブ回路の自動合成

Automated Synthesis of Quantum Subcircuits ( http://arxiv.org/abs/2309.01028v1 )

ライセンス: Link先を確認
Elena R. Henderson, Jessie M. Henderson, Aviraj Sinha, Eric C. Larson, D. Michael Miller, Mitchell A. Thornton(参考訳) 量子コンピュータは現代の現実となり、ほんの数十年前に最初の2量子ビットのマシンが、数万、数百、あるいは数万のケースで、クラウドにアクセスできるデバイスに変身した。 このようなハードウェアはノイズが多く、比較的小さいが、オペレーショナルな量子ビットの数が増加すると、このマシンで実行可能になった量子回路の開発方法という別の課題が生まれている。 意味のある大きさの仕様を手動で準備することは、最も面倒であり、最悪の場合不可能であり、自動化の必要性が生じる。 本稿では,合成,コンパイル,最適化のための自動量子ソフトウェアツールキットについて述べる。古典的に特定された,不可逆な関数を,技術に依存しない,技術に依存した量子回路に変換する。 また、量子読み取り専用メモリ、量子乱数生成器、量子オラクルの3つの状況におけるツールキットの応用を記述し分析し、古典関数の入力から商用ハードウェア上で実行可能な量子回路の出力に至るまで、ツールキットの特徴を記述した。 さらに、合成法と最適化法の比較や、よく研究された量子アルゴリズムの深い理解など、このツールキットが回路合成以上の研究を可能にしていることを示す。 量子ハードウェアが発展を続けるにつれて、そのような量子回路ツールキットはそのポテンシャルを実現する上で重要な役割を果たす。

The quantum computer has become contemporary reality, with the first two-qubit machine of mere decades ago transforming into cloud-accessible devices with tens, hundreds, or--in a few cases--even thousands of qubits. While such hardware is noisy and still relatively small, the increasing number of operable qubits raises another challenge: how to develop the now-sizeable quantum circuits executable on these machines. Preparing circuits manually for specifications of any meaningful size is at best tedious and at worst impossible, creating a need for automation. This article describes an automated quantum-software toolkit for synthesis, compilation, and optimization, which transforms classically-specified, irreversible functions to both technology-independent and technology-dependent quantum circuits. We also describe and analyze the toolkit's application to three situations--quantum read-only memories, quantum random number generators, and quantum oracles--and illustrate the toolkit's start-to-finish features from the input of classical functions to the output of quantum circuits ready-to-run on commercial hardware. Furthermore, we illustrate how the toolkit enables research beyond circuit synthesis, including comparison of synthesis and optimization methods and deeper understanding of even well-studied quantum algorithms. As quantum hardware continues to develop, such quantum circuit toolkits will play a critical role in realizing its potential.
翻訳日:2023-09-06 23:35:25 公開日:2023-09-02
# マルチモーダルヌーディングのための事前学習された大規模言語モデルによるゼロショットレコメンデーション

Zero-Shot Recommendations with Pre-Trained Large Language Models for Multimodal Nudging ( http://arxiv.org/abs/2309.01026v1 )

ライセンス: Link先を確認
Rachel Harrison, Anton Dereventsov, Anton Bibin(参考訳) 生成AI分野における最近の進歩を生かしたマルチモーダル非定常コンテンツのゼロショットレコメンデーション手法を提案する。 テキスト記述として異なるモードの描画入力を提案するとともに,事前学習したLCMを用いて意味埋め込みを計算して数値表現を得る。 すべてのコンテンツ項目の統一表現が得られたら、追加の学習なしにそれらの間の適切な類似度メトリックを計算して推奨を行うことができる。 本稿では,入力が表型,テキスト型,視覚データで構成される合成マルチモーダルヌージング環境において,このアプローチを実証する。

We present a method for zero-shot recommendation of multimodal non-stationary content that leverages recent advancements in the field of generative AI. We propose rendering inputs of different modalities as textual descriptions and to utilize pre-trained LLMs to obtain their numerical representations by computing semantic embeddings. Once unified representations of all content items are obtained, the recommendation can be performed by computing an appropriate similarity metric between them without any additional learning. We demonstrate our approach on a synthetic multimodal nudging environment, where the inputs consist of tabular, textual, and visual data.
翻訳日:2023-09-06 23:34:58 公開日:2023-09-02