このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230815となっている論文です。

PDF登録状況(公開日: 20230815)

TitleAuthorsAbstract論文公表日・翻訳日
# 遺伝的プログラミングを使ってソフトウェア定義ネットワークに自己適応性を構築する

Using Genetic Programming to Build Self-Adaptivity into Software-Defined Networks ( http://arxiv.org/abs/2306.00316v2 )

ライセンス: Link先を確認
Jia Li, Shiva Nejati, Mehrdad Sabetzadeh(参考訳) 自己適応ソリューションは、定期的にシステムを監視し、推論し、適応する必要があります。 適応ステップは、適応戦略を生成し、異常が発生したときにランニングシステムに適用する。 本稿では,個別の適応戦略を生成するのではなく,システム自体が,自己適応を頻繁に引き起こすことなく,将来の異常を解消する方法を学ぶように,実行中のシステムの制御ロジックを適応させることを目標とすべきである,と論じる。 適応の必要性は決して排除されないが、特に複雑なシステムの不確実で進化した環境に注目すると、適応介入の頻度を減少させることは、パフォーマンスの向上や実行システムの堅牢性向上など、さまざまな理由から有利である。 最新のデータセンタとモノのインターネットアプリケーションのための重要な技術である、ソフトウェア定義ネットワークに関する上記のアイデアを、インスタンス化し、実証的に検証します。 遺伝的プログラミング(gp)を用いて,ソフトウェア定義ネットワークのデータフォワード論理における制御構成を継続的に学習し,更新する自己適応ソリューションを提案する。 本評価は, オープンソースの合成および産業データを用いて実施し, 個別適応を生成するベースライン適応手法と比較して, gpベースアプローチがネットワーク混雑の解消に有効であること, また, 時間とともに適応介入の頻度を減少させることを示す。 さらに,同じトポロジを持つネットワークでは,大規模ネットワーク上での再利用によって,より小さなネットワークで学習される知識がgpベースの適応手法の性能を大幅に向上させることを示した。 最後に,ネットワーク文献からの標準データフォワードアルゴリズムに対するアプローチを比較し,パケットロスを大幅に低減することを示す。

Self-adaptation solutions need to periodically monitor, reason about, and adapt a running system. The adaptation step involves generating an adaptation strategy and applying it to the running system whenever an anomaly arises. In this article, we argue that, rather than generating individual adaptation strategies, the goal should be to adapt the control logic of the running system in such a way that the system itself would learn how to steer clear of future anomalies, without triggering self-adaptation too frequently. While the need for adaptation is never eliminated, especially noting the uncertain and evolving environment of complex systems, reducing the frequency of adaptation interventions is advantageous for various reasons, e.g., to increase performance and to make a running system more robust. We instantiate and empirically examine the above idea for software-defined networking -- a key enabling technology for modern data centres and Internet of Things applications. Using genetic programming,(GP), we propose a self-adaptation solution that continuously learns and updates the control constructs in the data-forwarding logic of a software-defined network. Our evaluation, performed using open-source synthetic and industrial data, indicates that, compared to a baseline adaptation technique that attempts to generate individual adaptations, our GP-based approach is more effective in resolving network congestion, and further, reduces the frequency of adaptation interventions over time. In addition, we show that, for networks with the same topology, reusing over larger networks the knowledge that is learned on smaller networks leads to significant improvements in the performance of our GP-based adaptation approach. Finally, we compare our approach against a standard data-forwarding algorithm from the network literature, demonstrating that our approach significantly reduces packet loss.
翻訳日:2023-10-24 04:57:41 公開日:2023-08-15
# EvLog: ソフトウェア進化に関する異常ログの特定

EvLog: Identifying Anomalous Logs over Software Evolution ( http://arxiv.org/abs/2306.01509v2 )

ライセンス: Link先を確認
Yintong Huo, Cheryl Lee, Yuxin Su, Shiwen Shan, Jinyang Liu and Michael R. Lyu(参考訳) ソフトウェアログはシステムのアクティビティを記録し、メンテナに障害の原因を特定し、迅速な緩和アクションを可能にする。 しかし、メンテナは、さらなる診断のために障害の詳細を明らかにする異常なログを特定するために、大量のデイリーログを検査する必要がある。 したがって、これらの異常ログと通常のログを自動的に区別する方法が重要な問題となる。 既存のアプローチはソフトウェアメンテナの負担を軽減するが、それらは不適切だが批判的な仮定に基づいている。 ソフトウェアは進化を続けているが、我々の経験的調査によると、進化するソフトウェアは、エラーのログ解析、ログイベントの進化、不安定なログシーケンスという3つの課題をもたらす。 本稿では,これらの課題を軽減すべく,進化型ログアナライザ(evlog)と呼ばれる新しい非教師付きアプローチを提案する。 まず,解析せずにログを処理し,パーサからのエラーを防止するマルチレベル表現抽出器を構築する。 マルチレベル表現はログの本質的なセマンティクスを維持しながら、進化するイベントにおける重要な変更を除外する。 evlogは、異常なログを特定し、不安定なシーケンスによって引き起こされる問題を避けるために、注意機構を備えた異常判別器を実装する。 EvLogは、平均F1スコアが0.955と0.847の2つの実世界のシステム進化ログデータセットにおいて、それぞれバージョン内設定とバージョン間設定において有効性を示しており、これは他の最先端アプローチよりも広いマージンで優れている。 私たちの知る限りでは、これはソフトウェアの進化に関する異常ログのローカライズに関する最初の研究です。 私たちは、ログ分析コミュニティの対応するソリューションによって、ソフトウェア進化の影響に新たな光を当てていると信じています。

Software logs record system activities, aiding maintainers in identifying the underlying causes for failures and enabling prompt mitigation actions. However, maintainers need to inspect a large volume of daily logs to identify the anomalous logs that reveal failure details for further diagnosis. Thus, how to automatically distinguish these anomalous logs from normal logs becomes a critical problem. Existing approaches alleviate the burden on software maintainers, but they are built upon an improper yet critical assumption: logging statements in the software remain unchanged. While software keeps evolving, our empirical study finds that evolving software brings three challenges: log parsing errors, evolving log events, and unstable log sequences. In this paper, we propose a novel unsupervised approach named Evolving Log analyzer (EvLog) to mitigate these challenges. We first build a multi-level representation extractor to process logs without parsing to prevent errors from the parser. The multi-level representations preserve the essential semantics of logs while leaving out insignificant changes in evolving events. EvLog then implements an anomaly discriminator with an attention mechanism to identify the anomalous logs and avoid the issue brought by the unstable sequence. EvLog has shown effectiveness in two real-world system evolution log datasets with an average F1 score of 0.955 and 0.847 in the intra-version setting and inter-version setting, respectively, which outperforms other state-of-the-art approaches by a wide margin. To our best knowledge, this is the first study on localizing anomalous logs over software evolution. We believe our work sheds new light on the impact of software evolution with the corresponding solutions for the log analysis community.
翻訳日:2023-10-24 04:45:30 公開日:2023-08-15
# Prism: 分散システムの大規模インスタンスから隠れた機能クラスタを発見

Prism: Revealing Hidden Functional Clusters from Massive Instances in Cloud Systems ( http://arxiv.org/abs/2308.07638v1 )

ライセンス: Link先を確認
Jinyang Liu, Zhihan Jiang, Jiazhen Gu, Junjie Huang, Zhuangbin Chen, Cong Feng, Zengyin Yang, Yongqiang Yang and Michael R. Lyu(参考訳) クラウドシステムの信頼性を確保することは、クラウドベンダーと顧客の両方にとって重要です。 クラウドシステムは、仮想マシンのようなハードウェアリソースのインスタンスを作成するために仮想化技術に依存することが多い。 しかし、仮想化は、クラウドシステムの可観測性を妨げるため、プラットフォームレベルの問題の診断が難しくなる。 システムオブザーバビリティを改善するため,同じような機能を持つインスタンス群をインスタンスの関数クラスタとして推定する手法を提案する。 まず,大規模クラウドシステム,すなわちhuawei cloudに関するパイロット研究を行い,同様の機能を持つインスタンスが類似した通信とリソース使用パターンを共有していることの実証を行った。 これらの結果から,クラスタリング問題としての関数クラスタの同定を定式化し,Prismと呼ばれる非侵入的解を提案する。 Prismは粗いクラスタリング戦略を採用している。 通信パターンに基づいて、まずインスタンスを粗い粒度に分割する。 各チャンク内でPrismはさらに、類似のリソース使用パターンを持つインスタンスをグループ化し、きめ細かい機能クラスタを生成する。 このような設計はデータのノイズを低減し、Prismが大量のインスタンスを効率的に処理できるようにする。 我々はHuawei Cloudの実環境から収集した2つのデータセットについてPrismを評価する。 実験の結果,Prism は 0.95 の v 測度を達成し,既存の最先端解を超えることがわかった。 さらに,モニタリングシステムにおけるprismの統合により,実世界の2つのユースケースを通じてクラウドの信頼性が向上することを示す。

Ensuring the reliability of cloud systems is critical for both cloud vendors and customers. Cloud systems often rely on virtualization techniques to create instances of hardware resources, such as virtual machines. However, virtualization hinders the observability of cloud systems, making it challenging to diagnose platform-level issues. To improve system observability, we propose to infer functional clusters of instances, i.e., groups of instances having similar functionalities. We first conduct a pilot study on a large-scale cloud system, i.e., Huawei Cloud, demonstrating that instances having similar functionalities share similar communication and resource usage patterns. Motivated by these findings, we formulate the identification of functional clusters as a clustering problem and propose a non-intrusive solution called Prism. Prism adopts a coarse-to-fine clustering strategy. It first partitions instances into coarse-grained chunks based on communication patterns. Within each chunk, Prism further groups instances with similar resource usage patterns to produce fine-grained functional clusters. Such a design reduces noises in the data and allows Prism to process massive instances efficiently. We evaluate Prism on two datasets collected from the real-world production environment of Huawei Cloud. Our experiments show that Prism achieves a v-measure of ~0.95, surpassing existing state-of-the-art solutions. Additionally, we illustrate the integration of Prism within monitoring systems for enhanced cloud reliability through two real-world use cases.
翻訳日:2023-10-23 14:22:43 公開日:2023-08-15
# スタートアップ企業におけるソフトウェア工学知識領域--マッピング研究

Software Engineering Knowledge Areas in Startup Companies: A Mapping Study ( http://arxiv.org/abs/2308.07628v1 )

ライセンス: Link先を確認
Eriks Klotins, Michael Unterkalmsteiner, Tony Gorschek(参考訳) 背景 - スタートアップ企業は革新的でソフトウェア集約的な製品の重要なサプライヤーになりつつある。 スタートアップの失敗率は、リソース不足、未成熟性、複数の影響、動的技術のために高い。 しかし、ソフトウェアプロダクトエンジニアリングはスタートアップの中核的な活動であり、応用エンジニアリングプラクティスの不整合は、高い失敗率の要因となるかもしれない。 Aim - この研究は、スタートアップで使われているソフトウェア工学の知識領域を特定して分類し、さらなる研究のためのギャップを特定します。 方法 - 関連研究の特定に雪玉サンプリングを適用し, 系統的な文献マッピング研究を行う。 結果 - 14の研究から54のプラクティスが特定できた。 SWEBOKの15の主要知識領域のうち11がカバーされているが、カテゴリの大部分はカバーされていない。 結論 - 既存の研究は、スタートアップライフサイクルのどの段階でも、ソフトウェアエンジニアリングの信頼できるサポートを提供していない。 最近の研究では厳格さが低いため、他のスタートアップへの成果の移転は難しい。

Background - Startup companies are becoming important suppliers of innovative and software intensive products. The failure rate among startups is high due to lack of resources, immaturity, multiple influences and dynamic technologies. However, software product engineering is the core activity in startups, therefore inadequacies in applied engineering practices might be a significant contributing factor for high failure rates. Aim - This study identifies and categorizes software engineering knowledge areas utilized in startups to map out the state-of-art, identifying gaps for further research. Method - We perform a systematic literature mapping study, applying snowball sampling to identify relevant primary studies. Results - We have identified 54 practices from 14 studies. Although 11 of 15 main knowledge areas from SWEBOK are covered, a large part of categories is not. Conclusions - Existing research does not provide reliable support for software engineering in any phase of a startup life cycle. Transfer of results to other startups is difficult due to low rigor in current studies.
翻訳日:2023-10-23 14:22:23 公開日:2023-08-15
# CPS変異検査のためのファジング

Fuzzing for CPS Mutation Testing ( http://arxiv.org/abs/2308.07949v1 )

ライセンス: Link先を確認
Jaekwon Lee, Enrico Vigan\`o, Oscar Cornejo, Fabrizio Pastore, Lionel Briand(参考訳) 突然変異テストは、欠陥のあるソフトウェアをリリースするリスクを減らすのに役立つ。 そのため、安全クリティカルなサイバーフィジカルシステム(cps)で動作する組み込みソフトウェアを開発する上で望ましいプラクティスである。 残念なことに、CPSソフトウェアの2つの典型的な言語であるCとC++ソフトウェアの突然変異テストのための最先端のテストデータ生成技術は、しばしばそのアプリケーション(例えばブラックボックスコンポーネントのテストはできない)を阻止するシンボリック実行に依存している。 我々は,c および c++ ソフトウェアで有効であることを証明した fuzz テストを活用する突然変異テスト手法を提案する。 ファズテストは、プログラム分岐を様々な方法で実行し、異なるプログラム状態で実行し、変異体を殺す可能性を最大化する様々なテスト入力を自動的に生成する。 我々は、現在軌道上にある衛星システムで使用されるソフトウェアコンポーネントを用いて、我々のアプローチを実証的に評価した。 実験結果から,fuzzテストに基づく突然変異試験では,生体変異体の割合が象徴的実行よりも有意に高い(47ポイント以上)ことが判明した。 さらに、シンボリックな実行が適用できない場合、fuzzテストは重要な利点(最大41%のミュータントが死ぬ)を提供する。 本研究は, 突然変異検査のためのファジテストとシンボリック実行を比較した最初の試みであり, 変異検査専用のファジテストツールの開発に向けたガイダンスを提供する。

Mutation testing can help reduce the risks of releasing faulty software. For such reason, it is a desired practice for the development of embedded software running in safety-critical cyber-physical systems (CPS). Unfortunately, state-of-the-art test data generation techniques for mutation testing of C and C++ software, two typical languages for CPS software, rely on symbolic execution, whose limitations often prevent its application (e.g., it cannot test black-box components). We propose a mutation testing approach that leverages fuzz testing, which has proved effective with C and C++ software. Fuzz testing automatically generates diverse test inputs that exercise program branches in a varied number of ways and, therefore, exercise statements in different program states, thus maximizing the likelihood of killing mutants, our objective. We performed an empirical assessment of our approach with software components used in satellite systems currently in orbit. Our empirical evaluation shows that mutation testing based on fuzz testing kills a significantly higher proportion of live mutants than symbolic execution (i.e., up to an additional 47 percentage points). Further, when symbolic execution cannot be applied, fuzz testing provides significant benefits (i.e., up to 41% mutants killed). Our study is the first one comparing fuzz testing and symbolic execution for mutation testing; our results provide guidance towards the development of fuzz testing tools dedicated to mutation testing.
翻訳日:2023-10-23 14:09:17 公開日:2023-08-15
# maat: 条件付き拡散を伴うクラウドサービスのパフォーマンスメトリック異常予測

Maat: Performance Metric Anomaly Anticipation for Cloud Services with Conditional Diffusion ( http://arxiv.org/abs/2308.07676v1 )

ライセンス: Link先を確認
Cheryl Lee, Tianyi Yang, Zhuangbin Chen, Yuxin Su, Michael R. Lyu(参考訳) クラウドサービスの信頼性とユーザ満足度を確保するには、迅速な異常検出と診断が必要である。 既存の異常検出技術はリアルタイム検出のみに焦点を当てており、異常発生と同時に異常アラートが発行される。 しかし、異常は失敗へと伝播しエスカレートし、下流の分析と介入の迅速化に非常に望ましいリアルタイム異常検出を実現する。 本稿では,クラウドサービスのパフォーマンス指標の異常予測に対処する最初の試みであるMaatを提案する。 Maatは、予測の予測と予測の異常検出からなる、新しい2段階の予測パラダイムを採用する。 計量予測段階は、条件付き偏差拡散モデルを用いて、自己回帰的な多段階予測を可能にする。 検出段階は、ドメイン知識に基づいて異常を示す特徴を抽出し、インクリメンタル学習を伴う分離フォレストを適用し、今後の異常を検出する。 これにより,人間の専門知識に適合した異常を明らかにすることができる。 3つの公開データセットの評価により、Maatは、最先端のリアルタイム異常検知器と比較して、比較的効率的に、より高速に異常を予測できることを示した。 また,異常指標の予測と異常発見にMaatが成功した事例も紹介した。

Ensuring the reliability and user satisfaction of cloud services necessitates prompt anomaly detection followed by diagnosis. Existing techniques for anomaly detection focus solely on real-time detection, meaning that anomaly alerts are issued as soon as anomalies occur. However, anomalies can propagate and escalate into failures, making faster-than-real-time anomaly detection highly desirable for expediting downstream analysis and intervention. This paper proposes Maat, the first work to address anomaly anticipation of performance metrics in cloud services. Maat adopts a novel two-stage paradigm for anomaly anticipation, consisting of metric forecasting and anomaly detection on forecasts. The metric forecasting stage employs a conditional denoising diffusion model to enable multi-step forecasting in an auto-regressive manner. The detection stage extracts anomaly-indicating features based on domain knowledge and applies isolation forest with incremental learning to detect upcoming anomalies. Thus, our method can uncover anomalies that better conform to human expertise. Evaluation on three publicly available datasets demonstrates that Maat can anticipate anomalies faster than real-time comparatively or more effectively compared with state-of-the-art real-time anomaly detectors. We also present cases highlighting Maat's success in forecasting abnormal metrics and discovering anomalies.
翻訳日:2023-10-23 14:08:33 公開日:2023-08-15
# 要件工学とソフトウェアテストアライメントの評価 - 5つのケーススタディ

Assessing requirements engineering and software test alignment -- Five case studies ( http://arxiv.org/abs/2308.07640v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner, Tony Gorschek, Robert Feldt, Eriks Klotins(参考訳) 大規模でソフトウェア集約的なシステムの開発は、一般的に分割と征服戦略によって取り組む複雑な仕事です。 これによって企業は、特に要件エンジニアリング(RE)とソフトウェアテスト(ST)の間で、ソフトウェア開発の個々の側面を調整するという課題に直面します。 restアライメントの欠如は無駄な努力だけでなく、欠陥のあるソフトウェアにもつながります。 しかし、企業が調整のメカニズムを改善する前には、まず理解する必要があります。 REST-benchでは、ソフトウェア開発プロジェクトのコーディネーションを示し、具体的な改善の機会を特定するアセスメントツールの提供を目指しています。 私たちは、RESTアライメントメソッドの分類の健全な基礎に基づいてRESTベンチを開発し、その方法を5つのケーススタディで検証しました。 技術的なアクションリサーチの原則に従い、私たちは5つの企業と協力し、RESTベンチを適用し、学んだ教訓に基づいてメソッドを反復的に改善しました。 私たちは、アジャイルと計画駆動の環境で、数週間から数年にわたるプロジェクトに適用し、最大1000人の従業員を雇用しました。 得られた改善の機会とフィードバックは、評価が効率的で効率的であることを示している。 さらに,REとSTの協調に関する理解が向上したことを確認した。

The development of large, software-intensive systems is a complex undertaking that we generally tackle by a divide and conquer strategy. Companies thereby face the challenge of coordinating individual aspects of software development, in particular between requirements engineering (RE) and software testing (ST). A lack of REST alignment can not only lead to wasted effort but also to defective software. However, before a company can improve the mechanisms of coordination they need to be understood first. With REST-bench we aim at providing an assessment tool that illustrates the coordination in software development projects and identify concrete improvement opportunities. We have developed REST-bench on the sound fundamentals of a taxonomy on REST alignment methods and validated the method in five case studies. Following the principles of technical action research, we collaborated with five companies, applying REST-bench and iteratively improving the method based on the lessons we learned. We applied REST-bench both in Agile and plan-driven environments, in projects lasting from weeks to years, and staffed as large as 1000 employees. The improvement opportunities we identified and the feedback we received indicate that the assessment was effective and efficient. Furthermore, participants confirmed that their understanding on the coordination between RE and ST improved.
翻訳日:2023-10-23 14:08:16 公開日:2023-08-15
# ハイパースペクトル画像とマルチブロック非負行列分解を用いたモノ/マルチマテリアルキャラクタリゼーション

Mono/Multi-material Characterization Using Hyperspectral Images and Multi-Block Non-Negative Matrix Factorization ( http://arxiv.org/abs/2309.12329v1 )

ライセンス: Link先を確認
Mahdiyeh Ghaffari, Gerjen H. Tinnevelt, Marcel C. P. van Eijk, Stanislav Podchezertsev, Geert J. Postma, Jeroen J. Jansen(参考訳) プラスチックの選別は廃棄物処理において非常に重要なステップであり、特に多層プラスチックの存在のためである。 これらのモノマテリアルおよび多材料プラスチックは包装の機能性を高めるために広く用いられ、厚み、機械的強度、耐熱性に優れる。 しかし、複数のポリマー種を含む材料は、モノマテリアルとしてリサイクルされる前に前処理する必要があるため、モノマテリアルストリームには含まれない。 業界 4.0 は、手作業による選別と比較して、プラスチック包装の選別をスピードと精度で大幅に改善し、特に、自動化され、高速で正確な材料キャラクタリゼーションを提供する NIRHSI (Near Infrared Hyperspectral Imaging) を通じて、サンプル準備なしで行う。 HSIを用いたマルチマテリアルの同定には, 化学パターン認識のための新しいアプローチが必要である。 非負行列因子化(NMF)はハイパースペクトル画像の化学分解能に広く用いられている。 化学的に関係のあるモデル制約は、HSIを介して多層プラスチックを特定することに特に価値がある。 具体的には, 異なる化学種の制約による多ブロック非負マトリックス因子化(MBNMF)を用いて, 特定の高分子種の有無を評価することができる。 MBNMFモデルをエビデンスに基づくソート決定に変換するため、Fテストを用いてモデルを拡張し、モノマテリアルとマルチマテリアルオブジェクトを区別した。 新たなアプローチであるMBNMFの利点は, プラスチック廃棄物の識別によって示された。

Plastic sorting is a very essential step in waste management, especially due to the presence of multilayer plastics. These monomaterial and multimaterial plastics are widely employed to enhance the functional properties of packaging, combining beneficial properties in thickness, mechanical strength, and heat tolerance. However, materials containing multiple polymer species need to be pretreated before they can be recycled as monomaterials and therefore should not end up in monomaterial streams. Industry 4.0 has significantly improved materials sorting of plastic packaging in speed and accuracy compared to manual sorting, specifically through Near Infrared Hyperspectral Imaging (NIRHSI) that provides an automated, fast, and accurate material characterization, without sample preparation. Identification of multimaterials with HSI however requires novel dedicated approaches for chemical pattern recognition. Non negative Matrix Factorization, NMF, is widely used for the chemical resolution of hyperspectral images. Chemically relevant model constraints may make it specifically valuable to identify multilayer plastics through HSI. Specifically, Multi Block Non Negative Matrix Factorization (MBNMF) with correspondence among different chemical species constraint may be used to evaluate the presence or absence of particular polymer species. To translate the MBNMF model into an evidence based sorting decision, we extended the model with an F test to distinguish between monomaterial and multimaterial objects. The benefits of our new approach, MBNMF, were illustrated by the identification of several plastic waste objects.
翻訳日:2023-10-23 06:46:32 公開日:2023-08-15
# Bengaliドキュメントレイアウト分析データセットのフレームワークとモデル解析: BaDLAD

Framework and Model Analysis on Bengali Document Layout Analysis Dataset: BaDLAD ( http://arxiv.org/abs/2309.16700v1 )

ライセンス: Link先を確認
Kazi Reyazul Hasan (1), Mubasshira Musarrat (1), Sadif Ahmed (1) and Shahriar Raj (1) ((1) Bangladesh University of Engineering and Technology)(参考訳) 本研究では,高度なコンピュータプログラムである Detectron2, YOLOv8, SAM を用いた Bengali Document Layouts の理解に焦点を当てた。 私たちは研究でさまざまなベンガルの文書を調べました。 Detectron2はテキストボックスや段落など,ドキュメントのさまざまな部分の検出と分離に優れています。 YOLOv8は、さまざまなテーブルや写真を見つけるのが得意です。 SAMも試しましたが、面倒なレイアウトを理解するのに役立ちました。 私たちはこれらのプログラムをテストして、どのように機能するかを確認しました。 それらの精度と速度を比較することで、どの文書が異なる種類の文書に適しているかを学習した。 我々の研究はベンガル語の文書の複雑なレイアウトを理解するのに役立ち、他の言語にも役立ちます。

This study focuses on understanding Bengali Document Layouts using advanced computer programs: Detectron2, YOLOv8, and SAM. We looked at lots of different Bengali documents in our study. Detectron2 is great at finding and separating different parts of documents, like text boxes and paragraphs. YOLOv8 is good at figuring out different tables and pictures. We also tried SAM, which helps us understand tricky layouts. We tested these programs to see how well they work. By comparing their accuracy and speed, we learned which one is good for different types of documents. Our research helps make sense of complex layouts in Bengali documents and can be useful for other languages too.
翻訳日:2023-10-23 06:01:03 公開日:2023-08-15
# mvmr: 複数の信頼できるビデオプール上での自然言語ビデオローカライゼーションバイアスの評価

MVMR: Evaluating Natural Language Video Localization Bias over Multiple Reliable Videos Pool ( http://arxiv.org/abs/2309.16701v1 )

ライセンス: Link先を確認
Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung(参考訳) 近年,マルチメディアコンテンツの爆発的な増加に伴い,自然言語検索にマッチする映像モーメントの検出に重点を置く自然言語ビデオのローカライズが問題となっている。 しかし、以前の研究は、複数のポジティブなビデオとネガティブなビデオが存在する大きなコーパスからの瞬間を局所化するものではない。 本稿では,テキストクエリが与えられた大量のビデオからビデオフレームをローカライズすることを目的としたMVMRタスクを提案する。 そこで本研究では,既存の映像ローカライゼーションデータセットに類似性フィルタリングを適用し,mvmrデータセットを3つ導入する手法を提案する。 具体的には、埋め込み型テキスト類似度マッチングとビデオ言語接地手法を用いて、対象クエリとビデオ間の関連スコアを計算し、正と負のセットを定義する。 提案したMVMRタスクに対して,MVMRタスクにおいてモデルをより堅牢に導く信頼性および情報的負を選択的にフィルタするコントラスト学習スキームであるReliable Mutual Matching Network (RMMN) をさらに発展させる。 その結果,既存のNLVLモデルは負の映像フレームによって容易に邪魔されるが,本モデルでは高い性能を示した。

With the explosion of multimedia content in recent years, natural language video localization, which focuses on detecting video moment that matches a given natural language query, has become a critical problem. However, none of the previous research explores localizing a moment from a large corpus where multiple positive and negative videos exist. In this paper, we propose an MVMR (Massive Videos Moment Retrieval) task, which aims to localize video frames from a massive set of videos given a text query. For this task, we suggest methods for constructing datasets by employing similarity filtering on the existing video localization datasets and introduce three MVMR datasets. Specifically, we employ embedding-based text similarity matching and video-language grounding techniques to calculate the relevance score between a target query and videos to define positive and negative sets. For the proposed MVMR task, we further develop a strong model, Reliable Mutual Matching Network (RMMN), which employs a contrastive learning scheme that selectively filters the reliable and informative negatives leading the model more robust on the MVMR task. Experimental results on the introduced datasets reveal that existing NLVL models are easily distracted by negative video frames, whereas our model shows significant performance.
翻訳日:2023-10-23 05:45:18 公開日:2023-08-15
# 純エッジコンピューティングにおけるロバスト適応ワークロードオーケストレーション

A Robust Adaptive Workload Orchestration in Pure Edge Computing ( http://arxiv.org/abs/2309.03913v1 )

ライセンス: Link先を確認
Zahra Safavifar, Charafeddine Mechalikh and Fatemeh Golpayegani(参考訳) Pure Edge Computing(PEC)は、クラウドアプリケーションとサービスをネットワークのエッジに持ち込み、時間に敏感なアプリケーションとデータ駆動コンピューティングのユーザ需要の増加をサポートすることを目的としている。 しかしながら、エッジデバイスのモビリティと計算能力の制限は、厳しい応答時間要求を伴う緊急かつ計算集約的なタスクをサポートする上での課題となる。 これらのタスクの実行結果が期限を超えると、価値がなくなり、深刻な安全上の問題を引き起こします。 したがって、エッジノードが可能な限り多くの遅延に敏感なタスクを完了させることが不可欠である。 本稿では、優先度定義とリアルロケーション戦略を用いて、納期ミスとデータ損失を最小限に抑えるロバスト適応ワークロードオーケストレーション(R-AdWOrch)モデルを提案する。 その結果、R-AdWOrchは全ての条件下での優先度の低いタスクのデータ損失を最小限に抑えながら、緊急タスクのデッドラインミスを最小限に抑えることができた。

Pure Edge computing (PEC) aims to bring cloud applications and services to the edge of the network to support the growing user demand for time-sensitive applications and data-driven computing. However, mobility and limited computational capacity of edge devices pose challenges in supporting some urgent and computationally intensive tasks with strict response time demands. If the execution results of these tasks exceed the deadline, they become worthless and can cause severe safety issues. Therefore, it is essential to ensure that edge nodes complete as many latency-sensitive tasks as possible. \\In this paper, we propose a Robust Adaptive Workload Orchestration (R-AdWOrch) model to minimize deadline misses and data loss by using priority definition and a reallocation strategy. The results show that R-AdWOrch can minimize deadline misses of urgent tasks while minimizing the data loss of lower priority tasks under all conditions.
翻訳日:2023-09-17 14:06:16 公開日:2023-08-15
# 波浪散乱における漁業情報の流れの連続性方程式

Continuity Equation for the Flow of Fisher Information in Wave Scattering ( http://arxiv.org/abs/2309.00010v1 )

ライセンス: Link先を確認
Jakob H\"upfl, Felix Russo, Lukas M. Rachbauer, Dorian Bouchet, Junjie Lu, Ulrich Kuhl and Stefan Rotter(参考訳) 地震学からレーダー技術、バイオメディカルイメージングから精密測定まで、私たちの環境を探索するために波を使うのが広く使われているパラダイムです。 これらすべての分野において、中心となる目的は、プローブ波を送信し、検出器に送信された情報を処理することで、興味のある対象に関するできるだけ多くの情報を収集することである。 ここでは,物体に散乱する電磁波が,物体の構成パラメータすべてについて局所的に定義された保存された情報を運ぶことを実証する。 具体的には、非常に一般的な波動場に対するフィッシャー情報の密度とフラックスを紹介し、これら全ての新しい量が基本連続性方程式を満たす情報ソースとシンクを特定する。 我々は,不規則環境内に埋め込まれた移動物体を解析し,それに対応する漁獲情報流束をマイクロ波周波数で測定することにより,理論予測を実験的に検証した。 本研究は,情報の生成と伝播に関する新たな理解を提供し,複雑な環境においても情報の流れを追跡し設計する新たな可能性を開く。

Using waves to explore our environment is a widely used paradigm, ranging from seismology to radar technology, and from bio-medical imaging to precision measurements. In all of these fields, the central aim is to gather as much information as possible about an object of interest by sending a probing wave at it and processing the information delivered back to the detector. Here, we demonstrate that an electromagnetic wave scattered at an object carries locally defined and conserved information about all of the object's constitutive parameters. Specifically, we introduce here the density and flux of Fisher information for very general types of wave fields and identify corresponding sources and sinks of information through which all these new quantities satisfy a fundamental continuity equation. We experimentally verify our theoretical predictions by studying a movable object embedded inside a disordered environment and by measuring the corresponding Fisher information flux at microwave frequencies. Our results provide a new understanding of the generation and propagation of information and open up new possibilities for tracking and designing the flow of information even in complex environments.
翻訳日:2023-09-10 03:55:28 公開日:2023-08-15
# 推薦用リニアオートエンコーダのZCA白化効果

Implicit ZCA Whitening Effects of Linear Autoencoders for Recommendation ( http://arxiv.org/abs/2308.13536v1 )

ライセンス: Link先を確認
Katsuhiko Hayashi and Kazuma Onishi(参考訳) 近年、レコメンデーションシステムの分野では、アイテムの類似性を学ぶ方法として線形回帰(autoencoder)モデルが研究されている。 本稿では,線形オートエンコーダモデルとZCAホワイトニングの関連性を示す。 特に,線形オートエンコーダモデルの双対形式解は,アイテムの特徴ベクトルに対してzcaホワイトニング効果を実際に有し,一方,アイテムはオートエンコーダ/レグレッションモデルのプライマリ問題における入力特徴と見なされる。 また,各項目の類似性を推定するためにItem2vecなどの埋め込み手法を用いて得られた低次元項目ベクトルに対して線形オートエンコーダを適用することの正当性を示す。 本実験は, 低次元アイテム埋め込みの白化効果を示す予備実験である。

Recently, in the field of recommendation systems, linear regression (autoencoder) models have been investigated as a way to learn item similarity. In this paper, we show a connection between a linear autoencoder model and ZCA whitening for recommendation data. In particular, we show that the dual form solution of a linear autoencoder model actually has ZCA whitening effects on feature vectors of items, while items are considered as input features in the primal problem of the autoencoder/regression model. We also show the correctness of applying a linear autoencoder to low-dimensional item vectors obtained using embedding methods such as Item2vec to estimate item-item similarities. Our experiments provide preliminary results indicating the effectiveness of whitening low-dimensional item embeddings.
翻訳日:2023-09-03 21:43:34 公開日:2023-08-15
# 動的負荷の復元のための物理インフォームド機械学習モデル

A physics-informed machine learning model for reconstruction of dynamic loads ( http://arxiv.org/abs/2308.08571v1 )

ライセンス: Link先を確認
Gledson Rodrigo Tondo and Igor Kavrakov and Guido Morgenthal(参考訳) 長寿命の橋は、その寿命の間に多数の動的励起を受ける。 構造システムへの影響を考慮するため、設計中にいくつかの負荷モデルを使用して、構造が経験するであろう条件をシミュレートする。 これらのモデルは様々な単純化された仮定に基づいており、一般に測定データから確率的に同定されるパラメータによって導かれる。 本稿では,ガウス過程回帰に基づく確率論的物理モデルを用いて,計測された振れ,速度,加速度に基づいて動的力を再構成する手法を提案する。 このモデルは不完全で汚染されたデータを扱うことができ、測定システムのノイズを考慮した自然な正規化アプローチを提供する。 開発した枠組みの応用は、グレートベルト・イースト橋の空力解析により得られた。 準定常モデルに基づいて空力応答を数値計算し,その基礎となる力はスパースおよびノイズ測定を用いて再構成する。 結果は、適用された負荷と予測された動的負荷との間に良い一致を示し、グローバルな応答と結果として生じる内部力を計算するために拡張することができる。 開発されたフレームワークには、設計モデルと仮定の検証、損傷検出と構造的健康モニタリングを支援するための応答の予後が含まれる。

Long-span bridges are subjected to a multitude of dynamic excitations during their lifespan. To account for their effects on the structural system, several load models are used during design to simulate the conditions the structure is likely to experience. These models are based on different simplifying assumptions and are generally guided by parameters that are stochastically identified from measurement data, making their outputs inherently uncertain. This paper presents a probabilistic physics-informed machine-learning framework based on Gaussian process regression for reconstructing dynamic forces based on measured deflections, velocities, or accelerations. The model can work with incomplete and contaminated data and offers a natural regularization approach to account for noise in the measurement system. An application of the developed framework is given by an aerodynamic analysis of the Great Belt East Bridge. The aerodynamic response is calculated numerically based on the quasi-steady model, and the underlying forces are reconstructed using sparse and noisy measurements. Results indicate a good agreement between the applied and the predicted dynamic load and can be extended to calculate global responses and the resulting internal forces. Uses of the developed framework include validation of design models and assumptions, as well as prognosis of responses to assist in damage detection and structural health monitoring.
翻訳日:2023-08-27 05:27:24 公開日:2023-08-15
# CMISR: 循環医療画像スーパーリゾリューション

CMISR: Circular Medical Image Super-Resolution ( http://arxiv.org/abs/2308.08567v1 )

ライセンス: Link先を確認
Honggui Li, Maria Trocan, Dimitri Galayko, Mohamad Sawan(参考訳) 医用画像超解像(MISR)の古典的な方法は、暗黙の低解像度(UR)ユニットと明示的な超解像(SR)ユニットを備えたオープンループアーキテクチャを使用する。 URユニットは常に与えられる、仮定される、または推定されるが、SRユニットは様々なSRアルゴリズムに従って精巧に設計されている。 閉ループフィードバック機構は、現在のMISRアプローチで広く採用されており、その性能を効率的に向上することができる。 フィードバックメカニズムは、ローカルフィードバックとグローバルフィードバックの2つのカテゴリに分けられる。 そこで本稿では,不明瞭なURおよびSR要素を持つグローバルなフィードバックベース閉サイクルフレームワークである円形MISR(CMISR)を提案する。 CMISRの数学的モデルと閉ループ方程式が構築されている。 テイラー級数近似を用いた数学的証明は、CMISRが定常状態においてゼロ回復誤差を持つことを示す。 加えて、CMISRは既存のMISRアルゴリズムで確立可能なプラグアンドプレイ特性を持っている。 5つのCMISRアルゴリズムはそれぞれ最先端のオープンループMISRアルゴリズムに基づいて提案される。 3つの尺度因子と3つのオープンな医用画像データセットによる実験結果から、CMISRは再建性能においてMISRよりも優れており、特に強いエッジや強いコントラストを持つ医用画像に適していることが示された。

Classical methods of medical image super-resolution (MISR) utilize open-loop architecture with implicit under-resolution (UR) unit and explicit super-resolution (SR) unit. The UR unit can always be given, assumed, or estimated, while the SR unit is elaborately designed according to various SR algorithms. The closed-loop feedback mechanism is widely employed in current MISR approaches and can efficiently improve their performance. The feedback mechanism may be divided into two categories: local and global feedback. Therefore, this paper proposes a global feedback-based closed-cycle framework, circular MISR (CMISR), with unambiguous UR and SR elements. Mathematical model and closed-loop equation of CMISR are built. Mathematical proof with Taylor-series approximation indicates that CMISR has zero recovery error in steady-state. In addition, CMISR holds plug-and-play characteristic which can be established on any existing MISR algorithms. Five CMISR algorithms are respectively proposed based on the state-of-the-art open-loop MISR algorithms. Experimental results with three scale factors and on three open medical image datasets show that CMISR is superior to MISR in reconstruction performance and is particularly suited to medical images with strong edges or intense contrast.
翻訳日:2023-08-27 05:27:05 公開日:2023-08-15
# KMF:ゼロショットノード分類のための知識対応多面表現学習

KMF: Knowledge-Aware Multi-Faceted Representation Learning for Zero-Shot Node Classification ( http://arxiv.org/abs/2308.08563v1 )

ライセンス: Link先を確認
Likang Wu, Junji Jiang, Hongke Zhao, Hao Wang, Defu Lian, Mengdi Zhang and Enhong Chen(参考訳) 近年,ゼロショットノード分類(znc)がグラフデータ解析において重要かつ重要な課題となっている。 このタスクは、トレーニングプロセスで観察できない未発見のクラスからノードを予測することを目的としている。 既存の作業は主にグラフニューラルネットワーク(GNN)を使用して、機能のプロトタイプとラベルのセマンティクスを関連付け、見知らぬクラスへの知識伝達を可能にする。 しかし、特徴論的アライメントにおける多面的な意味的指向は、以前の仕事、すなわち、ノードの内容は、通常、複数のラベルの意味論に関連する多様なトピックをカバーしている。 モデルの一般性を改善する認知能力に大きな影響を与える意味的要因を分離し、判断する必要がある。 そこで本研究では,抽出したKG(Knowledge Graph)ベースのトピックを通じて,ラベルセマンティクスの豊かさを向上するKMF(Knowledge Multi-Faceted framework)を提案する。 そして、各ノードの内容は、異なるラベルに多面的かつきめ細かい意味的関連性を提供するトピックレベルの表現に再構成される。 グラフのインスタンス(つまりノード)表現の特異性により、ノード情報集約によるプロトタイプドリフトの問題を軽減するために、新しい幾何学的制約が開発されている。 最後に,いくつかの公開グラフデータセットについて広範な実験を行い,ゼロショットのクロスドメインレコメンデーションのアプリケーションを設計する。 その結果, kmfの有効性と一般化と, 最先端のベースラインとの比較が得られた。

Recently, Zero-Shot Node Classification (ZNC) has been an emerging and crucial task in graph data analysis. This task aims to predict nodes from unseen classes which are unobserved in the training process. Existing work mainly utilizes Graph Neural Networks (GNNs) to associate features' prototypes and labels' semantics thus enabling knowledge transfer from seen to unseen classes. However, the multi-faceted semantic orientation in the feature-semantic alignment has been neglected by previous work, i.e. the content of a node usually covers diverse topics that are relevant to the semantics of multiple labels. It's necessary to separate and judge the semantic factors that tremendously affect the cognitive ability to improve the generality of models. To this end, we propose a Knowledge-Aware Multi-Faceted framework (KMF) that enhances the richness of label semantics via the extracted KG (Knowledge Graph)-based topics. And then the content of each node is reconstructed to a topic-level representation that offers multi-faceted and fine-grained semantic relevancy to different labels. Due to the particularity of the graph's instance (i.e., node) representation, a novel geometric constraint is developed to alleviate the problem of prototype drift caused by node information aggregation. Finally, we conduct extensive experiments on several public graph datasets and design an application of zero-shot cross-domain recommendation. The quantitative results demonstrate both the effectiveness and generalization of KMF with the comparison of state-of-the-art baselines.
翻訳日:2023-08-27 05:26:44 公開日:2023-08-15
# 合成データを用いたソーシャルメディア上でのサイバーバブル検出のための信頼できるLSTM-Autoencoderネットワーク

A Trustable LSTM-Autoencoder Network for Cyberbullying Detection on Social Media Using Synthetic Data ( http://arxiv.org/abs/2308.09722v1 )

ライセンス: Link先を確認
Mst Shapna Akter, Hossain Shahriar, Alfredo Cuzzocrea(参考訳) ソーシャルメディアのサイバーいじめは人間の生活に有害な影響を及ぼす。 オンラインソーシャルネットワークが日々成長するにつれて、ヘイトスピーチの量も増加する。 このような恐ろしい内容は、うつ病や自殺に関連する行動を引き起こす可能性がある。 本稿では,合成データを用いたソーシャルメディア上でのサイバーバブル検出のための信頼性の高いLSTM-Autoencoderネットワークを提案する。 機械翻訳データ生成によるデータ可用性問題に対処するための最先端手法を実証した。 しかし、ヒンディー語やバングラ語などいくつかの言語は、データセットの欠如による十分な調査が不足している。 提案したモデルと従来のモデルを用いて,ヒンディー語,バングラ語,英語のデータセットに対するアグレッシブなコメントを実験的に同定した。例えば,Long Short-Term Memory (LSTM), Bidirectional Long Short-Term Memory (BiLSTM), LSTM-Autoencoder, Word2vec, Bidirectional Encoder Representations from Transformers (BERT), Generative Pre-trained Transformer 2 (GPT-2) モデルである。 モデルの性能を評価するために,f1-score,精度,精度,リコールなどの評価指標を用いた。 提案モデルでは,全データセットのモデルに比較して95%の精度を達成した。 このモデルは,我々が本論文で使用したデータセット上で,これまでのすべての作業の中で最先端の結果を得る。

Social media cyberbullying has a detrimental effect on human life. As online social networking grows daily, the amount of hate speech also increases. Such terrible content can cause depression and actions related to suicide. This paper proposes a trustable LSTM-Autoencoder Network for cyberbullying detection on social media using synthetic data. We have demonstrated a cutting-edge method to address data availability difficulties by producing machine-translated data. However, several languages such as Hindi and Bangla still lack adequate investigations due to a lack of datasets. We carried out experimental identification of aggressive comments on Hindi, Bangla, and English datasets using the proposed model and traditional models, including Long Short-Term Memory (LSTM), Bidirectional Long Short-Term Memory (BiLSTM), LSTM-Autoencoder, Word2vec, Bidirectional Encoder Representations from Transformers (BERT), and Generative Pre-trained Transformer 2 (GPT-2) models. We employed evaluation metrics such as f1-score, accuracy, precision, and recall to assess the models performance. Our proposed model outperformed all the models on all datasets, achieving the highest accuracy of 95%. Our model achieves state-of-the-art results among all the previous works on the dataset we used in this paper.
翻訳日:2023-08-27 05:17:20 公開日:2023-08-15
# 反復行動計数法の進歩:性能改善を伴う関節型PoseRACモデル

Advancements in Repetitive Action Counting: Joint-Based PoseRAC Model With Improved Performance ( http://arxiv.org/abs/2308.08632v1 )

ライセンス: Link先を確認
Haodong Chen, Ming C. Leu, Md Moniruzzaman, Zhaozheng Yin, Solmaz Hajmohammadi, Zhuoqing Chang(参考訳) 反復カウント(RepCount)は、フィットネストラッキングやリハビリテーションなどの様々な応用において重要である。 以前は、アクション反復数を特定するために赤緑青フレームとボディポーズランドマークの推定に頼っていたが、これらの方法は、カメラ視点の変化を安定的に扱えないこと、オーバーカウント、アンダーカウンティング、サブアクションの区別が難しいこと、サリアンポーズの認識における不正確さなど、多くの問題に悩まされていた。 本稿では, [1] が行った研究に基づいて, これらの課題に対処し, 最先端の RepCount 法よりも優れた結果を得るために, 平均 0.211 の 平均絶対誤差 (MAE) と, オフバイワン (OBO) の 0.599 の精度を持つ RepCount データセット [2] と組み合わせた。 総合的な実験結果から,本手法の有効性とロバスト性を示した。

Repetitive counting (RepCount) is critical in various applications, such as fitness tracking and rehabilitation. Previous methods have relied on the estimation of red-green-and-blue (RGB) frames and body pose landmarks to identify the number of action repetitions, but these methods suffer from a number of issues, including the inability to stably handle changes in camera viewpoints, over-counting, under-counting, difficulty in distinguishing between sub-actions, inaccuracy in recognizing salient poses, etc. In this paper, based on the work done by [1], we integrate joint angles with body pose landmarks to address these challenges and achieve better results than the state-of-the-art RepCount methods, with a Mean Absolute Error (MAE) of 0.211 and an Off-By-One (OBO) counting accuracy of 0.599 on the RepCount data set [2]. Comprehensive experimental results demonstrate the effectiveness and robustness of our method.
翻訳日:2023-08-27 05:16:03 公開日:2023-08-15
# 自然に触発された特徴選択アルゴリズムの学生成績予測能力の比較分析

A Comparative Analysis of the Capabilities of Nature-inspired Feature Selection Algorithms in Predicting Student Performance ( http://arxiv.org/abs/2308.08574v1 )

ライセンス: Link先を確認
Thomas Trask(参考訳) リスクの高い学生に対する効果的な事前障害介入の活用には,学生のパフォーマンス予測が重要である。 本稿では,インスタンスベースのクリックストリームデータ,コース内シングルコースのパフォーマンス,複数コースを同時に行う場合のパフォーマンスの3つのデータセットを対象とした,12種類の自然に着想を得たアルゴリズムの相対的性能について分析した。 すべてのデータセットにおいて、特徴選択にniasを使用するアンサンブルアプローチと、予測精度を高めながら特徴セットサイズを2/3削減するための従来のmlアルゴリズムを活用することが分かりました。

Predicting student performance is key in leveraging effective pre-failure interventions for at-risk students. In this paper, I have analyzed the relative performance of a suite of 12 nature-inspired algorithms when used to predict student performance across 3 datasets consisting of instance-based clickstream data, intra-course single-course performance, and performance when taking multiple courses simultaneously. I found that, for all datasets, leveraging an ensemble approach using NIAs for feature selection and traditional ML algorithms for classification increased predictive accuracy while also reducing feature set size by 2/3.
翻訳日:2023-08-27 05:15:41 公開日:2023-08-15
# 入門プログラミング教育における大規模言語モデル:ChatGPTの性能と評価への影響

Large Language Models in Introductory Programming Education: ChatGPT's Performance and Implications for Assessments ( http://arxiv.org/abs/2308.08572v1 )

ライセンス: Link先を確認
Natalie Kiesler and Daniel Schiffner(参考訳) 本稿では,Large Language Models (LLMs) ChatGPT-3.5とGPT-4の性能について検討する。 この性能に基づいて, LLMを用いたシナリオとアセスメント形式を導出する。 分析では、初心者プログラマ向けの72のPythonタスクが無料サイトCodingBatから選択された。 完全なタスク記述は LLM への入力として使用され、生成した応答は CodingBat の単体テストを用いて評価された。 また,テキスト説明とプログラムコードの一般提供についても分析を行った。 その結果、94.4~95.8%の正答率と、テキストの説明やプログラムコードの信頼性が向上し、LCMをプログラム教育と評価に組み込む新たな方法が開かれた。

This paper investigates the performance of the Large Language Models (LLMs) ChatGPT-3.5 and GPT-4 in solving introductory programming tasks. Based on the performance, implications for didactic scenarios and assessment formats utilizing LLMs are derived. For the analysis, 72 Python tasks for novice programmers were selected from the free site CodingBat. Full task descriptions were used as input to the LLMs, while the generated replies were evaluated using CodingBat's unit tests. In addition, the general availability of textual explanations and program code was analyzed. The results show high scores of 94.4 to 95.8% correct responses and reliable availability of textual explanations and program code, which opens new ways to incorporate LLMs into programming education and assessment.
翻訳日:2023-08-27 05:15:30 公開日:2023-08-15
# 複数のカメラ出力とプロセス監視をより正確にマージするためのミラーボール投影の改善

Improved mirror ball projection for more accurate merging of multiple camera outputs and process monitoring ( http://arxiv.org/abs/2308.10991v1 )

ライセンス: Link先を確認
Wladislav Artsimovich, Yoko Hirono(参考訳) 広角カメラの代わりに球面ミラーを使用することで、通常カメラが動作しない危険な環境で製造プロセスをコスト効率良く監視することができる。 これには高熱、真空、強電磁場の環境が含まれる。 さらに、複数のカメラタイプ(例えば、カラー画像、近赤外線、長波長赤外線、紫外線)を単一の広角出力に階層化することができ、カメラの配置やレンズが異なる。 通常、異なるカメラ位置は、画像間のパララックスシフトを導入するが、球面ミラーによって生成された球面投影により、このパララックスシフトは、ミラーサイズと監視対象までの距離に応じて減少する。 本稿では,プロジェクションの極部における遠近カメラによる歪みを考慮した「ミラーボールプロジェクション」のバリエーションを紹介する。 最後に,ミラーボールによるプロセスモニタリングの有効性を評価する。

Using spherical mirrors in place of wide-angle cameras allows for cost-effective monitoring of manufacturing processes in hazardous environment, where a camera would normally not operate. This includes environments of high heat, vacuum and strong electromagnetic fields. Moreover, it allows the layering of multiple camera types (e.g., color image, near-infrared, long-wavelength infrared, ultraviolet) into a single wide-angle output, whilst accounting for the different camera placements and lenses used. Normally, the different camera positions introduce a parallax shift between the images, but with a spherical projection as produced by a spherical mirror, this parallax shift is reduced, depending on mirror size and distance to the monitoring target. This paper introduces a variation of the 'mirror ball projection', that accounts for distortion produced by a perspective camera at the pole of the projection. Finally, the efficacy of process monitoring via a mirror ball is evaluated.
翻訳日:2023-08-27 05:08:22 公開日:2023-08-15
# ERA*:正規格子図における最短経路問題の解法のための拡張緩和A*アルゴリズム

ERA*: Enhanced Relaxed A* algorithm for Solving the Shortest Path Problem in Regular Grid Maps ( http://arxiv.org/abs/2308.10988v1 )

ライセンス: Link先を確認
Adel Ammar(参考訳) 本稿では,静的な8隣接接続(G8)グリッドにおいて,最短経路問題の解法を提案する。 このアルゴリズムは、g8グリッドへのハドロックアルゴリズムの一般化と見なすことができ、理論的には、与えられた解の経路長の点で、緩和された$a^*$ (ra^*$) アルゴリズムと同値であるが、ルックアップ行列の集合を定義することに基づく、全く異なる計算戦略のために、かなりの時間とメモリ節約がある。 様々な種類と大きさのグリッドマップ(43のマップで1290が動作する)に関する実験的研究により、平均すると、$ra^*$よりも2.25倍速く、元の$a^*$よりも17倍速いことが証明された。 さらに、Gスコア行列を格納する必要がないため、メモリ効率が向上する。

This paper introduces a novel algorithm for solving the point-to-point shortest path problem in a static regular 8-neighbor connectivity (G8) grid. This algorithm can be seen as a generalization of Hadlock algorithm to G8 grids, and is shown to be theoretically equivalent to the relaxed $A^*$ ($RA^*$) algorithm in terms of the provided solution's path length, but with substantial time and memory savings, due to a completely different computation strategy, based on defining a set of lookup matrices. Through an experimental study on grid maps of various types and sizes (1290 runs on 43 maps), it is proven to be 2.25 times faster than $RA^*$ and 17 times faster than the original $A^*$, in average. Moreover, it is more memory-efficient, since it does not need to store a G score matrix.
翻訳日:2023-08-27 05:07:41 公開日:2023-08-15
# 機械学習によるIoTデータ信頼評価

IoT Data Trust Evaluation via Machine Learning ( http://arxiv.org/abs/2308.11638v1 )

ライセンス: Link先を確認
Timothy Tadj, Reza Arablouei, Volkan Dedeoglu(参考訳) IoTデータの信頼性を評価するために,教師付きあるいは教師なし機械学習(ML)に基づくさまざまなアプローチが提案されている。 しかしながら、実際の有効性を評価することは、主にベンチマークに使用できる関連する公開データセットが欠如しているため、難しい。 このようなデータセットの取得は困難であるため,既存の信頼できるデータから信頼できないデータを合成することにより,IoT時系列データセットを拡張するためにランダムウォークインフィル(RWI)と呼ばれるデータ合成手法を提案する。 したがって、RWIは、IoTデータ信頼評価のためのMLモデルの開発と検証に使用できるラベル付きデータセットを作成することができる。 また,iot 時系列センサデータから新たな特徴を抽出し,その自己相関を効果的に捉え,隣接する (peer) センサのデータと相互相関する。 これらの機能は、IoTセンサーデータの信頼性を認識するためのMLモデルを学ぶために使用できる。 合成した地層ラベル付きデータセットと情報相関に基づく特徴を備え,MLによるIoTデータ信頼を評価するためのさまざまなアプローチを批判的に検討するために,広範な実験を行った。 その結果,信頼ラベルをラベル付きデータに割り当てるための教師なしクラスタ分析に頼っているIoTデータ信頼評価において,MLベースのアプローチが一般的に使用されていることが判明した。 この貧弱なパフォーマンスは、クラスタリングが信頼性の高いラベルをデータ信頼に提供しているという根拠のない仮定によるものと言えます。 また、提案した特徴を用いてRWIで拡張したデータセットから学習したMLモデルは、見つからないデータによく一般化され、既存の関連するアプローチより優れています。 さらに、ラベル付きデータの約10%を必要とする半教師付きmlアプローチは、完全に教師付きアプローチよりも実質的に魅力的でありながら、競争力のあるパフォーマンスを提供する。

Various approaches based on supervised or unsupervised machine learning (ML) have been proposed for evaluating IoT data trust. However, assessing their real-world efficacy is hard mainly due to the lack of related publicly-available datasets that can be used for benchmarking. Since obtaining such datasets is challenging, we propose a data synthesis method, called random walk infilling (RWI), to augment IoT time-series datasets by synthesizing untrustworthy data from existing trustworthy data. Thus, RWI enables us to create labeled datasets that can be used to develop and validate ML models for IoT data trust evaluation. We also extract new features from IoT time-series sensor data that effectively capture its auto-correlation as well as its cross-correlation with the data of the neighboring (peer) sensors. These features can be used to learn ML models for recognizing the trustworthiness of IoT sensor data. Equipped with our synthesized ground-truth-labeled datasets and informative correlation-based feature, we conduct extensive experiments to critically examine various approaches to evaluating IoT data trust via ML. The results reveal that commonly used ML-based approaches to IoT data trust evaluation, which rely on unsupervised cluster analysis to assign trust labels to unlabeled data, perform poorly. This poor performance can be attributed to the underlying unsubstantiated assumption that clustering provides reliable labels for data trust, a premise that is found to be untenable. The results also show that the ML models learned from datasets augmented via RWI while using the proposed features generalize well to unseen data and outperform existing related approaches. Moreover, we observe that a semi-supervised ML approach that requires only about 10% of the data labeled offers competitive performance while being practically more appealing compared to the fully-supervised approaches.
翻訳日:2023-08-27 04:47:28 公開日:2023-08-15
# ds4dh at #smm4h 2023: zero-shot adverse drug events normalization using sentence transformers and reciprocal-rank fusion

DS4DH at #SMM4H 2023: Zero-Shot Adverse Drug Events Normalization using Sentence Transformers and Reciprocal-Rank Fusion ( http://arxiv.org/abs/2308.12877v1 )

ライセンス: Link先を確認
Anthony Yazdani, Hossein Rouhizadeh, David Vicente Alvarez, Douglas Teodoro(参考訳) 本稿では,デジタル・ヘルス・グループのためのデータサイエンス・フォー・デジタル・ヘルス・グループ (data science for digital health group for the social media mining for health applications 2023 shared task 5) によって開発された有害薬物イベント正規化システムの性能評価について概説する。 共有タスク5は、twitterにおける有害薬物イベントへの言及を標準化し、規制活動用語の医学辞書から概念を標準化することを目的としている。 BERTファインタニングと文変換器によるゼロショット正規化と相互ランク融合という2段階のアプローチが特徴である。 精度は44.9%、リコールは40.5%、F1スコアは42.6%だった。 これは共有タスク5の中央値のパフォーマンスを10%上回り、すべての参加者の中で最高のパフォーマンスを示した。 これらの結果は,ソーシャルメディアのテキストマイニング分野における薬物イベント正規化の有効性と,その潜在的応用を実証するものである。

This paper outlines the performance evaluation of a system for adverse drug event normalization, developed by the Data Science for Digital Health group for the Social Media Mining for Health Applications 2023 shared task 5. Shared task 5 targeted the normalization of adverse drug event mentions in Twitter to standard concepts from the Medical Dictionary for Regulatory Activities terminology. Our system hinges on a two-stage approach: BERT fine-tuning for entity recognition, followed by zero-shot normalization using sentence transformers and reciprocal-rank fusion. The approach yielded a precision of 44.9%, recall of 40.5%, and an F1-score of 42.6%. It outperformed the median performance in shared task 5 by 10% and demonstrated the highest performance among all participants. These results substantiate the effectiveness of our approach and its potential application for adverse drug event normalization in the realm of social media text mining.
翻訳日:2023-08-27 04:39:31 公開日:2023-08-15
# 逆リソグラフィ物理によるマスク最適化のためのディープニューラルレベルセット

Inverse Lithography Physics-informed Deep Neural Level Set for Mask Optimization ( http://arxiv.org/abs/2308.12299v1 )

ライセンス: Link先を確認
Xing-Yu Ma, Shaogang Hao(参考訳) 集積回路の特性が減少し続けるにつれて、光近接補正(OPC)がリソグラフィープロセスにおいて高い印刷性を確保するための重要な解像度向上技術として登場した。 近年、レベルセットベースの逆リソグラフィ技術 (ILT) は、特に高度なプロセスにおいて、その強力なパターン忠実性を示す、有望なOPCソリューションとして注目されている。 しかし、irtの膨大な計算時間消費は、主に部分的層とホットスポット領域を補正する可能性を制限する。 深層学習(DL)法はILTを加速させる大きな可能性を示している。 しかし、逆リソグラフィーのドメイン知識の欠如は、プロセスウィンドウ(PW)拡張などにおけるDLベースのアルゴリズムの能力を制限する。 本稿では,マスク最適化のための逆リソグラフィー物理インフォームドディープニューラルレベルセット (ILDLS) アプローチを提案する。 本手法では、DLフレームワーク内のレイヤとしてレベルセットベースILTを使用し、純粋なDLとILTの結果と比較して、マスク予測と修正を繰り返し、印刷性およびPWを大幅に向上させる。 このアプローチにより、計算時間はILTに対して数桁削減される。 ILDLSは逆リソグラフィの知識でDLをギアアップすることで、新しい効率的なマスク最適化ソリューションを提供する。

As the feature size of integrated circuits continues to decrease, optical proximity correction (OPC) has emerged as a crucial resolution enhancement technology for ensuring high printability in the lithography process. Recently, level set-based inverse lithography technology (ILT) has drawn considerable attention as a promising OPC solution, showcasing its powerful pattern fidelity, especially in advanced process. However, massive computational time consumption of ILT limits its applicability to mainly correcting partial layers and hotspot regions. Deep learning (DL) methods have shown great potential in accelerating ILT. However, lack of domain knowledge of inverse lithography limits the ability of DL-based algorithms in process window (PW) enhancement and etc. In this paper, we propose an inverse lithography physics-informed deep neural level set (ILDLS) approach for mask optimization. This approach utilizes level set based-ILT as a layer within the DL framework and iteratively conducts mask prediction and correction to significantly enhance printability and PW in comparison with results from pure DL and ILT. With this approach, computation time is reduced by a few orders of magnitude versus ILT. By gearing up DL with knowledge of inverse lithography physics, ILDLS provides a new and efficient mask optimization solution.
翻訳日:2023-08-27 04:38:13 公開日:2023-08-15
# リアルパブリケーションテキストを用いたChatGPT生成フェイクサイエンスの検出の改善:xFakeBibsの教師付き学習ネットワークアルゴリズムの導入

Improving Detection of ChatGPT-Generated Fake Science Using Real Publication Text: Introducing xFakeBibs a Supervised-Learning Network Algorithm ( http://arxiv.org/abs/2308.11767v1 )

ライセンス: Link先を確認
Ahmed Abdeen Hamed and Xindong Wu(参考訳) ChatGPTは新しい現実になりつつある。 本稿では,ChatGPTによる出版物を科学者が作成した出版物と区別する方法を示す。 新たに設計された教師付き機械学習アルゴリズムを用いて、科学者が生成した論文から機械生成出版物を検出する方法を示す。 このアルゴリズムは100の実際の要約を使って訓練され、続いて10倍のキャリブレーションアプローチによって、低い上限範囲の受け入れを確立する。 ChatGPT含有量と比較すると,ChatGPTの寄与はバルクラム含有量のわずか23倍であり,他の10個折り折りの50倍以下であった。 この分析は、ChatGPTが実科学と一致するに足りなかった技術面での大きな相違を浮き彫りにしている。 個々の論文を分類する際、xFakeBibsアルゴリズムは100件中98件を偽物として正確に識別し、2件を誤分類した。 この研究は、chatgptが生成した偽の科学を高い精度で検出するアルゴリズム的手法を導入したが、全ての偽のレコードを検出することは依然として困難である。 この研究は、偽の科学と誤報に対抗する正しい方向への一歩である。

ChatGPT is becoming a new reality. In this paper, we show how to distinguish ChatGPT-generated publications from counterparts produced by scientists. Using a newly designed supervised Machine Learning algorithm, we demonstrate how to detect machine-generated publications from those produced by scientists. The algorithm was trained using 100 real publication abstracts, followed by a 10-fold calibration approach to establish a lower-upper bound range of acceptance. In the comparison with ChatGPT content, it was evident that ChatGPT contributed merely 23\% of the bigram content, which is less than 50\% of any of the other 10 calibrating folds. This analysis highlights a significant disparity in technical terms where ChatGPT fell short of matching real science. When categorizing the individual articles, the xFakeBibs algorithm accurately identified 98 out of 100 publications as fake, with 2 articles incorrectly classified as real publications. Though this work introduced an algorithmic approach that detected the ChatGPT-generated fake science with a high degree of accuracy, it remains challenging to detect all fake records. This work is indeed a step in the right direction to counter fake science and misinformation.
翻訳日:2023-08-27 04:37:54 公開日:2023-08-15
# 時間一様中心極限理論と漸近的信頼系列

Time-uniform central limit theory and asymptotic confidence sequences ( http://arxiv.org/abs/2103.06476v8 )

ライセンス: Link先を確認
Ian Waudby-Smith, David Arbour, Ritwik Sinha, Edward H. Kennedy, and Aaditya Ramdas(参考訳) 中央極限定理(CLT)に基づく信頼区間は古典統計学の基盤となっている。 漸近的にのみ有効であるにもかかわらず、非常に弱い仮定の下で統計的推論を許すためユビキタスであり、漸近的推論が不可能である場合でもしばしば問題に適用できる。 本稿では、このような漸近的信頼区間の時間一様アナログを紹介する。 そこで本手法は,時間とともに一様に有効となる信頼区間のシーケンスを,信頼シーケンス(CS)の形式で記述する。 CSは任意の停止時間に有効な推論を提供し、サンプルサイズを事前に固定する必要のある古典的な信頼区間とは異なり、データに対する「覗き見」の罰則を課さない。 文献中の既存のCSは漸近的ではないため、前述の漸近的信頼区間の広範な適用性は享受できない。 我々の研究は「漸近的なCS」の定義を与え、弱いCLTのような仮定のみを必要とする普遍的な漸近的なCSを導出することでギャップを埋める。 cltは、固定されたサンプルサイズにおけるガウス平均の分布に近似するが、強い不変原理(1960年代のストラッセンの仕事とkoml\'os, major, tusn\'adyによる改善)を用いて、暗黙のガウス過程によってサンプル平均過程全体を一様に近似する。 本理論の例示として,観測実験における効率的な推定器を用いた平均治療効果に対する無症状CSを導出し,無作為な実験を行い,連続的に監視・適応的に停止できる因果推論を可能にした。

Confidence intervals based on the central limit theorem (CLT) are a cornerstone of classical statistics. Despite being only asymptotically valid, they are ubiquitous because they permit statistical inference under very weak assumptions, and can often be applied to problems even when nonasymptotic inference is impossible. This paper introduces time-uniform analogues of such asymptotic confidence intervals. To elaborate, our methods take the form of confidence sequences (CS) -- sequences of confidence intervals that are uniformly valid over time. CSs provide valid inference at arbitrary stopping times, incurring no penalties for "peeking" at the data, unlike classical confidence intervals which require the sample size to be fixed in advance. Existing CSs in the literature are nonasymptotic, and hence do not enjoy the aforementioned broad applicability of asymptotic confidence intervals. Our work bridges the gap by giving a definition for "asymptotic CSs", and deriving a universal asymptotic CS that requires only weak CLT-like assumptions. While the CLT approximates the distribution of a sample average by that of a Gaussian at a fixed sample size, we use strong invariance principles (stemming from the seminal 1960s work of Strassen and improvements by Koml\'os, Major, and Tusn\'ady) to uniformly approximate the entire sample average process by an implicit Gaussian process. As an illustration of our theory, we derive asymptotic CSs for the average treatment effect using efficient estimators in observational studies (for which no nonasymptotic bounds can exist even in the fixed-time regime) as well as randomized experiments, enabling causal inference that can be continuously monitored and adaptively stopped.
翻訳日:2023-08-17 18:18:38 公開日:2023-08-15
# SMGRL:スケーラブルなマルチ解像度グラフ表現学習

SMGRL: Scalable Multi-resolution Graph Representation Learning ( http://arxiv.org/abs/2201.12670v3 )

ライセンス: Link先を確認
Reza Namazi, Elahe Ghalebi, Sinead Williamson, Hamidreza Mahyar(参考訳) グラフ畳み込みネットワーク(GCN)は、分類やリンク予測に役立つトポロジ的に認識されたノードの埋め込みを学習することができる。 しかし、追加のレイヤを追加することなく、ノード間の長距離依存関係をキャプチャできないため、過剰なスムーシングと時間と空間の複雑さが増大する。 さらに、ノード間の複雑な依存関係は、ミニバッチを難しくし、大きなグラフに適用性を制限する。 マルチレゾリューションノードの埋め込みを効率的に学習できるスケーラブルなマルチレゾリューショングラフ表現学習(SMGRL)フレームワークを提案する。 私たちのフレームワークはモデルに依存しており、既存のgcnモデルに適用できます。 元のグラフの次元の粗さだけをトレーニングすることで、トレーニングコストを劇的に削減し、その結果のアルゴリズムを複数の解像度で適用するために自己相似性を利用する。 結果として得られるマルチレゾリューション組込みは集約され、長距離および短距離の依存関係をキャプチャする高品質なノード組込みが得られる。 実験の結果,高い計算コストを伴わずに分類精度が向上することがわかった。

Graph convolutional networks (GCNs) allow us to learn topologically-aware node embeddings, which can be useful for classification or link prediction. However, they are unable to capture long-range dependencies between nodes without adding additional layers -- which in turn leads to over-smoothing and increased time and space complexity. Further, the complex dependencies between nodes make mini-batching challenging, limiting their applicability to large graphs. We propose a Scalable Multi-resolution Graph Representation Learning (SMGRL) framework that enables us to learn multi-resolution node embeddings efficiently. Our framework is model-agnostic and can be applied to any existing GCN model. We dramatically reduce training costs by training only on a reduced-dimension coarsening of the original graph, then exploit self-similarity to apply the resulting algorithm at multiple resolutions. The resulting multi-resolution embeddings can be aggregated to yield high-quality node embeddings that capture both long- and short-range dependencies. Our experiments show that this leads to improved classification accuracy, without incurring high computational costs.
翻訳日:2023-08-17 18:11:24 公開日:2023-08-15
# サーバ学習によるフェデレーションラーニング - 非IIDデータのパフォーマンス向上

Federated Learning with Server Learning: Enhancing Performance for Non-IID Data ( http://arxiv.org/abs/2210.02614v4 )

ライセンス: Link先を確認
Van Sy Mai, Richard J. La, Tao Zhang(参考訳) フェデレートラーニング(FL)は、クライアントに格納されたローカルデータを協調サーバで分散学習する手段として登場した。 最近の研究では、クライアントでデータをトレーニングする場合、flはパフォーマンスの低下と収束の遅さに苦しむことが示されている。 ここでは、サーバが小さなデータセットから補助学習を行うことにより、この性能劣化を軽減するための新たな補完的アプローチを検討する。 解析と実験により,サーバのデータセットが小さく,すべてのクライアントから収集したデータと分布が異なる場合でも,モデル精度と収束時間の両方において,新たなアプローチが大幅に向上することが示された。

Federated Learning (FL) has emerged as a means of distributed learning using local data stored at clients with a coordinating server. Recent studies showed that FL can suffer from poor performance and slower convergence when training data at clients are not independent and identically distributed. Here we consider a new complementary approach to mitigating this performance degradation by allowing the server to perform auxiliary learning from a small dataset. Our analysis and experiments show that this new approach can achieve significant improvements in both model accuracy and convergence time even when the server dataset is small and its distribution differs from that of the aggregated data from all clients.
翻訳日:2023-08-17 18:02:59 公開日:2023-08-15
# 離散状態空間から得られるグラフの拡散モデル

Diffusion Models for Graphs Benefit From Discrete State Spaces ( http://arxiv.org/abs/2210.01549v4 )

ライセンス: Link先を確認
Kilian Konstantin Haefeli, Karolis Martinkus, Nathana\"el Perraudin, Roger Wattenhofer(参考訳) 拡散確率モデルとスコアマッチングモデルは、生成タスクに非常に強力であることが証明されている。 これらのアプローチは離散グラフの生成にも適用されているが、これまでは連続ガウス摂動に依存してきた。 代わりに、本研究では、前方マルコフ過程に離散ノイズを用いることを提案する。 これにより、すべての中間ステップにおいてグラフが離散的であることが保証される。 従来の手法と比較して, 4つのデータセットと複数のアーキテクチャを用いた実験結果から, 離散的ノージングプロセスを用いることで, 平均mmdを1.5倍小さくして, 高品質なサンプルが得られた。 さらに、分別ステップの数は1000ステップから32ステップに削減され、サンプリング手順が30倍高速になる。

Denoising diffusion probabilistic models and score-matching models have proven to be very powerful for generative tasks. While these approaches have also been applied to the generation of discrete graphs, they have, so far, relied on continuous Gaussian perturbations. Instead, in this work, we suggest using discrete noise for the forward Markov process. This ensures that in every intermediate step the graph remains discrete. Compared to the previous approach, our experimental results on four datasets and multiple architectures show that using a discrete noising process results in higher quality generated samples indicated with an average MMDs reduced by a factor of 1.5. Furthermore, the number of denoising steps is reduced from 1000 to 32 steps, leading to a 30 times faster sampling procedure.
翻訳日:2023-08-17 18:02:33 公開日:2023-08-15
# アンダーダムランゲヴィンダイナミクスを用いた非バイアス推定

Unbiased Estimation using Underdamped Langevin Dynamics ( http://arxiv.org/abs/2206.07202v2 )

ライセンス: Link先を確認
Hamza Ruzayqat, Neil K. Chada, Ajay Jasra(参考訳) 本研究では,非負のルベーグ密度を持ち,点的に上向きに正規化定数となる期待値w.r.t.~probability測度の偏りのない推定について考察する。 我々は、統計学や機械学習の応用により最近人気が高まっているランジェヴィン力学(Langevin dynamics)を用いて、バイアスのない方法の開発に注力する。 特に連続時間において、ダイナミクスは、時間が無限になるにつれて、静止測度として興味の確率を受け入れるように構成できる。 多くの場合、無傷ランジュバンダイナミクスの時間的離散化バージョンは、一定の数のイテレーションでのみ実行される、実際に使われます。 我々は,2倍のランダム化推定に基づく新しいスキームを,時間離散化バージョンのダイナミクスへのアクセスのみを必要とする \cite{ub_grad,disc_model} のように開発する。 提案手法は,有限個の反復のダイナミクスを実行することによって生じる二項化バイアスとバイアスを取り除くことを目的としている。 標準的な仮定の下では、推定子は有限分散であり、期待されるコストが有限であるか、あるいは高い確率で有限コストであることを示す。 理論的な知見を説明するために,ベイズ統計学や統計物理学の挑戦的な例を含む,理論を検証する数値実験を行う。

In this work we consider the unbiased estimation of expectations w.r.t.~probability measures that have non-negative Lebesgue density, and which are known point-wise up-to a normalizing constant. We focus upon developing an unbiased method via the underdamped Langevin dynamics, which has proven to be popular of late due to applications in statistics and machine learning. Specifically in continuous-time, the dynamics can be constructed {so that as the time goes to infinity they} admit the probability of interest as a stationary measure. {In many cases, time-discretized versions of the underdamped Langevin dynamics are used in practice which are run only with a fixed number of iterations.} We develop a novel scheme based upon doubly randomized estimation as in \cite{ub_grad,disc_model}, which requires access only to time-discretized versions of the dynamics. {The proposed scheme aims to remove the dicretization bias and the bias resulting from running the dynamics for a finite number of iterations}. We prove, under standard assumptions, that our estimator is of finite variance and either has finite expected cost, or has finite cost with a high probability. To illustrate our theoretical findings we provide numerical experiments which verify our theory, which include challenging examples from Bayesian statistics and statistical physics.
翻訳日:2023-08-17 18:00:31 公開日:2023-08-15
# 離散スケッチデータを用いた固有クエリの共形周波数推定

Conformal Frequency Estimation using Discrete Sketched Data with Coverage for Distinct Queries ( http://arxiv.org/abs/2211.04612v2 )

ライセンス: Link先を確認
Matteo Sesia, Stefano Favaro, Edgar Dobriban(参考訳) 本稿では,メモリフットプリントの少ないスケッチに基づいて,クエリ対象の頻度に対する信頼区間を,非常に大きな離散データセットで構築する共形推論手法を提案する。 このアプローチは、データ分布に関する知識を必要とせず、有名なカウントミンスケッチ、カウントスケッチ、およびそれらのバリエーションを含むあらゆるスケッチアルゴリズムと組み合わせることができる。 交換可能なランダムクエリの限界カバレッジを達成する方法について説明した後、我々は、データの離散性と異種クエリ周波数を考慮できる強力な推論を提供し、分散シフトの可能性に対する堅牢性を高めるために、ソリューションを拡張した。 これらの結果は、多数の異なるランダムクエリに対して有効なカバレッジを保証する新しいコンフォメーションキャリブレーション手法によって促進される。 最後に,本手法は,テキストやSARS-CoV-2のDNAデータの例と同様に,既存の頻繁な手法やベイズ的な手法と比較して実験性能が向上したことを示す。

This paper develops conformal inference methods to construct a confidence interval for the frequency of a queried object in a very large discrete data set, based on a sketch with a lower memory footprint. This approach requires no knowledge of the data distribution and can be combined with any sketching algorithm, including but not limited to the renowned count-min sketch, the count-sketch, and variations thereof. After explaining how to achieve marginal coverage for exchangeable random queries, we extend our solution to provide stronger inferences that can account for the discreteness of the data and for heterogeneous query frequencies, increasing also robustness to possible distribution shifts. These results are facilitated by a novel conformal calibration technique that guarantees valid coverage for a large fraction of distinct random queries. Finally, we show our methods have improved empirical performance compared to existing frequentist and Bayesian alternatives in simulations as well as in examples of text and SARS-CoV-2 DNA data.
翻訳日:2023-08-17 17:54:08 公開日:2023-08-15
# N$-mode,$K$-fermion系のジョルダン・ウィグナーエンコーディングのqubit要求を$N$から$\lceil \log_2 {N \choose K} \rceil$へ還元する

Reducing the qubit requirement of Jordan-Wigner encodings of $N$-mode, $K$-fermion systems from $N$ to $\lceil \log_2 {N \choose K} \rceil$ ( http://arxiv.org/abs/2211.04501v4 )

ライセンス: Link先を確認
Brent Harrison, Dylan Nelson, Daniel Adamiak and James Whitfield(参考訳) 量子コンピュータ上でフェルミオン系をシミュレートするには、フェルミオンの状態を量子ビットにエンコードする必要がある。 Jordan-Wigner や Bravyi-Kitaev 変換のようなフェルミオン対量子ビット写像は、$N$ qubits を使って、$N$フェルミオンモードの系を表現する。 本研究では、$K$フェルミオンと$N$モードの粒子数保存システムに対して、qubit要求を$\lceil \log_2 {N \choose K} \rceil$の情報理論最小値に還元できることを示した。 これにより、キュービット数に制限のある短期量子コンピュータ上での分子や多体系のシミュレーションの実現性が向上する。

To simulate a fermionic system on a quantum computer, it is necessary to encode the state of the fermions onto qubits. Fermion-to-qubit mappings such as the Jordan-Wigner and Bravyi-Kitaev transformations do this using $N$ qubits to represent systems of $N$ fermionic modes. In this work, we demonstrate that for particle number conserving systems of $K$ fermions and $N$ modes, the qubit requirement can be reduced to the information theoretic minimum of $\lceil \log_2 {N \choose K} \rceil$. This will improve the feasibility of simulation of molecules and many-body systems on near-term quantum computers with limited qubit number.
翻訳日:2023-08-17 17:53:51 公開日:2023-08-15
# 生成ビデオキャプションからのイベントとエンティティ抽出

Event and Entity Extraction from Generated Video Captions ( http://arxiv.org/abs/2211.02982v2 )

ライセンス: Link先を確認
Johannes Scherer and Ansgar Scherp and Deepayan Bhowmik(参考訳) 人間によるマルチメディアデータのアノテーションは時間がかかり費用がかかるが、セマンティックメタデータの自動生成は大きな課題である。 自動生成ビデオキャプションから意味メタデータを抽出するフレームワークを提案する。 メタデータとして、エンティティ、エンティティのプロパティ、エンティティ間の関係、およびビデオカテゴリを考える。 我々は2つの最先端の高密度ビデオキャプションモデルとマスク変換器(MT)と並列デコード(PVDC)を用いて、ActivityNet Captionsデータセットのビデオキャプションを生成する。 実験の結果,生成したキャプションから,エンティティ,その特性,エンティティ間の関係,ビデオカテゴリを抽出できることが確認された。 抽出された情報の品質は,映像中のイベントローカライゼーションの質や,イベントキャプション生成の性能に主に影響していると考えられる。

Annotation of multimedia data by humans is time-consuming and costly, while reliable automatic generation of semantic metadata is a major challenge. We propose a framework to extract semantic metadata from automatically generated video captions. As metadata, we consider entities, the entities' properties, relations between entities, and the video category. We employ two state-of-the-art dense video captioning models with masked transformer (MT) and parallel decoding (PVDC) to generate captions for videos of the ActivityNet Captions dataset. Our experiments show that it is possible to extract entities, their properties, relations between entities, and the video category from the generated captions. We observe that the quality of the extracted information is mainly influenced by the quality of the event localization in the video as well as the performance of the event caption generation.
翻訳日:2023-08-17 17:53:30 公開日:2023-08-15
# 実運用課題を考慮した時間同期全システム状態推定

Time-Synchronized Full System State Estimation Considering Practical Implementation Challenges ( http://arxiv.org/abs/2212.01729v2 )

ライセンス: Link先を確認
Antos Cheeramban Varghese, Hritik Shah, Behrouz Azimian, Anamitra Pal, and Evangelos Farantatos(参考訳) ファサー測定ユニット(PMU)は通常、最高電圧バスに搭載されるため、バルク電力系統の低電圧レベルの多くは観測されない。 この可視性の欠如は、システム全体の時間同期状態推定を困難な問題にする。 この問題を解決するために,Deep Neural Network-based State Estimator (DeNSE)を提案する。 DeNSEは、遅い時間スケールから引き出された推論と広範囲の監視制御とデータ取得(SCADA)データを高速な時間スケールでローカルなPMUデータと間接的に組み合わせて、システム全体のサブ秒の状況認識を実現するためにベイズフレームワークを使用している。 提案手法の実用性は, トポロジー変化, 非ガウス計測ノイズ, 悪いデータ検出と補正を考慮することで実証される。 IEEE 118-busシステムを用いて得られた結果は、純粋にSCADA状態推定器、SCADA-PMUハイブリッド状態推定器およびPMUのみ線形状態推定器よりもDeNSEの方が優れていることを示す。 最後に、DeNSEのスケーラビリティは、大規模で現実的な2000-bus Synthetic Texasシステムで状態推定を行うことによって証明される。

As phasor measurement units (PMUs) are usually placed on the highest voltage buses, many lower voltage levels of the bulk power system are not observed by them. This lack of visibility makes time-synchronized state estimation of the full system a challenging problem. We propose a Deep Neural network-based State Estimator (DeNSE) to overcome this problem. The DeNSE employs a Bayesian framework to indirectly combine inferences drawn from slow timescale but widespread supervisory control and data acquisition (SCADA) data with fast timescale but local PMU data to attain sub-second situational awareness of the entire system. The practical utility of the proposed approach is demonstrated by considering topology changes, non-Gaussian measurement noise, and bad data detection and correction. The results obtained using the IEEE 118-bus system show the superiority of the DeNSE over a purely SCADA state estimator, a SCADA-PMU hybrid state estimator, and a PMU-only linear state estimator from a techno-economic viability perspective. Lastly, the scalability of the DeNSE is proven by performing state estimation on a large and realistic 2000-bus Synthetic Texas system.
翻訳日:2023-08-17 17:42:57 公開日:2023-08-15
# 量子状態の近似再構成性とノイズ量子秘密共有スキーム

Approximate reconstructability of quantum states and noisy quantum secret sharing schemes ( http://arxiv.org/abs/2302.02509v2 )

ライセンス: Link先を確認
Yingkai Ouyang, Kaumudibikash Goswami, Jacquiline Romero, Barry C. Sanders, Min-Hsiu Hsieh and Marco Tomamichel(参考訳) プレイヤーの非公認部分集合を制御する量子秘密および全能の敵エージェントを略して再構成できる構造(プレイヤーのサブセットの集合)をほぼ否定するように、ディーラーがプレイヤーに量子秘密を符号化して配布する形式的な暗号設定において、近似量子秘密共有を導入し、分析する。 特に, 量子秘密を符号化したマップを量子チャネルとしてプレーヤに共有すると, これらのプレーヤによる量子秘密の近似的再構成が可能となるのは, 補足量子チャネルのある種の絡み合い支援容量が, 構造や環境外のプレイヤに対して与えられる情報漏洩が小さい場合に限りである。

We introduce and analyse approximate quantum secret sharing in a formal cryptographic setting, wherein a dealer encodes and distributes a quantum secret to players such that authorized structures (sets of subsets of players) can approximately reconstruct the quantum secret and omnipotent adversarial agents controlling non-authorized subsets of players are approximately denied the quantum secret. In particular, viewing the map encoding the quantum secret to shares for players in an authorized structure as a quantum channel, we show that approximate reconstructability of the quantum secret by these players is possible if and only if the information leakage, given in terms of a certain entanglement-assisted capacity of the complementary quantum channel to the players outside the structure and the environment, is small.
翻訳日:2023-08-17 17:32:12 公開日:2023-08-15
# 私の予測は任意か? 公平分類ベンチマークにおける変数の相違効果

Is My Prediction Arbitrary? The Confounding Effects of Variance in Fair Classification Benchmarks ( http://arxiv.org/abs/2301.11562v4 )

ライセンス: Link先を確認
A. Feder Cooper, Katherine Lee, Madiha Zahrah Choksi, Solon Barocas, Christopher De Sa, James Grimmelmann, Jon Kleinberg, Siddhartha Sen, Baobao Zhang(参考訳) 異なる訓練されたモデル間の予測のばらつきは、公平な分類において重要で未熟な誤りの原因である。 実際には、データ例のばらつきは非常に大きいので、決定を効果的に任意にすることができる。 この問題を調査するため、我々は実験的なアプローチをとり、4つの総合的な貢献をする。 1) 偏差から派生した自己整合性と呼ばれる指標を定義し、その指標を任意性の測定及び低減の代用として用いる。 2) 予測が任意である場合に分類を棄却するアンサンブルアルゴリズムを開発する。 3)公平な分類における分散(vis-a-vis自己矛盾と任意性)の役割について、過去最大の実証研究を行い、 4) US Home Mortgage Disclosure Act (HMDA)データセットを将来の研究に容易に利用できるようにするツールキットをリリースする。 その結果,ベンチマークデータセットにおける結論の信頼性に関する衝撃的な知見が得られた。 ほとんどのフェアネス分類ベンチマークは、一般的なフェアネス介入を適用する前に、予測に現れる仲裁の量を考慮して、フェアツーフェアである。 この発見は、一般的なアルゴリズム的公平性の方法の実用性に疑問を呈し、機械学習における公平性を測定する方法の根本的な再検討を示唆する。

Variance in predictions across different trained models is a significant, under-explored source of error in fair classification. In practice, the variance on some data examples is so large that decisions can be effectively arbitrary. To investigate this problem, we take an experimental approach and make four overarching contributions: We 1) Define a metric called self-consistency, derived from variance, which we use as a proxy for measuring and reducing arbitrariness; 2) Develop an ensembling algorithm that abstains from classification when a prediction would be arbitrary; 3) Conduct the largest to-date empirical study of the role of variance (vis-a-vis self-consistency and arbitrariness) in fair classification; and, 4) Release a toolkit that makes the US Home Mortgage Disclosure Act (HMDA) datasets easily usable for future research. Altogether, our experiments reveal shocking insights about the reliability of conclusions on benchmark datasets. Most fairness classification benchmarks are close-to-fair when taking into account the amount of arbitrariness present in predictions -- before we even try to apply common fairness interventions. This finding calls into question the practical utility of common algorithmic fairness methods, and in turn suggests that we should fundamentally reconsider how we choose to measure fairness in machine learning.
翻訳日:2023-08-17 17:31:56 公開日:2023-08-15
# 自律運転のためのクロスセマンティクス生成センサ融合を用いたペナルティに基づく模倣学習

Penalty-Based Imitation Learning With Cross Semantics Generation Sensor Fusion for Autonomous Driving ( http://arxiv.org/abs/2303.11888v3 )

ライセンス: Link先を確認
Hongkuan Zhou, Aifen Sui, Letian Shi, and Yinxian Li(参考訳) 近年では、エンドツーエンドの自動運転技術に注目が集まっている。 この技術は、より単純な構造とより高速な推論時間を持つ単一のニューラルネットワークで、運転パイプライン全体を置き換えることを含む。 しかし、このアプローチは駆動パイプラインのコンポーネント数を減らす一方で、解釈可能性と安全性に関する課題も提示する。 例えば、トレーニングされたポリシーが常にトラフィックルールに従うとは限らないため、中間出力が不足しているため、そのような誤動作の原因を判断することは困難である。 さらに, 自律走行技術の実現は, 周辺環境を正確に把握するために, センサデータの信頼性と迅速処理に大きく依存している。 本稿では,複数の情報モダリティを効率的に統合し,自律エージェントが交通規制を効果的に遵守できるようにするために,クロスセマンティクス生成センサ融合技術(P-CSG)と組み合わせたペナルティに基づく模倣学習手法を提案する。 提案手法は町長ベンチマークで評価され,最先端(sota)モデルであるinterfuserと比較して運転スコアが12%以上向上しているのを観察した。 特に, この性能向上を実現するとともに, 推論速度を7倍に増やし, モデルサイズを約30%削減した。 コードベースのリソースを含む詳細な情報はhttps://hk-zh.github.io/p-csg/にある。

In recent times, there has been a growing focus on end-to-end autonomous driving technologies. This technology involves the replacement of the entire driving pipeline with a single neural network, which has a simpler structure and faster inference time. However, while this approach reduces the number of components in the driving pipeline, it also presents challenges related to interpretability and safety. For instance, the trained policy may not always comply with traffic rules, and it is difficult to determine the reason for such misbehavior due to the lack of intermediate outputs. Additionally, the successful implementation of autonomous driving technology heavily depends on the reliable and expedient processing of sensory data to accurately perceive the surrounding environment. In this paper, we provide penalty-based imitation learning approach combined with cross semantics generation sensor fusion technologies (P-CSG) to efficiently integrate multiple modalities of information and enable the autonomous agent to effectively adhere to traffic regulations. Our model undergoes evaluation within the Town 05 Long benchmark, where we observe a remarkable increase in the driving score by more than 12% when compared to the state-of-the-art (SOTA) model, InterFuser. Notably, our model achieves this performance enhancement while achieving a 7-fold increase in inference speed and reducing the model size by approximately 30%. For more detailed information, including code-based resources, they can be found at https://hk-zh.github.io/p-csg/
翻訳日:2023-08-17 17:23:10 公開日:2023-08-15
# 擬似教師付きメトリクス:教師なしクロスドメイン分類フレームワークにおける教師なし画像から画像への変換モデルの評価

Pseudo Supervised Metrics: Evaluating Unsupervised Image to Image Translation Models In Unsupervised Cross-Domain Classification Frameworks ( http://arxiv.org/abs/2303.10310v2 )

ライセンス: Link先を確認
Firas Al-Hindawi, Md Mahfuzur Rahman Siddiquee, Teresa Wu, Han Hu, Ying Sun(参考訳) 画像を正確かつ効率的に分類する能力は、大きなラベル付きデータセットへのアクセスと、モデルがトレーニングされた同じドメインからのデータテストに依存する。 大規模なラベル付きデータセットを収集して、スクラッチから新しい分類器をトレーニングするドメインからの新しいデータを扱う場合、分類は時間がかかり、コストがかかり、時には不可能、あるいは不可能になる。 教師なし画像画像変換(UI2I)モデルを用いて、ラベルなし領域からラベル付き領域への入力画像の変換により、このデータ領域シフト問題に対処するクロスドメイン分類フレームワークを開発した。 これらの教師なしモデルの問題は、教師なしの性質にある。 アノテーションの欠如のため、従来の教師付きメトリクスを使用してこれらの翻訳モデルを評価し、最良のチェックポイントモデルを選択することはできない。 本稿では、人間の目から見た画像の品質の観点からモデルを評価するために設計されたFIDのような一般的なメトリクスとは対照的に、クロスドメイン分類アプリケーションをサポートするために設計されたPseudo Supervised Metricsと呼ばれる新しい手法を紹介する。 FIDのような教師なしのメトリクスよりも優れているだけでなく、真の教師なしのメトリクス、堅牢で説明可能なメトリクスと高い相関があることが示されています。 さらに,本研究を臨界実世界問題(沸騰危機問題)に適用することにより,今後の研究の標準指標として活用できることを実証する。

The ability to classify images accurately and efficiently is dependent on having access to large labeled datasets and testing on data from the same domain that the model is trained on. Classification becomes more challenging when dealing with new data from a different domain, where collecting a large labeled dataset and training a new classifier from scratch is time-consuming, expensive, and sometimes infeasible or impossible. Cross-domain classification frameworks were developed to handle this data domain shift problem by utilizing unsupervised image-to-image (UI2I) translation models to translate an input image from the unlabeled domain to the labeled domain. The problem with these unsupervised models lies in their unsupervised nature. For lack of annotations, it is not possible to use the traditional supervised metrics to evaluate these translation models to pick the best-saved checkpoint model. In this paper, we introduce a new method called Pseudo Supervised Metrics that was designed specifically to support cross-domain classification applications contrary to other typically used metrics such as the FID which was designed to evaluate the model in terms of the quality of the generated image from a human-eye perspective. We show that our metric not only outperforms unsupervised metrics such as the FID, but is also highly correlated with the true supervised metrics, robust, and explainable. Furthermore, we demonstrate that it can be used as a standard metric for future research in this field by applying it to a critical real-world problem (the boiling crisis problem).
翻訳日:2023-08-17 17:22:26 公開日:2023-08-15
# erm++: ドメインの一般化のためのベースラインの改善

ERM++: An Improved Baseline for Domain Generalization ( http://arxiv.org/abs/2304.01973v2 )

ライセンス: Link先を確認
Piotr Teterwak, Kuniaki Saito, Theodoros Tsiligkaridis, Kate Saenko, Bryan A. Plummer(参考訳) マルチソースドメイン一般化(DG)は、訓練されていないデータの新しい分布に一般化する分類器の能力を測定する。 いくつかのマルチソースDG手法が提案されているが、ドメインラベルを用いてトレーニング中にさらに複雑になる。 近年の研究では、経験的リスク最小化(ERM)トレーニングが、ソースドメインにおける経験的リスクを最小限に抑えるだけで、既存のDGメソッドよりも優れていることが示されている。 トレーニングデータのより良い利用、モデルパラメータの選択、重み空間の正規化など、EMMの性能を改善するためのいくつかの重要な候補手法を同定する。 提案手法はERM++と呼ばれ,従来のERMに比べて5つのマルチソースデータセット上でのDGの性能が5%以上向上し,計算コストが低いにもかかわらず最先端の手法に勝っていることを示す。 さらに、挑戦的なDGベンチマークであるWILDS-FMOWデータセット上で、ERM++の有効性を示す。 ERM++が将来のDG研究の強力なベースラインになることを願っています。 コードはhttps://github.com/piotr-teterwak/erm_plusplusでリリースされる。

Multi-source Domain Generalization (DG) measures a classifier's ability to generalize to new distributions of data it was not trained on, given several training domains. While several multi-source DG methods have been proposed, they incur additional complexity during training by using domain labels. Recent work has shown that a well-tuned Empirical Risk Minimization (ERM) training procedure, that is simply minimizing the empirical risk on the source domains, can outperform most existing DG methods. We identify several key candidate techniques to further improve ERM performance, such as better utilization of training data, model parameter selection, and weight-space regularization. We call the resulting method ERM++, and show it significantly improves the performance of DG on five multi-source datasets by over 5% compared to standard ERM, and beats state-of-the-art despite being less computationally expensive. Additionally, we demonstrate the efficacy of ERM++ on the WILDS-FMOW dataset, a challenging DG benchmark. We hope that ERM++ becomes a strong baseline for future DG research. Code is released at https://github.com/piotr-teterwak/erm_plusplus.
翻訳日:2023-08-17 17:12:57 公開日:2023-08-15
# 善良で再現可能な結果が粘土の足を持つ巨人である場合: nlpにおけるソフトウェア品質の重要性

When Good and Reproducible Results are a Giant with Feet of Clay: The Importance of Software Quality in NLP ( http://arxiv.org/abs/2303.16166v4 )

ライセンス: Link先を確認
Sara Papi, Marco Gaido, Andrea Pilzer, Matteo Negri(参考訳) 実験において重要な役割を担っているにもかかわらず、コードの正確性は結果の質に基づいてのみ推測される。 この仮定は誤った結果と潜在的に誤解を招く結果のリスクを伴う。 この問題に対処するため、我々は、再現性に焦点を合わせ、ソフトウェアの品質に重点を置くべきであると仮定する。 本稿では,最先端コンフォーマーアーキテクチャの実装で広く使用されている3つのバグを特定し,修正するケーススタディを提案する。 様々な言語における音声認識と翻訳の実験を通じて、バグの存在は、善良かつ再現可能な結果の達成を妨げないが、将来の研究を誤った結果に導く可能性があることを実証する。 この対策として,ニューラルモデルテスト専用のライブラリであるコード品質チェックリストとリリースパンゴリNNを提案し,コーディングベストプラクティスの促進とNLPコミュニティにおける研究ソフトウェア品質の向上を目標としている。

Despite its crucial role in research experiments, code correctness is often presumed only on the basis of the perceived quality of results. This assumption comes with the risk of erroneous outcomes and potentially misleading findings. To address this issue, we posit that the current focus on reproducibility should go hand in hand with the emphasis on software quality. We present a case study in which we identify and fix three bugs in widely used implementations of the state-of-the-art Conformer architecture. Through experiments on speech recognition and translation in various languages, we demonstrate that the presence of bugs does not prevent the achievement of good and reproducible results, which however can lead to incorrect conclusions that potentially misguide future research. As a countermeasure, we propose a Code-quality Checklist and release pangoliNN, a library dedicated to testing neural models, with the goal of promoting coding best practices and improving research software quality within the NLP community.
翻訳日:2023-08-17 17:11:35 公開日:2023-08-15
# duett: 電子健康記録用のデュアルイベントタイムトランスフォーマー

DuETT: Dual Event Time Transformer for Electronic Health Records ( http://arxiv.org/abs/2304.13017v2 )

ライセンス: Link先を確認
Alex Labach, Aslesha Pokhrel, Xiao Shi Huang, Saba Zuberi, Seung Eun Yi, Maksims Volkovs, Tomi Poutanen, Rahul G. Krishnan(参考訳) 病院で記録された電子健康記録(ehrs)は、通常、高いスパーシティと不規則な観察によって特徴づけられる幅広い数値時系列データを含んでいる。 このようなデータの効果的なモデリングは、時系列の性質、異なる種類の観測のセマンティックな関係、およびデータの空間構造における情報を活用する必要がある。 自己教師付きトランスフォーマーは、nlpやコンピュータビジョンの様々な構造化タスクにおいて優れた性能を示している。 しかし、多変量時系列データには、時間と記録されたイベントタイプという2次元にわたる構造化された関係が含まれており、時系列データへのトランスフォーマーの直接的な適用は、この異なる構造を利用しない。 セルフアテンション層の二次スケーリングは、適切な入力工学を使わずに入力シーケンスの長さを著しく制限することができる。 我々は,時間型とイベント型の両方の次元に対応するように設計されたトランスフォーマーの拡張であるduettアーキテクチャを紹介し,ehlデータからロバスト表現を生成する。 DuETTは、スパース時系列が一定の長さの正規シーケンスに変換される集約された入力を使用する。これにより、従来のERHトランスフォーマーモデルと比較して計算の複雑さが低下し、より重要なことに、より大きく深いニューラルネットワークの使用が可能になる。 モデル事前学習のためのリッチで情報的な信号を提供する自己教師型予測タスクを訓練すると、MIMIC-IVおよびPhystoNet-2012 EHRデータセットから得られた複数の下流タスクにおける最先端のディープラーニングモデルよりも優れる。

Electronic health records (EHRs) recorded in hospital settings typically contain a wide range of numeric time series data that is characterized by high sparsity and irregular observations. Effective modelling for such data must exploit its time series nature, the semantic relationship between different types of observations, and information in the sparsity structure of the data. Self-supervised Transformers have shown outstanding performance in a variety of structured tasks in NLP and computer vision. But multivariate time series data contains structured relationships over two dimensions: time and recorded event type, and straightforward applications of Transformers to time series data do not leverage this distinct structure. The quadratic scaling of self-attention layers can also significantly limit the input sequence length without appropriate input engineering. We introduce the DuETT architecture, an extension of Transformers designed to attend over both time and event type dimensions, yielding robust representations from EHR data. DuETT uses an aggregated input where sparse time series are transformed into a regular sequence with fixed length; this lowers the computational complexity relative to previous EHR Transformer models and, more importantly, enables the use of larger and deeper neural networks. When trained with self-supervised prediction tasks, that provide rich and informative signals for model pre-training, our model outperforms state-of-the-art deep learning models on multiple downstream tasks from the MIMIC-IV and PhysioNet-2012 EHR datasets.
翻訳日:2023-08-17 17:00:54 公開日:2023-08-15
# ロデオ投影の最適化

Optimizing rodeo projection ( http://arxiv.org/abs/2305.19952v3 )

ライセンス: Link先を確認
Thomas D. Cohen, Hyunwoo Oh(参考訳) ロデオアルゴリズムは、離散スペクトル系に対する固定エネルギー状態への与えられた初期状態の投影のための量子コンピューティングの効率的な方法として最近提案されている。 ロデオアルゴリズムの初期定式化では、これらの時間は固定されたrms時間を持つガウス分布を介してランダムに選択された。 本稿では,このような時間選択のランダムなアプローチは,不必要な成分の抑制の指数関数的に大きな変動に苦しむことを示し,反復数が大きくなるにつれて,ランダム選択から得られる抑制因子の分布が,非常に大きな変動をもたらすログ正規分布に近づくことを示した。 このようなゆらぎをランダムにではなく意図的に時間を選択することで回避でき、抑制の厳密な上限を得ることができることに注意する。 さらに、固定計算コストを用いた平均抑制は、ランダムアルゴリズムと比較して桁違いに小さくすることができる。 これを行うための鍵は、極端に最大スケールから指数関数的に小さなスケールへと、指数関数的に多くのスケールで変化する時間を選択することである。

The rodeo algorithm has been proposed recently as an efficient method in quantum computing for projection of a given initial state onto a state of fixed energy for systems with discrete spectra. In the initial formulation of the rodeo algorithm these times were chosen randomly via a Gaussian distribution with fixed RMS times. In this paper it is shown that such a random approach for choosing times suffers from exponentially large fluctuations in the suppression of unwanted components: as the number of iterations gets large, the distribution of suppression factors obtained from random selection approaches a log-normal distribution leading to remarkably large fluctuations. We note that by choosing times intentionally rather than randomly such fluctuations can be avoided and strict upper bounds on the suppression can be obtained. Moreover, the average suppression using fixed computational cost can be reduced by many orders of magnitude relative to the random algorithm. A key to doing this is to choose times that vary over exponentially many times scales, starting from a modest maximum scale and going down to time scales exponentially smaller.
翻訳日:2023-08-17 16:54:42 公開日:2023-08-15
# 光電子ホログラフィーにおける前方およびハイブリッド経路積分法:サブバリア補正、初期サンプリングおよび運動量マッピング

Forward and hybrid path-integral methods in photoelectron holography: sub-barrier corrections, initial sampling and momentum mapping ( http://arxiv.org/abs/2305.14501v2 )

ライセンス: Link先を確認
L. Cruz Rodriguez, T. Rook, B. B. Augstein, A. S. Maxwell, C. Figueira de Morisson Faria(参考訳) 本研究では,CQSFA(R-CQSFA)とH-CQSFA(H-CQSFA)の2つの強磁場経路積分法を構築した。 これらの手法は標準クーロン量子軌道強磁場近似 (cqsfa) と同じ出発点を持つが、それらの実装は軌道のダイナミクスを事前に知る必要はない。 これらの方法は超高速光電子ホログラフィーに応用される。 レートベース法では、電子軌道は前方に伝播し、準バリアクーロン補正を含むCQSFAから非断熱イオン化速度を導出し、初期軌道アンサンブルの重み付けに用いられる。 h-cqsfaでは、初期アンサンブルはその後の境界問題の初期推測を提供し、特定の運動量領域を包含または排除するのに役立つが、個々の軌道に関連するイオン化確率はサブバリア複素積分から計算される。 我々は,標準のCQSFA と \textit{ab-initio} メソッドとの比較を行い,CQSFA の標準的,純粋に境界型実装がトラジェクトリの全セットを排除していることを示す。 サブバリアクーロン補正により得られる光電子運動量分布(PMD)が広くなり,R-CQSFAとH-CQSFAとの整合性が向上することを示す。 異なる初期サンプリング分布, 等式, およびそれらがPMDに与える影響を探索する。 初期バイアスドサンプリングは高エネルギー領域における尾根の再散乱と干渉パターンを強調するが、初期一様サンプリングは電離閾値または偏光軸付近のホログラフィックパターンの正確なモデリングを保証する。 この結果は,異なる種類の干渉軌道に対する初期から最終モーメントマッピングを用いて説明される。

We construct two strong-field path integral methods with full Coulomb distortion, in which the quantum pathways are mimicked by interfering electron orbits: the rate-based CQSFA (R-CQSFA) and the hybrid forward-boundary CQSFA (H-CQSFA). The methods have the same starting point as the standard Coulomb quantum-orbit strong-field approximation (CQSFA), but their implementation does not require pre-knowledge of the orbits' dynamics. These methods are applied to ultrafast photoelectron holography. In the rate-based method, electron orbits are forward propagated and we derive a non-adiabatic ionization rate from the CQSFA, which includes sub-barrier Coulomb corrections and is used to weight the initial orbit ensemble. In the H-CQSFA, the initial ensemble provides initial guesses for a subsequent boundary problem and serves to include or exclude specific momentum regions, but the ionization probabilities associated with individual trajectories are computed from sub-barrier complex integrals. We perform comparisons with the standard CQSFA and \textit{ab-initio} methods, which show that the standard, purely boundary-type implementation of the CQSFA leaves out whole sets of trajectories. We show that the sub-barrier Coulomb corrections broaden the resulting photoelectron momentum distributions (PMDs) and improve the agreement of the R-CQSFA with the H-CQSFA and other approaches. We probe different initial sampling distributions, uniform and otherwise, and their influence on the PMDs. We find that initial biased sampling emphasizes rescattering ridges and interference patterns in high-energy ranges, while an initial uniform sampling guarantees accurate modeling of the holographic patterns near the ionization threshold or polarization axis. Our results are explained using the initial to final momentum mapping for different types of interfering trajectories.
翻訳日:2023-08-17 16:53:28 公開日:2023-08-15
# 大規模言語モデルにおける量子化器の理解:逆スケーリングのもう一つの例

Probing Quantifier Comprehension in Large Language Models: Another Example of Inverse Scaling ( http://arxiv.org/abs/2306.07384v2 )

ライセンス: Link先を確認
Akshat Gupta(参考訳) 大きな言語モデル(LLM)は、そのサイズが大きくなるにつれて、言語理解タスクがますます得意になってきています。 しかし、特定の下流タスクで高いパフォーマンスを発揮しても、llmはネゲーションや量子化子理解のための単純な言語テストに失敗する。 LLMにおける量化器の理解に関するこれまでの研究は、少数型量化器の理解における逆スケーリングを示している。 本稿では,先行研究の主張に疑問を呈し,不適切な検査手法の結果であることを示す。 また, LLMにおける量化器の理解度を測る別の手法を提案するとともに, LLMは, LLMの量化器のサイズが大きくなるにつれて, 少数型と最多型の量化器の意味の違いをよりよく理解できることを示した。 また、人間の心理言語実験や過去の研究とは対照的に、モデルのサイズが大きくなるにつれて、モデルが最多型の量化器を理解することは悪化する。 この評価は125M-175Bパラメータのモデルで行われており、LLMは量子化器では期待通りには行わないことを示唆している。 また、LLMにおける言語理解の評価における量化器理解の関連性についても論じる。

With their increasing size, large language models (LLMs) are becoming increasingly good at language understanding tasks. But even with high performance on specific downstream task, LLMs fail at simple linguistic tests for negation or quantifier understanding. Previous work on quantifier understanding in LLMs show inverse scaling in understanding few-type quantifiers. In this paper, we question the claims of of previous work and show that it is a result of inappropriate testing methodology. We also present alternate methods to measure quantifier comprehension in LLMs and show that LLMs are able to better understand the difference between the meaning of few-type and most-type quantifiers as their size increases, although they are not particularly good at it. We also observe inverse scaling for most-type quantifier understanding, which is contrary to human psycho-linguistic experiments and previous work, where the model's understanding of most-type quantifier gets worse as the model size increases. We do this evaluation on models ranging from 125M-175B parameters, which suggests that LLMs do not do as well as expected with quantifiers. We also discuss the possible reasons for this and the relevance of quantifier understanding in evaluating language understanding in LLMs.
翻訳日:2023-08-17 16:41:36 公開日:2023-08-15
# IP行列モデルにおけるクリロフ複雑性II

Krylov complexity in the IP matrix model II ( http://arxiv.org/abs/2308.07567v1 )

ライセンス: Link先を確認
Norihiro Iizuka, Mitsuhiro Nishida(参考訳) IP行列モデルにおけるクリロフ複雑性の解析を継続する。 前回の論文では、基本作用素に対して、クリロフ複雑性はゼロ温度で振動し成長しないことを示したが、無限温度の極限では、クリロフ複雑性は $\sim \exp\left( {\mathcal{O}\left( {\sqrt{t}}\right)} \right)$ として指数関数的に増加する。 クリロフの複雑性はゼロ温度の振動から無限温度の指数関数的な成長へとどのように変化するかを研究する。 低温では、スペクトル密度は無限ウィグナー半円の集まりとして近似される。 この無限分岐切断の集まりはランツォス係数に線形成長をもたらし、クリロフ複雑性の指数的成長を与えることを示した。 したがって、任意の非零温度のIPモデルは、グリーン関数が時間内にパワー則によって崩壊しても、クリロフ複雑性の指数関数的な成長を示す。 また、1/N^2$補正を考慮したIOP行列モデルにおけるランツォス係数とクリロフ複雑性についても検討する。 ここで、ランチョス係数は定数であり、クリロフ複雑性は予想通り指数関数的に増大しない。

We continue the analysis of the Krylov complexity in the IP matrix model. In a previous paper, for a fundamental operator, it was shown that at zero temperature, the Krylov complexity oscillates and does not grow, but in the infinite temperature limit, the Krylov complexity grows exponentially in time as $\sim \exp\left( {\mathcal{O}\left( {\sqrt{t}}\right)} \right)$. We study how the Krylov complexity changes from a zero-temperature oscillation to an infinite-temperature exponential growth. At low temperatures, the spectral density is approximated as collections of infinite Wigner semicircles. We showed that this infinite collection of branch cuts yields linear growth to the Lanczos coefficients and gives exponential growth of the Krylov complexity. Thus the IP model for any nonzero temperature shows exponential growth for the Krylov complexity even though the Green function decays by a power law in time. We also study the Lanczos coefficients and the Krylov complexity in the IOP matrix model taking into account the $1/N^2$ corrections. There, the Lanczos coefficients are constants and the Krylov complexity does not grow exponentially as expected.
翻訳日:2023-08-17 16:14:47 公開日:2023-08-15
# メタ認知プロンプトは大規模言語モデルの理解を改善する

Metacognitive Prompting Improves Understanding in Large Language Models ( http://arxiv.org/abs/2308.05342v2 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao(参考訳) 大規模言語モデル(llm)では、タスク固有のパフォーマンスが一貫して向上しており、主に効果的なプロンプト設計の影響を受けている。 LLMの推論能力は近年研究されているが、その理解能力のさらなる向上にはまだギャップが残っている。 本研究では,人間の内省的推論プロセスに触発されたメタ認知的プロンプト(mp)を提案する。 MPを用いることで、LLMは構造化された自己認識評価の体系的なシリーズを実行し、その膨大な固有の知識と新たな洞察を生かした。 我々の実験ではllama2, vicuna, palm, gpt-3.5, gpt-4の5つのllmを用いて,glueおよびsuperglueベンチマークによる汎用自然言語理解(nlu)タスクに適用した。 その結果、GPT-4は、ほとんどのタスクにおいて一貫して優れているが、MPを装備した PaLM はその性能レベルに近づいた。 さらに、モデルとデータセット全体において、MPは標準およびチェーンのプロンプトを含む既存のプロンプトメソッドを一貫して上回る。 本研究は、LLMの理解能力を増幅する可能性を強調し、NLUタスクにおける人間の内省的推論を反映する利点を強調した。

In Large Language Models (LLMs), there have been consistent advancements in task-specific performance, largely influenced by effective prompt design. While recent research on prompting has enhanced the reasoning capabilities of LLMs, a gap remains in further improving their understanding abilities. In this study, we introduce Metacognitive Prompting (MP), a strategy inspired by human introspective reasoning processes. Using MP, LLMs undergo a systematic series of structured, self-aware evaluations, drawing on both their vast inherent knowledge and new insights. Our experiments involve five prevalent LLMs: Llama2, Vicuna, PaLM, GPT-3.5, and GPT-4, all of which span various general natural language understanding (NLU) tasks from the GLUE and SuperGLUE benchmarks. Results indicate that, although GPT-4 consistently excels in most tasks, PaLM, when equipped with MP, approaches its performance level. Furthermore, across models and datasets, MP consistently outperforms existing prompting methods, including standard and chain-of-thought prompting. This study underscores the potential to amplify the understanding abilities of LLMs and highlights the benefits of mirroring human introspective reasoning in NLU tasks.
翻訳日:2023-08-17 16:14:24 公開日:2023-08-15
# PeRP: 協調諮問システムによる混雑軽減のための個人化残留政策

PeRP: Personalized Residual Policies For Congestion Mitigation Through Co-operative Advisory Systems ( http://arxiv.org/abs/2308.00864v2 )

ライセンス: Link先を確認
Aamir Hasan, Neeloy Chakraborty, Haonan Chen, Jung-Hoon Cho, Cathy Wu, Katherine Driggs-Campbell(参考訳) インテリジェントな運転システムは単純な行動を通じて渋滞を緩和し、通勤時間やガスコストといった社会経済的要因を改善できる。 しかし、これらのシステムは、自律車両群を正確に制御しており、人間の行動の不確実性を考慮していないため、実際には制限されている。 Piecewise Constant (PC) Policiesは、密集したシナリオにおける交通渋滞を減らすために、人間の運転に追従するアクションアドバイスを提供するために、人間の運転の類似性を構造的にモデル化することで、これらの問題に対処する。 しかし、PCのポリシーは全てのドライバーが同じように振る舞うと仮定している。 そこで本研究では,pc政策に基づく協調型アドバイザリーシステムを開発し,ドライバ特性条件付きパーソナライズド残余ポリシーperpを開発した。 PeRPは、交通渋滞を軽減する方法でドライバに振る舞うようにアドバイスする。 まず,変分オートエンコーダを用いた教師なしの命令の追従方法について,ドライバの固有特性を推定する。 そして、推定形質に規定されたポリシーがPCポリシーの動作に適応し、ドライバにパーソナライズされたレコメンデーションを提供する。 本システムでは,新しいドライバモデルによる命令遵守のシミュレーションを行う。 提案手法は,運転者の行動に適応しながら渋滞を軽減し,ベースラインよりも平均速度が4~22%向上することを示す。

Intelligent driving systems can be used to mitigate congestion through simple actions, thus improving many socioeconomic factors such as commute time and gas costs. However, these systems assume precise control over autonomous vehicle fleets, and are hence limited in practice as they fail to account for uncertainty in human behavior. Piecewise Constant (PC) Policies address these issues by structurally modeling the likeness of human driving to reduce traffic congestion in dense scenarios to provide action advice to be followed by human drivers. However, PC policies assume that all drivers behave similarly. To this end, we develop a co-operative advisory system based on PC policies with a novel driver trait conditioned Personalized Residual Policy, PeRP. PeRP advises drivers to behave in ways that mitigate traffic congestion. We first infer the driver's intrinsic traits on how they follow instructions in an unsupervised manner with a variational autoencoder. Then, a policy conditioned on the inferred trait adapts the action of the PC policy to provide the driver with a personalized recommendation. Our system is trained in simulation with novel driver modeling of instruction adherence. We show that our approach successfully mitigates congestion while adapting to different driver behaviors, with 4 to 22% improvement in average speed over baselines.
翻訳日:2023-08-17 16:12:33 公開日:2023-08-15
# エルミート保存マップ指数による非理学作用の実現

Realizing Non-Physical Actions through Hermitian-Preserving Map Exponentiation ( http://arxiv.org/abs/2308.07956v1 )

ライセンス: Link先を確認
Fuchuan Wei, Zhenhuan Liu, Guoding Liu, Zizhao Han, Xiongfeng Ma, Dong-Ling Deng, Zhengwei Liu(参考訳) 量子力学はコヒーレンスや絡み合いのような様々な異なる性質を特徴としており、情報処理における古典的手法に比べて潜在的に有利であることを示すことができる。 一般に、正則な量子演算は量子力学の原理、特に完全正の正とトレース保存の要求に従わなければならない。 それでも、非物理的写像、特にエルミート保存写像は量子情報科学において重要な役割を果たす。 現在、これらの非物理写像を量子デバイスで実装するための効果的な方法は存在しない。 本研究では,任意のエルミート保存マップの動作を量子過程に符号化することで効果的に実現できるエルミート保存マップ指数アルゴリズムを提案する。 サンプルの複雑さやロバスト性など,このアルゴリズムの性能を解析し,その最適性を証明する。 アダマールテストや量子位相推定などのアルゴリズムと組み合わせることで、エルミート保存マップの出力から情報と状態の生成を可能にし、様々な応用を可能にする。 正だが完全正の地図を用い、このアルゴリズムは、シングルコピー操作に基づくプロトコルと比較して、絡み合い検出と量子化において指数関数的な利点を提供する。 さらに、対応するノイズチャネルの逆写像を実装し、量子エラーを扱うための興味深いアプローチを提供し、ノイズ状態の複数のコピーからノイズのない量子状態の回復を容易にする。 本研究は, 量子デバイスによる非物理的動作を系統的かつ効率的に実装し, 幅広い情報処理タスクにおける潜在的な量子的優位性を探究する道筋を示す。

Quantum mechanics features a variety of distinct properties such as coherence and entanglement, which could be explored to showcase potential advantages over classical counterparts in information processing. In general, legitimate quantum operations must adhere to principles of quantum mechanics, particularly the requirements of complete positivity and trace preservation. Nonetheless, non-physical maps, especially Hermitian-preserving maps, play a crucial role in quantum information science. To date, there exists no effective method for implementing these non-physical maps with quantum devices. In this work, we introduce the Hermitian-preserving map exponentiation algorithm, which can effectively realize the action of an arbitrary Hermitian-preserving map by encoding its output into a quantum process. We analyze the performances of this algorithm, including its sample complexity and robustness, and prove its optimality in certain cases. When combined with algorithms such as the Hadamard test and quantum phase estimation, it allows for the extraction of information and generation of states from outputs of Hermitian-preserving maps, enabling various applications. Utilizing positive but not completely positive maps, this algorithm provides exponential advantages in entanglement detection and quantification compared to protocols based on single-copy operations. In addition, it facilitates the recovery of noiseless quantum states from multiple copies of noisy states by implementing the inverse map of the corresponding noise channel, offering an intriguing approach to handling quantum errors. Our findings present a pathway for systematically and efficiently implementing non-physical actions with quantum devices, thereby boosting the exploration of potential quantum advantages across a wide range of information processing tasks.
翻訳日:2023-08-17 16:05:46 公開日:2023-08-15
# APACE:AlphaFold2と生物物理学の発見を加速するサービスとしての高度なコンピューティング

APACE: AlphaFold2 and advanced computing as a service for accelerated discovery in biophysics ( http://arxiv.org/abs/2308.07954v1 )

ライセンス: Link先を確認
Hyun Park, Parth Patel, Roland Haas, E. A. Huerta(参考訳) アミノ酸配列からタンパク質3d構造の予測は生物物理学において大きな課題であり、薬物の発見からゲノム解析まで、ロバストなタンパク質構造予測アルゴリズムにおいて重要な役割を果たしている。 AlphaFoldのようなAIモデルの出現は、堅牢なタンパク質構造予測アルゴリズムに依存するアプリケーションに革命をもたらしている。 このAIモデルとTBサイズのデータベースを効果的に処理し、現代のスーパーコンピュータ環境で加速されたタンパク質構造予測分析を行う、新しい計算フレームワークであるAPACE、AlphaFold2、および高度なコンピューティング・アズ・ア・サービスを導入する。 デルタスーパーコンピュータにAPACEを配置し, 6AWO, 6OAN, 7MEZ, 6D6Uの4つの類似タンパク質を用いて, 正確なタンパク質構造予測の性能を定量化した。 最大200アンサンブルを使用して、Deltaの50ノードに分散し、200 A100 NVIDIA GPUに相当する結果、APACEは市販のAlphaFold2実装よりも最大2桁高速で、数週間から数分に短縮できることがわかった。 この計算手法は、科学的な発見を自動化し、加速するために、ロボット研究所と容易に関連付けられる。

The prediction of protein 3D structure from amino acid sequence is a computational grand challenge in biophysics, and plays a key role in robust protein structure prediction algorithms, from drug discovery to genome interpretation. The advent of AI models, such as AlphaFold, is revolutionizing applications that depend on robust protein structure prediction algorithms. To maximize the impact, and ease the usability, of these novel AI tools we introduce APACE, AlphaFold2 and advanced computing as a service, a novel computational framework that effectively handles this AI model and its TB-size database to conduct accelerated protein structure prediction analyses in modern supercomputing environments. We deployed APACE in the Delta supercomputer, and quantified its performance for accurate protein structure predictions using four exemplar proteins: 6AWO, 6OAN, 7MEZ, and 6D6U. Using up to 200 ensembles, distributed across 50 nodes in Delta, equivalent to 200 A100 NVIDIA GPUs, we found that APACE is up to two orders of magnitude faster than off-the-shelf AlphaFold2 implementations, reducing time-to-solution from weeks to minutes. This computational approach may be readily linked with robotics laboratories to automate and accelerate scientific discovery.
翻訳日:2023-08-17 16:05:20 公開日:2023-08-15
# ピック・プレイスにおける対称性の活用

Leveraging Symmetries in Pick and Place ( http://arxiv.org/abs/2308.07948v1 )

ライセンス: Link先を確認
Haojie Huang, Dian Wang, Arsh Tangri, Robin Walters, Robert Platt(参考訳) ロボットピックと配置タスクは、選択対象と所望の場所ポーズの両方の翻訳と回転の下で対称である。 例えば、ピックオブジェクトが回転または変換された場合、最適なピックアクションも回転または変換されるべきである。 同じことが、場所のポーズにも当てはまります。所望の場所のポーズが変わった場合、所望の場所のアクションもそれに応じて変化するべきです。 transporter netとして知られる最近提案されたpick and placeフレームワークは、これらの対称性の一部をキャプチャするが、すべてではない。 本稿では,平面式ロボットピック・アンド・プレイスに存在する対称性を解析的に研究し,すべての対称性を捉える方法でトランスポーターネットに同変ニューラルモデルを組み込む方法を提案する。 Equivariant Transporter Net と呼ばれる新しいモデルは、ピック・アンド・プレイス・対称性に同値であり、ピック・アンド・プレイス・ポーズに即座に知識を一般化することができる。 実験結果から,非対称型モデルよりもサンプル効率が良好であることを示し,様々な模倣学習タスクにおいて,人間によるごく少数のデモンストレーションを用いて,実演されたピック・アンド・プレース動作を模倣できるシステムを開発した。

Robotic pick and place tasks are symmetric under translations and rotations of both the object to be picked and the desired place pose. For example, if the pick object is rotated or translated, then the optimal pick action should also rotate or translate. The same is true for the place pose; if the desired place pose changes, then the place action should also transform accordingly. A recently proposed pick and place framework known as Transporter Net captures some of these symmetries, but not all. This paper analytically studies the symmetries present in planar robotic pick and place and proposes a method of incorporating equivariant neural models into Transporter Net in a way that captures all symmetries. The new model, which we call Equivariant Transporter Net, is equivariant to both pick and place symmetries and can immediately generalize pick and place knowledge to different pick and place poses. We evaluate the new model empirically and show that it is much more sample efficient than the non-symmetric version, resulting in a system that can imitate demonstrated pick and place behavior using very few human demonstrations on a variety of imitation learning tasks.
翻訳日:2023-08-17 16:04:40 公開日:2023-08-15
# トポロジカルデータ分析によるポートフォリオ選択

Portfolio Selection via Topological Data Analysis ( http://arxiv.org/abs/2308.07944v1 )

ライセンス: Link先を確認
Petr Sokerin, Kristian Kuznetsov, Elizaveta Makhneva, Alexey Zaytsev(参考訳) ポートフォリオマネジメントは投資決定の重要な部分です。 しかし、伝統的な手法は、しばしば合理的な性能を提供できない。 この問題は、これらの手法が株式市場の多変量時系列データのユニークな特徴を考慮できないことに起因する。 普通株の投資ポートフォリオを構築するための2段階の方法を提案する。 この方法は時系列表現の生成とその後のクラスタリングを含む。 提案手法では, トポロジカルデータ解析(TDA)に基づく特徴を表現の生成に利用し, データのトポロジカル構造を解明する。 実験の結果,提案システムは他の手法よりも優れていることがわかった。 この優れたパフォーマンスは、異なるタイムフレームに対して一貫性があり、ポートフォリオ選択の強力なツールとしてのtdaの有効性が示唆されている。

Portfolio management is an essential part of investment decision-making. However, traditional methods often fail to deliver reasonable performance. This problem stems from the inability of these methods to account for the unique characteristics of multivariate time series data from stock markets. We present a two-stage method for constructing an investment portfolio of common stocks. The method involves the generation of time series representations followed by their subsequent clustering. Our approach utilizes features based on Topological Data Analysis (TDA) for the generation of representations, allowing us to elucidate the topological structure within the data. Experimental results show that our proposed system outperforms other methods. This superior performance is consistent over different time frames, suggesting the viability of TDA as a powerful tool for portfolio selection.
翻訳日:2023-08-17 16:03:57 公開日:2023-08-15
# ニューラルネットワーク間のアナフォリック構造

Anaphoric Structure Emerges Between Neural Networks ( http://arxiv.org/abs/2308.07984v1 )

ライセンス: Link先を確認
Nicholas Edwards, Hannah Rohde, and Henry Conklin(参考訳) プラグマティクスは自然言語の中核であり、話者はエリプシスやアナフォラのような構造と効率的にコミュニケーションでき、意味を失うことなく発話を短縮できる。 これらの構造は、聞き手が不明瞭な形式(代名詞のように)を解釈し、話し手の意図する意味を推測することを要求する。 曖昧さをもたらす可能性があるにもかかわらず、アナフォラは人間の言語に共通している。 自然言語におけるアナフォリック構造の起源をよりよく理解するために、通信課題を解決するために訓練された人工ニューラルネットワーク間で類似構造が出現するかどうかを検討する。 まず、あいまいさの増加の可能性にもかかわらず、アナフォリック構造を持つ言語はニューラルモデルによって学習可能である。 第二に、追加の制約を必要とせずに、モデル間のアナフォリック構造が「自然に」現れる。 最後に、話者に明示的な効率の圧力を導入することで、これらの構造の普及が増加する。 我々は、特定の実用的構造は、明示的な効率のプレッシャーなしに、ニューラルネットワーク間で直接現れるが、話者とリスナーの競合するニーズは、その出現の度合いと性質を条件付けると結論付けた。

Pragmatics is core to natural language, enabling speakers to communicate efficiently with structures like ellipsis and anaphora that can shorten utterances without loss of meaning. These structures require a listener to interpret an ambiguous form - like a pronoun - and infer the speaker's intended meaning - who that pronoun refers to. Despite potential to introduce ambiguity, anaphora is ubiquitous across human language. In an effort to better understand the origins of anaphoric structure in natural language, we look to see if analogous structures can emerge between artificial neural networks trained to solve a communicative task. We show that: first, despite the potential for increased ambiguity, languages with anaphoric structures are learnable by neural models. Second, anaphoric structures emerge between models 'naturally' without need for additional constraints. Finally, introducing an explicit efficiency pressure on the speaker increases the prevalence of these structures. We conclude that certain pragmatic structures straightforwardly emerge between neural networks, without explicit efficiency pressures, but that the competing needs of speakers and listeners conditions the degree and nature of their emergence.
翻訳日:2023-08-17 15:55:29 公開日:2023-08-15
# ベイズ線形逆問題に対するモンテカルロ誘導拡散

Monte Carlo guided Diffusion for Bayesian linear inverse problems ( http://arxiv.org/abs/2308.07983v1 )

ライセンス: Link先を確認
Gabriel Cardoso, Yazid Janati El Idrissi, Sylvain Le Corff, Eric Moulines(参考訳) 前方計測モデルの知識を先行モデルと組み合わせた線形逆問題(Ill-posed linear inverse problem)は、計算写真から医用画像まで様々な応用で頻繁に発生する。 近年の研究では、特に塗装問題において、知覚可能な画像を生成するスコアベース生成モデル(SGM)を用いてこれらの問題を解決することに焦点が当てられている。 本研究では,SGMで定義された先行構造を,スコアベース拡散を構成するために用いられる前方拡散モデルから適応したFeynman-Kacモデルとしてベイズフレームワークの回復を定式化する。 このファインマン-カック問題を解くために、シークエンシャルモンテカルロ法(Sequential Monte Carlo method)を提案する。 提案アルゴリズムであるMCGdiffは理論的に基礎を成し,不測の逆問題に対処する際の競合するベースラインよりも優れていることを示す数値シミュレーションを行う。

Ill-posed linear inverse problems that combine knowledge of the forward measurement model with prior models arise frequently in various applications, from computational photography to medical imaging. Recent research has focused on solving these problems with score-based generative models (SGMs) that produce perceptually plausible images, especially in inpainting problems. In this study, we exploit the particular structure of the prior defined in the SGM to formulate recovery in a Bayesian framework as a Feynman--Kac model adapted from the forward diffusion model used to construct score-based diffusion. To solve this Feynman--Kac problem, we propose the use of Sequential Monte Carlo methods. The proposed algorithm, MCGdiff, is shown to be theoretically grounded and we provide numerical simulations showing that it outperforms competing baselines when dealing with ill-posed inverse problems.
翻訳日:2023-08-17 15:55:08 公開日:2023-08-15
# メタラーニングに基づく確率的風力予測への適応的アプローチ

An Adaptive Approach for Probabilistic Wind Power Forecasting Based on Meta-Learning ( http://arxiv.org/abs/2308.07980v1 )

ライセンス: Link先を確認
Zichao Meng, Ye Guo, and Hongbin Sun(参考訳) 本稿では,オフラインおよびオンライン学習を含む確率的風力発電予測(WPF)の適応的手法について検討する。 オフライン学習の段階では、ベース予測モデルをメタラーニングの内外ループ更新を通じてトレーニングし、異なる予測タスク、すなわち異なるリード時間や位置の確率的WPFに優れた適応性を持つベース予測モデルを実現する。 オンライン学習の段階では,オンライン予測と漸進的学習技術を組み合わせたベース予測モデルを適用する。 これに基づいて,オンライン予測は,最近の情報とベース予測モデルの適応性をフル活用する。 提案手法は,それぞれ異なるリードタイム(時間適応)と新たに確立した風力発電(空間適応)の予測に基いて開発されている。 実世界の風力データを用いて数値実験を行った。 シミュレーションの結果,提案手法の適応性の利点を既存手法と比較して検証した。

This paper studies an adaptive approach for probabilistic wind power forecasting (WPF) including offline and online learning procedures. In the offline learning stage, a base forecast model is trained via inner and outer loop updates of meta-learning, which endows the base forecast model with excellent adaptability to different forecast tasks, i.e., probabilistic WPF with different lead times or locations. In the online learning stage, the base forecast model is applied to online forecasting combined with incremental learning techniques. On this basis, the online forecast takes full advantage of recent information and the adaptability of the base forecast model. Two applications are developed based on our proposed approach concerning forecasting with different lead times (temporal adaptation) and forecasting for newly established wind farms (spatial adaptation), respectively. Numerical tests were conducted on real-world wind power data sets. Simulation results validate the advantages in adaptivity of the proposed methods compared with existing alternatives.
翻訳日:2023-08-17 15:54:55 公開日:2023-08-15
# ヨダ: エリアを混乱させるだけです。 画像超解像に対する領域共振拡散法

YODA: You Only Diffuse Areas. An Area-Masked Diffusion Approach For Image Super-Resolution ( http://arxiv.org/abs/2308.07977v1 )

ライセンス: Link先を確認
Brian B. Moser, Stanislav Frolov, Federico Raue, Sebastian Palacio and Andreas Dengel(参考訳) 本研究は, 単一画像超解法(SISR)における部分拡散法である「You Only Diffuse Areas」(YODA)を紹介する。 中心となる考え方は,低解像度画像からの注目マップと拡散過程における現在の時間ステップに基づいて,空間領域での拡散を選択的に利用することである。 この時間依存のターゲティングは、反復的なリファインメントプロセス、すなわち詳細リッチなオブジェクトから最も恩恵を受ける領域にフォーカスすることで、より効果的な高分解能出力への変換を可能にする。 拡散型SISR法 SR3 と SRDiff を拡張して YODA を実証的に検証した。 実験ではPSNR, SSIM, LPIPS測定値にまたがって, 対面および一般SRの性能向上を示す。 注目すべき発見は、yodaのトレーニングに対する安定化効果であり、特に小さなバッチサイズによって引き起こされる場合、リソース制約されたシナリオに寄与する可能性がある。 提案した空間的・時間的適応拡散機構は,注目マップ抽出技術の開発やスペーサー拡散に基づく推論遅延の最適化など,有望な研究方向を開く。

This work introduces "You Only Diffuse Areas" (YODA), a novel method for partial diffusion in Single-Image Super-Resolution (SISR). The core idea is to utilize diffusion selectively on spatial regions based on attention maps derived from the low-resolution image and the current time step in the diffusion process. This time-dependent targeting enables a more effective conversion to high-resolution outputs by focusing on areas that benefit the most from the iterative refinement process, i.e., detail-rich objects. We empirically validate YODA by extending leading diffusion-based SISR methods SR3 and SRDiff. Our experiments demonstrate new state-of-the-art performance gains in face and general SR across PSNR, SSIM, and LPIPS metrics. A notable finding is YODA's stabilization effect on training by reducing color shifts, especially when induced by small batch sizes, potentially contributing to resource-constrained scenarios. The proposed spatial and temporal adaptive diffusion mechanism opens promising research directions, including developing enhanced attention map extraction techniques and optimizing inference latency based on sparser diffusion.
翻訳日:2023-08-17 15:54:41 公開日:2023-08-15
# 「欺くこと」:半真実を検知し、制御されたクレーム編集によってそれを非難する

"Beware of deception": Detecting Half-Truth and Debunking it through Controlled Claim Editing ( http://arxiv.org/abs/2308.07973v1 )

ライセンス: Link先を確認
Sandeep Singamsetty, Nishtha Madaan, Sameep Mehta, Varad Bhatnagar, Pushpak Bhattacharyya(参考訳) 真実はあるものの、究極的には偽りの表現である半真実の流行は、インターネットの利用の増加とともに高まっている。 この問題に対処するため,我々は,半真実検出モデルとクレーム編集モデルからなる包括的なパイプラインを構築した。 提案手法では,制御されたクレーム編集にT5モデルを用いる。 提案手法では,平均bleuスコア0.88(0-1スケール),disinfo-debunkスコア85%を編集クレームで達成した。 特に、t5ベースのアプローチは、gpt2、roberta、pegasus、tailorといった他の言語モデルよりも優れており、disinfo-debunkスコアの平均的な改善は82%、57%、42%、そして23%であった。 LIAR PLUSデータセットを拡張することで、半トラック検出モデルのF1スコアが82%に達し、フィールドに新しいベンチマークが設定される。 これまでの半真理検出の試みはあったが、私たちのアプローチは、私たちの知る限りでは、初めて半真理を解き明かす試みである。

The prevalence of half-truths, which are statements containing some truth but that are ultimately deceptive, has risen with the increasing use of the internet. To help combat this problem, we have created a comprehensive pipeline consisting of a half-truth detection model and a claim editing model. Our approach utilizes the T5 model for controlled claim editing; "controlled" here means precise adjustments to select parts of a claim. Our methodology achieves an average BLEU score of 0.88 (on a scale of 0-1) and a disinfo-debunk score of 85% on edited claims. Significantly, our T5-based approach outperforms other Language Models such as GPT2, RoBERTa, PEGASUS, and Tailor, with average improvements of 82%, 57%, 42%, and 23% in disinfo-debunk scores, respectively. By extending the LIAR PLUS dataset, we achieve an F1 score of 82% for the half-truth detection model, setting a new benchmark in the field. While previous attempts have been made at half-truth detection, our approach is, to the best of our knowledge, the first to attempt to debunk half-truths.
翻訳日:2023-08-17 15:54:19 公開日:2023-08-15
# MultiSChuBERT: 文書品質予測のための効果的なマルチモーダル融合

MultiSChuBERT: Effective Multimodal Fusion for Scholarly Document Quality Prediction ( http://arxiv.org/abs/2308.07971v1 )

ライセンス: Link先を確認
Gideon Maillette de Buy Wenniger, Thomas van Dongen, Lambert Schomaker(参考訳) 学術文書の品質の自動評価は, 潜在的影響が大きい課題である。 マルチモーダル、特にテキストの横に視覚情報を追加することで、学術文書品質予測(SDQP)タスクの性能を向上させることが示されている。 マルチモーダル予測モデルであるMultiSChuBERTを提案する。 Inception V3に基づく視覚モデルと、全文のチャンキングと計算されたBERTチャンクエンコーディング(SChuBERT)に基づくテキストモデルを組み合わせることで、SDQPにおける現在の最先端技術に3つの方法で貢献する。 まず,視覚とテキストの埋め込みを組み合わせる手法が,結果に大きな影響を及ぼすことを示す。 第2に,視覚サブモデルの重みの段階的凍結が,データに適合する傾向を減少させ,結果を改善することを実証する。 第3に、標準のbert$_{\textrm{base}}$embedsを最新の最先端テキスト埋め込みモデルに置き換える際に、マルチモダリティの持つ利点を示す。 BERT$_{\textrm{BASE}}$ embeddeddings, on the (log) number of citations prediction task with the ACL-BiblioMetry dataset, our MultiSChuBERT (text+visual) model obtained a $R^{2}$ score of 0.454 than the SChuBERT (text only) model。 PeerReadcept/reject予測タスクでも同様の改善が加えられている。 SciBERT, scincl, SPECTER, SPECTER2.0 の埋め込みを用いた実験では、それぞれの組み込みが標準 BERT$_{\textrm{BASE}}$ の埋め込みよりも改善され、SPECTER2.0 の埋め込みが最善であることを示す。

Automatic assessment of the quality of scholarly documents is a difficult task with high potential impact. Multimodality, in particular the addition of visual information next to text, has been shown to improve the performance on scholarly document quality prediction (SDQP) tasks. We propose the multimodal predictive model MultiSChuBERT. It combines a textual model based on chunking full paper text and aggregating computed BERT chunk-encodings (SChuBERT), with a visual model based on Inception V3.Our work contributes to the current state-of-the-art in SDQP in three ways. First, we show that the method of combining visual and textual embeddings can substantially influence the results. Second, we demonstrate that gradual-unfreezing of the weights of the visual sub-model, reduces its tendency to ovefit the data, improving results. Third, we show the retained benefit of multimodality when replacing standard BERT$_{\textrm{BASE}}$ embeddings with more recent state-of-the-art text embedding models. Using BERT$_{\textrm{BASE}}$ embeddings, on the (log) number of citations prediction task with the ACL-BiblioMetry dataset, our MultiSChuBERT (text+visual) model obtains an $R^{2}$ score of 0.454 compared to 0.432 for the SChuBERT (text only) model. Similar improvements are obtained on the PeerRead accept/reject prediction task. In our experiments using SciBERT, scincl, SPECTER and SPECTER2.0 embeddings, we show that each of these tailored embeddings adds further improvements over the standard BERT$_{\textrm{BASE}}$ embeddings, with the SPECTER2.0 embeddings performing best.
翻訳日:2023-08-17 15:53:54 公開日:2023-08-15
# ミラーレスレーザー:理論的な展望

Mirrorless lasing: a theoretical perspective ( http://arxiv.org/abs/2308.07969v1 )

ライセンス: Link先を確認
Aneesh Ramaswamy, Jabir Chathanathil, Dimitra Kanta, Emmanuel Klinger, Aram Papoyan, Svetlana Shmavonyan, Aleksandr Khanbekyan, Arne Wickenbrock, Dmitry Budker, Svetlana A. Malinovskaya(参考訳) ミラーレスラシングは、量子科学と応用に期待できる新しい地平線のために、約10年間、特に関心を集めてきた。 本研究では, この現象を説明する第一原理理論を概説し, rb原子の蒸気中における縮退ミラーレス発振, 媒質中で発生した光増幅機構と, $d_2$ ライン内の磁気サブレベル間の集団反転, 実験的実現に関する課題について論じる。

Mirrorless lasing has been a topic of particular interest for about a decade due to promising new horizons for quantum science and applications. In this work, we review first-principles theory that describes this phenomenon, and discuss degenerate mirrorless lasing in a vapor of Rb atoms, the mechanisms of amplification of light generated in the medium with population inversion between magnetic sublevels within the $D_2$ line, and challenges associated with experimental realization.
翻訳日:2023-08-17 15:53:14 公開日:2023-08-15
# LLMのパーソナライズ教育--執筆教育に触発されたアプローチ

Teach LLMs to Personalize -- An Approach inspired by Writing Education ( http://arxiv.org/abs/2308.07968v1 )

ライセンス: Link先を確認
Cheng Li, Mingyang Zhang, Qiaozhu Mei, Yaqing Wang, Spurthi Amba Hombaiah, Yi Liang, Michael Bendersky(参考訳) パーソナライズされたテキスト生成は、近年注目を集めている新たな研究分野である。 この方向のほとんどの研究は、好ましくない特徴やモデルを設計することによって特定の領域に焦点を当てている。 本研究では,大規模言語モデル(LLM)を用いたパーソナライズされたテキスト生成手法を提案する。 教育実践に触発されて,多段階多タスクフレームワークを開発し,個人化世代にllmを教える。 インストラクションを書く際に、ソースから書くタスクは、情報の発見、評価、要約、合成、統合を含む複数のステップに分解されることが多い。 同様に、パーソナライズされたテキスト生成へのアプローチは、検索、ランキング、要約、合成、生成という複数の段階からなる。 さらに,学生の読解能力と書字能力が相関することが多い教育における観察から着想を得たマルチタスク・セッティングを導入する。 我々は3つのパブリックデータセットに対するアプローチを評価し、それぞれが異なる代表領域をカバーする。 以上の結果から, 各種のベースラインに対して有意な改善が得られた。

Personalized text generation is an emerging research area that has attracted much attention in recent years. Most studies in this direction focus on a particular domain by designing bespoke features or models. In this work, we propose a general approach for personalized text generation using large language models (LLMs). Inspired by the practice of writing education, we develop a multistage and multitask framework to teach LLMs for personalized generation. In writing instruction, the task of writing from sources is often decomposed into multiple steps that involve finding, evaluating, summarizing, synthesizing, and integrating information. Analogously, our approach to personalized text generation consists of multiple stages: retrieval, ranking, summarization, synthesis, and generation. In addition, we introduce a multitask setting that helps the model improve its generation ability further, which is inspired by the observation in education that a student's reading proficiency and writing ability are often correlated. We evaluate our approach on three public datasets, each of which covers a different and representative domain. Our results show significant improvements over a variety of baselines.
翻訳日:2023-08-17 15:53:05 公開日:2023-08-15
# ブラインド顔復元による品質横断顔認証の強化

Boosting Cross-Quality Face Verification using Blind Face Restoration ( http://arxiv.org/abs/2308.07967v1 )

ライセンス: Link先を確認
Messaoud Bengherabi, Douaa Laib, Fella Souhila Lasnami, Ryma Boussaha(参考訳) 近年,様々なブラインドフェイス修復(bfr)技術が開発されている。 これらの技術は、複数の劣化に苦しむ低品質の顔から、知覚品質の高いよりリアルで自然な顔画像へと変換する。 しかし, 顔認証の課題は, 低画質画像の知覚品質を高めるだけでなく, バイオメトリック・ユーティリティーの顔品質指標を改善することが重要である。 さらに、価値あるアイデンティティ情報を保存することが非常に重要である。 本稿では, GFP-GAN, GPEN, SGPNという最先端のブラインドフェイス修復技術が, 極めて低画質の画像が特徴とする難易度環境下での顔認証システムの性能に与える影響について検討する。 近年提案された3つの最先端深層顔認識モデルを用いたクロスクオリティlfwデータベースの広範な実験結果から,gfp-ganが顔認証精度を著しく向上させる効果が示された。

In recent years, various Blind Face Restoration (BFR) techniques were developed. These techniques transform low quality faces suffering from multiple degradations to more realistic and natural face images with high perceptual quality. However, it is crucial for the task of face verification to not only enhance the perceptual quality of the low quality images but also to improve the biometric-utility face quality metrics. Furthermore, preserving the valuable identity information is of great importance. In this paper, we investigate the impact of applying three state-of-the-art blind face restoration techniques namely, GFP-GAN, GPEN and SGPN on the performance of face verification system under very challenging environment characterized by very low quality images. Extensive experimental results on the recently proposed cross-quality LFW database using three state-of-the-art deep face recognition models demonstrate the effectiveness of GFP-GAN in boosting significantly the face verification accuracy.
翻訳日:2023-08-17 15:52:48 公開日:2023-08-15
# モンテカルロから見た化学・物理学応用のための量子コンピューティング

Quantum computing for chemistry and physics applications from a Monte Carlo perspective ( http://arxiv.org/abs/2308.07964v1 )

ライセンス: Link先を確認
Guglielmo Mazzola(参考訳) この観点は、物理学と化学の分野における量子アルゴリズムとモンテカルロ法の間の重複に焦点をあてる。 我々は、確立された量子モンテカルロ解を量子アルゴリズムに統合する課題と可能性を分析する。 これには、洗練されたエネルギー推定器、パラメータ最適化、実時間および虚数時間ダイナミクス、変動回路が含まれる。 逆に、量子ハードウェアを利用して統計古典モデルのサンプリングを加速する新しいアイデアを、物理学、化学、最適化、機械学習への応用とともにレビューする。 このレビューは,量子コンピューティングとモンテカルロ法の交点における,さらなるアルゴリズム開発を促進することを目的としている。 この視点で議論された研究の多くは過去2年以内に現れており、この将来性のある研究分野への関心が急速に高まっていることを示している。

This Perspective focuses on the several overlaps between quantum algorithms and Monte Carlo methods in the domains of physics and chemistry. We will analyze the challenges and possibilities of integrating established quantum Monte Carlo solutions in quantum algorithms. These include refined energy estimators, parameter optimization, real and imaginary-time dynamics, and variational circuits. Conversely, we will review new ideas in utilizing quantum hardware to accelerate the sampling in statistical classical models, with applications in physics, chemistry, optimization, and machine learning. This review aims to be accessible to both communities and intends to foster further algorithmic developments at the intersection of quantum computing and Monte Carlo methods. Most of the works discussed in this Perspective have emerged within the last two years, indicating a rapidly growing interest in this promising area of research.
翻訳日:2023-08-17 15:52:30 公開日:2023-08-15
# 多言語ニューラル表現を用いたエンドツーエンドオープン語彙検索

End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations ( http://arxiv.org/abs/2308.08027v1 )

ライセンス: Link先を確認
Bolaji Yusuf, Jan Cernocky, Murat Saraclar(参考訳) 従来のキーワード検索システムは自動音声認識(ASR)出力で動作し、複雑なインデックス付けと検索パイプラインを持つ。 これにより、検索手順を簡素化するASRフリーアプローチへの関心が高まった。 我々は最近,クエリとドキュメントを2つの繰り返しニューラルネットワークエンコーダでエンコードし,そのエンコーディングをドット積と組み合わせた,効率的かつ簡易なパイプラインを維持しながら,競争性能を実現するニューラルネットワークASRフリーキーワード検索モデルを提案した。 本稿では,本研究を多言語事前学習と詳細なモデル解析により拡張する。 本実験では,多言語学習がモデル性能を大幅に向上し,語彙内単語を含む短いクエリやクエリに対して,強いasrベースの従来型キーワード検索システムと一致しないにも関わらず,学習データに現れない長文クエリやクエリのasrベースシステムを上回ることを示す。

Conventional keyword search systems operate on automatic speech recognition (ASR) outputs, which causes them to have a complex indexing and search pipeline. This has led to interest in ASR-free approaches to simplify the search procedure. We recently proposed a neural ASR-free keyword search model which achieves competitive performance while maintaining an efficient and simplified pipeline, where queries and documents are encoded with a pair of recurrent neural network encoders and the encodings are combined with a dot-product. In this article, we extend this work with multilingual pretraining and detailed analysis of the model. Our experiments show that the proposed multilingual training significantly improves the model performance and that despite not matching a strong ASR-based conventional keyword search system for short queries and queries comprising in-vocabulary words, the proposed model outperforms the ASR-based system for long queries and queries that do not appear in the training data.
翻訳日:2023-08-17 15:44:44 公開日:2023-08-15
# 量子経済の潜在エネルギー利用

Potential Energy Advantage of Quantum Economy ( http://arxiv.org/abs/2308.08025v1 )

ライセンス: Link先を確認
Junyu Liu, Hansheng Jiang, Zuo-Jun Max Shen(参考訳) エネルギーコストは、大規模機械学習モデルと言語モデルの幅広い展開によって、現代のコンピューティング業界でますます重要になっている。 コンピューティングサービスを提供する企業にとって、エネルギー消費の低さは、自国の市場成長と政府の規制の両方の観点から重要である。 本稿では、古典的計算における量子コンピューティングのエネルギー効果について考察する。 計算複雑性のみに基づく従来の量子優位の概念から逸脱し、エネルギー効率の文脈で優位性を再定義する。 エネルギー利用に制約のあるクールノ・コンペティション・モデルを通じて,ナッシュ均衡において,量子コンピューティング企業が従来のコンペティタよりも利益率とエネルギー効率を上回ることができることを実証する。 したがって、量子コンピューティングはコンピューティング業界にとってより持続可能な経路となるかもしれない。 さらに,量子コンピューティング経済のエネルギー効果が大規模計算に寄与していることが判明した。 実際の物理パラメータに基づき、このエネルギー効率の利点を実現するために必要な運用規模をさらに説明する。

Energy cost is increasingly crucial in the modern computing industry with the wide deployment of large-scale machine learning models and language models. For the firms that provide computing services, low energy consumption is important both from the perspective of their own market growth and the government's regulations. In this paper, we study the energy benefits of quantum computing vis-a-vis classical computing. Deviating from the conventional notion of quantum advantage based solely on computational complexity, we redefine advantage in an energy efficiency context. Through a Cournot competition model constrained by energy usage, we demonstrate quantum computing firms can outperform classical counterparts in both profitability and energy efficiency at Nash equilibrium. Therefore quantum computing may represent a more sustainable pathway for the computing industry. Moreover, we discover that the energy benefits of quantum computing economies are contingent on large-scale computation. Based on real physical parameters, we further illustrate the scale of operation necessary for realizing this energy efficiency advantage.
翻訳日:2023-08-17 15:44:27 公開日:2023-08-15
# Stackelberg Trajectory Gamesにおけるアクティブ逆学習

Active Inverse Learning in Stackelberg Trajectory Games ( http://arxiv.org/abs/2308.08017v1 )

ライセンス: Link先を確認
Yue Yu, Jacob Levy, Negar Mehr, David Fridovich-Keil, and Ufuk Topcu(参考訳) ゲーム理論の逆学習は、プレイヤーの行動から目的を推測する問題である。 リーダーと追従者の間のスタックルバーグゲームにおける逆学習問題を定式化し、各プレイヤーの行動が力学系の軌跡となる。 本稿では,有限個の候補のうちどの仮説がフォロワーの目的関数を記述しているかを推定する,リーダーの能動的逆学習法を提案する。 提案手法では,従来の手法のように受動的に観測された軌跡を用いるのではなく,異なる仮説の下での従者の軌跡の違いを積極的に最大化し,リーダーの推測を加速する。 提案手法を,後退水平反復軌道ゲームで実証する。 一様ランダム入力と比較して,提案手法により得られたリーダ入力は,従者の軌道上で条件付けられた異なる仮説の確率の収束を桁々に促進する。

Game-theoretic inverse learning is the problem of inferring the players' objectives from their actions. We formulate an inverse learning problem in a Stackelberg game between a leader and a follower, where each player's action is the trajectory of a dynamical system. We propose an active inverse learning method for the leader to infer which hypothesis among a finite set of candidates describes the follower's objective function. Instead of using passively observed trajectories like existing methods, the proposed method actively maximizes the differences in the follower's trajectories under different hypotheses to accelerate the leader's inference. We demonstrate the proposed method in a receding-horizon repeated trajectory game. Compared with uniformly random inputs, the leader inputs provided by the proposed method accelerate the convergence of the probability of different hypotheses conditioned on the follower's trajectory by orders of magnitude.
翻訳日:2023-08-17 15:44:13 公開日:2023-08-15
# Shortcut-V2V:時間冗長化に基づくビデオ間翻訳のための圧縮フレームワーク

Shortcut-V2V: Compression Framework for Video-to-Video Translation based on Temporal Redundancy Reduction ( http://arxiv.org/abs/2308.08011v1 )

ライセンス: Link先を確認
Chaeyeon Chung, Yeojeong Park, Seunghwan Choi, Munkhsoyol Ganbat, Jaegul Choo(参考訳) ビデオからビデオへの変換は、入力ビデオから対象領域のビデオフレームを生成することを目的としている。 その有用性にもかかわらず、既存のネットワークは膨大な計算を必要とするため、モデル圧縮を広範囲に利用する必要がある。 様々な映像・映像タスクの計算効率を向上する圧縮法は存在するが、ビデオ間翻訳の一般的な圧縮法はあまり研究されていない。 これに対して,ビデオ間翻訳のための汎用圧縮フレームワークであるShortcut-V2Vを提案する。 shourcut-v2vは、従来のフレームから現在のフレームの中間特性を近似することにより、隣り合う全てのビデオフレームの完全な推論を回避する。 さらに,本フレームワークでは,AdaBDと呼ばれるブロックが隣接フレームの特徴を適応的にブレンドして変形し,中間特徴のより正確な予測を可能にする。 我々は,様々なタスクにおいて,よく知られたビデオからビデオへの翻訳モデルを用いて定量的・質的評価を行い,フレームワークの汎用性を示す。 結果から,Shourcut-V2Vは従来のビデオ間翻訳モデルと比較して,3.2~5.7倍,テスト時に7.8~44倍のメモリを節約できることがわかった。

Video-to-video translation aims to generate video frames of a target domain from an input video. Despite its usefulness, the existing networks require enormous computations, necessitating their model compression for wide use. While there exist compression methods that improve computational efficiency in various image/video tasks, a generally-applicable compression method for video-to-video translation has not been studied much. In response, we present Shortcut-V2V, a general-purpose compression framework for video-to-video translation. Shourcut-V2V avoids full inference for every neighboring video frame by approximating the intermediate features of a current frame from those of the previous frame. Moreover, in our framework, a newly-proposed block called AdaBD adaptively blends and deforms features of neighboring frames, which makes more accurate predictions of the intermediate features possible. We conduct quantitative and qualitative evaluations using well-known video-to-video translation models on various tasks to demonstrate the general applicability of our framework. The results show that Shourcut-V2V achieves comparable performance compared to the original video-to-video translation model while saving 3.2-5.7x computational cost and 7.8-44x memory at test time.
翻訳日:2023-08-17 15:44:00 公開日:2023-08-15
# GRINN: 自己重力下での流体力学系を解く物理インフォームドニューラルネットワーク

GRINN: A Physics-Informed Neural Network for solving hydrodynamic systems in the presence of self-gravity ( http://arxiv.org/abs/2308.08010v1 )

ライセンス: Link先を確認
Sayantan Auddy, Ramit Dey, Neal J. Turner, Shantanu Basu(参考訳) 自己重力ガス流のモデリングは、天体物理学における多くの基本的な質問に答えるために不可欠である。 これは、惑星形成円盤、星形成雲、銀河形成、宇宙における大規模構造の発展など、多くのトピックにまたがる。 しかし、重力と流体力学の間の非線形相互作用は、結果として生じる時間依存偏微分方程式(pdes)を3次元(3d)で解くための大きな挑戦を与える。 メッシュのないフレームワーク内でのニューラルネットワークの普遍的な近似機能を活用することで、物理情報ニューラルネットワーク(PINN)はこの課題に対処する新たな方法を提供する。 本稿では,重力インフォームドニューラルネットワーク(GRINN)を導入し,3次元自己重力型流体力学系をシミュレーションする。 ここでは,等温気体中の重力不安定性と波動伝播を特に研究する。 この結果は,線形レジーム内の線形解析解が1\%以内に,従来のグリッド符号解が5\%以内に一致し,外乱が非線形レジームに成長する。 グリンの計算時間は次元数ではスケールしないことがわかった。 これは、次元数の増加に伴い、流体力学および自己重力計算のためのグリッドベースのコードのスケーリングとは対照的である。 その結果,GRINNの計算時間は1次元および2次元の計算ではグリッドコードよりも長いが,同じ精度で3次元のグリッドコードよりも桁違いに小さいことがわかった。 したがって、gnnのような物理に変形したニューラルネットワークは、3d天体フローをモデル化する能力の進歩を期待できる。

Modeling self-gravitating gas flows is essential to answering many fundamental questions in astrophysics. This spans many topics including planet-forming disks, star-forming clouds, galaxy formation, and the development of large-scale structures in the Universe. However, the nonlinear interaction between gravity and fluid dynamics offers a formidable challenge to solving the resulting time-dependent partial differential equations (PDEs) in three dimensions (3D). By leveraging the universal approximation capabilities of a neural network within a mesh-free framework, physics informed neural networks (PINNs) offer a new way of addressing this challenge. We introduce the gravity-informed neural network (GRINN), a PINN-based code, to simulate 3D self-gravitating hydrodynamic systems. Here, we specifically study gravitational instability and wave propagation in an isothermal gas. Our results match a linear analytic solution to within 1\% in the linear regime and a conventional grid code solution to within 5\% as the disturbance grows into the nonlinear regime. We find that the computation time of the GRINN does not scale with the number of dimensions. This is in contrast to the scaling of the grid-based code for the hydrodynamic and self-gravity calculations as the number of dimensions is increased. Our results show that the GRINN computation time is longer than the grid code in one- and two- dimensional calculations but is an order of magnitude lesser than the grid code in 3D with similar accuracy. Physics-informed neural networks like GRINN thus show promise for advancing our ability to model 3D astrophysical flows.
翻訳日:2023-08-17 15:43:39 公開日:2023-08-15
# 複雑なnexusをナビゲートする:政治情勢におけるサイバーセキュリティ

Navigating the complex nexus: cybersecurity in political landscapes ( http://arxiv.org/abs/2308.08005v1 )

ライセンス: Link先を確認
Mike Nkongolo(参考訳) 政治におけるサイバーセキュリティは、技術、ガバナンス、国際関係を交わす、重要かつ複雑な領域として現れてきた。 この相互接続されたデジタルの文脈では、政治的実体は機密データを保護し、民主的な手続きを維持し、サイバー脅威に対抗するための無論の課題に直面する。 本研究は,多面的な政治サイバーセキュリティの展望を探究し,サイバー攻撃の進展状況,政治的安定への影響,デジタルレジリエンスの強化戦略について検討した。 国家が支援するハッキング、不正情報キャンペーン、公共の信頼を損なう行為は、政治システムの完全性を保護するための強固なサイバーセキュリティ対策の要点である。 現実世界のケーススタディ、政策枠組み、協力的イニシアチブの広範な調査を通じて、この研究は、技術的な脆弱性、地政学、政治におけるサイバーセキュリティのダイナミックな進化を形作る倫理的懸念の複雑なネットワークを照らしている。 デジタル環境の進化の中で、アジャイルとプリエンプティブなサイバーセキュリティ戦略の衝動は、政治機関の安定性と信頼性を高める上で最重要である。

Cybersecurity in politics has emerged as a critical and intricate realm intersecting technology, governance, and international relations. In this interconnected digital context, political entities confront unparalleled challenges in securing sensitive data, upholding democratic procedures, and countering cyber threats. This study delves into the multifaceted landscape of political cybersecurity, examining the evolving landscape of cyberattacks, their impact on political stability, and strategies for bolstering digital resilience. The intricate interplay between state-sponsored hacking, disinformation campaigns, and eroding public trust underscores the imperative for robust cybersecurity measures to safeguard political system integrity. Through an extensive exploration of real-world case studies, policy frameworks, and collaborative initiatives, this research illuminates the intricate network of technological vulnerabilities, geopolitical dynamics, and ethical concerns that shape the dynamic evolution of cybersecurity in politics. Amidst evolving digital landscapes, the imperative for agile and preemptive cybersecurity strategies is paramount for upholding the stability and credibility of political institutions.
翻訳日:2023-08-17 15:43:13 公開日:2023-08-15
# BI-LAVA:アクティブラーニングとビジュアル分析による階層的画像ラベリングによるバイオキュレーション

BI-LAVA: Biocuration with Hierarchical Image Labeling through Active Learning and Visual Analysis ( http://arxiv.org/abs/2308.08003v1 )

ライセンス: Link先を確認
Juan Trelles and Andrew Wentzel and William Berrios and G. Elisabeta Marai(参考訳) 生物医学領域では、分類学は階層構造における科学的イメージの獲得モダリティを整理する。 このような分類は、大量の正しい画像ラベルを活用し、科学的な出版の重要性に関する重要な情報を提供する。 しかし、ラベルの階層的性質、画像処理のオーバーヘッド、ラベル付きデータの欠如または不完全性、およびこの種のデータをラベル付けるのに必要な専門知識は、バイオキュレーションのための有用なデータセットの作成を妨げる。 バイオキュレーターとテキストマイニング研究者との複数年間のコラボレーションから、これらの課題に対処するための反復的な視覚分析とアクティブラーニング戦略を導出する。 この戦略をbi-lava biocuration (bi-lava biocuration) というシステムで実装し,階層的な画像ラベリングを行う。 BI-LAVAは、小さなイメージラベルセット、階層的なイメージ分類器、アクティブラーニングを活用し、モデルビルダーが不完全な基底構造ラベルを扱うのを助け、画像モダリティの階層的な分類をターゲットとし、ラベルのない画像の大きなプールを分類する。 bi-lavaのフロントエンドは、データ分布、分類、画像投影、画像サムネイルの近傍を表すカスタムエンコーディングを使用して、モデル構築者が不慣れな画像データセットと分類を探索し、ラベルを訂正して生成するのに役立つ。 機械学習の実践者による評価では、分類学におけるクラスの特徴を理解し、ラベル付きコレクションやラベルなしコレクションのデータ品質を検証・改善する上で、ドメインエキスパートの育成に成功している。

In the biomedical domain, taxonomies organize the acquisition modalities of scientific images in hierarchical structures. Such taxonomies leverage large sets of correct image labels and provide essential information about the importance of a scientific publication, which could then be used in biocuration tasks. However, the hierarchical nature of the labels, the overhead of processing images, the absence or incompleteness of labeled data, and the expertise required to label this type of data impede the creation of useful datasets for biocuration. From a multi-year collaboration with biocurators and text-mining researchers, we derive an iterative visual analytics and active learning strategy to address these challenges. We implement this strategy in a system called BI-LAVA Biocuration with Hierarchical Image Labeling through Active Learning and Visual Analysis. BI-LAVA leverages a small set of image labels, a hierarchical set of image classifiers, and active learning to help model builders deal with incomplete ground-truth labels, target a hierarchical taxonomy of image modalities, and classify a large pool of unlabeled images. BI-LAVA's front end uses custom encodings to represent data distributions, taxonomies, image projections, and neighborhoods of image thumbnails, which help model builders explore an unfamiliar image dataset and taxonomy and correct and generate labels. An evaluation with machine learning practitioners shows that our mixed human-machine approach successfully supports domain experts in understanding the characteristics of classes within the taxonomy, as well as validating and improving data quality in labeled and unlabeled collections.
翻訳日:2023-08-17 15:42:53 公開日:2023-08-15
# A^2$Nav:基礎モデルの視覚・言語能力の爆発によるアクション対応ゼロショットロボットナビゲーション

$A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting Vision-and-Language Ability of Foundation Models ( http://arxiv.org/abs/2308.07997v1 )

ライセンス: Link先を確認
Peihao Chen, Xinyu Sun, Hongyan Zhi, Runhao Zeng, Thomas H. Li, Gaowen Liu, Mingkui Tan, Chuang Gan(参考訳) 本研究では,ゼロショット視覚言語ナビゲーション(zs-vln, zero-shot vision-and-language navigation)の課題について検討する。 通常、命令は複雑な文法構造を持ち、様々な動作記述(例えば "proceed beyond" や "depart from" など)を含んでいる。 これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。 優れた教育を受けた人間は、特別な訓練を必要とせずに、容易に経路指示を理解できる。 本稿では,基礎モデルの視覚・言語能力を利用したアクション対応ゼロショットVLN法(A^2$Nav)を提案する。 具体的には,提案手法は命令パーサとアクション対応ナビゲーションポリシから構成される。 命令パーサは、大規模な言語モデル(例えばGPT-3)の高度な推論能力を利用して、複雑なナビゲーション命令をアクション固有のオブジェクトナビゲーションサブタスクのシーケンスに分解する。 各サブタスクは、エージェントがオブジェクトをローカライズし、関連するアクション要求に応じて特定のゴール位置にナビゲートする必要がある。 これらのサブタスクを達成するために、アクション対応ナビゲーションポリシーは、アクション要求ごとに異なる特性を示す、自由に収集されたアクション固有のデータセットから学習される。 学習したナビゲーションポリシーを用いて、サブタスクを逐次実行し、ナビゲーション命令に従う。 大規模な実験によると、$A^2$NavはZS-VLNのパフォーマンスを期待でき、R2R-HabitatデータセットとRxR-Habitatデータセットの教師付き学習方法を超えている。

We study the task of zero-shot vision-and-language navigation (ZS-VLN), a practical yet challenging problem in which an agent learns to navigate following a path described by language instructions without requiring any path-instruction annotation data. Normally, the instructions have complex grammatical structures and often contain various action descriptions (e.g., "proceed beyond", "depart from"). How to correctly understand and execute these action demands is a critical problem, and the absence of annotated data makes it even more challenging. Note that a well-educated human being can easily understand path instructions without the need for any special training. In this paper, we propose an action-aware zero-shot VLN method ($A^2$Nav) by exploiting the vision-and-language ability of foundation models. Specifically, the proposed method consists of an instruction parser and an action-aware navigation policy. The instruction parser utilizes the advanced reasoning ability of large language models (e.g., GPT-3) to decompose complex navigation instructions into a sequence of action-specific object navigation sub-tasks. Each sub-task requires the agent to localize the object and navigate to a specific goal position according to the associated action demand. To accomplish these sub-tasks, an action-aware navigation policy is learned from freely collected action-specific datasets that reveal distinct characteristics of each action demand. We use the learned navigation policy for executing sub-tasks sequentially to follow the navigation instruction. Extensive experiments show $A^2$Nav achieves promising ZS-VLN performance and even surpasses the supervised learning methods on R2R-Habitat and RxR-Habitat datasets.
翻訳日:2023-08-17 15:42:14 公開日:2023-08-15
# マルコフ環境における量子システム

Quantum systems in Markovian environments ( http://arxiv.org/abs/2308.07996v1 )

ライセンス: Link先を確認
Henryk Gzyl(参考訳) 本研究では,ハミルトニアンが環境変化に依存するかもしれない量子系をモデル化する数学的枠組みを開発し,マルコフ過程に従って進化する。 環境が状態を変えると、量子系は衝撃を受け、状態間で瞬時に遷移する。 提案するモデルは、より一般的な設定に容易に適応できる。 側方解析問題を避けるため、有限次元状態空間を持つ量子系の場合、観測可能系はエルミート行列によって記述される。 観測対象の期待値を予測するために,環境を平均化する方法を示す。

In this work, we develop a mathematical framework to model a quantum system whose Hamiltonian may depend on the state of changing environment, that evolves according to a Markovian process. When the environment changes its state, the quantum system may suffer a shock that produces an instantaneous transition among its states. The model that we propose can be readily adapted to more general settings.\\ To avoid collateral analytical issues, we consider the case of quantum systems with finite dimensional state space, in which case the observables are described by Hermitian matrices. We show how to average over the environment to predict the expected values of observables.
翻訳日:2023-08-17 15:41:42 公開日:2023-08-15
# ワイル半金属の歪2次元層に基づくスピン場効果トランジスタ

A Spin Field Effect Transistor Based on a Strained Two Dimensional Layer of a Weyl Semimetal ( http://arxiv.org/abs/2308.07986v1 )

ライセンス: Link先を確認
Rahnuma Rahman and Supriyo Bandyopadhyay(参考訳) スピン場効果トランジスタ (spinfet) は、強磁性源とドレイン接点の間にある半導体チャネルにおけるゲートチューニングスピン軌道相互作用を利用してトランジスタ機能を導出するスピントロンデバイスの象徴的クラスである。 近年、量子材料におけるゲートチューニングひずみ(トポロジカル絶縁体など)に基づく新しいスピンfetが提案されており、その特異な振動伝達特性から周波数乗算などの興味深いアナログ応用が提案されている。 ここでは、異なるアプリケーションを持つかもしれないこのクラスで、さらに別のタイプのSpinFETを提案し、分析する。 それはワイル半金属に基づいている。 動作原理は古典的ではないため、チャネルコンダクタンスはチャネル長にゼロゲート電圧で振動依存性を示す。 また、チャネル長が変化すれば、トランスコンダクタンスが符号を切り替えることができる。 後者の機能を利用してCMOSのような補完デバイスを実装できるのは、チャンネル長がわずかに異なる2つのSpinFETを直列に接続することでである。 これらの特異な性質はニッチな応用があるかもしれない。

Spin field effect transistors (SpinFET) are an iconic class of spintronic devices that exploit gate tuned spin-orbit interaction in semiconductor channels interposed between ferromagnetic source and drain contacts to elicit transistor functionality. Recently, a new type of SpinFET based on gate tuned strain in quantum materials (e.g. topological insulators) has been proposed and may have interesting analog applications, such as in frequency multiplication, by virtue of its unusual oscillatory transfer characteristic. Here, we propose and analyze yet another type of SpinFET in this class, which may have a different application. It is based on a Weyl semimetal. Because the operating principle is non-classical, the channel conductance shows oscillatory dependence on the channel length at zero gate voltage. Furthermore, the transconductance can switch sign if the channel length is varied. This latter feature can be exploited to implement a complementary device like CMOS by connecting two such SpinFETs of slightly different channel lengths in series. These unusual properties may have niche applications.
翻訳日:2023-08-17 15:41:34 公開日:2023-08-15
# グラフカラーリングの量子最適化におけるqutritsの可能性の検討

Exploring the Potential of Qutrits for Quantum Optimization of Graph Coloring ( http://arxiv.org/abs/2308.08050v1 )

ライセンス: Link先を確認
Gabriel Bottrill, Mudit Pandey, Olivia Di Matteo(参考訳) 近年のハードウェア実証と回路コンパイルの進歩により、短期デバイス上の高次元システム(キューディット)を用いた量子コンピューティングが魅力的な可能性となった。 いくつかの問題は、量子ビット上のquditを用いたより自然な、あるいは最適なエンコーディングを持っている。 本稿では, 量子近似最適化アルゴリズム (QAOA) を用いて, グラフの3色化を定式化し, 量子近似アルゴリズム(QAOA) を用いてこの問題を解く。 qutrit-based cost and mixer hamiltonianは、qutritゲートを用いた適切な量子回路と共に構築される。 我々は,qubitベースのqaoaと比較するためにpennylaneを用いた無ノイズシミュレーションを実施し,ソリューションの品質とリソースを解析した。 予備的な結果は、クトリットエンコーディングは、同等のハイパーパラメータのセットでより正確な解を見つけ、クディットを半分使用し、効率的な量子ビットエンコーディングよりも層当たりの回路深さが著しく小さいことを示している。 この研究は、クォートリットが近距離デバイス上のいくつかの問題を解決するのに有用であることを示しているが、ノイズの多い環境におけるその可能性を評価するにはさらなる作業が必要であることを示唆している。

Recent hardware demonstrations and advances in circuit compilation have made quantum computing with higher-dimensional systems (qudits) on near-term devices an attractive possibility. Some problems have more natural or optimal encodings using qudits over qubits. We explore this potential by formulating graph 3-coloring, a well-known and difficult problem with practical applications, using qutrits, and solve it using the quantum approximate optimization algorithm (QAOA). Qutrit-based cost and mixer Hamiltonians are constructed along with appropriate quantum circuits using qutrit gates. We run noiseless simulations using PennyLane to compare the formulation against qubit-based QAOA, and analyze the solution quality and resources required. Preliminary results show that the qutrit encoding finds more accurate solutions with a comparable set of hyperparameters, uses half as many qudits, and has a notably smaller circuit depth per layer than an efficient qubit encoding. This work suggests that qutrits may be useful in solving some problems on near-term devices, however further work is required to assess their potential in a noisy environment.
翻訳日:2023-08-17 15:36:07 公開日:2023-08-15
# マルチエージェントマルチアームバンドにおけるレギュレット下界

Regret Lower Bounds in Multi-agent Multi-armed Bandit ( http://arxiv.org/abs/2308.08046v1 )

ライセンス: Link先を確認
Mengfan Xu, Diego Klabjan(参考訳) 多腕バンディットは、後悔の証明可能な上界を持つ手法を動機付け、他方の下界もこの文脈で広く研究されている。 近年、マルチエージェントマルチアームバンドは、個々のクライアントが分散的にバンディット問題に直面し、目的はシステム全体のパフォーマンスであり、通常後悔によって測定される。 後悔の上界を持つ効率的なアルゴリズムが出現する一方で、近年の敵の設定に対する下界を除いて、対応する後悔下界に対して限定的な注意が向けられている。 この目的のために、我々は、異なる設定における後悔の下限に関する最初の包括的な研究を行い、その厳密さを確立する。 具体的には、グラフが良好な接続性を示し、報酬が確率的に分布しているとき、平均ギャップ独立境界に対して$O(\log T)$と$\sqrt{T}$の下位境界を示す。 逆の報酬を仮定すると、連結グラフに対して下限 $o(t^{\frac{2}{3}})$ を定め、これにより前作業における下限と上限の間のギャップを橋渡しする。 また,グラフの切り離し時に,線形な後悔値下限を示す。 先行研究では,これらの設定を上界で検討してきたが,下界の密接性について徹底的な研究を行っている。

Multi-armed Bandit motivates methods with provable upper bounds on regret and also the counterpart lower bounds have been extensively studied in this context. Recently, Multi-agent Multi-armed Bandit has gained significant traction in various domains, where individual clients face bandit problems in a distributed manner and the objective is the overall system performance, typically measured by regret. While efficient algorithms with regret upper bounds have emerged, limited attention has been given to the corresponding regret lower bounds, except for a recent lower bound for adversarial settings, which, however, has a gap with let known upper bounds. To this end, we herein provide the first comprehensive study on regret lower bounds across different settings and establish their tightness. Specifically, when the graphs exhibit good connectivity properties and the rewards are stochastically distributed, we demonstrate a lower bound of order $O(\log T)$ for instance-dependent bounds and $\sqrt{T}$ for mean-gap independent bounds which are tight. Assuming adversarial rewards, we establish a lower bound $O(T^{\frac{2}{3}})$ for connected graphs, thereby bridging the gap between the lower and upper bound in the prior work. We also show a linear regret lower bound when the graph is disconnected. While previous works have explored these settings with upper bounds, we provide a thorough study on tight lower bounds.
翻訳日:2023-08-17 15:35:46 公開日:2023-08-15
# DiagGPT:タスク指向対話の自動トピック管理によるLLMベースのチャットボット

DiagGPT: An LLM-based Chatbot with Automatic Topic Management for Task-Oriented Dialogue ( http://arxiv.org/abs/2308.08043v1 )

ライセンス: Link先を確認
Lang Cao(参考訳) ChatGPTのような大規模言語モデル(LLM)は、ますます洗練され、人間のものとよく似た能力を示している。 これらのAIモデルは、人間の日常生活における幅広いタスクを支援する上で重要な役割を担っている。 AIの重要な応用は、チャットエージェントとしての使用であり、さまざまなドメインにわたる人間の問い合わせに応答する。 現在のLLMは、一般的な質問に答える能力を示している。 しかしながら、基本的な質問応答対話は、法律や医療の相談のような複雑な診断シナリオでは不足することが多い。 これらのシナリオは一般的にタスク指向対話(TOD)を必要とし、AIチャットエージェントは積極的に質問をポーズし、特定のタスク完了に向けてユーザーを誘導する必要がある。 従来の微調整モデルはTODでは性能が低く、現在のLLMは本質的にこの能力を持っていない。 本稿では,LDMをTODシナリオに拡張する革新的な手法であるDiagGPT(Dialogue in diagnosis GPT)を紹介する。 実験の結果,DiagGPTはユーザとTODを行う上で優れた性能を示し,実用化の可能性を示した。

Large Language Models (LLMs), such as ChatGPT, are becoming increasingly sophisticated, demonstrating capabilities that closely resemble those of humans. These AI models are playing an essential role in assisting humans with a wide array of tasks in daily life. A significant application of AI is its use as a chat agent, responding to human inquiries across various domains. Current LLMs have shown proficiency in answering general questions. However, basic question-answering dialogue often falls short in complex diagnostic scenarios, such as legal or medical consultations. These scenarios typically necessitate Task-Oriented Dialogue (TOD), wherein an AI chat agent needs to proactively pose questions and guide users towards specific task completion. Previous fine-tuning models have underperformed in TOD, and current LLMs do not inherently possess this capability. In this paper, we introduce DiagGPT (Dialogue in Diagnosis GPT), an innovative method that extends LLMs to TOD scenarios. Our experiments reveal that DiagGPT exhibits outstanding performance in conducting TOD with users, demonstrating its potential for practical applications.
翻訳日:2023-08-17 15:35:18 公開日:2023-08-15
# 2次元断面視による脾体積推定のための深層学習フレームワーク

Deep Learning Framework for Spleen Volume Estimation from 2D Cross-sectional Views ( http://arxiv.org/abs/2308.08038v1 )

ライセンス: Link先を確認
Zhen Yuan, Esther Puyol-Anton, Haran Jogeesvaran, Baba Inusa and Andrew P. King(参考訳) 異常脾腫 (splenomegaly) は, 肝疾患, 癌, 血液疾患など, 様々な疾患の臨床的指標である。 超音波画像から測定される脾の長さは脾臓の大きさのサロゲートとして一般的に用いられるが,脾臓容積は脾腫と関連疾患の重症度を評価するための金標準指標である。 ctは脾臓体積を測定するための主要なイメージングモードであるが、脾腫の発生率が高い地域(例えば、グローバル・サウス)ではアクセスできない。 本研究の目的は,超音波による2次元断面断面積の自動計測を可能にすることである。 本研究では,単視または双視の2次元脾臓セグメンテーションから脾臓体積を測定するための変分オートエンコーダベースのフレームワークについて述べる。 本稿では,本フレームワーク内の3つのボリューム推定手法を提案し,評価する。 また,本手法を臨床的に有用にするために,ボリューム推定の95%の信頼区間を作成できることを示す。 比較深層学習に基づく2D-3D再構成法と手動による線形回帰法の臨床標準手法の性能を上回り, 単視点と二視点のセグメンテーションでは86.62\%, 92.58\%の平均体積精度を達成した。 提案した脾体積推定フレームワークは,現在2次元超音波画像を用いて脾の長さを測定する標準的な臨床ワークフローに統合することができる。 私たちの知る限りでは、これは2次元脾臓セグメンテーションから直接3d脾臓体積推定を達成する最初の仕事です。

Abnormal spleen enlargement (splenomegaly) is regarded as a clinical indicator for a range of conditions, including liver disease, cancer and blood diseases. While spleen length measured from ultrasound images is a commonly used surrogate for spleen size, spleen volume remains the gold standard metric for assessing splenomegaly and the severity of related clinical conditions. Computed tomography is the main imaging modality for measuring spleen volume, but it is less accessible in areas where there is a high prevalence of splenomegaly (e.g., the Global South). Our objective was to enable automated spleen volume measurement from 2D cross-sectional segmentations, which can be obtained from ultrasound imaging. In this study, we describe a variational autoencoder-based framework to measure spleen volume from single- or dual-view 2D spleen segmentations. We propose and evaluate three volume estimation methods within this framework. We also demonstrate how 95\% confidence intervals of volume estimates can be produced to make our method more clinically useful. Our best model achieved mean relative volume accuracies of 86.62\% and 92.58\% for single- and dual-view segmentations, respectively, surpassing the performance of the clinical standard approach of linear regression using manual measurements and a comparative deep learning-based 2D-3D reconstruction-based approach. The proposed spleen volume estimation framework can be integrated into standard clinical workflows which currently use 2D ultrasound images to measure spleen length. To the best of our knowledge, this is the first work to achieve direct 3D spleen volume estimation from 2D spleen segmentations.
翻訳日:2023-08-17 15:34:58 公開日:2023-08-15
# レーザー誘起チューニングによる寿命制限有機分子の超ラジアントおよびサブラジアント状態

Superradiant and subradiant states in lifetime-limited organic molecules through laser-induced tuning ( http://arxiv.org/abs/2308.08037v1 )

ライセンス: Link先を確認
Christian Lange, Emma Daggett, Valentin Walther, Libai Huang, and Jonathan D. Hood(参考訳) 放射結合エミッタの配列は、量子光を生成し、保存し、操作するためのエキサイティングな新しいプラットフォームである。 しかし、複数の寿命制限エミッタの共鳴への位置決めとチューニングは依然として大きな課題である。 本稿では, レーザー誘起チューニングと共振器に永久にシフトさせることにより, 寿命制限およびサブ波長間隔の有機分子の対における超ラジカルおよびサブラジカルの絡み合った状態の生成を報告する。 分子は有機ナノ結晶の欠陥として埋め込まれる。 ポンプ光はナノ結晶の電荷を再分配し、共鳴分子の可能性を劇的に高める。 周波数スペクトル、寿命、二階相関は単純な量子モデルと一致する。 この有機分子によるスケーラブルなチューニングアプローチは、量子エミッタのサブ波長配列における集合量子現象を観測するための経路を提供する。

An array of radiatively coupled emitters is an exciting new platform for generating, storing, and manipulating quantum light. However, the simultaneous positioning and tuning of multiple lifetime-limited emitters into resonance remains a significant challenge. Here we report the creation of superradiant and subradiant entangled states in pairs of lifetime-limited and sub-wavelength spaced organic molecules by permanently shifting them into resonance with laser-induced tuning. The molecules are embedded as defects in an organic nanocrystal. The pump light redistributes charges in the nanocrystal and dramatically increases the likelihood of resonant molecules. The frequency spectra, lifetimes, and second-order correlation agree with a simple quantum model. This scalable tuning approach with organic molecules provides a pathway for observing collective quantum phenomena in sub-wavelength arrays of quantum emitters.
翻訳日:2023-08-17 15:34:25 公開日:2023-08-15
# コードモデルとドメイン適応を用いた自動テストケース生成

Automated Test Case Generation Using Code Models and Domain Adaptation ( http://arxiv.org/abs/2308.08033v1 )

ライセンス: Link先を確認
Sepehr Hashtroudi, Jiho Shin, Hadi Hemmati, Song Wang(参考訳) 検索ベースのテストのような最先端の自動テスト生成技術は通常、開発者がテストケースとして作るものについて無知である。 そのため、通常は、人間が読めるものではなく、開発者が記述したテストが行うような複雑なバグのタイプをすべて必ずしも検出しないテストを作成する。 本研究では,transformerベースのコードモデルを用いて,検索ベースのテスト生成を補完するユニットテストを生成する。 具体的には、CodeT5、すなわち最先端の大規模コードモデルを使用し、テスト生成の下流タスクで微調整します。 分析では,CodeT5とDefects4jの微調整に Methods2test データセットを使用し,プロジェクトレベルのドメイン適応と評価を行った。 この研究の主な貢献は、開発者が記述したテストと利用可能なコードモデルを利用して、コンパイル可能で人間可読なユニットテストを生成する、完全に自動化されたテストフレームワークを提案することである。 その結果,開発者が記述したテストでカバーされていないラインをカバーする新たなテストケースが得られた。 ドメイン適応を用いることで、平均と中央値(ドメイン適応のないモデルと比較)の観点から、モデル生成ユニットテストのラインカバレッジを49.9%、54%向上させることもできる。 また、我々のフレームワークは一般的な検索ベースの手法と相補的なソリューションとして利用でき、平均と中央値の25.3%と6.3%で全体のカバレッジを向上させることができる。 また、追加の変異体を殺して検索ベースの方法の突然変異率を高めることもできる(我々の実験では、プロジェクトごとに64個の新しい変異体が殺されている)。

State-of-the-art automated test generation techniques, such as search-based testing, are usually ignorant about what a developer would create as a test case. Therefore, they typically create tests that are not human-readable and may not necessarily detect all types of complex bugs developer-written tests would do. In this study, we leverage Transformer-based code models to generate unit tests that can complement search-based test generation. Specifically, we use CodeT5, i.e., a state-of-the-art large code model, and fine-tune it on the test generation downstream task. For our analysis, we use the Methods2test dataset for fine-tuning CodeT5 and Defects4j for project-level domain adaptation and evaluation. The main contribution of this study is proposing a fully automated testing framework that leverages developer-written tests and available code models to generate compilable, human-readable unit tests. Results show that our approach can generate new test cases that cover lines that were not covered by developer-written tests. Using domain adaptation, we can also increase line coverage of the model-generated unit tests by 49.9% and 54% in terms of mean and median (compared to the model without domain adaptation). We can also use our framework as a complementary solution alongside common search-based methods to increase the overall coverage with mean and median of 25.3% and 6.3%. It can also increase the mutation score of search-based methods by killing extra mutants (up to 64 new mutants were killed per project in our experiments).
翻訳日:2023-08-17 15:34:12 公開日:2023-08-15
# 人工集団を用いた神経モデルにおける心理現象の研究

Using Artificial Populations to Study Psychological Phenomena in Neural Models ( http://arxiv.org/abs/2308.08032v1 )

ライセンス: Link先を確認
Jesse Roberts, Kyle Moore, Drew Wilenzick, Doug Fisher(参考訳) 近年、トランスフォーマーに基づく自然言語処理の研究が急増し、モデルにおける人間のような認知行動の存在を検出する研究が数多く行われている。 ヒトの心理学と同様に、言語モデルにおける認知行動の調査は、結果が有意義になるのに適切な大きさの適切な集団で行わなければならないと主張する。 我々は、実験集団を効率的に構築するために、新しいアプローチにおける不確実性推定の作業を活用する。 結果として得られたツールである populationlm がオープンソースになった。 言語モデルに関する現在の認知作業から得られる不確実性推定文献と動機付けに理論的根拠を与える。 我々は他の科学コミュニティからの方法論的教訓を議論し、2つの人工集団研究への応用を実証する。 集団に基づく実験を通して、言語モデルは訓練において高度に表現されたカテゴリー間での典型的効果と整合した振る舞いを示す。 しかし、言語モデルは構造的なプライミング効果を示さない傾向がある。 一般に,単一モデルでは認知行動の存在を過大評価する傾向がみられた。

The recent proliferation of research into transformer based natural language processing has led to a number of studies which attempt to detect the presence of human-like cognitive behavior in the models. We contend that, as is true of human psychology, the investigation of cognitive behavior in language models must be conducted in an appropriate population of an appropriate size for the results to be meaningful. We leverage work in uncertainty estimation in a novel approach to efficiently construct experimental populations. The resultant tool, PopulationLM, has been made open source. We provide theoretical grounding in the uncertainty estimation literature and motivation from current cognitive work regarding language models. We discuss the methodological lessons from other scientific communities and attempt to demonstrate their application to two artificial population studies. Through population based experimentation we find that language models exhibit behavior consistent with typicality effects among categories highly represented in training. However, we find that language models don't tend to exhibit structural priming effects. Generally, our results show that single models tend to over estimate the presence of cognitive behaviors in neural models.
翻訳日:2023-08-17 15:33:45 公開日:2023-08-15
# 深部ReLUネットワークを用いたガウス混合モデルによるデータの分類

Classification of Data Generated by Gaussian Mixture Models Using Deep ReLU Networks ( http://arxiv.org/abs/2308.08030v1 )

ライセンス: Link先を確認
Tian-Yi Zhou, Xiaoming Huo(参考訳) 本稿では,gaussian mixture model (gmms) で生成する${\mathbb r}^d$ からの非有界データの深層ニューラルネットワークを用いた二元分類について検討する。 モデルパラメーターに制約を課すことなく、分類の過度なリスク(誤分類誤差を含む)の収束率と非漸近的上限を初めて$\unicode{x2013}$を得る。 我々が導出する収束率は次元 $d$ に依存しず、深層 relu ネットワークが分類における次元の呪いを克服できることを示した。 分類アルゴリズムの既存の一般化解析の大半は有界領域に依存しているが、ガウス分布の解析性と高速崩壊を利用して非有界領域を考える。 解析を容易にするために,reluネットワークを用いた一般解析関数に対する新しい近似誤差を導出する。 ガウス分布は、例えば音声、画像、テキストなど、アプリケーションで発生するデータをモデル化するためにうまく適用することができ、実際の分類問題におけるディープニューラルネットワークの観測効率の理論的検証を提供する。

This paper studies the binary classification of unbounded data from ${\mathbb R}^d$ generated under Gaussian Mixture Models (GMMs) using deep ReLU neural networks. We obtain $\unicode{x2013}$ for the first time $\unicode{x2013}$ non-asymptotic upper bounds and convergence rates of the excess risk (excess misclassification error) for the classification without restrictions on model parameters. The convergence rates we derive do not depend on dimension $d$, demonstrating that deep ReLU networks can overcome the curse of dimensionality in classification. While the majority of existing generalization analysis of classification algorithms relies on a bounded domain, we consider an unbounded domain by leveraging the analyticity and fast decay of Gaussian distributions. To facilitate our analysis, we give a novel approximation error bound for general analytic functions using ReLU networks, which may be of independent interest. Gaussian distributions can be adopted nicely to model data arising in applications, e.g., speeches, images, and texts; our results provide a theoretical verification of the observed efficiency of deep neural networks in practical classification problems.
翻訳日:2023-08-17 15:33:30 公開日:2023-08-15
# 学習計画:モデルベースプランニングにおけるアクティブラーニングのための新しいアルゴリズム

Planning to Learn: A Novel Algorithm for Active Learning during Model-Based Planning ( http://arxiv.org/abs/2308.08029v1 )

ライセンス: Link先を確認
Rowan Hodson, Bruce Bassett, Charel van Hoof, Benjamin Rosman, Mark Solms, Jonathan P. Shock, Ryan Smith(参考訳) アクティブ推論は不確実性下でのモデリング計画のための最近のフレームワークである。 実証的および理論的研究は、このアプローチの強みと弱み、そしてどのように改善されるかを評価するために始まった。 最近の拡張 - advanced inference (si) アルゴリズム - 再帰的決定木探索による多段階計画問題の性能向上。 しかし、SIを他の既存の計画アルゴリズムと比較する作業はほとんど行われていない。 SIは学習とは対照的に推論に焦点を当てて開発された。 本論文には2つの目的がある。 まず,同様の問題を解決するために設計されたベイズ強化学習(rl)方式とsiの性能を比較した。 第2に,計画中にアクティブラーニングをより深く取り入れたsl(sisophisticated learning)の拡張を提案する。 SLは、各方針の下で期待される将来の観測の下でモデルパラメータがどのように変化するかという信念を維持している。 これにより、エージェントが現在または過去の観測から何が学べるかを、異なる将来の観測で考慮する反事実的振り返り推論の形式が可能になる。 これらの目的を達成するために,SLが独特なソリューションを提供する問題構造を強調するために,生物にインスパイアされた新しい環境を利用する。 ここで、エージェントは、情報獲得のために競合する余裕がある場合、利用可能な(しかし変化する)リソースを継続的に探さなければならない。 我々のシミュレーションでは、SLはこの文脈で他の全てのアルゴリズムよりも優れており、特にベイズ適応RLと高信頼境界アルゴリズムは、同様の原理(すなわち、直接探索と対実推論)を用いて多段階計画問題の解決を目的としている。 これらの結果は、このような生物学的に関連のある問題を解く上でのアクティブ推論の有用性の強化と、人間の認知に関する仮説をテストするためのツールの追加を提供する。

Active Inference is a recent framework for modeling planning under uncertainty. Empirical and theoretical work have now begun to evaluate the strengths and weaknesses of this approach and how it might be improved. A recent extension - the sophisticated inference (SI) algorithm - improves performance on multi-step planning problems through recursive decision tree search. However, little work to date has been done to compare SI to other established planning algorithms. SI was also developed with a focus on inference as opposed to learning. The present paper has two aims. First, we compare performance of SI to Bayesian reinforcement learning (RL) schemes designed to solve similar problems. Second, we present an extension of SI - sophisticated learning (SL) - that more fully incorporates active learning during planning. SL maintains beliefs about how model parameters would change under the future observations expected under each policy. This allows a form of counterfactual retrospective inference in which the agent considers what could be learned from current or past observations given different future observations. To accomplish these aims, we make use of a novel, biologically inspired environment designed to highlight the problem structure for which SL offers a unique solution. Here, an agent must continually search for available (but changing) resources in the presence of competing affordances for information gain. Our simulations show that SL outperforms all other algorithms in this context - most notably, Bayes-adaptive RL and upper confidence bound algorithms, which aim to solve multi-step planning problems using similar principles (i.e., directed exploration and counterfactual reasoning). These results provide added support for the utility of Active Inference in solving this class of biologically-relevant problems and offer added tools for testing hypotheses about human cognition.
翻訳日:2023-08-17 15:33:09 公開日:2023-08-15
# 緊急住宅シェルターアクセスパターンに対するCOVID-19の影響のグラフ解析

A Graph Analysis of the Impact of COVID-19 on Emergency Housing Shelter Access Patterns ( http://arxiv.org/abs/2308.08028v1 )

ライセンス: Link先を確認
Geoffrey G. Messier(参考訳) 本稿では,カナダ・カルガリー州で新型コロナウイルスが緊急避難所のアクセスパターンを破壊した経緯と,その変化の現在の状況について検討する。 この分析は、2018年から現在までの7つの主要都市シェルターから4万人以上の個人が収集したシェルターアクセスデータを利用する。 グラフ理論のアプローチは、新型コロナウイルス(COVID-19)のロックダウン前後のシェルター間の個人の移動を調べるために使われる。 このアプローチでは、シェルターをグラフ内のノードとして扱い、シェルター間の遷移をノード間の矢印やエッジとして扱う。 この視点は、シェルターの使用とシェルター間の人々のフローを可視化するタイムラインとネットワーク図を作成するために使用される。 また, 防犯前ロックダウンのみを使用する人々のコホート, 防犯中は避難所にとどまる人々, ロックダウン中は初めて避難所を利用する人々の相違を示す統計結果も提示された。 その結果,複雑なケアシステムがパンデミックにどのように反応したかだけでなく,緊急時もそのシステムに依存する可能性が最も高い人々の特性が示された。

This paper investigates how COVID-19 disrupted emergency housing shelter access patterns in Calgary, Canada and what aspects of these changes persist to the present day. This analysis will utilize aggregated shelter access data for over 40,000 individuals from seven major urban shelters dating from 2018 to the present. A graph theoretic approach will be used to examine the journeys of individuals between shelters before, during and after the COVID-19 lockdown period. This approach treats shelters as nodes in a graph and a person's transition between shelter as an arrow or edge between nodes. This perspective is used to create both timeline and network diagrams that visualize shelter use and the flow of people between shelters. Statistical results are also presented that illustrate the differences between the cohorts of people who only used shelter pre/post-lockdown, people who stayed in shelter during lockdown and people who used shelter for the first time during lockdown. The results demonstrate not only how a complex system of care responded to the pandemic but also the characteristics of the people most likely to continue to rely on that system during an emergency.
翻訳日:2023-08-17 15:32:42 公開日:2023-08-15
# プライバシー保護勧告のための分散グラフニューラルネットワーク

Decentralized Graph Neural Network for Privacy-Preserving Recommendation ( http://arxiv.org/abs/2308.08072v1 )

ライセンス: Link先を確認
Xiaolin Zheng, Zhongyu Wang, Chaochao Chen, Jiashu Qian and Yao Yang(参考訳) ユーザのプライバシを侵害することなく、グラフニューラルネットワーク(GNN)ベースのレコメンデーションシステムを構築することは難しい。 既存の方法は、連合GNNと分散GNNに分けられる。 しかし、どちらの方法も望ましくない効果、すなわち通信効率の低下とプライバシーの漏洩がある。 本稿では,プライバシ保護レコメンデーションのための分散GNNであるDGRECを提案する。 これには、グラフ構築、局所勾配計算、大域的勾配通過という3つの段階が含まれる。 第1ステージでは、各ユーザ用のローカルな内面ハイパーグラフと、グローバルなユーザ間グラフを構築している。 第2ステージは、ユーザの好みをモデル化し、各ローカルデバイス上の勾配を計算する。 第3ステージでは、セキュアな勾配共有と呼ばれるローカルな差分プライバシーメカニズムを設計し、ユーザのプライベートデータの強力なプライバシー保護を証明している。 我々は3つの公開データセットに関する広範な実験を行い、フレームワークの一貫性のある優位性を検証する。

Building a graph neural network (GNN)-based recommender system without violating user privacy proves challenging. Existing methods can be divided into federated GNNs and decentralized GNNs. But both methods have undesirable effects, i.e., low communication efficiency and privacy leakage. This paper proposes DGREC, a novel decentralized GNN for privacy-preserving recommendations, where users can choose to publicize their interactions. It includes three stages, i.e., graph construction, local gradient calculation, and global gradient passing. The first stage builds a local inner-item hypergraph for each user and a global inter-user graph. The second stage models user preference and calculates gradients on each local device. The third stage designs a local differential privacy mechanism named secure gradient-sharing, which proves strong privacy-preserving of users' private data. We conduct extensive experiments on three public datasets to validate the consistent superiority of our framework.
翻訳日:2023-08-17 15:24:03 公開日:2023-08-15
# 新鮮さか正確さ 両方じゃないの? 動的グラフニューラルネットワークによる遅延フィードバックの対応

Freshness or Accuracy, Why Not Both? Addressing Delayed Feedback via Dynamic Graph Neural Networks ( http://arxiv.org/abs/2308.08071v1 )

ライセンス: Link先を確認
Xiaolin Zheng, Zhongyu Wang, Chaochao Chen, Feng Zhu and Jiashu Qian(参考訳) 遅延フィードバック問題は、ユーザの変換が常にオンラインの商用システムでは遅れているため、コンバージョン率を予測する上で最も差し迫った課題の1つだ。 新しいデータは継続的なトレーニングに有益であるが、完全なフィードバック情報、すなわち変換ラベルがなければ、トレーニングアルゴリズムは圧倒的な偽陰性を被る可能性がある。 既存の手法では、遅延したフィードバック問題を解決するためにマルチタスク学習やデータパイプラインを設計する傾向がある。 しかし、これらの手法はデータの鮮度とラベルの精度のトレードオフがある。 本稿では,動的グラフニューラルネットワーク(DGDFEM)による遅延フィードバックモデリングを提案する。 データパイプラインの作成、動的グラフの構築、CVR予測モデルのトレーニングという3つのステージが含まれている。 モデルトレーニングでは,高域通過フィルタと低域通過フィルタを併用して変換や非変換関係を扱うHLGCNという新しいグラフ畳み込み手法を提案する。 提案手法はデータの鮮度とラベル精度の両方を実現する。 提案手法の一貫性を検証した3つの産業データセットについて広範な実験を行った。

The delayed feedback problem is one of the most pressing challenges in predicting the conversion rate since users' conversions are always delayed in online commercial systems. Although new data are beneficial for continuous training, without complete feedback information, i.e., conversion labels, training algorithms may suffer from overwhelming fake negatives. Existing methods tend to use multitask learning or design data pipelines to solve the delayed feedback problem. However, these methods have a trade-off between data freshness and label accuracy. In this paper, we propose Delayed Feedback Modeling by Dynamic Graph Neural Network (DGDFEM). It includes three stages, i.e., preparing a data pipeline, building a dynamic graph, and training a CVR prediction model. In the model training, we propose a novel graph convolutional method named HLGCN, which leverages both high-pass and low-pass filters to deal with conversion and non-conversion relationships. The proposed method achieves both data freshness and label accuracy. We conduct extensive experiments on three industry datasets, which validate the consistent superiority of our method.
翻訳日:2023-08-17 15:23:49 公開日:2023-08-15
# 1次法による最大アフィン回帰

Max-affine regression via first-order methods ( http://arxiv.org/abs/2308.08070v1 )

ライセンス: Link先を確認
Seonho Kim and Kiryung Lee(参考訳) 我々は、max関数を介してアフィンモデルを結合することにより分割線形モデルを生成するmax-affineモデルの回帰を考える。 最大アフィンモデルは、多クラス分類、オークション問題、凸回帰を含む信号処理と統計学の応用においてユビキタスに現れる。 また、位相検索および学習整流器線形単位活性化関数を一般化する。 準ガウス音に追従したランダムな位置でモデルが観測された場合, 勾配降下(GD)と最小バッチ確率勾配降下(SGD)の非漸近収束解析を行い, 加法的サブガウス音による反集束解析を行った。 これらの仮定の下で、適切な初期化gdとsgdは、対応する誤差境界によって指定された基底真理の近傍に線形収束する。 理論的発見を裏付ける数値結果を提供する。 重要なことは、SGDは、ノイズのないシナリオにおける最小化とGDの交互化よりも少ない観測時間でより高速に収束するだけでなく、ノイズのある低サンプリングシナリオにおいてそれらを上回ります。

We consider regression of a max-affine model that produces a piecewise linear model by combining affine models via the max function. The max-affine model ubiquitously arises in applications in signal processing and statistics including multiclass classification, auction problems, and convex regression. It also generalizes phase retrieval and learning rectifier linear unit activation functions. We present a non-asymptotic convergence analysis of gradient descent (GD) and mini-batch stochastic gradient descent (SGD) for max-affine regression when the model is observed at random locations following the sub-Gaussianity and an anti-concentration with additive sub-Gaussian noise. Under these assumptions, a suitably initialized GD and SGD converge linearly to a neighborhood of the ground truth specified by the corresponding error bound. We provide numerical results that corroborate the theoretical finding. Importantly, SGD not only converges faster in run time with fewer observations than alternating minimization and GD in the noiseless scenario but also outperforms them in low-sample scenarios with noise.
翻訳日:2023-08-17 15:23:34 公開日:2023-08-15
# データセンター計算ノードの消費電力削減のための強化学習手法

A Reinforcement Learning Approach for Performance-aware Reduction in Power Consumption of Data Center Compute Nodes ( http://arxiv.org/abs/2308.08069v1 )

ライセンス: Link先を確認
Akhilesh Raj, Swann Perarnau, Aniruddha Gokhale(参考訳) Exascaleコンピューティングが現実になるにつれて、クラウドデータセンターにおける計算ノードのエネルギー需要は増え続けるだろう。 このエネルギー需要を減らす一般的なアプローチは、ワークロードがシステム内の他の場所でボトルネックが発生している場合に、ハードウェアコンポーネントの消費電力を制限することである。 しかし、オンザフライで消費電力を検出し制限できるリソースコントローラの設計は複雑な問題であり、アプリケーションパフォーマンスにも悪影響を及ぼす可能性がある。 本稿では,現在の電力消費と瞬時アプリケーション性能(heartbeats)の観測結果を用いて,クラウド計算ノードの電力キャッピングポリシを設計するための強化学習(rl)の利用について検討する。 本稿では,Argo Node Resource Management (NRM) ソフトウェアスタックと Intel Runing Average Power Limit (RAPL) ハードウェア制御機構を併用して,アプリケーションの性能を損なうことなくプロセッサに供給される最大電力を制御するエージェントを設計する。 本稿では,ppoエージェントを用いて計算ノード数理モデルにおける最適ポリシーを学習し,実ハードウェア上で動作する訓練エージェントが消費電力とアプリケーション性能のバランスをとることでどのように行動するかをストリームベンチマークを用いて実証し,評価する。

As Exascale computing becomes a reality, the energy needs of compute nodes in cloud data centers will continue to grow. A common approach to reducing this energy demand is to limit the power consumption of hardware components when workloads are experiencing bottlenecks elsewhere in the system. However, designing a resource controller capable of detecting and limiting power consumption on-the-fly is a complex issue and can also adversely impact application performance. In this paper, we explore the use of Reinforcement Learning (RL) to design a power capping policy on cloud compute nodes using observations on current power consumption and instantaneous application performance (heartbeats). By leveraging the Argo Node Resource Management (NRM) software stack in conjunction with the Intel Running Average Power Limit (RAPL) hardware control mechanism, we design an agent to control the maximum supplied power to processors without compromising on application performance. Employing a Proximal Policy Optimization (PPO) agent to learn an optimal policy on a mathematical model of the compute nodes, we demonstrate and evaluate using the STREAM benchmark how a trained agent running on actual hardware can take actions by balancing power consumption and application performance.
翻訳日:2023-08-17 15:23:12 公開日:2023-08-15
# コストジレンマ:大規模言語モデルの一般化、評価、コスト最適展開

The Costly Dilemma: Generalization, Evaluation and Cost-Optimal Deployment of Large Language Models ( http://arxiv.org/abs/2308.08061v1 )

ライセンス: Link先を確認
Abi Aryan, Aakash Kumar Nain, Andrew McMahon, Lucas Augusto Meyer, Harpreet Singh Sahota(参考訳) 製品/アプリケーションの実運用環境に機械学習モデルをデプロイする場合、一般的に望まれる3つの特性がある。 まず、ドメイン領域に関する知識が発展するにつれて、さらにユースケースに拡張できるモデルが一般化されるべきです。 第二に、パフォーマンスの明確な指標と製品設定でのメトリクスの計算が実現可能であるように、彼らは回避可能であるべきです。 最後に、デプロイメントは可能な限りコスト最適であるべきです。 本稿では,これらの3つの目的(一般化,評価,コスト最適性)は比較的直交的であり,大規模言語モデルでは従来のNLPモデルよりも性能が高いにもかかわらず,企業が本技術に実質的な投資を行う前に,これら3つの要因をすべて慎重に評価する必要があることを提案する。 本稿では,大規模言語モデルに特化した一般化,評価,コストモデリングのためのフレームワークを提案し,これら大規模言語モデルの開発と展開,管理の複雑さについて考察する。

When deploying machine learning models in production for any product/application, there are three properties that are commonly desired. First, the models should be generalizable, in that we can extend it to further use cases as our knowledge of the domain area develops. Second they should be evaluable, so that there are clear metrics for performance and the calculation of those metrics in production settings are feasible. Finally, the deployment should be cost-optimal as far as possible. In this paper we propose that these three objectives (i.e. generalization, evaluation and cost-optimality) can often be relatively orthogonal and that for large language models, despite their performance over conventional NLP models, enterprises need to carefully assess all the three factors before making substantial investments in this technology. We propose a framework for generalization, evaluation and cost-modeling specifically tailored to large language models, offering insights into the intricacies of development, deployment and management for these large language models.
翻訳日:2023-08-17 15:22:50 公開日:2023-08-15
# ゼロ膨張ポアソンモデルを用いたロバストベイズテンソル因子分解とコンセンサス集計

Robust Bayesian Tensor Factorization with Zero-Inflated Poisson Model and Consensus Aggregation ( http://arxiv.org/abs/2308.08060v1 )

ライセンス: Link先を確認
Daniel Chafamo, Vignesh Shanmugam, Neriman Tokcan(参考訳) テンソル分解(TF)は多次元データの効率的な表現と解析のための強力なツールである。 しかし、単一セルRNAシークエンシング(scRNA-seq)データなどのゼロインフレーションカウントデータに適用した場合、最大推定値に基づく古典的なTF法は、性能が低い。 さらに、TFに固有の確率性は、繰り返し実行毎に異なる要因をもたらし、結果の解釈と再現性が困難になる。 本稿では,過剰な零点を持つ高次元カウントデータの因子分解に対する新しいアプローチである,ゼロ膨張ポアソンテンソル因子分解(ziptf)を提案する。 確率性の課題を解決するために,ZIPTFと合意に基づくメタ分析を組み合わせたConsensus Zero Inflated Poisson Tensor Factorization (C-ZIPTF)を導入する。 提案したZIPTFとC-ZIPTFを合成ゼロインフレーションカウントデータと合成および実scRNA-seqデータに基づいて評価した。 ZIPTFは、ゼロインフレドデータの再構成精度の観点から、ベースライン行列とテンソル分解法を一貫して上回る。 余剰ゼロの確率が高い場合、ZIPTFは最大2.4\times$より精度が良い。 さらに、C-ZIPTFは分解の一貫性と精度を大幅に改善する。 合成および実scRNA-seqデータの両方で試験すると、ZIPTFとC-ZIPTFは、既知の生物学的に意味のある遺伝子発現プログラムを一貫して回復する。

Tensor factorizations (TF) are powerful tools for the efficient representation and analysis of multidimensional data. However, classic TF methods based on maximum likelihood estimation underperform when applied to zero-inflated count data, such as single-cell RNA sequencing (scRNA-seq) data. Additionally, the stochasticity inherent in TFs results in factors that vary across repeated runs, making interpretation and reproducibility of the results challenging. In this paper, we introduce Zero Inflated Poisson Tensor Factorization (ZIPTF), a novel approach for the factorization of high-dimensional count data with excess zeros. To address the challenge of stochasticity, we introduce Consensus Zero Inflated Poisson Tensor Factorization (C-ZIPTF), which combines ZIPTF with a consensus-based meta-analysis. We evaluate our proposed ZIPTF and C-ZIPTF on synthetic zero-inflated count data and synthetic and real scRNA-seq data. ZIPTF consistently outperforms baseline matrix and tensor factorization methods in terms of reconstruction accuracy for zero-inflated data. When the probability of excess zeros is high, ZIPTF achieves up to $2.4\times$ better accuracy. Additionally, C-ZIPTF significantly improves the consistency and accuracy of the factorization. When tested on both synthetic and real scRNA-seq data, ZIPTF and C-ZIPTF consistently recover known and biologically meaningful gene expression programs.
翻訳日:2023-08-17 15:22:32 公開日:2023-08-15
# 量子相互情報の自然軌道とスパーシティ

Natural orbitals and sparsity of quantum mutual information ( http://arxiv.org/abs/2308.08056v1 )

ライセンス: Link先を確認
Leonardo Ratini, Chiara Capecci, Leonardo Guidoni(参考訳) 電子構造と量子化学において、基底状態の1粒子還元密度行列を対角化する(分子)軌道として定義される自然軌道は、電子相関を記述するための完全な基準軌道であると何十年も推測されてきた。 本研究では,Wavefunction-Adapted Hamiltonian Through Orbital Rotation (WAHTOR) 法を適用し,量子コンピューティングにおける相関した経験的アンス・アッツの研究を行った。 すべての代表的な分子において、収束した軌道が自然軌道と一致することを示す。 興味深いことに、そのような軌道上に構築された結果の量子相互情報行列も極端にスパースであり、そのような軌道選択が電子相関を記述するための最適な基底を与えることができるという明確なイメージを提供する。 したがって、相関は量子相互情報行列に寄与する量子ビット対の少ない数で符号化される。

Natural orbitals, defined in electronic structure and quantum chemistry as the (molecular) orbitals diagonalizing the one-particle reduced density matrix of the ground state, have been conjectured for decades to be the perfect reference orbitals to describe electron correlation. In the present work we applied the Wavefunction-Adapted Hamiltonian Through Orbital Rotation (WAHTOR) method to study correlated empirical ans\"atze for quantum computing. In all representative molecules considered, we show that the converged orbitals are coinciding with natural orbitals. Interestingly, the resulting quantum mutual information matrix built on such orbitals is also maximally sparse, providing a clear picture that such orbital choice is indeed able to provide the optimal basis to describe electron correlation. The correlation is therefore encoded in a smaller number of qubit pairs contributing to the quantum mutual information matrix.
翻訳日:2023-08-17 15:22:06 公開日:2023-08-15
# oracleによるシンプルなオンライン学習

Simple online learning with consistency oracle ( http://arxiv.org/abs/2308.08055v1 )

ライセンス: Link先を確認
Alexander Kozachinskiy, Tomasz Steifer(参考訳) オンライン学習は、学習アルゴリズムが一貫性の神託(oracle)を通じてのみクラスにアクセスすることができるモデルにおいて検討する。 このモデルはAssosらによって最近検討された(COLT'23)。 これは、オンライン学習の標準的な方法がサブクラスのリトルストーン次元の計算に依存しているという事実に動機づけられている。 assosらはこのモデルでオンライン学習アルゴリズムを提供し、リトルストーン次元のクラスに対して最大$c^d$の誤りを生じさせる。 我々は少なくとも$O(256^d)$ミスを犯す新しいアルゴリズムを与える。 この証明は非常に単純であり、リトルストーン次元の非常に基本的な性質のみを用いる。 また、このモデルには、少なくとも2^{d+1}-2$の誤りを犯すアルゴリズムが存在しないことも観察する。 また、我々のアルゴリズム(Assosらのアルゴリズムと同様に)がHasratiとBen-David(ALT'23)によるオープンな問題を解くことも観察した。 すなわち、再帰的可算表現を持つ有限小石次元のすべてのクラスは、計算可能なオンライン学習者(非実現可能なサンプルでは定義できないかもしれない)を認める。

We consider online learning in the model where a learning algorithm can access the class only via the consistency oracle -- an oracle, that, at any moment, can give a function from the class that agrees with all examples seen so far. This model was recently considered by Assos et al. (COLT'23). It is motivated by the fact that standard methods of online learning rely on computing the Littlestone dimension of subclasses, a problem that is computationally intractable. Assos et al. gave an online learning algorithm in this model that makes at most $C^d$ mistakes on classes of Littlestone dimension $d$, for some absolute unspecified constant $C > 0$. We give a novel algorithm that makes at most $O(256^d)$ mistakes. Our proof is significantly simpler and uses only very basic properties of the Littlestone dimension. We also observe that there exists no algorithm in this model that makes at most $2^{d+1}-2$ mistakes. We also observe that our algorithm (as well as the algorithm of Assos et al.) solves an open problem by Hasrati and Ben-David (ALT'23). Namely, it demonstrates that every class of finite Littlestone dimension with recursively enumerable representation admits a computable online learner (that may be undefined on unrealizable samples).
翻訳日:2023-08-17 15:21:53 公開日:2023-08-15
# 確率的変分推論のためのブラックボックス推定器としての自然進化戦略

Natural Evolution Strategies as a Black Box Estimator for Stochastic Variational Inference ( http://arxiv.org/abs/2308.08053v1 )

ライセンス: Link先を確認
Ahmad Ayaz Amin(参考訳) 確率的変分推論とその変分オートエンコーダの形での導出は、大規模なデータセット上で効率的な方法でベイズ推論を行うことができる。 しかしながら、VAEで推論を行うには、偏りのない低分散勾配推定を可能にする設計選択(すなわち再パラメータ化トリック)が必要であり、生成可能なモデルのタイプを制限する。 この課題を克服するために,自然進化戦略に基づく代替推定器を提案する。 この推定器は使用される分布の種類を仮定せず、vaeフレームワークの下では不可能だったモデルの作成を可能にする。

Stochastic variational inference and its derivatives in the form of variational autoencoders enjoy the ability to perform Bayesian inference on large datasets in an efficient manner. However, performing inference with a VAE requires a certain design choice (i.e. reparameterization trick) to allow unbiased and low variance gradient estimation, restricting the types of models that can be created. To overcome this challenge, an alternative estimator based on natural evolution strategies is proposed. This estimator does not make assumptions about the kind of distributions used, allowing for the creation of models that would otherwise not have been possible under the VAE framework.
翻訳日:2023-08-17 15:21:30 公開日:2023-08-15
# 非バイアス決定は後悔を減らす:銀行ローン問題に対する敵対的ドメイン適応

Unbiased Decisions Reduce Regret: Adversarial Domain Adaptation for the Bank Loan Problem ( http://arxiv.org/abs/2308.08051v1 )

ライセンス: Link先を確認
Elena Gal, Shaun Singh, Aldo Pacchiano, Ben Walker, Terry Lyons, Jakob Foerster(参考訳) 多くの実世界では、バイナリ分類の決定は、例えばローンアプリケーションを評価する際に、ほぼリアルタイムで限られたデータに基づいて行われる。 真のラベルは、データポイントがプリンシパルによってポジティブなラベルに割り当てられたときにのみ観察されます。例えば、申請者がローンの申請を受け入れた場合にデフォルトかどうかを判断するだけです。 その結果、偽の拒絶は自己申告となり、モデル決定によって継続的に更新されるラベル付きトレーニングセットがバイアスを蓄積させる。 先行作業は、モデルに楽観主義を注入することでこの効果を緩和するが、これは偽の受け入れ率の増加のコストによって生じる。 アドバサリアン・オプティミズム(adversarial optimism,adopt)を導入し,アドバサリアン・ドメイン適応を用いたトレーニングセットのバイアスに直接対処する。 AdOptの目標は、受け入れられたデータポイントの集合とこれまで見てきたすべてのデータポイントの間の分散シフトを減らすことで、過去のデータのバイアスのない、情報のない表現を学ぶことである。 AdOptは、一連の挑戦的なベンチマーク問題において最先端のパフォーマンスを大幅に上回る。 また,本実験では,敵領域適応の導入により,公平性が向上することを示す。

In many real world settings binary classification decisions are made based on limited data in near real-time, e.g. when assessing a loan application. We focus on a class of these problems that share a common feature: the true label is only observed when a data point is assigned a positive label by the principal, e.g. we only find out whether an applicant defaults if we accepted their loan application. As a consequence, the false rejections become self-reinforcing and cause the labelled training set, that is being continuously updated by the model decisions, to accumulate bias. Prior work mitigates this effect by injecting optimism into the model, however this comes at the cost of increased false acceptance rate. We introduce adversarial optimism (AdOpt) to directly address bias in the training set using adversarial domain adaptation. The goal of AdOpt is to learn an unbiased but informative representation of past data, by reducing the distributional shift between the set of accepted data points and all data points seen thus far. AdOpt significantly exceeds state-of-the-art performance on a set of challenging benchmark problems. Our experiments also provide initial evidence that the introduction of adversarial domain adaptation improves fairness in this setting.
翻訳日:2023-08-17 15:21:21 公開日:2023-08-15
# 統合CTCと補助損失正規化によるCTC-AEDモデルの改善

Improving CTC-AED model with integrated-CTC and auxiliary loss regularization ( http://arxiv.org/abs/2308.08449v1 )

ライセンス: Link先を確認
Daobin Zhu, Xiangdong Su and Hongbin Zhang(参考訳) コネクショニスト時間分類 (ctc) と注意型エンコーダデコーダ (aed) の合同訓練は自動音声認識 (asr) に広く適用されている。 CTCとAEDの損失を別々に計算するほとんどのハイブリッドモデルとは異なり、提案した統合CTCはAEDの注意機構を利用してCTCの出力を誘導する。 本稿では,ロジットの直接付加(DAL)と最大確率保存(PMP)の2つの融合手法を用いる。 我々は,CTCの寸法に適合するように注意結果を適応的にアフィン変換することで,次元整合性を実現する。 モデル収束を高速化し、精度を向上させるため、加速収束のための補助損失正規化を導入する。 実験の結果, pmp法がctcプレフィックスビーム探索や欲望探索に優れているのに対し, dal法の方が注意喚起に優れることがわかった。

Connectionist temporal classification (CTC) and attention-based encoder decoder (AED) joint training has been widely applied in automatic speech recognition (ASR). Unlike most hybrid models that separately calculate the CTC and AED losses, our proposed integrated-CTC utilizes the attention mechanism of AED to guide the output of CTC. In this paper, we employ two fusion methods, namely direct addition of logits (DAL) and preserving the maximum probability (PMP). We achieve dimensional consistency by adaptively affine transforming the attention results to match the dimensions of CTC. To accelerate model convergence and improve accuracy, we introduce auxiliary loss regularization for accelerated convergence. Experimental results demonstrate that the DAL method performs better in attention rescoring, while the PMP method excels in CTC prefix beam search and greedy search.
翻訳日:2023-08-17 12:56:25 公開日:2023-08-15
# ファイナンスにおけるQuantum Generative Adversarial Network(qGAN)とQCBMの実装

Implementing Quantum Generative Adversarial Network (qGAN) and QCBM in Finance ( http://arxiv.org/abs/2308.08448v1 )

ライセンス: Link先を確認
Santanu Ganguly(参考訳) 量子機械学習(QML)は、量子コンピューティングと古典的機械学習(ML)という2つの最もエキサイティングな研究領域からなる学際的な主題である。 量子コンピュータは今日、薬物発見、物質と分子モデリング、ファイナンスで使われている。 本稿では、金融分野における量子機械学習(QML)の適用について、今後の活発な研究分野について論じる。 様々な応用の金融界に積極的に関心を寄せる分野となった特定のQMLモデルについて論じる。 実世界の金融データセットを用いて,シミュレーション環境を用いてqgan(quantum generative adversarial networks)やqcbm(quantum circuit born machine)などのモデルを比較する。 我々は,qGANについて,識別器とジェネレータの量子回路を定義し,ファイナンスにおけるQMLによる将来の量子優位性を示す。

Quantum machine learning (QML) is a cross-disciplinary subject made up of two of the most exciting research areas: quantum computing and classical machine learning (ML), with ML and artificial intelligence (AI) being projected as the first fields that will be impacted by the rise of quantum machines. Quantum computers are being used today in drug discovery, material & molecular modelling and finance. In this work, we discuss some upcoming active new research areas in application of quantum machine learning (QML) in finance. We discuss certain QML models that has become areas of active interest in the financial world for various applications. We use real world financial dataset and compare models such as qGAN (quantum generative adversarial networks) and QCBM (quantum circuit Born machine) among others, using simulated environments. For the qGAN, we define quantum circuits for discriminators and generators and show promises of future quantum advantage via QML in finance.
翻訳日:2023-08-17 12:56:09 公開日:2023-08-15
# 最短経路

Tightest Admissible Shortest Path ( http://arxiv.org/abs/2308.08453v1 )

ライセンス: Link先を確認
Eyal Weiss, Ariel Felner, Gal A. Kaminka(参考訳) グラフにおける最短経路問題はAIの基本である。 問題のほとんど全ての変種とそれを解決する関連するアルゴリズムは、エッジウェイト計算時間とその重みの不確かさとの共通関係を無視している。 これは、これらの要因を考慮に入れれば、関連するアプリケーションのパフォーマンスが向上する可能性があることを意味する。 近年,重み付き有向グラフの一般化フレームワークが提案され,エッジウェイトを複数回(推定)し,精度の向上と実行時費用の増大を図った。 我々は,最短最短経路 (TASP) を最適コストに縛られた最短経路 (TASP) を求める問題を提起するために,この枠組みを構築した。 これは、エッジウェイト不確実性を計算コストで交換できる境界不確実性への最短経路問題の一般化である。 我々は、ソリューションの品質を保証し、TASPを解くための完全なアルゴリズムを提案する。 経験的評価はこのアプローチの有効性を支持する。

The shortest path problem in graphs is fundamental to AI. Nearly all variants of the problem and relevant algorithms that solve them ignore edge-weight computation time and its common relation to weight uncertainty. This implies that taking these factors into consideration can potentially lead to a performance boost in relevant applications. Recently, a generalized framework for weighted directed graphs was suggested, where edge-weight can be computed (estimated) multiple times, at increasing accuracy and run-time expense. We build on this framework to introduce the problem of finding the tightest admissible shortest path (TASP); a path with the tightest suboptimality bound on the optimal cost. This is a generalization of the shortest path problem to bounded uncertainty, where edge-weight uncertainty can be traded for computational cost. We present a complete algorithm for solving TASP, with guarantees on solution quality. Empirical evaluation supports the effectiveness of this approach.
翻訳日:2023-08-17 12:42:56 公開日:2023-08-15
# クリックスルーレート予測のための時間的関心ネットワーク

Temporal Interest Network for Click-Through Rate Prediction ( http://arxiv.org/abs/2308.08487v1 )

ライセンス: Link先を確認
Haolin Zhou, Junwei Pan, Xinyi Zhou, Xihua Chen, Jie Jiang, Xiaofeng Gao, Guihai Chen(参考訳) ユーザ行動の歴史は,クリックスルー率(CTR)を予測する上で最も重要な特徴の1つである。 文献はそれぞれの相関関係を個別に検討しているが、研究はこれらの相関関係(行動意味論、標的意味論、行動時間論、対象時間論)を組み合わせて分析していない。 この相関が既存の手法が学習する程度や性能に与える影響はいまだ不明である。 このギャップに対処するために、経験的に四重相関を計測し、直感的で頑健な四重相関パターンを観察する。 いくつかの代表的なユーザ行動手法の学習相関を計測するが、意外なことに、そのようなパターン、特に時間的パターンを学習する者はいない。 本稿では,行動と対象の時間的相関と4重意味を捉えるための時間的関心ネットワーク(TIN)を提案する。 これを実現するために,意味的埋め込みに加えて,対象を意識したテンポラルエンコーディングを組み込んで行動や対象を表現する。 さらに、4方向インタラクションを明示的に行うために、ターゲット対応の注意とターゲット対応の表現を配置する。 AmazonとAlibabaのデータセットで包括的な評価を行いました。 提案したTINは,2つのデータセットでそれぞれ0.43\%,0.29\%の最高性能のベースラインを上回った。 包括的解析と可視化は、TINが4重相関を効果的に学習できることを示したが、既存の手法は全てそうはならなかった。 我々はTensorflowにおけるTINの実装を提供します。

The history of user behaviors constitutes one of the most significant characteristics in predicting the click-through rate (CTR), owing to their strong semantic and temporal correlation with the target item. While the literature has individually examined each of these correlations, research has yet to analyze them in combination, that is, the quadruple correlation of (behavior semantics, target semantics, behavior temporal, and target temporal). The effect of this correlation on performance and the extent to which existing methods learn it remain unknown. To address this gap, we empirically measure the quadruple correlation and observe intuitive yet robust quadruple patterns. We measure the learned correlation of several representative user behavior methods, but to our surprise, none of them learn such a pattern, especially the temporal one. In this paper, we propose the Temporal Interest Network (TIN) to capture the quadruple semantic and temporal correlation between behaviors and the target. We achieve this by incorporating target-aware temporal encoding, in addition to semantic embedding, to represent behaviors and the target. Furthermore, we deploy target-aware attention, along with target-aware representation, to explicitly conduct the 4-way interaction. We performed comprehensive evaluations on the Amazon and Alibaba datasets. Our proposed TIN outperforms the best-performing baselines by 0.43\% and 0.29\% on two datasets, respectively. Comprehensive analysis and visualization show that TIN is indeed capable of learning the quadruple correlation effectively, while all existing methods fail to do so. We provide our implementation of TIN in Tensorflow.
翻訳日:2023-08-17 12:35:48 公開日:2023-08-15
# MaxSATによる安定化器符号の最適合成

Optimal Synthesis of Stabilizer Codes via MaxSAT ( http://arxiv.org/abs/2308.06428v2 )

ライセンス: Link先を確認
Keyi Yin, Hezi Zhang, Yunong Shi, Travis Humble, Ang Li, Yufei Ding(参考訳) 量子誤り訂正(QEC)符号は、長期にわたってフォールトトレラント量子コンピューティングを達成するために重要である。 しかし、ハードウェア上でこれらのコードを効率的に実装するには、ハードウェア接続マッチング、効率的な回路スケジューリング、フォールトトレランス強制など、重大な課題がある。 本研究では,maxsatを用いて汎用安定化器コードを多種多様なハードウェア構造に縫い付ける最適合成器を提案する。 本評価は,(1)様々なコードやデバイスに適用するアプローチの能力,(2)特定のqec符号のみを対象とする最善の事前ヒューリスティックアプローチよりも一貫して優れた効率を示す。 高レベルのQECコード設計と低レベルのハードウェア制約のギャップを埋めることにより、この作業は長期のフォールトトレラントな量子コンピューティング目標を達成するための道を開く。

Quantum Error Correction (QEC) codes are crucial for achieving fault-tolerant quantum computing in the long term. However, efficiently implementing these codes on hardware poses significant challenges, including hardware connectivity matching, efficient circuit scheduling, and fault-tolerance enforcement. In this study, we present an optimal synthesizer that stitches generic stabilizer codes onto diverse hardware structures via MaxSAT. Our evaluation demonstrates (1) the capability of our approach to be applied for various codes and devices and (2) the consistently better efficiency than the best prior heuristic approaches that only target specific QEC codes. By bridging the gap between high-level QEC code design and low-level hardware constraints, this work paves the way toward achieving long-term fault-tolerant quantum computing goals.
翻訳日:2023-08-17 10:31:10 公開日:2023-08-15
# シングルショットデフレクトメトリーによる高密度3次元表面再構成からの正確な視線追跡

Accurate Eye Tracking from Dense 3D Surface Reconstructions using Single-Shot Deflectometry ( http://arxiv.org/abs/2308.07298v2 )

ライセンス: Link先を確認
Jiazhang Wang, Tianfu Wang, Bingjie Xu, Oliver Cossairt, Florian Willomitzer(参考訳) 視線追跡は、仮想現実デバイス、神経科学研究、心理学の発展において重要な役割を果たす。 多くのアプリケーションでその重要性はあったが、正確で堅牢で高速な視線追跡ソリューションの実現は、現在の最先端の手法にとって大きな課題である。 既存の反射に基づく技術(例えば「グリントトラッキング」)は最も正確であると考えられているが、その性能は角膜表面からのみ取得されたスパース3D表面データに依存しているため限られている。 本稿では,視線追跡における鏡面反射の応用法を再考し,単発位相計測法(pmd)からの指導を生かした視線方向の高精度かつ高速評価法を提案する。 現状の反射法とは対照的に,本手法は1枚のカメラフレーム(単一ショット)で角膜と頭蓋の密集した3次元表面情報を取得する。 取得された係数$>3300 \times$の反射面点("glints")の改善は容易に達成できる。 実験で評価した視線誤差は$\leq 0.25^\circ$であり,現状よりも大幅に改善した。

Eye-tracking plays a crucial role in the development of virtual reality devices, neuroscience research, and psychology. Despite its significance in numerous applications, achieving an accurate, robust, and fast eye-tracking solution remains a considerable challenge for current state-of-the-art methods. While existing reflection-based techniques (e.g., "glint tracking") are considered the most accurate, their performance is limited by their reliance on sparse 3D surface data acquired solely from the cornea surface. In this paper, we rethink the way how specular reflections can be used for eye tracking: We propose a novel method for accurate and fast evaluation of the gaze direction that exploits teachings from single-shot phase-measuring-deflectometry (PMD). In contrast to state-of-the-art reflection-based methods, our method acquires dense 3D surface information of both cornea and sclera within only one single camera frame (single-shot). Improvements in acquired reflection surface points("glints") of factors $>3300 \times$ are easily achievable. We show the feasibility of our approach with experimentally evaluated gaze errors of only $\leq 0.25^\circ$ demonstrating a significant improvement over the current state-of-the-art.
翻訳日:2023-08-17 10:22:11 公開日:2023-08-15
# LCE: Pythonにおけるバッグングとブースティングの強化された組み合わせ

LCE: An Augmented Combination of Bagging and Boosting in Python ( http://arxiv.org/abs/2308.07250v2 )

ライセンス: Link先を確認
Kevin Fauvel, \'Elisa Fromont, V\'eronique Masson, Philippe Faverdin and Alexandre Termier(参考訳) lcensembleは、分類と回帰の一般的なタスクのための、高性能でスケーラブルでユーザフレンドリーなpythonパッケージである。 このパッケージは、現在の最先端メソッドであるRandom ForestとXGBoostの予測性能をさらに向上する機械学習手法であるLocal Cascade Ensemble (LCE)を実装している。 LCEはその強みを結合し、より良い一般化予測子を得るために相補的な多様化アプローチを採用する。 パッケージはScikit-learnと互換性があるため、Scikit-learnパイプラインやモデル選択ツールと対話することができる。 Apache 2.0ライセンス下で配布されており、ソースコードはhttps://github.com/LocalCascadeEnsemble/LCEで入手できる。

lcensemble is a high-performing, scalable and user-friendly Python package for the general tasks of classification and regression. The package implements Local Cascade Ensemble (LCE), a machine learning method that further enhances the prediction performance of the current state-of-the-art methods Random Forest and XGBoost. LCE combines their strengths and adopts a complementary diversification approach to obtain a better generalizing predictor. The package is compatible with scikit-learn, therefore it can interact with scikit-learn pipelines and model selection tools. It is distributed under the Apache 2.0 license, and its source code is available at https://github.com/LocalCascadeEnsemble/LCE.
翻訳日:2023-08-17 10:21:28 公開日:2023-08-15
# 胃組織学学習のためのマルチスケールハイブリッド視覚トランスフォーマ--胃癌治療のためのaiに基づく意思決定支援システム

Multi-Scale Hybrid Vision Transformer for Learning Gastric Histology: AI-Based Decision Support System for Gastric Cancer Treatment ( http://arxiv.org/abs/2202.08510v4 )

ライセンス: Link先を確認
Yujin Oh, Go Eun Bae, Kyung-Hee Kim, Min-Kyung Yeo, Jong Chul Ye(参考訳) 胃内視鏡検査は早期に適切な胃癌(GC)治療を判定し,GC関連死亡率を低下させる有効な方法である。 人工知能(AI)は、病理学者がスライド画像全体をデジタル化するのを助けるという大きな約束をもたらしたが、既存のAIシステムは、微細ながんの亜分類に限られており、がん治療の計画にはほとんど利用できない。 本稿では,一般のGC治療指導と直接一致する5つのGC病理のサブ分類を可能にする実用的なAIシステムを提案する。 このaiシステムは、2段階のハイブリッドビジョントランスフォーマー(vit)ネットワークを用いたマルチスケールなセルフアテンション機構を通じて、人間の病理学者が組織学を理解する方法を模倣することにより、gcの多クラスを効率的に区別するように設計されている。 このAIシステムは、多中心コホートから合計1,212スライドで平均0.85以上のクラス平均感度を達成することにより、信頼性の高い診断性能を示す。 さらに,ai支援の病理学者は,診断感度が12%向上し,スクリーニング時間は18%低下した。 以上より,ai支援胃内視鏡スクリーニングは,胃癌の病理所見と適切な癌治療を実際的臨床環境に提供できる可能性が示唆された。

Gastric endoscopic screening is an effective way to decide appropriate gastric cancer (GC) treatment at an early stage, reducing GC-associated mortality rate. Although artificial intelligence (AI) has brought a great promise to assist pathologist to screen digitalized whole slide images, existing AI systems are limited in fine-grained cancer subclassifications and have little usability in planning cancer treatment. We propose a practical AI system that enables five subclassifications of GC pathology, which can be directly matched to general GC treatment guidance. The AI system is designed to efficiently differentiate multi-classes of GC through multi-scale self-attention mechanism using 2-stage hybrid Vision Transformer (ViT) networks, by mimicking the way how human pathologists understand histology. The AI system demonstrates reliable diagnostic performance by achieving class-average sensitivity of above 0.85 on a total of 1,212 slides from multicentric cohort. Furthermore, AI-assisted pathologists show significantly improved diagnostic sensitivity by 12% in addition to 18% reduced screening time compared to human pathologists. Our results demonstrate that AI-assisted gastric endoscopic screening has a great potential for providing presumptive pathologic opinion and appropriate cancer treatment of gastric cancer in practical clinical settings.
翻訳日:2023-08-16 17:58:37 公開日:2023-08-15
# 不完全データからの統計的モデル推定のための変分ギブス推定

Variational Gibbs Inference for Statistical Model Estimation from Incomplete Data ( http://arxiv.org/abs/2111.13180v4 )

ライセンス: Link先を確認
Vaidotas Simkus, Benjamin Rhodes, Michael U. Gutmann(参考訳) 統計モデルは、ダウンストリームタスクの幅広い適用性を備えた機械学習の中心である。 モデルは自由パラメータによって制御され、データから最大類似度推定や近似によって推定される。 しかし、現実のデータセットに直面すると、多くのモデルが重大な問題に直面する。それらは完全な観測データの観点から定式化されているのに対して、実際にはデータセットは欠落データに悩まされている。 不完全データからの統計モデル推定の理論は、変分推論(VI)のような強力なツールが存在する潜在変数モデルの推定と概念的に類似している。 しかし、標準の潜在変数モデルとは対照的に、不完全データを用いたパラメータ推定は、しばしば欠落変数の指数関数的に多くの条件分布を推定する必要がある。 不完全データから統計モデルのパラメータを推定する新しい汎用手法である変分ギブス推論(VGI)を導入することで、このギャップに対処する。 不完全データからの変分オートエンコーダや正規化フローなどの重要な機械学習モデルを推定し、VGIを一連の合成および実世界の推定タスクで検証する。 提案手法は汎用的ではあるが,既存のモデル固有推定法よりも競争力や性能が向上する。

Statistical models are central to machine learning with broad applicability across a range of downstream tasks. The models are controlled by free parameters that are typically estimated from data by maximum-likelihood estimation or approximations thereof. However, when faced with real-world data sets many of the models run into a critical issue: they are formulated in terms of fully-observed data, whereas in practice the data sets are plagued with missing data. The theory of statistical model estimation from incomplete data is conceptually similar to the estimation of latent-variable models, where powerful tools such as variational inference (VI) exist. However, in contrast to standard latent-variable models, parameter estimation with incomplete data often requires estimating exponentially-many conditional distributions of the missing variables, hence making standard VI methods intractable. We address this gap by introducing variational Gibbs inference (VGI), a new general-purpose method to estimate the parameters of statistical models from incomplete data. We validate VGI on a set of synthetic and real-world estimation tasks, estimating important machine learning models such as variational autoencoders and normalising flows from incomplete data. The proposed method, whilst general-purpose, achieves competitive or better performance than existing model-specific estimation methods.
翻訳日:2023-08-16 17:58:13 公開日:2023-08-15
# 因果図におけるクラスタリングと構造ロバスト性

Clustering and Structural Robustness in Causal Diagrams ( http://arxiv.org/abs/2111.04513v3 )

ライセンス: Link先を確認
Santtu Tikka and Jouni Helske and Juha Karvanen(参考訳) グラフは因果関係の表現と視覚化に一般的に使用される。 少数の変数に対して、このアプローチは、手元にあるシナリオの簡潔で明確なビューを提供する。 研究中の変数の数が増えるにつれて、グラフィカルなアプローチは現実的ではなくなり、表現の明確さは失われる。 変数のクラスタリングは因果図のサイズを減らす自然な方法であるが、任意に実装すれば、因果関係の本質的性質を誤って変更することができる。 我々は、特定の条件下で因果効果の識別可能性特性を保持できるトランジットクラスタと呼ばれる特定のタイプのクラスターを定義する。 与えられたグラフ内のすべてのトランジットクラスタを見つけ出すための健全で完全なアルゴリズムを提供し,因果効果の同定をクラスタ化がいかに簡単かを示す。 また,クラスターグラフから始まって,因果効果の識別可能性特性が変化しない拡張グラフを求める逆問題についても検討した。 このような構造的ロバスト性はトランジットクラスターと密接に関連している。

Graphs are commonly used to represent and visualize causal relations. For a small number of variables, this approach provides a succinct and clear view of the scenario at hand. As the number of variables under study increases, the graphical approach may become impractical, and the clarity of the representation is lost. Clustering of variables is a natural way to reduce the size of the causal diagram, but it may erroneously change the essential properties of the causal relations if implemented arbitrarily. We define a specific type of cluster, called transit cluster, that is guaranteed to preserve the identifiability properties of causal effects under certain conditions. We provide a sound and complete algorithm for finding all transit clusters in a given graph and demonstrate how clustering can simplify the identification of causal effects. We also study the inverse problem, where one starts with a clustered graph and looks for extended graphs where the identifiability properties of causal effects remain unchanged. We show that this kind of structural robustness is closely related to transit clusters.
翻訳日:2023-08-16 17:57:52 公開日:2023-08-15
# 画像処理メトリクスの一般的な制限:ピクチャーストーリー

Common Limitations of Image Processing Metrics: A Picture Story ( http://arxiv.org/abs/2104.05642v7 )

ライセンス: Link先を確認
Annika Reinke, Minu D. Tizabi, Carole H. Sudre, Matthias Eisenmann, Tim R\"adsch, Michael Baumgartner, Laura Acion, Michela Antonelli, Tal Arbel, Spyridon Bakas, Peter Bankhead, Arriel Benis, Matthew Blaschko, Florian B\"uttner, M. Jorge Cardoso, Jianxu Chen, Veronika Cheplygina, Evangelia Christodoulou, Beth Cimini, Gary S. Collins, Sandy Engelhardt, Keyvan Farahani, Luciana Ferrer, Adrian Galdran, Bram van Ginneken, Ben Glocker, Patrick Godau, Robert Haase, Fred Hamprecht, Daniel A. Hashimoto, Doreen Heckmann-N\"otzel, Peter Hirsch, Michael M. Hoffman, Merel Huisman, Fabian Isensee, Pierre Jannin, Charles E. Kahn, Dagmar Kainmueller, Bernhard Kainz, Alexandros Karargyris, Alan Karthikesalingam, A. Emre Kavur, Hannes Kenngott, Jens Kleesiek, Andreas Kleppe, Sven Kohler, Florian Kofler, Annette Kopp-Schneider, Thijs Kooi, Michal Kozubek, Anna Kreshuk, Tahsin Kurc, Bennett A. Landman, Geert Litjens, Amin Madani, Klaus Maier-Hein, Anne L. Martel, Peter Mattson, Erik Meijering, Bjoern Menze, David Moher, Karel G.M. Moons, Henning M\"uller, Brennan Nichyporuk, Felix Nickel, M. Alican Noyan, Jens Petersen, Gorkem Polat, Susanne M. Rafelski, Nasir Rajpoot, Mauricio Reyes, Nicola Rieke, Michael Riegler, Hassan Rivaz, Julio Saez-Rodriguez, Clara I. S\'anchez, Julien Schroeter, Anindo Saha, M. Alper Selver, Lalith Sharan, Shravya Shetty, Maarten van Smeden, Bram Stieltjes, Ronald M. Summers, Abdel A. Taha, Aleksei Tiulpin, Sotirios A. Tsaftaris, Ben Van Calster, Ga\"el Varoquaux, Manuel Wiesenfarth, Ziv R. Yaniv, Paul J\"ager, Lena Maier-Hein(参考訳) 自動画像解析の重要性は継続的に高まっているが、最近のメタリサーチにより、アルゴリズム検証に関する大きな欠陥が明らかになった。 パフォーマンスメトリクスは、特に、使用される自動アルゴリズムの有意義で客観的で透明なパフォーマンス評価と検証に重要であるが、特定の画像解析タスクに特定のメトリクスを使用する場合の実際の落とし穴には、比較的注意が払われていない。 これらは典型的には、(1)クラス不均衡や小さなターゲット構造の存在における振る舞いのような固有のメトリック特性の無視、(2)テストケースの非依存性のような固有のデータセットプロパティの無視、(3)メトリクスが反映すべき実際のバイオメディカルドメインの関心の無視に関係している。 この生きた動的文書は、画像分析の分野で一般的に適用されるパフォーマンスメトリクスの重要な制限を説明する目的を持っている。 この文脈では、画像レベルの分類、セマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出タスクと表現できるバイオメディカル画像解析の問題に焦点を当てている。 現在のバージョンは、世界中の60以上の機関からの画像分析専門家の国際コンソーシアムが実施したメトリクスに関するdelphiプロセスに基づいている。

While the importance of automatic image analysis is continuously increasing, recent meta-research revealed major flaws with respect to algorithm validation. Performance metrics are particularly key for meaningful, objective, and transparent performance assessment and validation of the used automatic algorithms, but relatively little attention has been given to the practical pitfalls when using specific metrics for a given image analysis task. These are typically related to (1) the disregard of inherent metric properties, such as the behaviour in the presence of class imbalance or small target structures, (2) the disregard of inherent data set properties, such as the non-independence of the test cases, and (3) the disregard of the actual biomedical domain interest that the metrics should reflect. This living dynamically document has the purpose to illustrate important limitations of performance metrics commonly applied in the field of image analysis. In this context, it focuses on biomedical image analysis problems that can be phrased as image-level classification, semantic segmentation, instance segmentation, or object detection task. The current version is based on a Delphi process on metrics conducted by an international consortium of image analysis experts from more than 60 institutions worldwide.
翻訳日:2023-08-16 17:57:01 公開日:2023-08-15
# 記憶と非確率制御による非定常オンライン学習

Non-stationary Online Learning with Memory and Non-stochastic Control ( http://arxiv.org/abs/2102.03758v4 )

ライセンス: Link先を確認
Peng Zhao and Yu-Hu Yan and Yu-Xiang Wang and Zhi-Hua Zhou(参考訳) 我々は,過去の決定に依拠した損失関数を記憶機能に組み込んだオンライン凸最適化(OCO)の問題について検討し,学習課題の時間的影響を捉える。 本稿では,非定常環境に頑健なアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。 本稿では,時間軸,非定常測度,メモリ長の観点で,最適な動的ポリシー後悔を味わうメモリ付きocoの新しいアルゴリズムを提案する。 技術的な課題は、スイッチングコストの制御方法、プレイヤーの決定の累積的な移動であり、ダイナミックポリシーの後悔の新たなメタベース分解と、スイッチングコストを明示的に定式化するメタリーナーとベースリーナーの注意深く設計された新しいスイッチングコストアウェアオンラインアンサンブルアプローチによってうまく対処される。 さらに, オンライン非定常制御 (agarwal et al., 2019) における非定常性,すなわち, 逆乱と凸コスト関数を伴う線形力学系を制御することに適用した。 オンラインの非確率的制御のための一連の変更ポリシーと競合する最初のコントローラである動的ポリシー後悔保証付き勾配ベースの新しいコントローラを導出する。

We study the problem of Online Convex Optimization (OCO) with memory, which allows loss functions to depend on past decisions and thus captures temporal effects of learning problems. In this paper, we introduce dynamic policy regret as the performance measure to design algorithms robust to non-stationary environments, which competes algorithms' decisions with a sequence of changing comparators. We propose a novel algorithm for OCO with memory that provably enjoys an optimal dynamic policy regret in terms of time horizon, non-stationarity measure, and memory length. The key technical challenge is how to control the switching cost, the cumulative movements of player's decisions, which is neatly addressed by a novel switching-cost-aware online ensemble approach equipped with a new meta-base decomposition of dynamic policy regret and a careful design of meta-learner and base-learner that explicitly regularizes the switching cost. The results are further applied to tackle non-stationarity in online non-stochastic control (Agarwal et al., 2019), i.e., controlling a linear dynamical system with adversarial disturbance and convex cost functions. We derive a novel gradient-based controller with dynamic policy regret guarantees, which is the first controller provably competitive to a sequence of changing policies for online non-stochastic control.
翻訳日:2023-08-16 17:56:30 公開日:2023-08-15
# 指数家族の十分な統計量による公正な密度向上

Fair Densities via Boosting the Sufficient Statistics of Exponential Families ( http://arxiv.org/abs/2012.00188v4 )

ライセンス: Link先を確認
Alexander Soen, Hisham Husain, Richard Nock(参考訳) 公平な事前処理のためのブースティングアルゴリズムを提案する。 最初の公平だが不正確な分布から始めて、私たちのアプローチは、公平さの最小保証を確保しながら、より良いデータ適合へとシフトします。 そのため、指数列の十分な統計をブースティング対応の収束で学習する。 重要なのは、理論上、学習された分布が表現率と統計速度データの公平性を保証することを証明できることである。 最近の最適化に基づく事前処理手法とは異なり、我々のアプローチは連続的なドメイン機能に容易に適応できる。 さらに、弱い学習者が決定木であると特定された場合、学習された分布の十分な統計データを調べ、(不公平な)情報源について手がかりを与えることができる。 実世界のデータに結果の品質を示す実験結果が提示される。

We introduce a boosting algorithm to pre-process data for fairness. Starting from an initial fair but inaccurate distribution, our approach shifts towards better data fitting while still ensuring a minimal fairness guarantee. To do so, it learns the sufficient statistics of an exponential family with boosting-compliant convergence. Importantly, we are able to theoretically prove that the learned distribution will have a representation rate and statistical rate data fairness guarantee. Unlike recent optimization based pre-processing methods, our approach can be easily adapted for continuous domain features. Furthermore, when the weak learners are specified to be decision trees, the sufficient statistics of the learned distribution can be examined to provide clues on sources of (un)fairness. Empirical results are present to display the quality of result on real-world data.
翻訳日:2023-08-16 17:56:05 公開日:2023-08-15
# ResNetブロックとしてのテンプレートマッチングによる特徴埋め込み

Feature Embedding by Template Matching as a ResNet Block ( http://arxiv.org/abs/2210.00992v2 )

ライセンス: Link先を確認
Ada Gorgun, Yeti Z. Gurbuz, A. Aydin Alatan(参考訳) 畳み込みブロックは局所的な特徴抽出となり、ニューラルネットワークの成功の鍵となる。 ローカルなセマンティックな特徴の埋め込みを明示的にするために、最適なマッチングカーネルに従って、畳み込みブロックを特徴選択として再構成する。 このようにして、典型的なResNetブロックは、バッチ正規化(BN)後、修正線形単位(ReLU)がarg-maxオプティマイザとして解釈されるとき、テンプレートマッチング(BN)を介して局所的特徴埋め込みを行う。 この観点から,ラベル情報を用いて意味的に意味のある局所的特徴埋め込みを明示的に強制する残余ブロックの調整を行う。 具体的には、対応する領域が一致するクラスに応じて、各局所領域に特徴ベクトルを割り当てる。 本手法は,画像分類のための複数のアーキテクチャを持つ3つの人気のあるベンチマークデータセット上で評価し,ベースラインアーキテクチャの性能を実質的に改善することを示す。

Convolution blocks serve as local feature extractors and are the key to success of the neural networks. To make local semantic feature embedding rather explicit, we reformulate convolution blocks as feature selection according to the best matching kernel. In this manner, we show that typical ResNet blocks indeed perform local feature embedding via template matching once batch normalization (BN) followed by a rectified linear unit (ReLU) is interpreted as arg-max optimizer. Following this perspective, we tailor a residual block that explicitly forces semantically meaningful local feature embedding through using label information. Specifically, we assign a feature vector to each local region according to the classes that the corresponding region matches. We evaluate our method on three popular benchmark datasets with several architectures for image classification and consistently show that our approach substantially improves the performance of the baseline architectures.
翻訳日:2023-08-16 17:48:54 公開日:2023-08-15
# R2C-GAN:Blind X線修復とCOVID-19分類のためのGANの復元

R2C-GAN: Restore-to-Classify GANs for Blind X-Ray Restoration and COVID-19 Classification ( http://arxiv.org/abs/2209.14770v2 )

ライセンス: Link先を確認
Mete Ahishali, Aysen Degerli, Serkan Kiranyaz, Tahir Hamid, Rashid Mazhar, Moncef Gabbouj(参考訳) 品質の悪い画像と混合した人工物の復元は、信頼性の高い診断に不可欠な役割を担っている。 既存の研究は、通常、アーティファクトの種類と重大さに強い仮定がある画像のデブラリング、ノイズ除去、露出補正などの特定の修復問題に焦点を当てている。 ブラインドx線修復の先駆的研究として,汎用的な画像復元と分類のための共同モデル,restore-to-classify generative adversarial networks (r2c-gans)を提案する。 このような共同で最適化されたモデルは、回復後に病気を無傷に保つ。 そのため,X線画像の画質の向上により診断性能が向上する。 この目的を達成するために,画像から画像への変換問題として,ノイズやぼやけた画像,あるいは露出の過剰な画像から高画質の画像領域への復元タスクを定義する。 提案したR2C-GANモデルは、未ペアトレーニングサンプルを用いて、2つの領域間の前方および逆変換を学習することができる。 同時に、関節分類は修復中に疾患のラベルを保存する。 さらに、R2C-GANは、ネットワーク深度を低減し、復元性能と分類性能をさらに向上させる運用層/ニューロンを備えている。 提案した関節モデルは、コロナウイルス病2019(COVID-19)分類のためのQaTa-COV19データセットで広範囲に評価されている。 提案手法では, 90%以上のF1スコアが得られた。 さらに、定性分析では、R2C-GANの修復性能が医師のグループによって承認される。 ソフトウェアの実装はhttps://github.com/meteahishali/R2C-GANで公開しています。

Restoration of poor quality images with a blended set of artifacts plays a vital role for a reliable diagnosis. Existing studies have focused on specific restoration problems such as image deblurring, denoising, and exposure correction where there is usually a strong assumption on the artifact type and severity. As a pioneer study in blind X-ray restoration, we propose a joint model for generic image restoration and classification: Restore-to-Classify Generative Adversarial Networks (R2C-GANs). Such a jointly optimized model keeps any disease intact after the restoration. Therefore, this will naturally lead to a higher diagnosis performance thanks to the improved X-ray image quality. To accomplish this crucial objective, we define the restoration task as an Image-to-Image translation problem from poor quality having noisy, blurry, or over/under-exposed images to high quality image domain. The proposed R2C-GAN model is able to learn forward and inverse transforms between the two domains using unpaired training samples. Simultaneously, the joint classification preserves the disease label during restoration. Moreover, the R2C-GANs are equipped with operational layers/neurons reducing the network depth and further boosting both restoration and classification performances. The proposed joint model is extensively evaluated over the QaTa-COV19 dataset for Coronavirus Disease 2019 (COVID-19) classification. The proposed restoration approach achieves over 90% F1-Score which is significantly higher than the performance of any deep model. Moreover, in the qualitative analysis, the restoration performance of R2C-GANs is approved by a group of medical doctors. We share the software implementation at https://github.com/meteahishali/R2C-GAN.
翻訳日:2023-08-16 17:48:40 公開日:2023-08-15
# イメージキャプションのための固有点と代表的スタイルの学習

Learning Distinct and Representative Styles for Image Captioning ( http://arxiv.org/abs/2209.08231v2 )

ライセンス: Link先を確認
Qi Chen, Chaorui Deng, Qi Wu(参考訳) 長年にわたり、最先端(SoTA)画像キャプション手法は、いくつかの評価指標(例えばCIDEr)で有望な結果を得た。 しかし、近年の研究では、これらの手法によって生成されたキャプションは、トレーニングコーパスの最も一般的なモード(言語パターン)のみをキャプチャする「平均」キャプション、すなわちいわゆるモード崩壊問題に偏りがあることが示されている。 その影響で生成されたキャプションは多様性に制限され、人間による自然なイメージ記述よりも情報に乏しい。 本稿では,画像キャプションのための離散モード学習(DML)パラダイムを提案することによって,この問題を回避する。 私たちの革新的なアイデアは、トレーニングキャプションコーパスのリッチなモードを調べて、"モード埋め込み"のセットを学び、さらに既存の画像キャプションモデルで生成されたキャプションのモードを制御することです。 具体的には、画像条件付き離散変分オートエンコーダ(CdVAE)ブランチとモード条件付きイメージキャプション(MIC)ブランチで構成されるデュアルアーキテクチャを最適化する。 CdVAEブランチは、各画像キャプションを学習コードブックに格納されたモード埋め込みの1つにマッピングし、純粋な非自己回帰生成目標を用いてトレーニングし、モードを区別し、代表する。 MICブランチは、モード埋め込みを制御信号として元の単語埋め込みに追加する既存の画像キャプションモデルから簡単に変更することができる。 実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。 その結果、学習モード埋め込みは、異なるモードの高品質な画像キャプションを生成するのに成功し、mscocoデータセットの多様性と品質の両方でパフォーマンスが向上することが示された。

Over the years, state-of-the-art (SoTA) image captioning methods have achieved promising results on some evaluation metrics (e.g., CIDEr). However, recent findings show that the captions generated by these methods tend to be biased toward the "average" caption that only captures the most general mode (a.k.a, language pattern) in the training corpus, i.e., the so-called mode collapse problem. Affected by it, the generated captions are limited in diversity and usually less informative than natural image descriptions made by humans. In this paper, we seek to avoid this problem by proposing a Discrete Mode Learning (DML) paradigm for image captioning. Our innovative idea is to explore the rich modes in the training caption corpus to learn a set of "mode embeddings", and further use them to control the mode of the generated captions for existing image captioning models. Specifically, the proposed DML optimizes a dual architecture that consists of an image-conditioned discrete variational autoencoder (CdVAE) branch and a mode-conditioned image captioning (MIC) branch. The CdVAE branch maps each image caption to one of the mode embeddings stored in a learned codebook, and is trained with a pure non-autoregressive generation objective to make the modes distinct and representative. The MIC branch can be simply modified from an existing image captioning model, where the mode embedding is added to the original word embeddings as the control signal. In the experiments, we apply the proposed DML to two widely used image captioning models, Transformer and AoANet. The results show that the learned mode embedding successfully facilitates these models to generate high-quality image captions with different modes, further leading to better performance for both diversity and quality on the MSCOCO dataset.
翻訳日:2023-08-16 17:47:42 公開日:2023-08-15
# 破壊的過剰フィッティングは識別的非ロバスト特徴によって引き起こされる

Catastrophic overfitting can be induced with discriminative non-robust features ( http://arxiv.org/abs/2206.08242v2 )

ライセンス: Link先を確認
Guillermo Ortiz-Jim\'enez, Pau de Jorge, Amartya Sanyal, Adel Bibi, Puneet K. Dokania, Pascal Frossard, Gregory Rog\'ez, Philip H.S. Torr(参考訳) 敵対的トレーニング(AT)は、堅牢なニューラルネットワークを構築するための事実上の方法であるが、計算コストがかかる。 これを緩和するために、高速なシングルステップ攻撃が使用できるが、これは破滅的なオーバーフィッティング(CO)を引き起こす可能性がある。 この現象は、atの最初の段階でネットワークが非自明な堅牢性を得るが、ほんの数回のイテレーションで脆弱になるようなブレークポイントに達すると現れる。 この障害モードにつながるメカニズムはまだ理解されていない。 本研究では,自然画像の典型的なデータセットの修正を制御し,単段階AT法によるCOの開始について検討する。 特にCOは、一見無害な特徴を持つ画像を注入するだけで、これまで観察されたよりもはるかに小さな$\epsilon$値で誘導できることを示す。 これらの特徴は、非破壊的な分類に役立つが、それ自体で堅牢性を達成するには不十分である。 広範な実験を通じてこの現象を分析し、これらの簡単な特徴の存在がCOにつながる学習ショートカットを誘導することを発見した。 私たちの発見は、coのメカニズムに関する新たな洞察を与え、atのダイナミクスに対する理解を改善する。 実験を再現するコードはhttps://github.com/gortizji/co_featuresで確認できます。

Adversarial training (AT) is the de facto method for building robust neural networks, but it can be computationally expensive. To mitigate this, fast single-step attacks can be used, but this may lead to catastrophic overfitting (CO). This phenomenon appears when networks gain non-trivial robustness during the first stages of AT, but then reach a breaking point where they become vulnerable in just a few iterations. The mechanisms that lead to this failure mode are still poorly understood. In this work, we study the onset of CO in single-step AT methods through controlled modifications of typical datasets of natural images. In particular, we show that CO can be induced at much smaller $\epsilon$ values than it was observed before just by injecting images with seemingly innocuous features. These features aid non-robust classification but are not enough to achieve robustness on their own. Through extensive experiments we analyze this novel phenomenon and discover that the presence of these easy features induces a learning shortcut that leads to CO. Our findings provide new insights into the mechanisms of CO and improve our understanding of the dynamics of AT. The code to reproduce our experiments can be found at https://github.com/gortizji/co_features.
翻訳日:2023-08-16 17:46:46 公開日:2023-08-15
# ポジティブなラベルなしコントラスト学習

Positive Unlabeled Contrastive Learning ( http://arxiv.org/abs/2206.01206v2 )

ライセンス: Link先を確認
Anish Acharya and Sujay Sanghavi and Li Jing and Bhargav Bhushanam and Michael Rabbat and Inderjit Dhillon(参考訳) ラベルなしデータの自己教師あり事前学習とラベル付きデータの教師付き微調整は、限定されたラベル付き例から学ぶための一般的なパラダイムである。 このパラダイムを古典的正の未ラベル(PU)設定に拡張し、いくつかのラベル付き正のサンプルのみを与えられたバイナリ分類器を学習し、(しばしば)大量の未ラベルのサンプル(正あるいは負の可能性がある)を学習する。 まず,コントラスト損失の標準的なインフォネッションNCEファミリをPU設定に簡易に拡張し,既存の教師なしおよび教師なしアプローチと比較して優れた表現を学習することを示す。 次に、新しいPU固有のクラスタリング方式を用いて、未ラベルのサンプルを擬似ラベル化する方法を開発し、その擬似ラベルを用いて最終(正対負の)分類器を訓練する。 提案手法は,いくつかの標準PUベンチマークデータセットにおいて最先端のPUメソッドよりも優れているが,どのクラスの事前知識も必要としない(他のPUメソッドでは一般的な仮定である)。 また,提案手法を動機づける単純な理論解析も提供する。

Self-supervised pretraining on unlabeled data followed by supervised fine-tuning on labeled data is a popular paradigm for learning from limited labeled examples. We extend this paradigm to the classical positive unlabeled (PU) setting, where the task is to learn a binary classifier given only a few labeled positive samples, and (often) a large amount of unlabeled samples (which could be positive or negative). We first propose a simple extension of standard infoNCE family of contrastive losses, to the PU setting; and show that this learns superior representations, as compared to existing unsupervised and supervised approaches. We then develop a simple methodology to pseudo-label the unlabeled samples using a new PU-specific clustering scheme; these pseudo-labels can then be used to train the final (positive vs. negative) classifier. Our method handily outperforms state-of-the-art PU methods over several standard PU benchmark datasets, while not requiring a-priori knowledge of any class prior (which is a common assumption in other PU methods). We also provide a simple theoretical analysis that motivates our methods.
翻訳日:2023-08-16 17:46:27 公開日:2023-08-15
# 変化点検出のためのランダムフォレスト

Random Forests for Change Point Detection ( http://arxiv.org/abs/2205.04997v2 )

ライセンス: Link先を確認
Malte Londschien, Peter B\"uhlmann, Solt Kov\'acs(参考訳) 分類器を用いた多変量非パラメトリック多重変化点検出法を提案する。 我々は,クラス確率予測を用いて異なる変化点構成を比較する分類器log-likelihood ratioを構築した。 本稿では,特に森林変動林に好適な計算可能な探索法を提案する。 しかし、この手法はクラス確率予測をもたらす任意のクラス化器とペアリングすることができ、k-nearest近傍のクラス化器を用いても説明できる。 一貫性のある分類器と組み合わせると、単一の変更点設定で変更点を一貫して見つけることが証明される。 提案手法は, 既存の多変量非パラメトリック変化点検出法と比較して, 実験性能の向上を実現する。 当社のメソッドの効率的な実装は,変更対象ソフトウェアパッケージでR,Python,Rustユーザに提供されています。

We propose a novel multivariate nonparametric multiple change point detection method using classifiers. We construct a classifier log-likelihood ratio that uses class probability predictions to compare different change point configurations. We propose a computationally feasible search method that is particularly well suited for random forests, denoted by changeforest. However, the method can be paired with any classifier that yields class probability predictions, which we illustrate by also using a k-nearest neighbor classifier. We prove that it consistently locates change points in single change point settings when paired with a consistent classifier. Our proposed method changeforest achieves improved empirical performance in an extensive simulation study compared to existing multivariate nonparametric change point detection methods. An efficient implementation of our method is made available for R, Python, and Rust users in the changeforest software package.
翻訳日:2023-08-16 17:46:05 公開日:2023-08-15
# FlexFringe:確率的オートマタ学習によるソフトウェア行動モデリング

FlexFringe: Modeling Software Behavior by Learning Probabilistic Automata ( http://arxiv.org/abs/2203.16331v2 )

ライセンス: Link先を確認
Sicco Verwer and Christian Hammerschmidt(参考訳) 本稿ではFlexFringeで利用可能な確率的決定論的有限オートマトン学習法の効率的な実装について述べる。 これらはステートマージのためのよく知られた戦略を実装しており、実際のパフォーマンスを改善するためのいくつかの修正が含まれている。 実験により,これらのアルゴリズムはデフォルト実装よりも競争結果と大幅な改善が得られた。 また、FlexFringeを使ってソフトウェアログから解釈可能なモデルを学習し、これらを異常検出に利用する方法を実証する。 より複雑なモデルを学習することで、異常検出におけるFlexFringeの性能が向上し、ニューラルネットに基づく既存のソリューションよりも優れていることを示す。

We present the efficient implementations of probabilistic deterministic finite automaton learning methods available in FlexFringe. These implement well-known strategies for state-merging including several modifications to improve their performance in practice. We show experimentally that these algorithms obtain competitive results and significant improvements over a default implementation. We also demonstrate how to use FlexFringe to learn interpretable models from software logs and use these for anomaly detection. Although less interpretable, we show that learning smaller more convoluted models improves the performance of FlexFringe on anomaly detection, outperforming an existing solution based on neural nets.
翻訳日:2023-08-16 17:45:53 公開日:2023-08-15
# 確率線形帯域を用いたマルチタスク表現学習

Multi-task Representation Learning with Stochastic Linear Bandits ( http://arxiv.org/abs/2202.10066v2 )

ライセンス: Link先を確認
Leonardo Cella, Karim Lounici, Gr\'egoire Pacreau, Massimiliano Pontil(参考訳) 確率線形バンディット課題の設定における転校学習の問題について検討する。 我々は,タスク間で低次元線形表現が共有されていると考え,マルチタスク学習環境において,この表現を学習するメリットについて検討する。 確率的バンディットポリシーの設計に関する最近の結果に続いて,トレースノルム正規化に基づく効率的なグリーディポリシーを提案する。 タスク回帰ベクトルによって形成される行列を低ランクにすることで、暗黙的に低次元表現を学習する。 文献における以前の研究とは異なり、我々の方針は基盤となる行列のランクを知る必要はない。 ここで$t$はタスク数、$r$はランク数、$d$は変数数、$n$はタスクごとのラウンド数である。 各タスクを独立に解くことで得られるベースライン$Td\sqrt{N}$と比較して,我々の戦略の利点を示す。 また、マルチタスクの後悔に対する低い境界も提供します。 最後に, 合成データに関する予備実験を行い, 理論的知見を裏付ける。

We study the problem of transfer-learning in the setting of stochastic linear bandit tasks. We consider that a low dimensional linear representation is shared across the tasks, and study the benefit of learning this representation in the multi-task learning setting. Following recent results to design stochastic bandit policies, we propose an efficient greedy policy based on trace norm regularization. It implicitly learns a low dimensional representation by encouraging the matrix formed by the task regression vectors to be of low rank. Unlike previous work in the literature, our policy does not need to know the rank of the underlying matrix. We derive an upper bound on the multi-task regret of our policy, which is, up to logarithmic factors, of order $\sqrt{NdT(T+d)r}$, where $T$ is the number of tasks, $r$ the rank, $d$ the number of variables and $N$ the number of rounds per task. We show the benefit of our strategy compared to the baseline $Td\sqrt{N}$ obtained by solving each task independently. We also provide a lower bound to the multi-task regret. Finally, we corroborate our theoretical findings with preliminary experiments on synthetic data.
翻訳日:2023-08-16 17:45:42 公開日:2023-08-15
# 誰の感情が重要か? 事前知識のない活動のローカライゼーション

Whose Emotion Matters? Speaking Activity Localisation without Prior Knowledge ( http://arxiv.org/abs/2211.15377v4 )

ライセンス: Link先を確認
Hugo Carneiro, Cornelius Weber, Stefan Wermter(参考訳) 例えば、ビデオベースのMultimodal EmotionLines Dataset(MELD)において、会話(ERC)における感情認識のタスクは、複数のモダリティの可用性の恩恵を受ける。 しかし、MELDビデオの音響情報と視覚情報の両方を利用する研究はごくわずかである。 まず、MELDのラベルとビデオのアライメントはうるさいので、これらのビデオは感情的な音声データの信頼性の低いソースになる。 第二に、会話は同じ場面で複数の人を巻き込み、発話源の局所化が必要となる。 本稿では,近年のアクティブな話者検出と自動音声認識モデルを用いて,MELDを用いた固定音声情報(MELD-FAIR)を導入し,MELDで提供される発話の96.92%で,MELDのビデオの認識と表情のキャプチャが可能となった。 自己教師付き音声認識モデルによる実験では、再構成されたMELD-FAIRビデオは、MELDデータセットの転写された発話とより密に一致している。 最後に,MELD-FAIRビデオに基づいて訓練された会話における感情認識モデルを作成し,視覚のみに基づくERCの最先端モデルよりも優れることを示す。 これは、発声話者からの表情抽出には発話源の局所化が有効であること、また、現在使われている視覚的特徴よりも、顔がより有意義な視覚的手がかりとなることを示している。 MELD-FAIRアライメントデータ、およびアライメント手順のコードと感情認識はhttps://github.com/knowledgetechnologyuh/MELD-FAIRで入手できる。

The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as provided, for example, in the video-based Multimodal EmotionLines Dataset (MELD). However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the localisation of the utterance source. In this paper, we introduce MELD with Fixed Audiovisual Information via Realignment (MELD-FAIR) by using recent active speaker detection and automatic speech recognition models, we are able to realign the videos of MELD and capture the facial expressions from speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD-FAIR videos more closely match the transcribed utterances given in the MELD dataset. Finally, we devise a model for emotion recognition in conversations trained on the realigned MELD-FAIR videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that localising the source of speaking activities is indeed effective for extracting facial expressions from the uttering speakers and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far. The MELD-FAIR realignment data, and the code of the realignment procedure and of the emotional recognition, are available at https://github.com/knowledgetechnologyuhh/MELD-FAIR.
翻訳日:2023-08-16 17:40:13 公開日:2023-08-15
# 顕微鏡データの効率的な画像分解

{\mu}Split: efficient image decomposition for microscopy data ( http://arxiv.org/abs/2211.12872v4 )

ライセンス: Link先を確認
Ashesh, Alexander Krull, Moises Di Sante, Francesco Silvio Pasqualini, Florian Jug(参考訳) 蛍光顕微鏡画像の文脈における画像分解のための専用手法である {\mu}Splitを提案する。 トレーニング中に大きなイメージパッチを使用すると,通常のディープアーキテクチャによる最良の結果が得られることが分かり,メモリ消費が性能向上の限界要因となる。 そこで我々は、強力なネットワークをトレーニングするためのメモリ効率のよいメモリ・コンテクスト・ライゼーション(LC)を導入し、LCがタスクの一貫性と大幅な改善をもたらすことを示す。 LCをU-Net、階層型AE、階層型VAEと統合し、改良されたELBO損失を定式化する。 さらにLCは、他の可能性よりも深い階層モデルのトレーニングを可能にし、興味深いことに、タイル付きVAE予測を使用する場合、本質的に避けられないティアリングアーチファクトを減らすのに役立ちます。 我々は、合成データセット上の5つの分解タスクに {\mu}splitを適用し、その他4つは実顕微鏡データから導出する。 LCはSOTA結果(平均2.36dB PSNRのベースラインの改善)を達成し、同時にGPUメモリをかなり少なくする。

We present {\mu}Split, a dedicated approach for trained image decomposition in the context of fluorescence microscopy images. We find that best results using regular deep architectures are achieved when large image patches are used during training, making memory consumption the limiting factor to further improving performance. We therefore introduce lateral contextualization (LC), a memory efficient way to train powerful networks and show that LC leads to consistent and significant improvements on the task at hand. We integrate LC with U-Nets, Hierarchical AEs, and Hierarchical VAEs, for which we formulate a modified ELBO loss. Additionally, LC enables training deeper hierarchical models than otherwise possible and, interestingly, helps to reduce tiling artefacts that are inherently impossible to avoid when using tiled VAE predictions. We apply {\mu}Split to five decomposition tasks, one on a synthetic dataset, four others derived from real microscopy data. LC achieves SOTA results (average improvements to the best baseline of 2.36 dB PSNR), while simultaneously requiring considerably less GPU memory.
翻訳日:2023-08-16 17:39:32 公開日:2023-08-15
# 分散連合学習 : 基礎, 現状, フレームワーク, トレンド, 課題

Decentralized Federated Learning: Fundamentals, State of the Art, Frameworks, Trends, and Challenges ( http://arxiv.org/abs/2211.08413v4 )

ライセンス: Link先を確認
Enrique Tom\'as Mart\'inez Beltr\'an, Mario Quiles P\'erez, Pedro Miguel S\'anchez S\'anchez, Sergio L\'opez Bernal, G\'er\^ome Bovet, Manuel Gil P\'erez, Gregorio Mart\'inez P\'erez, Alberto Huertas Celdr\'an(参考訳) 近年,federated learning (fl) は,センシティブなデータ共有を伴わずに協調モデルのトレーニングに寄与している。 中央集権FL(CFL)は、その誕生以来、中央の実体が大域的なモデルを作成する文学において最も一般的なアプローチである。 しかしながら、集中的なアプローチはボトルネックによるレイテンシの増加、システムの障害に対する脆弱性の増大、グローバルモデル作成に責任を持つエンティティに対する信頼性の懸念などにつながります。 DFL(Decentralized Federated Learning)は、分散モデルの集約を促進し、集中型アーキテクチャへの依存を最小限にすることで、これらの問題に対処するために登場した。 しかし、DFLでの作業にもかかわらず、文献は残っていない。 (i)DFLとCFLを区別する主な側面の研究。 (二)新しいソリューションを作成し評価するためのDFLフレームワークの分析、及び 3)DFLを用いたアプリケーションシナリオのレビュー。 本稿では,フェデレーションアーキテクチャ,トポロジ,通信機構,セキュリティアプローチ,主要なパフォーマンス指標といった観点から,dflの主な基礎を特定し,分析する。 さらに、論文は重要なdflの基本を最適化するための既存のメカニズムを探求している。 次に、現在のdflフレームワークの最も関連するフィーチャをレビューして比較する。 その後、最もよく使われるDFLアプリケーションシナリオを分析し、以前定義された基本とフレームワークに基づいたソリューションを特定します。 最後に、既存のDFLソリューションの進化について研究し、トレンド、学んだ教訓、オープンな課題のリストを提供する。

In recent years, Federated Learning (FL) has gained relevance in training collaborative models without sharing sensitive data. Since its birth, Centralized FL (CFL) has been the most common approach in the literature, where a central entity creates a global model. However, a centralized approach leads to increased latency due to bottlenecks, heightened vulnerability to system failures, and trustworthiness concerns affecting the entity responsible for the global model creation. Decentralized Federated Learning (DFL) emerged to address these concerns by promoting decentralized model aggregation and minimizing reliance on centralized architectures. However, despite the work done in DFL, the literature has not (i) studied the main aspects differentiating DFL and CFL; (ii) analyzed DFL frameworks to create and evaluate new solutions; and (iii) reviewed application scenarios using DFL. Thus, this article identifies and analyzes the main fundamentals of DFL in terms of federation architectures, topologies, communication mechanisms, security approaches, and key performance indicators. Additionally, the paper at hand explores existing mechanisms to optimize critical DFL fundamentals. Then, the most relevant features of the current DFL frameworks are reviewed and compared. After that, it analyzes the most used DFL application scenarios, identifying solutions based on the fundamentals and frameworks previously defined. Finally, the evolution of existing DFL solutions is studied to provide a list of trends, lessons learned, and open challenges.
翻訳日:2023-08-16 17:39:04 公開日:2023-08-15
# 位相量子計算言語としてのZX計算

The ZX-calculus as a Language for Topological Quantum Computation ( http://arxiv.org/abs/2211.03855v3 )

ライセンス: Link先を確認
Fatimah Rita Ahmadi and Aleks Kissinger(参考訳) ユニタリ融合圏はトポロジカル量子計算の代数理論を定式化する。 これらの圏は自然にヒルベルト空間の圏のサブカテゴリに富み、このサブカテゴリを見ると、量子計算を実装するためのジェネレータの集合を特定できる。 我々は、フィボナッチとイジングのモデル、すなわち、キュービットと関連するブレイド群の表現の符号化をZX-計算で表現し、どちらの場合も、ヤン・バクスター方程式はP-ルールとして知られる完全ZX-計算において重要な規則に直結していることを示し、相補基底に関して定義された位相ゲートを交換することができる。 イジングの場合、これはアダマール門の2つの異なるオイラー分解を$\pi/2$ Zand X-相ゲートとして関連付ける一般的な規則に還元するが、フィボナッチの場合、金比を含むP-ルールの未考慮の正確な解を与える。 フィボナッチ・エノンのシングルキュービット・ブレイド方程式とイジン・エノンのシングルキュービット・ブレイド方程式をグラフィカルに導出することにより,これらの表現の有用性を示す。 さらに,フィボナッチ・アノンのzx表現とブレイドをシミュレートし,単純化するための完全グラフィカルな手順を提案する。

Unitary fusion categories formalise the algebraic theory of topological quantum computation. These categories come naturally enriched in a subcategory of the category of Hilbert spaces, and by looking at this subcategory, one can identify a collection of generators for implementing quantum computation. We represent such generators for the Fibonacci and Ising models, namely the encoding of qubits and the associated braid group representations, with the ZX-calculus and show that in both cases, the Yang-Baxter equation is directly connected to an important rule in the complete ZX-calculus known as the P-rule, which enables one to interchange the phase gates defined with respect to complementary bases. In the Ising case, this reduces to a familiar rule relating two distinct Euler decompositions of the Hadamard gate as $\pi/2$ Z- and X-phase gates, whereas in the Fibonacci case, we give a previously unconsidered exact solution of the P-rule involving the Golden ratio. We demonstrate the utility of these representations by giving graphical derivations of the single-qubit braid equations for Fibonacci anyons and the single- and two-qubit braid equations for Ising anyons. We furthermore present a fully graphical procedure for simulating and simplifying braids with the ZX-representation of Fibonacci anyons.
翻訳日:2023-08-16 17:38:40 公開日:2023-08-15
# ベイズ双曲多次元スケーリング

Bayesian Hyperbolic Multidimensional Scaling ( http://arxiv.org/abs/2210.15081v3 )

ライセンス: Link先を確認
Bolun Liu, Shane Lubold, Adrian E. Raftery, Tyler H. McCormick(参考訳) 多次元スケーリング(MDS)は、高次元依存データを表現するために広く用いられている手法である。 mdsは、各観測者に、類似性を表す多様体上の距離を持つ低次元幾何学多様体上の位置を割り当てることで機能する。 低次元多様体が双曲的である場合の多次元スケーリングに対するベイズ的アプローチを提案する。 双曲空間を使うことは、多くの設定で共通する木のような構造(例えば、テキストや階層構造を持つ遺伝データ)を表現するのに役立つ。 ベイズアプローチは、観測データにおける測定誤差の影響を最小限に抑え、不確実性を評価する正規化を提供する。 また,大規模データ設定における後方分布からの効率的なサンプリングを可能にし,計算複雑性を約$o(n^2)$ から$o(n)$ に低減するケースコントロール度近似を提案する。 提案手法は,シミュレーション,標準基準データセット,インディアン村のネットワークデータ,およびヒトの遺伝子発現データを用いて,最先端の代替手法に対して評価する。

Multidimensional scaling (MDS) is a widely used approach to representing high-dimensional, dependent data. MDS works by assigning each observation a location on a low-dimensional geometric manifold, with distance on the manifold representing similarity. We propose a Bayesian approach to multidimensional scaling when the low-dimensional manifold is hyperbolic. Using hyperbolic space facilitates representing tree-like structures common in many settings (e.g. text or genetic data with hierarchical structure). A Bayesian approach provides regularization that minimizes the impact of measurement error in the observed data and assesses uncertainty. We also propose a case-control likelihood approximation that allows for efficient sampling from the posterior distribution in larger data settings, reducing computational complexity from approximately $O(n^2)$ to $O(n)$. We evaluate the proposed method against state-of-the-art alternatives using simulations, canonical reference datasets, Indian village network data, and human gene expression data.
翻訳日:2023-08-16 17:37:01 公開日:2023-08-15
# 確率的勾配降下法に対する厳密な動的平均場理論

Rigorous dynamical mean field theory for stochastic gradient descent methods ( http://arxiv.org/abs/2210.06591v2 )

ライセンス: Link先を確認
Cedric Gerbelot, Emanuele Troiani, Francesca Mignacco, Florent Krzakala and Lenka Zdeborova(参考訳) 経験的リスク最小化を伴うガウスデータを用いた観測から推定器(例えば、m-推定器、浅いニューラルネットワーク、...)を学習し、一階勾配に基づく手法の厳密な高次元漸近性に対する閉形式方程式を証明した。 これには確率勾配降下(SGD)やネステロフ加速度などの広く使われているアルゴリズムが含まれる。 得られた方程式は、勾配流に適用した場合の統計物理学からの力学平均場理論(DMFT)方程式の離散化の結果と一致する。 提案手法では,メモリカーネルの効率的な動的構造を明示的に記述し,非同一性共分散行列を持つデータセットに非分離性更新関数を含めることができる。 最後に,SGDの一般化されたバッチサイズおよび定常学習率を持つ方程式の数値的実装を提案する。

We prove closed-form equations for the exact high-dimensional asymptotics of a family of first order gradient-based methods, learning an estimator (e.g. M-estimator, shallow neural network, ...) from observations on Gaussian data with empirical risk minimization. This includes widely used algorithms such as stochastic gradient descent (SGD) or Nesterov acceleration. The obtained equations match those resulting from the discretization of dynamical mean-field theory (DMFT) equations from statistical physics when applied to gradient flow. Our proof method allows us to give an explicit description of how memory kernels build up in the effective dynamics, and to include non-separable update functions, allowing datasets with non-identity covariance matrices. Finally, we provide numerical implementations of the equations for SGD with generic extensive batch-size and with constant learning rates.
翻訳日:2023-08-16 17:36:31 公開日:2023-08-15
# 非IIDデータを用いたバッチ正規化損傷フェデレーション学習

Why Batch Normalization Damage Federated Learning on Non-IID Data? ( http://arxiv.org/abs/2301.02982v2 )

ライセンス: Link先を確認
Yanmeng Wang, Qingjiang Shi, Tsung-Hui Chang(参考訳) 有望な分散学習パラダイムとして、フェデレーション学習(FL)では、エッジクライアントのプライバシを保護するとともに、ネットワークエッジでディープニューラルネットワーク(DNN)モデルをトレーニングする。 大規模DNNモデルを訓練するために,バッチ正規化(BN)は訓練を加速し,一般化能力を向上させるためのシンプルかつ効果的な手段であると考えられてきた。 しかし、最近の研究では、BNは非i.d.データの存在下でFLの性能を著しく損なうことが示されている。 この問題に対処するためにいくつかのFLアルゴリズムが提案されているが、中央集権方式と比較しても性能は著しく低下している。 さらに、どちらもBNがFL収束をいかに損なうかを理論的に説明していない。 本稿では,非二項データの下で,BNの局所的パラメータと大域的パラメータのミスマッチが局所的モデルと大域的モデルとの勾配ずれを引き起こし,結果としてFL収束が遅くなり,偏りが生じることを示す最初の収束解析を提案する。 そこで我々は,複数のデータ分布において,反復層ワイドパラメータアグリゲーションを用いて,堅牢なFL性能を実現することができるFedTANというBNに適合した新しいFLアルゴリズムを開発した。 BNベースDNNモデルのトレーニングにおいて,既存のベースラインよりもFedTANの方が優れていることを示す。

As a promising distributed learning paradigm, federated learning (FL) involves training deep neural network (DNN) models at the network edge while protecting the privacy of the edge clients. To train a large-scale DNN model, batch normalization (BN) has been regarded as a simple and effective means to accelerate the training and improve the generalization capability. However, recent findings indicate that BN can significantly impair the performance of FL in the presence of non-i.i.d. data. While several FL algorithms have been proposed to address this issue, their performance still falls significantly when compared to the centralized scheme. Furthermore, none of them have provided a theoretical explanation of how the BN damages the FL convergence. In this paper, we present the first convergence analysis to show that under the non-i.i.d. data, the mismatch between the local and global statistical parameters in BN causes the gradient deviation between the local and global models, which, as a result, slows down and biases the FL convergence. In view of this, we develop a new FL algorithm that is tailored to BN, called FedTAN, which is capable of achieving robust FL performance under a variety of data distributions via iterative layer-wise parameter aggregation. Comprehensive experimental results demonstrate the superiority of the proposed FedTAN over existing baselines for training BN-based DNN models.
翻訳日:2023-08-16 17:28:52 公開日:2023-08-15
# FedICT: マルチアクセスエッジコンピューティングのためのフェデレーションマルチタスク蒸留

FedICT: Federated Multi-task Distillation for Multi-access Edge Computing ( http://arxiv.org/abs/2301.00389v2 )

ライセンス: Link先を確認
Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Quyang Pan, Xuefeng Jiang, Bo Gao(参考訳) モバイルデバイスのインテリジェントサービスとプライバシ保護に対する関心が高まり、マルチアクセスエッジコンピューティング(MEC)におけるフェデレーション学習の広範な適用がもたらされた。 多様なユーザー行動は、異なるデバイス上で異種機械学習(ml)モデルを持つパーソナライズされたサービスを呼び出す。 FMTL(Federated Multi-task Learning)は、異なるデバイスに対して、関連するがパーソナライズされたMLモデルをトレーニングするために提案されている。 fmtlに知識蒸留を導入することで、クライアント間の効率的なコミュニケーションとモデルの不均一性を同時に実現することができる。 このジレンマに対処するため,FedICT (Federated MultI-task Distillation for Multi- Access Edge CompuTing) を提案する。 クライアントとサーバ間の双方向蒸留プロセスにおいて,FedICTは,クライアント側ローカルモデルの分岐最適化方向からクライアントのドリフトを緩和しつつ,マルチタスククライアントの実現を目指す。 具体的には、Federated Prior Knowledge Distillation (FPKD)とLocal Knowledge Adjustment (LKA)が含まれる。 FPKDは、ローカルデータ配信の事前知識を導入して、クライアントのローカルデータの適合性を強化するために提案されている。 さらに、LKAはサーバの蒸留損失を補正するために提案され、転送されたローカル知識は一般化された表現とよりよく一致する。 3つのデータセットの実験により、FedICTはさまざまなデータおよびモデルアーキテクチャ設定のベンチマークを著しく上回り、FedAvgと比較して1.2%以下のトレーニング通信オーバーヘッドで精度を向上し、FedGKTと比較して75%以下のトレーニング通信ラウンドを実現している。

The growing interest in intelligent services and privacy protection for mobile devices has given rise to the widespread application of federated learning in Multi-access Edge Computing (MEC). Diverse user behaviors call for personalized services with heterogeneous Machine Learning (ML) models on different devices. Federated Multi-task Learning (FMTL) is proposed to train related but personalized ML models for different devices, whereas previous works suffer from excessive communication overhead during training and neglect the model heterogeneity among devices in MEC. Introducing knowledge distillation into FMTL can simultaneously enable efficient communication and model heterogeneity among clients, whereas existing methods rely on a public dataset, which is impractical in reality. To tackle this dilemma, Federated MultI-task Distillation for Multi-access Edge CompuTing (FedICT) is proposed. FedICT direct local-global knowledge aloof during bi-directional distillation processes between clients and the server, aiming to enable multi-task clients while alleviating client drift derived from divergent optimization directions of client-side local models. Specifically, FedICT includes Federated Prior Knowledge Distillation (FPKD) and Local Knowledge Adjustment (LKA). FPKD is proposed to reinforce the clients' fitting of local data by introducing prior knowledge of local data distributions. Moreover, LKA is proposed to correct the distillation loss of the server, making the transferred local knowledge better match the generalized representation. Experiments on three datasets show that FedICT significantly outperforms all compared benchmarks in various data heterogeneous and model architecture settings, achieving improved accuracy with less than 1.2% training communication overhead compared with FedAvg and no more than 75% training communication round compared with FedGKT.
翻訳日:2023-08-16 17:28:28 公開日:2023-08-15
# 尾の質

Quality at the Tail ( http://arxiv.org/abs/2212.13925v2 )

ライセンス: Link先を確認
Zhengxin Yang and Wanling Gao and Chunjie Luo and Lei Wang and Fei Tang and Xu Wen and Jianfeng Zhan(参考訳) ディープラーニングのモデルとシステムのベンチマークと評価には、総合的な評価を確保するための細心の注意を要する。 実用的なアプリケーションでは、推論の品質と推論時間の両方、特に、厳格な要求が両方のメトリクスの同時満足度を要求する重要なコンテキストにおいて考慮するのが最重要である。 どちらの側面も無視することは、人命の喪失や財産の損害など、重大で不可逆的な結果をもたらす可能性がある。 残念なことに、多くの研究はこれらの指標を包括的に考慮しておらず、しばしば理想的または許容的条件の下で行われ、その結果不完全または直観的評価方法論に繋がる。 本研究は、ディープラーニング推論品質が変動を示し、ベンチマークと評価の複雑さと課題を更に導入することを明らかにする。 この現象をよりよく特徴づけるために、分布の尾における品質を示す「テール品質」の概念が導入された。 品質変動現象を捉える上で、従来の推論品質と推論時間メトリクスの限界を克服し、より客観的な評価を提供することができる。 また,この現象を捉えるために,推定時間と品質に影響を与える諸要因を総合的に評価・分析するための先駆的評価フレームワークを提案する。 このフレームワークを活用することで、推論時間と推論品質の潜在的分布の予測が可能になる。 評価フレームワークの有効性は、4つのシステムにまたがる3つの異なるタスクに対するディープラーニングモデルによる実験によって検証される。 さらに, この評価枠組みを用いて, 予測品質と推定時間に影響を与える要因の予備分析を行った。

Benchmarking and evaluating deep learning models and systems necessitate a meticulous approach to ensure comprehensive assessment. In practical applications, it is paramount to consider both the inference quality and the inference time, particularly within critical contexts, where stringent requirements demand the simultaneous satisfaction of both metrics. Neglecting either aspect can result in severe and irreversible consequences, including loss of human life and property damage. Unfortunately, many studies lack a comprehensive consideration of these metrics, often conducted under ideal or permissive conditions, thereby leading to incomplete or non-intuitive evaluation methodologies. This study reveals that deep learning inference quality exhibits fluctuations, which further introduces complications and challenges to the benchmarking and evaluation. To better characterize the phenomenon, the concept of "tail quality" is introduced, which indicates the quality at the tail of distributions. "Tail quality" can offer a more objective evaluation, overcoming the limitations of conventional inference quality and inference time metrics in capturing the quality fluctuation phenomenon. To capture the phenomenon, this paper also proposes a pioneering evaluation framework for comprehensive assessment and analysis of various factors affecting inference time and quality. Leveraging this framework enables the anticipation of the potential distribution of inference time and inference quality, thus capturing "tail quality" before practically applying deep learning. The effectiveness of the evaluation framework is validated through experiments conducted on deep learning models for three different tasks across four systems. Furthermore, employing this evaluation framework, the experiments conducted a preliminary analysis of several factors influencing inference quality and inference time.
翻訳日:2023-08-16 17:27:57 公開日:2023-08-15
# 固有状態遷移におけるスケール不変生存確率

Scale-Invariant Survival Probability at Eigenstate Transitions ( http://arxiv.org/abs/2212.13888v2 )

ライセンス: Link先を確認
Miroslav Hopjan and Lev Vidmar(参考訳) 高励起ハミルトン固有状態における量子相転移の理解は、現時点では完成にはほど遠い。 時間領域における特徴付けのためのツールを確立することは特に重要である。 ここでは、典型的なハイゼンベルク時間の単位で時間を測定するスケールされた生存確率は、固有状態遷移におけるスケール不変の挙動を示す。 まず、この性質を1次元オーブリー・アンドレモデルと3次元アンダーソンモデルという2つのパラダイム的二次モデルで証明する。 驚くべきことに、同様の現象論はエルゴディシティ崩壊相転移の相互作用する雪崩モデルに現れる。 これにより、二次系における局在化遷移と相互作用系におけるエルゴード性破壊相転移との興味深い類似性が確立される。

Understanding quantum phase transitions in highly excited Hamiltonian eigenstates is currently far from being complete. It is particularly important to establish tools for their characterization in time domain. Here we argue that a scaled survival probability, where time is measured in units of a typical Heisenberg time, exhibits a scale-invariant behavior at eigenstate transitions. We first demonstrate this property in two paradigmatic quadratic models, the one-dimensional Aubry-Andre model and three-dimensional Anderson model. Surprisingly, we then show that similar phenomenology emerges in the interacting avalanche model of ergodicity breaking phase transitions. This establishes an intriguing similarity between localization transition in quadratic systems and ergodicity breaking phase transition in interacting systems.
翻訳日:2023-08-16 17:27:31 公開日:2023-08-15
# DDColor:デュアルデコーダによる写真リアリスティック画像のカラー化を目指して

DDColor: Towards Photo-Realistic Image Colorization via Dual Decoders ( http://arxiv.org/abs/2212.11613v4 )

ライセンス: Link先を確認
Xiaoyang Kang, Tao Yang, Wenqi Ouyang, Peiran Ren, Lingzhi Li, Xuansong Xie(参考訳) 画像のカラー化は、マルチモーダルな不確実性と高い不正性のために難しい問題である。 ディープニューラルネットワークを直接トレーニングすることは、通常、誤ったセマンティックカラーと低い色のリッチネスにつながる。 トランスフォーマーベースの手法はより良い結果をもたらすが、しばしば手動で設計したプリエントに依存し、一般化能力に乏しく、色出血効果をもたらす。 これらの問題に対処するため,画像カラー化のためのデュアルデコーダを用いたエンドツーエンドのDDColorを提案する。 我々のアプローチには、ピクセルデコーダとクエリベースのカラーデコーダが含まれる。 前者は画像の空間解像度を復元し、後者はリッチな視覚的特徴を利用して色クエリを洗練し、手作りの先行を避ける。 2つのデコーダが協力して,色表現とマルチスケール意味表現の相関関係をクロスアテンションによって確立し,色出血効果を著しく軽減した。 さらに、色豊かさを高めるために、単純で効果的な色度損失を導入する。 DDColorは,既存の最先端技術よりも定量的かつ定性的に優れた性能を発揮することを示した。 コードとモデルはhttps://github.com/piddnad/DDColor.comで公開されている。

Image colorization is a challenging problem due to multi-modal uncertainty and high ill-posedness. Directly training a deep neural network usually leads to incorrect semantic colors and low color richness. While transformer-based methods can deliver better results, they often rely on manually designed priors, suffer from poor generalization ability, and introduce color bleeding effects. To address these issues, we propose DDColor, an end-to-end method with dual decoders for image colorization. Our approach includes a pixel decoder and a query-based color decoder. The former restores the spatial resolution of the image, while the latter utilizes rich visual features to refine color queries, thus avoiding hand-crafted priors. Our two decoders work together to establish correlations between color and multi-scale semantic representations via cross-attention, significantly alleviating the color bleeding effect. Additionally, a simple yet effective colorfulness loss is introduced to enhance the color richness. Extensive experiments demonstrate that DDColor achieves superior performance to existing state-of-the-art works both quantitatively and qualitatively. The codes and models are publicly available at https://github.com/piddnad/DDColor.
翻訳日:2023-08-16 17:26:54 公開日:2023-08-15
# 遅延最小のディープオンラインビデオ安定化

Minimum Latency Deep Online Video Stabilization ( http://arxiv.org/abs/2212.02073v3 )

ライセンス: Link先を確認
Zhuofan Zhang, Zhen Liu, Ping Tan, Bing Zeng, Shuaicheng Liu(参考訳) オンラインビデオ安定化のための新しいカメラパス最適化フレームワークを提案する。 通常、安定化パイプラインは、モーション推定、パススムーシング、新しいビューレンダリングの3つのステップから構成される。 以前の手法のほとんどは運動推定に集中し、様々な大域的または局所的な運動モデルを提案する。 対照的に、パス最適化は、特に将来のフレームが利用できない重要なオンライン設定において、比較的注意を払わない。 本研究では,近年の市販の高品位深度モーションモデルを用いて動き推定を行い,カメラ軌道を復元し,後者の2ステップに集中する。 我々のネットワークは、スライディングウィンドウ内の短い2次元カメラパスを入力として取り、ウィンドウ内の最後のフレームの安定化ワープフィールドを出力する。 ハイブリッド損失は、空間的および時間的一貫性を制限するためによく定義される。 さらに、トレーニングのための安定かつ不安定な動きペアを含む動きデータセットを構築する。 広範な実験により,我々のアプローチは質的かつ定量的に最先端のオンライン手法を著しく上回り,オフラインメソッドと同等のパフォーマンスを達成していることが示された。 私たちのコードとデータセットはhttps://github.com/liuzhen03/nndvsで利用可能です。

We present a novel camera path optimization framework for the task of online video stabilization. Typically, a stabilization pipeline consists of three steps: motion estimating, path smoothing, and novel view rendering. Most previous methods concentrate on motion estimation, proposing various global or local motion models. In contrast, path optimization receives relatively less attention, especially in the important online setting, where no future frames are available. In this work, we adopt recent off-the-shelf high-quality deep motion models for motion estimation to recover the camera trajectory and focus on the latter two steps. Our network takes a short 2D camera path in a sliding window as input and outputs the stabilizing warp field of the last frame in the window, which warps the coming frame to its stabilized position. A hybrid loss is well-defined to constrain the spatial and temporal consistency. In addition, we build a motion dataset that contains stable and unstable motion pairs for the training. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art online methods both qualitatively and quantitatively and achieves comparable performance to offline methods. Our code and dataset are available at https://github.com/liuzhen03/NNDVS
翻訳日:2023-08-16 17:26:12 公開日:2023-08-15
# FedALA: 個人化フェデレーション学習のための適応的ローカルアグリゲーション

FedALA: Adaptive Local Aggregation for Personalized Federated Learning ( http://arxiv.org/abs/2212.01197v3 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Hua, Hao Wang, Tao Song, Zhengui Xue, Ruhui Ma, Haibing Guan(参考訳) 連合学習(FL)における重要な課題は、各クライアントにおけるグローバルモデルの一般化を損なう統計的不均一性である。 そこで本研究では,クライアントモデルのグローバルモデルにおける所望情報をパーソナライズしたflで捉えることで,適応局所アグリゲーション(fedala)を用いたフェデレート学習を提案する。 fedalaの重要なコンポーネントはadaptive local aggregation(ala)モジュールで、ダウンロードされたグローバルモデルとローカルモデルを各クライアントのローカル目標に向けて適応的に集約し、各イテレーションでトレーニングする前にローカルモデルを初期化することができる。 FedALAの有効性を評価するため、コンピュータビジョンと自然言語処理領域における5つのベンチマークデータセットを用いて広範な実験を行った。 FedALAは11の最先端のベースラインを最大3.27%の精度で上回っている。 さらに、ALAモジュールを他のフェデレーション学習手法に適用し、テスト精度を最大24.19%向上させる。

A key challenge in federated learning (FL) is the statistical heterogeneity that impairs the generalization of the global model on each client. To address this, we propose a method Federated learning with Adaptive Local Aggregation (FedALA) by capturing the desired information in the global model for client models in personalized FL. The key component of FedALA is an Adaptive Local Aggregation (ALA) module, which can adaptively aggregate the downloaded global model and local model towards the local objective on each client to initialize the local model before training in each iteration. To evaluate the effectiveness of FedALA, we conduct extensive experiments with five benchmark datasets in computer vision and natural language processing domains. FedALA outperforms eleven state-of-the-art baselines by up to 3.27% in test accuracy. Furthermore, we also apply ALA module to other federated learning methods and achieve up to 24.19% improvement in test accuracy.
翻訳日:2023-08-16 17:25:51 公開日:2023-08-15
# SuS-X: 視覚言語モデルの訓練自由名専用転送

SuS-X: Training-Free Name-Only Transfer of Vision-Language Models ( http://arxiv.org/abs/2211.16198v4 )

ライセンス: Link先を確認
Vishaal Udandarao, Ankush Gupta, Samuel Albanie(参考訳) Contrastive Language-Image Pre-Training (CLIP) は、大規模な視覚言語モデルを訓練するための単純かつ効果的な方法として登場した。 CLIPは、さまざまな下流タスクに対する印象的なゼロショットの分類と検索を示す。 しかし、その潜在能力を最大限活用するためには、微調整が必要であるようだ。 クリップモデル全体の微調整はリソース集約的で不安定です。 さらに、このような微調整を回避しようとする最近の手法では、ターゲット分布からの画像にアクセスする必要がある。 本稿では,異なるアプローチを追求し,ダウンストリームタスクに関する知識が下流のターゲットカテゴリの名前のみを含む,トレーニングフリーな"名前のみの転送"の仕組みを検討する。 本稿では,SuSとTIP-Xという2つの重要なビルディングブロックで構成されるSuS-Xを提案する。 SuS-Xは19のベンチマークデータセットで最先端のゼロショット分類結果を達成する。 また,TIP-Xをトレーニング不要な複数ショット設定で有効性を示すとともに,トレーニング不要なベースラインの強化に対して,最先端の結果が得られた。 コードはhttps://github.com/vishaal27/SuS-Xで入手できる。

Contrastive Language-Image Pre-training (CLIP) has emerged as a simple yet effective way to train large-scale vision-language models. CLIP demonstrates impressive zero-shot classification and retrieval on diverse downstream tasks. However, to leverage its full potential, fine-tuning still appears to be necessary. Fine-tuning the entire CLIP model can be resource-intensive and unstable. Moreover, recent methods that aim to circumvent this need for fine-tuning still require access to images from the target distribution. In this paper, we pursue a different approach and explore the regime of training-free "name-only transfer" in which the only knowledge we possess about the downstream task comprises the names of downstream target categories. We propose a novel method, SuS-X, consisting of two key building blocks -- SuS and TIP-X, that requires neither intensive fine-tuning nor costly labelled data. SuS-X achieves state-of-the-art zero-shot classification results on 19 benchmark datasets. We further show the utility of TIP-X in the training-free few-shot setting, where we again achieve state-of-the-art results over strong training-free baselines. Code is available at https://github.com/vishaal27/SuS-X.
翻訳日:2023-08-16 17:25:33 公開日:2023-08-15
# ラベル効率のよい時系列表現学習

Label-efficient Time Series Representation Learning: A Review ( http://arxiv.org/abs/2302.06433v2 )

ライセンス: Link先を確認
Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, Xiaoli Li(参考訳) ラベル付きデータの不足は,実世界の時系列データにディープラーニングモデルを適用する上で,大きな課題のひとつだ。 そのため,近年,移動学習,自己指導学習,半教師付き学習といったいくつかの手法が開発され,限られた時系列ラベルから深層学習モデルの学習能力の向上が図られている。 本研究では,外部データソースへの依存度に基づいて,時系列データにおけるラベル付きデータ問題の希少性に対処する既存のアプローチを分類する新しい分類法を提案する。 さらに、各アプローチの最近の進歩を概観し、現在の作業の限界を結論付け、この分野の進歩をもたらすであろう今後の方向性について述べる。

The scarcity of labeled data is one of the main challenges of applying deep learning models on time series data in the real world. Therefore, several approaches, e.g., transfer learning, self-supervised learning, and semi-supervised learning, have been recently developed to promote the learning capability of deep learning models from the limited time series labels. In this survey, for the first time, we provide a novel taxonomy to categorize existing approaches that address the scarcity of labeled data problem in time series data based on their dependency on external data sources. Moreover, we present a review of the recent advances in each approach and conclude the limitations of the current works and provide future directions that could yield better progress in the field.
翻訳日:2023-08-16 17:18:59 公開日:2023-08-15
# 認知症者の扇動検出を改善するためのアンダーサンプリングと累積クラス再決定法

Undersampling and Cumulative Class Re-decision Methods to Improve Detection of Agitation in People with Dementia ( http://arxiv.org/abs/2302.03224v3 )

ライセンス: Link先を確認
Zhidong Meng, Andrea Iaboni, Bing Ye, Kristine Newman, Alex Mihailidis, Zhihong Deng, and Shehroz S. Khan(参考訳) 鎮静は認知症(PwD)患者の最も多い症状の1つで、自分自身と介護者の安全を危険にさらすことができる。 住宅地に住むpwdの健康と安全を支援するためには, 客観的な扇動検出手法の開発が重要である。 前回の研究では、参加者17名から600日間のマルチモーダルウェアラブルセンサデータを収集し、1分間の窓での動揺を検出する機械学習モデルを開発した。 しかし、データセットには不均衡問題や潜在的な不正確なラベルなど、通常の振る舞いに比べて動揺の発生がはるかに稀なため、大きな制限がある。 本稿では,まず,不均衡を解消するために異なるアンダーサンプリング手法を実装し,通常の動作データの20%だけが競合的動揺検出モデルの訓練に適しているという結論に至った。 そこで我々は,不明瞭な時間間隔を仮定した手動ラベリング機構を評価するため,重み付きアンダーサンプリング法を設計した。 その後, 累積クラス再決定(CCR)の後処理法が, 動揺の歴史的逐次的情報と連続特性に基づいて提案され, 動揺検出システムの潜在的な応用のための意思決定性能が向上した。 その結果、アンダーサンプリングとCCRの組み合わせにより、トレーニング時間とデータが少なく、F1スコアや他の指標を様々な程度に改善した。

Agitation is one of the most prevalent symptoms in people with dementia (PwD) that can place themselves and the caregiver's safety at risk. Developing objective agitation detection approaches is important to support health and safety of PwD living in a residential setting. In a previous study, we collected multimodal wearable sensor data from 17 participants for 600 days and developed machine learning models for detecting agitation in one-minute windows. However, there are significant limitations in the dataset, such as imbalance problem and potential imprecise labelsas the occurrence of agitation is much rarer in comparison to the normal behaviours. In this paper, we first implemented different undersampling methods to eliminate the imbalance problem, and came to the conclusion that only 20% of normal behaviour data were adequate to train a competitive agitation detection model. Then, we designed a weighted undersampling method to evaluate the manual labeling mechanism given the ambiguous time interval assumption. After that, the postprocessing method of cumulative class re-decision (CCR) was proposed based on the historical sequential information and continuity characteristic of agitation, improving the decision-making performance for the potential application of agitation detection system. The results showed that a combination of undersampling and CCR improved F1-score and other metrics to varying degrees with less training time and data.
翻訳日:2023-08-16 17:18:46 公開日:2023-08-15
# 非エルミートハミルトニアンによる量子力学の測定仮定のエミュレート

Emulating the measurement postulates of quantum mechanics via non-Hermitian Hamiltonian ( http://arxiv.org/abs/2302.01898v3 )

ライセンス: Link先を確認
Gurpahul Singh, Ritesh K. Singh and Soumitro Banerjee (Indian Institute of Science Education and Research Kolkata)(参考訳) 量子力学の定式化以来、波動関数の崩壊過程についてはほとんど理解されていない。 我々は,量子力学の測定仮定をエミュレートする力学モデルを提案した。 我々は、非エルミートハミルトニアンが測定の過程で作用し、任意の状態が引き寄せる平衡状態へと進化し、「崩壊」を模倣すると仮定する。 これを2レベルシステムを用いて実証し,nレベルシステムに拡張する。 2レベル系に対して、リンドブラッド・マスター方程式によって生成される力学は、2つの非エルミート的ハミルトニアンによる進化の不整合和として再現できることを示した。

Ever since the formulation of quantum mechanics, there is very little understanding of the process of the collapse of a wavefunction. We have proposed a dynamical model to emulate the measurement postulates of quantum mechanics. We postulate that a non-Hermitian Hamiltonian operates during the process of measurement, which evolves any state to an attracting equilibrium state, thus, mimicking a "collapse". We demonstrate this using a 2-level system and then extend it to an N-level system. For a 2-level system, we also demonstrate that the dynamics generated by the Lindblad master equation can be replicated as an incoherent sum of the evolution by two separate non-Hermitian Hamiltonians.
翻訳日:2023-08-16 17:18:21 公開日:2023-08-15
# HaMuCo:多視点協調型自己監督学習による手振り推定

HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised Learning ( http://arxiv.org/abs/2302.00988v2 )

ライセンス: Link先を確認
Xiaozheng Zheng, Chao Wen, Zhou Xue, Pengfei Ren, Jingyu Wang(参考訳) 近年の3次元手ポーズ推定の進歩は有望な結果を示しているが、その効果は主に大規模注釈付きデータセットの利用可能性に依存しており、その作成は手間とコストのかかるプロセスである。 ラベル・ハングリー制限を緩和するために,多視点擬似2dラベルから単視点ハンドポーズ推定器を学習する自己教師付き学習フレームワークhamucoを提案する。 しかし、自己指導型学習の主な課題の1つは、ノイズラベルの存在と複数の視点から「グループ思考」の効果である。 これらの課題を克服するために,クロスビュー相関機能を利用し,マルチビュー一貫性を強制することにより協調学習を実現する,シングルビュー推定器を蒸留するクロスビューインタラクションネットワークを提案する。 シングルビュー推定器とクロスビュー相互作用ネットワークは、エンドツーエンドで共同で訓練される。 本手法は多視点自己監督型ポーズ推定における最先端性能を実現することができる。 さらに,提案するクロスビューインタラクションネットワークは,マルチビュー入力からのハンドポーズ推定にも適用可能であり,同一設定下では従来の手法を上回っている。

Recent advancements in 3D hand pose estimation have shown promising results, but its effectiveness has primarily relied on the availability of large-scale annotated datasets, the creation of which is a laborious and costly process. To alleviate the label-hungry limitation, we propose a self-supervised learning framework, HaMuCo, that learns a single-view hand pose estimator from multi-view pseudo 2D labels. However, one of the main challenges of self-supervised learning is the presence of noisy labels and the ``groupthink'' effect from multiple views. To overcome these issues, we introduce a cross-view interaction network that distills the single-view estimator by utilizing the cross-view correlated features and enforcing multi-view consistency to achieve collaborative learning. Both the single-view estimator and the cross-view interaction network are trained jointly in an end-to-end manner. Extensive experiments show that our method can achieve state-of-the-art performance on multi-view self-supervised hand pose estimation. Furthermore, the proposed cross-view interaction network can also be applied to hand pose estimation from multi-view input and outperforms previous methods under the same settings.
翻訳日:2023-08-16 17:17:39 公開日:2023-08-15
# infinicity:無限大の都市合成

InfiniCity: Infinite-Scale City Synthesis ( http://arxiv.org/abs/2301.09637v2 )

ライセンス: Link先を確認
Chieh Hubert Lin, Hsin-Ying Lee, Willi Menapace, Menglei Chai, Aliaksandr Siarohin, Ming-Hsuan Yang and Sergey Tulyakov(参考訳) 本研究では,無限大の3次元都市合成に向けて,ランダムノイズから制約のない大規模3次元地下環境の構築とレンダリングを行う新しいフレームワーク,InfiniCityを提案する。 infinicityは一見非現実的なタスクを3つの実現可能なモジュールに分解し、2dと3dの両方のデータを利用する。 まず、無限画素画像合成モジュールが、鳥眼ビューから任意のスケールの2Dマップを生成する。 次にoctreeベースのvoxel補完モジュールは、生成された2dマップを3dオクターレにリフトする。 最後に、voxelベースのニューラルネットワークモジュールがvoxelをテキスト化し、2dイメージをレンダリングする。 これにより、InfiniCityは任意の規模の3D都市環境を合成し、フレキシブルでインタラクティブな編集を可能にする。 提案手法の有効性を定量的かつ質的に実証する。 プロジェクトページ: https://hubert0527.github.io/infinicity/

Toward infinite-scale 3D city synthesis, we propose a novel framework, InfiniCity, which constructs and renders an unconstrainedly large and 3D-grounded environment from random noises. InfiniCity decomposes the seemingly impractical task into three feasible modules, taking advantage of both 2D and 3D data. First, an infinite-pixel image synthesis module generates arbitrary-scale 2D maps from the bird's-eye view. Next, an octree-based voxel completion module lifts the generated 2D map to 3D octrees. Finally, a voxel-based neural rendering module texturizes the voxels and renders 2D images. InfiniCity can thus synthesize arbitrary-scale and traversable 3D city environments, and allow flexible and interactive editing from users. We quantitatively and qualitatively demonstrate the efficacy of the proposed framework. Project page: https://hubert0527.github.io/infinicity/
翻訳日:2023-08-16 17:17:00 公開日:2023-08-15
# 非最大量子カオスに対する有効場の理論

An effective field theory for non-maximal quantum chaos ( http://arxiv.org/abs/2301.05256v2 )

ライセンス: Link先を確認
Ping Gao and Hong Liu(参考訳) 非最大量子カオス系では、時間外順序付き相関器(OTOC)の指数的挙動は、高次の「スピン」作用素の無限塔の交換に関する和から生じる。 実効場理論(EFT)を構築し、これらの交換を$(0+1)$次元で捉える。 eftは最大カオスシステムのためのものを一般化し、最大カオスの限界でそれへ還元する。 この理論は、1/n$拡大(自由度数)の先頭の順序と、1/n$補正の無限個の高次数の両方においてotocsの一般構造を予測する。 これらの一般的な結果は、特定のモデルで明示的に得られた結果と一致する。 また、EFTの一般的な構造は、大きな$q$SYKモデルから抽出できることを示す。

In non-maximally quantum chaotic systems, the exponential behavior of out-of-time-ordered correlators (OTOCs) results from summing over exchanges of an infinite tower of higher "spin" operators. We construct an effective field theory (EFT) to capture these exchanges in $(0+1)$ dimensions. The EFT generalizes the one for maximally chaotic systems, and reduces to it in the limit of maximal chaos. The theory predicts the general structure of OTOCs both at leading order in the $1/N$ expansion ($N$ is the number of degrees of freedom), and after resuming over an infinite number of higher order $1/N$ corrections. These general results agree with those previously explicitly obtained in specific models. We also show that the general structure of the EFT can be extracted from the large $q$ SYK model.
翻訳日:2023-08-16 17:16:46 公開日:2023-08-15
# 複素ダイナミクスのグラフニューラル近似のための準備

A Recipe for Well-behaved Graph Neural Approximations of Complex Dynamics ( http://arxiv.org/abs/2301.04900v2 )

ライセンス: Link先を確認
Vaiva Vasiliauskaite and Nino Antulov-Fantulin(参考訳) 常微分方程式のデータ駆動近似は、力学系モデル、特に明示的な第一原理を持たない複素系の発見において、古典的な方法に代わる有望な方法を与える。 本稿では、ネットワーク隣接行列を介して結合された常微分方程式系で力学を記述する複雑なシステムに焦点をあてる。 金融、社会、神経システムを含む多くの現実世界のシステムは、このタイプの力学モデルに属する。 本稿では,必要なバイアスや適切なニューラルアーキテクチャを含むニューラルネットワークを用いて,そのような動的システムを近似するための必須要素を提案する。 静的教師付き学習との違いを強調し,統計的学習理論の古典的仮定を超えた一般化を評価することを提唱する。 推論時間中の予測の信頼性を推定するために,専用nullモデルを導入する。 様々な複雑なネットワークダイナミクスを研究することで、ニューラルネットワークが様々なダイナミクスを近似し、複雑なネットワーク構造、サイズ、入力の統計特性を一般化できることを実証する。 包括的フレームワークにより,高次元,非線形結合型複合力学系の深層学習近似が可能となる。

Data-driven approximations of ordinary differential equations offer a promising alternative to classical methods in discovering a dynamical system model, particularly in complex systems lacking explicit first principles. This paper focuses on a complex system whose dynamics is described with a system of ordinary differential equations, coupled via a network adjacency matrix. Numerous real-world systems, including financial, social, and neural systems, belong to this class of dynamical models. We propose essential elements for approximating such dynamical systems using neural networks, including necessary biases and an appropriate neural architecture. Emphasizing the differences from static supervised learning, we advocate for evaluating generalization beyond classical assumptions of statistical learning theory. To estimate confidence in prediction during inference time, we introduce a dedicated null model. By studying various complex network dynamics, we demonstrate the neural network's ability to approximate various dynamics, generalize across complex network structures, sizes, and statistical properties of inputs. Our comprehensive framework enables deep learning approximations of high-dimensional, non-linearly coupled complex dynamical systems.
翻訳日:2023-08-16 17:16:31 公開日:2023-08-15
# 一時的バンドル選択におけるユーザの個人化投影バイアスの学習

Probe: Learning Users' Personalized Projection Bias in Intertemporal Bundle Choices ( http://arxiv.org/abs/2303.06016v3 )

ライセンス: Link先を確認
Qingming Li and H. Vicky Zhao(参考訳) 時間的選択は、将来的な利益に対する現在のコストの重み付けを必要とする決定を下す。 特定のタイプの一時的な選択は、個々のアイテムを購入するか、そのアイテムを含むバンドルを選択するかのどちらかである。 従来の研究は、個人がこれらの選択に関わる要因を正確に予測していると仮定していた。 しかし、実際には、これらの要因に対するユーザの認識は、しばしばバイアスを受け、不合理かつ準最適意思決定につながる。 本研究では、投射バイアスと基準点効果という2つのよく観察されるバイアスに焦点を当てる。 これらのバイアスに対処するために, Probe と呼ばれる新しいバイアス埋め込み選好モデルを提案する。 このプローブは、ユーザの投影バイアスをキャプチャする重み関数と、参照点効果を考慮した値関数とを組み込んで、重み関数と値関数を組み合わせるための行動経済学からの予測理論を導入する。 これにより、ユーザがバンドルまたは1つのアイテムを選択する確率を判断できます。 我々は,バンドル販売戦略の設計における予測バイアスの影響を示すために,詳細な理論解析を行う。 実験の結果,提案手法は既存手法よりも優れており,バンドル購入におけるユーザの不合理な振る舞いの理解に寄与することが示された。 この調査は、ユーザの意思決定メカニズムをより深く理解し、パーソナライズされたサービスの提供を可能にし、より合理的で最適な意思決定を支援する。

Intertemporal choices involve making decisions that require weighing the costs in the present against the benefits in the future. One specific type of intertemporal choice is the decision between purchasing an individual item or opting for a bundle that includes that item. Previous research assumes that individuals have accurate expectations of the factors involved in these choices. However, in reality, users' perceptions of these factors are often biased, leading to irrational and suboptimal decision-making. In this work, we specifically focus on two commonly observed biases: projection bias and the reference-point effect. To address these biases, we propose a novel bias-embedded preference model called Probe. The Probe incorporates a weight function to capture users' projection bias and a value function to account for the reference-point effect, and introduce prospect theory from behavioral economics to combine the weight and value functions. This allows us to determine the probability of users selecting the bundle or a single item. We provide a thorough theoretical analysis to demonstrate the impact of projection bias on the design of bundle sales strategies. Through experimental results, we show that the proposed Probe model outperforms existing methods and contributes to a better understanding of users' irrational behaviors in bundle purchases. This investigation can facilitate a deeper comprehension of users' decision-making mechanisms, enable the provision of personalized services, and assist users in making more rational and optimal decisions.
翻訳日:2023-08-16 17:09:17 公開日:2023-08-15
# GPGait: 汎用Poseベースの歩行認識

GPGait: Generalized Pose-based Gait Recognition ( http://arxiv.org/abs/2303.05234v2 )

ライセンス: Link先を確認
Yang Fu, Shibei Meng, Saihui Hou, Xuecai Hu and Yongzhen Huang(参考訳) ポーズに基づく歩行認識に関する最近の研究は、このような単純な情報を用いてシルエット法に匹敵する結果が得られる可能性を実証している。 しかし、異なるデータセット上でのポーズベースの手法の一般化能力は、シルエットベースの手法よりも好ましくないほど劣っている。 データセット間でのポーズベースの手法の一般化能力を向上させるために,<textbf{G}eneralized \textbf{P}ose-based \textbf{Gait} recognition (\textbf{GPGait}) フレームワークを提案する。 まず,Human-Oriented Transformation (HOT) と一連のHuman-Oriented Descriptor (HOD) が提案され,識別多機能化によるポーズの統一表現が得られる。 そして、hotとhodの後の統一表現のわずかなバリエーションを考えると、ネットワークがキーポイント間の局所的グローバル関係を抽出することが重要となる。 この目的のために,効率的なグラフ分割と局所的グローバル空間特徴抽出を実現するために,部分認識型グラフ畳み込みネットワーク (pagcn) を提案する。 casia-b, oumvlp-pose, gait3d, growの4つのgait認識データセットを用いた実験により, 既存のスケルトンベース法と比較して, より良好で安定なクロスドメイン機能を示し, シルエットベースのものと同等の認識結果を得た。 コードはhttps://github.com/BNU-IVC/FastPoseGait.comで入手できる。

Recent works on pose-based gait recognition have demonstrated the potential of using such simple information to achieve results comparable to silhouette-based methods. However, the generalization ability of pose-based methods on different datasets is undesirably inferior to that of silhouette-based ones, which has received little attention but hinders the application of these methods in real-world scenarios. To improve the generalization ability of pose-based methods across datasets, we propose a \textbf{G}eneralized \textbf{P}ose-based \textbf{Gait} recognition (\textbf{GPGait}) framework. First, a Human-Oriented Transformation (HOT) and a series of Human-Oriented Descriptors (HOD) are proposed to obtain a unified pose representation with discriminative multi-features. Then, given the slight variations in the unified representation after HOT and HOD, it becomes crucial for the network to extract local-global relationships between the keypoints. To this end, a Part-Aware Graph Convolutional Network (PAGCN) is proposed to enable efficient graph partition and local-global spatial feature extraction. Experiments on four public gait recognition datasets, CASIA-B, OUMVLP-Pose, Gait3D and GREW, show that our model demonstrates better and more stable cross-domain capabilities compared to existing skeleton-based methods, achieving comparable recognition results to silhouette-based ones. Code is available at https://github.com/BNU-IVC/FastPoseGait.
翻訳日:2023-08-16 17:08:54 公開日:2023-08-15
# プログレッシブ・セルフ蒸留による食品認識の学習

Learn More for Food Recognition via Progressive Self-Distillation ( http://arxiv.org/abs/2303.05073v2 )

ライセンス: Link先を確認
Yaohui Zhu, Linhu Liu, Jiang Tian(参考訳) 食品認識には、健康に配慮したレコメンデーションやセルフサービスレストランなど、幅広い応用がある。 食品認識の従来の手法は、まず、弱い管理方法で情報領域を特定し、その特徴を集約する。 しかし、情報領域の位置誤差は、これらの手法の有効性をある程度制限する。 そこで本研究では,複数の地域を探索する代わりに,より詳細な食品認識のためのネットワークのマイニング能力を高めるプログレッシブ・セルフ蒸留(PSD)手法を提案する。 PSDのトレーニングは、教師ネットワークと学生ネットワークが同一の埋め込みネットワークを共有する複数の自己蒸留を含む。 教師ネットワークは、一部の情報領域をマスキングして教師ネットワークから修正画像を受け取るので、教師ネットワークは生徒ネットワークよりも強力な意味表現を出力する。 より強力な意味を持つ教師ネットワークによって指導され、学生ネットワークは、より有用な地域を、自身の能力を高めて修正画像からマイニングすることが奨励される。 また、共有埋め込みネットワークにより、教師ネットワークの能力も向上する。 プログレッシブトレーニングを使用することで、教師ネットワークはより差別的な地域をマイニングする能力を向上させる。 推論フェーズでは、学生ネットワークの助けなしに教師ネットワークのみが使用される。 3つのデータセットに関する広範囲な実験により,提案手法の有効性と最新性能が実証された。

Food recognition has a wide range of applications, such as health-aware recommendation and self-service restaurants. Most previous methods of food recognition firstly locate informative regions in some weakly-supervised manners and then aggregate their features. However, location errors of informative regions limit the effectiveness of these methods to some extent. Instead of locating multiple regions, we propose a Progressive Self-Distillation (PSD) method, which progressively enhances the ability of network to mine more details for food recognition. The training of PSD simultaneously contains multiple self-distillations, in which a teacher network and a student network share the same embedding network. Since the student network receives a modified image from its teacher network by masking some informative regions, the teacher network outputs stronger semantic representations than the student network. Guided by such teacher network with stronger semantics, the student network is encouraged to mine more useful regions from the modified image by enhancing its own ability. The ability of the teacher network is also enhanced with the shared embedding network. By using progressive training, the teacher network incrementally improves its ability to mine more discriminative regions. In inference phase, only the teacher network is used without the help of the student network. Extensive experiments on three datasets demonstrate the effectiveness of our proposed method and state-of-the-art performance.
翻訳日:2023-08-16 17:08:21 公開日:2023-08-15
# FUSQA:胎児超音波のセグメンテーション品質評価

FUSQA: Fetal Ultrasound Segmentation Quality Assessment ( http://arxiv.org/abs/2303.04418v2 )

ライセンス: Link先を確認
Sevim Cengiz, Ibrahim Almakky, Mohammad Yaqub(参考訳) 深層学習モデルは様々な胎児超音波セグメンテーションタスクに有効である。 しかし、新たな未知のデータへの一般化は、臨床応用の有効性に関する疑問を提起している。 通常、新しい目に見えないデータへの遷移は、移行後のセグメンテーション性能を検証するのに時間を要する。 セグメンテーション品質評価の取り組みは自然画像に焦点を合わせており、その問題は通常、ダイススコア回帰タスクとして定式化されている。 本稿では,マスクが存在しない場合にセグメンテーション品質評価に取り組むために,簡易な胎児超音波セグメンテーション品質評価(FUSQA)モデルを提案する。 分別品質評価プロセスを,より正確な妊娠年齢推定のために,良質な分別マスクと低品質の分別マスクを区別するための自動分類タスクとして定式化する。 異なる超音波装置を用いて2つの病院から収集した2つのデータセットについて,提案手法の性能を検証する。 優れたセグメンテーションマスクと低い品質のセグメンテーションマスクを区別することで、90%以上の分類精度を達成しています。 さらに、医師が報告した妊娠年齢とCRL測定値との差は1.45日しかなかった。 一方,この差は,セグメンテーションの少ないマスクからcrlを計算した場合,最大7.73日にまで達した。 その結果、AIベースのアプローチは胎児超音波のセグメンテーションの品質評価に役立つ可能性があり、将来的にはリアルタイムスクリーニングにおけるセグメンテーションの低下を検出する可能性がある。

Deep learning models have been effective for various fetal ultrasound segmentation tasks. However, generalization to new unseen data has raised questions about their effectiveness for clinical adoption. Normally, a transition to new unseen data requires time-consuming and costly quality assurance processes to validate the segmentation performance post-transition. Segmentation quality assessment efforts have focused on natural images, where the problem has been typically formulated as a dice score regression task. In this paper, we propose a simplified Fetal Ultrasound Segmentation Quality Assessment (FUSQA) model to tackle the segmentation quality assessment when no masks exist to compare with. We formulate the segmentation quality assessment process as an automated classification task to distinguish between good and poor-quality segmentation masks for more accurate gestational age estimation. We validate the performance of our proposed approach on two datasets we collect from two hospitals using different ultrasound machines. We compare different architectures, with our best-performing architecture achieving over 90% classification accuracy on distinguishing between good and poor-quality segmentation masks from an unseen dataset. Additionally, there was only a 1.45-day difference between the gestational age reported by doctors and estimated based on CRL measurements using well-segmented masks. On the other hand, this difference increased and reached up to 7.73 days when we calculated CRL from the poorly segmented masks. As a result, AI-based approaches can potentially aid fetal ultrasound segmentation quality assessment and might detect poor segmentation in real-time screening in the future.
翻訳日:2023-08-16 17:07:59 公開日:2023-08-15
# プライベート推定におけるサブセットベースインスタンス最適性

Subset-Based Instance Optimality in Private Estimation ( http://arxiv.org/abs/2303.01262v2 )

ライセンス: Link先を確認
Travis Dick, Alex Kulesza, Ziteng Sun, Ananda Theertha Suresh(参考訳) 微分プライベート推定アルゴリズムのインスタンス最適性の新たな定義を提案する。 私たちの定義では、各データセットの$d$と最高のプライベートベンチマークアルゴリズムを同時に競うために最適なアルゴリズムが必要です。 (a)事前にD$を知っており、 (b) は$d$ の大きなサブセットで最悪の場合の性能によって評価される。 つまり、ベンチマークアルゴリズムは、潜在的に極端なポイントが$d$に追加された場合、うまく機能しない。 これによってベンチマークは、以前の作業で提案されていたものよりも大幅に強化されました。 それにもかかわらず、実際の評価されたデータセットに対して、手段、量子化、および$\ell_p$-norm最小化を含む幅広いデータセット特性のクラスを推定する際に、インスタンス最適性の概念を達成するプライベートアルゴリズムを構築する方法を示す。 特に,詳細な解析を行い,分布的仮定の下で既存のアルゴリズムの漸近的性能を同時に満たしているか,あるいは超えていることを示す。

We propose a new definition of instance optimality for differentially private estimation algorithms. Our definition requires an optimal algorithm to compete, simultaneously for every dataset $D$, with the best private benchmark algorithm that (a) knows $D$ in advance and (b) is evaluated by its worst-case performance on large subsets of $D$. That is, the benchmark algorithm need not perform well when potentially extreme points are added to $D$; it only has to handle the removal of a small number of real data points that already exist. This makes our benchmark significantly stronger than those proposed in prior work. We nevertheless show, for real-valued datasets, how to construct private algorithms that achieve our notion of instance optimality when estimating a broad class of dataset properties, including means, quantiles, and $\ell_p$-norm minimizers. For means in particular, we provide a detailed analysis and show that our algorithm simultaneously matches or exceeds the asymptotic performance of existing algorithms under a range of distributional assumptions.
翻訳日:2023-08-16 17:07:36 公開日:2023-08-15
# I2P-Rec:Bird’s Eye View Projectionsによる大規模ポイントクラウドマップの画像認識

I2P-Rec: Recognizing Images on Large-scale Point Cloud Maps through Bird's Eye View Projections ( http://arxiv.org/abs/2303.01043v2 )

ライセンス: Link先を確認
Shuhang Zheng, Yixuan Li, Zhu Yu, Beinan Yu, Si-Yuan Cao, Minhang Wang, Jintao Xu, Rui Ai, Weihao Gu, Lun Luo, Hui-Liang Shen(参考訳) 位置認識は、オンラインローカライズアルゴリズムに最初の推測を提供するため、自動運転車が完全な自律性を達成するための重要な技術である。 画像やポイントクラウドに基づく現在の手法は良好な性能を達成しているが、大規模なポイントクラウドマップ上でのイメージのローカライズは未解決の問題である。 このクロスモーダルマッチングタスクは、画像や点雲から一貫した記述子を抽出することが難しいため、難しい。 本稿では,クロスモーダルデータを同一モダリティに変換することで,この問題を解決するための i2p-rec 法を提案する。 具体的には,近年の深度推定ネットワークの成功を利用して画像から点雲を復元する。 次に、ポイント雲をBird's Eye View (BEV)イメージに投影します。 中間表現としてBEV画像を用いて、畳み込みニューラルネットワークを用いてグローバルな特徴を抽出し、次いでNetVLAD層を用いてマッチングを行う。 KITTIデータセットで評価した実験結果から,I2P-Recはトレーニングデータのみを用いて,ポイントクラウドマップ上のモノクロ画像とステレオ画像の局所化において,Top-1\%以上80\%以上90\%のリコール率を達成した。 さらに,自律ロジスティクスカーが収集した1kmの軌道データセット上でのi2p-recの評価を行った。

Place recognition is an important technique for autonomous cars to achieve full autonomy since it can provide an initial guess to online localization algorithms. Although current methods based on images or point clouds have achieved satisfactory performance, localizing the images on a large-scale point cloud map remains a fairly unexplored problem. This cross-modal matching task is challenging due to the difficulty in extracting consistent descriptors from images and point clouds. In this paper, we propose the I2P-Rec method to solve the problem by transforming the cross-modal data into the same modality. Specifically, we leverage on the recent success of depth estimation networks to recover point clouds from images. We then project the point clouds into Bird's Eye View (BEV) images. Using the BEV image as an intermediate representation, we extract global features with a Convolutional Neural Network followed by a NetVLAD layer to perform matching. The experimental results evaluated on the KITTI dataset show that, with only a small set of training data, I2P-Rec achieves recall rates at Top-1\% over 80\% and 90\%, when localizing monocular and stereo images on point cloud maps, respectively. We further evaluate I2P-Rec on a 1 km trajectory dataset collected by an autonomous logistics car and show that I2P-Rec can generalize well to previously unseen environments.
翻訳日:2023-08-16 17:07:20 公開日:2023-08-15
# BEVPlace:鳥の視線画像を用いたLiDARによる位置認識学習

BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View Images ( http://arxiv.org/abs/2302.14325v3 )

ライセンス: Link先を確認
Lun Luo, Shuhang Zheng, Yixuan Li, Yongzhi Fan, Beinan Yu, Siyuan Cao, Huiliang Shen(参考訳) 場所認識は長期SLAMシステムにとって重要なモジュールである。 現在のlidarに基づく位置認識法は、通常、不整点や範囲画像などの点雲の表現を用いる。 これらの手法は検索のリコール率が高いが、ビューの変化やシーンの変化で性能が低下する可能性がある。 本研究では、位置認識における異なる表現の可能性、すなわち、鳥の視線(BEV)画像について検討する。 我々は,bev画像の構造的内容は点雲の回転や変換の影響が少ないことを観察する。 微妙な設計がなければ、bevイメージで訓練された単純なvggnetが、わずかな視点変化の場面で最先端の場所認識手法と同等の性能を達成できることを検証する。 より堅牢な位置認識のために、BEVPlaceと呼ばれる回転不変ネットワークを設計する。 我々はグループ畳み込みを用いて画像から回転同変局所特徴を抽出し,大域的特徴集合にNetVLADを用いる。 さらに,BEV特徴量間の距離が点雲の幾何学的距離と相関していることが観察された。 そこで本研究では,クエリクラウドの位置を推定し,位置認識の利用範囲を拡大する手法を開発した。 大規模公開データセットを用いた実験により,本手法が得られた。 1)リコール率で最先端のパフォーマンスを達成する。 2) 変化を見るのに堅牢です。 3)強い一般化能力を示し、 4) 問合せ点雲の位置を推定できる。 ソースコードはhttps://github.com/zjuluolun/BEVPlace.comで公開されている。

Place recognition is a key module for long-term SLAM systems. Current LiDAR-based place recognition methods usually use representations of point clouds such as unordered points or range images. These methods achieve high recall rates of retrieval, but their performance may degrade in the case of view variation or scene changes. In this work, we explore the potential of a different representation in place recognition, i.e. bird's eye view (BEV) images. We observe that the structural contents of BEV images are less influenced by rotations and translations of point clouds. We validate that, without any delicate design, a simple VGGNet trained on BEV images achieves comparable performance with the state-of-the-art place recognition methods in scenes of slight viewpoint changes. For more robust place recognition, we design a rotation-invariant network called BEVPlace. We use group convolution to extract rotation-equivariant local features from the images and NetVLAD for global feature aggregation. In addition, we observe that the distance between BEV features is correlated with the geometry distance of point clouds. Based on the observation, we develop a method to estimate the position of the query cloud, extending the usage of place recognition. The experiments conducted on large-scale public datasets show that our method 1) achieves state-of-the-art performance in terms of recall rates, 2) is robust to view changes, 3) shows strong generalization ability, and 4) can estimate the positions of query point clouds. Source codes are publicly available at https://github.com/zjuluolun/BEVPlace.
翻訳日:2023-08-16 17:06:53 公開日:2023-08-15
# 不均衡情報ネットワークのための意味認識ノード合成

Semantic-aware Node Synthesis for Imbalanced Heterogeneous Information Networks ( http://arxiv.org/abs/2302.14061v2 )

ライセンス: Link先を確認
Xinyi Gao, Wentao Zhang, Tong Chen, Junliang Yu, Hung Quoc Viet Nguyen, Hongzhi Yin(参考訳) 不均一グラフニューラルネットワーク(HGNN)は、異種情報ネットワーク(HIN)における複素不均一性をモデル化する際、例外的な効果を示した。 HGNNの重要な利点は、豊富な意味情報を抽出し、有効表現学習に活用することにより、HINにおける多様なノードやエッジタイプを処理できることである。 しかし、多くの実世界のシナリオで広く見られる現象として、HINのクラス不均衡分布は既存のHGNNのパフォーマンスボトルネックを生み出している。 ノードの量的不均衡とは別に、hinsのもう一つの重要かつ特徴的な課題は意味的不均衡である。 hinsのマイノリティクラスは、しばしば多様で十分な隣接ノードを欠き、偏りと不完全な意味情報をもたらす。 この意味的不均衡は、少数ノードを正確に分類することの難しさをさらに複雑化し、HGNNの性能低下につながった。 マイノリティクラスの不均衡に取り組み,それらの不適切なセマンティクスを補完するために,sns(semantic-aware node synthesis)と呼ばれる不均衡hinにおけるセマンティクス不均衡問題の最初の方法を提案する。 マイノリティクラスへの影響を評価することにより、SNSは異種隣接ノードを適応的に選択し、マイノリティセマンティクスを維持しながら合成ノードでネットワークを増強する。 さらに,合成ノードの表現を意味論的およびクラス的視点の両方から制約し,合成ノードからの潜在的なノイズを効果的に抑制するhgnnの2つの正規化手法を導入する。 総合的な実験研究により、SNSは様々なベンチマークデータセットにおいて既存の手法よりずっと優れていることが示された。

Heterogeneous graph neural networks (HGNNs) have exhibited exceptional efficacy in modeling the complex heterogeneity in heterogeneous information networks (HINs). The critical advantage of HGNNs is their ability to handle diverse node and edge types in HINs by extracting and utilizing the abundant semantic information for effective representation learning. However, as a widespread phenomenon in many real-world scenarios, the class-imbalance distribution in HINs creates a performance bottleneck for existing HGNNs. Apart from the quantity imbalance of nodes, another more crucial and distinctive challenge in HINs is semantic imbalance. Minority classes in HINs often lack diverse and sufficient neighbor nodes, resulting in biased and incomplete semantic information. This semantic imbalance further compounds the difficulty of accurately classifying minority nodes, leading to the performance degradation of HGNNs. To tackle the imbalance of minority classes and supplement their inadequate semantics, we present the first method for the semantic imbalance problem in imbalanced HINs named Semantic-aware Node Synthesis (SNS). By assessing the influence on minority classes, SNS adaptively selects the heterogeneous neighbor nodes and augments the network with synthetic nodes while preserving the minority semantics. In addition, we introduce two regularization approaches for HGNNs that constrain the representation of synthetic nodes from both semantic and class perspectives to effectively suppress the potential noises from synthetic nodes, facilitating more expressive embeddings for classification. The comprehensive experimental study demonstrates that SNS consistently outperforms existing methods by a large margin in different benchmark datasets.
翻訳日:2023-08-16 17:06:32 公開日:2023-08-15
# エネルギー自然勾配によるPINNの高精度化

Achieving High Accuracy with PINNs via Energy Natural Gradients ( http://arxiv.org/abs/2302.13163v2 )

ライセンス: Link先を確認
Johannes M\"uller, Marius Zeinhofer(参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN)の最適化アルゴリズムとして,エネルギー自然勾配降下法,ヘシアン誘導リーマン計量に対する自然勾配法,ディープリッツ法を提案する。 主動機として、エネルギーの自然勾配から生じる関数空間の更新方向が、モデルの接空間への直交射影のニュートン方向に対応することを示す。 実験により, エネルギー勾配降下は, 計算時間が大幅に長い場合であっても, 勾配降下やアダムのような標準最適化器を用いてPINNを訓練する際に得られるものよりも数桁小さい誤差で高精度な解が得られることを示した。

We propose energy natural gradient descent, a natural gradient method with respect to a Hessian-induced Riemannian metric as an optimization algorithm for physics-informed neural networks (PINNs) and the deep Ritz method. As a main motivation we show that the update direction in function space resulting from the energy natural gradient corresponds to the Newton direction modulo an orthogonal projection onto the model's tangent space. We demonstrate experimentally that energy natural gradient descent yields highly accurate solutions with errors several orders of magnitude smaller than what is obtained when training PINNs with standard optimizers like gradient descent or Adam, even when those are allowed significantly more computation time.
翻訳日:2023-08-16 17:06:03 公開日:2023-08-15
# SGL-PT: グラフプロンプトチューニングによるグラフ学習

SGL-PT: A Strong Graph Learner with Graph Prompt Tuning ( http://arxiv.org/abs/2302.12449v2 )

ライセンス: Link先を確認
Yun Zhu and Jianhao Guo and Siliang Tang(参考訳) 近年,グラフ自己教師法の設計,一般化事前学習モデルの作成,微調整による下流タスクへの事前学習モデルの適用に多くの努力が払われている。 しかし、プリテキストとダウンストリームグラフのタスクの間には固有のギャップがあり、事前訓練されたモデルの能力は不十分であり、負の移動につながる。 一方、プロンプトチューニングは、事前トレーニングと微調整を一貫したトレーニング目標に合わせることで、自然言語処理において新たな成功を収めている。 本稿では,グラフ領域における日没事前学習手法にまたがる強固で普遍的な事前学習タスクが欠如していることから,グラフプロンプトチューニングの課題を明らかにする。 第2の課題は,事前トレーニングとダウンストリームタスクの両方に対して,一貫したトレーニング目標を設計することの難しさにある。 以上の障害を克服するために,< Pre-train, Prompt, and Predict'' という学習戦略に従う新しいフレームワーク SGL-PT を提案する。 具体的には,生成的および対照的自己教師付きグラフ学習の補完的メリットを得るsglとして,強固で普遍的な事前学習課題を提起する。 そして, グラフ分類タスクを目標として, 先行学習と微調整を統一し, 下流課題を前文課題と類似した形式に再構成する, 新規な動詞化なしプロンプト関数を設計した。 実験結果から,本手法は教師なし設定で他のベースラインを上回っており,微調整法よりも生体データセットのモデルを大幅に促進できることがわかった。

Recently, much exertion has been paid to design graph self-supervised methods to obtain generalized pre-trained models, and adapt pre-trained models onto downstream tasks through fine-tuning. However, there exists an inherent gap between pretext and downstream graph tasks, which insufficiently exerts the ability of pre-trained models and even leads to negative transfer. Meanwhile, prompt tuning has seen emerging success in natural language processing by aligning pre-training and fine-tuning with consistent training objectives. In this paper, we identify the challenges for graph prompt tuning: The first is the lack of a strong and universal pre-training task across sundry pre-training methods in graph domain. The second challenge lies in the difficulty of designing a consistent training objective for both pre-training and downstream tasks. To overcome above obstacles, we propose a novel framework named SGL-PT which follows the learning strategy ``Pre-train, Prompt, and Predict''. Specifically, we raise a strong and universal pre-training task coined as SGL that acquires the complementary merits of generative and contrastive self-supervised graph learning. And aiming for graph classification task, we unify pre-training and fine-tuning by designing a novel verbalizer-free prompting function, which reformulates the downstream task in a similar format as pretext task. Empirical results show that our method surpasses other baselines under unsupervised setting, and our prompt tuning method can greatly facilitate models on biological datasets over fine-tuning methods.
翻訳日:2023-08-16 17:05:52 公開日:2023-08-15
# Aleatoric Uncertainity によるフェアネス

Fairness through Aleatoric Uncertainty ( http://arxiv.org/abs/2304.03646v2 )

ライセンス: Link先を確認
Anique Tahir, Lu Cheng and Huan Liu(参考訳) 分類タスクにおける公平さと実用性の両面からしばしば競合する目標に対処するための,単純かつ効果的なソリューションを提案する。 公平さはモデルの予測が偏りがなく、特定のグループや個人と差別しないことを保証するが、ユーティリティーはモデルの予測性能を最大化することに焦点を当てる。 本研究は,不確実性(データ曖昧性など)を活用して公平性利用のトレードオフを改善するという考え方を導入する。 我々の中心となる仮説は、アルゴリズムの不確かさがアルゴリズムの不確実性の重要な要因であり、不確実性の低いサンプルは、高いアレベータ不確実性を持つ試料よりも正確かつ公平にモデル化されるというものである。 次に,不確実性が高い場合の公平性を改善するための原理モデルを提案し,他の場所での利用性を改善する。 提案手法は,まずデータ分布に介入し,アレエータ的不確実性と認識的不確実性を分離する。 次に、推定されたアレタリック不確実性に基づいて定義されるフェアネスユーティリティー双対象損失を導入する。 われわれのアプローチは理論的にフェアネス・ユーティリティ・トレードオフを改善することが保証されている。 表と画像の両方のデータセットによる実験結果から,提案手法は,フェアネス・ユーティリティトレードオフやグループおよび個人フェアネスの指標よりも優れていることがわかった。 本研究は,実用性とアルゴリズムフェアネスのトレードオフに関する新たな視点を示し,フェア機械学習における予測不確実性を利用する可能性の鍵となる道を開く。

We propose a simple yet effective solution to tackle the often-competing goals of fairness and utility in classification tasks. While fairness ensures that the model's predictions are unbiased and do not discriminate against any particular group or individual, utility focuses on maximizing the model's predictive performance. This work introduces the idea of leveraging aleatoric uncertainty (e.g., data ambiguity) to improve the fairness-utility trade-off. Our central hypothesis is that aleatoric uncertainty is a key factor for algorithmic fairness and samples with low aleatoric uncertainty are modeled more accurately and fairly than those with high aleatoric uncertainty. We then propose a principled model to improve fairness when aleatoric uncertainty is high and improve utility elsewhere. Our approach first intervenes in the data distribution to better decouple aleatoric uncertainty and epistemic uncertainty. It then introduces a fairness-utility bi-objective loss defined based on the estimated aleatoric uncertainty. Our approach is theoretically guaranteed to improve the fairness-utility trade-off. Experimental results on both tabular and image datasets show that the proposed approach outperforms state-of-the-art methods w.r.t. the fairness-utility trade-off and w.r.t. both group and individual fairness metrics. This work presents a fresh perspective on the trade-off between utility and algorithmic fairness and opens a key avenue for the potential of using prediction uncertainty in fair machine learning.
翻訳日:2023-08-16 17:00:30 公開日:2023-08-15
# SALUDA: 表面をベースとした自動車用ライダー

SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation ( http://arxiv.org/abs/2304.03251v2 )

ライセンス: Link先を確認
Bjoern Michele, Alexandre Boulch, Gilles Puy, Tuan-Hung Vu, Renaud Marlet, Nicolas Courty(参考訳) あるラベル付きデータセット上で、別のドメインでうまく一般化するモデルを学ぶことは、データドメイン間でいくつかのシフトが発生する可能性があるため、難しい作業である。 これはライダーデータにおいて特に顕著であり、例えば、異なるライダーパターンや取得条件の変化により、モデルが大きなパフォーマンスの相違を示すことができる。 本稿では,意味的セグメンテーションのためのUnsupervised Domain Adaptation (UDA)タスクについて述べる。 この問題を軽減するために、ソースデータとターゲットデータに基づいて暗黙的な表面表現を同時に学習する教師なし補助タスクを導入する。 両方のドメインが同じ潜在表現を共有しているため、モデルは2つのデータソース間の不一致に対応せざるを得ない。 この新しい戦略は、統計的分岐の古典的な最小化やライダー固有のドメイン適応技術とは異なる。 実験により,本手法は実物と合成物の両方のシナリオにおいて,現在の技術よりも優れた性能が得られることを示した。

Learning models on one labeled dataset that generalize well on another domain is a difficult task, as several shifts might happen between the data domains. This is notably the case for lidar data, for which models can exhibit large performance discrepancies due for instance to different lidar patterns or changes in acquisition conditions. This paper addresses the corresponding Unsupervised Domain Adaptation (UDA) task for semantic segmentation. To mitigate this problem, we introduce an unsupervised auxiliary task of learning an implicit underlying surface representation simultaneously on source and target data. As both domains share the same latent representation, the model is forced to accommodate discrepancies between the two sources of data. This novel strategy differs from classical minimization of statistical divergences or lidar-specific domain adaptation techniques. Our experiments demonstrate that our method achieves a better performance than the current state of the art, both in real-to-real and synthetic-to-real scenarios.
翻訳日:2023-08-16 17:00:01 公開日:2023-08-15
# 近似メッセージパッシングによる混合回帰

Mixed Regression via Approximate Message Passing ( http://arxiv.org/abs/2304.02229v2 )

ライセンス: Link先を確認
Nelvin Tan, Ramji Venkataramanan(参考訳) 複数の信号と潜伏変数を持つ一般化線形モデル(GLM)における回帰問題について検討する。 行列 GLM と呼ばれるこのモデルは、線形回帰、最大アフィン回帰、およびエキスパートの混合を含む、統計学習における多くの広く研究されている問題をカバーしている。 混合線形回帰では、各観測は1つの$L$信号ベクトル(回帰器)から来るが、どれかはわからない。 これらの問題すべてにおける目標は、観測から信号や潜在的変数を推定することである。 本稿では,行列 GLM における推定のための新しい近似メッセージパッシング (AMP) アルゴリズムを提案し,その性能を高次元限界で厳密に評価する。 この特性は状態の進化的再帰を考慮し、漸近平均二乗誤差のような性能測定を正確に計算することができる。 状態進化のキャラクタリゼーションは、AMPアルゴリズムを調整して、信号に関する構造情報を利用することができる。 状態の進化を用いて、各イテレーションにおける推定誤差を最小限に抑える AMP `denoising' 関数の最適選択を導出する。 理論的結果は, 混合線形回帰, 最大アフィン回帰, および混合実験の数値シミュレーションにより検証された。 最大アフィン回帰のために、AMPと予測最大化を組み合わせたアルゴリズムを提案し、その信号とともにモデルのインターセプトを推定する。 数値的な結果から,AMPは,多くのパラメータ系において線形回帰と最大偏差の混合に対して,他の推定値よりも有意に優れていた。

We study the problem of regression in a generalized linear model (GLM) with multiple signals and latent variables. This model, which we call a matrix GLM, covers many widely studied problems in statistical learning, including mixed linear regression, max-affine regression, and mixture-of-experts. In mixed linear regression, each observation comes from one of $L$ signal vectors (regressors), but we do not know which one; in max-affine regression, each observation comes from the maximum of $L$ affine functions, each defined via a different signal vector. The goal in all these problems is to estimate the signals, and possibly some of the latent variables, from the observations. We propose a novel approximate message passing (AMP) algorithm for estimation in a matrix GLM and rigorously characterize its performance in the high-dimensional limit. This characterization is in terms of a state evolution recursion, which allows us to precisely compute performance measures such as the asymptotic mean-squared error. The state evolution characterization can be used to tailor the AMP algorithm to take advantage of any structural information known about the signals. Using state evolution, we derive an optimal choice of AMP `denoising' functions that minimizes the estimation error in each iteration. The theoretical results are validated by numerical simulations for mixed linear regression, max-affine regression, and mixture-of-experts. For max-affine regression, we propose an algorithm that combines AMP with expectation-maximization to estimate intercepts of the model along with the signals. The numerical results show that AMP significantly outperforms other estimators for mixed linear regression and max-affine regression in most parameter regimes.
翻訳日:2023-08-16 16:59:38 公開日:2023-08-15
# 自然言語による視覚の微調整の改善

Improved Visual Fine-tuning with Natural Language Supervision ( http://arxiv.org/abs/2304.01489v2 )

ライセンス: Link先を確認
Junyang Wang, Yuanhong Xu, Juhua Hu, Ming Yan, Jitao Sang, Qi Qian(参考訳) 視覚事前学習モデルの微調整は、大規模事前学習データからの意味情報を活用し、限られたトレーニング例で下流ビジョンタスクの過剰フィッティング問題を緩和することができる。 事前訓練したバックボーンの破滅的忘れに関する問題は、微調整のために広く研究されているが、それに対応する事前訓練タスクとデータからの潜在的なバイアスは、より少ない注意を惹きつける。 本研究では,本研究で得られた分類器が,事前学習モデルにより誘導されるものに近くなることを示した。 分類器のバイアスを効果的に低減するため、学習した視覚分類器を正則化するための固定テキスト分類器から得られる参照分布を導入する。 提案手法であるtext supervised fine-tuning (tes) は,resnet や vit,bert や clip などのテキストエンコーダを11のダウンストリームタスクで評価した。 異なるシナリオに対する明確なマージンによる一貫した改善は、提案の有効性を確認します。 コードは \url{https://github.com/idstcv/TeS} で入手できる。

Fine-tuning a visual pre-trained model can leverage the semantic information from large-scale pre-training data and mitigate the over-fitting problem on downstream vision tasks with limited training examples. While the problem of catastrophic forgetting in pre-trained backbone has been extensively studied for fine-tuning, its potential bias from the corresponding pre-training task and data, attracts less attention. In this work, we investigate this problem by demonstrating that the obtained classifier after fine-tuning will be close to that induced by the pre-trained model. To reduce the bias in the classifier effectively, we introduce a reference distribution obtained from a fixed text classifier, which can help regularize the learned vision classifier. The proposed method, Text Supervised fine-tuning (TeS), is evaluated with diverse pre-trained vision models including ResNet and ViT, and text encoders including BERT and CLIP, on 11 downstream tasks. The consistent improvement with a clear margin over distinct scenarios confirms the effectiveness of our proposal. Code is available at \url{https://github.com/idstcv/TeS}.
翻訳日:2023-08-16 16:59:07 公開日:2023-08-15
# 非線形運動認識とオクルージョンローバスト転がりシャッタ補正に向けて

Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter Correction ( http://arxiv.org/abs/2303.18125v3 )

ライセンス: Link先を確認
Delin Qu, Yizhen Lao, Zhigang Wang, Dong Wang, Bin Zhao and Xuelong Li(参考訳) 本稿では, 極端な閉塞を伴う複雑な非線形・動的シーンにおけるシャッター補正の問題に対処する。 既存の手法には2つの大きな欠点がある。 第一に、一様速度仮定による精度の補正場推定の課題に直面し、複雑な動きの下で画像補正誤差が顕著になる。 第2に、ダイナミックシーンにおける劇的な閉塞は、複数のフレームの調整と集約が本質的に困難であるため、現在のソリューションが画質向上を妨げている。 これらの課題に対処するために,画素の曲線軌道を解析的にモデル化し,各画素の高次補正場を正確に推定する2次回転シャッター(qrs)運動ソルバを提案する。 さらに,動的シーンにおける高品質なオクルージョンフレームを再構築するために,マルチフレームコンテキスト,すなわちRSA2-Netを効果的にアライグ・アグリゲートする3次元ビデオアーキテクチャを提案する。 提案手法を広範囲のカメラと映像シーケンスで評価し,その優位性を実証した。 具体的には,PSNRがCarla-RS,Fastec-RS,BS-RSCの3つのデータセットに対して+4.98,+0.77,+4.33を越えている。 コードはhttps://github.com/delinqu/qrscで入手できる。

This paper addresses the problem of rolling shutter correction in complex nonlinear and dynamic scenes with extreme occlusion. Existing methods suffer from two main drawbacks. Firstly, they face challenges in estimating the accurate correction field due to the uniform velocity assumption, leading to significant image correction errors under complex motion. Secondly, the drastic occlusion in dynamic scenes prevents current solutions from achieving better image quality because of the inherent difficulties in aligning and aggregating multiple frames. To tackle these challenges, we model the curvilinear trajectory of pixels analytically and propose a geometry-based Quadratic Rolling Shutter (QRS) motion solver, which precisely estimates the high-order correction field of individual pixels. Besides, to reconstruct high-quality occlusion frames in dynamic scenes, we present a 3D video architecture that effectively Aligns and Aggregates multi-frame context, namely, RSA2-Net. We evaluate our method across a broad range of cameras and video sequences, demonstrating its significant superiority. Specifically, our method surpasses the state-of-the-art by +4.98, +0.77, and +4.33 of PSNR on Carla-RS, Fastec-RS, and BS-RSC datasets, respectively. Code is available at https://github.com/DelinQu/qrsc.
翻訳日:2023-08-16 16:58:16 公開日:2023-08-15
# 視覚変換器用ウェーブレットニューラル演算子によるマルチスケールアテンション

Multiscale Attention via Wavelet Neural Operators for Vision Transformers ( http://arxiv.org/abs/2303.12398v4 )

ライセンス: Link先を確認
Anahita Nekoozadeh, Mohammad Reza Ahmadzadeh, Zahra Mardani(参考訳) トランスフォーマーはコンピュータビジョンで広く成功を収めた。 彼らの心には自己認識(SA)メカニズムがあり、これはインプット内の各トークンと他のトークンを重み付けによって関連付ける誘導バイアスである。 標準のsa機構は、シーケンス長と二次的な複雑さを持ち、高分解能の視覚に現れる長いシーケンスに有用である。 近年,fftで効率的に実装されるグローバル畳み込みに基づく高分解能注意のための適応フーリエニューラル演算子 (afno) が提案されている。 しかし、AFNOグローバルフィルタリングは、自然画像によく見られる小型で中規模な構造をうまく表すことはできない。 配列サイズが線形に複雑になるウェーブレットニューラル演算子を利用して、粗大から細大のスケール構造を活用するために、マルチスケールウェーブレット注意(MWA)を導入する。 vit の注目を mwa に置き換え,cifar と tiny-imagenet の分類で実験を行った結果,afno や global filter network (gfn) といった代替フーリエベースの注目よりも大幅に改善した。

Transformers have achieved widespread success in computer vision. At their heart, there is a Self-Attention (SA) mechanism, an inductive bias that associates each token in the input with every other token through a weighted basis. The standard SA mechanism has quadratic complexity with the sequence length, which impedes its utility to long sequences appearing in high resolution vision. Recently, inspired by operator learning for PDEs, Adaptive Fourier Neural Operators (AFNO) were introduced for high resolution attention based on global convolution that is efficiently implemented via FFT. However, the AFNO global filtering cannot well represent small and moderate scale structures that commonly appear in natural images. To leverage the coarse-to-fine scale structures we introduce a Multiscale Wavelet Attention (MWA) by leveraging wavelet neural operators which incurs linear complexity in the sequence size. We replace the attention in ViT with MWA and our experiments with CIFAR and Tiny-ImageNet classification demonstrate significant improvement over alternative Fourier-based attentions such as AFNO and Global Filter Network (GFN).
翻訳日:2023-08-16 16:57:52 公開日:2023-08-15
# LayoutDiffusion:離散拡散確率モデルによるグラフィックレイアウト生成の改善

LayoutDiffusion: Improving Graphic Layout Generation by Discrete Diffusion Probabilistic Models ( http://arxiv.org/abs/2303.11589v2 )

ライセンス: Link先を確認
Junyi Zhang, Jiaqi Guo, Shizhao Sun, Jian-Guang Lou, Dongmei Zhang(参考訳) グラフィックレイアウトの作成はグラフィックデザインの基本的なステップです。 本研究では,レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。 レイアウトは典型的には離散トークンのシーケンスとして表現されるので、layoutdiffusionモデルによるレイアウト生成は離散化拡散プロセスとして表される。 フォワードステップの成長と隣のステップでのレイアウトがあまり変化しないため、レイアウトがますます混乱する、軽度のフォワードプロセスを逆転することを学びます。 しかし、layoutにはカテゴリ属性と順序属性の両方があるため、このような穏やかな前方プロセスの設計は非常に難しい。 この課題に取り組むために,レイアウトの軽度なフォワードプロセス,すなわち合法性,座標近接性,型破壊を実現するための3つの重要な要素を要約する。 そこで本研究では,ブロック単位の遷移行列と,片単位の線形雑音スケジュールを結合する手法を提案する。 RICOとPubLayNetデータセットの実験は、LayoutDiffusionが最先端のアプローチを大幅に上回っていることを示している。 さらに、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再学習することなく実現し、既存の方法よりも優れた性能を実現する。

Creating graphic layouts is a fundamental step in graphic designs. In this work, we present a novel generative model named LayoutDiffusion for automatic layout generation. As layout is typically represented as a sequence of discrete tokens, LayoutDiffusion models layout generation as a discrete denoising diffusion process. It learns to reverse a mild forward process, in which layouts become increasingly chaotic with the growth of forward steps and layouts in the neighboring steps do not differ too much. Designing such a mild forward process is however very challenging as layout has both categorical attributes and ordinal attributes. To tackle the challenge, we summarize three critical factors for achieving a mild forward process for the layout, i.e., legality, coordinate proximity and type disruption. Based on the factors, we propose a block-wise transition matrix coupled with a piece-wise linear noise schedule. Experiments on RICO and PubLayNet datasets show that LayoutDiffusion outperforms state-of-the-art approaches significantly. Moreover, it enables two conditional layout generation tasks in a plug-and-play manner without re-training and achieves better performance than existing methods.
翻訳日:2023-08-16 16:57:32 公開日:2023-08-15
# ベストサポート環境の提供によるAI開発プロセスの最適化

Optimizing the AI Development Process by Providing the Best Support Environment ( http://arxiv.org/abs/2305.00136v3 )

ライセンス: Link先を確認
Taha Khamis, Hamam Mokayed(参考訳) 本研究の目的は,AI(Artificial Inelegance)と機械学習(ML)アプリケーションの開発プロセスを調査し,最高のサポート環境を提供することである。 MLの主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。 本研究は,機械学習開発の最重要段階であるML開発におけるデータ管理段階とその障害を,エンドモデルの精度がモデルに入力されるデータの種類に依存しているため調査することに焦点を当てる。 この段階で見つかった最大の障害は、特にデータが機密である分野において、モデル学習に十分なデータがないことである。 このプロジェクトの目的は、データ管理の段階で十分なデータ不足を解決するための、研究者と開発者のためのフレームワークの構築と開発である。 このフレームワークは、オリジナルのデータセットから新しいデータを生成するために使用可能な、いくつかのデータ拡張技術を利用して、利用可能なデータ量と品質を増大させることで、MLアプリケーションの全体的なパフォーマンスを向上させることができる。 このフレームワークはpython言語を使用して構築され、ディープラーニングの進歩を使ってデータ拡張を行う。

The purpose of this study is to investigate the development process for Artificial inelegance (AI) and machine learning (ML) applications in order to provide the best support environment. The main stages of ML are problem understanding, data management, model building, model deployment and maintenance. This project focuses on investigating the data management stage of ML development and its obstacles as it is the most important stage of machine learning development because the accuracy of the end model is relying on the kind of data fed into the model. The biggest obstacle found on this stage was the lack of sufficient data for model learning, especially in the fields where data is confidential. This project aimed to build and develop a framework for researchers and developers that can help solve the lack of sufficient data during data management stage. The framework utilizes several data augmentation techniques that can be used to generate new data from the original dataset which can improve the overall performance of the ML applications by increasing the quantity and quality of available data to feed the model with the best possible data. The framework was built using python language to perform data augmentation using deep learning advancements.
翻訳日:2023-08-16 16:48:54 公開日:2023-08-15
# 2レベル$\mathcal{PT}$-symmetric系におけるトンネルとしてのアナログホーキング放射

Analogue Hawking radiation as a tunneling in a two-level $\mathcal{PT}$-symmetric system ( http://arxiv.org/abs/2304.14174v2 )

ライセンス: Link先を確認
Bijan Bagchi, Rahul Ghosh, Sauvik Sen(参考訳) 二段階非エルミート系$\mathcal{pt}$-symmetric hamiltonianの一般的なシナリオを踏まえて、四面体法を用いてアナログホーキング放射の可能性を解析する。 これは、関連するホーキング放射を、事象の地平線が課す古典的に禁じられた障壁を横切る量子トンネル過程として記述する従来のヌル・ジオデシックなアプローチを用いて行われる。 この結果の興味深い側面は、トンネル確率の推定が誘導ハミルトニアンを定義する非エルミートパラメータとは独立であるということである。

In the light of a general scenario of a two-level non-Hermitian $\mathcal{PT}$-symmetric Hamiltonian we apply the tetrad-based method to analyze the possibility of analogue Hawking radiation. It is done by making use of the conventional null-geodesic approach wherein the associated Hawking radiation is described as a quantum tunneling process across a classically forbidden barrier which the event horizon imposes. An interesting aspect of our result is that our estimate for the tunneling probability is independent of the non-Hermitian parameter that defines the guiding Hamiltonian.
翻訳日:2023-08-16 16:48:35 公開日:2023-08-15
# 代表的クラスタリング

Proportionally Representative Clustering ( http://arxiv.org/abs/2304.13917v2 )

ライセンス: Link先を確認
Haris Aziz and Barton E. Lee and Sean Morota Chu and Jeremy Vollen(参考訳) 近年、機械学習における公平性の概念を形式化する取り組みが急増している。 クラスタリングは、教師なし機械学習における基本的なタスクのひとつです。 本稿では,データポイントの分布と密集度を反映した中心関数の選択問題に対するクラスタリング問題に対して,新しい公理 ``proportional representation fairness'' (PRF) を提案する。 我々のフェアネスの概念は、既存のフェアクラスタリングアルゴリズムで満たされていない。 制約のないクラスタ化問題と離散的なクラスタリング問題の両方に対して,prfを実現するための効率的なアルゴリズムを設計した。 制約のない設定に対する我々のアルゴリズムは、よく研究された確率的公正(PF)公理(Chen, Fain, Lyu, Munagala, ICML, 2019)に対する初めての多項式時間近似アルゴリズムでもある。 離散集合のアルゴリズムはpfの最もよく知られた近似係数にも一致する。

In recent years, there has been a surge in effort to formalize notions of fairness in machine learning. We focus on clustering -- one of the fundamental tasks in unsupervised machine learning. We propose a new axiom ``proportional representation fairness'' (PRF) that is designed for clustering problems where the selection of centroids reflects the distribution of data points and how tightly they are clustered together. Our fairness concept is not satisfied by existing fair clustering algorithms. We design efficient algorithms to achieve PRF both for unconstrained and discrete clustering problems. Our algorithm for the unconstrained setting is also the first known polynomial-time approximation algorithm for the well-studied Proportional Fairness (PF) axiom (Chen, Fain, Lyu, and Munagala, ICML, 2019). Our algorithm for the discrete setting also matches the best known approximation factor for PF.
翻訳日:2023-08-16 16:48:23 公開日:2023-08-15
# ビデオ認識のための学習可能なアライメントを用いた暗黙の時間モデル

Implicit Temporal Modeling with Learnable Alignment for Video Recognition ( http://arxiv.org/abs/2304.10465v2 )

ライセンス: Link先を確認
Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu, Yu-Gang Jiang(参考訳) コントラスト言語画像事前訓練(CLIP)は,様々な画像タスクにおいて顕著な成功を収めている。 しかし、CLIPを効果的な時間的モデリングで拡張する方法はまだオープンで重要な問題である。 既存の因子化または共同時空間モデリングは、効率と性能のトレードオフである。 直進管内における時間情報モデリングは文献に広く採用されているが, 簡単なフレームアライメントは時間的注意を伴わずに十分重要である。 そこで本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)手法を提案する。 具体的には、フレーム対について、相互情報リッチ領域として機能し、各フレームで対話点を予測する。 インタラクティブポイント周辺の機能を強化することで、2つのフレームは暗黙的にアライメントされる。 整列された特徴は単一のトークンにプールされ、その後の空間的自己アテンションに利用されます。 ビデオにおける時間的自己注意のコストや不足を排除できる。 ベンチマークに関する広範な実験は、モジュールの優越性と汎用性を示している。 特に、提案されたiraは、swin-lやvivit-hに比べてはるかに少ないフロップで、kinetics-400で88.7%のtop-1精度を達成している。 コードはhttps://github.com/Francis-Rings/ILA で公開されている。

Contrastive language-image pretraining (CLIP) has demonstrated remarkable success in various image tasks. However, how to extend CLIP with effective temporal modeling is still an open and crucial problem. Existing factorized or joint spatial-temporal modeling trades off between the efficiency and performance. While modeling temporal information within straight through tube is widely adopted in literature, we find that simple frame alignment already provides enough essence without temporal attention. To this end, in this paper, we proposed a novel Implicit Learnable Alignment (ILA) method, which minimizes the temporal modeling effort while achieving incredibly high performance. Specifically, for a frame pair, an interactive point is predicted in each frame, serving as a mutual information rich region. By enhancing the features around the interactive point, two frames are implicitly aligned. The aligned features are then pooled into a single token, which is leveraged in the subsequent spatial self-attention. Our method allows eliminating the costly or insufficient temporal self-attention in video. Extensive experiments on benchmarks demonstrate the superiority and generality of our module. Particularly, the proposed ILA achieves a top-1 accuracy of 88.7% on Kinetics-400 with much fewer FLOPs compared with Swin-L and ViViT-H. Code is released at https://github.com/Francis-Rings/ILA .
翻訳日:2023-08-16 16:47:52 公開日:2023-08-15
# 非エルミート模型における高次例外点の相関

Correlations at higher-order exceptional points in non-Hermitian models ( http://arxiv.org/abs/2304.10280v2 )

ライセンス: Link先を確認
Doru Sticlet, C\u{a}t\u{a}lin Pa\c{s}cu Moca, Bal\'azs D\'ora(参考訳) 高次例外点を持つ$\mathcal{PT}$-symmetric non-Hermitian 1次元モデルの空間相関の減衰について検討する。 特定の相関長を超えて、エルミート系に比べて非エルミート系における相関の強い抑制を示す異常なパワーロー挙動を発達させる。 相関長は、スペクトルが隙間のないにもかかわらず、短距離での対数成長から大距離での一定値への変化を示す絡み合いエントロピーにも反映される。 2種類の異なるモデルが研究され、どちらも粒子-ホール対称性によって制約された類似のスペクトルを持つ。 最初のモデルは任意の高次例外点を生成する実験的に魅力的な方法を提供し、一般スピンに対するディラックハミルトニアンの非エルミート拡大を表す。 臨界点では、例外点の順序に関係なく、相関値 $\sim 1/x^2$ と $1/x^3$ の減衰を示す。 第2のモデルは一方向ホッピングを用いて構築され、特別な点の順序に依存する力の法則を持つ$\sim 1/x^a$, $a\ge 2$の相関の強化を表示する。

We investigate the decay of spatial correlations of $\mathcal{PT}$-symmetric non-Hermitian one-dimensional models that host higher-order exceptional points. Beyond a certain correlation length, they develop anomalous power-law behavior that indicates strong suppression of correlations in the non-Hermitian setups as compared to the Hermitian ones. The correlation length is also reflected in the entanglement entropy where it marks a change from logarithmic growth at short distance to a constant value at large distance, characteristic of an insulator, despite the spectrum being gapless. Two different families of models are investigated, both having a similar spectrum constrained by particle-hole symmetry. The first model offers an experimentally attractive way to generate arbitrary higher-order exceptional points and represents a non-Hermitian extension of the Dirac Hamiltonian for general spin. At the critical point it displays a decay of the correlations $\sim 1/x^2$ and $1/x^3$ irrespective of the order of the exceptional point. The second model is constructed using unidirectional hopping and displays enhanced suppression of correlations $\sim 1/x^a$, $a\ge 2$ with a power law that depends on the order of the exceptional point.
翻訳日:2023-08-16 16:47:33 公開日:2023-08-15
# Odd Oneが登場: 正規化された完全サイクル一貫性のある異常検出器GAN

Spot The Odd One Out: Regularized Complete Cycle Consistent Anomaly Detector GAN ( http://arxiv.org/abs/2304.07769v2 )

ライセンス: Link先を確認
Zahra Dehghanian, Saeed Saravani, Maryam Amirmazlaghani, Mohammad Rahmati(参考訳) 本研究では,生成型逆ニューラルネットワーク(gans)のパワーを,再構成誤差のサイクル一貫性を通じて活用し,実世界のアプリケーションにおける異常検出手法を提案する。 従来の手法ではクラス単位での精度のばらつきが高いため、すべてのタイプの異常には適用できない。 RCALADという手法は,この構造に新たな識別器を導入し,より効率的な学習プロセスを実現することで,この問題を解決しようとするものである。 さらに、RCALADは入力空間の補足的分布を用いて、通常のデータ分布に向けて再構成を操り、その再構成から異常サンプルを効果的に分離し、より正確な異常検出を容易にする。 モデルの性能をさらに向上するため、2つの新しい異常スコアを導入した。 提案モデルは6つのデータセットに対する広範な実験を通じて徹底的に評価され、既存の最先端モデルよりも優れた結果が得られた。 コードはリサーチコミュニティ(https://github.com/zahraDehghanian97/RCALAD)で簡単に入手できる。

This study presents an adversarial method for anomaly detection in real-world applications, leveraging the power of generative adversarial neural networks (GANs) through cycle consistency in reconstruction error. Previous methods suffer from the high variance between class-wise accuracy which leads to not being applicable for all types of anomalies. The proposed method named RCALAD tries to solve this problem by introducing a novel discriminator to the structure, which results in a more efficient training process. Additionally, RCALAD employs a supplementary distribution in the input space to steer reconstructions toward the normal data distribution, effectively separating anomalous samples from their reconstructions and facilitating more accurate anomaly detection. To further enhance the performance of the model, two novel anomaly scores are introduced. The proposed model has been thoroughly evaluated through extensive experiments on six various datasets, yielding results that demonstrate its superiority over existing state-of-the-art models. The code is readily available to the research community at https://github.com/zahraDehghanian97/RCALAD.
翻訳日:2023-08-16 16:47:11 公開日:2023-08-15
# スピン鎖化合物Ba$_6$Cr$_2$S$_{10}$における電荷密度波と反強磁性結合の共存

Co-existence of charge density wave and anti-ferromagnetic coupling in the spin-chain compound Ba$_6$Cr$_2$S$_{10}$ ( http://arxiv.org/abs/2304.06156v3 )

ライセンス: Link先を確認
Jianhua Zhu, Jianfeng Zhang, Yilin Zhang, Devashibhai Adroja, Huancheng Yang, Xiancheng Wang, Changqing Jin, Ji Chen, and Wei Wu(参考訳) ここでは、最近合成されたスピン鎖化合物Ba$_6$Cr$_2S$_{10}$に対するCrイオン上のスピン間の反強磁性交換相互作用の起源を研究するために、Ba$_6$Cr$_2S$_{10}$の電子構造と磁気的性質に関する詳細な第一原理計算を行った。 最も重要なことは、一方の線に沿った電荷密度波位相と他方の反強磁性スピン鎖が共存していることである。 Ba原子と疎結合した硫黄原子の二量体化は、電荷密度波の形成により系を絶縁状態へと誘導する。 一方、静電遮蔽による有効なハバード$u$パラメータの小さいサイズ($\sim 0.5$ ev)は、主に反強磁性基底状態の原因となっている。 この共存は、電荷とスピン自由度を独立に調整するプラットフォームを我々に提供する。 さらに、鎖に沿って隣り合う反強磁性相互作用があり、前方のスピンフラストレーションや量子スピン液体をもたらす可能性がある。

Here we have performed detailed first principles calculations for the electronic structure and magnetic properties of Ba$_6$Cr$_2$S$_{10}$ to study the origin of the anti-ferromagnetic exchange interaction between spins on Cr ions for the spin-chain compound Ba$_6$Cr$_2$S$_{10}$ synthesised recently. Most importantly, we have found the co-existence of a charge density wave phase along one line and an anti-ferromagnetic spin chain along another. The dimerization of sulfur atoms loosely bonded with Ba atoms drives the system into an insulating state owing to the formation of charge density wave. Meanwhile, the small size of the effective Hubbard $U$ parameter ($\sim 0.5$ eV) due to electrostatic screening mainly accounts for the anti-ferromagnetic ground state. This co-existence equips us with a platform to tune the charge and spin degrees of freedom independently. Moreover, there exists a next-nearest-neighbouring anti-ferromagnetic interaction along the chain, which could bring forward spin frustration and hence quantum spin liquid.
翻訳日:2023-08-16 16:46:05 公開日:2023-08-15
# GripRank: 検索と生成の間にギャップを埋める - 生成知識によるパスランクの改善

GripRank: Bridging the Gap between Retrieval and Generation via the Generative Knowledge Improved Passage Ranking ( http://arxiv.org/abs/2305.18144v2 )

ライセンス: Link先を確認
Jiaqi Bai, Hongcheng Guo, Jiaheng Liu, Jian Yang, Xinnian Liang, Zhao Yan and Zhoujun Li(参考訳) 検索強調テキスト生成は、入力クエリが与えられた場合に適切な回答を提供するために、大通路コーパスから検索された節を活用し、オープンドメイン質問応答や知識強調対話生成といった知識集約型言語タスクにおいて著しく進歩している。 しかし、検索と生成の相違のため、検索された通路は回答生成を導くのに理想的ではない。つまり、適切な回答を生成する可能性を考慮せずに、検索手続きの間、候補通路は全て等しく扱われる。 この不一致により、パッセージレトリバーは候補パスのサブオプティマイズコレクションを配信して回答を生成する。 本稿では,ジェネレーティブパス推定器 (GPE) から経路ランク装置へ知識を抽出し,提案課題に対処するジェネレーティブ知識改善パスランキング (GripRank) 手法を提案する。 我々は,gpeが発注したパスのランク付けをパスランカ学習に教えることにより,蒸留手順を実現する。 さらに、gpeが提供する知識を難易度の高いカリキュラムを通じて段階的にランチャーに蒸留することができ、多くの有力候補からの回答の出所を正しく認識できるカリキュラム知識蒸留機構を考案し、蒸留品質の向上を図る。 3つの知識集約型言語タスクにまたがる4つのデータセットに関する広範な実験を行った。 実験結果から,KILTベンチマークにおいて,パスランキングと回答生成の両面での最先端手法の利点が示された。

Retrieval-enhanced text generation has shown remarkable progress on knowledge-intensive language tasks, such as open-domain question answering and knowledge-enhanced dialogue generation, by leveraging passages retrieved from a large passage corpus for delivering a proper answer given the input query. However, the retrieved passages are not ideal for guiding answer generation because of the discrepancy between retrieval and generation, i.e., the candidate passages are all treated equally during the retrieval procedure without considering their potential to generate a proper answer. This discrepancy makes a passage retriever deliver a sub-optimal collection of candidate passages to generate the answer. In this paper, we propose the GeneRative Knowledge Improved Passage Ranking (GripRank) approach, addressing the above challenge by distilling knowledge from a generative passage estimator (GPE) to a passage ranker, where the GPE is a generative language model used to measure how likely the candidate passages can generate the proper answer. We realize the distillation procedure by teaching the passage ranker learning to rank the passages ordered by the GPE. Furthermore, we improve the distillation quality by devising a curriculum knowledge distillation mechanism, which allows the knowledge provided by the GPE can be progressively distilled to the ranker through an easy-to-hard curriculum, enabling the passage ranker to correctly recognize the provenance of the answer from many plausible candidates. We conduct extensive experiments on four datasets across three knowledge-intensive language tasks. Experimental results show advantages over the state-of-the-art methods for both passage ranking and answer generation on the KILT benchmark.
翻訳日:2023-08-16 16:40:11 公開日:2023-08-15
# 学術論文からテキスト分類とオブジェクト認識を洗練するためのフレームワーク

A Framework For Refining Text Classification and Object Recognition from Academic Articles ( http://arxiv.org/abs/2305.17401v3 )

ライセンス: Link先を確認
Jinghong Li, Koichi Ota, Wen Gu, Shinobu Hasegawa(参考訳) インターネットの普及に伴い、大量の学術論文から特定の情報を効率的に抽出することがますます重要になっている。 データマイニング技術は一般にこの問題を解決するために用いられる。 しかし, 学術論文のデータマイニングは, 複雑かつ非構造的なレイアウト文書中の特定のパターンを自動的に抽出する必要があるため, 困難である。 現在の学術論文のデータマイニング手法はルールベース(RB)または機械学習(ML)アプローチを採用している。 しかし、ルールベースの手法を用いることで複雑なタイプセット記事のコーディングコストが高くなる。 一方、単に機械学習手法を用いることで、論文内の複雑なコンテンツタイプに対するアノテーション作業が必要となり、コストがかかる可能性がある。 さらに、機械学習のみを用いることで、ルールベースの手法で容易に認識できるパターンを誤って抽出するケースが生まれる。 これらの課題を克服するために,特定出版物で使用される標準レイアウトと型設定の分析の観点から,学術論文に特有の特徴を具体化する手法を強調する。 我々は,機械学習とルールベースのスキームハイブリッドであるテキストブロック精錬フレームワーク(TBRF)を開発した。 検証実験では,有名なACL論文を実験データとして使用した。 実験の結果,表や図の95%以上の分類精度と90%以上の検出精度が得られた。

With the widespread use of the internet, it has become increasingly crucial to extract specific information from vast amounts of academic articles efficiently. Data mining techniques are generally employed to solve this issue. However, data mining for academic articles is challenging since it requires automatically extracting specific patterns in complex and unstructured layout documents. Current data mining methods for academic articles employ rule-based(RB) or machine learning(ML) approaches. However, using rule-based methods incurs a high coding cost for complex typesetting articles. On the other hand, simply using machine learning methods requires annotation work for complex content types within the paper, which can be costly. Furthermore, only using machine learning can lead to cases where patterns easily recognized by rule-based methods are mistakenly extracted. To overcome these issues, from the perspective of analyzing the standard layout and typesetting used in the specified publication, we emphasize implementing specific methods for specific characteristics in academic articles. We have developed a novel Text Block Refinement Framework (TBRF), a machine learning and rule-based scheme hybrid. We used the well-known ACL proceeding articles as experimental data for the validation experiment. The experiment shows that our approach achieved over 95% classification accuracy and 90% detection accuracy for tables and figures.
翻訳日:2023-08-16 16:39:44 公開日:2023-08-15
# 不確実性下におけるマルチロボットシステムの形式モデリング

Formal Modelling for Multi-Robot Systems Under Uncertainty ( http://arxiv.org/abs/2305.17018v2 )

ライセンス: Link先を確認
Charlie Street, Masoumeh Mansouri, Bruno Lacerda(参考訳) 目的: マルチロボット動作を効果的に合成・解析するためには, マルチロボット実行を正確にキャプチャする形式的なタスクレベルモデルが必要である。 本稿では,不確実性下でのマルチロボットシステムのモデリング形式を概観し,計画,強化学習,モデルチェック,シミュレーションにどのように使用できるかについて議論する。 最近の研究は、時間的不確実性や部分的可観測性など、異なる形式の不確実性を考慮して、より正確にマルチロボットの実行を捉えるモデルを調査し、ロボットの相互作用がアクション実行に与える影響をモデル化している。 他の一連の研究は、より効率的な解法を認めるためにマルチロボットモデルのサイズを減らすアプローチを提示している。 これは、独立の前提の下でロボットを分離したり、より高いレベルのマクロアクションを推論することで達成できる。 結論: 既存のマルチロボットモデルは、ロボットの依存関係と不確実性を正確に捉えることと、現実世界の問題を解決するのに十分小さいことのトレードオフを示す。 そこで,本研究では,不確実性やロボットの相互作用を正確に表現したモデルを開発するために,複数ロボットの挙動に関する現実的な仮定を活用すべきである。

Purpose of Review: To effectively synthesise and analyse multi-robot behaviour, we require formal task-level models which accurately capture multi-robot execution. In this paper, we review modelling formalisms for multi-robot systems under uncertainty, and discuss how they can be used for planning, reinforcement learning, model checking, and simulation. Recent Findings: Recent work has investigated models which more accurately capture multi-robot execution by considering different forms of uncertainty, such as temporal uncertainty and partial observability, and modelling the effects of robot interactions on action execution. Other strands of work have presented approaches for reducing the size of multi-robot models to admit more efficient solution methods. This can be achieved by decoupling the robots under independence assumptions, or reasoning over higher level macro actions. Summary: Existing multi-robot models demonstrate a trade off between accurately capturing robot dependencies and uncertainty, and being small enough to tractably solve real world problems. Therefore, future research should exploit realistic assumptions over multi-robot behaviour to develop smaller models which retain accurate representations of uncertainty and robot interactions; and exploit the structure of multi-robot problems, such as factored state spaces, to develop scalable solution methods.
翻訳日:2023-08-16 16:39:24 公開日:2023-08-15
# DAC:深部局所特徴に対する検出器非依存空間共分散

DAC: Detector-Agnostic Spatial Covariances for Deep Local Features ( http://arxiv.org/abs/2305.12250v2 )

ライセンス: Link先を確認
Javier Tirado-Gar\'in, Frederik Warburg, Javier Civera(参考訳) 現在の深部視覚特徴検出器は検出された特徴の空間的不確かさをモデル化せず、下流の応用において最適な結果をもたらす。 本研究では,事前学習済み深部特徴検出器に挿入可能な2つのポストホック共分散推定法を提案する。与えられた画素位置における予測スコアを用いた単純等方共分散推定法と,学習スコアマップの局所構造テンソルによる全共分散推定法を提案する。 どちらの方法も実装が容易で、どんな深い特徴検出器にも適用できる。 これらの共分散は特徴マッチングにおける誤差と直接関連していることを示し、視点n点問題や動きのみのバンドル調整などの下流タスクの改善につながっている。 コードはhttps://github.com/javrtg/DACで入手できる。

Current deep visual local feature detectors do not model the spatial uncertainty of detected features, producing suboptimal results in downstream applications. In this work, we propose two post-hoc covariance estimates that can be plugged into any pretrained deep feature detector: a simple, isotropic covariance estimate that uses the predicted score at a given pixel location, and a full covariance estimate via the local structure tensor of the learned score maps. Both methods are easy to implement and can be applied to any deep feature detector. We show that these covariances are directly related to errors in feature matching, leading to improvements in downstream tasks, including solving the perspective-n-point problem and motion-only bundle adjustment. Code is available at https://github.com/javrtg/DAC
翻訳日:2023-08-16 16:38:59 公開日:2023-08-15
# 経路積分法による励起状態に対する一般化量子幾何テンソル

Generalized quantum geometric tensor for excited states using the path integral approach ( http://arxiv.org/abs/2305.11525v2 )

ライセンス: Link先を確認
Sergio B. Ju\'arez, Diego Gonzalez, Daniel Guti\'errez-Ruiz and J. David Vergara(参考訳) 量子計量テンソルとベリー曲率からなる量子幾何学テンソルは、物理系のパラメータ空間幾何学を完全に符号化する。 まず、基底状態と励起状態の両方を扱える経路積分形式論における量子幾何学的テンソルの定式化を行い、励起状態の量子相転移(ESQPT)を特徴づけるのに有用である。 この設定では、量子幾何学的テンソルを一般化し、系パラメータと位相空間座標のバリエーションを取り込む。 これにより、純度やフォン・ノイマンエントロピーのようなツールによってガウス状態の量子絡み合いに関する情報を得ることができる量子共分散行列への別のアプローチが導かれる。 第二に、経路積分形式と他の既存手法における量子幾何テンソルの定式化の等価性を示す。 さらに、いくつかの量子系に対するリッチテンソルとスカラー曲率を計算し、一般化された量子計量テンソルの幾何学的性質を深く探究し、この幾何学的情報への洞察を与える。

The quantum geometric tensor, composed of the quantum metric tensor and Berry curvature, fully encodes the parameter space geometry of a physical system. We first provide a formulation of the quantum geometrical tensor in the path integral formalism that can handle both the ground and excited states, making it useful to characterize excited state quantum phase transitions (ESQPT). In this setting, we also generalize the quantum geometric tensor to incorporate variations of the system parameters and the phase-space coordinates. This gives rise to an alternative approach to the quantum covariance matrix, from which we can get information about the quantum entanglement of Gaussian states through tools such as purity and von Neumann entropy. Second, we demonstrate the equivalence between the formulation of the quantum geometric tensor in the path integral formalism and other existing methods. Furthermore, we explore the geometric properties of the generalized quantum metric tensor in depth by calculating the Ricci tensor and scalar curvature for several quantum systems, providing insight into this geometric information.
翻訳日:2023-08-16 16:38:46 公開日:2023-08-15
# 自動推論における問題集合に対する軽量オンライン学習

Lightweight Online Learning for Sets of Related Problems in Automated Reasoning ( http://arxiv.org/abs/2305.11087v3 )

ライセンス: Link先を確認
Haoze Wu, Christopher Hahn, Florian Lonsing, Makai Mann, Raghuram Ramanujan, Clark Barrett(参考訳) 私たちは、一連の関連する問題を解決することを含む自動推論タスクのための軽量オンライン学習方法論である、自己駆動型戦略学習(\textit{sdsl}$)を紹介します。 $\textit{sdsl}$ はオフラインのトレーニングを必要としないが、以前の問題を解決しながらデータセットを自動的に構築する。 このデータに機械学習モデルが適合し、その後の問題の解法戦略を調整するのに使用される。 我々はこのアプローチを抽象トランジッションルールのセットとして正式に定義する。 本稿では,データ生成のための条件付きサンプリングとランダムフォレストを基礎となる機械学習モデルとして用いたsdsl計算の具体例について述べる。 この手法をkissatソルバ上に実装し,kissat+$\textit{sdsl}$の組み合わせが,最新のハードウェアモデルチェックコンペティションから得られたベンチマークにおいて,他の最先端の有界モデルチェック手法よりも多くの反例を見出すことを示す。

We present Self-Driven Strategy Learning ($\textit{sdsl}$), a lightweight online learning methodology for automated reasoning tasks that involve solving a set of related problems. $\textit{sdsl}$ does not require offline training, but instead automatically constructs a dataset while solving earlier problems. It fits a machine learning model to this data which is then used to adjust the solving strategy for later problems. We formally define the approach as a set of abstract transition rules. We describe a concrete instance of the sdsl calculus which uses conditional sampling for generating data and random forests as the underlying machine learning model. We implement the approach on top of the Kissat solver and show that the combination of Kissat+$\textit{sdsl}$ certifies larger bounds and finds more counter-examples than other state-of-the-art bounded model checking approaches on benchmarks obtained from the latest Hardware Model Checking Competition.
翻訳日:2023-08-16 16:38:26 公開日:2023-08-15
# フラストレーションのない親ハミルトニアンから対角長距離オーダー:第2量子化におけるムーア・リードと関連する状態

From frustration-free parent Hamiltonians to off-diagonal long-range order: Moore-Read and related states in second quantization ( http://arxiv.org/abs/2305.09286v3 )

ライセンス: Link先を確認
Fanmao Zhang, Matheus Schossler, Alexander Seidel, Li Chen(参考訳) ムーア・リーディング・ファフィアン状態に対する再帰的第二量子化公式を構築する。 多項式クラスタリング特性に訴えることなく,フラストレーションのない親ハミルトニアンの存在を直接証明することにより,このような二次量子化プレゼンテーションの有用性を示す。 さらに、この定式化がムーア・リード状態の非局所順序パラメータの存在とどのように関連しているかを示し、後者がこれらの量で非対角長距離順序(ODLRO)を示すことを示す。 また、フェミオン性アンチ・PH-ファフィアン状態と、f-および高次波対合成フェルミオン状態の類似した2量子化プレゼンテーションを開発し、ほとんどの場合、ODLROについて論じる。

We construct a recursive second-quantized formula for Moore-Read Pfaffian states. We demonstrate the utility of such second-quantized presentations by directly proving the existence of frustration-free parent Hamiltonians, without appealing to polynomial clustering properties. Furthermore, we show how this formalism is connected to the existence of a non-local order parameter for Moore-Read states and give a proof that the latter exhibit off-diagonal long-range order (ODLRO) in these quantities. We also develop a similar second-quantized presentation for the fermionic antiand PH-Pfaffian states, as well as f- and higher wave paired composite fermion states, and discuss ODLRO in most cases.
翻訳日:2023-08-16 16:38:09 公開日:2023-08-15
# MMFトラック:3次元物体追跡のためのマルチモード多レベル融合

MMF-Track: Multi-modal Multi-level Fusion for 3D Single Object Tracking ( http://arxiv.org/abs/2305.06794v2 )

ライセンス: Link先を確認
Zhiheng Li, Yubo Cui, Yu Lin, Zheng Fang(参考訳) 3Dオブジェクト追跡はコンピュータビジョンにおいて重要な役割を果たす。 主ストリーム法は主に点雲に頼り、ターゲットテンプレートと探索領域間の幾何マッチングを実現する。 しかし、テクスチャレスで不完全な点雲は、単一モードトラッカーが類似した構造を持つ物体を区別することが困難である。 幾何マッチングの限界を克服するために,3次元目標追跡のための点雲の画像テクスチャと幾何学特性を利用するマルチモーダルマルチレベルフュージョントラッカー (MMF-Track) を提案する。 具体的には,まず,rgb画像を3次元空間内の点雲にアライメントするための空間アライメントモジュール(sam)を提案する。 そして,2重ストリーム構造に基づく特徴間相互作用モジュール(FIM)を設計し,並列にモーダル内特徴を拡張し,モーダル間セマンティックアソシエーションを構築する。 一方,各形態的特徴を洗練するために,異なるスケールで階層的特徴的相互作用を実現する粗粒間相互作用モジュール (cfim) を導入する。 最後に、類似度融合レベルでは、ターゲットから幾何学とテクスチャの手がかりを集約する類似度融合モジュール(sfm)を提案する。 実験により,本手法はKITTIの最先端性能(39%成功,42%精度向上)を達成し,NuScenesと競合することを示した。

3D single object tracking plays a crucial role in computer vision. Mainstream methods mainly rely on point clouds to achieve geometry matching between target template and search area. However, textureless and incomplete point clouds make it difficult for single-modal trackers to distinguish objects with similar structures. To overcome the limitations of geometry matching, we propose a Multi-modal Multi-level Fusion Tracker (MMF-Track), which exploits the image texture and geometry characteristic of point clouds to track 3D target. Specifically, we first propose a Space Alignment Module (SAM) to align RGB images with point clouds in 3D space, which is the prerequisite for constructing inter-modal associations. Then, in feature interaction level, we design a Feature Interaction Module (FIM) based on dual-stream structure, which enhances intra-modal features in parallel and constructs inter-modal semantic associations. Meanwhile, in order to refine each modal feature, we introduce a Coarse-to-Fine Interaction Module (CFIM) to realize the hierarchical feature interaction at different scales. Finally, in similarity fusion level, we propose a Similarity Fusion Module (SFM) to aggregate geometry and texture clues from the target. Experiments show that our method achieves state-of-the-art performance on KITTI (39% Success and 42% Precision gains against previous multi-modal method) and is also competitive on NuScenes.
翻訳日:2023-08-16 16:37:53 公開日:2023-08-15
# ノイズからのエコー:拡散モデルを用いた合成超音波画像生成による実画像分割

Echo from noise: synthetic ultrasound image generation using diffusion models for real image segmentation ( http://arxiv.org/abs/2305.05424v2 )

ライセンス: Link先を確認
David Stojanovski, Uxio Hermida, Pablo Lamata, Arian Beqiri, Alberto Gomez(参考訳) 本稿では,心臓意味的ラベルマップを用いた拡散確率モデル(ddpms)による合成超音波画像生成のための新しいパイプラインを提案する。 これらの合成画像は, 心的セグメンテーションなどの超音波画像解析タスクのためのディープラーニングモデルの訓練において, 実際のデータの代替として有効であることを示す。 この方法の有効性を示すために,合成2次元心エコー図を作成し,左心室と左心房を分節するニューラルネットワークを訓練した。 排他的合成画像を用いてトレーニングされたネットワークの性能は, 実画像の未確認データセットを用いて評価され, 平均Diceスコアは88.6$\pm 4.91$, 91.9$\pm 4.22$, 85.2$\pm 4.83$ \%であった。 これは、以前の最新データと比較して、diceスコアの9.2$、3.3$、13.9$の相対的な増加を示している。 提案したパイプラインは、様々な医療画像モダリティにまたがる幅広いタスクに応用できる可能性がある。

We propose a novel pipeline for the generation of synthetic ultrasound images via Denoising Diffusion Probabilistic Models (DDPMs) guided by cardiac semantic label maps. We show that these synthetic images can serve as a viable substitute for real data in the training of deep-learning models for ultrasound image analysis tasks such as cardiac segmentation. To demonstrate the effectiveness of this approach, we generated synthetic 2D echocardiograms and trained a neural network for segmenting the left ventricle and left atrium. The performance of the network trained on exclusively synthetic images was evaluated on an unseen dataset of real images and yielded mean Dice scores of 88.6 $\pm 4.91$ , 91.9 $\pm 4.22$, 85.2 $\pm 4.83$ \% for left ventricular endocardium, epicardium and left atrial segmentation respectively. This represents a relative increase of $9.2$, $3.3$ and $13.9$ \% in Dice scores compared to the previous state-of-the-art. The proposed pipeline has potential for application to a wide range of other tasks across various medical imaging modalities.
翻訳日:2023-08-16 16:37:28 公開日:2023-08-15
# ANTONIO:検証のためのNLPベンチマーク生成方式

ANTONIO: Towards a Systematic Method of Generating NLP Benchmarks for Verification ( http://arxiv.org/abs/2305.04003v3 )

ライセンス: Link先を確認
Marco Casadio, Luca Arnaboldi, Matthew L. Daggitt, Omri Isac, Tanvi Dinkar, Daniel Kienitz, Verena Rieser, Ekaterina Komendantskaya(参考訳) 自然言語処理(NLP)で使用される機械学習モデルの検証は難しい問題であることが知られている。 特に、コンピュータビジョンや他の数値データセットで機能する多くの既知のニューラルネットワーク検証方法は、NLPでは機能しない。 ここでは,この問題を裏付ける技術的理由について検討する。 そこで本研究では,NLPデータセットとモデルを作成するための実践的手法とヒューリスティックスを提案する。 我々はこれらの手法を,ニューラルネットワーク検証器ERANとマラブーにリンクするANTONIOと呼ばれるPythonライブラリとして実装する。 我々は,NLP データセット R-U-A-Robot を法的に重要な NLP アプリケーションを検証するためのベンチマークとして提案したツールの評価を行う。 一般的な適用性のおかげで、この研究がニューラルネットワーク検証コンテストにNLP検証問題を含める新たな可能性を開き、コミュニティ内でNLP問題の普及を期待する。

Verification of machine learning models used in Natural Language Processing (NLP) is known to be a hard problem. In particular, many known neural network verification methods that work for computer vision and other numeric datasets do not work for NLP. Here, we study technical reasons that underlie this problem. Based on this analysis, we propose practical methods and heuristics for preparing NLP datasets and models in a way that renders them amenable to known verification methods based on abstract interpretation. We implement these methods as a Python library called ANTONIO that links to the neural network verifiers ERAN and Marabou. We perform evaluation of the tool using an NLP dataset R-U-A-Robot suggested as a benchmark for verifying legally critical NLP applications. We hope that, thanks to its general applicability, this work will open novel possibilities for including NLP verification problems into neural network verification competitions, and will popularise NLP problems within this community.
翻訳日:2023-08-16 16:37:04 公開日:2023-08-15
# 時系列予測による時間認識型グラフ構造学習

Time-aware Graph Structure Learning via Sequence Prediction on Temporal Graphs ( http://arxiv.org/abs/2306.07699v2 )

ライセンス: Link先を確認
Haozhen Zhang, Xueting Han, Xi Xiao, Jing Bai(参考訳) 時間発展するグラフの性質をモデル化することを目的としたテンポラリグラフ学習が注目され,近年,目覚ましい成果を上げている。 しかし、実際には、グラフ構造は不完全でノイズが多いため、時間グラフネットワーク(TGN)が情報表現の学習を妨げる。 グラフコントラスト学習は、データ拡張を使用して、既存のデータの妥当なバリエーションを生成し、堅牢な表現を学ぶ。 しかし、ルールベースの拡張アプローチは学習性に欠け、下流タスクからの豊富な情報を活用することができないため、最適ではない。 これらの問題に対処するために,時系列グラフのシーケンス予測によるtgsl(time-aware graph structure learning)アプローチを提案する。 特に、前回観測された相互作用に基づいて時間認識のコンテキスト埋め込みを予測し、Gumble-Top-Kを用いて、このコンテキスト埋め込みに最も近い候補エッジを選択する。 さらに、効率性と多様性を確保するために、いくつかの候補サンプリング戦略が提案されている。 さらに、グラフ構造とTGNをエンドツーエンドで共同で学習し、洗練されたグラフ上で推論を行う。 TGSLはTGATやGraphMixerのような一般的なTGNに対して大きな利益をもたらし、時間グラフ上の他のコントラスト学習手法よりも優れていることを示す。 コードをhttps://github.com/ViktorAxelsen/TGSLでリリースします。

Temporal Graph Learning, which aims to model the time-evolving nature of graphs, has gained increasing attention and achieved remarkable performance recently. However, in reality, graph structures are often incomplete and noisy, which hinders temporal graph networks (TGNs) from learning informative representations. Graph contrastive learning uses data augmentation to generate plausible variations of existing data and learn robust representations. However, rule-based augmentation approaches may be suboptimal as they lack learnability and fail to leverage rich information from downstream tasks. To address these issues, we propose a Time-aware Graph Structure Learning (TGSL) approach via sequence prediction on temporal graphs, which learns better graph structures for downstream tasks through adding potential temporal edges. In particular, it predicts time-aware context embedding based on previously observed interactions and uses the Gumble-Top-K to select the closest candidate edges to this context embedding. Additionally, several candidate sampling strategies are proposed to ensure both efficiency and diversity. Furthermore, we jointly learn the graph structure and TGNs in an end-to-end manner and perform inference on the refined graph. Extensive experiments on temporal link prediction benchmarks demonstrate that TGSL yields significant gains for the popular TGNs such as TGAT and GraphMixer, and it outperforms other contrastive learning methods on temporal graphs. We release the code at https://github.com/ViktorAxelsen/TGSL.
翻訳日:2023-08-16 16:30:07 公開日:2023-08-15
# 非対称信頼区間を有する予算付きマルチアームバンディット

Budgeted Multi-Armed Bandits with Asymmetric Confidence Intervals ( http://arxiv.org/abs/2306.07071v2 )

ライセンス: Link先を確認
Marco Heyden, Vadim Arzamasov, Edouard Fouch\'e, Klemens B\"ohm(参考訳) 確率的Budgeted Multi-Armed Bandit (MAB) 問題について検討し、プレイヤーが期待できない報酬とコストでK$アームから選択する。 目標は、予算制約の下での全報酬を最大化することです。 プレイヤーは、最も高い報酬コスト比率の腕をできるだけ頻繁に選択しようとする。 この問題に対する現在の最先端のポリシーにはいくつかの問題がある。 そこで本稿では,非対称な信頼区間を用いた新しい高信頼境界(UCB)サンプリングポリシーである$\omega$-UCBを提案する。 これらの間隔は、サンプル平均とランダム変数の境界との間の距離でスケールし、我々の競合相手と比較してより正確で厳密な報酬コスト比を推定する。 我々のアプローチは対数的後悔であり、合成および実環境における既存のポリシーを一貫して上回っていることを示す。

We study the stochastic Budgeted Multi-Armed Bandit (MAB) problem, where a player chooses from $K$ arms with unknown expected rewards and costs. The goal is to maximize the total reward under a budget constraint. A player thus seeks to choose the arm with the highest reward-cost ratio as often as possible. Current state-of-the-art policies for this problem have several issues, which we illustrate. To overcome them, we propose a new upper confidence bound (UCB) sampling policy, $\omega$-UCB, that uses asymmetric confidence intervals. These intervals scale with the distance between the sample mean and the bounds of a random variable, yielding a more accurate and tight estimation of the reward-cost ratio compared to our competitors. We show that our approach has logarithmic regret and consistently outperforms existing policies in synthetic and real settings.
翻訳日:2023-08-16 16:29:42 公開日:2023-08-15
# オフライン強化学習のためのデータセット制約付きポリシー規則化

Policy Regularization with Dataset Constraint for Offline Reinforcement Learning ( http://arxiv.org/abs/2306.06569v2 )

ライセンス: Link先を確認
Yuhang Ran, Yi-Chen Li, Fuxiang Zhang, Zongzhang Zhang, Yang Yu(参考訳) 我々は、オフライン強化学習(rl)と呼ばれる固定データセットから可能な最善のポリシーを学ぶ問題を考える。 既存のオフラインRL作品の一般的な分類法は、通常、学習されたポリシーを行動ポリシーの分布または支持によって制限するポリシー規則化である。 しかし、分配と支援の制約は、それぞれが特定の状態を考える際に行動方針と同じような行動を選択するよう政策に強制するため、過度に保守的である。 特に行動ポリシーが最適ではない場合、学習したポリシーのパフォーマンスを制限する。 本稿では,最も近い状態-作用対に対するポリシーの正則化がより効果的であることから,データセット制約によるポリシー正則化(PRDC)を提案する。 ある状態のポリシーを更新するとき、PRDCは、最も近い状態アクションサンプルのデータセット全体を検索し、このサンプルのアクションでポリシーを制限します。 以前の作業とは異なり、PRDCはデータセットからの適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。 よりソフトな制約であるが、配布外行動から十分な保守性を維持する。 実証的な証拠と理論的分析により、prdcはオフラインrlの本質的に困難な値の過大評価問題と境界的なパフォーマンスギャップを緩和できることが示された。 さらに,移動タスクとナビゲーションタスクのセットにおいて,PRDCは従来の手法と比較して最先端のパフォーマンスを実現する。 コードはhttps://github.com/LAMDA-RL/PRDCで入手できる。

We consider the problem of learning the best possible policy from a fixed dataset, known as offline Reinforcement Learning (RL). A common taxonomy of existing offline RL works is policy regularization, which typically constrains the learned policy by distribution or support of the behavior policy. However, distribution and support constraints are overly conservative since they both force the policy to choose similar actions as the behavior policy when considering particular states. It will limit the learned policy's performance, especially when the behavior policy is sub-optimal. In this paper, we find that regularizing the policy towards the nearest state-action pair can be more effective and thus propose Policy Regularization with Dataset Constraint (PRDC). When updating the policy in a given state, PRDC searches the entire dataset for the nearest state-action sample and then restricts the policy with the action of this sample. Unlike previous works, PRDC can guide the policy with proper behaviors from the dataset, allowing it to choose actions that do not appear in the dataset along with the given state. It is a softer constraint but still keeps enough conservatism from out-of-distribution actions. Empirical evidence and theoretical analysis show that PRDC can alleviate offline RL's fundamentally challenging value overestimation issue with a bounded performance gap. Moreover, on a set of locomotion and navigation tasks, PRDC achieves state-of-the-art performance compared with existing methods. Code is available at https://github.com/LAMDA-RL/PRDC
翻訳日:2023-08-16 16:29:27 公開日:2023-08-15
# 小さな量子状態の説明可能な表現学習

Explainable Representation Learning of Small Quantum States ( http://arxiv.org/abs/2306.05694v2 )

ライセンス: Link先を確認
Felix Frohnert and Evert van Nieuwenburg(参考訳) 教師なし機械学習モデルは、明示的な人間のガイダンスや機能エンジニアリングを必要とせずに、トレーニングデータの内部表現を構築する。 この学習された表現は、目の前のタスクにどのデータの特徴が関係しているかについての洞察を提供する。 量子物理学の文脈では、人間の介入なしに量子状態を記述するためのトレーニングモデルは、機械が複雑な量子状態をどのように表現するかを理解するための有望なアプローチを提供する。 学習表現を解釈する能力は、量子システムの非自明な特徴とその効率的な表現に対する新しい視点を与えるかもしれない。 パラメータ化量子回路によって生成される2量子密度行列上に生成モデルを訓練する。 一連の計算実験において,モデルの学習された表現とその内部的データ理解について検討する。 モデルが量子状態と基礎となる絡み合い特性を関連づける解釈可能な表現を学ぶことを観察する。 特に,本実験の結果は,モデルの潜在表現が絡み合い尺度の一致と直接相関していることを示した。 この研究の洞察は、量子状態の解釈可能な機械学習への概念実証を表している。 我々のアプローチは、機械が小さな量子システムを自律的に表現する方法の洞察を与える。

Unsupervised machine learning models build an internal representation of their training data without the need for explicit human guidance or feature engineering. This learned representation provides insights into which features of the data are relevant for the task at hand. In the context of quantum physics, training models to describe quantum states without human intervention offers a promising approach to gaining insight into how machines represent complex quantum states. The ability to interpret the learned representation may offer a new perspective on non-trivial features of quantum systems and their efficient representation. We train a generative model on two-qubit density matrices generated by a parameterized quantum circuit. In a series of computational experiments, we investigate the learned representation of the model and its internal understanding of the data. We observe that the model learns an interpretable representation which relates the quantum states to their underlying entanglement characteristics. In particular, our results demonstrate that the latent representation of the model is directly correlated with the entanglement measure concurrence. The insights from this study represent proof of concept towards interpretable machine learning of quantum states. Our approach offers insight into how machines learn to represent small-scale quantum systems autonomously.
翻訳日:2023-08-16 16:29:03 公開日:2023-08-15
# 動的フィールドプログラム可能な中性原子配列プロセッサのための量子回路のコンパイル

Compiling Quantum Circuits for Dynamically Field-Programmable Neutral Atoms Array Processors ( http://arxiv.org/abs/2306.03487v3 )

ライセンス: Link先を確認
Daniel Bochen Tan, Dolev Bluvstein, Mikhail D. Lukin, Jason Cong(参考訳) dynamic field-programmable qubit arrays (dpqa) は量子情報処理の有望なプラットフォームとして最近登場した。 dpqaでは、原子量子ビットを光学トラップの配列に選択的にロードし、計算自体中に再構成することができる。 量子ビットのトランスポートと並列な量子演算を活用することで、量子ビットの異なるペア、あるいは遠く離れたものでさえ、量子プログラムの実行の異なる段階で絡み合うことができる。 このような再構成可能性と非ローカル接続性は、特にキュービットを配置し、ゲートをスケジュールするレイアウト合成ステップにおいて、コンパイルに新たな課題をもたらす。 本稿では,複数の配列を含むdpqaアーキテクチャを検討し,最先端の実験プラットフォームを表現した2次元アレイ動作をサポートする。 このアーキテクチャでは、状態空間とレイアウト合成を、回路深度の観点から、既存の解法によって最適に解ける満足なモジュラー理論問題として識別する。 複雑なコネクティビティを持つランダムグラフによって生成される一連のベンチマーク回路に対して,本コンパイラ olsq-dpqa は,固定平面アーキテクチャにおける最適コンパイル結果と比較して,小問題インスタンス上の2量子ゲート数を1.7倍削減する。 本手法のスケーラビリティと実用性をさらに高めるために,古典的集積回路ルーティングにおける反復剥離アプローチに触発された欲深いヒューリスティックを提案する。 グラディーと最適手法を組み合わせたハイブリッド手法を用いて、DPQAベースのコンパイル回路はグリッド固定アーキテクチャに比べてスケーリングオーバーヘッドを低減し、90量子ビットの量子回路では5.1倍の2量子ビットゲートが得られることを示した。 これらの方法は、プログラム可能で複雑な量子回路を中性原子量子コンピュータで実現し、将来のコンパイラと将来のハードウェアの選択の両方を知らせる。

Dynamically field-programmable qubit arrays (DPQA) have recently emerged as a promising platform for quantum information processing. In DPQA, atomic qubits are selectively loaded into arrays of optical traps that can be reconfigured during the computation itself. Leveraging qubit transport and parallel, entangling quantum operations, different pairs of qubits, even those initially far away, can be entangled at different stages of the quantum program execution. Such reconfigurability and non-local connectivity present new challenges for compilation, especially in the layout synthesis step which places and routes the qubits and schedules the gates. In this paper, we consider a DPQA architecture that contains multiple arrays and supports 2D array movements, representing cutting-edge experimental platforms. Within this architecture, we discretize the state space and formulate layout synthesis as a satisfactory modulo theories problem, which can be solved by existing solvers optimally in terms of circuit depth. For a set of benchmark circuits generated by random graphs with complex connectivities, our compiler OLSQ-DPQA reduces the number of two-qubit entangling gates on small problem instances by 1.7x compared to optimal compilation results on a fixed planar architecture. To further improve scalability and practicality of the method, we introduce a greedy heuristic inspired by the iterative peeling approach in classical integrated circuit routing. Using a hybrid approach that combined the greedy and optimal methods, we demonstrate that our DPQA-based compiled circuits feature reduced scaling overhead compared to a grid fixed architecture, resulting in 5.1X less two-qubit gates for 90 qubit quantum circuits. These methods enable programmable, complex quantum circuits with neutral atom quantum computers, as well as informing both future compilers and future hardware choices.
翻訳日:2023-08-16 16:28:48 公開日:2023-08-15
# DAG構造学習のための動的因果空間の探索

Discovering Dynamic Causal Space for DAG Structure Learning ( http://arxiv.org/abs/2306.02822v2 )

ライセンス: Link先を確認
Fangfu Liu, Wenchang Ma, An Zhang, Xiang Wang, Yueqi Duan, Tat-Seng Chua(参考訳) 変数間の因果関係の同定を目的とした純粋観測データ(因果発見)から因果構造を発見することは、機械学習の基本的な課題である。 近年の微分可能なスコアベースDAG学習器の発明は、組合せ最適化問題を有向グラフ空間上のDAG制約で微分可能な最適化に再構成する重要なイネーブルである。 その成功にもかかわらず、これらの最先端DAG学習者は、グラフ構造を考慮せず、有向グラフ候補を評価するためにDAGの独立スコア関数を組み込んでいる。 その結果,DAGによらずデータ適合度を計測することは,必然的に,最適なDAGとモデル脆弱性の発見につながる。 そこで本研究では,DAG構造学習のための動的因果空間であるCASPERを提案し,このグラフ構造をスコア関数に統合することで,推定された真理と地上のDAGの因果距離を忠実に反映する。 CASPERは、DAG-nessへの適応的注意によるDAG構造学習の強化とともに、学習プロセスの見直しを行う。 経験的可視化により、CASPERは空間として、構造認識やノイズ堅牢性といった一連の望ましい特性を満たす。 合成と実世界の両方のデータセットに対する大規模な実験は、精度と堅牢性の観点から、最先端の因果発見法よりもCASPERの方が優れていることを明確に証明している。

Discovering causal structure from purely observational data (i.e., causal discovery), aiming to identify causal relationships among variables, is a fundamental task in machine learning. The recent invention of differentiable score-based DAG learners is a crucial enabler, which reframes the combinatorial optimization problem into a differentiable optimization with a DAG constraint over directed graph space. Despite their great success, these cutting-edge DAG learners incorporate DAG-ness independent score functions to evaluate the directed graph candidates, lacking in considering graph structure. As a result, measuring the data fitness alone regardless of DAG-ness inevitably leads to discovering suboptimal DAGs and model vulnerabilities. Towards this end, we propose a dynamic causal space for DAG structure learning, coined CASPER, that integrates the graph structure into the score function as a new measure in the causal space to faithfully reflect the causal distance between estimated and ground truth DAG. CASPER revises the learning process as well as enhances the DAG structure learning via adaptive attention to DAG-ness. Grounded by empirical visualization, CASPER, as a space, satisfies a series of desired properties, such as structure awareness and noise robustness. Extensive experiments on both synthetic and real-world datasets clearly validate the superiority of our CASPER over the state-of-the-art causal discovery methods in terms of accuracy and robustness.
翻訳日:2023-08-16 16:28:16 公開日:2023-08-15
# パーセプトロンニューラルネットワークに基づくバイオインスパイアされたカオスセンサモデル:機械学習の概念と計算神経科学への応用

A Bio-Inspired Chaos Sensor Model Based on the Perceptron Neural Network: Machine Learning Concept and Application for Computational Neuro-Science ( http://arxiv.org/abs/2306.01991v2 )

ライセンス: Link先を確認
Andrei Velichko, Petr Boriskov, Maksim Belyaev and Vadim Putrolaynen(参考訳) 本研究では,神経力学系におけるスパイクトレインのエントロピー推定のための知覚神経ネットワークに基づくバイオインスパイアされたカオスセンサモデルを提案する。 トレーニング後、隠れた層に50個のニューロンを持ち、出力に1個のニューロンを持つパーセプトロン上のセンサーは、高精度で短い時系列のファジィエントロピーをR2〜0.9の判定係数で近似する。 Hindmarsh-Roseスパイクモデルは、一連のスパイク間隔と、パーセプトロンのトレーニングとテストのためのデータセットを生成するために使用された。 Kブロッククロスバリデーション法を用いて, パーセプトロンモデルのハイパーパラメータの選択とセンサ精度の推定を行った。 1つのニューロンを持つ隠れた層であっても、モデルは良い結果と計量 r2 ~ 0.5-0.8 でファジィエントロピーを近似する。 1つのニューロンと第1層の重みが等しい単純化されたモデルでは、近似の原理は時系列の平均値からエントロピー値への線形変換に基づいている。 ラットのl5背根部から記録された活動電位のスパイクトレインにカオスセンサを使用する例を提供する。 ニューロンのアンサンブルに基づくバイオインスパイアされたカオスセンサモデルは、スパイク信号のカオス挙動を動的に追跡し、この情報を神経力学モデルの他の部分に伝達し、さらなる処理を行うことができる。 この研究は、計算神経科学の分野の専門家や、人型ロボットや動物ロボット、限られた資源を持つバイオロボットの開発に役立ちます。

The study presents a bio-inspired chaos sensor model based on the perceptron neural network for the estimation of entropy of spike train in neurodynamic systems. After training, the sensor on perceptron, having 50 neurons in the hidden layer and 1 neuron at the output, approximates the fuzzy entropy of a short time series with high accuracy, with a determination coefficient of R2 ~ 0.9. The Hindmarsh-Rose spike model was used to generate time series of spike intervals, and datasets for training and testing the perceptron. The selection of the hyperparameters of the perceptron model and the estimation of the sensor accuracy were performed using the K-block cross-validation method. Even for a hidden layer with one neuron, the model approximates the fuzzy entropy with good results and the metric R2 ~ 0.5-0.8. In a simplified model with one neuron and equal weights in the first layer, the principle of approximation is based on the linear transformation of the average value of the time series into the entropy value. An example of using the chaos sensor on spike train of action potential recordings from the L5 dorsal rootlet of rat is provided. The bio-inspired chaos sensor model based on an ensemble of neurons is able to dynamically track the chaotic behavior of a spike signal and transmit this information to other parts of the neurodynamic model for further processing. The study will be useful for specialists in the field of computational neuroscience, and also to create humanoid and animal robots, and bio-robots with limited resources.
翻訳日:2023-08-16 16:27:51 公開日:2023-08-15
# トランスデューサに基づくストリーミング音声認識のための適応的文脈バイアス

Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition ( http://arxiv.org/abs/2306.00804v3 )

ライセンス: Link先を確認
Tianyi Xu, Zhanheng Yang, Kaixun Huang, Pengcheng Guo, Ao Zhang, Biao Li, Changru Chen, Chao Li, Lei Xie(参考訳) 文脈情報の追加により、パーソナライズされた単語の音声認識のための有望なソリューションとしてディープバイアス手法が登場している。 しかし、現実の音声アシスタントでは、予測スコアの高いパーソナライズされた単語に常に偏りがあるため、一般的な単語を認識する能力は著しく低下する。 そこで本研究では,コンテキスト認識変換器(CATT)に基づく適応的文脈バイアス手法を提案する。 このような予測はバイアスリストのオン/オフを動的に切り替えるために使用され、モデルがパーソナライズされたシナリオと一般的なシナリオの両方に対応できるようにします。 Librispeechと内部音声アシスタントデータセットの実験により、我々のアプローチは、それぞれベースラインと比較してWERとCERの最大6.7%と20.7%の相対的な減少を達成でき、一般的なケースでは96.7%と84.9%の相対的なWERとCERの増加を軽減できることが示された。 さらに,rtf増加を伴うストリーミング推論パイプラインを維持しつつ,パーソナライズされたシナリオにおけるパフォーマンスへの影響を最小限に抑えている。

By incorporating additional contextual information, deep biasing methods have emerged as a promising solution for speech recognition of personalized words. However, for real-world voice assistants, always biasing on such personalized words with high prediction scores can significantly degrade the performance of recognizing common words. To address this issue, we propose an adaptive contextual biasing method based on Context-Aware Transformer Transducer (CATT) that utilizes the biased encoder and predictor embeddings to perform streaming prediction of contextual phrase occurrences. Such prediction is then used to dynamically switch the bias list on and off, enabling the model to adapt to both personalized and common scenarios. Experiments on Librispeech and internal voice assistant datasets show that our approach can achieve up to 6.7% and 20.7% relative reduction in WER and CER compared to the baseline respectively, mitigating up to 96.7% and 84.9% of the relative WER and CER increase for common cases. Furthermore, our approach has a minimal performance impact in personalized scenarios while maintaining a streaming inference pipeline with negligible RTF increase.
翻訳日:2023-08-16 16:27:17 公開日:2023-08-15
# 潜在量子化による解離

Disentanglement via Latent Quantization ( http://arxiv.org/abs/2305.18378v2 )

ライセンス: Link先を確認
Kyle Hsu and Will Dorrell and James C. R. Whittington and Jiajun Wu and Chelsea Finn(参考訳) 乱れた表現学習では、モデルはデータセットの基盤となる変動源を区別し、互いに独立して表現するように要求される。 モデルにはこれらの情報源に関する基礎的な真理情報がないため、帰納的バイアスは遠絡を可能にする上で最重要である。 本研究では,組織化された潜在空間への符号化と復号に対する帰納的バイアスを構築する。 具体的には、これを行う。 (i)次元ごとに学習可能なスカラー符号帳を分離した離散符号ベクトルに潜在空間を定量化すること。 (ii)異常に高い重量減少による強モデル正則化の適用。 直感的には、潜在空間設計は、エンコーダに少数の異なるスカラー値から符号を組合せて構成させ、それによってデコーダは各値に一貫した意味を割り当てることができる。 正規化は、モデルをこの控えめな戦略へと導くのに役立ちます。 本稿では,基本データ再構成 (vanilla autoencoder) と潜在データ再構成 (InfoGAN) の両方に付加することで,このアプローチの適用性を示す。 信頼性の高い評価のために,我々は,情報理論において結合的に基礎を置き,先行する指標の確立された欠点を修正するための新しい指標セットであるinfomecを提案する。 正規化とともに、潜在量子化は、ベンチマークデータセットの代表スイートにおける学習された表現のモジュラリティと明示性を劇的に改善する。 特に、当社の量子化遅延オートエンコーダ(QLAE)は、データ再構成を損なうことなく、これらのキー不整合特性において、従来から強い手法よりも一貫して優れています。

In disentangled representation learning, a model is asked to tease apart a dataset's underlying sources of variation and represent them independently of one another. Since the model is provided with no ground truth information about these sources, inductive biases take a paramount role in enabling disentanglement. In this work, we construct an inductive bias towards encoding to and decoding from an organized latent space. Concretely, we do this by (i) quantizing the latent space into discrete code vectors with a separate learnable scalar codebook per dimension and (ii) applying strong model regularization via an unusually high weight decay. Intuitively, the latent space design forces the encoder to combinatorially construct codes from a small number of distinct scalar values, which in turn enables the decoder to assign a consistent meaning to each value. Regularization then serves to drive the model towards this parsimonious strategy. We demonstrate the broad applicability of this approach by adding it to both basic data-reconstructing (vanilla autoencoder) and latent-reconstructing (InfoGAN) generative models. For reliable evaluation, we also propose InfoMEC, a new set of metrics for disentanglement that is cohesively grounded in information theory and fixes well-established shortcomings in previous metrics. Together with regularization, latent quantization dramatically improves the modularity and explicitness of learned representations on a representative suite of benchmark datasets. In particular, our quantized-latent autoencoder (QLAE) consistently outperforms strong methods from prior work in these key disentanglement properties without compromising data reconstruction.
翻訳日:2023-08-16 16:26:42 公開日:2023-08-15
# 1次元デクスター型励起位相相転移

One-dimensional Dexter-type excitonic topological phase transition ( http://arxiv.org/abs/2305.18299v3 )

ライセンス: Link先を確認
Jianhua Zhu, Ji Chen, and Wei Wu(参考訳) 我々は、任意の1次元鎖構造の励起子を記述するのに十分一般的な1次元二量化励起模型に対するザック位相を計算した。 関連するホッピングパラメータのチューニングは、従来のSu-Shcrieffer-Heegerモデルとは異なり、一様鎖の非自明な位相位相、トポロジカルに堅牢な平坦なバンドの動物園、エキゾチックな分数相を含む、物理学の豊富なスペクトルを生み出す。 最も重要なことは、初めてデクスター電子交換プロセスで補助される位相相転移が発見されたことである。 さらに,計算における$\pi$のzak位相を解釈するために, ‘`composite chiral site' という新しい概念が開発された。 有限連鎖計算は位相的エッジ状態に準じ、その特性に関するより多くの情報を提供する。

We have computed the Zak phase for a one-dimensional dimerised excitonic model, which is sufficiently general to describe excitons for any one-dimensional chain structures. Tuning relevant hopping parameters gives rise to a rich spectrum of physics, including non-trivial topological phase in uniform chain unlike the conventional Su-Shcrieffer-Heeger model, a zoo of topologically robust flat bands, and exotic fractional phase. Most importantly, in the first time, a topological phase transition assisted by the Dexter electron exchange process has been found. In addition, a new concept of ``composite chiral site" was developed to interpret the Zak phase of $\pi$ in our calculations. Our finite-chain calculations substantiate topological edge states, providing more information about their characteristics.
翻訳日:2023-08-16 16:26:17 公開日:2023-08-15
# style over substance: 大規模言語モデルに対する評価バイアス

Style Over Substance: Evaluation Biases for Large Language Models ( http://arxiv.org/abs/2307.03025v2 )

ライセンス: Link先を確認
Minghao Wu, Alham Fikri Aji(参考訳) 大きな言語モデル(LLM)が進歩を続けるにつれ、そのパフォーマンスを正確かつ包括的に評価することはますます困難になっている。 人間の評価は自然言語生成における金本位制と見なされるが、近年の進歩では、評価過程における人間の判断のプロキシとして最先端のllmが組み込まれている。 しかしながら、人間とLLMがどの程度の能力を持つかは未だ不明である。 本研究では,異なるモデルからのアウトプットを比較する際に,クラウドソースおよびエキスパートアノテータおよびLPMの挙動について検討する。 これを実現するために、故意に欠陥のあるマシン生成回答のデータセットをキュレートする。 事実的誤りを伴う回答は,短すぎる回答や文法的誤りを含む回答よりも好意的に評価されるため,評価プロセスにバイアスが伴うことが明らかとなった。 この問題に対処するために,すべての評価面を1つのスコアにまとめるのではなく,複数の次元にわたるマシン生成テキストを独立に評価することを提案する。 このアイデアをeloレーティングシステムでインスタンス化し,マルチeloレーティングシステムを実現する。 本研究から得られた実験結果から,本手法はLLMによる評価,特に実測精度を著しく向上させることが明らかとなった。 しかし,クラウドソースによる評価では,さらなる調査・改善の必要性が指摘され,大幅な改善はない。

As large language models (LLMs) continue to advance, accurately and comprehensively evaluating their performance becomes increasingly challenging. Human evaluations are conventionally considered the gold standard in natural language generation, but recent advancements incorporate state-of-the-art LLMs as proxies for human judges in evaluation processes. However, the extent to which humans and LLMs are capable evaluators remains uncertain. This study investigates the behavior of crowd-sourced and expert annotators, as well as LLMs, when comparing outputs from different models. To achieve this, we curate a dataset of intentionally flawed machine-generated answers. Our findings reveal a concerning bias in the evaluation process, as answers with factual errors are rated more favorably than answers that are too short or contained grammatical errors. To address this issue, we propose independently evaluating machine-generated text across multiple dimensions, rather than merging all the evaluation aspects into a single score. We instantiate this idea with the Elo rating system, resulting in the Multi-Elo Rating System. Empirical results from our study reveal that this proposed approach significantly enhances the quality of LLM-based evaluations, particularly in terms of factual accuracy. However, there is no significant improvement in crowd-sourced-based evaluations, indicating the need for further investigation and refinement.
翻訳日:2023-08-16 16:20:38 公開日:2023-08-15
# BatGPT: 生成型事前学習型変圧器による双方向自動補聴器

BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained Transformer ( http://arxiv.org/abs/2307.00360v2 )

ライセンス: Link先を確認
Zuchao Li, Shitou Zhang, Hai Zhao, Yifei Yang, Dongjie Yang(参考訳) BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。 テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。 モデリングレベルでは、モデルが自然言語の複雑な依存関係を効率的に捉えることができ、言語生成、対話システム、質問応答といったタスクに非常に効果的である双方向の自己回帰アーキテクチャを採用しています。 さらに、双方向自己回帰モデリングは、左から右へだけでなく、右から左へも動作し、固定メモリ効果を効果的に低減し、モデル幻覚を緩和する。 学習面では、より小さなモデルの事前学習を活用し、モデルのアライメント性能を向上させることを目的とした、aiと人間のフィードバックからの強化学習を活用できる新しいパラメータ拡張手法を提案する。 全体として、これらのアプローチはBatGPTの有効性を大幅に改善し、そのモデルは幅広い自然言語アプリケーションに利用することができる。

BatGPT is a large-scale language model designed and trained jointly by Wuhan University and Shanghai Jiao Tong University. It is capable of generating highly natural and fluent text in response to various types of input, including text prompts, images, and audio. In the modeling level, we employ a bidirectional autoregressive architecture that allows the model to efficiently capture the complex dependencies of natural language, making it highly effective in tasks such as language generation, dialog systems, and question answering. Moreover, the bidirectional autoregressive modeling not only operates from left to right but also from right to left, effectively reducing fixed memory effects and alleviating model hallucinations. In the training aspect, we propose a novel parameter expansion method for leveraging the pre-training of smaller models and employ reinforcement learning from both AI and human feedback, aimed at improving the model's alignment performance. Overall, these approaches significantly improve the effectiveness of BatGPT, and the model can be utilized for a wide range of natural language applications.
翻訳日:2023-08-16 16:20:15 公開日:2023-08-15
# ピークオーバースレッショルドモデルを用いた検閲推論のためのニューラルベイズ推定器

Neural Bayes estimators for censored inference with peaks-over-threshold models ( http://arxiv.org/abs/2306.15642v3 )

ライセンス: Link先を確認
Jordan Richards and Matthew Sainsbury-Dale and Andrew Zammit-Mangion and Rapha\"el Huser(参考訳) 空間的極値依存モデルを用いた推論は、難解かつ検閲された確率を伴うため、計算量的に負担がかかる。 ニューラルネットワークアーキテクチャにおける検閲情報をエンコードする検閲されたピークオーバホールドモデルに対して,ベイズ推定器を近似したニューラルネットワークを用いた確率自由推定の最近の進歩に基づいて,高効率な推定器を開発した。 提案手法は,空間的極値依存モデルに対する従来の検閲に基づく推論手法に挑戦するパラダイムシフトを提供する。 我々のシミュレーション研究は、max-stable、$r$-pareto、ランダムスケール混合プロセスモデルなどの一般的な極値依存モデルを用いて推論を行うために、新しい推定器を適用した場合、計算効率と統計効率の両方において有意な向上を示す。 また,1つのニューラルネットワークベイズ推定器を一般検閲レベルでトレーニングすることは可能であり,検閲レベルが変更された場合のネットワークの再トレーニングは不要であることを示す。 サウジアラビア全土の過大粒子状物質2.5ミクロン以下(PM2.5)濃度を評価するために,高次元空間超依存性モデル数百個を高速に推定することにより,推定装置の有効性を検証した。

Making inference with spatial extremal dependence models can be computationally burdensome since they involve intractable and/or censored likelihoods. Building on recent advances in likelihood-free inference with neural Bayes estimators, that is, neural networks that approximate Bayes estimators, we develop highly efficient estimators for censored peaks-over-threshold models that encode censoring information in the neural network architecture. Our new method provides a paradigm shift that challenges traditional censored likelihood-based inference methods for spatial extremal dependence models. Our simulation studies highlight significant gains in both computational and statistical efficiency, relative to competing likelihood-based approaches, when applying our novel estimators to make inference with popular extremal dependence models, such as max-stable, $r$-Pareto, and random scale mixture process models. We also illustrate that it is possible to train a single neural Bayes estimator for a general censoring level, precluding the need to retrain the network when the censoring level is changed. We illustrate the efficacy of our estimators by making fast inference on hundreds-of-thousands of high-dimensional spatial extremal dependence models to assess extreme particulate matter 2.5 microns or less in diameter (PM2.5) concentration over the whole of Saudi Arabia.
翻訳日:2023-08-16 16:19:34 公開日:2023-08-15
# DiffSketcher:潜在拡散モデルによるテキストガイドベクトルスケッチ合成

DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models ( http://arxiv.org/abs/2306.14685v2 )

ライセンス: Link先を確認
Ximing Xing, Chuang Wang, Haitao Zhou, Jing Zhang, Qian Yu, Dong Xu(参考訳) 画像を中心に訓練したものの,事前学習された拡散モデルがスケッチ合成の指導において印象的な効果を示すことが判明した。 本稿では,自然言語入力を用いたベクトル化自由ハンドスケッチを作成する革新的なアルゴリズムdiffsketcherを提案する。 diffsketcherは、事前学習されたテキストから画像への拡散モデルに基づいている。 スコア蒸留サンプリング(sds)損失の延長バージョンでベジエ曲線のセットを直接最適化することにより、パラメトリックベクトル化スケッチ生成器の最適化に先立ってラスターレベルの拡散モデルを用いることができる。 さらに, 実効的ストローク初期化のための拡散モデルに埋め込まれた注意マップを探索し, 生成プロセスを高速化する。 生成されたスケッチは、認識可能性、基盤構造、描画対象の視覚的詳細を維持しながら、複数の抽象化レベルを示す。 私たちの実験では、diffsketcherは以前の作業よりも高い品質を達成しています。

Even though trained mainly on images, we discover that pretrained diffusion models show impressive power in guiding sketch synthesis. In this paper, we present DiffSketcher, an innovative algorithm that creates vectorized free-hand sketches using natural language input. DiffSketcher is developed based on a pre-trained text-to-image diffusion model. It performs the task by directly optimizing a set of Bezier curves with an extended version of the score distillation sampling (SDS) loss, which allows us to use a raster-level diffusion model as a prior for optimizing a parametric vectorized sketch generator. Furthermore, we explore attention maps embedded in the diffusion model for effective stroke initialization to speed up the generation process. The generated sketches demonstrate multiple levels of abstraction while maintaining recognizability, underlying structure, and essential visual details of the subject drawn. Our experiments show that DiffSketcher achieves greater quality than prior work.
翻訳日:2023-08-16 16:19:10 公開日:2023-08-15
# レコメンダシステムのためのデータ拡張と改良:最大マージン行列分解を用いた半教師付きアプローチ

Data augmentation and refinement for recommender system: A semi-supervised approach using maximum margin matrix factorization ( http://arxiv.org/abs/2306.13050v2 )

ライセンス: Link先を確認
Shamal Shaikh, Venkateswara Rao Kagita, Vikas Kumar, Arun K Pujari(参考訳) 協調フィルタリング(CF)は,過去の嗜好や他ユーザの嗜好情報に基づいて,新たな項目に対するユーザのレーティングを予測するレコメンデータシステム(RS)を開発するための一般的な手法となっている。 CFベースの手法が普及しているにもかかわらず、その性能は観察された項目の幅によって著しく制限されることが多い。 本研究では,MMMF (Maximum Margin Matrix Factorization, MMMF) のデータの増大と改善について検討した。 CFアルゴリズムの特性を利用して個人評価の信頼度を評価し,自己学習に基づく評価向上のための半教師付きアプローチを提案する。 cfアルゴリズムの信頼度の低い予測は、トレーニングデータの不足によるものであると仮定し、体系的データ拡張戦略を採用することにより、アルゴリズムの性能を向上させることができる。 我々は,高い信頼度で予測された評価を反復的に使用し,トレーニングデータを強化し,改良プロセスを通じて信頼性の低い項目を除去した。 このプロセスを繰り返すことで、システムは予測精度を改善することを学ぶ。 本手法は,いくつかの最先端cfアルゴリズムで実験的に評価され,ベースライン手法の性能向上に寄与する。

Collaborative filtering (CF) has become a popular method for developing recommender systems (RSs) where ratings of a user for new items are predicted based on her past preferences and available preference information of other users. Despite the popularity of CF-based methods, their performance is often greatly limited by the sparsity of observed entries. In this study, we explore the data augmentation and refinement aspects of Maximum Margin Matrix Factorization (MMMF), a widely accepted CF technique for rating predictions, which has not been investigated before. We exploit the inherent characteristics of CF algorithms to assess the confidence level of individual ratings and propose a semi-supervised approach for rating augmentation based on self-training. We hypothesize that any CF algorithm's predictions with low confidence are due to some deficiency in the training data and hence, the performance of the algorithm can be improved by adopting a systematic data augmentation strategy. We iteratively use some of the ratings predicted with high confidence to augment the training data and remove low-confidence entries through a refinement process. By repeating this process, the system learns to improve prediction accuracy. Our method is experimentally evaluated on several state-of-the-art CF algorithms and leads to informative rating augmentation, improving the performance of the baseline approaches.
翻訳日:2023-08-16 16:18:53 公開日:2023-08-15
# Task-Conditioned Hypernetwork に基づくマルチタスクエピソードメモリによる深層強化学習

Deep Reinforcement Learning with Multitask Episodic Memory Based on Task-Conditioned Hypernetwork ( http://arxiv.org/abs/2306.10698v3 )

ライセンス: Link先を確認
Yonggang Jin, Chenxu Wang, Liuyu Xiang, Yaodong Yang, Junge Zhang, Jie Fu and Zhaofeng He(参考訳) 深層強化学習アルゴリズムは通常、正確な意思決定能力を得るために環境と複数の相互作用に依存する非効率のサンプリングによって妨げられる。 対照的に、人間は海馬を頼りに、関連するタスクの過去の経験から関連する情報を取得し、環境の相互作用にのみ依存するのではなく、新しいタスクを学ぶ際の意思決定を導く。 それにもかかわらず、過去の経験を確立された強化学習アルゴリズムに組み込むエージェントのための海馬のようなモジュールの設計には、2つの課題がある。 第1の課題は、現在のタスクに最も関連する過去の経験を選択することであり、第2の課題は、そのような経験を意思決定ネットワークに統合することである。 これらの課題に対処するために,タスク条件付きハイパーネットワークに基づく検索ネットワークを用いて,検索ネットワークのパラメータをタスクに応じて適応させる新しい手法を提案する。 同時に,動的修正機構により,検索ネットワークと意思決定ネットワークの協調作業が促進される。 提案手法をMiniGrid環境上で評価し,提案手法が強いベースラインを著しく上回ることを示す実験結果を得た。

Deep reinforcement learning algorithms are usually impeded by sampling inefficiency, heavily depending on multiple interactions with the environment to acquire accurate decision-making capabilities. In contrast, humans rely on their hippocampus to retrieve relevant information from past experiences of relevant tasks, which guides their decision-making when learning a new task, rather than exclusively depending on environmental interactions. Nevertheless, designing a hippocampus-like module for an agent to incorporate past experiences into established reinforcement learning algorithms presents two challenges. The first challenge involves selecting the most relevant past experiences for the current task, and the second challenge is integrating such experiences into the decision network. To address these challenges, we propose a novel method that utilizes a retrieval network based on task-conditioned hypernetwork, which adapts the retrieval network's parameters depending on the task. At the same time, a dynamic modification mechanism enhances the collaborative efforts between the retrieval and decision networks. We evaluate the proposed method on the MiniGrid environment.The experimental results demonstrate that our proposed method significantly outperforms strong baselines.
翻訳日:2023-08-16 16:18:28 公開日:2023-08-15
# 仮想人間の生成モデル:人間の特性学習のためのマスクモデルアプローチ

Virtual Human Generative Model: Masked Modeling Approach for Learning Human Characteristics ( http://arxiv.org/abs/2306.10656v2 )

ライセンス: Link先を確認
Kenta Oono, Nontawat Charoenphakdee, Kotatsu Bito, Zhengyan Gao, Yoshiaki Ota, Shoichiro Yamaguchi, Yohei Sugawara, Shin-ichi Maeda, Kunihiko Miyoshi, Yuki Saito, Koki Tsuda, Hiroshi Maruyama, Kohei Hayashi(参考訳) 健康属性、ライフスタイル、パーソナリティの関係を特定することは、身体的および精神的な状態の理解と改善に不可欠である。 機械学習のアプローチは、それらの関係をモデル化し、実行可能な提案を提供する。 本稿では,ヘルスケア,ライフスタイル,パーソナリティに関する属性を推定する機械学習モデルであるvirtual human generative model (vhgm)を提案する。 vhgmは、既知の属性の結合分布を学ぶためにマスクモデルで訓練された深い生成モデルである。 不均一な表型データセットを使用して、VHGMは1,800以上の属性を効率的に学習する。 VHGMとその訓練技術の性能を数値的に評価する。 VHGMの概念実証として,医療属性の仮想計測やライフスタイルの仮説検証など,ユーザシナリオを示すいくつかのアプリケーションを提案する。

Identifying the relationship between healthcare attributes, lifestyles, and personality is vital for understanding and improving physical and mental conditions. Machine learning approaches are promising for modeling their relationships and offering actionable suggestions. In this paper, we propose Virtual Human Generative Model (VHGM), a machine learning model for estimating attributes about healthcare, lifestyles, and personalities. VHGM is a deep generative model trained with masked modeling to learn the joint distribution of attributes conditioned on known ones. Using heterogeneous tabular datasets, VHGM learns more than 1,800 attributes efficiently. We numerically evaluate the performance of VHGM and its training techniques. As a proof-of-concept of VHGM, we present several applications demonstrating user scenarios, such as virtual measurements of healthcare attributes and hypothesis verifications of lifestyles.
翻訳日:2023-08-16 16:18:10 公開日:2023-08-15
# 詩の融合 : 詩生成における意味的・韻律的操作の融合に向けて

PoetryDiffusion: Towards Joint Semantic and Metrical Manipulation in Poetry Generation ( http://arxiv.org/abs/2306.08456v2 )

ライセンス: Link先を確認
Zhiyuan Hu, Chumin Liu, Yue Feng, Anh Tuan Luu, Bryan Hooi(参考訳) 制御可能なテキスト生成は自然言語生成(NLG)において困難で意味のある分野である。 特に詩の生成はテキスト生成の条件が明確で厳密な典型的なものであり、現在の方法論を評価するのに理想的な場である。 以前の作品では詩生成の意味論的側面や計量的側面を制御できたが、同時に両者に対処することは困難である。 本稿では,ソネット生成のための拡散モデルと中国語のSongCi詩を用いて,このような課題に対処する。 セマンティクスの観点からは,拡散モデルに基づいて構築された詩拡散モデルが文情報全体を包括的に考慮して文全体や詩を生成する。 このアプローチは意味表現を強化し、自己回帰型および大規模言語モデル(LLM)と区別する。 メトリクス制御のために、拡散生成とその制約制御モジュールの分離特徴により、新しいメトリックコントローラを柔軟に組み込んでメトリクス(フォーマットとリズム)を操作し評価することができる。 poetrydiffusionでは、意味論の段階的な拡張と、ターゲットの制御分布から著しく離れている状態に対してペナルティを計算し課すことができるメトリックコントローラの柔軟な統合を可能にする。 2つのデータセットに対する実験結果から,本モデルが既存のモデルより優れており,セマンティクス,計量,総合的な性能と人的評価が自動評価されることがわかった。

Controllable text generation is a challenging and meaningful field in natural language generation (NLG). Especially, poetry generation is a typical one with well-defined and strict conditions for text generation which is an ideal playground for the assessment of current methodologies. While prior works succeeded in controlling either semantic or metrical aspects of poetry generation, simultaneously addressing both remains a challenge. In this paper, we pioneer the use of the Diffusion model for generating sonnets and Chinese SongCi poetry to tackle such challenges. In terms of semantics, our PoetryDiffusion model, built upon the Diffusion model, generates entire sentences or poetry by comprehensively considering the entirety of sentence information. This approach enhances semantic expression, distinguishing it from autoregressive and large language models (LLMs). For metrical control, the separation feature of diffusion generation and its constraint control module enable us to flexibly incorporate a novel metrical controller to manipulate and evaluate metrics (format and rhythm). The denoising process in PoetryDiffusion allows for gradual enhancement of semantics and flexible integration of the metrical controller which can calculate and impose penalties on states that stray significantly from the target control distribution. Experimental results on two datasets demonstrate that our model outperforms existing models in automatic evaluation of semantic, metrical, and overall performance as well as human evaluation.
翻訳日:2023-08-16 16:17:56 公開日:2023-08-15
# GCformer: 正確でスケーラブルな多変数時系列予測のための効率的なフレームワーク

GCformer: An Efficient Framework for Accurate and Scalable Long-Term Multivariate Time Series Forecasting ( http://arxiv.org/abs/2306.08325v3 )

ライセンス: Link先を確認
YanJun Zhao, Ziqing Ma, Tian Zhou, Liang Sun, Mengni Ye, Yi Qian(参考訳) トランスフォーマーベースのモデルは、時系列予測の有望なツールとして登場した。 しかし、これらのモデルでは長い入力時系列の正確な予測はできない。 一方で、時系列データ内のグローバルな依存関係を捉えられなかった。 一方、長い入力シーケンスは、通常、大きなモデルサイズと高い時間複雑性をもたらす。 この制限に対処するために、長い入力列を処理する構造化グローバル畳み込みブランチと、短い最新の信号をキャプチャするローカルトランスフォーマティブベースのブランチを組み合わせたgcformerを提案する。 大域的畳み込みカーネルのための凝集フレームワークが3つの異なるパラメータ化手法を用いて導入された。 グローバルブランチで選択された構造化畳み込みカーネルは、特に線形の複雑さで構築されており、長大で雑音の多い入力信号の効率的かつ効率的な処理を可能にしている。 6つのベンチマークデータセットに関する実証的研究により、GCformerは最先端の手法より優れており、多変量時系列ベンチマークのMSEエラーを4.38%、モデルパラメータを61.92%削減している。 特に、グローバル畳み込み分岐は他のモデルの性能を向上させるためのプラグインブロックとして機能することができ、最近発表された様々なトランスフォーマーベースのモデルを含む平均31.93\%改善されている。 私たちのコードはhttps://github.com/zyj-111/gcformerで公開しています。

Transformer-based models have emerged as promising tools for time series forecasting. However, these model cannot make accurate prediction for long input time series. On the one hand, they failed to capture global dependencies within time series data. On the other hand, the long input sequence usually leads to large model size and high time complexity. To address these limitations, we present GCformer, which combines a structured global convolutional branch for processing long input sequences with a local Transformer-based branch for capturing short, recent signals. A cohesive framework for a global convolution kernel has been introduced, utilizing three distinct parameterization methods. The selected structured convolutional kernel in the global branch has been specifically crafted with sublinear complexity, thereby allowing for the efficient and effective processing of lengthy and noisy input signals. Empirical studies on six benchmark datasets demonstrate that GCformer outperforms state-of-the-art methods, reducing MSE error in multivariate time series benchmarks by 4.38% and model parameters by 61.92%. In particular, the global convolutional branch can serve as a plug-in block to enhance the performance of other models, with an average improvement of 31.93\%, including various recently published Transformer-based models. Our code is publicly available at https://github.com/zyj-111/GCformer.
翻訳日:2023-08-16 16:17:33 公開日:2023-08-15
# PromptStyler: ソースフリードメイン一般化のためのプロンプト駆動型スタイル生成

PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization ( http://arxiv.org/abs/2307.15199v2 )

ライセンス: Link先を確認
Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak(参考訳) 共同視覚言語空間では、テキスト機能(例:「犬の写真」から)はその関連画像の特徴(例:犬の写真から)を効果的に表現することができる。 また、最近の研究は、この関節空間のクロスモーダル移動可能性現象を実証している。 そこで,本研究では,多種多様なスタイルをプロンプトで合成し,ソースフリーなドメイン一般化を扱うことなく,様々な分散シフトをシミュレートするプロンプトスタイルを提案する。 提案手法は、擬似単語S*の学習可能なスタイルワードベクトルを用いて、様々なスタイル特徴(aのS*スタイルから)を生成することを学習する。 学習されたスタイルがコンテンツ情報を歪めないようにするため、スタイルコンテンツの特徴([クラス]のs*スタイルから)は、共用視覚言語空間内の対応するコンテンツ特徴([クラス]から)の近くに配置するよう強制します。 スタイル単語ベクトルを学習した後、合成スタイルコンテンツ特徴を用いて線形分類器を訓練する。 PromptStylerは、トレーニングにイメージを必要としないにも関わらず、PACS、VLCS、OfficeHome、DomainNetの最先端技術を実現している。

In a joint vision-language space, a text feature (e.g., from "a photo of a dog") could effectively represent its relevant image features (e.g., from dog photos). Also, a recent study has demonstrated the cross-modal transferability phenomenon of this joint space. From these observations, we propose PromptStyler which simulates various distribution shifts in the joint space by synthesizing diverse styles via prompts without using any images to deal with source-free domain generalization. The proposed method learns to generate a variety of style features (from "a S* style of a") via learnable style word vectors for pseudo-words S*. To ensure that learned styles do not distort content information, we force style-content features (from "a S* style of a [class]") to be located nearby their corresponding content features (from "[class]") in the joint vision-language space. After learning style word vectors, we train a linear classifier using synthesized style-content features. PromptStyler achieves the state of the art on PACS, VLCS, OfficeHome and DomainNet, even though it does not require any images for training.
翻訳日:2023-08-16 16:09:56 公開日:2023-08-15
# Deep Bradley-Terry Rating: 比較による特性の定量化

Deep Bradley-Terry Rating: Quantifying Properties from Comparisons ( http://arxiv.org/abs/2307.13709v3 )

ライセンス: Link先を確認
Satoru Fujii(参考訳) 現実世界の多くの特性は直接観察できないので、学ぶのが難しくなります。 この課題に対処するために、先行研究は主に、トレーニングのターゲットラベルとしてグレードされた人間のスコアを用いて、それらの特性を推定することに焦点を当てている。 一方,Bradley-Terryモデルに基づく評価アルゴリズムは,試合履歴に基づく選手の競争性を評価するために広く研究されている。 本稿では,未知アイテムの特性を定量化し評価するための機械学習フレームワークであるDeep Bradley-Terry Rating (DBTR)を紹介する。 我々はBradley-Terryモデルをニューラルネットワーク構造にシームレスに統合する。 さらに,このアーキテクチャを不公平な非対称環境に一般化する。 実験により,DBTRが望ましい特性の定量化と推定に成功していることを示す。

Many properties in the real world can't be directly observed, making them difficult to learn. To deal with this challenging problem, prior works have primarily focused on estimating those properties by using graded human scores as the target label in the training. Meanwhile, rating algorithms based on the Bradley-Terry model are extensively studied to evaluate the competitiveness of players based on their match history. In this paper, we introduce the Deep Bradley-Terry Rating (DBTR), a novel machine learning framework designed to quantify and evaluate properties of unknown items. Our method seamlessly integrates the Bradley-Terry model into the neural network structure. Moreover, we generalize this architecture further to asymmetric environments with unfairness, a condition more commonly encountered in real-world settings. Through experimental analysis, we demonstrate that DBTR successfully learns to quantify and estimate desired properties.
翻訳日:2023-08-16 16:09:33 公開日:2023-08-15
# 不正確な境界箱を用いた物体検出のための空間自己蒸留

Spatial Self-Distillation for Object Detection with Inaccurate Bounding Boxes ( http://arxiv.org/abs/2307.12101v2 )

ライセンス: Link先を確認
Di Wu and Pengfei Chen and Xuehui Yu and Guorong Li and Zhenjun Han and Jianbin Jiao(参考訳) 不正確なバウンディングボックスによるオブジェクト検出は、高価なハイクオリティなアノテーションデータや、低いアノテーション品質(例えば小さなオブジェクト)の必然性によって、幅広い関心を集めている。 以前の研究は通常、カテゴリ情報に大きく依存するマルチインスタンス学習(MIL)を使用して、低品質のボックスを選択して洗練する。 これらの手法は空間情報を探索することなく物体のドリフト、グループ予測、部分支配問題に悩まされる。 本稿では,空間情報をマイニングし,不正確な箱を自己蒸留方式で精製する \textbf{spatial self-distillation based object detector (ssd-det") を提案する。 ssd-det は空間的位置自己蒸留 \textbf{(spsd)} モジュールを使用して空間情報と対話的構造を利用して空間情報とカテゴリ情報を組み合わせて高品質な提案バッグを構築する。 選択手順をさらに改善するため、SSD-DetにSpatial Identity Self-Distillation \textbf{(SISD)モジュールを導入し、空間信頼を得、最適な提案を選択する。 ノイズボックスアノテーションを用いたMS-COCOおよびVOCデータセットの実験により,本手法の有効性を確認し,最先端の性能を実現する。 コードはhttps://github.com/ucas-vg/PointTinyBenchmark/tree/SSD-Detで公開されている。

Object detection via inaccurate bounding boxes supervision has boosted a broad interest due to the expensive high-quality annotation data or the occasional inevitability of low annotation quality (\eg tiny objects). The previous works usually utilize multiple instance learning (MIL), which highly depends on category information, to select and refine a low-quality box. Those methods suffer from object drift, group prediction and part domination problems without exploring spatial information. In this paper, we heuristically propose a \textbf{Spatial Self-Distillation based Object Detector (SSD-Det)} to mine spatial information to refine the inaccurate box in a self-distillation fashion. SSD-Det utilizes a Spatial Position Self-Distillation \textbf{(SPSD)} module to exploit spatial information and an interactive structure to combine spatial information and category information, thus constructing a high-quality proposal bag. To further improve the selection procedure, a Spatial Identity Self-Distillation \textbf{(SISD)} module is introduced in SSD-Det to obtain spatial confidence to help select the best proposals. Experiments on MS-COCO and VOC datasets with noisy box annotation verify our method's effectiveness and achieve state-of-the-art performance. The code is available at https://github.com/ucas-vg/PointTinyBenchmark/tree/SSD-Det.
翻訳日:2023-08-16 16:09:18 公開日:2023-08-15
# 1次元フェルミガス中の不純物の相関除去による温度測定

Thermometry by correlated dephasing of impurities in a 1D Fermi gas ( http://arxiv.org/abs/2307.10132v2 )

ライセンス: Link先を確認
Sindre Brattegard and Mark T. Mitchison(参考訳) 我々は,超低温フェルミオン原子の共有環境に埋め込まれた2つの静的不純物量子ビットの純粋退化ダイナミクスを理論的に検討する。 我々の目標は、不純物間の浴媒介相互作用が非平衡量子温度計としての性能にどのように影響するかを理解することである。 関数決定式を用いて動的に解くことにより,ruderman-kittel-kasuya-yosida型の遅延相互作用により不純物が相関することを示した。 さらに, これらの相関関係は, 2量子ビット温度計の感度を2つの独立した不純物よりも高め, メトロロジー的な利点をもたらすことを実証する。 この増強は、低温と不純物と気体の間の弱い衝突結合の限界において最も顕著である。 この精度の利点は標準ラムゼイ干渉計を用いて利用でき、相関した初期状態を作成したり、不純物を個別に操作したり測定したりする必要もない。 また, 温度推定を行う際の相関を無視する影響を定量的に評価し, 不純物の簡易モデルから許容可能な精度を得ることができた。 以上の結果から, フェルミガス中の不純物の高次非平衡物理が示され, 超低温での温度推定の精度向上に寄与する可能性が示唆された。

We theoretically investigate the pure dephasing dynamics of two static impurity qubits embedded within a common environment of ultracold fermionic atoms, which are confined to one spatial dimension. Our goal is to understand how bath-mediated interactions between impurities affect their performance as nonequilibrium quantum thermometers. By solving the dynamics exactly using a functional determinant approach, we show that the impurities become correlated via retarded interactions of the Ruderman-Kittel-Kasuya-Yosida type. Moreover, we demonstrate that these correlations can provide a metrological advantage, enhancing the sensitivity of the two-qubit thermometer beyond that of two independent impurities. This enhancement is most prominent in the limit of low temperature and weak collisional coupling between the impurities and the gas. We show that this precision advantage can be exploited using standard Ramsey interferometry, with no need to prepare correlated initial states nor to individually manipulate or measure the impurities. We also quantitatively assess the impact of ignoring these correlations when constructing a temperature estimate, finding that acceptable precision can still be achieved from a simplified model of independent impurities. Our results demonstrate the rich nonequilibrium physics of impurities dephasing in a common Fermi gas, and may help to provide better temperature estimates at ultralow temperatures.
翻訳日:2023-08-16 16:08:53 公開日:2023-08-15
# promptmagician: テキストから画像へのインタラクティブなプロンプトエンジニアリング

PromptMagician: Interactive Prompt Engineering for Text-to-Image Creation ( http://arxiv.org/abs/2307.09036v2 )

ライセンス: Link先を確認
Yingchaojie Feng, Xingbo Wang, Kam Kwai Wong, Sijia Wang, Yuhong Lu, Minfeng Zhu, Baicheng Wang, Wei Chen(参考訳) 自然言語プロンプトに基づいた高品質な画像を生成する能力によって、生成型テキストから画像へのモデルが大衆に人気を集めている。 しかし、自然言語の複雑さとあいまいさのため、望ましい画像に対する効果的なプロンプトの開発は困難である。 本研究では,画像結果の探索と入力プロンプトの洗練を支援する視覚解析システムpromptmagicianを提案する。 システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連する)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。 インタラクティブなプロンプトリファインメントを容易にするために、prompcipalmagicianは、検索された画像と推奨キーワードのクロスモーダル埋め込みのためのマルチレベル可視化を導入し、パーソナライズされた探索のための複数の基準を指定するユーザをサポートする。 ユーザスタディとエキスパートインタビューの2つの利用シナリオは,システムの有効性とユーザビリティを実証し,迅速なエンジニアリングを促進し,生成テキスト・画像モデルの創造的サポートを改善することを示唆している。

Generative text-to-image models have gained great popularity among the public for their powerful capability to generate high-quality images based on natural language prompts. However, developing effective prompts for desired images can be challenging due to the complexity and ambiguity of natural language. This research proposes PromptMagician, a visual analysis system that helps users explore the image results and refine the input prompts. The backbone of our system is a prompt recommendation model that takes user prompts as input, retrieves similar prompt-image pairs from DiffusionDB, and identifies special (important and relevant) prompt keywords. To facilitate interactive prompt refinement, PromptMagician introduces a multi-level visualization for the cross-modal embedding of the retrieved images and recommended keywords, and supports users in specifying multiple criteria for personalized exploration. Two usage scenarios, a user study, and expert interviews demonstrate the effectiveness and usability of our system, suggesting it facilitates prompt engineering and improves the creativity support of the generative text-to-image model.
翻訳日:2023-08-16 16:08:28 公開日:2023-08-15
# 非拘束画像からの新規ビュー合成のためのクロスレイトニューラルラジアンス場

Cross-Ray Neural Radiance Fields for Novel-view Synthesis from Unconstrained Image Collections ( http://arxiv.org/abs/2307.08093v2 )

ライセンス: Link先を確認
Yifan Yang and Shuhai Zhang and Zixiong Huang and Yubing Zhang and Mingkui Tan(参考訳) NeRF(Neural Radiance Fields)は、1ピクセルあたりの1光線をサンプリングすることでシーンを描画する革命的なアプローチであり、静的なシーン画像から新規ビューの合成機能を示す。 しかし、実際には、通常、制約のないイメージコレクションからNeRFを回復する必要があります。 1)撮影時間とカメラ設定が異なるため、画像の外観が動的に変化することが多い。 2) 画像には,人間や車などの過渡的な物体が含まれ,閉塞やゴースト的アーティファクトにつながる可能性がある。 従来のアプローチでは、1つの光線を局所的に利用してピクセルの色を合成することでこれらの課題に対処しようとする。 対照的に、人間は通常、複数のピクセルにまたがる情報をグローバルに活用して外観や物体を知覚する。 本稿では,人間の知覚過程を模倣するために,複数の光線にまたがるインタラクティブな情報を利用して,画像と同じ外観のオクルージョンフリーな新規ビューを合成するクロスレイネフ(cr-nerf)を提案する。 具体的には、まず、新しいクロスレイ特徴を持つ複数の光線を表現し、次に、大域的な統計、すなわち、光線の特徴の共分散と画像の出現を融合して、その外観を復元することを提案する。 さらに,過渡オブジェクトによる閉塞を回避するために,過渡オブジェクトハンドラを提案し,過渡オブジェクトをマスキングするグリッドサンプリング戦略を提案する。 理論的には、複数の光線にまたがる相関の活用は、よりグローバルな情報収集を促進する。 さらに,cr-nerfの有効性を大規模実世界のデータセットで検証した。

Neural Radiance Fields (NeRF) is a revolutionary approach for rendering scenes by sampling a single ray per pixel and it has demonstrated impressive capabilities in novel-view synthesis from static scene images. However, in practice, we usually need to recover NeRF from unconstrained image collections, which poses two challenges: 1) the images often have dynamic changes in appearance because of different capturing time and camera settings; 2) the images may contain transient objects such as humans and cars, leading to occlusion and ghosting artifacts. Conventional approaches seek to address these challenges by locally utilizing a single ray to synthesize a color of a pixel. In contrast, humans typically perceive appearance and objects by globally utilizing information across multiple pixels. To mimic the perception process of humans, in this paper, we propose Cross-Ray NeRF (CR-NeRF) that leverages interactive information across multiple rays to synthesize occlusion-free novel views with the same appearances as the images. Specifically, to model varying appearances, we first propose to represent multiple rays with a novel cross-ray feature and then recover the appearance by fusing global statistics, i.e., feature covariance of the rays and the image appearance. Moreover, to avoid occlusion introduced by transient objects, we propose a transient objects handler and introduce a grid sampling strategy for masking out the transient objects. We theoretically find that leveraging correlation across multiple rays promotes capturing more global information. Moreover, extensive experimental results on large real-world datasets verify the effectiveness of CR-NeRF.
翻訳日:2023-08-16 16:08:06 公開日:2023-08-15
# 自動繊維配置における異常検出:データ制限による学習

Anomaly Detection in Automated Fibre Placement: Learning with Data Limitations ( http://arxiv.org/abs/2307.07893v2 )

ライセンス: Link先を確認
Assef Ghamisi, Todd Charter, Li Ji, Maxime Rivard, Gil Lund, Homayoun Najjaran(参考訳) 自動繊維配置(AFP)における従来の欠陥検出システムは、通常はエンドツーエンドの教師付き学習に依存しており、効果的なトレーニングのためにかなりの数のラベル付き欠陥サンプルを必要とする。 しかし、そのようなラベル付きデータの不足は課題となる。 この制限を克服するため,自動繊維配置における欠陥検出と局所化のための包括的枠組みを提案する。 我々の手法は教師なしのディープラーニングと古典的なコンピュータビジョンアルゴリズムを組み合わせることで、ラベル付きデータや欠陥サンプルの製造の必要性を解消する。 トレーニングのために複合部品のイメージを少なくしながら、様々な表面課題を効率的に検出する。 本フレームワークは,AFP固有の対称性を活用してデータセットを拡張する,革新的なサンプル抽出手法である。 繊維レイアップ面の深度マップを入力し,各コンポジットストリップ(トウ)に整列した局所試料を抽出する。 これらのサンプルはオートエンコーダを通じて処理され、正常なサンプルに基づいて正確な再構成を行い、再構成エラーによって異常をハイライトする。 集約された値は、洞察力のある可視化のための異常マップを形成する。 このフレームワークは、このマップでブロブ検出を使用して、製造欠陥を見つける。 実験の結果,画像数が少ないオートエンコーダを訓練しても,良好な検出精度を示し,欠陥箇所を正確に同定できることがわかった。 我々のフレームワークは既存のメソッドに匹敵するパフォーマンスを示し、欠陥の広範なラベル付きデータセットに頼ることなく、あらゆるタイプの異常を検出する利点を提供します。

Conventional defect detection systems in Automated Fibre Placement (AFP) typically rely on end-to-end supervised learning, necessitating a substantial number of labelled defective samples for effective training. However, the scarcity of such labelled data poses a challenge. To overcome this limitation, we present a comprehensive framework for defect detection and localization in Automated Fibre Placement. Our approach combines unsupervised deep learning and classical computer vision algorithms, eliminating the need for labelled data or manufacturing defect samples. It efficiently detects various surface issues while requiring fewer images of composite parts for training. Our framework employs an innovative sample extraction method leveraging AFP's inherent symmetry to expand the dataset. By inputting a depth map of the fibre layup surface, we extract local samples aligned with each composite strip (tow). These samples are processed through an autoencoder, trained on normal samples for precise reconstructions, highlighting anomalies through reconstruction errors. Aggregated values form an anomaly map for insightful visualization. The framework employs blob detection on this map to locate manufacturing defects. The experimental findings reveal that despite training the autoencoder with a limited number of images, our proposed method exhibits satisfactory detection accuracy and accurately identifies defect locations. Our framework demonstrates comparable performance to existing methods, while also offering the advantage of detecting all types of anomalies without relying on an extensive labelled dataset of defects.
翻訳日:2023-08-16 16:07:39 公開日:2023-08-15
# exposurediffusion:低光度画像強調のための露光学習

ExposureDiffusion: Learning to Expose for Low-light Image Enhancement ( http://arxiv.org/abs/2307.07710v2 )

ライセンス: Link先を確認
Yufei Wang, Yi Yu, Wenhan Yang, Lanqing Guo, Lap-Pui Chau, Alex C. Kot, Bihan Wen(参考訳) 以前の生画像に基づく低照度画像強調手法は、主にフィードフォワードニューラルネットワークに頼り、低照度から通常露光画像への決定論的マッピングを学習した。 しかし、彼らは重要な分布情報の取得に失敗し、視覚的に望ましくない結果をもたらした。 本研究は拡散モデルと物理系露出モデルとをシームレスに統合することでこの問題に対処した。 ガウス音を発生させるバニラ拡散モデルと異なり, 物理系露出モデルでは, 純粋な雑音ではなく, ノイズ画像から直接復元を行うことができる。 そこで本手法は,バニラ拡散モデルと比較して性能と推論時間を大幅に改善する。 異なる中間段階の利点をフル活用するために, 中間結果が既に十分に提示されている場合に, 繰り返し改良の副作用を効果的に除去する適応残留層を提案する。 提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。 提案するフレームワークは、実際のペア付きデータセット、実/合成ノイズモデル、異なるバックボーンネットワークと互換性がある。 提案手法は,様々な公開ベンチマークで評価し,異なる露光モデルとバックボーンを用いて一貫した改善を行い,有望な結果を得た。 また,提案手法は,パラメータの少ない大きなフィードフォワードニューラルモデルよりも,アンセンシング増幅率の一般化能力と優れた性能を実現する。

Previous raw image-based low-light image enhancement methods predominantly relied on feed-forward neural networks to learn deterministic mappings from low-light to normally-exposed images. However, they failed to capture critical distribution information, leading to visually undesirable results. This work addresses the issue by seamlessly integrating a diffusion model with a physics-based exposure model. Different from a vanilla diffusion model that has to perform Gaussian denoising, with the injected physics-based exposure model, our restoration process can directly start from a noisy image instead of pure noise. As such, our method obtains significantly improved performance and reduced inference time compared with vanilla diffusion models. To make full use of the advantages of different intermediate steps, we further propose an adaptive residual layer that effectively screens out the side-effect in the iterative refinement when the intermediate results have been already well-exposed. The proposed framework can work with both real-paired datasets, SOTA noise models, and different backbone networks. Note that, the proposed framework is compatible with real-paired datasets, real/synthetic noise models, and different backbone networks. We evaluate the proposed method on various public benchmarks, achieving promising results with consistent improvements using different exposure models and backbones. Besides, the proposed method achieves better generalization capacity for unseen amplifying ratios and better performance than a larger feedforward neural model when few parameters are adopted.
翻訳日:2023-08-16 16:07:16 公開日:2023-08-15
# Quantum Image Denoising: Boltzmann Machines、QUBO、Quantum Annealingによるフレームワーク

Quantum Image Denoising: A Framework via Boltzmann Machines, QUBO, and Quantum Annealing ( http://arxiv.org/abs/2307.06542v2 )

ライセンス: Link先を確認
Phillip Kerger and Ryoji Miyazaki(参考訳) 本稿では,二次的非拘束型二分最適化(qubo)形式におけるデノジング目標を導入する制限ボルツマンマシン(rbms)による二分画像デノジングの枠組みについて検討し,量子アニーリングによく適合する。 訓練されたRBMが学習した分布と、ノイズ画像から導出するペナルティ項とのバランスをとることにより、妄想目的を達成する。 対象分布が十分近似されていると仮定したペナルティパラメータの統計的最適選択を導出し、さらにその理想主義的な仮定にロバストな方法を実現するために経験的に支援された修正を提案する。 また,本手法により得られた復号化画像は,ノイズのない画像よりもノイズのない画像に近いことが期待される。 モデルをイメージ記述モデルとしてフレーム化するが、任意のバイナリデータに適用できる。 量子アニーラの実装にはQUBOの定式化が適しているため、D-Waveアドバンテージマシン上でモデルをテストし、古典的ヒューリスティックによりQUBOの解を近似することで、現在の量子アニーラには大きすぎるデータをテストする。

We investigate a framework for binary image denoising via restricted Boltzmann machines (RBMs) that introduces a denoising objective in quadratic unconstrained binary optimization (QUBO) form and is well-suited for quantum annealing. The denoising objective is attained by balancing the distribution learned by a trained RBM with a penalty term for derivations from the noisy image. We derive the statistically optimal choice of the penalty parameter assuming the target distribution has been well-approximated, and further suggest an empirically supported modification to make the method robust to that idealistic assumption. We also show under additional assumptions that the denoised images attained by our method are, in expectation, strictly closer to the noise-free images than the noisy images are. While we frame the model as an image denoising model, it can be applied to any binary data. As the QUBO formulation is well-suited for implementation on quantum annealers, we test the model on a D-Wave Advantage machine, and also test on data too large for current quantum annealers by approximating QUBO solutions through classical heuristics.
翻訳日:2023-08-16 16:06:50 公開日:2023-08-15
# Stack More Layers:低ランク更新によるハイランクトレーニング

Stack More Layers Differently: High-Rank Training Through Low-Rank Updates ( http://arxiv.org/abs/2307.05695v3 )

ライセンス: Link先を確認
Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky(参考訳) スケールの優位性と有効性にもかかわらず、数十億のパラメータを持つ大規模なネットワークは、過度にパラメータ化されたモデルをトレーニングする必要性を十分に理解しておらず、代替アプローチは必ずしも高性能モデルのトレーニングを安くするとは限らない。 本稿では,大規模ニューラルネットワークのトレーニングのための代替手法として,低ランクトレーニング手法を検討する。 高速ネットワークのトレーニングに低ランク更新を利用するReLoRAという新しい手法を提案する。 最大350mのパラメータを持つプレトレーニングトランス言語モデルにreloraを適用し,通常のニューラルネットワークトレーニングと同等の性能を示す。 さらに,ReLoRAの効率はモデルサイズとともに向上し,マルチビリオンパラメータネットワークを効率的にトレーニングする上で有望なアプローチとなる。 その結果,低ランクトレーニング技術の可能性と,その拡張法への影響が明らかになった。

Despite the dominance and effectiveness of scaling, resulting in large networks with hundreds of billions of parameters, the necessity to train overparametrized models remains poorly understood, and alternative approaches do not necessarily make it cheaper to train high-performance models. In this paper, we explore low-rank training techniques as an alternative approach to training large neural networks. We introduce a novel method called ReLoRA, which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to pre-training transformer language models with up to 350M parameters and demonstrate comparable performance to regular neural network training. Furthermore, we observe that the efficiency of ReLoRA increases with model size, making it a promising approach for training multi-billion-parameter networks efficiently. Our findings shed light on the potential of low-rank training techniques and their implications for scaling laws.
翻訳日:2023-08-16 16:06:24 公開日:2023-08-15
# CTP-Net:Document Image Forgery Localizationのための文字テクスチャ知覚ネットワーク

CTP-Net: Character Texture Perception Network for Document Image Forgery Localization ( http://arxiv.org/abs/2308.02158v2 )

ライセンス: Link先を確認
Xin Liao and Siliang Chen and Jiaxin Chen and Tianyi Wang and Xiehua Li(参考訳) 近年,情報技術の進歩により,文書画像はソーシャルネットワーク上で広く普及している。 強力な画像編集ツールの助けを借りて、ドキュメントイメージは目に見える操作トレースを残すことなく簡単に偽造され、悪意のある使用のために重要な情報が偽造された場合、深刻な問題を引き起こす。 したがって、文書画像鑑定の研究は、さらに探究する価値がある。 本稿では,文書画像中の偽領域をローカライズする文字テクスチャ知覚ネットワーク(CTP-Net)を提案する。 具体的には、文書画像のセマンティクスを持つ文字は非常に脆弱であるため、偽のトレースをキャプチャすることが、偽の領域をローカライズする鍵となる。 我々は,文字認識に基づく文字テクスチャストリーム(CTS)を設計し,文書画像の必須成分であるテキスト領域の特徴を捉える。 一方、文書画像全体のテクスチャ特徴は、画像テクスチャストリーム(ITS)によって活用される。 CTSとITSから抽出された特徴を組み合わせることで、CTP-Netは文書画像からより微妙な偽の痕跡を明らかにすることができる。 さらに,偽文書画像の欠如による課題を克服するために,Fake Chinese Trademark dataset(FCTM)の構築に使用されるデータ生成戦略を設計する。 異なるデータセット上での実験結果から,提案するctp-netは,文書画像中の複数スケールの偽造領域をローカライズでき,処理後の操作が適用された場合でも,最先端の偽造ローカライズ手法よりも優れることが示された。

Due to the progression of information technology in recent years, document images have been widely disseminated on social networks. With the help of powerful image editing tools, document images are easily forged without leaving visible manipulation traces, which leads to severe issues if significant information is falsified for malicious use. Therefore, the research of document image forensics is worth further exploring. In this paper, we propose a Character Texture Perception Network (CTP-Net) to localize the forged regions in document images. Specifically, considering the characters with semantics in a document image are highly vulnerable, capturing the forgery traces is the key to localize the forged regions. We design a Character Texture Stream (CTS) based on optical character recognition to capture features of text areas that are essential components of a document image. Meanwhile, texture features of the whole document image are exploited by an Image Texture Stream (ITS). Combining the features extracted from the CTS and the ITS, the CTP-Net can reveal more subtle forgery traces from document images. Moreover, to overcome the challenge caused by the lack of fake document images, we design a data generation strategy that is utilized to construct a Fake Chinese Trademark dataset (FCTM). Experimental results on different datasets demonstrate that the proposed CTP-Net is able to localize multi-scale forged areas in document images, and outperform the state-of-the-art forgery localization methods, even though post-processing operations are applied.
翻訳日:2023-08-16 16:01:00 公開日:2023-08-15
# LaFiCMIL: 関連性のある複数インスタンス学習の観点からの大規模ファイル分類の再考

LaFiCMIL: Rethinking Large File Classification from the Perspective of Correlated Multiple Instance Learning ( http://arxiv.org/abs/2308.01413v2 )

ライセンス: Link先を確認
Tiezhu Sun, Weiguo Pian, Nadia Daoudi, Kevin Allix, Tegawend\'e F. Bissyand\'e, Jacques Klein(参考訳) BERTのようなトランスフォーマーベースのモデルは様々な言語タスクに革命をもたらしたが、入力限界(例:512トークン)のために大きなファイル分類に苦戦している。 この制限を緩和しようとするいくつかの試みにもかかわらず、入力ファイルから部分的な必須情報のみを抽出できるため、ベンチマークデータセット全体で一貫して優れている方法はない。 さらに、異なるタイプの大きなファイルの様々な特性に適応できない。 本研究では,複数インスタンス学習の相関の観点から,この問題に対処する。 提案手法であるLaFiCMILは、自然言語処理、プログラミング言語処理、Android分析など、さまざまな領域にまたがる、バイナリ、マルチクラス、マルチラベルの分類タスクをカバーする様々な大規模なファイル分類タスクに適用可能なフレームワークである。 有効性を評価するために,Long Document Classification, Code Defect Detection, Android Malware Detectionの8つのベンチマークデータセットを用いた。 bertファミリーモデルを特徴抽出器として活用し,laficmilがすべてのベンチマークデータセットで新たな最先端性能を実現することを実証した。 これはBERTを最大20Kトークンまでスケールアップし、32Gのメモリを持つ単一のTesla V-100 GPUで動作する能力に起因する。

Transformer-based models, such as BERT, have revolutionized various language tasks, but still struggle with large file classification due to their input limit (e.g., 512 tokens). Despite several attempts to alleviate this limitation, no method consistently excels across all benchmark datasets, primarily because they can only extract partial essential information from the input file. Additionally, they fail to adapt to the varied properties of different types of large files. In this work, we tackle this problem from the perspective of correlated multiple instance learning. The proposed approach, LaFiCMIL, serves as a versatile framework applicable to various large file classification tasks covering binary, multi-class, and multi-label classification tasks, spanning various domains including Natural Language Processing, Programming Language Processing, and Android Analysis. To evaluate its effectiveness, we employ eight benchmark datasets pertaining to Long Document Classification, Code Defect Detection, and Android Malware Detection. Leveraging BERT-family models as feature extractors, our experimental results demonstrate that LaFiCMIL achieves new state-of-the-art performance across all benchmark datasets. This is largely attributable to its capability of scaling BERT up to nearly 20K tokens, running on a single Tesla V-100 GPU with 32G of memory.
翻訳日:2023-08-16 16:00:33 公開日:2023-08-15
# 有限要素問題における線形系の量子緩和法

Quantum Relaxation Method for Linear Systems in Finite Element Problems ( http://arxiv.org/abs/2308.01377v2 )

ライセンス: Link先を確認
Osama Muhammad Raisuddin, Suvranu De(参考訳) ゲートベースの量子コンピューティングのための量子線形系アルゴリズム(QLSA)は、方程式の線形系に対する指数的なスピードアップを提供することができる。 有限要素の離散化から生じる方程式系における問題サイズの条件数の増加は、高速化のためのqlsasの直接適用を阻害する。 さらにQLSAは、近似ソリューションや初期推測を使って改善されたソリューションを出力することはできない。 本稿では,線形定常反復をより大きなブロック線形系に埋め込み,ゲート型量子コンピュータの反復的アプローチとして,線形系の量子緩和(qrls)を提案する。 ブロック線形系は正定値であり、その条件数は元の系のサイズや条件数に依存しない反復数と線形にスケールし、有限要素問題の条件番号を効果的に管理する。 このシステムは、QLSAの最先端量子信号処理(QSP)変種を用いて、有限要素問題の実用的な反復解を可能にする。 正定値QLSAs l の繰り返しは O(\sqrt{l}) 時間で実行でき、これは古典的なコンピュータでは達成できない。 反復の複雑さは、o(\log(n)) qubitsとシステムサイズによらず、解時間スケーリングが量子ハードウェア上の反復有限要素解の新しいパラダイムを開く指数関数的改善であるために、古典的なアーキテクチャと比べて好適にスケールする。

Quantum linear system algorithms (QLSAs) for gate-based quantum computing can provide exponential speedups for linear systems of equations. The growth of the condition number with problem size for a system of equations arising from a finite element discretization inhibits the direct application of QLSAs for a speedup. Furthermore, QLSAs cannot use an approximate solution or initial guess to output an improved solution. Here, we present Quantum Relaxation for Linear System (qRLS), as an iterative approach for gate-based quantum computers by embedding linear stationary iterations into a larger block linear system. The block linear system is positive-definite and its condition number scales linearly with the number of iterations independent of the size and condition number of the original system, effectively managing the condition number of the finite element problem. The well-conditioned system enables a practical iterative solution of finite element problems using the state-of-the-art Quantum Signal Processing (QSP) variant of QLSAs. Using positive-definite QLSAs l iterations can be performed in O(\sqrt{l}) time, which is unattainable on classical computers. The complexity of the iterations scales favorably compared to classical architectures due to solution time scaling independent of system size with O(\log(N)) qubits, an exponential improvement opening a new paradigm for iterative finite element solutions on quantum hardware.
翻訳日:2023-08-16 16:00:08 公開日:2023-08-15
# tirtha - 画像のクラウドソースと遺産の3dモデル作成のための自動化プラットフォーム

Tirtha -- An Automated Platform to Crowdsource Images and Create 3D Models of Heritage Sites ( http://arxiv.org/abs/2308.01246v2 )

ライセンス: Link先を確認
Jyotirmaya Shivottam and Subhankar Mishra(参考訳) 文化遺産(ch)のデジタル保存は、自然災害や人間の活動による被害から保護するために重要である。 CHサイトの3Dモデルの作成は、コンピュータビジョンとフォトグラムメトリーの進歩により、デジタル保存の一般的な方法となっている。 しかし、このプロセスは時間がかかり、高価であり、通常は特別な設備と専門知識を必要とし、資源に制限された発展途上国で課題を提起する。 さらに、3Dモデルのためのオープンリポジトリがないことは、研究と彼らの遺産への公的な関与を妨げる。 そこで我々は,chサイトの画像をクラウドソーシングして3dモデルを作成するためのwebプラットフォームであるtirthaを提案する。 Tirthaは最先端のStructure from Motion (SfM)とMulti-View Stereo (MVS)技術を利用している。 モジュラーで拡張可能で費用対効果があり、フォトグラメトリーの進歩に伴って新しい技術が取り入れられる。 Tirthaはhttps://tirtha.niser.ac.inのWebインターフェースを通じてアクセスでき、オンプレミスでもクラウド環境でもデプロイできる。 本研究では,インド,オディーシャの寺院の3dモデルを作成し,クラウドソーシング画像を用いてパイプラインの有効性を実証する。 これらのモデルは、tirthaのウェブサイトで閲覧、対話、ダウンロードが可能である。 本研究の目的は,コンピュータビジョン,遺産保存,関連ドメイン研究のためのクラウドソース画像と3D再構成のデータセットを提供することである。 全体として、Tirthaは、主に資源に制限された発展途上国で、デジタル保存の民主化に向けた一歩だ。

Digital preservation of Cultural Heritage (CH) sites is crucial to protect them against damage from natural disasters or human activities. Creating 3D models of CH sites has become a popular method of digital preservation thanks to advancements in computer vision and photogrammetry. However, the process is time-consuming, expensive, and typically requires specialized equipment and expertise, posing challenges in resource-limited developing countries. Additionally, the lack of an open repository for 3D models hinders research and public engagement with their heritage. To address these issues, we propose Tirtha, a web platform for crowdsourcing images of CH sites and creating their 3D models. Tirtha utilizes state-of-the-art Structure from Motion (SfM) and Multi-View Stereo (MVS) techniques. It is modular, extensible and cost-effective, allowing for the incorporation of new techniques as photogrammetry advances. Tirtha is accessible through a web interface at https://tirtha.niser.ac.in and can be deployed on-premise or in a cloud environment. In our case studies, we demonstrate the pipeline's effectiveness by creating 3D models of temples in Odisha, India, using crowdsourced images. These models are available for viewing, interaction, and download on the Tirtha website. Our work aims to provide a dataset of crowdsourced images and 3D reconstructions for research in computer vision, heritage conservation, and related domains. Overall, Tirtha is a step towards democratizing digital preservation, primarily in resource-limited developing countries.
翻訳日:2023-08-16 15:59:44 公開日:2023-08-15
# 医用画像における不確かさ定量化のための潜在密度セグメンテーションモデルの検討と改善

Investigating and Improving Latent Density Segmentation Models for Aleatoric Uncertainty Quantification in Medical Imaging ( http://arxiv.org/abs/2307.16694v2 )

ライセンス: Link先を確認
M. M. Amaan Valiuddin, Christiaan G. A. Viviers, Ruud J. G. van Sloun, Peter H. N. de With, and Fons van der Sommen(参考訳) センサノイズやオクルージョンのようなデータの不確実性は、画像に既約曖昧性を導入し、その結果、様々な、しかしもっとも妥当なセマンティック仮説をもたらす。 機械学習では、この曖昧さは一般にアレタリック不確実性と呼ばれる。 潜在密度モデルは、画像分割におけるこの問題に対処するために利用できる。 最も一般的なアプローチは確率的u-net(pu-net)で、潜在正規密度を使って条件付きデータログライクな証拠を低限界に最適化する。 本研究ではPU-Net潜伏空間が極めて不均質であることを示す。 その結果, 勾配降下の有効性が抑制され, 潜在空間試料の局在に極めて敏感となり, 予測の欠陥が生じる。 そこで本研究では,Sinkhorn PU-Net (SPU-Net) を提案する。Sinkhorn Divergence を用いて,すべての潜伏次元の均一性を向上し,勾配の更新とモデルロバストネスを効果的に向上する。 以上の結果から,SPU-Netは,様々な臨床セグメント化問題の公開データセットにこれを適用することで,ハンガリー・マーチ計量の確率的セグメンテーションに先行する潜在変数モデルと比較して,最大11%の性能向上を達成できた。 その結果,均質な潜在空間を奨励することで,医用画像分割の潜在密度モデリングを著しく改善できることが示唆された。

Data uncertainties, such as sensor noise or occlusions, can introduce irreducible ambiguities in images, which result in varying, yet plausible, semantic hypotheses. In Machine Learning, this ambiguity is commonly referred to as aleatoric uncertainty. Latent density models can be utilized to address this problem in image segmentation. The most popular approach is the Probabilistic U-Net (PU-Net), which uses latent Normal densities to optimize the conditional data log-likelihood Evidence Lower Bound. In this work, we demonstrate that the PU- Net latent space is severely inhomogenous. As a result, the effectiveness of gradient descent is inhibited and the model becomes extremely sensitive to the localization of the latent space samples, resulting in defective predictions. To address this, we present the Sinkhorn PU-Net (SPU-Net), which uses the Sinkhorn Divergence to promote homogeneity across all latent dimensions, effectively improving gradient-descent updates and model robustness. Our results show that by applying this on public datasets of various clinical segmentation problems, the SPU-Net receives up to 11% performance gains compared against preceding latent variable models for probabilistic segmentation on the Hungarian-Matched metric. The results indicate that by encouraging a homogeneous latent space, one can significantly improve latent density modeling for medical image segmentation.
翻訳日:2023-08-16 15:58:57 公開日:2023-08-15
# samflow: segment anythingモデルによる光フローのフラグメンテーションの排除

SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment Anything Model ( http://arxiv.org/abs/2307.16586v2 )

ライセンス: Link先を確認
Shili Zhou, Ruian He, Weimin Tan and Bo Yan(参考訳) 光フロー推定は、2つのフレーム間の2次元密度運動場を求めることを目的としている。 モデル構造とトレーニングデータセットの制限のため、既存の手法はしばしば局所的な手がかりに頼りすぎ、オブジェクトの整合性を無視し、断片化された動き推定をもたらす。 理論解析により,事前学習された大視野モデルが光フロー推定に有用であることを見出し,最近有名になったsegment anything model (sam) が,フラグメンテーション問題を解決するのに適した完全物体を分割する強力な能力を示していることに気付いた。 そこで我々は,凍結したSAMイメージエンコーダをFlowFormerに埋め込んでオブジェクト認識を強化する方法を提案する。 本稿では,光フロー推定などの非セグメント化タスクにおいてSAMを奥行き利用することの課題に対処するため,光フローコンテキストエンコーダとSAMエンコーダを融合するContext Fusion Moduleと,光フロータスクのSAM特徴をLearted Task-Specific Embeddingで適応させるContext Adaption Moduleを含む光フロータスク特化適応スキームを提案する。 提案したSAMFlowモデルは,SintelおよびKITTI-15トレーニングセットで0.86/2.10クリーン/ファイナルEPEと3.55/12.32EPE/F1-allに達し,Flowformerの8.5%/9.9%,13.2%/16.3%を上回った。 さらに,本モデルでは,Sintel と KITTI-15 ベンチマークの最先端性能を達成し,Sintel のクリーンパスにおける2フレーム手法の上位にランクインした。

Optical Flow Estimation aims to find the 2D dense motion field between two frames. Due to the limitation of model structures and training datasets, existing methods often rely too much on local clues and ignore the integrity of objects, resulting in fragmented motion estimation. Through theoretical analysis, we find the pre-trained large vision models are helpful in optical flow estimation, and we notice that the recently famous Segment Anything Model (SAM) demonstrates a strong ability to segment complete objects, which is suitable for solving the fragmentation problem. We thus propose a solution to embed the frozen SAM image encoder into FlowFormer to enhance object perception. To address the challenge of in-depth utilizing SAM in non-segmentation tasks like optical flow estimation, we propose an Optical Flow Task-Specific Adaption scheme, including a Context Fusion Module to fuse the SAM encoder with the optical flow context encoder, and a Context Adaption Module to adapt the SAM features for optical flow task with Learned Task-Specific Embedding. Our proposed SAMFlow model reaches 0.86/2.10 clean/final EPE and 3.55/12.32 EPE/F1-all on Sintel and KITTI-15 training set, surpassing Flowformer by 8.5%/9.9% and 13.2%/16.3%. Furthermore, our model achieves state-of-the-art performance on the Sintel and KITTI-15 benchmarks, ranking #1 among all two-frame methods on Sintel clean pass.
翻訳日:2023-08-16 15:58:30 公開日:2023-08-15
# XMem++: 注釈付きフレームからのプロダクションレベルのビデオセグメンテーション

XMem++: Production-level Video Segmentation From Few Annotated Frames ( http://arxiv.org/abs/2307.15958v2 )

ライセンス: Link先を確認
Maksym Bekuzarov, Ariana Bermudez, Joon-Young Lee, Hao Li(参考訳) ユーザ誘導ビデオセグメンテーションの進歩にもかかわらず、高度に複雑なシーンを一貫して抽出することは、特に生産において労働集約的な作業である。 フレームの大多数が注釈を付ける必要があることは珍しくない。 本稿では,既存のメモリベースモデルを改善する,新しい半教師付きビデオオブジェクトセグメンテーション(SSVOS)モデルであるXMem++を提案する。 既存の手法の多くは単一フレームアノテーションに焦点をあてるが,本手法では同一オブジェクトや領域の外観が異なる複数のユーザ選択フレームを効果的に扱うことができる。 本手法はフレームアノテーションの必要な数を低く保ちつつ,一貫性の高い結果を抽出することができる。 さらに,アノテーションの次の最適なフレームを計算する,反復的かつ注意に基づくフレーム提案機構を導入する。 提案手法はリアルタイムであり,各ユーザの入力後の再学習を必要としない。 また、新しいデータセットであるpumavosも導入しています。 我々は,既存の手法よりもフレームアノテーションを著しく少なくしながら,難易度(部分的・複数クラス)のセグメンテーションシナリオと長ビデオ上でのSOTA性能を実証する。 プロジェクトページ: https://max810.github.io/xmem2-project-page/

Despite advancements in user-guided video segmentation, extracting complex objects consistently for highly complex scenes is still a labor-intensive task, especially for production. It is not uncommon that a majority of frames need to be annotated. We introduce a novel semi-supervised video object segmentation (SSVOS) model, XMem++, that improves existing memory-based models, with a permanent memory module. Most existing methods focus on single frame annotations, while our approach can effectively handle multiple user-selected frames with varying appearances of the same object or region. Our method can extract highly consistent results while keeping the required number of frame annotations low. We further introduce an iterative and attention-based frame suggestion mechanism, which computes the next best frame for annotation. Our method is real-time and does not require retraining after each user input. We also introduce a new dataset, PUMaVOS, which covers new challenging use cases not found in previous benchmarks. We demonstrate SOTA performance on challenging (partial and multi-class) segmentation scenarios as well as long videos, while ensuring significantly fewer frame annotations than any existing method. Project page: https://max810.github.io/xmem2-project-page/
翻訳日:2023-08-16 15:57:55 公開日:2023-08-15
# 実データ生成による教師付きホログラフィ学習

Supervised Homography Learning with Realistic Dataset Generation ( http://arxiv.org/abs/2307.15353v2 )

ライセンス: Link先を確認
Hai Jiang, Haipeng Li, Songchen Han, Haoqiang Fan, Bing Zeng, Shuaicheng Liu(参考訳) 本稿では,生成フェーズとトレーニングフェーズという2つのフェーズからなる反復的なフレームワークを提案し,現実的なトレーニングデータを生成し,教師付きホモグラフィネットワークを生成する。 生成段階では、ラベルなしのイメージペアが与えられたとき、事前に見積もられた支配的平面マスクとペアのホモグラフィと、新たなラベル付きトレーニングペアをリアルな動きで生成するために基底真理として機能する別のサンプル化されたホモグラフィを利用する。 トレーニングフェーズでは、生成されたデータは、コンテンツ一貫性モジュールと品質評価モジュールを介してトレーニングデータを洗練した教師付きホモグラフィネットワークのトレーニングに使用される。 イテレーションが完了すると、トレーニングされたネットワークは、事前に見積もられたホモグラフィを更新するために、次のデータ生成フェーズで使用される。 このような反復戦略により、データセットの品質とネットワークの性能を徐々に同時に改善することができる。 実験の結果,本手法は最先端の性能を実現し,生成したデータセットに基づいて既存の教師あり手法も改善できることがわかった。 コードとデータセットはhttps://github.com/JianghaiSCU/RealSHで入手できる。

In this paper, we propose an iterative framework, which consists of two phases: a generation phase and a training phase, to generate realistic training data and yield a supervised homography network. In the generation phase, given an unlabeled image pair, we utilize the pre-estimated dominant plane masks and homography of the pair, along with another sampled homography that serves as ground truth to generate a new labeled training pair with realistic motion. In the training phase, the generated data is used to train the supervised homography network, in which the training data is refined via a content consistency module and a quality assessment module. Once an iteration is finished, the trained network is used in the next data generation phase to update the pre-estimated homography. Through such an iterative strategy, the quality of the dataset and the performance of the network can be gradually and simultaneously improved. Experimental results show that our method achieves state-of-the-art performance and existing supervised methods can be also improved based on the generated dataset. Code and dataset are available at https://github.com/JianghaiSCU/RealSH.
翻訳日:2023-08-16 15:57:34 公開日:2023-08-15
# DIG In:地理多様性指標を用いた画像生成の差異評価

DIG In: Evaluating Disparities in Image Generations with Indicators for Geographic Diversity ( http://arxiv.org/abs/2308.06198v2 )

ライセンス: Link先を確認
Melissa Hall, Candace Ross, Adina Williams, Nicolas Carion, Michal Drozdzal, Adriana Romero Soriano(参考訳) 最近のテキストから画像への生成システムによって達成された前例のないフォトリアリスティックな結果と、プラグイン・アンド・プレイによるコンテンツ作成ソリューションとしての利用の増加は、彼らの潜在的なバイアスを理解するのに不可欠である。 本研究では,世界からオブジェクトを生成するように促されたテキスト・ツー・イメージ生成システムの現実性,多様性,迅速な生成一貫性を評価するための3つの指標を提案する。 我々の指標は、地理的格差の自動的かつ効率的なベンチマークを可能にすることで、これらのシステムの広範な影響の質的分析を補完する。 提案した指標を用いて,現在最先端のビジュアルコンテンツ生成システムにおける潜在的な地理的バイアスを分析し,(1) モデルがアフリカや西アジアに向けて欧州よりも現実性や世代多様性が低いこと,(2) 地理的情報によって生成した画像の一貫性と多様性の促進にコストがかかること,(3) モデルが他のオブジェクトよりも領域レベルの格差が大きいこと,などを見出した。 おそらく最も興味深いのは、画像生成品質の進歩は、現実世界の地理的表現のコストがかかることを示唆している。 包括的評価は、視覚コンテンツ制作のポジティブな体験を確保するための重要なステップである。

The unprecedented photorealistic results achieved by recent text-to-image generative systems and their increasing use as plug-and-play content creation solutions make it crucial to understand their potential biases. In this work, we introduce three indicators to evaluate the realism, diversity and prompt-generation consistency of text-to-image generative systems when prompted to generate objects from across the world. Our indicators complement qualitative analysis of the broader impact of such systems by enabling automatic and efficient benchmarking of geographic disparities, an important step towards building responsible visual content creation systems. We use our proposed indicators to analyze potential geographic biases in state-of-the-art visual content creation systems and find that: (1) models have less realism and diversity of generations when prompting for Africa and West Asia than Europe, (2) prompting with geographic information comes at a cost to prompt-consistency and diversity of generated images, and (3) models exhibit more region-level disparities for some objects than others. Perhaps most interestingly, our indicators suggest that progress in image generation quality has come at the cost of real-world geographic representation. Our comprehensive evaluation constitutes a crucial step towards ensuring a positive experience of visual content creation for everyone.
翻訳日:2023-08-16 15:49:40 公開日:2023-08-15
# RIGID: GANインバージョンとリアルフェイスビデオの編集を繰り返す

RIGID: Recurrent GAN Inversion and Editing of Real Face Videos ( http://arxiv.org/abs/2308.06097v2 )

ライセンス: Link先を確認
Yangyang Xu, Shengfeng He, Kwan-Yee K. Wong, Ping Luo(参考訳) GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。 しかし、ビデオフレームを個別に反転させる既存の手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。 本稿では,実映像の時間的コヒーレントなganインバージョンと顔編集を明示的かつ同時に実施するための統一的リカレントフレームワーク, \textbf{r}ecurrent v\textbf{i}deo \textbf{g}an \textbf{i}nversionおよびe\textbf{d}iting(rigid)を提案する。 提案手法は,現在フレームと前フレームの時間関係を3つの側面からモデル化する。 忠実な実映像再構成を実現するため,まず時間補償潜時符号を学習し,逆の忠実度と一貫性を最大化する。 第2に,潜時空間から分離できる高周波領域に非一貫性雑音が存在することを観測する。 第3に,属性操作後に不整合を取り除くために,任意のフレームが隣接するフレームの直接合成でなければならないようなフレーム構成制約を提案する。 統一されたフレームワークは、入力フレーム間の固有の一貫性をエンドツーエンドで学習するので、特定の属性に依存せず、再トレーニングすることなく同じビデオの任意の編集に適用することができる。 大規模な実験により、RIGIDはインバージョンタスクと編集タスクの両方において、定性的かつ定量的に最先端の手法より優れていることが示された。 成果物は \url{https://cnnlstm.github.io/RIGID} で確認できる。

GAN inversion is indispensable for applying the powerful editability of GAN to real images. However, existing methods invert video frames individually often leading to undesired inconsistent results over time. In this paper, we propose a unified recurrent framework, named \textbf{R}ecurrent v\textbf{I}deo \textbf{G}AN \textbf{I}nversion and e\textbf{D}iting (RIGID), to explicitly and simultaneously enforce temporally coherent GAN inversion and facial editing of real videos. Our approach models the temporal relations between current and previous frames from three aspects. To enable a faithful real video reconstruction, we first maximize the inversion fidelity and consistency by learning a temporal compensated latent code. Second, we observe incoherent noises lie in the high-frequency domain that can be disentangled from the latent space. Third, to remove the inconsistency after attribute manipulation, we propose an \textit{in-between frame composition constraint} such that the arbitrary frame must be a direct composite of its neighboring frames. Our unified framework learns the inherent coherence between input frames in an end-to-end manner, and therefore it is agnostic to a specific attribute and can be applied to arbitrary editing of the same video without re-training. Extensive experiments demonstrate that RIGID outperforms state-of-the-art methods qualitatively and quantitatively in both inversion and editing tasks. The deliverables can be found in \url{https://cnnlstm.github.io/RIGID}
翻訳日:2023-08-16 15:49:15 公開日:2023-08-15
# 真空分岐、ダークエネルギー、ダークマター

Vacuum Branching, Dark Energy, Dark Matter ( http://arxiv.org/abs/2308.05569v3 )

ライセンス: Link先を確認
Don Weingarten(参考訳) エヴェレット・デウィットによる量子力学の多世界解釈から始まり、量子系の状態ベクトルが任意の瞬間に直交枝に分裂し、それぞれがほぼ古典的な振る舞いを示すという一連の提案がなされた。 本研究の初期のバージョンでは,分枝分解における分枝の平均二乗量子複雑性の測定値の最小値を求めることで,状態ベクトルの分枝への分解を提案した。 特定のローレンツフレームに関して、低複雑性状態から始まるシステムに対して、分岐は、各分岐が次々に分裂してさらにサブブランチに繰り返し発生し、その分岐に続く実世界がボルン規則に従って選択される。 あるいは、明示ロレンツ共変定式化において、実世界は漸近的に遅い時間に枝の集合から単一のランダムなドローであり、後期選択によって暗示される分岐事象の集合を順次再現することで、特定のロレンツフレームにおいて有限時間に復元することができる。 本稿では、ミンコフスキー空間の格子上の時空ゲージにおける量子電磁力学への以前の定式化を適応する。 しかし、初期のバージョンは、物理真空に基づく複雑性の定義を、素真空に基づく定義に置き換えることによって単純化されている。 この交換の結果、物理的真空自体が分岐し、非分岐真空よりもわずかに大きなエネルギー密度を持つ分枝が生じると予測される。 真空エネルギー再正規化定数が通常通り選択され、無分岐真空に0エネルギー密度を与えると、真空分枝はダークエネルギーとダークマター密度の組み合わせを持つように見えるが、追加の粒子含有量は持たない。

Beginning with the Everett-DeWitt many-worlds interpretation of quantum mechanics, there have been a series of proposals for how the state vector of a quantum system might split at any instant into orthogonal branches, each of which exhibits approximately classical behavior. In an earlier version of the present work, we proposed a decomposition of a state vector into branches by finding the minimum of a measure of the mean squared quantum complexity of the branches in the branch decomposition. With respect to a particular Lorentz frame, for a system beginning in a state of low complexity, branching occurs repeatedly over time with each branch splitting successively into further sub-branches among which the branch followed by the real world is chosen according to the Born rule. Alternatively, in an explicitly Lorentz covariant formulation, the real world is a single random draw from the set of branches at asymptotically late time, which can then be restored to finite time in a particular Lorentz frame by sequentially retracing the set of branching events implied by the late time choice. In the present article, we adapt the earlier formulation to quantum electrodynamics in temporal gauge on a lattice in Minkowski space. The earlier version, however, here is simplified by replacing a definition of complexity based on the physical vacuum with a definition based on the bare vacuum. As a consequence of this replacement, the physical vacuum itself is predicted to branch yielding branches with energy densities slightly larger than that of the unbranched vacuum. If the vacuum energy renormalization constant is chosen as usual to give 0 energy density to the unbranched vacuum, vacuum branches will appear to have a combination of dark energy and dark matter densities but no additional particle content.
翻訳日:2023-08-16 15:48:17 公開日:2023-08-15
# メタファー検出のためのディープラーニングに基づく知識注入:包括的レビュー

Deep Learning-Based Knowledge Injection for Metaphor Detection: A Comprehensive Review ( http://arxiv.org/abs/2308.04306v2 )

ライセンス: Link先を確認
Cheng Yang, Wenye Zhao, Zhiyue Liu, Qingbao Huang(参考訳) 比喩研究の歴史は知識注入研究の進化を象徴している。 近年のディープラーニング技術の進歩により、自然言語処理コミュニティはメタファ認識タスクの成果に知識を適用することに大きな関心を示している。 メタファ認識の分野では,知識注入に関するアプローチが徐々に増えてきたが,知識注入に基づくアプローチに関する完全なレビュー記事が不足している。 そこで本稿の目的は,メタファ認識タスクにおける知識注入へのディープラーニングの適用における研究の進歩を包括的にレビューすることである。 本稿では,主要な知識と知識の注入原則を体系的に要約し,一般化するとともに,メタファ認識タスクで使用されるデータセット,評価指標,ベンチマークモデルをレビューする。 最後に,ナレッジインジェクション手法が直面する課題を探究し,今後の研究の方向性を展望する。

The history of metaphor research also marks the evolution of knowledge infusion research. With the continued advancement of deep learning techniques in recent years, the natural language processing community has shown great interest in applying knowledge to successful results in metaphor recognition tasks. Although there has been a gradual increase in the number of approaches involving knowledge injection in the field of metaphor recognition, there is a lack of a complete review article on knowledge injection based approaches. Therefore, the goal of this paper is to provide a comprehensive review of research advances in the application of deep learning for knowledge injection in metaphor recognition tasks. In this paper, we systematically summarize and generalize the mainstream knowledge and knowledge injection principles, as well as review the datasets, evaluation metrics, and benchmark models used in metaphor recognition tasks. Finally, we explore the current issues facing knowledge injection methods and provide an outlook on future research directions.
翻訳日:2023-08-16 15:47:45 公開日:2023-08-15
# 非計測共同設立者の因果推論における拡散モデル

Diffusion Model in Causal Inference with Unmeasured Confounders ( http://arxiv.org/abs/2308.03669v3 )

ライセンス: Link先を確認
Tatsuhiro Shimizu(参考訳) 本研究では,未測定の共同設立者の存在下での観察データから因果的疑問に答えるための拡散モデルの適用方法を検討する。 因果的介入を捉えるためにDAG(Directed Acyclic Graph)を用いるパールの枠組みでは、すべての共同設立者が観察されることを前提に、拡散モデルを用いて因果的疑問により正確に答える手法が提案された。 しかし、実際には測定されていない共同設立者が存在し、DCMの適用を妨げている。 DCMのこの制限を軽減するために,バックドア基準に基づくDCM(Backdoor Criterion based DCM)と呼ばれる拡張モデルを提案する。 合成データ実験により, 提案モデルが, dcmよりも正確に反事実分布を捉えていることが証明された。

We study how to extend the use of the diffusion model to answer the causal question from the observational data under the existence of unmeasured confounders. In Pearl's framework of using a Directed Acyclic Graph (DAG) to capture the causal intervention, a Diffusion-based Causal Model (DCM) was proposed incorporating the diffusion model to answer the causal questions more accurately, assuming that all of the confounders are observed. However, unmeasured confounders in practice exist, which hinders DCM from being applicable. To alleviate this limitation of DCM, we propose an extended model called Backdoor Criterion based DCM (BDCM), whose idea is rooted in the Backdoor criterion to find the variables in DAG to be included in the decoding process of the diffusion model so that we can extend DCM to the case with unmeasured confounders. Synthetic data experiment demonstrates that our proposed model captures the counterfactual distribution more precisely than DCM under the unmeasured confounders.
翻訳日:2023-08-16 15:47:31 公開日:2023-08-15
# SynJax: JAX の構造化確率分布

SynJax: Structured Probability Distributions for JAX ( http://arxiv.org/abs/2308.03291v2 )

ライセンス: Link先を確認
Milo\v{s} Stanojevi\'c and Laurent Sartran(参考訳) ディープラーニングソフトウェアライブラリの開発は、ユーザがモデリングに集中できると同時に、現代的なハードウェアアクセラレータの実行を最適化する退屈で時間のかかるタスクをライブラリに任せることで、この分野の大きな進歩をもたらした。 しかし、これは、プリミティブがベクトル化された計算に容易にマッピングするトランスフォーマーのような、特定のタイプのディープラーニングモデルにのみ恩恵がある。 木やセグメンテーションなどの構造化オブジェクトを明示的に説明するモデルは、ベクトル化形式で実装が難しいカスタムアルゴリズムを必要とするため、等しく利益を得られなかった。 SynJaxは、アライメント、タグ付け、セグメンテーション、選挙区木、スパンニングツリーを含む構造化分布のための効率的なベクトル化推論アルゴリズムを提供することで、この問題に対処する。 SynJaxを使えば、データ構造を明示的にモデル化する大規模な微分可能なモデルを構築することができます。 コードはhttps://github.com/deepmind/synjaxで入手できる。

The development of deep learning software libraries enabled significant progress in the field by allowing users to focus on modeling, while letting the library to take care of the tedious and time-consuming task of optimizing execution for modern hardware accelerators. However, this has benefited only particular types of deep learning models, such as Transformers, whose primitives map easily to the vectorized computation. The models that explicitly account for structured objects, such as trees and segmentations, did not benefit equally because they require custom algorithms that are difficult to implement in a vectorized form. SynJax directly addresses this problem by providing an efficient vectorized implementation of inference algorithms for structured distributions covering alignment, tagging, segmentation, constituency trees and spanning trees. With SynJax we can build large-scale differentiable models that explicitly model structure in the data. The code is available at https://github.com/deepmind/synjax.
翻訳日:2023-08-16 15:47:10 公開日:2023-08-15
# ソースフリードメイン適応型ヒューマンポース推定

Source-free Domain Adaptive Human Pose Estimation ( http://arxiv.org/abs/2308.03202v3 )

ライセンス: Link先を確認
Qucheng Peng, Ce Zheng, Chen Chen(参考訳) HPE(Human Pose Estimation)は、モーション分析、ヘルスケア、仮想現実など、さまざまな分野で広く使われている。 しかし、ラベル付き実世界のデータセットの膨大な費用は、HPEにとって大きな課題となる。 これを解決する1つのアプローチは、合成データセット上でHPEモデルをトレーニングし、実際のデータ上でドメイン適応(DA)を実行することである。 残念ながら、HPEの既存のDAメソッドは、適応プロセスでソースデータとターゲットデータの両方を使用することで、データのプライバシとセキュリティを無視している。 そこで本研究では,hpeのクロスドメイン学習の課題を解決するために,適応プロセス中にソースデータにアクセスせずに,新たなタスクであるsource-free domain adaptive hpeを提案する。 さらに、ソースモデル、中間モデル、ターゲットモデルという3つのモデルからなる新しいフレームワークを提案し、ソース保護とターゲット関連の観点からタスクを探索する。 音源保護モジュールは、ノイズに抵抗しながらより効果的にソース情報を保存し、ターゲット関連モジュールは、新しい空間確率空間を構築して空間表現のスパーシティを低減し、この空間に基づいてポーズ固有のコントラスト学習と情報最大化を提案する。 いくつかの領域適応型HPEベンチマークの総合的な実験により、提案手法は既存の手法よりもかなり優れていることが示された。 コードはhttps://github.com/davidpengucf/SFDAHPEで入手できる。

Human Pose Estimation (HPE) is widely used in various fields, including motion analysis, healthcare, and virtual reality. However, the great expenses of labeled real-world datasets present a significant challenge for HPE. To overcome this, one approach is to train HPE models on synthetic datasets and then perform domain adaptation (DA) on real-world data. Unfortunately, existing DA methods for HPE neglect data privacy and security by using both source and target data in the adaptation process. To this end, we propose a new task, named source-free domain adaptive HPE, which aims to address the challenges of cross-domain learning of HPE without access to source data during the adaptation process. We further propose a novel framework that consists of three models: source model, intermediate model, and target model, which explores the task from both source-protect and target-relevant perspectives. The source-protect module preserves source information more effectively while resisting noise, and the target-relevant module reduces the sparsity of spatial representations by building a novel spatial probability space, and pose-specific contrastive learning and information maximization are proposed on the basis of this space. Comprehensive experiments on several domain adaptive HPE benchmarks show that the proposed method outperforms existing approaches by a considerable margin. The codes are available at https://github.com/davidpengucf/SFDAHPE.
翻訳日:2023-08-16 15:46:54 公開日:2023-08-15
# miamix: multi-stage augmented mixed sample data augmentation 法による画像分類の強化

MiAMix: Enhancing Image Classification through a Multi-stage Augmented Mixed Sample Data Augmentation Method ( http://arxiv.org/abs/2308.02804v2 )

ライセンス: Link先を確認
Wen Liang, Youzhi Liang, Jianguo Jia(参考訳) ディープラーニングの分野ではかなり進歩しているにもかかわらず、オーバーフィッティングは重要な課題であり、様々なコンピュータビジョンタスクにおけるモデル一般化を強化する能力のため、データ拡張は特に有望なアプローチとして現れている。 様々な戦略が提案されているが、Mixed Sample Data Augmentation (MSDA) はモデルの性能向上と一般化に大きな可能性を示している。 マルチステージAugmented Mixupの略であるMiAMixという新しいミックスアップ手法を提案する。 MiAMixは、画像強化をミックスアップフレームワークに統合し、複数の多様化混合法を同時に利用し、ミキシングマスク増強法をランダムに選択して混合方法を改善する。 最近の手法では給与情報を利用し、miamixは計算効率も考慮し、追加のオーバーヘッドを削減し、既存のトレーニングパイプラインと簡単に統合できるように設計されている。 筆者らは4つの画像ベンチマークを用いてMiaMixを総合的に評価し、現在最先端の混合サンプルデータ拡張技術と比較し、MIAMixが計算オーバーヘッドを伴わずに性能を向上することを示す。

Despite substantial progress in the field of deep learning, overfitting persists as a critical challenge, and data augmentation has emerged as a particularly promising approach due to its capacity to enhance model generalization in various computer vision tasks. While various strategies have been proposed, Mixed Sample Data Augmentation (MSDA) has shown great potential for enhancing model performance and generalization. We introduce a novel mixup method called MiAMix, which stands for Multi-stage Augmented Mixup. MiAMix integrates image augmentation into the mixup framework, utilizes multiple diversified mixing methods concurrently, and improves the mixing method by randomly selecting mixing mask augmentation methods. Recent methods utilize saliency information and the MiAMix is designed for computational efficiency as well, reducing additional overhead and offering easy integration into existing training pipelines. We comprehensively evaluate MiaMix using four image benchmarks and pitting it against current state-of-the-art mixed sample data augmentation techniques to demonstrate that MIAMix improves performance without heavy computational overhead.
翻訳日:2023-08-16 15:46:31 公開日:2023-08-15
# 情報検索のための大規模言語モデル:調査

Large Language Models for Information Retrieval: A Survey ( http://arxiv.org/abs/2308.07107v2 )

ライセンス: Link先を確認
Yutao Zhu, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng, Zhicheng Dou, and Ji-Rong Wen(参考訳) 情報取得の主要な手段として,検索エンジンなどの情報検索(IR)システムが,私たちの日常生活に組み込まれている。 これらのシステムは対話、質問応答、推薦システムの構成要素としても機能する。 IRの軌道は、項ベースの手法の起源から高度なニューラルモデルとの統合まで、動的に進化してきた。 ニューラルネットワークは複雑なコンテキスト信号やセマンティックなニュアンスを捉えるのに優れており、IRのランドスケープを再構築するが、データ不足、解釈可能性、文脈的に妥当で不正確な応答の生成といった課題に直面している。 この進化には従来の手法(項ベースのスパース検索法と迅速な応答法など)と現代のニューラルアーキテクチャ(強力な言語理解能力を持つ言語モデルなど)の組み合わせが必要である。 一方、ChatGPTとGPT-4に代表される大規模言語モデル(LLM)の出現は、言語理解、生成、一般化、推論能力によって自然言語処理に革命をもたらした。 その結果、最近の研究はLLMをIRシステムの改善に活用しようと試みている。 この研究軌道の急速な進化を考えると、既存の方法論を整理し、包括的概要を通して微妙な洞察を提供する必要がある。 本調査では,クエリリフレクタ,レトリバー,リランカ,リーダといった重要な側面を含む,LLMとIRシステムの合流点を探索する。 さらに,この拡大分野における有望な方向性を探究する。

As a primary means of information acquisition, information retrieval (IR) systems, such as search engines, have integrated themselves into our daily lives. These systems also serve as components of dialogue, question-answering, and recommender systems. The trajectory of IR has evolved dynamically from its origins in term-based methods to its integration with advanced neural models. While the neural models excel at capturing complex contextual signals and semantic nuances, thereby reshaping the IR landscape, they still face challenges such as data scarcity, interpretability, and the generation of contextually plausible yet potentially inaccurate responses. This evolution requires a combination of both traditional methods (such as term-based sparse retrieval methods with rapid response) and modern neural architectures (such as language models with powerful language understanding capacity). Meanwhile, the emergence of large language models (LLMs), typified by ChatGPT and GPT-4, has revolutionized natural language processing due to their remarkable language understanding, generation, generalization, and reasoning abilities. Consequently, recent research has sought to leverage LLMs to improve IR systems. Given the rapid evolution of this research trajectory, it is necessary to consolidate existing methodologies and provide nuanced insights through a comprehensive overview. In this survey, we delve into the confluence of LLMs and IR systems, including crucial aspects such as query rewriters, retrievers, rerankers, and readers. Additionally, we explore promising directions within this expanding field.
翻訳日:2023-08-16 15:41:30 公開日:2023-08-15
# #InsTag:大規模言語モデルの教師付き微調整解析のためのインストラクションタグ

#InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models ( http://arxiv.org/abs/2308.07074v2 )

ライセンス: Link先を確認
Keming Lu, Hongyi Yuan, Zheng Yuan, Runji Lin, Junyang Lin, Chuanqi Tan, Chang Zhou, Jingren Zhou(参考訳) 基礎言語モデルは教師付き微調整(sft)により命令追従能力を得る。 多様性と複雑性は、SFTデータセットの成功の重要な要因と考えられているが、その定義はあいまいであり、定量分析が欠如している。 本研究では,SFTデータセット内のサンプルを意味と意図に基づいてタグ付けし,タグに関する命令の多様性と複雑性を定義するための,オープンセットのきめ細かいタグであるInsTagを提案する。 包括的ユーザクエリを記述するための6.6Kタグを取得する。 そして、人気のあるオープンソースsftデータセットを分析し、モデル能力がより多様で複雑なデータで成長することを見出します。 本研究では,InsTagをベースとしたデータセレクタを提案し,オープンソースのデータセットとInsTag選択データを用いたファインチューンモデルから6Kの多様な複雑なサンプルを抽出する。 その結果得られたモデルであるtaglmは、mt-benchが評価したかなり大きなsftデータに基づくオープンソースモデルよりも優れており、クエリの多様性と複雑さの重要性を反映している。 InsTagをhttps://github.com/OFA-Sys/InsTagでオープンソース化しました。

Foundation language models obtain the instruction-following ability through supervised fine-tuning (SFT). Diversity and complexity are considered critical factors of a successful SFT dataset, while their definitions remain obscure and lack quantitative analyses. In this work, we propose InsTag, an open-set fine-grained tagger, to tag samples within SFT datasets based on semantics and intentions and define instruction diversity and complexity regarding tags. We obtain 6.6K tags to describe comprehensive user queries. Then we analyze popular open-sourced SFT datasets and find that the model ability grows with more diverse and complex data. Based on this observation, we propose a data selector based on InsTag to select 6K diverse and complex samples from open-source datasets and fine-tune models on InsTag-selected data. The resulting models, TagLM, outperform open-source models based on considerably larger SFT data evaluated by MT-Bench, echoing the importance of query diversity and complexity. We open-source InsTag in https://github.com/OFA-Sys/InsTag.
翻訳日:2023-08-16 15:41:06 公開日:2023-08-15
# シングルコピー計測によるt$ドープ安定化状態の効率的な学習

Efficient learning of $t$-doped stabilizer states with single-copy measurements ( http://arxiv.org/abs/2308.07014v2 )

ライセンス: Link先を確認
Nai-Hui Chia, Ching-Yi Lai, Han-Hsuan Lin(参考訳) 量子状態学習の主要な目的の1つは、量子回路から生成される状態の学習に時間効率の良いアルゴリズムを開発することである。 初期の研究では、クリフォード回路から生成される状態に対して最大$\log(n)$非クリフォードゲートを持つ時間効率の良いアルゴリズムが示されている。 しかし、これらのアルゴリズムはマルチコピー計測を必要とし、必要な量子メモリのために短期的に実装上の課題を提起する。 それとは対照的に、計算ベースでのみシングルキュービットの測定を使用することは、合理的な量子後暗号仮定の下で1つの追加のT$ゲートを持つクリフォード回路の出力分布でさえ学習するには不十分である。 本研究では,Cifford回路が生成する状態を最大$O(\log n)$非Ciffordゲートで学習するために,非適応的な単一コピー測定のみを用いる効率的な量子アルゴリズムを提案する。

One of the primary objectives in the field of quantum state learning is to develop algorithms that are time-efficient for learning states generated from quantum circuits. Earlier investigations have demonstrated time-efficient algorithms for states generated from Clifford circuits with at most $\log(n)$ non-Clifford gates. However, these algorithms necessitate multi-copy measurements, posing implementation challenges in the near term due to the requisite quantum memory. On the contrary, using solely single-qubit measurements in the computational basis is insufficient in learning even the output distribution of a Clifford circuit with one additional $T$ gate under reasonable post-quantum cryptographic assumptions. In this work, we introduce an efficient quantum algorithm that employs only nonadaptive single-copy measurement to learn states produced by Clifford circuits with a maximum of $O(\log n)$ non-Clifford gates, filling a gap between the previous positive and negative results.
翻訳日:2023-08-16 15:40:45 公開日:2023-08-15
# Thresh: 微細テキスト評価のための統一された、カスタマイズ可能な、デプロイ可能なプラットフォーム

Thresh: A Unified, Customizable and Deployable Platform for Fine-Grained Text Evaluation ( http://arxiv.org/abs/2308.06953v2 )

ライセンス: Link先を確認
David Heineman, Yao Dou, Wei Xu(参考訳) 要約, 単純化, 機械翻訳, ニュース生成などのテキスト生成タスクを評価するための信頼性が高く, 堅牢な手法として人体評価が登場し, 得られたアノテーションは自動メトリクスのトレーニングや言語モデルの改善に有用である。 しかし、これらの評価フレームワークに実装されている既存のアノテーションツールには、異なるドメインや言語に拡張したり、ユーザのニーズに応じてアノテーション設定を変更する適応性がない。 そして、統一された注釈付きデータ形式がないことは、マルチタスク学習の研究を阻害する。 本稿では,細粒度評価のための統合化,カスタマイズ,デプロイ可能なプラットフォームであるthreshを紹介する。 yaml構成ファイルを簡単に作成することで、ユーザはあらゆるフレームワークのアノテーションインターフェースを数分で構築し、テストすることができる。 コラボレーションと共有を容易にするために、threshは、コミュニティが作成、収集する細かなフレームワークと対応するアノテーションのコレクションをホストするコミュニティハブを提供し、幅広いnlpタスクをカバーしている。 Threshは、小さな手動検査から大規模なクラウドソーシングまで、あらゆる規模のアノテーションプロジェクトに複数のオプションを提供する。 さらに,タイポロジー設計からアノテーション処理へのデプロイまで,プロセス全体を合理化するpythonライブラリも導入する。 Threshはhttps://thresh.tools.comで公開されている。

Fine-grained, span-level human evaluation has emerged as a reliable and robust method for evaluating text generation tasks such as summarization, simplification, machine translation and news generation, and the derived annotations have been useful for training automatic metrics and improving language models. However, existing annotation tools implemented for these evaluation frameworks lack the adaptability to be extended to different domains or languages, or modify annotation settings according to user needs. And the absence of a unified annotated data format inhibits the research in multi-task learning. In this paper, we introduce Thresh, a unified, customizable and deployable platform for fine-grained evaluation. By simply creating a YAML configuration file, users can build and test an annotation interface for any framework within minutes -- all in one web browser window. To facilitate collaboration and sharing, Thresh provides a community hub that hosts a collection of fine-grained frameworks and corresponding annotations made and collected by the community, covering a wide range of NLP tasks. For deployment, Thresh offers multiple options for any scale of annotation projects from small manual inspections to large crowdsourcing ones. Additionally, we introduce a Python library to streamline the entire process from typology design and deployment to annotation processing. Thresh is publicly accessible at https://thresh.tools.
翻訳日:2023-08-16 15:40:28 公開日:2023-08-15
# SAILOR: 構造拡張に基づくTailノード表現学習

SAILOR: Structural Augmentation Based Tail Node Representation Learning ( http://arxiv.org/abs/2308.06801v2 )

ライセンス: Link先を確認
Jie Liao, Jintang Li, Liang Chen, Bingzhe Wu, Yatao Bian, Zibin Zheng(参考訳) グラフニューラルネットワーク(GNN)は最近,グラフの表現学習において最先端のパフォーマンスを達成した。 しかし, メッセージ伝搬の重要な操作を活かしたGNNの有効性は, トポロジ構造の品質に大きく依存する。 実世界のシナリオにおけるグラフのほとんどは、ノードの次数における長い尾の分布、すなわちグラフ内のノードの大部分は、わずかに連結されたエッジを持つ尾のノードである。 GNNは構造情報を欠いているため、テールノードに対して下位ノード表現を生成する。 尾ノードに対するGNNの表現性を追求するため,構造情報の欠如が尾ノードの性能を悪化させるかを検討するとともに,SAILORと呼ばれる構造拡張に基づくTaIL nOde表現学習フレームワークを提案する。 公開ベンチマークデータセットに関する大規模な実験は、SAILORがテールノード表現を大幅に改善し、最先端のベースラインを上回る性能を発揮することを示した。

Graph Neural Networks (GNNs) have achieved state-of-the-art performance in representation learning for graphs recently. However, the effectiveness of GNNs, which capitalize on the key operation of message propagation, highly depends on the quality of the topology structure. Most of the graphs in real-world scenarios follow a long-tailed distribution on their node degrees, that is, a vast majority of the nodes in the graph are tail nodes with only a few connected edges. GNNs produce inferior node representations for tail nodes since they lack structural information. In the pursuit of promoting the expressiveness of GNNs for tail nodes, we explore how the deficiency of structural information deteriorates the performance of tail nodes and propose a general Structural Augmentation based taIL nOde Representation learning framework, dubbed as SAILOR, which can jointly learn to augment the graph structure and extract more informative representations for tail nodes. Extensive experiments on public benchmark datasets demonstrate that SAILOR can significantly improve the tail node representations and outperform the state-of-the-art baselines.
翻訳日:2023-08-16 15:39:52 公開日:2023-08-15
# fr\'echet統計に基づく多変量ホークス過程における変化点検出

Fr\'echet Statistics Based Change Point Detection in Multivariate Hawkes Process ( http://arxiv.org/abs/2308.06769v2 )

ライセンス: Link先を確認
Rui Luo and Vikram Krishnamurthy(参考訳) 本稿では,Frechet統計を用いた多変量ホークスの因果ネットワークにおける変化点検出手法を提案する。 提案手法では,点過程を重なり合う窓に分割し,各ウィンドウのカーネル行列を推定し,カーネル行列を因果ネットワークの隣接行列として扱うことで符号付きラプラシアンを再構成する。 シミュレーションおよび実世界の暗号データセットを用いた実験により,本手法の有効性を示す。 本手法は,多変量ホークス過程の因果構造の変化を正確に検出し,特徴付けることができ,金融学や神経科学などの分野にも応用できる可能性が示唆された。 提案手法は点プロセス設定におけるFrechet統計に関する以前の研究の拡張であり,多変量点プロセスにおける変化点検出の分野への重要な貢献を示す。

This paper proposes a new approach for change point detection in causal networks of multivariate Hawkes processes using Frechet statistics. Our method splits the point process into overlapping windows, estimates kernel matrices in each window, and reconstructs the signed Laplacians by treating the kernel matrices as the adjacency matrices of the causal network. We demonstrate the effectiveness of our method through experiments on both simulated and real-world cryptocurrency datasets. Our results show that our method is capable of accurately detecting and characterizing changes in the causal structure of multivariate Hawkes processes, and may have potential applications in fields such as finance and neuroscience. The proposed method is an extension of previous work on Frechet statistics in point process settings and represents an important contribution to the field of change point detection in multivariate point processes.
翻訳日:2023-08-16 15:39:01 公開日:2023-08-15
# mc-dre: 薬物イベント/エンティティ抽出のためのマルチアスペクトクロス統合

MC-DRE: Multi-Aspect Cross Integration for Drug Event/Entity Extraction ( http://arxiv.org/abs/2308.06546v2 )

ライセンス: Link先を確認
Jie Yang and Soyeon Caren Han and Siqu Long and Josiah Poon and Goran Nenadic(参考訳) 有害薬物事象(ADE)などの有意義な薬物関連情報を抽出することは、有害な薬物の予防と多くの命を救うために重要である。 ほとんどのADEは、医療コンテキストとの非構造化の会話を通じて報告されるため、一般的なエンティティ認識アプローチを適用するだけでは不十分である。 本稿では,薬物関連文書からコンテキスト/言語/知識の異なる特性を捕捉・整合させることにより,薬物の実体/事象検出のための多面的クロスインテグレーションフレームワークを提案する。 まず,マルチアスペクトエンコーダを構築し,意味的,構文的,医学的文書の文脈情報を,スロットタグタスク,主要薬物エンティティ/イベント検出,パート・オブ・スパイチ・タグ,一般医療名付きエンティティ認識により記述する。 次に、各エンコーダはキー・バリュー・クロス、アテンション・クロス、フィードフォワード・クロスの3つの方法で他のコンテキスト情報とのクロス統合を行い、マルチエンコーダを奥行きに統合する。 私たちのモデルは,フラットエンティティ検出と不連続イベント抽出という,広く使用されている2つのタスクにおいて,すべてのsotaを上回っている。

Extracting meaningful drug-related information chunks, such as adverse drug events (ADE), is crucial for preventing morbidity and saving many lives. Most ADEs are reported via an unstructured conversation with the medical context, so applying a general entity recognition approach is not sufficient enough. In this paper, we propose a new multi-aspect cross-integration framework for drug entity/event detection by capturing and aligning different context/language/knowledge properties from drug-related documents. We first construct multi-aspect encoders to describe semantic, syntactic, and medical document contextual information by conducting those slot tagging tasks, main drug entity/event detection, part-of-speech tagging, and general medical named entity recognition. Then, each encoder conducts cross-integration with other contextual information in three ways: the key-value cross, attention cross, and feedforward cross, so the multi-encoders are integrated in depth. Our model outperforms all SOTA on two widely used tasks, flat entity detection and discontinuous event extraction.
翻訳日:2023-08-16 15:38:37 公開日:2023-08-15
# セキュリティ検査画像におけるYOLOv8検出アルゴリズムの改良

Improved YOLOv8 Detection Algorithm in Security Inspection Image ( http://arxiv.org/abs/2308.06452v2 )

ライセンス: Link先を確認
Liyao Lu(参考訳) セキュリティ検査は、人々の生活と財産の安全を確保するための最初の防衛線であり、インテリジェントセキュリティ検査は、セキュリティ検査産業の将来の発展において避けられないトレンドである。 YOLOv8sに基づくX線コントラバンド検出アルゴリズムであるCSS-YOLOを提案する。

Security inspection is the first line of defense to ensure the safety of people's lives and property, and intelligent security inspection is an inevitable trend in the future development of the security inspection industry. Aiming at the problems of overlapping detection objects, false detection of contraband, and missed detection in the process of X-ray image detection, an improved X-ray contraband detection algorithm CSS-YOLO based on YOLOv8s is proposed.
翻訳日:2023-08-16 15:38:15 公開日:2023-08-15
# llm自己防衛:自己検査によって、llmは彼らが騙されていることを知っている

LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked ( http://arxiv.org/abs/2308.07308v2 )

ライセンス: Link先を確認
Alec Helbling, Mansi Phute, Matthew Hull and Duen Horng Chau(参考訳) 近年、人間のプロンプトに応じて高品質なテキストを生成する能力から、大規模言語モデル(llm)の人気が高まっている。 しかし、これらのモデルは、ユーザープロンプト(例えば、ユーザーが犯罪を犯す方法を指示するなど)に応じて有害なコンテンツを生成する可能性があることが示されている。 強化学習によるモデルと人間の価値を整合させる手法を通じて、これらのリスクの緩和に関する文献に焦点が当てられている。 しかし、アライメントされた言語モデルでさえ、有害テキスト生成の制限を回避できる敵攻撃の影響を受けやすいことが示されている。 本稿では,大規模な言語モデルで独自の応答をフィルタすることで,これらの攻撃を防御する簡単な手法を提案する。 現在の結果から,モデルが人間の価値観に適合するように微調整されていなくても,言語モデルを用いてコンテンツを検証することで,有害なコンテンツをユーザに提示することを止めることができる。

Large language models (LLMs) have skyrocketed in popularity in recent years due to their ability to generate high-quality text in response to human prompting. However, these models have been shown to have the potential to generate harmful content in response to user prompting (e.g., giving users instructions on how to commit crimes). There has been a focus in the literature on mitigating these risks, through methods like aligning models with human values through reinforcement learning. However, it has been shown that even aligned language models are susceptible to adversarial attacks that bypass their restrictions on generating harmful text. We propose a simple approach to defending against these attacks by having a large language model filter its own responses. Our current results show that even if a model is not fine-tuned to be aligned with human values, it is possible to stop it from presenting harmful content to users by validating the content using a language model.
翻訳日:2023-08-16 15:29:08 公開日:2023-08-15
# なぜだ? イブによるミス・エンターメントの解説(技術報告)

Why Not? Explaining Missing Entailments with Evee (Technical Report) ( http://arxiv.org/abs/2308.07294v2 )

ライセンス: Link先を確認
Christian Alrabbaa, Stefan Borgwardt, Tom Friese, Patrick Koopmann, Mikhail Kotlov(参考訳) 記述論理推論器が引き起こす論理的含意を理解することは、オントロジー利用者にとって必ずしもまっすぐではない。 このため, オントロジーエディタProt\'eg\'eのプラグインとして, 正当性や証明を用いた細部説明法が開発され, 実装されている。 しかし、ユーザが欠落結果が保持されることを期待する場合、なぜそれがオントロジーから従わないのかを説明するのも同様に重要である。 本稿では,<sup>e</sup> プラグインである $\rm E{\scriptsize VEE}$ の新バージョンについて述べる。

Understanding logical entailments derived by a description logic reasoner is not always straight-forward for ontology users. For this reason, various methods for explaining entailments using justifications and proofs have been developed and implemented as plug-ins for the ontology editor Prot\'eg\'e. However, when the user expects a missing consequence to hold, it is equally important to explain why it does not follow from the ontology. In this paper, we describe a new version of $\rm E{\scriptsize VEE}$, a Prot\'eg\'e plugin that now also provides explanations for missing consequences, via existing and new techniques based on abduction and counterexamples.
翻訳日:2023-08-16 15:28:50 公開日:2023-08-15
# 分散ガバナンス:データガバナンスに対するプリンシパルエージェントアプローチ -その1 背景とコア定義-

Distributed Governance: a Principal-Agent Approach to Data Governance -- Part 1 Background & Core Definitions ( http://arxiv.org/abs/2308.07280v2 )

ライセンス: Link先を確認
Philippe Page, Paul Knowles, Robert Mitwicki(参考訳) イノベーションやデジタルトランスフォーメーションの規制フレームワークを妨げることなく、デジタルテクノロジの規制の必要性に対処するために、情報ガバナンスに向けてデータガバナンスを進化させ、これら2つの用語の関係を精密化するためのモデルを提供する。 このモデルはデジタルおよび非デジタル情報交換を橋渡しする。 プリンシパルエージェントの問題の角度から管理データの利用の問題を考えることで、選択可能なエンティティとして定義された自律的なプリンシパルに基づいた分散ガバナンスモデルを構築し、トランザクションの主権を行使することができる。 プライバシー分野の法的概念をデジタル空間における機能的等価性に拡張することで、権利と説明責任を付与できるデジタル自己の構築につながる。 正当な権威によって束縛された自律的プリンシパルの共同体として定義される生態系は、物理的な世界統治システムを反映した自己複製性を持つ複雑さの増加の相互作用構造の基礎を提供する。 このモデルは、管轄区域間で運用されるマルチステークホルダー情報システムのガバナンス概念を提案する。 分散化された認証とセマンティクスにおける最近のソフトウェアエンジニアリングの進歩を利用して、人間と技術のガバナンス間のチェックとバランスを埋めた分散ガバナンスモデルをデプロイするための動的データ経済というフレームワークを提供します。 ドメイン固有のガバナンスモデルは、さらなる出版のために残されています。 同様に、デジタル自己と物理世界コントローラ(バイオメトリックバインディングなど)の接続に関する技術的な質問は、今後の出版物で扱われる予定である。

To address the need for regulating digital technologies without hampering innovation or pre-digital transformation regulatory frameworks, we provide a model to evolve Data governance toward Information governance and precise the relation between these two terms. This model bridges digital and non-digital information exchange. By considering the question of governed data usage through the angle of the Principal-Agent problem, we build a distributed governance model based on Autonomous Principals defined as entities capable of choice, therefore capable of exercising a transactional sovereignty. Extending the legal concept of the privacy sphere to a functional equivalent in the digital space leads to the construction of a digital self to which rights and accountability can be attached. Ecosystems, defined as communities of autonomous principals bound by a legitimate authority, provide the basis of interacting structures of increasing complexity endowed with a self-replicating property that mirrors physical world governance systems. The model proposes a governance concept for multi-stakeholder information systems operating across jurisdictions. Using recent software engineering advances in decentralised authentication and semantics, we provide a framework, Dynamic Data Economy to deploy a distributed governance model embedding checks and balance between human and technological governance. Domain specific governance models are left for further publications. Similarly, the technical questions related to the connection between a digital-self and its physical world controller (e.g biometric binding) will be treated in upcoming publications.
翻訳日:2023-08-16 15:28:36 公開日:2023-08-15
# AudioFormer:Audio Transformerは個々の音響コードから音声特徴表現を学習する

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes ( http://arxiv.org/abs/2308.07221v2 )

ライセンス: Link先を確認
Zhaohui Li and Haitao Wang and Xinghua Jiang(参考訳) 本研究では,離散音響符号の取得により音声特徴表現を学習し,その後,音声分類タスクに対して微調整を行う,audioformerという手法を提案する。 まず,音声分類タスクを自然言語理解(nlu)の一形態として考えることにより,新しい視点を提案する。 既存のニューラルオーディオコーデックモデルを利用して、離散音響コードを生成し、それをマスク付き言語モデル(MLM)の訓練に利用し、音声特徴表現を得る。 さらに,Multi-Positive sample Contrastive (MPC) 学習手法の統合を開拓した。 同一音声入力における複数の離散音響符号間の関節表現の学習を可能にする。 実験では、離散音響符号をテキストデータとして扱い、clozeのような手法を用いてマスキング言語モデルを訓練し、質の高い音声表現を導出する。 特に、mpc学習技術は、異なる正のサンプル間の協調表現を効果的に捉える。 その結果,複数のデータセットにまたがる単調な音声分類モデルに比べ,オーディオフォーマーの性能は著しく向上し,選択したデータセット上では視聴覚型マルチモーダル分類モデルよりも優れていた。 具体的には、AudioSet(2M,20K)やFSD50K(53.9,45.1、65.6)などのデータセットに対して、我々のアプローチは顕著な結果をもたらす。 私たちは、コードとモデルの両方をオープンに共有しました。

We propose a method named AudioFormer,which learns audio feature representations through the acquisition of discrete acoustic codes and subsequently fine-tunes them for audio classification tasks. Initially,we introduce a novel perspective by considering the audio classification task as a form of natural language understanding (NLU). Leveraging an existing neural audio codec model,we generate discrete acoustic codes and utilize them to train a masked language model (MLM),thereby obtaining audio feature representations. Furthermore,we pioneer the integration of a Multi-Positive sample Contrastive (MPC) learning approach. This method enables the learning of joint representations among multiple discrete acoustic codes within the same audio input. In our experiments,we treat discrete acoustic codes as textual data and train a masked language model using a cloze-like methodology,ultimately deriving high-quality audio representations. Notably,the MPC learning technique effectively captures collaborative representations among distinct positive samples. Our research outcomes demonstrate that AudioFormer attains significantly improved performance compared to prevailing monomodal audio classification models across multiple datasets,and even outperforms audio-visual multimodal classification models on select datasets. Specifically,our approach achieves remarkable results on datasets including AudioSet (2M,20K),and FSD50K,with performance scores of 53.9,45.1,and 65.6,respectively. We have openly shared both the code and models: https://github.com/LZH-0225/AudioFormer.git.
翻訳日:2023-08-16 15:28:12 公開日:2023-08-15
# FOLT:光学的流れに基づくUAVキャプチャ映像からの高速複数物体追跡

FOLT: Fast Multiple Object Tracking from UAV-captured Videos Based on Optical Flow ( http://arxiv.org/abs/2308.07207v2 )

ライセンス: Link先を確認
Mufeng Yao, Jiaqi Wang, Jinlong Peng, Mingmin Chi, Chao Liu(参考訳) 複数物体追跡(MOT)はコンピュータビジョンにおいて成功した。 しかし、無人航空機(UAV)が撮影したビデオのMOTは、小さな物体の大きさ、ぼやけた物体の外観、地上の物体とUAVプラットフォームの両方で非常に大きく不規則な動きのために、依然として困難である。 本稿では,これらの問題を緩和し,UAVビューで高速かつ正確なMOTに到達するためのFOLTを提案する。 FOLTは速度精度のトレードオフを目標とし、近代的な検出器と軽量な光フロー抽出器を採用し、最小限のコストで物体検出特徴と運動特徴を抽出する。 抽出した流れを考慮に入れ, フロー誘導型特徴増強法は, 微小物体の検出を改善する光学的フローに基づいて物体検出機能を増強するように設計されている。 次に,次のフレームにおける物体の位置を予測するためにフロー誘導運動予測も提案し,隣接フレーム間の変位が大きい物体の追従性能を向上させる。 最後に、検出されたオブジェクトと予測されたオブジェクトとを空間的マッチングスキームでマッチングし、各オブジェクトのトラックを生成する。 Visdrone と UAVDT のデータセットを用いた実験により,提案手法は大規模で不規則な動きを持つ小さな物体の追跡に成功し,UAV-MOT タスクにおける既存の最先端手法よりも優れていた。

Multiple object tracking (MOT) has been successfully investigated in computer vision. However, MOT for the videos captured by unmanned aerial vehicles (UAV) is still challenging due to small object size, blurred object appearance, and very large and/or irregular motion in both ground objects and UAV platforms. In this paper, we propose FOLT to mitigate these problems and reach fast and accurate MOT in UAV view. Aiming at speed-accuracy trade-off, FOLT adopts a modern detector and light-weight optical flow extractor to extract object detection features and motion features at a minimum cost. Given the extracted flow, the flow-guided feature augmentation is designed to augment the object detection feature based on its optical flow, which improves the detection of small objects. Then the flow-guided motion prediction is also proposed to predict the object's position in the next frame, which improves the tracking performance of objects with very large displacements between adjacent frames. Finally, the tracker matches the detected objects and predicted objects using a spatially matching scheme to generate tracks for every object. Experiments on Visdrone and UAVDT datasets show that our proposed model can successfully track small objects with large and irregular motion and outperform existing state-of-the-art methods in UAV-MOT tasks.
翻訳日:2023-08-16 15:27:46 公開日:2023-08-15
# SEMI-CenterNet:半導体欠陥検査のための機械学習ファシリテートアプローチ

SEMI-CenterNet: A Machine Learning Facilitated Approach for Semiconductor Defect Inspection ( http://arxiv.org/abs/2308.07180v2 )

ライセンス: Link先を確認
Vic De Ridder, Bappaditya Dey, Enrique Dehaerne, Sandip Halder, Stefan De Gendt, Bartel Van Waeyenberge(参考訳) 半導体領域におけるパターン次元の連続的縮小は、確率的ノイズの存在や欠陥パターンやタイプの動的挙動などの要因により、欠陥の検査がますます困難になっている。 従来のルールベースの手法とKNNのような非パラメトリック教師付き機械学習アルゴリズムは、これらの先進ノードでの半導体欠陥検査の要求でほとんど失敗する。 ディープラーニング(DL)ベースの手法は、これらの困難なシナリオに対して堅牢であることが証明されたため、半導体欠陥検査領域で人気を集めている。 本研究では,SEM画像における欠陥の局所化と分類を効率的に行うためのDLベースの自動手法を提案する。 我々は半導体ウエハ欠陥のSEM画像に基づいて学習したカスタマイズCNアーキテクチャであるSEMI-CenterNet(SEMI-CN)を提案する。 提案手法を用いることで,従来のDLモデルと比較して計算効率が向上する。 SEMI-CNは、欠陥インスタンスの中心、クラス、サイズ、オフセットを出力するように訓練される。 これは、バウンディングボックス予測にアンカーを使用するほとんどのオブジェクト検出モデルのアプローチとは異なる。 従来の手法では冗長なバウンディングボックスを予測するが、そのほとんどが後処理で破棄される。 cnは、おそらく欠陥中心点のボックスを予測するだけでこれを緩和する。 2つのデータセットでSEMI-CNをトレーニングし、2つのResNetバックボーンをベンチマークします。 当初、ResNetモデルはCOCOデータセット上で2つのデータセットを別々にトレーニングしていた。 主に、SEMI-CNは、以前の研究結果に対する推論時間を大幅に改善した。 最後に、トランスファーラーニング(カスタムSEMデータセットの重みを使用する)をADIデータセットからAEIデータセットとバイスリバーサに適用することで、従来のトレーニング手法に対して最高のmAPに達するために必要なトレーニング時間を短縮する。

Continual shrinking of pattern dimensions in the semiconductor domain is making it increasingly difficult to inspect defects due to factors such as the presence of stochastic noise and the dynamic behavior of defect patterns and types. Conventional rule-based methods and non-parametric supervised machine learning algorithms like KNN mostly fail at the requirements of semiconductor defect inspection at these advanced nodes. Deep Learning (DL)-based methods have gained popularity in the semiconductor defect inspection domain because they have been proven robust towards these challenging scenarios. In this research work, we have presented an automated DL-based approach for efficient localization and classification of defects in SEM images. We have proposed SEMI-CenterNet (SEMI-CN), a customized CN architecture trained on SEM images of semiconductor wafer defects. The use of the proposed CN approach allows improved computational efficiency compared to previously studied DL models. SEMI-CN gets trained to output the center, class, size, and offset of a defect instance. This is different from the approach of most object detection models that use anchors for bounding box prediction. Previous methods predict redundant bounding boxes, most of which are discarded in postprocessing. CN mitigates this by only predicting boxes for likely defect center points. We train SEMI-CN on two datasets and benchmark two ResNet backbones for the framework. Initially, ResNet models pretrained on the COCO dataset undergo training using two datasets separately. Primarily, SEMI-CN shows significant improvement in inference time against previous research works. Finally, transfer learning (using weights of custom SEM dataset) is applied from ADI dataset to AEI dataset and vice-versa, which reduces the required training time for both backbones to reach the best mAP against conventional training method.
翻訳日:2023-08-16 15:27:20 公開日:2023-08-15
# 時間対応テンソル分解による進行パターンの追跡

A Time-aware tensor decomposition for tracking evolving patterns ( http://arxiv.org/abs/2308.07126v2 )

ライセンス: Link先を確認
Christos Chatzis, Max Pfeffer, Pedro Lind, Evrim Acar(参考訳) 時間進化データセットは高階テンソルとして配置されることが多く、モードの1つがタイムモードである。 テンソル因子分解はそのような高次データセットの基本的なパターンを捉えるのにうまく使われてきたが、時間的側面はしばしば無視され、時間軸の再順序付けを可能にしている。 最近の研究では、時間正規化器が時間モードに組み込まれてこの問題に取り組んでいる。 それでも既存のアプローチでは,基盤となるパターンの時間的変化(脳の空間的変化やトピックのコンテキスト的変化など)は許可されていない。 本稿では, 時相正規化を用いた PARAFAC2 (tPARAFAC2) を用いた PARAFAC2 に基づくテンソル因子分解法を提案し, 時間的データから徐々に進化するパターンを抽出する。 合成データに関する広範な実験により, tPARAFAC2はPARAFAC2よりも正確に機能し, 時間的滑らか度正則化と組み合わせた行列因数分解を実現できることを示した。

Time-evolving data sets can often be arranged as a higher-order tensor with one of the modes being the time mode. While tensor factorizations have been successfully used to capture the underlying patterns in such higher-order data sets, the temporal aspect is often ignored, allowing for the reordering of time points. In recent studies, temporal regularizers are incorporated in the time mode to tackle this issue. Nevertheless, existing approaches still do not allow underlying patterns to change in time (e.g., spatial changes in the brain, contextual changes in topics). In this paper, we propose temporal PARAFAC2 (tPARAFAC2): a PARAFAC2-based tensor factorization method with temporal regularization to extract gradually evolving patterns from temporal data. Through extensive experiments on synthetic data, we demonstrate that tPARAFAC2 can capture the underlying evolving patterns accurately performing better than PARAFAC2 and coupled matrix factorization with temporal smoothness regularization.
翻訳日:2023-08-16 15:26:56 公開日:2023-08-15
# 臓器分節におけるスケーラブルなてんかん不確実性定量のベンチマーク

Benchmarking Scalable Epistemic Uncertainty Quantification in Organ Segmentation ( http://arxiv.org/abs/2308.07506v1 )

ライセンス: Link先を確認
Jadie Adams and Shireen Y. Elhabian(参考訳) 臓器の自動セグメンテーションのための深層学習に基づく手法は、診断と治療計画を支援する可能性を示している。 しかしながら、モデル予測に関連する不確かさを定量化し理解することは、重要な臨床応用において不可欠である。 疫学・モデルに基づく不確実性評価には多くの手法が提案されているが, 医用画像解析においてどの方法が望ましいかは定かではない。 本稿では,臓器セグメンテーションにおける認識的不確実性定量化法を,正確性,不確実性校正,拡張性の観点から評価する包括的ベンチマーク研究を行う。 我々は,各手法の長所,短所,分散検出能力について総合的な議論を行い,今後の改善を提言する。 これらの結果は、認識の不確かさを効果的に定量化しつつ、正確なセグメンテーションをもたらす信頼性とロバストなモデルの開発に寄与する。

Deep learning based methods for automatic organ segmentation have shown promise in aiding diagnosis and treatment planning. However, quantifying and understanding the uncertainty associated with model predictions is crucial in critical clinical applications. While many techniques have been proposed for epistemic or model-based uncertainty estimation, it is unclear which method is preferred in the medical image analysis setting. This paper presents a comprehensive benchmarking study that evaluates epistemic uncertainty quantification methods in organ segmentation in terms of accuracy, uncertainty calibration, and scalability. We provide a comprehensive discussion of the strengths, weaknesses, and out-of-distribution detection capabilities of each method as well as recommendations for future improvements. These findings contribute to the development of reliable and robust models that yield accurate segmentations while effectively quantifying epistemic uncertainty.
翻訳日:2023-08-16 14:30:44 公開日:2023-08-15
# 大規模言語モデルを用いたデータ競合検出

Data Race Detection Using Large Language Models ( http://arxiv.org/abs/2308.07505v1 )

ライセンス: Link先を確認
Le Chen, Xianzhong Ding, Murali Emani, Tristan Vanderbruggen, Pei-hung Lin, Chuanhua Liao(参考訳) 大規模言語モデル(llm)は、リソース集約的な手動ツール作成の必要性を回避し、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略として、大きな期待を示している。 本稿では,技術と微調整を融合したllmに基づく新しいデータ競合検出手法について検討する。 我々はDataRaceBenchから派生したDRB-MLという専用のデータセットを作成し、データレースペアとその関連する変数、行番号、読み書き情報を示す微粒なラベルを付ける。 DRB-MLは、代表的なLCMとファインチューンオープンソースの評価に使用される。 実験の結果,LLMはデータ競合検出に有効な手法であることがわかった。 しかし、変数ペアに関する詳細な情報が必要な場合、従来のデータ競合検出ツールと競合することはできません。

Large language models (LLMs) are demonstrating significant promise as an alternate strategy to facilitate analyses and optimizations of high-performance computing programs, circumventing the need for resource-intensive manual tool creation. In this paper, we explore a novel LLM-based data race detection approach combining prompting engineering and fine-tuning techniques. We create a dedicated dataset named DRB-ML, which is derived from DataRaceBench, with fine-grain labels showing the presence of data race pairs and their associated variables, line numbers, and read/write information. DRB-ML is then used to evaluate representative LLMs and fine-tune open-source ones. Our experiment shows that LLMs can be a viable approach to data race detection. However, they still cannot compete with traditional data race detection tools when we need detailed information about variable pairs causing data races.
翻訳日:2023-08-16 14:30:27 公開日:2023-08-15
# ICAFusion:マルチスペクトル物体検出のための反復的クロスアテンション誘導機能融合

ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection ( http://arxiv.org/abs/2308.07504v1 )

ライセンス: Link先を確認
Jifeng Shen, Yifei Chen, Yue Liu, Xin Zuo, Heng Fan, Wankou Yang(参考訳) マルチスペクトル画像の有効特徴融合は,多スペクトル物体検出において重要な役割を担っている。 従来の研究では、畳み込みニューラルネットワークを用いた特徴融合の有効性が実証されているが、これらの手法は、局所的な特徴の相互作用に固有の非効率性のため、画像の不一致に敏感であり、性能劣化をもたらす。 この問題に対処するために,グローバル特徴の相互作用をモデル化し,相補的情報を同時取得するために,デュアルクロス・アテンション・トランスフォーマの新たな特徴融合フレームワークを提案する。 このフレームワークは、クエリ誘導のクロスアテンション機構を通じてオブジェクト機能の識別性を向上し、パフォーマンスが向上する。 しかし,機能拡張のために複数の変圧器ブロックを積み重ねると,多数のパラメータや空間的複雑さが発生する。 これに対応するために,ブロックワイドマルチモーダル変圧器間でパラメータを共有する反復的相互作用機構を提案し,モデルの複雑さと計算コストを低減した。 提案手法は汎用的で, 異なる検出フレームワークに統合され, 異なるバックボーンで使用される。 KAIST,FLIR,VEDAIデータセットを用いた実験結果から,提案手法はより優れた性能と高速な推論を実現し,様々なシナリオに適していることが示された。 コードはhttps://github.com/chanchanchan97/ICAFusion.comから入手できる。

Effective feature fusion of multispectral images plays a crucial role in multi-spectral object detection. Previous studies have demonstrated the effectiveness of feature fusion using convolutional neural networks, but these methods are sensitive to image misalignment due to the inherent deffciency in local-range feature interaction resulting in the performance degradation. To address this issue, a novel feature fusion framework of dual cross-attention transformers is proposed to model global feature interaction and capture complementary information across modalities simultaneously. This framework enhances the discriminability of object features through the query-guided cross-attention mechanism, leading to improved performance. However, stacking multiple transformer blocks for feature enhancement incurs a large number of parameters and high spatial complexity. To handle this, inspired by the human process of reviewing knowledge, an iterative interaction mechanism is proposed to share parameters among block-wise multimodal transformers, reducing model complexity and computation cost. The proposed method is general and effective to be integrated into different detection frameworks and used with different backbones. Experimental results on KAIST, FLIR, and VEDAI datasets show that the proposed method achieves superior performance and faster inference, making it suitable for various practical scenarios. Code will be available at https://github.com/chanchanchan97/ICAFusion.
翻訳日:2023-08-16 14:30:15 公開日:2023-08-15
# AttMOT:補助歩行者属性の導入による多目的追跡の改善

AttMOT: Improving Multiple-Object Tracking by Introducing Auxiliary Pedestrian Attributes ( http://arxiv.org/abs/2308.07537v1 )

ライセンス: Link先を確認
Yunhao Li, Zhen Xiao, Lin Yang, Dan Meng, Xin Zhou, Heng Fan, Libo Zhang(参考訳) マルチオブジェクトトラッキング(MOT)は、インテリジェントな監視や自動運転など、多数のアプリケーションを用いたコンピュータビジョンにおける基本的な問題である。 MOTでは大きな進歩があったが、性別、髪型、体型、衣服の特徴など、豊かで高レベルな情報を含む歩行者の属性は調査されていない。 このギャップに対処するため,一般的なRe-ID埋め込みを支援するために,歩行者属性を簡易かつ効果的かつ汎用的に予測する手法を提案する。 AttMOTは、80万フレーム以上の歩行者IDと、異なる時間、気象条件、シナリオを含む、歩行者追跡のための大規模で高度に濃縮された合成データセットである。 私たちの知る限りでは、AttMOTはセマンティック属性を持つ最初のMOTデータセットです。 次に,アテンション機構を含む,リid埋め込みと歩行者属性を融合するアプローチについて検討し,属性支援motの開発を促進することを期待する。 提案手法は、AttMOTデータセットを用いて、MOT17やMOT20を含む複数の代表的な歩行者多目的追跡ベンチマークの有効性と一般性を示す。 最先端トラッカーに適用すると、MOTA、HOTA、AssA、ID、IFF1スコアの一貫性のある改善が達成される。 例えば、MOT17では、FairMOTを使用すると+1.1 MOTA、+1.7 HOTA、+1.8 IDF1の改善が得られる。 属性支援MOTに関するさらなる研究を促進するため、AttMOTデータセットをリリースする。

Multi-object tracking (MOT) is a fundamental problem in computer vision with numerous applications, such as intelligent surveillance and automated driving. Despite the significant progress made in MOT, pedestrian attributes, such as gender, hairstyle, body shape, and clothing features, which contain rich and high-level information, have been less explored. To address this gap, we propose a simple, effective, and generic method to predict pedestrian attributes to support general Re-ID embedding. We first introduce AttMOT, a large, highly enriched synthetic dataset for pedestrian tracking, containing over 80k frames and 6 million pedestrian IDs with different time, weather conditions, and scenarios. To the best of our knowledge, AttMOT is the first MOT dataset with semantic attributes. Subsequently, we explore different approaches to fuse Re-ID embedding and pedestrian attributes, including attention mechanisms, which we hope will stimulate the development of attribute-assisted MOT. The proposed method AAM demonstrates its effectiveness and generality on several representative pedestrian multi-object tracking benchmarks, including MOT17 and MOT20, through experiments on the AttMOT dataset. When applied to state-of-the-art trackers, AAM achieves consistent improvements in MOTA, HOTA, AssA, IDs, and IDF1 scores. For instance, on MOT17, the proposed method yields a +1.1 MOTA, +1.7 HOTA, and +1.8 IDF1 improvement when used with FairMOT. To encourage further research on attribute-assisted MOT, we will release the AttMOT dataset.
翻訳日:2023-08-16 14:23:23 公開日:2023-08-15
# 凸下レベル問題を用いた確率的単純二値最適化のための投影自由法

Projection-Free Methods for Stochastic Simple Bilevel Optimization with Convex Lower-level Problem ( http://arxiv.org/abs/2308.07536v1 )

ライセンス: Link先を確認
Jincheng Cao, Ruichen Jiang, Nazanin Abolfazli, Erfan Yazdandoost Hamedani, Aryan Mokhtari(参考訳) 本稿では,確率的二段階最適化問題(stochastic simple bilevel optimization)のクラスについて検討し,他の確率的凸最適化問題の最適解集合よりもスムーズな確率的目的関数を最小化する。 確率的切削平面を介して下層問題の解集合を局所的に近似する新しい確率的二段階最適化法を導入し, 分散還元法を用いて条件付き勾配更新を行い, 確率的勾配を用いた誤差制御を行う。 上位レベル関数が凸である場合、このメソッドは$\tilde{\mathcal{o}}(\max\{1/\epsilon_f^{2},1/\epsilon_g^{2}\})$確率oracleクエリを必要とし、上位レベルに対して$\epsilon_f$-optimal、下位レベルで$\epsilon_g$-optimalとなる解を得る。 この保証により、$\mathcal{O}(\max\{1/\epsilon_f^{4},1/\epsilon_g^{4}\})$の既知複雑性が向上する。 さらに、上層関数が非凸である場合、我々の方法は少なくとも$\tilde{\mathcal{O}}(\max\{1/\epsilon_f^{3},1/\epsilon_g^{3}\}) $ 確率的なオラクルクエリーを求め、$(\epsilon_f, \epsilon_g)$-定常点を求める。 有限サム設定では、我々のメソッドで要求される確率的オラクル呼び出しの数が$\tilde{\mathcal{O}}(\sqrt{n}/\epsilon)$と$\tilde{\mathcal{O}}(\sqrt{n}/\epsilon^{2})$であり、それぞれ凸と非凸の設定に対して$\epsilon=\min \{\epsilon_f,\epsilon_g\}$であることを示す。

In this paper, we study a class of stochastic bilevel optimization problems, also known as stochastic simple bilevel optimization, where we minimize a smooth stochastic objective function over the optimal solution set of another stochastic convex optimization problem. We introduce novel stochastic bilevel optimization methods that locally approximate the solution set of the lower-level problem via a stochastic cutting plane, and then run a conditional gradient update with variance reduction techniques to control the error induced by using stochastic gradients. For the case that the upper-level function is convex, our method requires $\tilde{\mathcal{O}}(\max\{1/\epsilon_f^{2},1/\epsilon_g^{2}\}) $ stochastic oracle queries to obtain a solution that is $\epsilon_f$-optimal for the upper-level and $\epsilon_g$-optimal for the lower-level. This guarantee improves the previous best-known complexity of $\mathcal{O}(\max\{1/\epsilon_f^{4},1/\epsilon_g^{4}\})$. Moreover, for the case that the upper-level function is non-convex, our method requires at most $\tilde{\mathcal{O}}(\max\{1/\epsilon_f^{3},1/\epsilon_g^{3}\}) $ stochastic oracle queries to find an $(\epsilon_f, \epsilon_g)$-stationary point. In the finite-sum setting, we show that the number of stochastic oracle calls required by our method are $\tilde{\mathcal{O}}(\sqrt{n}/\epsilon)$ and $\tilde{\mathcal{O}}(\sqrt{n}/\epsilon^{2})$ for the convex and non-convex settings, respectively, where $\epsilon=\min \{\epsilon_f,\epsilon_g\}$.
翻訳日:2023-08-16 14:22:38 公開日:2023-08-15
# 改良型Few-Shotオブジェクト検出のための地域提案ネットワーク

Improved Region Proposal Network for Enhanced Few-Shot Object Detection ( http://arxiv.org/abs/2308.07535v1 )

ライセンス: Link先を確認
Zeyu Shangguan and Mohammad Rostami(参考訳) オブジェクト検出タスクにおけるディープラーニングの成功にもかかわらず、ディープニューラルネットワークの標準的なトレーニングでは、すべてのクラスにわたって大量の注釈付きイメージにアクセスする必要がある。 データアノテーションは、特に頻度の低いオブジェクトを扱う場合、困難で時間を要する取り組みです。 Few-shot Object Detection (FSOD) は、ディープラーニングに基づく古典的オブジェクト検出手法の限界に対する解決策として登場した。 FSOD法は、非常に少ないトレーニングデータを用いて、堅牢なオブジェクト検出を実現することにより、顕著な性能を示す。 FSODの課題は、固定されたトレーニングクラスのセットに属さない新しいクラスのインスタンスが背景に現れ、ベースモデルが潜在的なオブジェクトとしてそれらを拾うことだ。 これらのオブジェクトは、トレーニングデータセットクラスの1つに分類され、fsodパフォーマンスが低下するため、ラベルノイズと同様に振る舞う。 FSODトレーニング段階において,未ラベルの新規物体を正のサンプルとして検出し,利用するための半教師付きアルゴリズムを開発した。 具体的には,階層型3次分類領域提案ネットワーク (htrpn) を開発し,ラベルのない新規オブジェクトをローカライズし,それらのオブジェクトをベーストレーニングデータセットクラスと区別するための新しいオブジェクト性ラベルを割り当てる。 地域提案ネットワーク(RPN)の階層的サンプリング戦略の改善により、大規模オブジェクトに対する物体検出モデルの認識能力も向上する。 FSOD文献で一般的に用いられているCOCOおよびPASCALVOCベースラインについて検討した。 実験の結果,本手法は既存のSOTA FSOD法よりも有効であり,優れた結果が得られた。 本実装は,結果の再現性を支援するサプリメントとして提供される。

Despite significant success of deep learning in object detection tasks, the standard training of deep neural networks requires access to a substantial quantity of annotated images across all classes. Data annotation is an arduous and time-consuming endeavor, particularly when dealing with infrequent objects. Few-shot object detection (FSOD) methods have emerged as a solution to the limitations of classic object detection approaches based on deep learning. FSOD methods demonstrate remarkable performance by achieving robust object detection using a significantly smaller amount of training data. A challenge for FSOD is that instances from novel classes that do not belong to the fixed set of training classes appear in the background and the base model may pick them up as potential objects. These objects behave similarly to label noise because they are classified as one of the training dataset classes, leading to FSOD performance degradation. We develop a semi-supervised algorithm to detect and then utilize these unlabeled novel objects as positive samples during the FSOD training stage to improve FSOD performance. Specifically, we develop a hierarchical ternary classification region proposal network (HTRPN) to localize the potential unlabeled novel objects and assign them new objectness labels to distinguish these objects from the base training dataset classes. Our improved hierarchical sampling strategy for the region proposal network (RPN) also boosts the perception ability of the object detection model for large objects. We test our approach and COCO and PASCAL VOC baselines that are commonly used in FSOD literature. Our experimental results indicate that our method is effective and outperforms the existing state-of-the-art (SOTA) FSOD methods. Our implementation is provided as a supplement to support reproducibility of the results.
翻訳日:2023-08-16 14:21:21 公開日:2023-08-15
# 信頼の輪郭:不確かさを意識した医用セマンティックセグメンテーション

Confidence Contours: Uncertainty-Aware Annotation for Medical Semantic Segmentation ( http://arxiv.org/abs/2308.07528v1 )

ライセンス: Link先を確認
Andre Ye, Quan Ze Chen, Amy Zhang(参考訳) 医用画像セグメンテーションモデリングは、視覚的曖昧性に対処するために不確実性を理解することが不可欠である、高い視点の課題である。 先行研究は、アノテータが特異な境界を描くラベルから不確かさを推測するために確率的あるいは生成的メカニズムを利用したセグメンテーションモデルを開発した。 しかし、これらのアノテーションは個々のアノテーションの不確実性を表現できないため、それらに基づいて訓練されたモデルは解釈が難しい不確実性マップを生成する。 本研究では,不確実性を直接捉えるために,高信頼感と低信頼感を用いた新しいセグメンテーション表現である信頼度輪郭を提案し,輪郭を収集するための新しいアノテーションシステムを開発した。 我々はLung Image Dataset Consortium(LIDC)と合成データセットの評価を行う。 30名を対象にした注釈研究から,信頼性コンターはアノテータの努力を著しく高めることなく,高い代表能力を提供することが示された。 また、汎用セグメンテーションモデルは標準特異アノテーションと同じパフォーマンスレベルで信頼度パターンを学習することができる。 最後に、5人の医療専門家とのインタビューから、信頼度コンターマップは構造的不確実性の表現によりベイズ地図よりも解釈可能であることがわかった。

Medical image segmentation modeling is a high-stakes task where understanding of uncertainty is crucial for addressing visual ambiguity. Prior work has developed segmentation models utilizing probabilistic or generative mechanisms to infer uncertainty from labels where annotators draw a singular boundary. However, as these annotations cannot represent an individual annotator's uncertainty, models trained on them produce uncertainty maps that are difficult to interpret. We propose a novel segmentation representation, Confidence Contours, which uses high- and low-confidence ``contours'' to capture uncertainty directly, and develop a novel annotation system for collecting contours. We conduct an evaluation on the Lung Image Dataset Consortium (LIDC) and a synthetic dataset. From an annotation study with 30 participants, results show that Confidence Contours provide high representative capacity without considerably higher annotator effort. We also find that general-purpose segmentation models can learn Confidence Contours at the same performance level as standard singular annotations. Finally, from interviews with 5 medical experts, we find that Confidence Contour maps are more interpretable than Bayesian maps due to representation of structural uncertainty.
翻訳日:2023-08-16 14:20:57 公開日:2023-08-15
# featgenn:相関型特徴抽出による表データモデル性能の向上

FeatGeNN: Improving Model Performance for Tabular Data with Correlation-based Feature Extraction ( http://arxiv.org/abs/2308.07527v1 )

ライセンス: Link先を確認
Sammuel Ramos Silva and Rodrigo Silva(参考訳) 自動機能エンジニアリング(autofe:automatic feature engineering)は、モデルのパフォーマンス向上と統計解析のさらなる情報獲得に役立つため、マシンラーニングプロジェクトにおいて重要なタスクとなっている。 しかし、現在のAutoFEのアプローチのほとんどは、多数の機能を生成することができる手動の機能生成や使用方法に依存しており、計算集約的で過度な適合につながる可能性がある。 これらの課題に対処するために,相関関数をプーリング関数として,新たな特徴抽出と生成を行う,featgennと呼ばれる新しい畳み込み手法を提案する。 最大プーリングのような従来のプール機能とは異なり、相関ベースのプーリングはデータマトリックスの機能間の線形関係を考慮し、表データにより適している。 提案手法を様々なベンチマークデータセット上で評価し,FeatGeNNがモデル性能に関する既存のAutoFEアプローチより優れていることを示す。 この結果から,相関型プールは表データアプリケーションにおけるAutoFEの最大プールの代替となる可能性が示唆された。

Automated Feature Engineering (AutoFE) has become an important task for any machine learning project, as it can help improve model performance and gain more information for statistical analysis. However, most current approaches for AutoFE rely on manual feature creation or use methods that can generate a large number of features, which can be computationally intensive and lead to overfitting. To address these challenges, we propose a novel convolutional method called FeatGeNN that extracts and creates new features using correlation as a pooling function. Unlike traditional pooling functions like max-pooling, correlation-based pooling considers the linear relationship between the features in the data matrix, making it more suitable for tabular data. We evaluate our method on various benchmark datasets and demonstrate that FeatGeNN outperforms existing AutoFE approaches regarding model performance. Our results suggest that correlation-based pooling can be a promising alternative to max-pooling for AutoFE in tabular data applications.
翻訳日:2023-08-16 14:20:33 公開日:2023-08-15
# 原子力システム用ディジタル二重誘導技術におけるディープオペレータネットワークの可能性

Potential of Deep Operator Networks in Digital Twin-enabling Technology for Nuclear System ( http://arxiv.org/abs/2308.07523v1 )

ライセンス: Link先を確認
Kazuma Kobayashi, Syed Bahauddin Alam(参考訳) 本研究では,Deep Operator Network (DeepONet) を,原子力工学におけるディジタルツイン (DT) システムのコンテキストにおける堅牢な代理モデリング手法として紹介する。 炭素中性溶液としての核エネルギーの重要性が高まるにつれ、DT技術の採用は原子力工学応用における運用効率、安全性、予測能力の向上に欠かせないものとなっている。 DeepONetは、従来のMLメソッドよりも優れた予測精度を示している。 本研究では,DeepONetの大規模ベンチマークと評価を通じて,難解な粒子輸送問題の解法におけるスケーラビリティと計算効率を示す。 関数を入力データとして取り、トレーニングデータから演算子$G$を構築することで、DeepONetは多様な複雑なシナリオを効果的に処理できる。 しかし,DeepONetの応用は,センサ配置やモデル評価,実世界の実装における重要な側面に関わる課題も明らかにしている。 これらの課題に対処することで、メソッドの実用性と信頼性がさらに向上する。 deeponetは全体として、核工学の研究と応用に有望でトランスフォーメーションなツールを提供する。 その正確な予測と計算効率の能力はDTシステムに革命をもたらし、原子力工学の研究を前進させる。 本研究は、重要な工学領域におけるサロゲートモデリング技術のパワーを活用するための重要なステップである。

This research introduces the Deep Operator Network (DeepONet) as a robust surrogate modeling method within the context of digital twin (DT) systems for nuclear engineering. With the increasing importance of nuclear energy as a carbon-neutral solution, adopting DT technology has become crucial to enhancing operational efficiencies, safety, and predictive capabilities in nuclear engineering applications. DeepONet exhibits remarkable prediction accuracy, outperforming traditional ML methods. Through extensive benchmarking and evaluation, this study showcases the scalability and computational efficiency of DeepONet in solving a challenging particle transport problem. By taking functions as input data and constructing the operator $G$ from training data, DeepONet can handle diverse and complex scenarios effectively. However, the application of DeepONet also reveals challenges related to optimal sensor placement and model evaluation, critical aspects of real-world implementation. Addressing these challenges will further enhance the method's practicality and reliability. Overall, DeepONet presents a promising and transformative tool for nuclear engineering research and applications. Its accurate prediction and computational efficiency capabilities can revolutionize DT systems, advancing nuclear engineering research. This study marks an important step towards harnessing the power of surrogate modeling techniques in critical engineering domains.
翻訳日:2023-08-16 14:20:16 公開日:2023-08-15
# 微調整BERTモデルとLSTMモデルを用いた10-Kレポートからのステークホルダー情報発見

Finding Stakeholder-Material Information from 10-K Reports using Fine-Tuned BERT and LSTM Models ( http://arxiv.org/abs/2308.07522v1 )

ライセンス: Link先を確認
Victor Zitian Chen(参考訳) 公開企業はすべて、連邦証券法によって毎年10-kの報告書で事業や金融活動の開示が求められている。 レポートは通常、数百ページに及ぶため、人間の読者が素材情報を効率的に識別し抽出することが困難になる。 この問題を解決するため、LSTMレイヤを用いたBERTモデルとRNNモデルを微調整し、顧客、従業員、投資家、およびコミュニティや自然環境など、企業の利害関係者への影響に関する情報を伝達する声明として定義する。 既存のプラクティスではキーワード検索を使ってその情報を識別しています。 2022年に発表された62の10-Kレポートから6000文近いビジネス専門家ラベル付きトレーニングデータを用いて、最良のモデルは、それぞれベースラインモデルの0.781と0.749を大きく上回る0.904とF1スコアの0.899の精度を達成した。 さらに、4つの異なる利害関係者グループ(顧客、投資家、従業員、コミュニティおよび自然環境)が別々にテストされている。 同様に、微調整のBERTモデルはLSTMとベースラインを上回りました。 今後の拡張に向けた産業応用とアイデアについて論じる。

All public companies are required by federal securities law to disclose their business and financial activities in their annual 10-K reports. Each report typically spans hundreds of pages, making it difficult for human readers to identify and extract the material information efficiently. To solve the problem, I have fine-tuned BERT models and RNN models with LSTM layers to identify stakeholder-material information, defined as statements that carry information about a company's influence on its stakeholders, including customers, employees, investors, and the community and natural environment. The existing practice uses keyword search to identify such information, which is my baseline model. Using business expert-labeled training data of nearly 6,000 sentences from 62 10-K reports published in 2022, the best model has achieved an accuracy of 0.904 and an F1 score of 0.899 in test data, significantly above the baseline model's 0.781 and 0.749 respectively. Furthermore, the same work was replicated on more granular taxonomies, based on which four distinct groups of stakeholders (i.e., customers, investors, employees, and the community and natural environment) are tested separately. Similarly, fined-tuned BERT models outperformed LSTM and the baseline. The implications for industry application and ideas for future extensions are discussed.
翻訳日:2023-08-16 14:19:58 公開日:2023-08-15
# 因果構造学習における非線形性、フィードバック、均一性

Nonlinearity, Feedback and Uniform Consistency in Causal Structural Learning ( http://arxiv.org/abs/2308.07520v1 )

ライセンス: Link先を確認
Shuyan Wang(参考訳) Causal Discoveryの目的は、観測データから因果構造を学習するための自動探索方法を見つけることである。 ある場合、興味ある因果メカニズムのすべての変数が測定され、ある測定された変数が他の変数に与える影響を予測する。 対照的に、プライマリ関心のある変数は直接観測可能ではなく、データ内のその表現から推測されることもある。 これらは潜在変数と呼ばれる。 一般的な例として、知能の心理的構成があるが、これは直接測定できないため、研究者はIQテストのような様々な指標を用いて評価しようとする。 この場合、カジュアルな発見アルゴリズムは、潜在変数と観測変数との間の因果関係を明らかにするために、基礎となるパターンや構造を明らかにすることができる。 この論文は因果発見における2つの疑問に焦点を当てている: k-三角忠実性の別の定義を提供する。 (i)分布のガウス族に適用した場合、強い忠実さよりも弱い。 (ii)分布の非ガウシアン族に適用でき、 (iii) 強忠実性の修正版が持つという仮定の下では、修正因果発見アルゴリズムの均一な一貫性を示すために使用することができ、潜在変数を持つ因果構造を学ぶための十分性仮定を緩和することができる。 複雑なシステムの理解と予測における因果関係の推論の重要性を考えると, 様々な単純化仮定を緩和する研究は, 因果発見法を多種多様な因果機構と統計的現象により広い範囲に適用できるよう拡張することが期待される。

The goal of Causal Discovery is to find automated search methods for learning causal structures from observational data. In some cases all variables of the interested causal mechanism are measured, and the task is to predict the effects one measured variable has on another. In contrast, sometimes the variables of primary interest are not directly observable but instead inferred from their manifestations in the data. These are referred to as latent variables. One commonly known example is the psychological construct of intelligence, which cannot directly measured so researchers try to assess through various indicators such as IQ tests. In this case, casual discovery algorithms can uncover underlying patterns and structures to reveal the causal connections between the latent variables and between the latent and observed variables. This thesis focuses on two questions in causal discovery: providing an alternative definition of k-Triangle Faithfulness that (i) is weaker than strong faithfulness when applied to the Gaussian family of distributions, (ii) can be applied to non-Gaussian families of distributions, and (iii) under the assumption that the modified version of Strong Faithfulness holds, can be used to show the uniform consistency of a modified causal discovery algorithm; relaxing the sufficiency assumption to learn causal structures with latent variables. Given the importance of inferring cause-and-effect relationships for understanding and forecasting complex systems, the work in this thesis of relaxing various simplification assumptions is expected to extend the causal discovery method to be applicable in a wider range with diversified causal mechanism and statistical phenomena.
翻訳日:2023-08-16 14:19:33 公開日:2023-08-15
# 資源管理アルゴリズムからニューラルネットワークへの知識の希薄化:統一トレーニング支援アプローチ

Distilling Knowledge from Resource Management Algorithms to Neural Networks: A Unified Training Assistance Approach ( http://arxiv.org/abs/2308.07511v1 )

ライセンス: Link先を確認
Longfei Ma, Nan Cheng, Xiucheng Wang, Zhisheng Yin, Haibo Zhou, Wei Quan(参考訳) 基本的な問題として,マルチユーザ設定におけるsinr(signal-to-interference-plus-noise ratio)の最適化に多くの手法が組み込まれている。 従来のモデルベース最適化手法は高いパフォーマンスを実現するが、高い複雑性は、パフォーマンスと複雑性をトレードオフするためのニューラルネットワーク(NN)ベースのアプローチを高くする。 To fully leverage the high performance of traditional model-based methods and the low complexity of the NN-based method, a knowledge distillation (KD) based algorithm distillation (AD) method is proposed in this paper to improve the performance and convergence speed of the NN-based method, where traditional SINR optimization methods are employed as ``teachers" to assist the training of NNs, which are ``students", thus enhancing the performance of unsupervised and reinforcement learning techniques. 本研究の目的は,各学習パラダイムで遭遇する共通問題を緩和することであり,ラベルとしての最適解の獲得や教師なし学習における過度な適合性,教師なし学習における収束性能の向上,強化学習における訓練効率の向上などである。 シミュレーションの結果,従来の学習手法と比較してAD法の性能が向上した。 この研究は,無線通信システム最適化における従来の最適化洞察と新しいNN技術の統合の道を開くものである。

As a fundamental problem, numerous methods are dedicated to the optimization of signal-to-interference-plus-noise ratio (SINR), in a multi-user setting. Although traditional model-based optimization methods achieve strong performance, the high complexity raises the research of neural network (NN) based approaches to trade-off the performance and complexity. To fully leverage the high performance of traditional model-based methods and the low complexity of the NN-based method, a knowledge distillation (KD) based algorithm distillation (AD) method is proposed in this paper to improve the performance and convergence speed of the NN-based method, where traditional SINR optimization methods are employed as ``teachers" to assist the training of NNs, which are ``students", thus enhancing the performance of unsupervised and reinforcement learning techniques. This approach aims to alleviate common issues encountered in each of these training paradigms, including the infeasibility of obtaining optimal solutions as labels and overfitting in supervised learning, ensuring higher convergence performance in unsupervised learning, and improving training efficiency in reinforcement learning. Simulation results demonstrate the enhanced performance of the proposed AD-based methods compared to traditional learning methods. Remarkably, this research paves the way for the integration of traditional optimization insights and emerging NN techniques in wireless communication system optimization.
翻訳日:2023-08-16 14:19:08 公開日:2023-08-15
# 高信頼・低信頼予測による半監督学習の促進

Boosting Semi-Supervised Learning by bridging high and low-confidence predictions ( http://arxiv.org/abs/2308.07509v1 )

ライセンス: Link先を確認
Khanh-Binh Nguyen, Joon-Sung Yang(参考訳) Pseudo-labelingは半教師付き学習(SSL)において重要なテクニックであり、トレーニングされたモデルによってラベルなしデータに対して人工ラベルを生成する。 しかし、いくつかの研究は疑似ラベルに基づくアプローチの3つの主要な問題を特定している。 第一に、これらの手法はトレーニングされたモデルからの予測に大きく依存しており、必ずしも正確とは限らないため、確認バイアス問題を引き起こす。 第二に、訓練されたモデルは難解な例に過度に適合し、難解な例を無視して、既に強いものが強くなり弱くなる「textit{"Matthew effect"」となる。 第3に、ラベルなしデータの低信頼予測のほとんどは、高いしきい値の使用によって破棄され、トレーニング中のラベルなしデータの未利用につながる。 これらの問題に対処するために,トレーニング中にラベルのないデータをすべて活用し,モデルの一般化性とsslベンチマークの性能を向上させることを目的とした,refixmatchと呼ばれる新しい手法を提案する。 特に、ReFixMatchはImageNet上の100kラベルの例で41.05\%のトップ-1の精度を実現し、ベースラインのFixMatchと現在の最先端メソッドを上回っている。

Pseudo-labeling is a crucial technique in semi-supervised learning (SSL), where artificial labels are generated for unlabeled data by a trained model, allowing for the simultaneous training of labeled and unlabeled data in a supervised setting. However, several studies have identified three main issues with pseudo-labeling-based approaches. Firstly, these methods heavily rely on predictions from the trained model, which may not always be accurate, leading to a confirmation bias problem. Secondly, the trained model may be overfitted to easy-to-learn examples, ignoring hard-to-learn ones, resulting in the \textit{"Matthew effect"} where the already strong become stronger and the weak weaker. Thirdly, most of the low-confidence predictions of unlabeled data are discarded due to the use of a high threshold, leading to an underutilization of unlabeled data during training. To address these issues, we propose a new method called ReFixMatch, which aims to utilize all of the unlabeled data during training, thus improving the generalizability of the model and performance on SSL benchmarks. Notably, ReFixMatch achieves 41.05\% top-1 accuracy with 100k labeled examples on ImageNet, outperforming the baseline FixMatch and current state-of-the-art methods.
翻訳日:2023-08-16 14:18:48 公開日:2023-08-15
# Neバッファーガスを用いたセル中での$^{85}$Rb蒸気のRydberg-EIT

Rydberg-EIT of $^{85}$Rb vapor in a cell with Ne buffer gas ( http://arxiv.org/abs/2308.07554v1 )

ライセンス: Link先を確認
Nithiwadee Thaicharoen, Ryan Cardman, Georg Raithel(参考訳) 我々は,5-トルネオンバッファーガスを含むガラスセル中の$^{85}$Rb原子蒸気のリドバーグ電磁誘導透過(EIT)について検討した。 ロープローブパワーでは、EIT線は約70〜MHzの正の周波数シフトを示し、約120〜MHzの幅を拡大し、ライドバーグ状態の主量子数に最小限依存する。 EIT線シフトは、リドベルク電子とネ原子間のs波散乱によって発生し、190〜MHz付近の正のシフトを誘導し、また、リドベルク原子内のネ原子の偏極によって-120~MHz付近の負のシフトが生じる。 線幅拡大は、主にne偏光によるものである。 実験結果は,バッファガス密度が線形となる理論モデルと良好に一致している。 以上の結果から,Rydberg-EITは低圧力下でのバッファーガス密度の直接分光プローブとして機能し,低圧希ガス放電プラズマおよびダスト状プラズマ中の電界の非侵襲的測定に好適であることが示唆された。

We investigate Rydberg electromagnetically induced transparency (EIT) of $^{85}$Rb atomic vapor in a glass cell that contains a 5-Torr neon buffer gas. At low probe power, EIT lines exhibit a positive frequency shift of about 70~MHz and a broadening of about 120~MHz, with minimal dependence on the principal quantum number of the Rydberg states. The EIT line shift arises from s-wave scattering between the Rydberg electron and the Ne atoms, which induces a positive shift near 190~MHz, and from the polarization of the Ne atoms within the Rydberg atom, which adds a negative shift near -120~MHz. The line broadening is largely due to the Ne polarization. Our experimental results are in good qualitative agreement with our theoretical model, in which the shift is linear in buffer-gas density. Our results suggest that Rydberg-EIT can serve as a direct spectroscopic probe for buffer-gas density at low pressure, and that it is suitable for non-invasive measurement of electric fields in low-pressure noble-gas discharge plasmas and in dusty plasmas.
翻訳日:2023-08-16 14:11:27 公開日:2023-08-15
# antidoteの強化: 中毒攻撃に対するポイントワイズ認定の改善

Enhancing the Antidote: Improved Pointwise Certifications against Poisoning Attacks ( http://arxiv.org/abs/2308.07553v1 )

ライセンス: Link先を確認
Shijie Liu, Andrew C. Cullen, Paul Montague, Sarah M. Erfani, Benjamin I. P. Rubinstein(参考訳) 毒殺攻撃は、トレーニングコーパスに小さな変更を加えることで、モデルの振る舞いに不釣り合いに影響を及ぼす。 特定の毒殺攻撃に対する防御は存在するが、一般的には保証がなく、新しい攻撃によって対抗する可能性がある。 対照的に、最悪の場合の振る舞いを調べることで、認証された防衛は、ポイントワイド認証として知られる限られた数のトレーニングサンプルを変更する敵攻撃に対して、サンプルの堅牢性を保証することができる。 これを実現するために、差分プライバシーとサンプリングガウス機構の両方を利用して、有限個の有毒例に対して各テストインスタンスの予測のばらつきを確実にする。 そうすることで、我々のモデルは、先行認定の2倍以上の大きさの敵対的堅牢性の保証を提供する。

Poisoning attacks can disproportionately influence model behaviour by making small changes to the training corpus. While defences against specific poisoning attacks do exist, they in general do not provide any guarantees, leaving them potentially countered by novel attacks. In contrast, by examining worst-case behaviours Certified Defences make it possible to provide guarantees of the robustness of a sample against adversarial attacks modifying a finite number of training samples, known as pointwise certification. We achieve this by exploiting both Differential Privacy and the Sampled Gaussian Mechanism to ensure the invariance of prediction for each testing instance against finite numbers of poisoned examples. In doing so, our model provides guarantees of adversarial robustness that are more than twice as large as those provided by prior certifications.
翻訳日:2023-08-16 14:11:04 公開日:2023-08-15
# 火炎に基づく多視点3次元顔再構成

Multi-view 3D Face Reconstruction Based on Flame ( http://arxiv.org/abs/2308.07551v1 )

ライセンス: Link先を確認
Wenzhuo Zheng, Junhao Zhao, Xiaohong Liu, Yongyang Pan, Zhenghao Gan, Haozhe Han, Ning Liu(参考訳) 現在,face 3dリコンストラクションは様々な分野で広く応用されているが,その研究はまだ開発段階にある。 本稿では,マルチビュー・トレーニングフレームワークとフェイスパラメトリック・モデル・フレイムを組み合わせることで,より優れた顔3次元再現性の実現を図り,マルチビュー・トレーニング・テストモデルmfnet(multi-view flame network)を提案する。 我々は,自己指導型トレーニングフレームワークを構築し,多視点光フロー損失関数や顔ランドマーク損失などの制約を実装し,最終的に完全なMFNetを得る。 マルチビュー光フロー損失と可視マスクの革新的実装を提案する。 aflwとfacescapeデータセットでモデルをテストし、実際のシナリオを可能な限りシミュレーションしながら、顔の写真を撮って3d顔を再構築します。 本研究は, 顔のパラメトリックモデルと顔の3次元再構成を併用する問題に主に対処し, 顔の3次元再構成に寄与するFlameベースのマルチビュートレーニングおよびテストフレームワークの実装について検討する。

At present, face 3D reconstruction has broad application prospects in various fields, but the research on it is still in the development stage. In this paper, we hope to achieve better face 3D reconstruction quality by combining multi-view training framework with face parametric model Flame, propose a multi-view training and testing model MFNet (Multi-view Flame Network). We build a self-supervised training framework and implement constraints such as multi-view optical flow loss function and face landmark loss, and finally obtain a complete MFNet. We propose innovative implementations of multi-view optical flow loss and the covisible mask. We test our model on AFLW and facescape datasets and also take pictures of our faces to reconstruct 3D faces while simulating actual scenarios as much as possible, which achieves good results. Our work mainly addresses the problem of combining parametric models of faces with multi-view face 3D reconstruction and explores the implementation of a Flame based multi-view training and testing framework for contributing to the field of face 3D reconstruction.
翻訳日:2023-08-16 14:10:51 公開日:2023-08-15
# 導波路QEDにおける温度関連単一光子輸送

Temperature-related single-photon transport in waveguide QED ( http://arxiv.org/abs/2308.07548v1 )

ライセンス: Link先を確認
Wei-Bin Yan, Zhong-Xiao Man, Ying-Jie Zhang, and Yun-Jie Xia(参考訳) 温度の影響を受ける単一光子輸送を実現する手法を提案する。 このスキームは、熱浴に結合した導波路-原子相互作用構造によって構成される。 熱浴の温度を調整することにより、単光子反射係数を調整できる。 これは単光子輸送の熱制御を提供する。 また、単光子輸送を測定することにより、熱浴の温度を推定することができる。 温度の推定は、低温のわずかな変化に敏感である可能性が考えられる。 これは、低温領域の試料温度を正確に測定できる光学温度計を実装するための道を意味する。

We propose a scheme to realize the single-photon transport affected by the temperature. The scheme is composed by a waveguide-atom interacting structure linked to a thermal bath. The single-photon reflection coefficient can be tuned by adjusting the temperature of the thermal bath. This provides a thermal control of the single-photon transport. Moreover, the temperature of the thermal bath can be estimated by measuring the single-photon transport. It is feasible that the estimation on the temperature is sensitive to slight changes of low temperature. This implies an avenue for implementing the optical thermometer with the ability to accurately measure the sample temperature in the low-temperature region.
翻訳日:2023-08-16 14:10:31 公開日:2023-08-15
# 3DHacker: ハードラベル3Dポイントクラウド攻撃のためのスペクトルベースの決定境界生成

3DHacker: Spectrum-based Decision Boundary Generation for Hard-label 3D Point Cloud Attack ( http://arxiv.org/abs/2308.07546v1 )

ライセンス: Link先を確認
Yunbo Tao, Daizong Liu, Pan Zhou, Yulai Xie, Wei Du, Wei Hu(参考訳) 深度センサーの成熟に伴い、3Dポイントクラウドモデルの脆弱性は、自律運転やロボットナビゲーションといった様々なアプリケーションで注目を集めている。 従来の3D攻撃者は、ホワイトボックス設定に従い、勾配に基づいて座標摂動を反復的に更新するか、出力モデルロジットを使用してブラックボックス設定のノイズ勾配を推定する。 しかし、現実的な3Dアプリケーションではユーザにモデルの詳細を共有できないため、これらの攻撃方法は現実のシナリオに展開するのは難しい。 そこで我々は,攻撃者が入力の予測ラベルへのアクセスしかできないブラックボックスのハードラベルでポイントクラウドを攻撃する,より挑戦的で実用的な3dアタック設定である \textit{i.e.} を探索する。 そこで本研究では, クラスラベルの知識にのみ依存した敵対的サンプルを生成するための決定境界アルゴリズムに基づいて, 新たな3Dアタック手法である「textbf{3D} \textbf{H}ard-label att\textbf{acker} (\textbf{3DHacker})」を提案する。 具体的には、クラス認識モデル決定境界を構築するために、3DHackerはまずスペクトル領域内の異なるクラスの2点の雲をランダムに融合し、中間サンプルを高い知覚力で作成し、二分探索によって決定境界に投影する。 最終的な摂動サイズを制限するため、3DHackerはさらに、最小の自明な摂動を持つ対向点雲を生成するための中間サンプルを決定境界に沿って移動させる反復最適化戦略を導入する。 大規模な評価では、挑戦的なハードラベル設定であっても、3DHackerは攻撃性能と敵の品質に関する既存の3D攻撃よりも競争力が高いことが示されている。

With the maturity of depth sensors, the vulnerability of 3D point cloud models has received increasing attention in various applications such as autonomous driving and robot navigation. Previous 3D adversarial attackers either follow the white-box setting to iteratively update the coordinate perturbations based on gradients, or utilize the output model logits to estimate noisy gradients in the black-box setting. However, these attack methods are hard to be deployed in real-world scenarios since realistic 3D applications will not share any model details to users. Therefore, we explore a more challenging yet practical 3D attack setting, \textit{i.e.}, attacking point clouds with black-box hard labels, in which the attacker can only have access to the prediction label of the input. To tackle this setting, we propose a novel 3D attack method, termed \textbf{3D} \textbf{H}ard-label att\textbf{acker} (\textbf{3DHacker}), based on the developed decision boundary algorithm to generate adversarial samples solely with the knowledge of class labels. Specifically, to construct the class-aware model decision boundary, 3DHacker first randomly fuses two point clouds of different classes in the spectral domain to craft their intermediate sample with high imperceptibility, then projects it onto the decision boundary via binary search. To restrict the final perturbation size, 3DHacker further introduces an iterative optimization strategy to move the intermediate sample along the decision boundary for generating adversarial point clouds with smallest trivial perturbations. Extensive evaluations show that, even in the challenging hard-label setting, 3DHacker still competitively outperforms existing 3D attacks regarding the attack performance as well as adversary quality.
翻訳日:2023-08-16 14:10:23 公開日:2023-08-15
# 画像検索のためのマルチモーダルデータセット蒸留

Multimodal Dataset Distillation for Image-Text Retrieval ( http://arxiv.org/abs/2308.07545v1 )

ライセンス: Link先を確認
Xindi Wu, Zhiwei Deng, Olga Russakovsky(参考訳) データセット蒸留法は、大規模なデータセットを、新しいモデルをスクラッチからトレーニングするのに十分な情報を保存する(潜在的に合成された)トレーニング例のかなり小さなセットに削減できる。 これまで画像分類のためのデータセット蒸留法が開発されてきた。 しかし、視覚言語モデルの能力が高まり、特にこれらのモデルの訓練に必要なデータセットの規模を考えると、データセットの蒸留法を画像分類以外にも拡張する時期が熟成している。 本研究では, 軌跡マッチングの考え方を拡張し, 視覚言語データセットの蒸留法を作成することで, この目標に向けて第一歩を踏み出す。 重要な課題は、視覚言語データセットが離散クラスの集合を持っていないことである。 そこで本研究では,画像と対応する言語記述をコントラスト式で共同蒸留する多モードデータセット蒸留法を提案する。 既存のベースラインがないため、我々のアプローチを3つのコアセット選択方法(トレーニングデータセットの戦略的なサブサンプリング)と比較し、視覚言語の設定に適応する。 flickr30k と coco 検索ベンチマークの課題に対して大きな改善が得られた: トレーニングのために1000のイメージテキストペアを選択できる最良のコアセット選択手法は、5.6%のイメージからテキストへの検索精度(recall@1)しか達成できない。

Dataset distillation methods offer the promise of reducing a large-scale dataset down to a significantly smaller set of (potentially synthetic) training examples, which preserve sufficient information for training a new model from scratch. So far dataset distillation methods have been developed for image classification. However, with the rise in capabilities of vision-language models, and especially given the scale of datasets necessary to train these models, the time is ripe to expand dataset distillation methods beyond image classification. In this work, we take the first steps towards this goal by expanding on the idea of trajectory matching to create a distillation method for vision-language datasets. The key challenge is that vision-language datasets do not have a set of discrete classes. To overcome this, our proposed multimodal dataset distillation method jointly distill the images and their corresponding language descriptions in a contrastive formulation. Since there are no existing baselines, we compare our approach to three coreset selection methods (strategic subsampling of the training dataset), which we adapt to the vision-language setting. We demonstrate significant improvements on the challenging Flickr30K and COCO retrieval benchmark: the best coreset selection method which selects 1000 image-text pairs for training is able to achieve only 5.6% image-to-text retrieval accuracy (recall@1); in contrast, our dataset distillation approach almost doubles that with just 100 (an order of magnitude fewer) training pairs.
翻訳日:2023-08-16 14:09:49 公開日:2023-08-15
# 強化学習(rl)によるサーバーレスコンピューティングにおけるコールドスタート頻度の低減

Reinforcement Learning (RL) Augmented Cold Start Frequency Reduction in Serverless Computing ( http://arxiv.org/abs/2308.07541v1 )

ライセンス: Link先を確認
Siddharth Agarwal, Maria A. Rodriguez, Rajkumar Buyya(参考訳) function-as-a-serviceは、アプリケーションにイベント駆動実行モデルを提供するクラウドコンピューティングパラダイムである。 開発者からリソース管理の責務を排除し、アプリケーションの透過的かつオンデマンドなスケーラビリティを提供する。 一般的なサーバーレスアプリケーションは、応答時間とスケーラビリティの要件が厳しいため、クライアントに迅速かつフォールトトレラントなフィードバックを提供するために、デプロイされたサービスに依存する。 しかし、FaaSパラダイムはオンデマンド関数の初期化に伴う非無視的な遅延があるため、コールドスタートに苦しむ。 本研究は強化学習を用いて,プラットフォーム上でのコールドスタート頻度の低減に重点を置いている。 提案手法ではQ-learningを用いて,期待する要求に基づいて,関数CPU利用,既存関数インスタンス,応答障害率などのメトリクスを前向きに初期化する。 提案手法はkubeless上で実装され,実世界の関数要求トレースと行列乗算を負荷として評価した。 その結果,最大8.81%のスループット向上と最大55%,37%の計算負荷とリソース浪費削減により,kubelessのデフォルトポリシや関数保留ポリシと比較した場合,rlベースのエージェントが好適な性能を示し,コールドスタートの直接的な結果となった。

Function-as-a-Service is a cloud computing paradigm offering an event-driven execution model to applications. It features serverless attributes by eliminating resource management responsibilities from developers and offers transparent and on-demand scalability of applications. Typical serverless applications have stringent response time and scalability requirements and therefore rely on deployed services to provide quick and fault-tolerant feedback to clients. However, the FaaS paradigm suffers from cold starts as there is a non-negligible delay associated with on-demand function initialization. This work focuses on reducing the frequency of cold starts on the platform by using Reinforcement Learning. Our approach uses Q-learning and considers metrics such as function CPU utilization, existing function instances, and response failure rate to proactively initialize functions in advance based on the expected demand. The proposed solution was implemented on Kubeless and was evaluated using a normalised real-world function demand trace with matrix multiplication as the workload. The results demonstrate a favourable performance of the RL-based agent when compared to Kubeless' default policy and function keep-alive policy by improving throughput by up to 8.81% and reducing computation load and resource wastage by up to 55% and 37%, respectively, which is a direct outcome of reduced cold starts.
翻訳日:2023-08-16 14:09:24 公開日:2023-08-15
# CALYPSO:ダンジョンマスターズアシスタントとしてのLLM

CALYPSO: LLMs as Dungeon Masters' Assistants ( http://arxiv.org/abs/2308.07540v1 )

ライセンス: Link先を確認
Andrew Zhu and Lara J. Martin and Andrew Head and Chris Callison-Burch(参考訳) ダンジョンズ&ドラゴンズゲームにおけるダンジョンマスター(dm)の役割は、複数のタスクを同時に実行することである。 DMはゲーム設定やモンスターに関する情報を消化し、他のプレイヤーに提示するためにシーンを合成し、プレイヤーのシーンとの相互作用に応答しなければならない。 物語と物語の世界における一貫性を維持しながらこれらすべてのタスクを実行することは、人間の認識の小さな偉業ではありません。 GPT-3やChatGPTのような大規模言語モデル(LLM)は、一貫性のある自然言語テキストを生成する優れた能力を示している。 本稿では,D&D とテーブルトップゲームにおける LLM のユースケースを確立するため,DM を用いた形式的評価を行う。 我々はcalypsoを紹介する。calypsoは、dmsをサポートするllmベースのインタフェースシステムで、それぞれのシナリオに固有の情報とインスピレーションを提供する。 CALYPSOはゲームコンテキストを口径の散文に蒸留し、ゲームからDMを邪魔することなくアイデアをブレインストーミングする。 CALYPSOへのアクセスが認められたとき、DMはプレイヤーへの直接のプレゼンテーションに適した高忠実なテキストを生成し、DMがクリエイティブエージェンシーを維持しながらさらに発展できるという低忠実なアイデアを作成したと報告した。 私たちはCALYPSOを、確立したゲームの世界における同期的な創造的支援を提供するAI拡張ツールのパラダイムを実証し、テーブルトップゲームをより広範に行なっています。

The role of a Dungeon Master, or DM, in the game Dungeons & Dragons is to perform multiple tasks simultaneously. The DM must digest information about the game setting and monsters, synthesize scenes to present to other players, and respond to the players' interactions with the scene. Doing all of these tasks while maintaining consistency within the narrative and story world is no small feat of human cognition, making the task tiring and unapproachable to new players. Large language models (LLMs) like GPT-3 and ChatGPT have shown remarkable abilities to generate coherent natural language text. In this paper, we conduct a formative evaluation with DMs to establish the use cases of LLMs in D&D and tabletop gaming generally. We introduce CALYPSO, a system of LLM-powered interfaces that support DMs with information and inspiration specific to their own scenario. CALYPSO distills game context into bite-sized prose and helps brainstorm ideas without distracting the DM from the game. When given access to CALYPSO, DMs reported that it generated high-fidelity text suitable for direct presentation to players, and low-fidelity ideas that the DM could develop further while maintaining their creative agency. We see CALYPSO as exemplifying a paradigm of AI-augmented tools that provide synchronous creative assistance within established game worlds, and tabletop gaming more broadly.
翻訳日:2023-08-16 14:09:01 公開日:2023-08-15
# 少数ショットセグメンテーションのための視覚的およびテキスト的事前マスクアセンブラ

Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation and Beyond ( http://arxiv.org/abs/2308.07539v1 )

ライセンス: Link先を確認
Chen Shuai, Meng Fanman, Zhang Runtong, Qiu Heqian, Li Hongliang, Wu Qingbo, Xu Linfeng(参考訳) Few-shot segmentation (FSS) は、いくつかの注釈付き画像で新しいクラスを分類することを目的としている。 CLIPの利点は、視覚情報とテキスト情報の整合性にあるため、CLIPの統合は、FSSモデルの一般化能力を高めることができる。 しかし、CLIPモデルでさえ、既存のCLIPベースのFSSメソッドは、クラス固有の特徴レベルの相互作用によって引き起こされるベースクラスに対するバイアス付き予測の対象となっている。 そこで本稿では,視覚およびテキストに先行したマスクアセンブラネットワーク(pgma-net)を提案する。 バイアスを軽減するためにクラス非依存のマスク組立プロセスを採用し、親和性を通じて前者を組み立てることで多様なタスクを統一的な方法で定式化する。 特に、クラス関係のテキスト的および視覚的特徴は、まず確率写像の形で、クラス非依存に変換される。 次に、複数のGAU(General Assemble Units)を含むPGMAM(Presideed-Guided Mask Assemble Module)を導入する。 視覚・テクスチュアル、インター・イントラ・イメージ、トレーニングフリー、高階の対話など、多種多様なプラグ・アンド・プレイの相互作用を考慮に入れている。 最後に, 階層型デコーダ(HDCDM)を提案し, 組立マスクと低レベル特徴を, クラス固有の情報に頼らずに柔軟に活用する。 1ショットシナリオでは、mIoUは$7.6$ on $\text{PASCAL-}5^i$と$59.4$ on $\text{COCO-}20^i$である。 これ以外にも,提案するPGMA-Netは,余分なトレーニングを伴わずに,bboxレベルとクロスドメインのFSS,コセグメンテーション,ゼロショットセグメンテーション(ZSS)タスクを解き,非ショットセグメンテーションフレームワークを導くことができることを示す。

Few-shot segmentation (FSS) aims to segment the novel classes with a few annotated images. Due to CLIP's advantages of aligning visual and textual information, the integration of CLIP can enhance the generalization ability of FSS model. However, even with the CLIP model, the existing CLIP-based FSS methods are still subject to the biased prediction towards base classes, which is caused by the class-specific feature level interactions. To solve this issue, we propose a visual and textual Prior Guided Mask Assemble Network (PGMA-Net). It employs a class-agnostic mask assembly process to alleviate the bias, and formulates diverse tasks into a unified manner by assembling the prior through affinity. Specifically, the class-relevant textual and visual features are first transformed to class-agnostic prior in the form of probability map. Then, a Prior-Guided Mask Assemble Module (PGMAM) including multiple General Assemble Units (GAUs) is introduced. It considers diverse and plug-and-play interactions, such as visual-textual, inter- and intra-image, training-free, and high-order ones. Lastly, to ensure the class-agnostic ability, a Hierarchical Decoder with Channel-Drop Mechanism (HDCDM) is proposed to flexibly exploit the assembled masks and low-level features, without relying on any class-specific information. It achieves new state-of-the-art results in the FSS task, with mIoU of $77.6$ on $\text{PASCAL-}5^i$ and $59.4$ on $\text{COCO-}20^i$ in 1-shot scenario. Beyond this, we show that without extra re-training, the proposed PGMA-Net can solve bbox-level and cross-domain FSS, co-segmentation, zero-shot segmentation (ZSS) tasks, leading an any-shot segmentation framework.
翻訳日:2023-08-16 14:08:37 公開日:2023-08-15
# 天文警報のリアル/ボガス分類のためのミニマックスエントロピーによる領域適応

Domain Adaptation via Minimax Entropy for Real/Bogus Classification of Astronomical Alerts ( http://arxiv.org/abs/2308.07538v1 )

ライセンス: Link先を確認
Guillermo Cabrera-Vives, C\'esar Bolivar, Francisco F\"orster, Alejandra M. Mu\~noz Arancibia, Manuel P\'erez-Carrasco, Esteban Reyes(参考訳) 時間領域天文学は、複数の巨大なデータセットをリアルタイムで分析し、マルチストリーム機械学習モデルの開発を促進する。 本研究では、HiTS、DES、ATLAS、ZTFの4つの異なるデータセットを用いて、実際の天体警報の分類のためのドメイン適応(DA)について検討する。 本研究では,これらのデータセット間の領域シフトについて検討し,Minimax Entropy (MME) を用いた微調整手法と半教師付き深度DAを用いて,自然な深度学習分類モデルを改善する。 これらのモデルのバランスの取れた精度を、異なるソースターゲットシナリオと比較する。 微調整モデルとMMEモデルの両方が、ターゲットデータセットから来るクラス毎のラベル付き項目が1つも少なく、ベースモデルを大幅に改善していることがわかったが、MMEはソースデータセットのパフォーマンスを損なわない。

Time domain astronomy is advancing towards the analysis of multiple massive datasets in real time, prompting the development of multi-stream machine learning models. In this work, we study Domain Adaptation (DA) for real/bogus classification of astronomical alerts using four different datasets: HiTS, DES, ATLAS, and ZTF. We study the domain shift between these datasets, and improve a naive deep learning classification model by using a fine tuning approach and semi-supervised deep DA via Minimax Entropy (MME). We compare the balanced accuracy of these models for different source-target scenarios. We find that both the fine tuning and MME models improve significantly the base model with as few as one labeled item per class coming from the target dataset, but that the MME does not compromise its performance on the source dataset.
翻訳日:2023-08-16 14:07:57 公開日:2023-08-15
# 逐次予測器による高確率リスク境界

High-Probability Risk Bounds via Sequential Predictors ( http://arxiv.org/abs/2308.07588v1 )

ライセンス: Link先を確認
Dirk van der Hoeven, Nikita Zhivotovskiy, Nicol\`o Cesa-Bianchi(参考訳) オンライン学習手法は最小限の仮定の下で逐次後悔境界を導き、統計的学習のための予測外リスク境界を提供する。 しかし、オンラインの保証が統計的に有利であることは明らかであるが、近年の知見は、多くの重要なケースにおいて、後悔の限界は統計的な状況において厳密な高い確率的リスク境界を保証していないことを示唆している。 本稿では、オンラインからバッチへの変換を一般的なオンライン学習アルゴリズムに適用することで、この制限を回避できることを示す。 後悔を定義する損失関数に対する一般的な二階補正により、離散分布推定、線形回帰、ロジスティック回帰、条件密度推定などのいくつかの古典的統計量推定問題に対して、ほぼ最適な高確率リスク境界を求める。 私たちの分析は、多くのオンライン学習アルゴリズムが不適切であるという事実に依存しています。 推定器の不適切な性質は、様々な問題パラメータへの依存性を大幅に改善することができる。 最後に、既存のバッチアルゴリズムに比べて、逐次アルゴリズムの計算上の利点について論じる。

Online learning methods yield sequential regret bounds under minimal assumptions and provide in-expectation risk bounds for statistical learning. However, despite the apparent advantage of online guarantees over their statistical counterparts, recent findings indicate that in many important cases, regret bounds may not guarantee tight high-probability risk bounds in the statistical setting. In this work we show that online to batch conversions applied to general online learning algorithms can bypass this limitation. Via a general second-order correction to the loss function defining the regret, we obtain nearly optimal high-probability risk bounds for several classical statistical estimation problems, such as discrete distribution estimation, linear regression, logistic regression, and conditional density estimation. Our analysis relies on the fact that many online learning algorithms are improper, as they are not restricted to use predictors from a given reference class. The improper nature of our estimators enables significant improvements in the dependencies on various problem parameters. Finally, we discuss some computational advantages of our sequential algorithms over their existing batch counterparts.
翻訳日:2023-08-16 14:02:12 公開日:2023-08-15
# QASMTrans: NISQデバイス向けQASMベースの量子トランスパイラフレームワーク

QASMTrans: A QASM based Quantum Transpiler Framework for NISQ Devices ( http://arxiv.org/abs/2308.07581v1 )

ライセンス: Link先を確認
Fei Hua, Meng Wang, Gushu Li, Bo Peng, Chenxu Liu, Muqing Zheng, Samuel Stein, Yufei Ding, Eddy Z. Zhang, Travis S. Humble, Ang Li(参考訳) 量子アルゴリズムの成功は、アプリケーションインダクションの成功をオーケストレーションする能力にかかっている。 一般的な量子回路を物理的に実装可能なルーチンにマッピングする際の有害なオーバーヘッドは、成功と誤回路誘導の間の決定要因となる。 QASMTransでは、高速な回路透過の問題に焦点をあてる。 トランスパイレーションは、高レベルの機械に依存しない回路を物理的トポロジーと支持ゲートセットに制約されたマシン固有の回路に変換する上で重要な役割を果たす。 特に量子ビット間の高い相互作用を必要とする大きな回路を扱う場合、トランスパイルの効率は依然として重大なボトルネックとなっている。 QASMTransは高性能なC++量子トランスパイラフレームワークで、一般的なQiskitトランスパイラと比較して最大369倍のスピードアップを示す。 我々は, o(10^6)ゲートを必要とするudcsd_n24やqft_n320などの高密度回路の高速化を観測する。 QASMTrans は前述の回路を69sと31sでトランスパイルし、一方 Qiskit は1時間のトランスパイル時間を超えた。 QASMTransは、以前のトランスパイラのわずかな時間でトランスパイラ回路を提供するため、潜在的な設計空間探索とヒューリスティックベースのトランスパイラ設計は、大幅にトラクタブルになる。 QASMTransはhttp://github.com/pnnl/qasmtransでリリースされた。

The success of a quantum algorithm hinges on the ability to orchestrate a successful application induction. Detrimental overheads in mapping general quantum circuits to physically implementable routines can be the deciding factor between a successful and erroneous circuit induction. In QASMTrans, we focus on the problem of rapid circuit transpilation. Transpilation plays a crucial role in converting high-level, machine-agnostic circuits into machine-specific circuits constrained by physical topology and supported gate sets. The efficiency of transpilation continues to be a substantial bottleneck, especially when dealing with larger circuits requiring high degrees of inter-qubit interaction. QASMTrans is a high-performance C++ quantum transpiler framework that demonstrates up to 369X speedups compared to the commonly used Qiskit transpiler. We observe speedups on large dense circuits such as uccsd_n24 and qft_n320 which require O(10^6) gates. QASMTrans successfully transpiles the aforementioned circuits in 69s and 31s, whilst Qiskit exceeded an hour of transpilation time. With QASMTrans providing transpiled circuits in a fraction of the time of prior transpilers, potential design space exploration, and heuristic-based transpiler design becomes substantially more tractable. QASMTrans is released at http://github.com/pnnl/qasmtrans.
翻訳日:2023-08-16 14:01:54 公開日:2023-08-15
# autolts: コントラスト学習と空間後処理によるサイクリングストレス評価の自動化

AutoLTS: Automating Cycling Stress Assessment via Contrastive Learning and Spatial Post-processing ( http://arxiv.org/abs/2308.07580v1 )

ライセンス: Link先を確認
Bo Lin, Shoshanna Saxe, Timothy C. Y. Chan(参考訳) 自転車のストレスアセスメントは、構築された環境や交通機関によって課されるサイクリストの認識されたストレスを定量化し、自転車のインフラ計画や自転車のルート推奨を通知する。 しかし、現在のサイクリングストレスの計算は遅く、データ集約的であり、幅広い応用を妨げる。 本稿では,街路画像に基づく都市道路網の高精度・高速・大規模サイクリングストレス評価を支援するためのディープラーニングフレームワークを提案する。 フレームワークの特徴 一 サイクリングストレスラベル間の順序関係を利用した対照的な学習方法 二 予測に空間的滑らかさを強制する後処理技術。 カナダ・トロントで収集された39,153個の道路セグメントのデータセットについて,我々は,高品位道路形状と自動車交通データがない場合,画像データを用いたサイクリングストレス評価の有効性を示す。

Cycling stress assessment, which quantifies cyclists' perceived stress imposed by the built environment and motor traffics, increasingly informs cycling infrastructure planning and cycling route recommendation. However, currently calculating cycling stress is slow and data-intensive, which hinders its broader application. In this paper, We propose a deep learning framework to support accurate, fast, and large-scale cycling stress assessments for urban road networks based on street-view images. Our framework features i) a contrastive learning approach that leverages the ordinal relationship among cycling stress labels, and ii) a post-processing technique that enforces spatial smoothness into our predictions. On a dataset of 39,153 road segments collected in Toronto, Canada, our results demonstrate the effectiveness of our deep learning framework and the value of using image data for cycling stress assessment in the absence of high-quality road geometry and motor traffic data.
翻訳日:2023-08-16 14:01:33 公開日:2023-08-15
# コンテキストメモリを用いたオンラインテキスト拡張によるストーリーの可視化

Story Visualization by Online Text Augmentation with Context Memory ( http://arxiv.org/abs/2308.07575v1 )

ライセンス: Link先を確認
Daechul Ahn, Daneul Kim, Gwangmo Song, Seung Hwan Kim, Honglak Lee, Dongyeop Kang, Jonghyun Choi(参考訳) ストーリービジュアライゼーション(sv)は、テキスト記述から視覚的詳細をレンダリングするだけでなく、複数の文章にまたがる長期的なコンテキストをエンコードするのも困難である。 それまでの取り組みは、文ごとに意味論的に関連のある画像を生成することに集中していたが、コンテキストが与えられた段落全体に広がり、コンテクスト的に説得力のある画像(例えば、正しいキャラクタやシーンの適切な背景)を生成することが課題である。 そこで本研究では,オンラインテキスト拡張機能を備えた双方向トランスフォーマの新たなメモリアーキテクチャを提案する。 Pororo-SVとFlintstones-SVという2つの人気のあるSVベンチマークの広範な実験において、提案手法は、FID、文字F1、フレーム精度、BLEU-2/3、R-精度などの様々な評価指標において、類似または少ない計算量で芸術の状態を著しく上回っている。

Story visualization (SV) is a challenging text-to-image generation task for the difficulty of not only rendering visual details from the text descriptions but also encoding a long-term context across multiple sentences. While prior efforts mostly focus on generating a semantically relevant image for each sentence, encoding a context spread across the given paragraph to generate contextually convincing images (e.g., with a correct character or with a proper background of the scene) remains a challenge. To this end, we propose a novel memory architecture for the Bi-directional Transformers with an online text augmentation that generates multiple pseudo-descriptions as supplementary supervision during training, for better generalization to the language variation at inference. In extensive experiments on the two popular SV benchmarks, i.e., the Pororo-SV and Flintstones-SV, the proposed method significantly outperforms the state of the arts in various evaluation metrics including FID, character F1, frame accuracy, BLEU-2/3, and R-precision with similar or less computational complexity.
翻訳日:2023-08-16 14:01:17 公開日:2023-08-15
# 2つの生成逆数ネットワークを用いたハイブリッド画像タブラルデータの合成データ生成法

Synthetic data generation method for hybrid image-tabular data using two generative adversarial networks ( http://arxiv.org/abs/2308.07573v1 )

ライセンス: Link先を確認
Tomohiro Kikuchi, Shouhei Hanaoka, Takahiro Nakao, Tomomi Takenaga, Yukihiro Nomura, Harushi Mori, Takeharu Yoshikawa(参考訳) generative adversarial network (gans) を用いた合成医療記録の生成は、医療分野におけるプライバシー問題への対処やデータ共有の促進のためにますます重要になっている。 本稿では,胸部X線画像(CXR)と構造化表状データ(人為的データおよび実験室試験を含む)からなる合成ハイブリッド医療記録を,自動符号化GAN({\alpha}GAN)と条件付き表状GAN(CTGAN)を用いて生成する手法を提案する。 我々のアプローチは、CXRの次元性を低減するために、大規模な公開データベース(pDB)上で {\alpha}GANモデルをトレーニングすることである。 次に、トレーニングされたGANモデルのエンコーダを元のデータベース(oDB)の画像に適用し、潜在ベクトルを得る。 これらの潜伏ベクトルとoDBの表型データを組み合わせて,CTGANモデルのトレーニングに使用した。 我々は,ハイブリッドCXRと表型データの多種多様な合成記録を作成した。 この合成データベース(sdb)を視覚的評価,記録間距離の分布,分類タスクを通じて評価した。 評価の結果,sdbは画像と表データとの対応を維持しつつ,odbの特徴を捉えることができた。 本手法は,odbと同じモダリティと撮像領域を持つ相当数の画像を含む大規模pdbの可用性に依存しているが,二次的なデータ利用を損なうことなく,合成データセットを一般公開する可能性を秘めている。

The generation of synthetic medical records using generative adversarial networks (GANs) has become increasingly important for addressing privacy concerns and promoting data sharing in the medical field. In this paper, we propose a novel method for generating synthetic hybrid medical records consisting of chest X-ray images (CXRs) and structured tabular data (including anthropometric data and laboratory tests) using an auto-encoding GAN ({\alpha}GAN) and a conditional tabular GAN (CTGAN). Our approach involves training a {\alpha}GAN model on a large public database (pDB) to reduce the dimensionality of CXRs. We then applied the trained encoder of the GAN model to the images in original database (oDB) to obtain the latent vectors. These latent vectors were combined with tabular data in oDB, and these joint data were used to train the CTGAN model. We successfully generated diverse synthetic records of hybrid CXR and tabular data, maintaining correspondence between them. We evaluated this synthetic database (sDB) through visual assessment, distribution of interrecord distances, and classification tasks. Our evaluation results showed that the sDB captured the features of the oDB while maintaining the correspondence between the images and tabular data. Although our approach relies on the availability of a large-scale pDB containing a substantial number of images with the same modality and imaging region as those in the oDB, this method has the potential for the public release of synthetic datasets without compromising the secondary use of data.
翻訳日:2023-08-16 14:00:52 公開日:2023-08-15
# Ske2Grid:行動認識のための骨格-格子表現学習

Ske2Grid: Skeleton-to-Grid Representation Learning for Action Recognition ( http://arxiv.org/abs/2308.07571v1 )

ライセンス: Link先を確認
Dongqi Cai, Yangyuxuan Kang, Anbang Yao, Yurong Chen(参考訳) 本稿では,スケルトンベース行動認識のための新しい表現学習フレームワークske2gridを提案する。 Ske2Gridでは,3つの新しいデザインによって構築・学習されたコンパクトなイメージライクなグリッドパッチである,人間の骨格の新たなグリッド表現に基づいて,定期的な畳み込み動作を定義する。 具体的には,スケルトングラフのノードを1つずつ所望のグリッドセルに割り当てることで,正規グリッドパッチを構築するグラフノードインデックス変換(git)を提案する。 GITをビジェクションとし、グリッド表現の表現性を高めるために、アップサンプリング変換(UPT)を学び、グリッドパッチをフルに埋めるためにスケルトングラフノードを補間する。 ワンステップuptが攻撃的であり、空間サイズが増大するグリッドパッチの表現能力を更に活用する場合には、uptを複数のステップに分離し、段階的に学習するコンパクトなカスケードデザインにより、複数のペアgitに調整するプログレッシブ・ラーニング・ストラテジー(pls)を提案する。 グラフ畳み込みネットワーク上にネットワークを構築し、6つの主流骨格に基づく行動認識データセットで実験を行う。 実験の結果、Ske2Gridはベンチマーク設定の異なる既存のGCNベースのソリューションをベルやホイッスルなしで大幅に上回っていることがわかった。 コードとモデルはhttps://github.com/OSVAI/Ske2Gridで入手できる。

This paper presents Ske2Grid, a new representation learning framework for improved skeleton-based action recognition. In Ske2Grid, we define a regular convolution operation upon a novel grid representation of human skeleton, which is a compact image-like grid patch constructed and learned through three novel designs. Specifically, we propose a graph-node index transform (GIT) to construct a regular grid patch through assigning the nodes in the skeleton graph one by one to the desired grid cells. To ensure that GIT is a bijection and enrich the expressiveness of the grid representation, an up-sampling transform (UPT) is learned to interpolate the skeleton graph nodes for filling the grid patch to the full. To resolve the problem when the one-step UPT is aggressive and further exploit the representation capability of the grid patch with increasing spatial size, a progressive learning strategy (PLS) is proposed which decouples the UPT into multiple steps and aligns them to multiple paired GITs through a compact cascaded design learned progressively. We construct networks upon prevailing graph convolution networks and conduct experiments on six mainstream skeleton-based action recognition datasets. Experiments show that our Ske2Grid significantly outperforms existing GCN-based solutions under different benchmark settings, without bells and whistles. Code and models are available at https://github.com/OSVAI/Ske2Grid
翻訳日:2023-08-16 14:00:22 公開日:2023-08-15
# 非ランダム欠落ラベルに対する複数命令による半教師付き学習

Semi-Supervised Learning with Multiple Imputations on Non-Random Missing Labels ( http://arxiv.org/abs/2308.07562v1 )

ライセンス: Link先を確認
Jason Lu, Michael Ma, Huaze Xu, Zixi Xu(参考訳) Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータの両方でアルゴリズムがトレーニングされるときに実装される。 これはmlの非常に一般的な応用であり、完全なラベル付きデータセットを取得することは非現実的である。 研究者は、ランダム(MAR)の欠如、完全にランダム(MCAR)の欠如、ランダム(MNAR)の欠如という3つの主要な問題に取り組んでいる。 mnar問題は3つの中で最も難しい問題であり、すべてのクラス分布が等しいと安全に仮定できない。 CAI(Class-Aware Imputation)やCAP(Class-Aware Propensity)といった既存の手法は、ラベルなしデータの非ランダム性を見落としている。 本稿では,より高精度でバイアスの少ない複数の計算モデルを組み合わせる2つの新しい手法を提案する。 1)複数のインプテーションモデルを用い,信頼区間を作成し,信頼度の低い擬似ラベルを無視する閾値を適用した。 2)新しい手法であるSSL-DIは,不正確なデータをフィルタリングし,正確で信頼性の高いサブセットを見つけることによってバイアスを低減することを目的としている。 大きなデータセットのこのサブセットは、別のsslモデルに組み込むことができるが、バイアスは少なくなる。 提案手法はMCARとMNARの両方の状況において有効であることが示されており,本手法は,分類精度とバイアス低減の観点から既存手法よりも優れていることを示す実験結果が得られた。

Semi-Supervised Learning (SSL) is implemented when algorithms are trained on both labeled and unlabeled data. This is a very common application of ML as it is unrealistic to obtain a fully labeled dataset. Researchers have tackled three main issues: missing at random (MAR), missing completely at random (MCAR), and missing not at random (MNAR). The MNAR problem is the most challenging of the three as one cannot safely assume that all class distributions are equal. Existing methods, including Class-Aware Imputation (CAI) and Class-Aware Propensity (CAP), mostly overlook the non-randomness in the unlabeled data. This paper proposes two new methods of combining multiple imputation models to achieve higher accuracy and less bias. 1) We use multiple imputation models, create confidence intervals, and apply a threshold to ignore pseudo-labels with low confidence. 2) Our new method, SSL with De-biased Imputations (SSL-DI), aims to reduce bias by filtering out inaccurate data and finding a subset that is accurate and reliable. This subset of the larger dataset could be imputed into another SSL model, which will be less biased. The proposed models have been shown to be effective in both MCAR and MNAR situations, and experimental results show that our methodology outperforms existing methods in terms of classification accuracy and reducing bias.
翻訳日:2023-08-16 13:59:58 公開日:2023-08-15
# 複数のビデオデータセット間のアクションクラス関係の検出と分類

Action Class Relation Detection and Classification Across Multiple Video Datasets ( http://arxiv.org/abs/2308.07558v1 )

ライセンス: Link先を確認
Yuya Yoshikawa, Yutaro Shigeto, Masashi Shimbo, Akikazu Takeuchi(参考訳) Meta Video Dataset(MetaVD)は、ビデオにおける人間のアクション認識のための主要なデータセットにおけるアクションクラス間の注釈付き関係を提供する。 これらの注釈付き関係はデータセットの拡張を可能にするが、MetaVDでカバーされているもののみに適用できる。 外部データセットが同じ利益を享受するためには、そのアクションクラスとMetaVD内のデータセットの関係を決定する必要がある。 この問題に対処するために,アクションクラス関係検出と分類という2つの新しい機械学習タスクについて検討する。 本稿では,クラスに関連する言語情報と視覚情報を用いて,アクションクラス間の関係を予測する統一モデルを提案する。 実験の結果 (i)テキストやビデオのトレーニング済みニューラルネットワークモデルは高い予測性能に寄与する。 (二)アクションラベルテキストに基づく関係予測は、動画による関係予測よりも正確であり、 (iii)両方のモダリティによる予測を組み合わせるブレンディングアプローチは、場合によっては予測性能をさらに向上させることができる。

The Meta Video Dataset (MetaVD) provides annotated relations between action classes in major datasets for human action recognition in videos. Although these annotated relations enable dataset augmentation, it is only applicable to those covered by MetaVD. For an external dataset to enjoy the same benefit, the relations between its action classes and those in MetaVD need to be determined. To address this issue, we consider two new machine learning tasks: action class relation detection and classification. We propose a unified model to predict relations between action classes, using language and visual information associated with classes. Experimental results show that (i) pre-trained recent neural network models for texts and videos contribute to high predictive performance, (ii) the relation prediction based on action label texts is more accurate than based on videos, and (iii) a blending approach that combines predictions by both modalities can further improve the predictive performance in some cases.
翻訳日:2023-08-16 13:59:30 公開日:2023-08-15
# スペイン語テキスト簡易化のユーザ中心評価

A User-Centered Evaluation of Spanish Text Simplification ( http://arxiv.org/abs/2308.07556v1 )

ライセンス: Link先を確認
Adrian de Wynter, Anthony Hevia, Si-Qing Chen(参考訳) 本稿では,複合語と複合語の両方に焦点をあてたコーパスを用いて,生産システムのためのスペイン語のテキスト簡易化(ts)を評価する。 我々は、スペイン固有の可読性スコアをニューラルネットワークと比較し、後者がTSに関するユーザの好みを予測するのに一貫して優れていることを示す。 分析の結果、複数の言語モデルは同じタスクでスペイン語のみのモデルに劣ることがわかったが、全てのモデルは文長のような散発的な統計的特徴に重きを置きすぎていることがわかった。 我々は,スペインの自然言語処理の最先端を推し進めることを目指して,我々の評価のコーパスを広いコミュニティに公開する。

We present an evaluation of text simplification (TS) in Spanish for a production system, by means of two corpora focused in both complex-sentence and complex-word identification. We compare the most prevalent Spanish-specific readability scores with neural networks, and show that the latter are consistently better at predicting user preferences regarding TS. As part of our analysis, we find that multilingual models underperform against equivalent Spanish-only models on the same task, yet all models focus too often on spurious statistical features, such as sentence length. We release the corpora in our evaluation to the broader community with the hopes of pushing forward the state-of-the-art in Spanish natural language processing.
翻訳日:2023-08-16 13:59:19 公開日:2023-08-15
# sst:既存経路に基づくタクシー目的地予測のための簡易スウィントランスモデル

SST: A Simplified Swin Transformer-based Model for Taxi Destination Prediction based on Existing Trajectory ( http://arxiv.org/abs/2308.07555v1 )

ライセンス: Link先を確認
Zepu Wang, Yifei Sun, Zhiyu Lei, Xincheng Zhu, Peng Sun(参考訳) タクシーの目的地を正確に予測することは、インテリジェントな位置情報サービスに様々な利点をもたらす。 この予測の潜在的な方法は、タクシー軌道を二次元グリッドに変換し、コンピュータビジョン技術を使用することである。 Swin Transformer はコンピュータビジョンアーキテクチャであり、下流のタスクの視覚的成功を示すものであるが、現実世界の軌道問題の解決には一般的には使われていない。 本稿では,従来のSwin Transformerではトラジェクトリデータが連続しているため,従来のSwin Transformerではシフトウインドウのアイデアを使用しない簡易Swin Transformer (SST) 構造を提案する。 実軌道データに基づく包括的実験により,SSTが最先端の手法よりも高い精度を達成できることが実証された。

Accurately predicting the destination of taxi trajectories can have various benefits for intelligent location-based services. One potential method to accomplish this prediction is by converting the taxi trajectory into a two-dimensional grid and using computer vision techniques. While the Swin Transformer is an innovative computer vision architecture with demonstrated success in vision downstream tasks, it is not commonly used to solve real-world trajectory problems. In this paper, we propose a simplified Swin Transformer (SST) structure that does not use the shifted window idea in the traditional Swin Transformer, as trajectory data is consecutive in nature. Our comprehensive experiments, based on real trajectory data, demonstrate that SST can achieve higher accuracy compared to state-of-the-art methods.
翻訳日:2023-08-16 13:59:05 公開日:2023-08-15
# LogPrompt: ゼロショットと解釈可能なログ分析に向けたプロンプトエンジニアリング

LogPrompt: Prompt Engineering Towards Zero-Shot and Interpretable Log Analysis ( http://arxiv.org/abs/2308.07610v1 )

ライセンス: Link先を確認
Yilun Liu, Shimin Tao, Weibin Meng, Jingyu Wang, Wenbing Ma, Yanqing Zhao, Yuhang Chen, Hao Yang, Yanfei Jiang, Xun Chen(参考訳) 自動ログ解析は、ソフトウェアメンテナンスとエンジニアリングライフサイクルを通して信頼性とレジリエンスを確保するために、現代のソフトウェア集約システムにおいて不可欠である。 既存の方法は、解釈なしで単一の予測値を提供することで、ログ解析やログ異常検出などのタスクを実行する。 しかし、システムイベントの量が増加すると、分析の解釈性が制限され、分析者の信頼と適切な行動を取る能力が阻害される。 さらに、これらの手法はドメイン内のトレーニングデータを必要とするため、新しいドメインからの未確認ログを含むオンラインシナリオではパフォーマンスが劇的に低下する(62.5%まで)。 本稿では,ゼロショットで解釈可能なログ解析手法であるlogpromptを提案する。 logpromptは大規模な言語モデル(llms)を使用して、ログタスク用に調整された一連の高度なプロンプト戦略を介してゼロショットログ分析タスクを実行する。 2つのタスクにわたる9つの公開評価データセットの実験では、LogPromptはトレーニングデータを使用しないにも関わらず、数千のログでトレーニングされた既存のアプローチを最大50%上回っている。 また,LogPromptの解釈可能性の評価を行い,10年以上の経験を持つ6人の実践者が有用性と可読性(平均4.42/5)を高く評価した。 LogPromptはまた、オープンソースおよび小規模のLLMとの顕著な互換性を示しており、実用的なデプロイメントに柔軟である。

Automated log analysis is crucial in modern software-intensive systems for ensuring reliability and resilience throughout software maintenance and engineering life cycles. Existing methods perform tasks such as log parsing and log anomaly detection by providing a single prediction value without interpretation. However, given the increasing volume of system events, the limited interpretability of analysis results hinders analysts' trust and their ability to take appropriate actions. Moreover, these methods require substantial in-domain training data, and their performance declines sharply (by up to 62.5%) in online scenarios involving unseen logs from new domains, a common occurrence due to rapid software updates. In this paper, we propose LogPrompt, a novel zero-shot and interpretable log analysis approach. LogPrompt employs large language models (LLMs) to perform zero-shot log analysis tasks via a suite of advanced prompt strategies tailored for log tasks, which enhances LLMs' performance by up to 107.5% compared with simple prompts. Experiments on nine publicly available evaluation datasets across two tasks demonstrate that LogPrompt, despite using no training data, outperforms existing approaches trained on thousands of logs by up to around 50%. We also conduct a human evaluation of LogPrompt's interpretability, with six practitioners possessing over 10 years of experience, who highly rated the generated content in terms of usefulness and readability (averagely 4.42/5). LogPrompt also exhibits remarkable compatibility with open-source and smaller-scale LLMs, making it flexible for practical deployment.
翻訳日:2023-08-16 13:52:34 公開日:2023-08-15
# 準エルミート時間依存観測器を用いた3つのモデル構築戦略

Three alternative model-building strategies using quasi-Hermitian time-dependent observables ( http://arxiv.org/abs/2308.07609v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) k+1)-$plet of non-hermitian and time-dependent operator (例えば、$\lambda_j(t)$, $j=0,1,\ldots,k$) はユニタリ量子系を特徴づける観測可能な集合として解釈できる。 必要となるのは自己随伴作用素の存在であり、一般に時間依存作用素(例えば、$\Theta(t)$)が準エルミート作用素、$\Lambda_j^\dagger(t)\Theta(t)=\Theta(t)\Lambda_j(t)$とする。 非エルミート相互作用図 (non-hermitian interaction-picture, nip) と呼ばれる理論は、次の状態の進化を別々に記述する必要がある: $\psi(t)$ (schr\"{o}dinger-type equation, by a generator, say, $g(t)$) and of the observables itself (a different generator (例えば $\sigma(t)(t)$) は、関連する非ヘルミート的ハイゼンベルク型方程式で起こる)。 すべての$\Lambda_j(t)$ (and, in particular, Hamiltonian $H(t)=\Lambda_0(t)$) は、その仮説的なアイソスペクトルと自己共役(ただし、仮定上は、明らかにユーザフレンドリでない)なアバター $\lambda_j(t)=\Omega(t)=\Omega(t)\Lambda_j(t)\Omega^{-1}(t)$ with $\Omega^\dagger(t)\Omega(t)=\Theta(t)$ に同値である。 この論文では、id $h(t)=g(t)+\sigma(t)$ で果たされる重要な役割は、nipアプローチの他の3つの有意義な実装、すなわち viz., ``number one'' ($h(t)$ の知識に基づく ``dynamical'' 戦略)、 ``number two'' (a ``$kinematical''' 、コリオリ力 $\sigma(t)$) と ``number three''' (文献では、$g(t)$ に基づく構成が最も一般的であるが、パラドックス的にも最も複雑である) であることを示している。

A $(K+1)-$plet of non-Hermitian and time-dependent operators (say, $\Lambda_j(t)$, $j=0,1,\ldots,K$) can be interpreted as the set of observables characterizing a unitary quantum system. What is required is the existence of a self-adjoint and, in general, time-dependent operator (say, $\Theta(t)$ called inner product metric) making the operators quasi-Hermitian, $\Lambda_j^\dagger(t)\Theta(t)=\Theta(t)\Lambda_j(t)$. The theory (called non-Hermitian interaction-picture, NIP) requires a separate description of the evolution of the states $\psi(t)$ (realized, via Schr\"{o}dinger-type equation, by a generator, say, $G(t)$) and of the observables themselves (a different generator (say, $\Sigma(t)(t)$) occurs in the related non-Hermitian Heisenberg-type equation). Every $\Lambda_j(t)$ (and, in particular, Hamiltonian $H(t)=\Lambda_0(t)$) appears isospectral to its hypothetical isospectral and self-adjoint (but, by assumption, prohibitively user-unfriendly) avatar $\lambda_j(t)=\Omega(t)\Lambda_j(t)\Omega^{-1}(t)$ with $\Omega^\dagger(t)\Omega(t)=\Theta(t)$. In our paper the key role played by identity $H(t)=G(t)+\Sigma(t)$ is shown to imply that there exist just three alternative meaningful implementations of the NIP approach, viz., ``number one'' (a ``dynamical'' strategy based on the knowledge of $H(t)$), ``number two'' (a ``kinematical'' one, based on the Coriolis force $\Sigma(t)$) and ``number three'' (in the literature, such a construction based on $G(t)$ is most popular but, paradoxically, it is also most complicated).
翻訳日:2023-08-16 13:52:08 公開日:2023-08-15
# SGDiff:ファッション合成のためのスタイルガイド付き拡散モデル

SGDiff: A Style Guided Diffusion Model for Fashion Synthesis ( http://arxiv.org/abs/2308.07605v1 )

ライセンス: Link先を確認
Zhengwentai Sun, Yanghong Zhou, Honghong He, P. Y. Mok(参考訳) 本稿では,既存の画像合成モデルに固有の弱点を克服する新しいスタイル誘導拡散モデル(SGDiff)の開発について報告する。 提案したSGDiffは、画像のモダリティと事前訓練されたテキスト-画像拡散モデルを組み合わせることで、創造的なファッション画像合成を容易にする。 補足的なスタイルガイダンスを導入し、トレーニングコストを大幅に削減し、テキストのみの入力で合成スタイルを制御することの難しさを克服することで、テキスト間拡散モデルの限界に対処する。 本稿では、ファッション画像合成アプリケーション用に特別に設計されたsg-fashionという新しいデータセットも紹介する。 包括的アブレーション研究により,分類者なし指導を様々な条件に適用し,希望するカテゴリ,製品属性,スタイルのファッション画像を生成するためのモデルの有効性を検証した。 本稿では,マルチモーダル特徴融合のための新しい分類器フリーガイダンス手法,ファッション画像合成のための包括的データセット,条件付きテキスト対画像合成に関する徹底的な調査,テキスト対画像合成領域における今後の研究への貴重な洞察について述べる。 コードとデータセットは \url{https://github.com/taited/sgdiff} で利用可能である。

This paper reports on the development of \textbf{a novel style guided diffusion model (SGDiff)} which overcomes certain weaknesses inherent in existing models for image synthesis. The proposed SGDiff combines image modality with a pretrained text-to-image diffusion model to facilitate creative fashion image synthesis. It addresses the limitations of text-to-image diffusion models by incorporating supplementary style guidance, substantially reducing training costs, and overcoming the difficulties of controlling synthesized styles with text-only inputs. This paper also introduces a new dataset -- SG-Fashion, specifically designed for fashion image synthesis applications, offering high-resolution images and an extensive range of garment categories. By means of comprehensive ablation study, we examine the application of classifier-free guidance to a variety of conditions and validate the effectiveness of the proposed model for generating fashion images of the desired categories, product attributes, and styles. The contributions of this paper include a novel classifier-free guidance method for multi-modal feature fusion, a comprehensive dataset for fashion image synthesis application, a thorough investigation on conditioned text-to-image synthesis, and valuable insights for future research in the text-to-image synthesis domain. The code and dataset are available at: \url{https://github.com/taited/SGDiff}.
翻訳日:2023-08-16 13:50:40 公開日:2023-08-15
# 異常検出のための機械学習による外惑星大気の新化学の探索

Searching for Novel Chemistry in Exoplanetary Atmospheres using Machine Learning for Anomaly Detection ( http://arxiv.org/abs/2308.07604v1 )

ライセンス: Link先を確認
Roy T. Forestano, Konstantin T. Matchev, Katia Matcheva, Eyup B. Unlu(参考訳) 次世代の望遠鏡は、何千もの太陽系外惑星の高解像度の分光データが得られるようになるだろう。 分析対象となる大量のデータと惑星の数は、観測と詳細な分析のために興味深い惑星をフラグ付けするための、新しい高速で効率的な方法の開発を大いに動機付けている。 我々は、異常な化学組成を持つ惑星を同定し、未知の生物記号を探すことを目的として、太陽系外惑星トランジットスペクトルに対する異常検出のための機械学習(ML)技術の応用を提唱する。 合成スペクトルの大規模公開データベース上で,2つの一般的な異常検出手法(局所外部因子と一クラス支援ベクトルマシン)の有効性を実証した。 計器音のレベルが異なる複数のテストケースについて検討した。 いずれの場合も、ROC曲線を用いて2つのML手法の性能を定量化し比較する。

The next generation of telescopes will yield a substantial increase in the availability of high-resolution spectroscopic data for thousands of exoplanets. The sheer volume of data and number of planets to be analyzed greatly motivate the development of new, fast and efficient methods for flagging interesting planets for reobservation and detailed analysis. We advocate the application of machine learning (ML) techniques for anomaly (novelty) detection to exoplanet transit spectra, with the goal of identifying planets with unusual chemical composition and even searching for unknown biosignatures. We successfully demonstrate the feasibility of two popular anomaly detection methods (Local Outlier Factor and One Class Support Vector Machine) on a large public database of synthetic spectra. We consider several test cases, each with different levels of instrumental noise. In each case, we use ROC curves to quantify and compare the performance of the two ML techniques.
翻訳日:2023-08-16 13:50:15 公開日:2023-08-15
# マルコフ開量子系の定常状態に対するアトラクション領域解析

Attraction Domain Analysis for Steady States of Markovian Open Quantum Systems ( http://arxiv.org/abs/2308.07602v1 )

ライセンス: Link先を確認
Shikun Zhang, Guofeng Zhang(参考訳) 本稿ではマルコフ開量子系の定常状態に対するアトラクション領域解析について述べる。 定常状態が与えられたとき、密度作用素の状態空間のどの部分が引き寄せられるのか、どの部分を引き付けないのか? 我々は, 定常状態と初期状態に対して, 後者が前者のアトラクション領域に属するか否かを決定する必要十分条件を提示することにより, この疑問に答える。 さらに、密度作用素の集合における一意性のない定常状態は、ある変換不変かつ局所有限測度の下で測度ゼロのアトラクション領域を持つことを示す。 最後に、開ハイゼンベルク XXZ スピン鎖に関する例を示す。

This article concerns the attraction domain analysis for steady states in Markovian open quantum systems. The central question is proposed as: given a steady state, which part of the state space of density operators does it attract and which part does it not attract? We answer this question by presenting necessary and sufficient conditions that determine, for any steady state and initial state, whether the latter belongs to the attraction domain of the former. Moreover, we show that steady states without uniqueness in the set of density operators have attraction domains with measure zero under some translation invariant and locally finite measures. Finally, an example regarding an open Heisenberg XXZ spin chain is presented.
翻訳日:2023-08-16 13:50:02 公開日:2023-08-15
# VLSP2022用VBD-MT中国語ベトナム語翻訳システム

VBD-MT Chinese-Vietnamese Translation Systems for VLSP 2022 ( http://arxiv.org/abs/2308.07601v1 )

ライセンス: Link先を確認
Hai Long Trieu, Song Kiet Bui, Tan Minh Tran, Van Khanh Tran, Hai An Nguyen(参考訳) 本稿では,VLSP 2022の機械翻訳共有タスクに参加する。 今年の共通作業では,中国-ベトナム語,ベトナム-中国語の両翻訳作業に参加した。 我々は,ニューラルネットワークを用いたトランスフォーマーモデルに基づいて,学習前モデルであるmBARTを用いてシステムを構築する。 大規模に利用可能な単言語データを活用するバックトランスレーションのサンプリング手法により,システムを強化した。 さらに、センシングやポストプロセッシングを含む翻訳品質を向上させるために、いくつかの方法が適用されている。 ベトナム語で38.9 BLEU、ベトナム語で38.0 BLEU、公試で38.0 BLEUを達成。

We present our systems participated in the VLSP 2022 machine translation shared task. In the shared task this year, we participated in both translation tasks, i.e., Chinese-Vietnamese and Vietnamese-Chinese translations. We build our systems based on the neural-based Transformer model with the powerful multilingual denoising pre-trained model mBART. The systems are enhanced by a sampling method for backtranslation, which leverage large scale available monolingual data. Additionally, several other methods are applied to improve the translation quality including ensembling and postprocessing. We achieve 38.9 BLEU on ChineseVietnamese and 38.0 BLEU on VietnameseChinese on the public test sets, which outperform several strong baselines.
翻訳日:2023-08-16 13:49:52 公開日:2023-08-15
# マルチモーダル・ディバイサル・イミテーション学習によるゲームのためのペルソナ生成

Generating Personas for Games with Multimodal Adversarial Imitation Learning ( http://arxiv.org/abs/2308.07598v1 )

ライセンス: Link先を確認
William Ahlberg, Alessandro Sestini, Konrad Tollmar, Linus Gissl\'en(参考訳) 強化学習は、人間レベルでゲームをプレイできるエージェントの制作に広く成功している。 しかし、これは複雑な報酬工学を必要とし、エージェントの結果のポリシーはしばしば予測不可能である。 強化学習を超えていくことは、報酬関数で表すのが難しい幅広い人間の遊びスタイルをモデル化するために必要である。 本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。 multimodal generative adversarial imitation learning (multigail) は補助入力パラメータを使用して、単一エージェントモデルを用いて異なるペルソナを学習する。 マルチゲイルは生成的敵意学習に基づいており、複数の識別器を報酬モデルとして使用し、エージェントと異なる専門家ポリシーを比較して環境報酬を推測する。 各識別器からの報酬は補助入力に応じて重み付けされる。 本手法は,連続的および離散的動作空間を有する2つの環境において有効であることを示す。

Reinforcement learning has been widely successful in producing agents capable of playing games at a human level. However, this requires complex reward engineering, and the agent's resulting policy is often unpredictable. Going beyond reinforcement learning is necessary to model a wide range of human playstyles, which can be difficult to represent with a reward function. This paper presents a novel imitation learning approach to generate multiple persona policies for playtesting. Multimodal Generative Adversarial Imitation Learning (MultiGAIL) uses an auxiliary input parameter to learn distinct personas using a single-agent model. MultiGAIL is based on generative adversarial imitation learning and uses multiple discriminators as reward models, inferring the environment reward by comparing the agent and distinct expert policies. The reward from each discriminator is weighted according to the auxiliary input. Our experimental analysis demonstrates the effectiveness of our technique in two environments with continuous and discrete action spaces.
翻訳日:2023-08-16 13:49:40 公開日:2023-08-15
# akvsr: 事前学習モデルの音声知識圧縮による視覚音声認識能力の向上

AKVSR: Audio Knowledge Empowered Visual Speech Recognition by Compressing Audio Knowledge of a Pretrained Model ( http://arxiv.org/abs/2308.07593v1 )

ライセンス: Link先を確認
Jeong Hun Yeo, Minsu Kim, Jeongsoo Choi, Dae Hoe Kim, and Yong Man Ro(参考訳) 視覚音声認識(VSR)は、無声唇の動きから発声語を予測するタスクである。 VSRは唇運動に関する情報が不足しているため、難しい課題とみなされている。 本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(Audio Knowledge empowered Visual Speech Recognition framework)を提案する。 従来の手法と異なり、提案されたAKVSR 1)大規模事前学習音声モデルにより符号化されたリッチオーディオ知識を利用する。 2)小型オーディオメモリにおける音声知識の言語情報は、量子化により音声から非言語情報を捨てて保存する。 3)コンパクトオーディオメモリから最適なオーディオ機能を見つけることができるオーディオブリッジモジュールが含まれており、コンパクトオーディオメモリが構成された後、オーディオ入力なしでトレーニングを行える。 提案手法の有効性を広範囲な実験により検証し,広範に使用されているデータセット,LSS2,LSS3上での最先端性能を実現する。

Visual Speech Recognition (VSR) is the task of predicting spoken words from silent lip movements. VSR is regarded as a challenging task because of the insufficient information on lip movements. In this paper, we propose an Audio Knowledge empowered Visual Speech Recognition framework (AKVSR) to complement the insufficient speech information of visual modality by using audio modality. Different from the previous methods, the proposed AKVSR 1) utilizes rich audio knowledge encoded by a large-scale pretrained audio model, 2) saves the linguistic information of audio knowledge in compact audio memory by discarding the non-linguistic information from the audio through quantization, and 3) includes Audio Bridging Module which can find the best-matched audio features from the compact audio memory, which makes our training possible without audio inputs, once after the compact audio memory is composed. We validate the effectiveness of the proposed method through extensive experiments, and achieve new state-of-the-art performances on the widely-used datasets, LRS2 and LRS3.
翻訳日:2023-08-16 13:49:24 公開日:2023-08-15
# グラフセグメンタ:セマンティックセグメンテーションのための境界認識型グラフ変換器

Graph-Segmenter: Graph Transformer with Boundary-aware Attention for Semantic Segmentation ( http://arxiv.org/abs/2308.07592v1 )

ライセンス: Link先を確認
Zizhang Wu, Yuanzhu Gan, Tianhao Xu, Fan Wang(参考訳) ウィンドウをスライディングすることで画像を異なる領域に分割し,各ウィンドウ内の関係をモデル化するトランスフォーマーベースのセマンティックセマンティックセマンティクスアプローチは,大きな成功を収めた。 しかし、ウィンドウ間の関係モデリングが従来の作業の主眼ではなかったため、完全には利用されなかった。 本稿では,グラフトランスフォーマと境界認識アテンションモジュールを含むグラフセグメンタを提案する。グローバルビューにおけるウィンドウと各ウィンドウ内のさまざまなピクセル間のより深い関係を局所的にモデル化し,相当な低コストな境界調整を実現するための有効なネットワークである。 具体的には、ウィンドウ内のすべてのウィンドウとピクセルをノードとして扱い、ビュー両方のグラフを構築し、グラフトランスフォーマーを考案します。 導入された境界対応アテンションモジュールは、オブジェクトのエッジ上のピクセル間の関係をモデル化することにより、対象オブジェクトのエッジ情報を最適化する。 広範に使用される3つの意味セグメンテーションデータセット(cityscapes、ade-20k、pascal context)に関する広範な実験により、提案するネットワークである境界を意識したグラフトランスフォーマが、最先端セグメンテーション性能を達成できることが示されている。

The transformer-based semantic segmentation approaches, which divide the image into different regions by sliding windows and model the relation inside each window, have achieved outstanding success. However, since the relation modeling between windows was not the primary emphasis of previous work, it was not fully utilized. To address this issue, we propose a Graph-Segmenter, including a Graph Transformer and a Boundary-aware Attention module, which is an effective network for simultaneously modeling the more profound relation between windows in a global view and various pixels inside each window as a local one, and for substantial low-cost boundary adjustment. Specifically, we treat every window and pixel inside the window as nodes to construct graphs for both views and devise the Graph Transformer. The introduced boundary-aware attention module optimizes the edge information of the target objects by modeling the relationship between the pixel on the object's edge. Extensive experiments on three widely used semantic segmentation datasets (Cityscapes, ADE-20k and PASCAL Context) demonstrate that our proposed network, a Graph Transformer with Boundary-aware Attention, can achieve state-of-the-art segmentation performance.
翻訳日:2023-08-16 13:49:08 公開日:2023-08-15
# ADD:自動運転のための魚眼自動脱感作データセット

ADD: An Automatic Desensitization Fisheye Dataset for Autonomous Driving ( http://arxiv.org/abs/2308.07590v1 )

ライセンス: Link先を確認
Zizhang Wu, Chenxin Yuan, Hongyang Wei, Fan Song, Tianhao Xu(参考訳) 自律運転システムは周囲の環境を分析するために多くの画像を必要とする。 しかし、歩行者の顔や車のナンバープレートなど、撮影画像のプライベート情報に対するデータ保護は少ないため、重要な問題となっている。 本稿では,データセキュリティ法と規制の要求に応えて,魚眼カメラの大視野(fov)の利点を活かし,addと呼ばれる最初のオートパイロット・デセンシタイズデータセットを構築し,自動運転シナリオにおけるイメージデセンタイズの研究を促進するために,最初のディープラーニングベースのイメージデセンタイズフレームワークを策定する。 コンパイルされたデータセットは650kの画像からなり、サラウンドビュー魚眼カメラが捉えた異なる顔と車両のナンバープレート情報が含まれている。 顔の特徴やナンバープレートの色など、さまざまな自律運転シナリオをカバーする。 そこで,本研究では,車載用ナンバープレートの検出と脱感作タスクを行うための追加データセットのベンチマークとして,fallingernetと呼ばれる効率的なマルチタスク脱感作ネットワークを提案する。 画像の無感化性能の評価基準をさらに提示し,画像の無感化における手法の有効性と優位性を広範囲比較実験により検証した。

Autonomous driving systems require many images for analyzing the surrounding environment. However, there is fewer data protection for private information among these captured images, such as pedestrian faces or vehicle license plates, which has become a significant issue. In this paper, in response to the call for data security laws and regulations and based on the advantages of large Field of View(FoV) of the fisheye camera, we build the first Autopilot Desensitization Dataset, called ADD, and formulate the first deep-learning-based image desensitization framework, to promote the study of image desensitization in autonomous driving scenarios. The compiled dataset consists of 650K images, including different face and vehicle license plate information captured by the surround-view fisheye camera. It covers various autonomous driving scenarios, including diverse facial characteristics and license plate colors. Then, we propose an efficient multitask desensitization network called DesCenterNet as a benchmark on the ADD dataset, which can perform face and vehicle license plate detection and desensitization tasks. Based on ADD, we further provide an evaluation criterion for desensitization performance, and extensive comparison experiments have verified the effectiveness and superiority of our method on image desensitization.
翻訳日:2023-08-16 13:48:40 公開日:2023-08-15
# LLM-Mini-CEX:診断対話のための大規模言語モデルの自動評価

LLM-Mini-CEX: Automatic Evaluation of Large Language Model for Diagnostic Conversation ( http://arxiv.org/abs/2308.07635v1 )

ライセンス: Link先を確認
Xiaoming Shi, Jie Xu, Jinru Ding, Jiali Pang, Sichen Liu, Shuqing Luo, Xingwei Peng, Lu Lu, Haihong Yang, Mingtao Hu, Tong Ruan, Shaoting Zhang(参考訳) 診断効率を向上させるための診断用LSMの開発への関心が高まっている。 この技術の可能性は高いが、統一的で総合的な評価基準はなく、医療用llmの品質と潜在的なリスクを評価できず、医療シナリオにおけるllmの適用を妨げている。 また,現在の評価は,LLMとの労働集約的な相互作用に大きく依存しており,診断対話の質に関する人的評価も行われている。 統一的・包括的評価基準の欠如に対処するために,まず最初に,LLM固有のMini-CEXと呼ばれる評価基準を確立し,元のMini-CEXに基づいてLLMの診断能力を効果的に評価する。 労働集約型インタラクション問題に対処するために, llmとの自動対話を行うための患者シミュレータを開発し, chatgptを用いて診断対話を自動的に評価する。 実験の結果, LLM特異的ミニCEXは診断対話の評価に必要であることがわかった。 さらに、ChatGPTは人文的品質の指標を手作業で評価し、異なるLLM間の再現性と自動比較を提供する。

There is an increasing interest in developing LLMs for medical diagnosis to improve diagnosis efficiency. Despite their alluring technological potential, there is no unified and comprehensive evaluation criterion, leading to the inability to evaluate the quality and potential risks of medical LLMs, further hindering the application of LLMs in medical treatment scenarios. Besides, current evaluations heavily rely on labor-intensive interactions with LLMs to obtain diagnostic dialogues and human evaluation on the quality of diagnosis dialogue. To tackle the lack of unified and comprehensive evaluation criterion, we first initially establish an evaluation criterion, termed LLM-specific Mini-CEX to assess the diagnostic capabilities of LLMs effectively, based on original Mini-CEX. To address the labor-intensive interaction problem, we develop a patient simulator to engage in automatic conversations with LLMs, and utilize ChatGPT for evaluating diagnosis dialogues automatically. Experimental results show that the LLM-specific Mini-CEX is adequate and necessary to evaluate medical diagnosis dialogue. Besides, ChatGPT can replace manual evaluation on the metrics of humanistic qualities and provides reproducible and automated comparisons between different LLMs.
翻訳日:2023-08-16 13:42:37 公開日:2023-08-15
# 大規模言語モデルのモデル圧縮に関する調査

A Survey on Model Compression for Large Language Models ( http://arxiv.org/abs/2308.07633v1 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang(参考訳) 大規模言語モデル(LLM)は、自然言語処理タスクに革命をもたらした。 しかし、その大きなサイズと計算上の要求は、特に資源に制約のある環境での実践的な展開に重大な課題をもたらす。 これらの課題がますます重要になるにつれて、モデル圧縮の分野はこれらの制限を緩和するための重要な研究領域として現れてきた。 本稿では,LLMに特化されたモデル圧縮技術の展望を概観した総合的な調査を行う。 効率的な配置の必要性に対処するため, 定量化, 刈り取り, 知識蒸留など, 様々な手法を探求する。 これらの技術の中で,LLM研究の進展に寄与する最近の進歩と革新的アプローチを強調した。 さらに,圧縮LDMの有効性を評価する上で不可欠なベンチマーク戦略と評価指標について検討する。 最新の発展と実践的意味に関する洞察を提供することで、この調査は研究者と実践者の両方にとって貴重な情報源となる。 llmが進化を続けるにつれ、この調査は効率化と実世界の適用性の向上を目標とし、この分野における今後の進歩のための基盤を確立する。

Large Language Models (LLMs) have revolutionized natural language processing tasks with remarkable success. However, their formidable size and computational demands present significant challenges for practical deployment, especially in resource-constrained environments. As these challenges become increasingly pertinent, the field of model compression has emerged as a pivotal research area to alleviate these limitations. This paper presents a comprehensive survey that navigates the landscape of model compression techniques tailored specifically for LLMs. Addressing the imperative need for efficient deployment, we delve into various methodologies, encompassing quantization, pruning, knowledge distillation, and more. Within each of these techniques, we highlight recent advancements and innovative approaches that contribute to the evolving landscape of LLM research. Furthermore, we explore benchmarking strategies and evaluation metrics that are essential for assessing the effectiveness of compressed LLMs. By providing insights into the latest developments and practical implications, this survey serves as an invaluable resource for both researchers and practitioners. As LLMs continue to evolve, this survey aims to facilitate enhanced efficiency and real-world applicability, establishing a foundation for future advancements in the field.
翻訳日:2023-08-16 13:42:15 公開日:2023-08-15
# Nチャネルパリティ時対称性

N-channel parity-time symmetry ( http://arxiv.org/abs/2308.07631v1 )

ライセンス: Link先を確認
Ege \"Ozg\"un(参考訳) 等価損失/ゲインによるパリティ時間対称性を持つ一般nチャネル結合系の固有値を計算する。 その結果, 固有値のn-2はパリティ時間破壊であり, 残りの2つはパリティ時間対称であるか, 損失/利得とカップリングパラメータによって破壊されていることがわかった。 また,パリティ時対称相とパリティ時破壊相の混合は,分極のような他の自由度が考慮されない場合,少なくとも4チャンネルでのみ得られることを示した。

We calculated the eigenvalues for a general N-channel coupled system with parity-time symmetry due to equal loss/gain. We found that the eigenspectrum displays a mixing of parity-time symmetric and broken phases, with N-2 of the eigenvalues being parity-time broken whereas the remaining two being either parity-time symmetric or broken depending on the loss/gain and coupling parameters. Our results also show that mixing of parity-time symmetric and parity-time broken phases can only be obtained for at least four-channels if other degrees of freedom like polarization is not taken into account.
翻訳日:2023-08-16 13:41:58 公開日:2023-08-15
# 逆伝達性を考慮したバックプロパゲーション経路探索

Backpropagation Path Search On Adversarial Transferability ( http://arxiv.org/abs/2308.07625v1 )

ライセンス: Link先を確認
Zhuoer Xu, Zhangxuan Gu, Jianping Zhang, Shiwen Cui, Changhua Meng, Weiqiang Wang(参考訳) ディープニューラルネットワークは敵の例に対して脆弱であり、デプロイ前にモデルの堅牢性をテストする命令性を決定する。 転送ベースの攻撃者は代理モデルに対する敵の例を作成し、ブラックボックスの状況に配備された犠牲者モデルに転送する。 逆転性を高めるため、構造ベースの攻撃者はバックプロパゲーション経路を調整し、サロゲートモデルに過度に適合しないようにする。 しかし、既存の構造ベースの攻撃者はcnnの畳み込みモジュールを探索できず、バックプロパゲーショングラフをヒューリスティックに修正し、効果を制限している。 本稿では,先述の2つの問題を解くために,papagation pAth Search (PAS)を提案する。 まず,構造再パラメータ化により畳み込みのバックプロパゲーションパスを調整するためのskipconvを提案する。 ヒューリスティックに設計されたバックプロパゲーションパスの欠点を克服するため,我々はさらにDAGベースの探索空間を構築し,経路評価にワンステップ近似を用い,ベイズ最適化を用いて最適な経路を探索する。 我々は多種多様な転送環境で総合的な実験を行い、PASは通常の訓練モデルと防衛モデルの両方において、攻撃成功率を大幅に向上することを示した。

Deep neural networks are vulnerable to adversarial examples, dictating the imperativeness to test the model's robustness before deployment. Transfer-based attackers craft adversarial examples against surrogate models and transfer them to victim models deployed in the black-box situation. To enhance the adversarial transferability, structure-based attackers adjust the backpropagation path to avoid the attack from overfitting the surrogate model. However, existing structure-based attackers fail to explore the convolution module in CNNs and modify the backpropagation graph heuristically, leading to limited effectiveness. In this paper, we propose backPropagation pAth Search (PAS), solving the aforementioned two problems. We first propose SkipConv to adjust the backpropagation path of convolution by structural reparameterization. To overcome the drawback of heuristically designed backpropagation paths, we further construct a DAG-based search space, utilize one-step approximation for path evaluation and employ Bayesian Optimization to search for the optimal path. We conduct comprehensive experiments in a wide range of transfer settings, showing that PAS improves the attack success rate by a huge margin for both normally trained and defense models.
翻訳日:2023-08-16 13:41:47 公開日:2023-08-15
# 短距離医用画像分割のための自己プロンピング大ビジョンモデル

Self-Prompting Large Vision Models for Few-Shot Medical Image Segmentation ( http://arxiv.org/abs/2308.07624v1 )

ライセンス: Link先を確認
Qi Wu, Yuyao Zhang, Marawan Elbatel(参考訳) 大規模基盤モデルの最近の進歩は、フレキシブル・プロンプト能力によって医療産業に有望な可能性を示している。 そのようなモデルの一つであるSAM(Segment Anything Model)は、医療画像セグメンテーションにおける最先端のアプローチを超越して、顕著な性能向上を示した。 しかし、既存のメソッドは主に、広範囲のデータや特定のタスクに合わせた事前プロンプトを必要とするチューニング戦略に依存しており、限られた数のデータサンプルしか利用できない場合、特に困難である。 本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。 具体的には、SAM の埋め込み空間を利用して、単純で効果的な線形画素ワイド分類器を通して自身を誘導する。 大規模モデルの符号化能力と文脈情報をデコーダから保存し、そのインタラクティブなプロンサ性を活用することで、複数のデータセット(例えば、数枚の画像を用いたマスクデコーダの微調整と比較して15%以上の改善)で競合的な結果が得られる。

Recent advancements in large foundation models have shown promising potential in the medical industry due to their flexible prompting capability. One such model, the Segment Anything Model (SAM), a prompt-driven segmentation model, has shown remarkable performance improvements, surpassing state-of-the-art approaches in medical image segmentation. However, existing methods primarily rely on tuning strategies that require extensive data or prior prompts tailored to the specific task, making it particularly challenging when only a limited number of data samples are available. In this paper, we propose a novel perspective on self-prompting in medical vision applications. Specifically, we harness the embedding space of SAM to prompt itself through a simple yet effective linear pixel-wise classifier. By preserving the encoding capabilities of the large model, the contextual information from its decoder, and leveraging its interactive promptability, we achieve competitive results on multiple datasets (i.e. improvement of more than 15% compared to fine-tuning the mask decoder using a few images).
翻訳日:2023-08-16 13:41:27 公開日:2023-08-15
# メタバースサービスのための視覚に基づくセマンティックコミュニケーション:コンテスト理論によるアプローチ

Vision-based Semantic Communications for Metaverse Services: A Contest Theoretic Approach ( http://arxiv.org/abs/2308.07618v1 )

ライセンス: Link先を確認
Guangyuan Liu, Hongyang Du, Dusit Niyato, Jiawen Kang, Zehui Xiong, and Boon Hee Soong(参考訳) エンターテイメント、ソーシャル、ワークプラットフォームとしてのMetaverseの人気は、バーチャルワールドにおけるシームレスなアバター統合を大いに必要としてきた。 Metaverseでは、アバターを更新し、ユーザの振る舞いを反映してレンダリングする必要がある。 仮想バイロケーションとユーザ間のリアルタイム同期を実現することは複雑であり、Metaverse Service Provider(MSP)のレンダリングリソース割り当てスキームに高い要求を課す。 本稿では,ユーザとmsp間のインタラクションをモデル化し,各ユーザに対する最適なリソース割り当てを決定するための,コンテスト理論を活用したセマンティックコミュニケーションフレームワークを提案する。 無線通信におけるネットワークリソースの消費を減らすため,セマンティック通信技術を用いて送信するデータの量を削減する。 シミュレーション設定では、符号化されたセマンティックデータは、画像サイズ8.243メガバイトではなく51バイトのスケルトン座標のみを含む。 さらに,最大性能と効率的なリソース割り当てのための報酬設定を最適化するために,ディープqネットワークを実装した。 最適な報酬設定により、ユーザーはそれぞれのアップロード頻度を選択するインセンティブが与えられ、従来の平均分布法と比較してリソース制約のレンダリングによるダウンサンプリング損失を66.076\%削減する。 このフレームワークは、vr環境におけるアバターアソシエーションのためのリソース割り当てに対する新しいソリューションを提供し、すべてのユーザにスムーズで没入的なエクスペリエンスを提供する。

The popularity of Metaverse as an entertainment, social, and work platform has led to a great need for seamless avatar integration in the virtual world. In Metaverse, avatars must be updated and rendered to reflect users' behaviour. Achieving real-time synchronization between the virtual bilocation and the user is complex, placing high demands on the Metaverse Service Provider (MSP)'s rendering resource allocation scheme. To tackle this issue, we propose a semantic communication framework that leverages contest theory to model the interactions between users and MSPs and determine optimal resource allocation for each user. To reduce the consumption of network resources in wireless transmission, we use the semantic communication technique to reduce the amount of data to be transmitted. Under our simulation settings, the encoded semantic data only contains 51 bytes of skeleton coordinates instead of the image size of 8.243 megabytes. Moreover, we implement Deep Q-Network to optimize reward settings for maximum performance and efficient resource allocation. With the optimal reward setting, users are incentivized to select their respective suitable uploading frequency, reducing down-sampling loss due to rendering resource constraints by 66.076\% compared with the traditional average distribution method. The framework provides a novel solution to resource allocation for avatar association in VR environments, ensuring a smooth and immersive experience for all users.
翻訳日:2023-08-16 13:41:08 公開日:2023-08-15
# 中国政策下における住宅団地の概念設計のための多層パーセプトロン型高速日光評価

A Multilayer Perceptron-based Fast Sunlight Assessment for the Conceptual Design of Residential Neighborhoods under Chinese Policy ( http://arxiv.org/abs/2308.07616v1 )

ライセンス: Link先を確認
Can Jiang, Xiong Liang, Yu-Cheng Zhou, Yong Tian, Shengli Xu, Jia-Rui Lin, Zhiliang Ma, Shiji Yang, Hao Zhou(参考訳) 中国の建築基準では、特定の冬の日に住宅が自然の直射日光を最小時間受けることが義務付けられており、これは1年で最悪の日光条件である。 この要件は、住宅計画の概念設計中に建物の許可を得るための前提条件である。 したがって、公式に認可されたソフトウェアは通常、建物の日光性能を評価するために使用される。 これらのソフトウェアプログラムは、繰り返しシェーディング計算に基づいて日光時間を予測する。 本論文では,入力された立方体型建物によって生じるシェーディング時間間隔を出力する多層パーセプトロンに基づく一段階予測手法を提案する。 全ての建物の日射時間間隔(日射時間間隔の組合せ)の和を計算して、敷地の日射時間を求めることができる。 その結果、計算時間を96.5%~98%の精度で1/84~1/50に短縮できることがわかった。 また,提案モデルに基づき,rhino 7/grasshopperの住宅街区配置計画用プラグインも開発した。 本稿では,概念設計段階での日光時間シミュレーションの高速化に深層学習手法を応用できることを示す。

In Chinese building codes, it is required that residential buildings receive a minimum number of hours of natural, direct sunlight on a specified winter day, which represents the worst sunlight condition in a year. This requirement is a prerequisite for obtaining a building permit during the conceptual design of a residential project. Thus, officially sanctioned software is usually used to assess the sunlight performance of buildings. These software programs predict sunlight hours based on repeated shading calculations, which is time-consuming. This paper proposed a multilayer perceptron-based method, a one-stage prediction approach, which outputs a shading time interval caused by the inputted cuboid-form building. The sunlight hours of a site can be obtained by calculating the union of the sunlight time intervals (complement of shading time interval) of all the buildings. Three numerical experiments, i.e., horizontal level and slope analysis, and simulation-based optimization are carried out; the results show that the method reduces the computation time to 1/84~1/50 with 96.5%~98% accuracies. A residential neighborhood layout planning plug-in for Rhino 7/Grasshopper is also developed based on the proposed model. This paper indicates that deep learning techniques can be adopted to accelerate sunlight hour simulations at the conceptual design phase.
翻訳日:2023-08-16 13:40:46 公開日:2023-08-15
# 多世界解釈学習のための自己教師付きハイパーグラフ

Self-supervised Hypergraphs for Learning Multiple World Interpretations ( http://arxiv.org/abs/2308.07615v1 )

ライセンス: Link先を確認
Alina Marcu, Mihai Pirvu, Dragos Costea, Emanuela Haller, Emil Slusanschi, Ahmed Nabil Belbachir, Rahul Sukthankar, Marius Leordeanu(参考訳) マルチタスクハイパーグラフの形式で,これらの表現間の関係を利用して,小さなラベル付き集合を与えられた複数のシーン表現を学習する手法を提案する。 また、ラベル付きデータを追加せずに、ハイパーグラフを使って強力なトレーニング済みVisTransformerモデルを改善する方法を示す。 私たちのハイパーグラフでは、各ノードはシーンの解釈層(例えば、深さやセグメンテーション)です。 各ハイパーエッジ内では、1つまたは複数の入力ノードが出力ノードの層を予測する。 したがって、各ノードはハイパーエッジの入力ノードであり、他のノードの出力ノードである。 このように、複数の経路が同じノードに到達し、そこからロバストな擬似ラベルを得るアンサンブルを形成し、ハイパーグラフで自己教師付き学習を可能にする。 異なるアンサンブルモデルと異なるタイプのハイパーエッジをテストし、フィールド内の他のマルチタスクグラフモデルよりも優れたパフォーマンスを示す。 マルチタスク学習に適した複数の表現を備えた,複雑な実世界のシーンでuavでキャプチャされた大規模なビデオデータセットであるdronescapesも紹介する。

We present a method for learning multiple scene representations given a small labeled set, by exploiting the relationships between such representations in the form of a multi-task hypergraph. We also show how we can use the hypergraph to improve a powerful pretrained VisTransformer model without any additional labeled data. In our hypergraph, each node is an interpretation layer (e.g., depth or segmentation) of the scene. Within each hyperedge, one or several input nodes predict the layer at the output node. Thus, each node could be an input node in some hyperedges and an output node in others. In this way, multiple paths can reach the same node, to form ensembles from which we obtain robust pseudolabels, which allow self-supervised learning in the hypergraph. We test different ensemble models and different types of hyperedges and show superior performance to other multi-task graph models in the field. We also introduce Dronescapes, a large video dataset captured with UAVs in different complex real-world scenes, with multiple representations, suitable for multi-task learning.
翻訳日:2023-08-16 13:40:25 公開日:2023-08-15
# ボルツマン状態におけるハイゼンベルクの不確かさ積の下限について

On the lower bound of the Heisenberg uncertainty product in the Boltzmann states ( http://arxiv.org/abs/2308.07613v1 )

ライセンス: Link先を確認
Yao Wang(参考訳) 不確実性原理は、位置の精度と運動量測定の基本的なトレードオフを記述するため、量子力学の中心にある。 本研究ではボルツマン状態における量子粒子を研究し, {\delta}x と {\delta}p の積上の洗練された下界を導出する。 新しいバウンドは {\delta}xと熱ドブロイの波長の比で表され、熱力学的精度を特徴付ける貴重なツールとなる。 その結果をブラウン振動子系に適用し,新しい境界を有名なハイゼンベルクの不確実性原理と比較した。 解析の結果、新しい境界は、精度の熱力学的限界をより正確に測定できることがわかった。

The uncertainty principle lies at the heart of quantum mechanics, as it describes the fundamental trade-off between the precision of position and momentum measurements. In this work, we study the quantum particle in the Boltzmann states and derive a refined lower bound on the product of {\Delta}x and {\Delta}p. Our new bound is expressed in terms of the ratio between {\Delta}x and the thermal de Broglie wavelength, and provides a valuable tool for characterizing thermodynamic precision. We apply our results to the Brownian oscillator system, where we compare our new bound with the well-known Heisenberg uncertainty principle. Our analysis shows that our new bound offers a more precise measure of the thermodynamic limits of precision.
翻訳日:2023-08-16 13:40:08 公開日:2023-08-15
# GAMER-MRILによる多発性硬化症における障害関連脳変化の同定

GAMER-MRIL identifies Disability-Related Brain Changes in Multiple Sclerosis ( http://arxiv.org/abs/2308.07611v1 )

ライセンス: Link先を確認
Po-Jui Lu, Benjamin Odry, Muhamed Barakovic, Matthias Weigel, Robin Sandk\"uhler, Reza Rahmanzadeh, Xinjie Chen, Mario Ocampo-Pineda, Jens Kuhle, Ludwig Kappos, Philippe Cattin, Cristina Granziera(参考訳) 目的:多発性硬化症(MS)患者における障害関連脳変化の同定が重要である。 単一のMS患者に障害を誘発する病的特徴について,現時点では明確な理解が得られていない。 そこで本研究では,重度障害のあるms患者を分類し,関連する病的脳変化を調査するために,全脳定量mri(qmri),畳み込みニューラルネットワーク(cnn),解釈可能性を用いて,新しい包括的アプローチであるgamer-mrilを提案する。 方法: 3T MRI を施行した。 定量的なT1(qT1)、ミエリン水分画(MWF)、神経突起密度指数(NDI)を含む、微細構造脳特性のqMRI情報を再構成した。 qMRIをフル活用するために、GAMER-MRILはゲートアテンションベースのCNN(GAMER-MRI)を拡張した。 障害関連脳領域を見つけるため、GAMER-MRILは構造認識型解釈可能性法、レイヤワイド関連伝播法(LRP)を改良し、qMRIを組み込んだ。 結果: AUC=0.885。 qT1は障害に最も敏感な指標であり、NDIが続く。 提案手法は,サリエンシマップ,積分勾配,元のLPPを含む他の解釈可能性手法よりも,より具体的な領域を得た。 関連領域は皮質脊髄路で,QT1とNDIは患者の障害スコアと有意な相関を示した(\rho$=-0.37, 0.44)。 結語: これらの結果から, GAMER-MRILはqMRIを用いて重度障害患者を分類し, 移動機能の整合性に重要な脳領域を同定できることが示唆された。 意義:GAMER-MRILはバイオマーカーの開発と臨床医のNNへの信頼を高めることを約束している。

Objective: Identifying disability-related brain changes is important for multiple sclerosis (MS) patients. Currently, there is no clear understanding about which pathological features drive disability in single MS patients. In this work, we propose a novel comprehensive approach, GAMER-MRIL, leveraging whole-brain quantitative MRI (qMRI), convolutional neural network (CNN), and an interpretability method from classifying MS patients with severe disability to investigating relevant pathological brain changes. Methods: One-hundred-sixty-six MS patients underwent 3T MRI acquisitions. qMRI informative of microstructural brain properties was reconstructed, including quantitative T1 (qT1), myelin water fraction (MWF), and neurite density index (NDI). To fully utilize the qMRI, GAMER-MRIL extended a gated-attention-based CNN (GAMER-MRI), which was developed to select patch-based qMRI important for a given task/question, to the whole-brain image. To find out disability-related brain regions, GAMER-MRIL modified a structure-aware interpretability method, Layer-wise Relevance Propagation (LRP), to incorporate qMRI. Results: The test performance was AUC=0.885. qT1 was the most sensitive measure related to disability, followed by NDI. The proposed LRP approach obtained more specifically relevant regions than other interpretability methods, including the saliency map, the integrated gradients, and the original LRP. The relevant regions included the corticospinal tract, where average qT1 and NDI significantly correlated with patients' disability scores ($\rho$=-0.37 and 0.44). Conclusion: These results demonstrated that GAMER-MRIL can classify patients with severe disability using qMRI and subsequently identify brain regions potentially important to the integrity of the mobile function. Significance: GAMER-MRIL holds promise for developing biomarkers and increasing clinicians' trust in NN.
翻訳日:2023-08-16 13:39:55 公開日:2023-08-15
# 注意はこれ以上必要なものではない

Attention Is Not All You Need Anymore ( http://arxiv.org/abs/2308.07661v1 )

ライセンス: Link先を確認
Zhe Chen(参考訳) 近年,自然言語処理やコンピュータビジョンなど,多くの応用分野において人気のTransformerアーキテクチャが大きな成功を収めている。 既存の多くの作品は、性能のトレードオフによって変圧器の自己着脱機構の計算とメモリの複雑さを減らすことを目的としている。 しかし、Transformerの継続的な成功の鍵はパフォーマンスにある。 本稿では, 変圧器の自己保持機構であるエクストラクタ(Extractor)をドロップインで置き換える手法を提案する。 実験の結果, 自己着脱機構を抽出器に置き換えることで, 変圧器の性能が向上することがわかった。 さらに提案したExtractorは,計算のクリティカルパスがはるかに短いため,自己注意よりも高速に動作することができる。 さらに,テキスト生成の文脈におけるシーケンス予測問題を可変長離散時間マルコフ連鎖を用いて定式化し,その理解に基づいてトランスフォーマーについて検討する。

In recent years, the popular Transformer architecture has achieved great success in many application areas, including natural language processing and computer vision. Many existing works aim to reduce the computational and memory complexity of the self-attention mechanism in the Transformer by trading off performance. However, performance is key for the continuing success of the Transformer. In this paper, a drop-in replacement for the self-attention mechanism in the Transformer, called the Extractor, is proposed. Experimental results show that replacing the self-attention mechanism with the Extractor improves the performance of the Transformer. Furthermore, the proposed Extractor has the potential to run faster than the self-attention since it has a much shorter critical path of computation. Additionally, the sequence prediction problem in the context of text generation is formulated using variable-length discrete-time Markov chains, and the Transformer is reviewed based on our understanding.
翻訳日:2023-08-16 13:33:13 公開日:2023-08-15
# Kadanoff-Baym方程式を用いたオープン量子システム

Open Quantum Systems with Kadanoff-Baym Equations ( http://arxiv.org/abs/2308.07659v1 )

ライセンス: Link先を確認
Tim Neidig, Jan Rais, Marcus Bleicher, Hendrik van Hees, and Carsten Greiner(参考訳) ボソニック粒子の熱浴中での1次元の魅力的な二乗ウェルポテンシャルの中で1つの束縛状態を示す量子力学的フェルミオン粒子の時間的発展について検討した。 この開量子系では、熱-熱粒子との相互作用を弾性 2-2 散乱とすることで、系粒子の非平衡カダノフ・ベイム方程式を定式化する。 一粒子グリーンズ関数に対する空間的に不均一な積分微分方程式を数値的に解く。 本研究では, 系粒子が熱浴と平衡し熱し, 密度行列の非対角要素が1粒子のエネルギー固有ベイシスでどのように表されるかを示し, 対角成分, すなわち占有数のみが存続することを示す。 さらに、(取り戻された)グリーン関数の時間発展は、様々な1粒子量子状態のスペクトル特性も決定する。

We study the temporal evolution of quantum mechanical fermionic particles exhibiting one bound state within a one-dimensional attractive square-well potential in a heat bath of bosonic particles. For this open quantum system we formulate the non-equilibrium Kadanoff-Baym equations for the system particles by taking the interactions to be elastic 2-2 scatterings with the heat-bath particles. The corresponding spatially imhomogeneous integro-differential equations for the one-particle Greens's function are solved numerically. We demonstrate how the system particles equilibrate and thermalize with the heat bath and how the off-diagonal elements of the density matrix, expressed in the one-particle energy eigenbasis, decohere, so that only the diagonal entries, i.e. the occupation numbers, survive. In addition, the time evolution of the (retarded) Green's function also determines the spectral properties of the various one-particle quantum states.
翻訳日:2023-08-16 13:32:46 公開日:2023-08-15
# コミットメッセージ生成から履歴対応コミットメッセージ補完へ

From Commit Message Generation to History-Aware Commit Message Completion ( http://arxiv.org/abs/2308.07655v1 )

ライセンス: Link先を確認
Aleksandra Eliseeva, Yaroslav Sokolov, Egor Bogomolov, Yaroslav Golubev, Danny Dig, Timofey Bryksin(参考訳) コミットメッセージはソフトウェア開発に不可欠であり、開発者は変更を追跡し、効果的に協力することができる。 ユーティリティにもかかわらず、ほとんどのコミットメッセージは、高品質なコミットメッセージを書くのは面倒で時間を要するため、重要な情報がない。 コミットメッセージ生成(CMG)に関する活発な研究は、実際に広く採用されているわけではない。 コミットメッセージ生成からコミットメッセージ補完に重点を移し、以前のコミット履歴を追加コンテキストとして使用できれば、コミットメッセージの品質と個人的な性質が大幅に向上する、と私たちは主張しています。 本稿では,これら2つの新しいアイデアを提案し,評価する。 既存のデータセットには履歴データがないため、20言語にわたる107万のコミットを含むCommitChronicleと呼ばれる新しいデータセットを収集、共有しています。 本データセットを用いて,現状のCMGモデルとGPT-3.5-turboの完成状況と過去の文脈の有用性を評価する。 以上の結果から,コミットメッセージ補完は生成よりも優れた結果を示し,一般的にはGPT-3.5-turboはより悪い性能を示すが,長大かつ詳細なメッセージの可能性を示唆している。 歴史的情報により, 生成タスクにおけるCMGモデルの性能が向上し, 生成と完了の両方においてGPT-3.5-turboの性能が向上することを示す。

Commit messages are crucial to software development, allowing developers to track changes and collaborate effectively. Despite their utility, most commit messages lack important information since writing high-quality commit messages is tedious and time-consuming. The active research on commit message generation (CMG) has not yet led to wide adoption in practice. We argue that if we could shift the focus from commit message generation to commit message completion and use previous commit history as additional context, we could significantly improve the quality and the personal nature of the resulting commit messages. In this paper, we propose and evaluate both of these novel ideas. Since the existing datasets lack historical data, we collect and share a novel dataset called CommitChronicle, containing 10.7M commits across 20 programming languages. We use this dataset to evaluate the completion setting and the usefulness of the historical context for state-of-the-art CMG models and GPT-3.5-turbo. Our results show that in some contexts, commit message completion shows better results than generation, and that while in general GPT-3.5-turbo performs worse, it shows potential for long and detailed messages. As for the history, the results show that historical information improves the performance of CMG models in the generation task, and the performance of GPT-3.5-turbo in both generation and completion.
翻訳日:2023-08-16 13:32:22 公開日:2023-08-15
# SEER: MLIRを用いたEグラフ書き換えによるHLSの超最適化エクスプローラー

SEER: Super-Optimization Explorer for HLS using E-graph Rewriting with MLIR ( http://arxiv.org/abs/2308.07654v1 )

ライセンス: Link先を確認
Jianyi Cheng, Samuel Coward, Lorenzo Chelini, Rafael Barbalho, Theo Drane(参考訳) ハイレベルシンセシス(high-level synthesis, hls)は、ソフトウェアプログラムをハイレベル言語で自動的に低レベルのハードウェア記述に変換するプロセスである。 しかし、HLSツールによって作られたハードウェア設計は、手作業による実装に比べて大きなパフォーマンス差を被っている。 これは、入力HLSプログラムはハードウェア設計原則を使って書かなければならないためである。 既存の手法では、プログラムのソースを変更せずに残したり、ソース変換の固定シーケンスを実行したりする。 本稿では、任意のソフトウェアプログラムを最適化ハードウェア設計に使用可能な効率的なHLSコードに自動的に書き換えるHLSの超最適化手法を提案する。 我々は,電子グラフデータ構造に基づくSEERというツールフローを開発し,プログラムの大規模実装を効率的に検討した。 SEERは拡張可能なフレームワークを提供し、既存のソフトウェアコンパイラーパスとハードウェア合成オプティマイザを編成する。 私たちの仕事は、mlirのような大規模なソフトウェアコンパイラフレームワークのe-graph書き換えを利用する最初の試みです。 オープンソースのベンチマークでは、SEERが元のプログラムの1.4倍の範囲で最大38倍の性能を達成することを示す。 intelが提供したケーススタディを通じて、seerは、ハードウェア専門家が手作業で最適化した設計を上回る可能性を実証している。

High-level synthesis (HLS) is a process that automatically translates a software program in a high-level language into a low-level hardware description. However, the hardware designs produced by HLS tools still suffer from a significant performance gap compared to manual implementations. This is because the input HLS programs must still be written using hardware design principles. Existing techniques either leave the program source unchanged or perform a fixed sequence of source transformation passes, potentially missing opportunities to find the optimal design. We propose a super-optimization approach for HLS that automatically rewrites an arbitrary software program into efficient HLS code that can be used to generate an optimized hardware design. We developed a toolflow named SEER, based on the e-graph data structure, to efficiently explore equivalent implementations of a program at scale. SEER provides an extensible framework, orchestrating existing software compiler passes and hardware synthesis optimizers. Our work is the first attempt to exploit e-graph rewriting for large software compiler frameworks, such as MLIR. Across a set of open-source benchmarks, we show that SEER achieves up to 38x the performance within 1.4x the area of the original program. Via an Intel-provided case study, SEER demonstrates the potential to outperform manually optimized designs produced by hardware experts.
翻訳日:2023-08-16 13:31:42 公開日:2023-08-15
# 視覚野の幾何学と画像インパインティング・エンハンスメントへの応用

Geometry of the Visual Cortex with Applications to Image Inpainting and Enhancement ( http://arxiv.org/abs/2308.07652v1 )

ライセンス: Link先を確認
Francesco Ballerin and Erlend Grong(参考訳) 視覚野V1にインスパイアされたサブリーマン構造を持つロト翻訳群を$SE(2)$とすることで,低楕円波拡散に基づく画像の塗布と強調を行うアルゴリズムを提案する。 我々はCitti,Sarti,Boscainらによる従来の手法の実装を革新し、WaxOn-WaxOffと呼ばれる手順でフェードを防ぎ、よりシャープな結果を生み出す方法を提案する。 また,2次元画像処理のための古典的アンシャープフィルタに類似した$SE(2)$を用いて,完全に新しいアンシャープを定義するために,サブリーマン構造を利用する。 網膜スキャンによる血管造影法について検討した。

Equipping the rototranslation group $SE(2)$ with a sub-Riemannian structure inspired by the visual cortex V1, we propose algorithms for image inpainting and enhancement based on hypoelliptic diffusion. We innovate on previous implementations of the methods by Citti, Sarti and Boscain et al., by proposing an alternative that prevents fading and capable of producing sharper results in a procedure that we call WaxOn-WaxOff. We also exploit the sub-Riemannian structure to define a completely new unsharp using $SE(2)$, analogous of the classical unsharp filter for 2D image processing, with applications to image enhancement. We demonstrate our method on blood vessels enhancement in retinal scans.
翻訳日:2023-08-16 13:31:21 公開日:2023-08-15
# EQ-Net: 弾性量子化ニューラルネットワーク

EQ-Net: Elastic Quantization Neural Networks ( http://arxiv.org/abs/2308.07650v1 )

ライセンス: Link先を確認
Ke Xu and Lei Han and Ye Tian and Shangshang Yang and Xingyi Zhang(参考訳) 現在のモデル量子化法は、ストレージ容量と計算複雑性を削減できる有望な能力を示している。 しかしながら、異なるハードウェアでサポートされている量子化形式の多様性のため、既存のソリューションの1つの制限は、通常、異なるシナリオに対して繰り返し最適化を必要とすることである。 フレキシブルな量子化形式を持つモデルを構築する方法はあまり研究されていない。 本稿では,強靭な重み共有量子化スーパーネットのトレーニングを目的とした,Elastic Quantization Neural Networks (EQ-Net) と呼ばれるワンショットネットワーク量子化システムについて検討する。 まず、様々な主要な量形式に適応する弾性量子化空間(弾性ビット幅、粒度、対称性を含む)を提案する。 次に,重量分布正規化損失(wdr-loss)と群進行誘導損失(gpg-loss)を提案し,弾性量子化空間ギャップにおける重量分布の不整合と出力ロジットを橋渡しする。 最後に、遺伝的アルゴリズムと提案した条件量子化認識精度予測器(CQAP)を推定器として組み込んで、混合精度量子ニューラルネットワークを高速に探索する。 大規模な実験により、我々のEQ-Netは、最先端の堅牢なビット幅法と同様に、静的な手法に近いか、それ以上に優れていることが示される。 コードは \href{https://github.com/xuke225/EQ-Net.git}{https://github.com/xuke225/EQ-Net} で入手できる。

Current model quantization methods have shown their promising capability in reducing storage space and computation complexity. However, due to the diversity of quantization forms supported by different hardware, one limitation of existing solutions is that usually require repeated optimization for different scenarios. How to construct a model with flexible quantization forms has been less studied. In this paper, we explore a one-shot network quantization regime, named Elastic Quantization Neural Networks (EQ-Net), which aims to train a robust weight-sharing quantization supernet. First of all, we propose an elastic quantization space (including elastic bit-width, granularity, and symmetry) to adapt to various mainstream quantitative forms. Secondly, we propose the Weight Distribution Regularization Loss (WDR-Loss) and Group Progressive Guidance Loss (GPG-Loss) to bridge the inconsistency of the distribution for weights and output logits in the elastic quantization space gap. Lastly, we incorporate genetic algorithms and the proposed Conditional Quantization-Aware Accuracy Predictor (CQAP) as an estimator to quickly search mixed-precision quantized neural networks in supernet. Extensive experiments demonstrate that our EQ-Net is close to or even better than its static counterparts as well as state-of-the-art robust bit-width methods. Code can be available at \href{https://github.com/xuke225/EQ-Net.git}{https://github.com/xuke225/EQ-Net}.
翻訳日:2023-08-16 13:30:55 公開日:2023-08-15
# Prompt Switch: テキストビデオ検索のための効率的なCLIP適応

Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval ( http://arxiv.org/abs/2308.07648v1 )

ライセンス: Link先を確認
Chaorui Deng, Qi Chen, Pengda Qin, Da Chen, Qi Wu(参考訳) テキストビデオ検索において、最近の研究は、事前訓練されたテキストイメージ基盤モデル(例えば、CLIP)の強力な学習能力の恩恵を受けている。 彼らにとって重要な問題は、クリップの画像エンコーダを使ってビデオ内のリッチセマンティクスを効果的に捉える方法である。 これに対処するため、最先端の手法では複雑なクロスモーダルモデリング技術を用いて、テキスト情報をビデオフレーム表現に融合するが、テキストクエリ毎にビデオ表現をオンラインで再計算しなければならないため、大規模な検索システムでは深刻な効率問題が発生する。 本稿では,この問題のあるクロスモーダル融合処理を廃止し,映像から意味的に強調された表現を学習することを目的として,映像表現をオフラインで計算し,異なるテキストに再利用できるようにする。 具体的には、まず、CLIP画像エンコーダに時空間の「Prompt Cube」を導入し、それをエンコーダ層内に繰り返し切り替え、グローバルなビデオセマンティクスをフレーム表現に効率的に組み込む。 次に,フレーム表現の訓練に補助的映像キャプションの目的を適用し,意味空間における詳細なガイダンスを提供することにより,詳細な映像意味の学習を容易にすることを提案する。 拡張フレーム表現に有意な時間融合戦略(平均プーリング)により、3つのベンチマークデータセット(MSR-VTT, MSVD, LSMDC)上での最先端のパフォーマンスを得る。

In text-video retrieval, recent works have benefited from the powerful learning capabilities of pre-trained text-image foundation models (e.g., CLIP) by adapting them to the video domain. A critical problem for them is how to effectively capture the rich semantics inside the video using the image encoder of CLIP. To tackle this, state-of-the-art methods adopt complex cross-modal modeling techniques to fuse the text information into video frame representations, which, however, incurs severe efficiency issues in large-scale retrieval systems as the video representations must be recomputed online for every text query. In this paper, we discard this problematic cross-modal fusion process and aim to learn semantically-enhanced representations purely from the video, so that the video representations can be computed offline and reused for different texts. Concretely, we first introduce a spatial-temporal "Prompt Cube" into the CLIP image encoder and iteratively switch it within the encoder layers to efficiently incorporate the global video semantics into frame representations. We then propose to apply an auxiliary video captioning objective to train the frame representations, which facilitates the learning of detailed video semantics by providing fine-grained guidance in the semantic space. With a naive temporal fusion strategy (i.e., mean-pooling) on the enhanced frame representations, we obtain state-of-the-art performances on three benchmark datasets, i.e., MSR-VTT, MSVD, and LSMDC.
翻訳日:2023-08-16 13:30:30 公開日:2023-08-15
# ステアリング言語生成:コヒーレント・ディバース合成データ生成のための対照的な専門家ガイダンスと否定的プロンプト

Steering Language Generation: Harnessing Contrastive Expert Guidance and Negative Prompting for Coherent and Diverse Synthetic Data Generation ( http://arxiv.org/abs/2308.07645v1 )

ライセンス: Link先を確認
Charles O'Neill, Yuan-Sen Ting, Ioana Ciuca, Roberta Raileanu, Jack Miller, Thang Bui(参考訳) 大規模言語モデル(LLM)は、下流モデルトレーニングから実用的なデータ活用に至るまで、多くの応用がある高品質で実用性の高い合成データを生成する大きな可能性を秘めている。 しかし、現代のモデルは、その印象的な能力にもかかわらず、一貫性と多様なデータの両方を作り出すのに一貫して苦労している。 整合性問題に対処するために,我々は,細調整と基本言語モデルのロジット分布の違いを強調し,ドメインの整合性を確保するための対照的な専門家ガイダンスを導入する。 多様性を確保するため、既存の実例と合成例をモデルへの負のプロンプトとして利用します。 私たちはこの二重プロンプトによるlogitリシェープのアプローチを,steer: semantic text enhancement through embedded repositioningと定義しています。 STEERは推論時に動作し、LLMを体系的に誘導し、データ分散(セマンティックフィディリティの保証)と、以前の合成例や既存の実際のデータセット(多様性と信頼性の保証)からの逸脱のバランスを取る。 この微妙なバランスは、潜在空間における選択された表現の方向や方向を動的に移動させることによって達成される。 STEERは、従来の合成データ生成技術よりも優れたパフォーマンスを示し、仮説生成、有毒および非有毒なコメント生成、常識推論タスク生成の3つの異なるタスク間でデータの多様性と一貫性のバランスが改善されている。 我々は、STEERがハイパーパラメータを介して多様性コヒーレンシートレードオフを微調整して制御できる方法を示し、その汎用性を強調した。

Large Language Models (LLMs) hold immense potential to generate synthetic data of high quality and utility, which has numerous applications from downstream model training to practical data utilisation. However, contemporary models, despite their impressive capacities, consistently struggle to produce both coherent and diverse data. To address the coherency issue, we introduce contrastive expert guidance, where the difference between the logit distributions of fine-tuned and base language models is emphasised to ensure domain adherence. In order to ensure diversity, we utilise existing real and synthetic examples as negative prompts to the model. We deem this dual-pronged approach to logit reshaping as STEER: Semantic Text Enhancement via Embedding Repositioning. STEER operates at inference-time and systematically guides the LLMs to strike a balance between adherence to the data distribution (ensuring semantic fidelity) and deviation from prior synthetic examples or existing real datasets (ensuring diversity and authenticity). This delicate balancing act is achieved by dynamically moving towards or away from chosen representations in the latent space. STEER demonstrates improved performance over previous synthetic data generation techniques, exhibiting better balance between data diversity and coherency across three distinct tasks: hypothesis generation, toxic and non-toxic comment generation, and commonsense reasoning task generation. We demonstrate how STEER allows for fine-tuned control over the diversity-coherency trade-off via its hyperparameters, highlighting its versatility.
翻訳日:2023-08-16 13:29:59 公開日:2023-08-15
# 低励起状態を超えたM\"ossbauer核のX線励起特性と検出法

A characterization and detection method for x-ray excitation of M\"ossbauer nuclei beyond the low-excitation regime ( http://arxiv.org/abs/2308.07644v1 )

ライセンス: Link先を確認
Lukas Wolff and J\"org Evers(参考訳) これまで、m\"ossbauer核を含む実験は低励起状態に限定されてきた。 この理由は核のスペクトル線幅が狭いためである。 この決定的な特徴により、m\"ossbauer spectroscopy の分解能と時間領域での制御と測定が容易であるが、同時に、加速器ベースのx線源から供給される光子のごく一部だけが核と共振していることを示している。 X線自由電子レーザーは、パルス当たりの核共鳴光子の数が大幅に増加し、低励起(LER)状態を超える励起が到達する。 これは、非線形励起の開始が実験的にどのように検証されるかという疑問を提起する。 そこで我々は、X線導波路に埋め込まれた核のアンサンブルのためのLER以外の核アンサンブルの励起を検出する方法を開発し、探索する。 これは、核からX線をコヒーレントに、そして非コヒーレントに散乱する比較に依存する。 その結果,2つの観測値の比はLER内で一定であり,核系の詳細や励起X線の特徴とは本質的には独立であることがわかった。 逆に、この同値性からの偏差は、LER以外の励起の直接的な表示として機能する。 この観察に基づいて, 瞬時インパルスと時間延長非インプルシブx線励起の両方について実験的なシグネチャを開発した。 コヒーレントかつ不整合に散らばった強度の関係により、非線形励起の理論モデルと対応する実験をより厳密に比較することができる。

Up to now, experiments involving M\"ossbauer nuclei have been restricted to the low-excitation regime. The reason for this is the narrow spectral line width of the nuclei. This defining feature enables M\"ossbauer spectroscopy with remarkable resolution and convenient control and measurements in the time domain, but at the same time implies that only a tiny part of the photons delivered by accelerator-based x-ray sources with orders-of-magnitude larger pulse bandwidth are resonant with the nuclei. X-ray free-electron lasers promise a substantial enhancement of the number of nuclear-resonant photons per pulse, such that excitations beyond the low-excitation (LER) regime come within reach. This raises the question, how the onset of non-linear excitations could be experimentally verified. Here, we develop and explore a method to detect an excitation of nuclear ensembles beyond the LER for ensembles of nuclei embedded in x-ray waveguides. It relies on the comparison of the x-rays coherently and incoherently scattered off of the nuclei. As a key result, we show that the ratio of the two observables is constant within the LER, essentially independent of the details of the nuclear system and the characteristics of the exciting x-rays. Conversely, deviations from this equivalence serve as a direct indication of excitations beyond the LER. Building upon this observation, we develop a variety of experimental signatures both, for near-instantaneous impulsive and for temporally-extended non-impulsive x-ray excitation. Correlating coherently and incoherently scattered intensities further allows one to compare theoretical models of nonlinear excitations more rigorously to corresponding experiments.
翻訳日:2023-08-16 13:29:27 公開日:2023-08-15
# 線形写像におけるより良いパラメータ化形式としての三元特異値分解

Ternary Singular Value Decomposition as a Better Parameterized Form in Linear Mapping ( http://arxiv.org/abs/2308.07641v1 )

ライセンス: Link先を確認
Boyu Chen, Hanxuan Chen, Jiao He, Fengyu Sun, Shangling Jui(参考訳) 本稿では,ネットワーク圧縮性能を飛躍的に向上させるために,単純かつ新しいパラメータ化された線形写像形式を提案する。 バニラ SVD とは異なり、SVD の $U$ と $V$ の行列は $\{\pm 1, 0\}$ の 3次行列に制限される。 つまり、高価な乗算命令を使う代わりに、TSVDは$U(\cdot)$と$V(\cdot)$を計算する際にのみ追加命令を必要とする。 ポストトレーニング量子化および量子化アウェアトレーニングのようなTSVDのための直接および訓練遷移アルゴリズムを提供する。 さらに,理論における直接遷移アルゴリズムの収束を解析する。 実験では,既存のベースラインモデルであるConvNext, Swim, BERT, OPTなどの大規模言語モデルなど,様々な種類のネットワークやタスクにおいて,TSVDが最先端のネットワーク圧縮性能を達成できることを実証した。

We present a simple yet novel parameterized form of linear mapping to achieves remarkable network compression performance: a pseudo SVD called Ternary SVD (TSVD). Unlike vanilla SVD, TSVD limits the $U$ and $V$ matrices in SVD to ternary matrices form in $\{\pm 1, 0\}$. This means that instead of using the expensive multiplication instructions, TSVD only requires addition instructions when computing $U(\cdot)$ and $V(\cdot)$. We provide direct and training transition algorithms for TSVD like Post Training Quantization and Quantization Aware Training respectively. Additionally, we analyze the convergence of the direct transition algorithms in theory. In experiments, we demonstrate that TSVD can achieve state-of-the-art network compression performance in various types of networks and tasks, including current baseline models such as ConvNext, Swim, BERT, and large language model like OPT.
翻訳日:2023-08-16 13:29:02 公開日:2023-08-15
# 大規模・未ラベル自然画像を用いた医療AIモデルのネットワーク初期化の促進

Enhancing Network Initialization for Medical AI Models Using Large-Scale, Unlabeled Natural Images ( http://arxiv.org/abs/2308.07688v1 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Leo Misera, Jakob Nikolas Kather, Daniel Truhn, Sven Nebelung(参考訳) ImageNetのような事前トレーニングデータセットは、医療画像分析におけるゴールドスタンダードとなっている。 しかし、ラベルのないデータを利用して堅牢な特徴を学習する自己教師付き学習(SSL)の出現は、集中的なラベリングプロセスをバイパスする機会を与える。 本研究では,非医用画像に対する事前トレーニングのためのSSLが胸部X線写真に適用可能か,非医用画像および医用画像に対する教師付き事前トレーニングとの比較を行った。 視覚トランスフォーマーを利用して 重みを初期化しました (i)自然画像によるSSL事前トレーニング(DINOv2) (ii)自然画像(画像Netデータセット)におけるSL事前学習 3)MIMIC-CXRデータベースからの胸部X線写真によるSL事前訓練 我々は6つの大きなグローバルデータセットから800,000以上の胸部X線撮影を行い、20以上の異なる画像所見を診断した。 我々のSSL事前トレーニングは、ImageNetベースの事前トレーニング(P<0.001)に勝るだけでなく、MIMIC-CXRデータセット上のSLを上回りました。 以上の結果から,適切な事前トレーニング戦略,特にSSLを選択することは,医用画像における人工知能(AI)の診断精度の向上に重要であることが示唆された。 胸部x線写真解析におけるsslの有望性を示すことで、医療画像におけるより効率的で正確なaiモデルへの転換を示唆する。

Pre-training datasets, like ImageNet, have become the gold standard in medical image analysis. However, the emergence of self-supervised learning (SSL), which leverages unlabeled data to learn robust features, presents an opportunity to bypass the intensive labeling process. In this study, we explored if SSL for pre-training on non-medical images can be applied to chest radiographs and how it compares to supervised pre-training on non-medical images and on medical images. We utilized a vision transformer and initialized its weights based on (i) SSL pre-training on natural images (DINOv2), (ii) SL pre-training on natural images (ImageNet dataset), and (iii) SL pre-training on chest radiographs from the MIMIC-CXR database. We tested our approach on over 800,000 chest radiographs from six large global datasets, diagnosing more than 20 different imaging findings. Our SSL pre-training on curated images not only outperformed ImageNet-based pre-training (P<0.001 for all datasets) but, in certain cases, also exceeded SL on the MIMIC-CXR dataset. Our findings suggest that selecting the right pre-training strategy, especially with SSL, can be pivotal for improving artificial intelligence (AI)'s diagnostic accuracy in medical imaging. By demonstrating the promise of SSL in chest radiograph analysis, we underline a transformative shift towards more efficient and accurate AI models in medical imaging.
翻訳日:2023-08-16 13:23:20 公開日:2023-08-15
# DiffGuard: 事前学習拡散モデルを用いた意味的ミスマッチ誘導分布検出

DiffGuard: Semantic Mismatch-Guided Out-of-Distribution Detection using Pre-trained Diffusion Models ( http://arxiv.org/abs/2308.07687v1 )

ライセンス: Link先を確認
Ruiyuan Gao, Chenchen Zhao, Lanqing Hong, Qiang Xu(参考訳) 分類器が与えられた場合、semantic out-of-distribution (ood) サンプルの固有の特性は、それらの内容がすべての法的なクラス、すなわち意味的ミスマッチと異なることである。 画像空間における意味的ミスマッチを拡大するために、条件付き生成逆数ネットワーク(cGAN)を利用するOOD検出に直接適用する研究が最近行われている。 小さなデータセットで優れたOOD検出性能を実現する一方で、入力画像とラベルの両方を条件としてcGANをトレーニングすることが困難であるため、ImageNetスケールデータセットには適用できない。 拡散モデルは,cGANと比較して訓練が容易であり,様々な条件に適応できるため,本研究では,意味ミスマッチ誘導OOD検出のための事前学習拡散モデルDiffGuardを提案する。 具体的には、OOD入力画像と予測ラベルが分類器から与えられた場合、これらの条件下で再構成されたOOD画像と元の入力画像との意味的差異を拡大しようと試みる。 また,これらの違いをさらに強めるために,いくつかのテストタイム手法を提案する。 実験の結果,DiffGuardは大規模なImageNetのCifar-10とハードケースの両方で有効であり,既存のOOD検出技術と組み合わせて最先端のOOD検出結果が得られることがわかった。

Given a classifier, the inherent property of semantic Out-of-Distribution (OOD) samples is that their contents differ from all legal classes in terms of semantics, namely semantic mismatch. There is a recent work that directly applies it to OOD detection, which employs a conditional Generative Adversarial Network (cGAN) to enlarge semantic mismatch in the image space. While achieving remarkable OOD detection performance on small datasets, it is not applicable to ImageNet-scale datasets due to the difficulty in training cGANs with both input images and labels as conditions. As diffusion models are much easier to train and amenable to various conditions compared to cGANs, in this work, we propose to directly use pre-trained diffusion models for semantic mismatch-guided OOD detection, named DiffGuard. Specifically, given an OOD input image and the predicted label from the classifier, we try to enlarge the semantic difference between the reconstructed OOD image under these conditions and the original input image. We also present several test-time techniques to further strengthen such differences. Experimental results show that DiffGuard is effective on both Cifar-10 and hard cases of the large-scale ImageNet, and it can be easily combined with existing OOD detection techniques to achieve state-of-the-art OOD detection results.
翻訳日:2023-08-16 13:22:56 公開日:2023-08-15
# 適応勾配変調によるマルチモーダルモデルの性能向上

Boosting Multi-modal Model Performance with Adaptive Gradient Modulation ( http://arxiv.org/abs/2308.07686v1 )

ライセンス: Link先を確認
Hong Li, Xingyu Li, Pengbo Hu, Yinuo Lei, Chunxiao Li, Yi Zhou(参考訳) マルチモーダル学習の分野は急速に成長しているが,最近の研究により,標準合同学習パラダイムの欠如が明らかになっている。 彼らは、合同訓練モデルの最適性能をモダリティ競争現象と定義している。 既存の作業は、トレーニングプロセスを調整することによって、合同訓練モデルを改善することを試みる。 有効性にもかかわらず、これらの手法は後期融合モデルにしか適用できない。 さらに重要なことは、モダリティ競争のメカニズムは未解明のままである。 本稿では,様々な融合戦略を持つ多モードモデルの性能を向上させる適応的勾配変調法を提案する。 実験の結果,提案手法は既存の変調法を超越していることがわかった。 さらに,モダリティ競争の定量的理解と,変調法の有効性の背景となるメカニズムを考察するために,競技強度を測定するための新しい指標を導入する。 この計量はモノモダルの概念に基づいており、モダリティの競合のない状態を表すように設計された関数である。 系統的調査を通じて,変調がモデルにより有意義なモダリティに依存するよう促すという直観を検証した。 さらに、共同で訓練されたモデルは典型的には、競合が他のモダリティよりも弱い、好ましいモダリティを持つ。 しかし、この好ましいモダリティは他のものを支配する必要はない。 私たちのコードはhttps://github.com/lihong2303/agm_iccv2023で利用可能です。

While the field of multi-modal learning keeps growing fast, the deficiency of the standard joint training paradigm has become clear through recent studies. They attribute the sub-optimal performance of the jointly trained model to the modality competition phenomenon. Existing works attempt to improve the jointly trained model by modulating the training process. Despite their effectiveness, those methods can only apply to late fusion models. More importantly, the mechanism of the modality competition remains unexplored. In this paper, we first propose an adaptive gradient modulation method that can boost the performance of multi-modal models with various fusion strategies. Extensive experiments show that our method surpasses all existing modulation methods. Furthermore, to have a quantitative understanding of the modality competition and the mechanism behind the effectiveness of our modulation method, we introduce a novel metric to measure the competition strength. This metric is built on the mono-modal concept, a function that is designed to represent the competition-less state of a modality. Through systematic investigation, our results confirm the intuition that the modulation encourages the model to rely on the more informative modality. In addition, we find that the jointly trained model typically has a preferred modality on which the competition is weaker than other modalities. However, this preferred modality need not dominate others. Our code will be available at https://github.com/lihong2303/AGM_ICCV2023.
翻訳日:2023-08-16 13:22:30 公開日:2023-08-15
# コンピュータビジョンにおける敵対的攻撃の概観

A Review of Adversarial Attacks in Computer Vision ( http://arxiv.org/abs/2308.07673v1 )

ライセンス: Link先を確認
Yutong Zhang, Yao Li, Yin Li, Zhichang Guo(参考訳) ディープニューラルネットワークは、さまざまな下流タスク、特に自動運転のような安全クリティカルなシナリオで広く使用されているが、ディープニューラルネットワークは、しばしば敵のサンプルによって脅かされている。 このような敵対的な攻撃は人間の目には見えないが、dnnの誤分類につながる可能性があり、深層学習モデルと機械学習モデル間の転送可能性や現実世界の達成可能性を示すことが多い。 敵攻撃は、攻撃者がモデルのパラメータと勾配を知っているホワイトボックス攻撃とブラックボックス攻撃に分けられ、後者は攻撃者がモデルの入力と出力しか取得できない。 攻撃者の目的に関して言えば、ターゲットの攻撃と非ターゲットの攻撃に分けることができる。つまり、攻撃者はモデルが元のサンプルを特定のクラスに誤分類することを望んでおり、これはより実用的であり、非ターゲットの攻撃はモデルがサンプルを誤分類するだけである。 ブラックボックスの設定は、私たちが実際に遭遇するシナリオです。

Deep neural networks have been widely used in various downstream tasks, especially those safety-critical scenario such as autonomous driving, but deep networks are often threatened by adversarial samples. Such adversarial attacks can be invisible to human eyes, but can lead to DNN misclassification, and often exhibits transferability between deep learning and machine learning models and real-world achievability. Adversarial attacks can be divided into white-box attacks, for which the attacker knows the parameters and gradient of the model, and black-box attacks, for the latter, the attacker can only obtain the input and output of the model. In terms of the attacker's purpose, it can be divided into targeted attacks and non-targeted attacks, which means that the attacker wants the model to misclassify the original sample into the specified class, which is more practical, while the non-targeted attack just needs to make the model misclassify the sample. The black box setting is a scenario we will encounter in practice.
翻訳日:2023-08-16 13:22:09 公開日:2023-08-15
# Penningマイクロトラップ量子プロセッサのユニットセル

Unit cell of a Penning micro-trap quantum processor ( http://arxiv.org/abs/2308.07672v1 )

ライセンス: Link先を確認
Shreyans Jain, Tobias S\"agesser, Pavel Hrmo, Celeste Torkzaban, Martin Stadler, Robin Oswald, Chris Axline, Amado Bautista-Salvador, Christian Ospelkaus, Daniel Kienzler, and Jonathan Home(参考訳) 高周波トラップにおけるトラップイオンは、高忠実度量子ゲートと長いコヒーレンス時間のために量子コンピュータを実現するための主要なアプローチの一つである。 しかし、高周波の使用は、高電圧でのチップの互換性の要求、送電管理、イオンの輸送と配置の制限など、スケーリングに多くの課題をもたらす。 高周波磁場を3t磁場に置き換えることで、これらの制限を取り除いた微小加工されたペニングイオントラップを実現する。 この設定では、イオンの完全な量子制御と、チップ上のトラップ平面内でイオンを任意に輸送する能力を示す。 このPenningマイクロトラップアプローチのユニークな特徴は、接続性と柔軟性を改善したQuantum CCDアーキテクチャの変更を開放し、大規模に閉じ込められたイオン量子コンピューティング、量子シミュレーション、量子センシングを実現する。

Trapped ions in radio-frequency traps are among the leading approaches for realizing quantum computers, due to high-fidelity quantum gates and long coherence times. However, the use of radio-frequencies presents a number of challenges to scaling, including requiring compatibility of chips with high voltages, managing power dissipation and restricting transport and placement of ions. By replacing the radio-frequency field with a 3 T magnetic field, we here realize a micro-fabricated Penning ion trap which removes these restrictions. We demonstrate full quantum control of an ion in this setting, as well as the ability to transport the ion arbitrarily in the trapping plane above the chip. This unique feature of the Penning micro-trap approach opens up a modification of the Quantum CCD architecture with improved connectivity and flexibility, facilitating the realization of large-scale trapped-ion quantum computing, quantum simulation and quantum sensing.
翻訳日:2023-08-16 13:21:52 公開日:2023-08-15
# 移動光学格子を用いた捕捉イオンの偏光性測定における量子論理に基づく精度の伝達法

A scheme for quantum-logic based transfer of accuracy in polarizability measurement for trapped ions using a moving optical lattice ( http://arxiv.org/abs/2308.07671v1 )

ライセンス: Link先を確認
Fabian Wolf(参考訳) 閉じ込められたイオンに基づく光原子時計は、環境からの黒体放射との相互作用による時計遷移の系統的な周波数シフトに苦しむ。 これらのシフトは、黒体放射スペクトルと微分動的偏光性が十分な精度で知られている場合に補償することができる。 本稿では,ある種から別の種への偏光率測定の精度を直接伝達する量子論理に基づく新しい測定手法を提案する。 この測定は、閉じ込められたイオンにおける最先端の偏光性測定の限界であるパーセントレベル以下のレーザーパワーの校正の必要性を回避する。 さらに, 偏光率を高精度に計算できる水素様イオンへの偏光率移動を参照することが可能である。

Optical atomic clocks based on trapped ions suffer from systematic frequency shifts of the clock transition due to interaction with blackbody radiation from the environment. These shifts can be compensated if the blackbody radiation spectrum and the differential dynamic polarizability is known to a sufficient precision. Here, we present a new measurement scheme, based on quantum logic that allows a direct transfer of precision for polarizability measurements from one species to the other. This measurement circumvents the necessity of calibrating laser power below the percent level, which is the limitation for state-of-the-art polarizability measurements in trapped ions. Furthermore, the presented technique allows to reference the polarizability transfer to hydrogen-like ions for which the polarizability can be calculated with high precision.
翻訳日:2023-08-16 13:21:34 公開日:2023-08-15
# 量子状態に対するベイズ的モデリングアプローチ - 究極のガウス的プロセス状態ハンドブック

Bayesian Modelling Approaches for Quantum States -- The Ultimate Gaussian Process States Handbook ( http://arxiv.org/abs/2308.07669v1 )

ライセンス: Link先を確認
Yannic Rath(参考訳) マルチボディシステムの構成要素間の相関関係を正確に捉えることは、量子力学的基礎に基礎を置いている様々なシステムの適切な記述の鍵となる課題の1つである。 この論文は、量子状態の効率的な表現を見つけるための普遍的な枠組みを導入するという究極の目標と非自明な相関を示す量子多体波動関数の(古典的な)数値モデリングのための新しいツールと技術について論じる。 対象の特定の(物理的に期待される)相関特性に近似状態を制限することなく、標準機械学習フレームワークとのシナジーを利用して、関連する固有特性の自動推論を可能にする方法について概説した。 ガウス過程を通じて形式化されたような厳密なベイズ回帰手法は、様々な多体状態に対してコンパクト形式を導入するためにどのように利用できるかを示す。 ガウス過程状態(gaussian process state)を創案したansatzの基礎となる確率的回帰技術に基づき、異なる圧縮技術を用いて、物理的性質を抽出可能な数値的実現可能な表現を効率的に抽出する。 直感的に動機付けられたモデリング原理に従うことにより、モデルは高い解釈可能性を持ち、強い相関関係のために本質的にシミュレートが難しいものを含む、異なる量子システムの研究に容易に適用可能なツールを提供する。 この論文はガウス過程の状態に関する異なる視点を概説し、いくつかのベンチマーク応用、特に原型量子格子モデルの基底状態近似、フェルミ・ハバードモデル、$j_1-j_2$モデル、単純なab-initio量子化学系に基づく数値フレームワークの実用的適用性を示す。

Capturing the correlation emerging between constituents of many-body systems accurately is one of the key challenges for the appropriate description of various systems whose properties are underpinned by quantum mechanical fundamentals. This thesis discusses novel tools and techniques for the (classical) numerical modelling of quantum many-body wavefunctions exhibiting non-trivial correlations with the ultimate goal to introduce a universal framework for finding efficient quantum state representations. It is outlined how synergies with standard machine learning frameworks can be exploited to enable an automated inference of the relevant intrinsic characteristics, essentially without restricting the approximated state to specific (physically expected) correlation characteristics of the target. It is presented how rigorous Bayesian regression techniques, e.g. formalized via Gaussian Processes, can be utilized to introduce compact forms for various many-body states. Based on the probabilistic regression techniques forming the foundation of the resulting ansatz, coined the Gaussian Process State, different compression techniques are explored to efficiently extract a numerically feasible representation from which physical properties can be extracted. By following intuitively motivated modelling principles, the model carries a high degree of interpretability and offers an easily applicable tool for the study of different quantum systems, including ones inherently hard to simulate due to their strong correlation. This thesis outlines different perspectives on Gaussian Process States, and demonstrates the practical applicability of the numerical framework based on several benchmark applications, in particular, ground state approximations for prototypical quantum lattice models, Fermi-Hubbard models and $J_1-J_2$ models, as well as simple ab-initio quantum chemical systems.
翻訳日:2023-08-16 13:21:21 公開日:2023-08-15
# インバージョン・バイ・インバージョン:トレーニングなし確率微分方程式によるexemplar-based sketch-to-photo synthesis

Inversion-by-Inversion: Exemplar-based Sketch-to-Photo Synthesis via Stochastic Differential Equations without Training ( http://arxiv.org/abs/2308.07665v1 )

ライセンス: Link先を確認
Ximing Xing, Chuang Wang, Haitao Zhou, Zhihao Hu, Chongxuan Li, Dong Xu, Qian Yu(参考訳) Exemplar-based sketch-to-photo synthesisでは、スケッチに基づいて写真リアルな画像を生成することができる。 近年,拡散法は画像生成タスクにおいて顕著な性能を達成し,テキスト駆動生成やエネルギー関数による高柔軟性制御を実現している。 しかし、スケッチ画像から色とテクスチャで写実的な画像を生成することは、拡散モデルでは困難である。 スケッチは典型的には数ストロークのみで構成され、ほとんどの領域は空白のままであり、拡散に基づく方法では写真リアリスティック画像の生成が困難である。 本研究では,exemplar-based sketch-to-photo 合成のための ``inversion-by-inversion" という二段階法を提案する。 このアプローチにはシェープエンハンシングインバージョンとフルコントロールインバージョンが含まれる。 形状エンハンシング反転過程において、形状エネルギー関数の誘導により無色写真を生成する。 このステップは、生成された写真の形状を確実に制御するために不可欠である。 フルコントロール・インバージョンでは,最終生成画像の色やテクスチャを制御するための外観エネルギー関数を提案し,インバージョン・バイ・インバージョン・パイプラインはトレーニング不要であり,色やテクスチャの制御に様々な種類の例を受け入れることができる。 提案手法を評価するために広範な実験を行い,その有効性を実証した。

Exemplar-based sketch-to-photo synthesis allows users to generate photo-realistic images based on sketches. Recently, diffusion-based methods have achieved impressive performance on image generation tasks, enabling highly-flexible control through text-driven generation or energy functions. However, generating photo-realistic images with color and texture from sketch images remains challenging for diffusion models. Sketches typically consist of only a few strokes, with most regions left blank, making it difficult for diffusion-based methods to produce photo-realistic images. In this work, we propose a two-stage method named ``Inversion-by-Inversion" for exemplar-based sketch-to-photo synthesis. This approach includes shape-enhancing inversion and full-control inversion. During the shape-enhancing inversion process, an uncolored photo is generated with the guidance of a shape-energy function. This step is essential to ensure control over the shape of the generated photo. In the full-control inversion process, we propose an appearance-energy function to control the color and texture of the final generated photo.Importantly, our Inversion-by-Inversion pipeline is training-free and can accept different types of exemplars for color and texture control. We conducted extensive experiments to evaluate our proposed method, and the results demonstrate its effectiveness.
翻訳日:2023-08-16 13:20:51 公開日:2023-08-15
# 限られた資源とSIC-POVMを持つNISQデバイスにおける単一量子状態推定

Single Qubit State Estimation on NISQ Devices with Limited Resources and SIC-POVMs ( http://arxiv.org/abs/2308.07664v1 )

ライセンス: Link先を確認
Cristian A. Galvis-Florez, Daniel Reitzner, Simo S\"arkk\"a(参考訳) 現在の量子コンピュータは、古典的な計算手法を克服する可能性があるが、ノイズの多い中間スケールの量子デバイスで実行できるアルゴリズムの能力は、ハードウェアの欠陥のために制限されている。 量子ビットの状態の推定は、直接測定が欠如しているため、異なる量子プロトコルでしばしば必要となる。 本稿では,量子処理ユニットにおける量子ビットの量子状態を直接測定することなく推定する問題を考察する。 本稿では,量子トモグラフィ転送関数を用いて最適化された量子回路として表現される量子状態を推定するパラメータ化測定モデルを検討する。 我々は、フィンランド技術研究センターの量子コンピュータとibm量子コンピュータを用いて回路を実装し、テストする。 推定に用いる正の演算子値測定のセットは対称的かつ情報的に完備であることを示す。 さらに、直接測定が可能となると、量子ビット推定に必要なリソースが減少し、測定の対称性が保たれる。

Current quantum computers have the potential to overcome classical computational methods, however, the capability of the algorithms that can be executed on noisy intermediate-scale quantum devices is limited due to hardware imperfections. Estimating the state of a qubit is often needed in different quantum protocols, due to the lack of direct measurements. In this paper, we consider the problem of estimating the quantum state of a qubit in a quantum processing unit without conducting direct measurements of it. We consider a parameterized measurement model to estimate the quantum state, represented as a quantum circuit, which is optimized using the quantum tomographic transfer function. We implement and test the circuit using the quantum computer of the Technical Research Centre of Finland as well as an IBM quantum computer. We demonstrate that the set of positive operator-valued measurements used for the estimation is symmetric and informationally complete. Moreover, the resources needed for qubit estimation are reduced when direct measurements are allowed, keeping the symmetric property of the measurements.
翻訳日:2023-08-16 13:20:31 公開日:2023-08-15
# グラディエントベースのポストトレーニング量子化:現状の整合性

Gradient-Based Post-Training Quantization: Challenging the Status Quo ( http://arxiv.org/abs/2308.07662v1 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny and Kevin Bailly(参考訳) 量子化は、浮動小数点演算を単純な固定点演算に変換するディープニューラルネットワークの効率的な展開のための重要なステップとなっている。 最も単純な形式では、単にスケーリングと丸みを帯びた変換の組み合わせで構成されており、限られた圧縮率かかなりの精度低下をもたらす。 近年,gptq (gradient-based post-training quantization) 法は,そのような単純な手法と,より強力だが高価な量子化・アウェアトレーニング (qat) の手法,特にllm を量子化しようとする場合には,量子化プロセスのスケーラビリティが最重要視される。 GPTQは基本的に、小さなキャリブレーションセットを使用してラウンド操作を学習する。 本稿では,GPTQ手法の共通選択に挑戦する。 特に、このプロセスは、ある程度は、いくつかの変数(重み付け、特徴増強、校正セットの選択)に対して堅牢であることを示す。 より重要なのは、問題定式化(損失、自由度、非一様量子化スキームの使用)や最適化プロセス(変数とオプティマイザの選択)に関して、より効率的でスケーラブルなGPTQ手法を設計するためのベストプラクティスを導出することです。 最後に,新しい重要度に基づく混合精度手法を提案する。 これらのガイドラインは、テスト済みのGPTQメソッドとネットワーク(例えば、4ビット量子化のためのViTの +6.819 ポイントなど)の大幅な性能向上をもたらし、スケーラブルで効果的な量子化手法の設計の道を開いた。

Quantization has become a crucial step for the efficient deployment of deep neural networks, where floating point operations are converted to simpler fixed point operations. In its most naive form, it simply consists in a combination of scaling and rounding transformations, leading to either a limited compression rate or a significant accuracy drop. Recently, Gradient-based post-training quantization (GPTQ) methods appears to be constitute a suitable trade-off between such simple methods and more powerful, yet expensive Quantization-Aware Training (QAT) approaches, particularly when attempting to quantize LLMs, where scalability of the quantization process is of paramount importance. GPTQ essentially consists in learning the rounding operation using a small calibration set. In this work, we challenge common choices in GPTQ methods. In particular, we show that the process is, to a certain extent, robust to a number of variables (weight selection, feature augmentation, choice of calibration set). More importantly, we derive a number of best practices for designing more efficient and scalable GPTQ methods, regarding the problem formulation (loss, degrees of freedom, use of non-uniform quantization schemes) or optimization process (choice of variable and optimizer). Lastly, we propose a novel importance-based mixed-precision technique. Those guidelines lead to significant performance improvements on all the tested state-of-the-art GPTQ methods and networks (e.g. +6.819 points on ViT for 4-bit quantization), paving the way for the design of scalable, yet effective quantization methods.
翻訳日:2023-08-16 13:20:15 公開日:2023-08-15
# コヒーレンス蒸留のコヒーレント測定コスト

The coherent measurement cost of coherence distillation ( http://arxiv.org/abs/2308.07719v1 )

ライセンス: Link先を確認
Varun Narasimhachar(参考訳) 量子コヒーレンス(quantum coherence)は、量子技術応用に必要な資源である。 コヒーレンスを生成できない操作を用いて、ノイズのある形から蒸留できることが知られている。 しかし蒸留は、これまで推定されていなかったコヒーレントな測定コストを正確に測定する。 ここでは、このコスト(アダマールの測定値と同数で定式化された)が、私たちが不可解なコヒーレンスと呼ぶもの、すなわち形成のコヒーレンスと蒸留可能なコヒーレンスとの差と関連していることを示す。 我々は、与えられたノイズコヒーレント状態の多くのコピーから蒸留する場合、コヒーレントな測定コストは、入力の不可避コヒーレンスと正確に一致する漸近速度で、コピー数で広範囲にスケールする(そして部分的に証明する)。 このコストは、コヒーレンス蒸留が偶発的な結果(例えば、非コヒーレントランダムネス抽出)である場合に適用されるが、純粋なコヒーレンスが唯一の望ましい結果である場合、その影響はより劇的である。

Quantum coherence is an indispensable resource for quantum technological applications. It is known to be distillable from a noisy form using operations that cannot create coherence. However, distillation exacts a hidden coherent measurement cost, whose extent has not previously been estimated. Here we show that this cost (quantified by an equivalent number of Hadamard measurements) is related to what we call the irretrievable coherence: the difference between the coherence of formation and the distillable coherence. We conjecture (and make partial progress towards proving) that when distilling from many copies of a given noisy coherent state, the coherent measurement cost scales extensively in the number of copies, at an asymptotic rate exactly equalling the input's irretrievable coherence. This cost applies to any application whereof coherence distillation is an incidental outcome (e.g. incoherent randomness extraction), but the implications are more dramatic if pure coherence is the only desired outcome: the measurement cost may often be higher than the distilled yield, in which case coherence should rather be prepared afresh than distilled from a noisy input.
翻訳日:2023-08-16 13:12:45 公開日:2023-08-15
# 局所-Global Pixelからのパネル留置によるMモード自動心エコー計測

Real-time Automatic M-mode Echocardiography Measurement with Panel Attention from Local-to-Global Pixels ( http://arxiv.org/abs/2308.07717v1 )

ライセンス: Link先を確認
Ching-Hsun Tseng, Shao-Ju Chien, Po-Shen Wang, Shin-Jye Lee, Wei-Huan Hu, Bin Pu, and Xiao-jun Zeng(参考訳) 運動モード(Mモード)記録は、心臓の寸法と機能を測定するための心エコー法の重要な部分である。 However, the current diagnosis cannot build an automatic scheme, as there are three fundamental obstructs: Firstly, there is no open dataset available to build the automation for ensuring constant results and bridging M-mode echocardiography with real-time instance segmentation (RIS); Secondly, the examination is involving the time-consuming manual labelling upon M-mode echocardiograms; Thirdly, as objects in echocardiograms occupy a significant portion of pixels, the limited receptive field in existing backbones (e.g., ResNet) composed from multiple convolution layers are inefficient to cover the period of a valve movement. 既存の非ローカルアテンション(NL)の妥協は、計算オーバーヘッドが高く、あるいは非ローカルブロックの簡易バージョンからの情報を失うことでリアルタイムにできない。 そこで本研究では,mモード心エコー計のリアルタイム自動計測手法であるramemを提案する。 1) Mモード心エコー図のデータセットであるMEISを提供し、一貫性のある結果を実現し、自動スキームの開発を支援する。 2) グローバルレセプティブフィールドを用いた大型物体検出に向けたris方式において,パネル注目,ピクセルアンシャフリングによる局所からグローバルへの効率的な注目,更新upanets v2の埋め込みを提案する。 3) 診断における高速かつ正確な自動ラベリングを可能にするMモード心エコー計測の効率的なアルゴリズムAMEMを開発した。 実験の結果,RAMEM は PASCAL 2012 SBD の既存の RIS バックボーン (非局所的注意) を超越し,実時間MEIS の人為的な性能を試験した。 MEISとデータセットのコードはhttps://github.com/hanktseng131415go/RAMEで公開されている。

Motion mode (M-mode) recording is an essential part of echocardiography to measure cardiac dimension and function. However, the current diagnosis cannot build an automatic scheme, as there are three fundamental obstructs: Firstly, there is no open dataset available to build the automation for ensuring constant results and bridging M-mode echocardiography with real-time instance segmentation (RIS); Secondly, the examination is involving the time-consuming manual labelling upon M-mode echocardiograms; Thirdly, as objects in echocardiograms occupy a significant portion of pixels, the limited receptive field in existing backbones (e.g., ResNet) composed from multiple convolution layers are inefficient to cover the period of a valve movement. Existing non-local attentions (NL) compromise being unable real-time with a high computation overhead or losing information from a simplified version of the non-local block. Therefore, we proposed RAMEM, a real-time automatic M-mode echocardiography measurement scheme, contributes three aspects to answer the problems: 1) provide MEIS, a dataset of M-mode echocardiograms for instance segmentation, to enable consistent results and support the development of an automatic scheme; 2) propose panel attention, local-to-global efficient attention by pixel-unshuffling, embedding with updated UPANets V2 in a RIS scheme toward big object detection with global receptive field; 3) develop and implement AMEM, an efficient algorithm of automatic M-mode echocardiography measurement enabling fast and accurate automatic labelling among diagnosis. The experimental results show that RAMEM surpasses existing RIS backbones (with non-local attention) in PASCAL 2012 SBD and human performances in real-time MEIS tested. The code of MEIS and dataset are available at https://github.com/hanktseng131415go/RAME.
翻訳日:2023-08-16 13:12:22 公開日:2023-08-15
# 土地利用計画における不確実性を隠したフラッシュポイント信号

Flashpoints Signal Hidden Inherent Instabilities in Land-Use Planning ( http://arxiv.org/abs/2308.07714v1 )

ライセンス: Link先を確認
Hazhir Aliahmadi, Maeve Beckett, Sam Connolly, Dongmei Chen, Greg van Anders(参考訳) 土地利用意思決定プロセスは、グローバルに普及する体系的株式と持続可能性の懸念を生み出す長い歴史を持つ。 多目的土地割当(MOLA)のような量的、最適化に基づく計画手法は、土地利用の種類、量、場所によって計画の優先順位を明確に評価することで、客観性と透明性を向上させる可能性を開くように見える。 ここでは, 計画基準に基づく最適化に基づく計画手法が不安定な「フラッシュポイント」を発生させ, 計画優先順位の小さな変更が, 土地利用量に大きな変化をもたらすことを示す。 我々は、MOLAモデルで発見されたフラッシュポイントは、これらの計画因子が明示的または暗黙的に定式化されているかどうかに関わらず、オンサイトとインターサイトを協調する要因を計画するときに発生する、より一般的な不安定なファミリーの例である、と定量的に主張する。 我々は,不安定性が「草地」と呼ぶ土地利用型のあいまいさの地域につながることを示す。 フラッシュポイント間の灰色領域を直接マッピングすることにより,土地利用パターンの組合せ的に大きな空間を小さくし,利害関係者がより効率的かつ公正な結果に到達できるようにすることで,定量的手法が有用性を維持することを示す。

Land-use decision-making processes have a long history of producing globally pervasive systemic equity and sustainability concerns. Quantitative, optimization-based planning approaches, e.g. Multi-Objective Land Allocation (MOLA), seemingly open the possibility to improve objectivity and transparency by explicitly evaluating planning priorities by the type, amount, and location of land uses. Here, we show that optimization-based planning approaches with generic planning criteria generate a series of unstable "flashpoints" whereby tiny changes in planning priorities produce large-scale changes in the amount of land use by type. We give quantitative arguments that the flashpoints we uncover in MOLA models are examples of a more general family of instabilities that occur whenever planning accounts for factors that coordinate use on- and between-sites, regardless of whether these planning factors are formulated explicitly or implicitly. We show that instabilities lead to regions of ambiguity in land-use type that we term "gray areas". By directly mapping gray areas between flashpoints, we show that quantitative methods retain utility by reducing combinatorially large spaces of possible land-use patterns to a small, characteristic set that can engage stakeholders to arrive at more efficient and just outcomes.
翻訳日:2023-08-16 13:11:53 公開日:2023-08-15
# SPM:構造的事前学習とマッチングアーキテクチャによる関係モデリング

SPM: Structured Pretraining and Matching Architectures for Relevance Modeling in Meituan Search ( http://arxiv.org/abs/2308.07711v1 )

ライセンス: Link先を確認
Wen Zan, Yaopeng Han, Xiaotian Jiang, Yao Xiao, Yang Yang, Dayao Chen, Sheng Chen(参考訳) eコマース検索では,クエリとドキュメントの関連性はユーザエクスペリエンスを満たす上で必須である。 製品を提供する従来のeコマースプラットフォームとは異なり、ユーザは主に製品提供者向けのmeituanのようなライフサービスプラットフォームで検索する。 1) 構造化文書の異なる分野に言語分布の相違があるため, BERT のような既製の事前学習言語モデルに基づく手法を直接採用することは困難である。 2) 異なる分野が重要であり,その長さが大きく異なるため,関連性マッチングに役立つ文書情報の抽出が困難である。 そこで本稿では,リッチな構造化文書とのマッチングのために,新しい2段階事前学習とマッチングアーキテクチャを提案する。 事前学習段階では,クエリフィールドと文書の複数のフィールドの両方を入力として使用し,長大なフィールドに対する効果的な情報圧縮手法を含む効果的な事前学習手法を提案する。 関連度マッチングの段階では,検索クエリにおけるドメイン知識を活用して,関連度スコアリングのためのより効果的な文書表現を生成する新しいマッチング手法を提案する。 数百万人のユーザに対する大規模なオフライン実験とオンラインA/Bテストにより、提案したアーキテクチャが妥当性モデリングのパフォーマンスを効果的に向上することを確認した。 モデルはすでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。

In e-commerce search, relevance between query and documents is an essential requirement for satisfying user experience. Different from traditional e-commerce platforms that offer products, users search on life service platforms such as Meituan mainly for product providers, which usually have abundant structured information, e.g. name, address, category, thousands of products. Modeling search relevance with these rich structured contents is challenging due to the following issues: (1) there is language distribution discrepancy among different fields of structured document, making it difficult to directly adopt off-the-shelf pretrained language model based methods like BERT. (2) different fields usually have different importance and their length vary greatly, making it difficult to extract document information helpful for relevance matching. To tackle these issues, in this paper we propose a novel two-stage pretraining and matching architecture for relevance matching with rich structured documents. At pretraining stage, we propose an effective pretraining method that employs both query and multiple fields of document as inputs, including an effective information compression method for lengthy fields. At relevance matching stage, a novel matching method is proposed by leveraging domain knowledge in search query to generate more effective document representations for relevance scoring. Extensive offline experiments and online A/B tests on millions of users verify that the proposed architectures effectively improve the performance of relevance modeling. The model has already been deployed online, serving the search traffic of Meituan for over a year.
翻訳日:2023-08-16 13:11:30 公開日:2023-08-15
# 選択的なシナプスダンピングを通さない高速機械学習

Fast Machine Unlearning Without Retraining Through Selective Synaptic Dampening ( http://arxiv.org/abs/2308.07707v1 )

ライセンス: Link先を確認
Jack Foster, Stefan Schoepf, Alexandra Brintrup(参考訳) 機械学習モデルを忘れることのできる機械学習は、データプライバシ規則に準拠するだけでなく、有害で操作された、あるいは時代遅れな情報を削除することがますます重要になっている。 重要な課題は、残りのデータでモデルパフォーマンスを保護しながら、特定の情報を忘れることである。 現在の最先端のメソッドはうまく機能するが、モデルのパフォーマンスを保護または復元するためには、保持されたデータに対してある程度の訓練を必要とする。 これにより、計算オーバーヘッドが増加し、トレーニングデータが引き続き利用可能でアクセス可能であることが義務付けられる。 対照的に、他の手法ではリトレインフリーのパラダイムを採用しているが、これらの手法は計算コストが禁じられ、リトレインベースの手法と同等に動作しない。 選択型シナプスダンピング(Selective Synaptic Dampening, SSD)は, 高速で, 性能が高く, 訓練データの長期保存を必要としない, 2段階, ポストホック, リトレインフリーな機械学習手法である。 まず、ssdはトレーニングのフィッシャー情報マトリクスを使い、データを忘れ、忘れセットにとって不釣り合いに重要なパラメータを選択する。 第2に、SSDは、これらのパラメータを、より広いトレーニングデータに対する忘れセットに対する相対的な重要性に比例して減衰させることで、忘れを誘導する。 resnet18 と vision transformer を用いた各種実験において,既存のアンラーニング手法に対する評価を行った。 その結果,retrain-based post hoc法とssd性能が競合することが明らかとなり,retrain-free post hoc unlearning法の有効性が示された。

Machine unlearning, the ability for a machine learning model to forget, is becoming increasingly important to comply with data privacy regulations, as well as to remove harmful, manipulated, or outdated information. The key challenge lies in forgetting specific information while protecting model performance on the remaining data. While current state-of-the-art methods perform well, they typically require some level of retraining over the retained data, in order to protect or restore model performance. This adds computational overhead and mandates that the training data remain available and accessible, which may not be feasible. In contrast, other methods employ a retrain-free paradigm, however, these approaches are prohibitively computationally expensive and do not perform on par with their retrain-based counterparts. We present Selective Synaptic Dampening (SSD), a novel two-step, post hoc, retrain-free approach to machine unlearning which is fast, performant, and does not require long-term storage of the training data. First, SSD uses the Fisher information matrix of the training and forgetting data to select parameters that are disproportionately important to the forget set. Second, SSD induces forgetting by dampening these parameters proportional to their relative importance to the forget set with respect to the wider training data. We evaluate our method against several existing unlearning methods in a range of experiments using ResNet18 and Vision Transformer. Results show that the performance of SSD is competitive with retrain-based post hoc methods, demonstrating the viability of retrain-free post hoc unlearning approaches.
翻訳日:2023-08-16 13:11:07 公開日:2023-08-15
# 視覚言語モデルを用いた医用画像分割における転送学習の検討

Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models ( http://arxiv.org/abs/2308.07706v1 )

ライセンス: Link先を確認
Kanchan Poudel, Manish Dhakal, Prasiddha Bhandari, Rabin Adhikari, Safal Thapaliya, Bishesh Khanal(参考訳) 医用画像セグメンテーションは、医療領域内の様々な臨床応用において重要である。 最先端セグメンテーションモデルは有効であることが証明されているが、このタスクの視覚的特徴を高めるためにテキストガイダンスを統合することは、まだ進歩の少ない領域である。 テキストガイダンスを利用する既存のセグメンテーションモデルは、主にオープンドメインイメージに基づいてトレーニングされ、手作業による介入や微調整なしに医療領域で直接適用できるという懸念が高まる。 これらの課題に対処するために,画像記述と画像から意味情報を取り出すマルチモーダル視覚言語モデルを提案し,多様な医用画像のセグメンテーションを可能にした。 本研究では,複数のデータセットにまたがる既存の視覚言語モデルを包括的に評価し,オープンドメインから医療分野への移動性を評価する。 さらに,データセット内の未認識画像に対する画像記述のバリエーションについて紹介し,生成されたプロンプトに基づくモデル性能の顕著な変化を明らかにする。 本研究は,オープンドメイン画像と医療領域の分布変化に着目し,オープンドメイン画像で訓練されたセグメンテーションモデルが医療分野に直接移行できないことを示す。 しかし、それらのパフォーマンスは医療データセットで微調整することで向上することができる。 14の属性から抽出した9種類のプロンプトを用いて,11の医療データセット上での視覚言語モデル(VLM)のゼロショットおよび微調整セグメンテーション性能について報告する。

Medical Image Segmentation is crucial in various clinical applications within the medical domain. While state-of-the-art segmentation models have proven effective, integrating textual guidance to enhance visual features for this task remains an area with limited progress. Existing segmentation models that utilize textual guidance are primarily trained on open-domain images, raising concerns about their direct applicability in the medical domain without manual intervention or fine-tuning. To address these challenges, we propose using multimodal vision-language models for capturing semantic information from image descriptions and images, enabling the segmentation of diverse medical images. This study comprehensively evaluates existing vision language models across multiple datasets to assess their transferability from the open domain to the medical field. Furthermore, we introduce variations of image descriptions for previously unseen images in the dataset, revealing notable variations in model performance based on the generated prompts. Our findings highlight the distribution shift between the open-domain images and the medical domain and show that the segmentation models trained on open-domain images are not directly transferrable to the medical field. But their performance can be increased by finetuning them in the medical datasets. We report the zero-shot and finetuned segmentation performance of 4 Vision Language Models (VLMs) on 11 medical datasets using 9 types of prompts derived from 14 attributes.
翻訳日:2023-08-16 13:10:37 公開日:2023-08-15
# パラメトリックエントロピーに基づくクラスター遠心初期化による各種画像データセットのk平均クラスタリング

Parametric entropy based Cluster Centriod Initialization for k-means clustering of various Image datasets ( http://arxiv.org/abs/2308.07705v1 )

ライセンス: Link先を確認
Faheem Hussayn and Shahid M Shah(参考訳) クラスタ分析に最もよく用いられるが、単純なアルゴリズムの1つはk-meansアルゴリズムである。 k-meansは、人工知能、市場セグメンテーション、不正検出、データマイニング、心理学などにおいて、その使用を成功裏に目撃した。 しかし、k-meansアルゴリズムは必ずしも最高の品質結果をもたらすとは限らない。 その性能は、供給されるクラスターの数と、クラスターセントロイドまたは種子の適切な初期化に大きく依存する。 本稿では,エントロピーに基づく遠心初期化法におけるパラメトリックエントロピーを用いて,画像データに対するk平均の性能解析を行い,一般画像データセットに対する最適な適合エントロピー対策を提案する。 我々は、Taneja entropy、Kapur entropy、Aczel Daroczy entropy、Sharma Mittal entropyなどのエントロピーを使用する。 異なるデータセットに対して、異なるエントロピーが従来の方法よりも優れた結果をもたらすことを観察する。 提案アルゴリズムをこれらのデータセットに適用した: Satellite, Toys, Fruits, Cars, Brain MRI, Covid X-Ray。

One of the most employed yet simple algorithm for cluster analysis is the k-means algorithm. k-means has successfully witnessed its use in artificial intelligence, market segmentation, fraud detection, data mining, psychology, etc., only to name a few. The k-means algorithm, however, does not always yield the best quality results. Its performance heavily depends upon the number of clusters supplied and the proper initialization of the cluster centroids or seeds. In this paper, we conduct an analysis of the performance of k-means on image data by employing parametric entropies in an entropy based centroid initialization method and propose the best fitting entropy measures for general image datasets. We use several entropies like Taneja entropy, Kapur entropy, Aczel Daroczy entropy, Sharma Mittal entropy. We observe that for different datasets, different entropies provide better results than the conventional methods. We have applied our proposed algorithm on these datasets: Satellite, Toys, Fruits, Cars, Brain MRI, Covid X-Ray.
翻訳日:2023-08-16 13:10:15 公開日:2023-08-15
# Role-Play Promptingによるゼロショット推論の改善

Better Zero-Shot Reasoning with Role-Play Prompting ( http://arxiv.org/abs/2308.07702v1 )

ライセンス: Link先を確認
Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin Zhou(参考訳) ChatGPTのような現代の大きな言語モデル(LLM)は、ロールプレイングの優れた能力を示しており、人間の文字だけでなく、Linux端末のような非人間的な実体を具現化することができる。 この汎用性は、複雑な人間のような相互作用や振る舞いを様々な文脈でシミュレートし、特定のオブジェクトやシステムをエミュレートすることを可能にする。 これらの能力はユーザエンゲージメントを高め、対話の新たなモードを導入したが、LLMの推論能力に対するロールプレイングの影響は未解明のままである。 本研究では,戦略的に設計されたロールプレイプロンプト手法を導入し,算術,常識推論,象徴的推論などを含む12の多様な推論ベンチマークにおいて,ゼロショット設定下での性能を評価する。 chatgpt や llama 2 といったモデルを活用することで,多くのデータセットにおいて,ロールプレイプロンプトが標準的なゼロショットアプローチを一貫して越えていることが実証された。 特に、AQuAの精度は53.5%から63.8%に上昇し、Last Letterでは23.8%から84.2%に上昇した。 文脈的理解の強化以外にも、ロールプレイの促進が暗黙の連鎖(CoT)トリガーとなり、推論の品質が向上する、と仮定する。 我々のアプローチとZero-Shot-CoT技術を比較して、モデルに「ステップバイステップ」を推奨することで、ロールプレイプロンプトがより効果的なCoTを生成することをさらに実証する。 これはLLMの推論能力を増強する可能性を強調している。

Modern large language models (LLMs), such as ChatGPT, exhibit a remarkable capacity for role-playing, enabling them to embody not only human characters but also non-human entities like a Linux terminal. This versatility allows them to simulate complex human-like interactions and behaviors within various contexts, as well as to emulate specific objects or systems. While these capabilities have enhanced user engagement and introduced novel modes of interaction, the influence of role-playing on LLMs' reasoning abilities remains underexplored. In this study, we introduce a strategically designed role-play prompting methodology and assess its performance under the zero-shot setting across twelve diverse reasoning benchmarks, encompassing arithmetic, commonsense reasoning, symbolic reasoning, and more. Leveraging models such as ChatGPT and Llama 2, our empirical results illustrate that role-play prompting consistently surpasses the standard zero-shot approach across most datasets. Notably, accuracy on AQuA rises from 53.5% to 63.8%, and on Last Letter from 23.8% to 84.2%. Beyond enhancing contextual understanding, we posit that role-play prompting serves as an implicit Chain-of-Thought (CoT) trigger, thereby improving the quality of reasoning. By comparing our approach with the Zero-Shot-CoT technique, which prompts the model to "think step by step", we further demonstrate that role-play prompting can generate a more effective CoT. This highlights its potential to augment the reasoning capabilities of LLMs.
翻訳日:2023-08-16 13:09:55 公開日:2023-08-15
# 量子エンハンス原子干渉計のためのスピンスクイーズ状態のハイブリッド法

A hybrid method of generating spin-squeezed states for quantum-enhanced atom interferometry ( http://arxiv.org/abs/2308.07693v1 )

ライセンス: Link先を確認
Liam Fuderer and Joseph J Hope and Simon A Haine(参考訳) 本稿では,2つの確立されたスピンスクイーズ手法,量子非破壊測定(QND)と1軸ねじれ(OAT)を組み合わせた新しいスピンスクイーズ手法を提案する。 このハイブリッド手法は、現在達成されているものをQNDとOATで改善することを目的としている。 実際の状況では、QNDとOATの相互作用の強さは限定的である。 これらの状況下では,ハイブリッド方式は,単独で使用するOATやQNDよりも優れた性能を示した。 QNDとOATはともに実験的に実現されているため、この技術は実験にわずかな修正を加えるだけで現在の原子干渉計で実装できる。

We introduce a new spin-squeezing technique that is a hybrid of two well established spin-squeezing techniques, quantum nondemolition measurement (QND) and one-axis twisting (OAT). This hybrid method aims to improve spin-squeezing over what is currently achievable using QND and OAT. In practical situations, the strength of both the QND and OAT interactions is limited. We found that in these situations, the hybrid scheme performed considerably better than either OAT or QND used in isolation. As QND and OAT have both been realised experimentally, this technique could be implemented in current atom interferometry setups with only minor modifications to the experiment.
翻訳日:2023-08-16 13:09:26 公開日:2023-08-15
# グラフ状態における絡み合い、量子コレレータおよび接続性

Entanglement, quantum correlators and connectivity in graph states ( http://arxiv.org/abs/2308.07690v1 )

ライセンス: Link先を確認
Arthur Vesperini and Roberto Franzosi(参考訳) 本研究では,グラフ状態の絡み合いとグラフ接続性について包括的に検討する。 我々は最近導入された絡み合いの尺度である絡み合い距離を用いて、擬似グラフ状態の絡み合いを定量化する。 さらに,ポーリ行列の量子相関子を用いて,真のグラフ状態の基盤となるグラフ接続を探索する新しい手法を提案する。 また, 測定過程に興味深い影響が見られ, 特定の射影測定値の等価性を実証した。 最後に、このフレームワークにおけるデータ分析の単純さを強調する。 この研究は、グラフ状態の絡み合いと接続性に関する深い理解に寄与し、量子情報処理と量子コンピューティングアプリケーションに対する貴重な洞察を提供する。 この研究では、このタイプの状態の研究に一般的に好まれるフレームワークである確立された安定化形式主義に頼らず、それとは対照的に、我々のアプローチは単に期待値、量子相関、および射影測定の概念に基づいており、量子理論の非常に直感的で基本的なツールである。

In this work, we present a comprehensive exploration of the entanglement and graph connectivity properties of graph states. We quantify the entanglement in pseudo graph states using the entanglement distance, a recently introduced measure of entanglement. Additionally, we propose a novel approach to probe the underlying graph connectivity of genuine graph states, using quantum correlators of Pauli matrices. Our findings also reveal interesting implications for measurement processes, demonstrating the equivalence of certain projective measurements. Finally, we emphasize the simplicity of data analysis within this framework. This work contributes to a deeper understanding of the entanglement and connectivity properties of graph states, offering valuable insights for quantum information processing and quantum computing applications. In this work, we do not resort to the celebrated stabilizer formalism, which is the framework typically preferred for the study of this type of state; on the contrary, our approach is solely based on the concepts of expectation values, quantum correlations and projective measurement, which have the advantage of being very intuitive and fundamental tools of quantum theory.
翻訳日:2023-08-16 13:09:15 公開日:2023-08-15
# ChartDETR:ビジュアルチャート認識のための複数形状検出ネットワーク

ChartDETR: A Multi-shape Detection Network for Visual Chart Recognition ( http://arxiv.org/abs/2308.07743v1 )

ライセンス: Link先を確認
Wenyuan Xue, Dapeng Chen, Baosheng Yu, Yifei Chen, Sai Zhou, Wei Peng(参考訳) グラフ画像からテーブルヘッダーと値を自動的に識別する需要が高まっているため、ビジュアルチャート認識システムが注目を集めている。 現在の手法はキーポイント検出に頼り、チャート内のデータ要素の形状を推定するが、後処理のエラーをグループ化する。 そこで本研究では,正規形状の角にキーポイントを配置し,複数のデータ要素を単一のチャート画像に再構成するトランスフォーマー型多形検出器chartdetrを提案する。 提案手法は,クエリグループをセット予測に導入することにより,全てのデータ要素の形状を同時に予測する。 この特性により、ChartDETRはネットワークアーキテクチャを変更することなく様々なチャートタイプを表現できる統一されたフレームワークとして機能し、多様な形状のデータ要素を効果的に検出できる。 我々はChartDETRを3つのデータセットで評価し、追加の強化なしに全てのチャートタイプで競合する結果を得た。 例えば、ChartDETRはAdobe SyntheticのF1スコア0.98を達成し、0.71F1スコアで以前の最高のモデルよりも大幅に上回った。 さらにExcelChart400kで0.97の最先端結果を得た。 コードは公開される予定だ。

Visual chart recognition systems are gaining increasing attention due to the growing demand for automatically identifying table headers and values from chart images. Current methods rely on keypoint detection to estimate data element shapes in charts but suffer from grouping errors in post-processing. To address this issue, we propose ChartDETR, a transformer-based multi-shape detector that localizes keypoints at the corners of regular shapes to reconstruct multiple data elements in a single chart image. Our method predicts all data element shapes at once by introducing query groups in set prediction, eliminating the need for further postprocessing. This property allows ChartDETR to serve as a unified framework capable of representing various chart types without altering the network architecture, effectively detecting data elements of diverse shapes. We evaluated ChartDETR on three datasets, achieving competitive results across all chart types without any additional enhancements. For example, ChartDETR achieved an F1 score of 0.98 on Adobe Synthetic, significantly outperforming the previous best model with a 0.71 F1 score. Additionally, we obtained a new state-of-the-art result of 0.97 on ExcelChart400k. The code will be made publicly available.
翻訳日:2023-08-16 13:04:01 公開日:2023-08-15
# real robot challenge 2022: 現実世界のオフラインデータからデクスター処理を学ぶ

Real Robot Challenge 2022: Learning Dexterous Manipulation from Offline Data in the Real World ( http://arxiv.org/abs/2308.07741v1 )

ライセンス: Link先を確認
Nico G\"urtler, Felix Widmaier, Cansu Sancaktar, Sebastian Blaes, Pavel Kolev, Stefan Bauer, Manuel W\"uthrich, Markus Wulfmeier, Martin Riedmiller, Arthur Allshire, Qiang Wang, Robert McCarthy, Hangyeol Kim, Jongchan Baek Pohang, Wookyong Kwon, Shanliang Qian, Yasunori Toshimitsu, Mike Yan Michelis, Amirhossein Kazemipour, Arman Raayatsanati, Hehui Zheng, Barnabasa Gavin Cangan, Bernhard Sch\"olkopf, Georg Martius(参考訳) 実際のロボットの実験には時間とコストが要求される。 このため、強化学習(RL)コミュニティの大部分はシミュレータを使ってアルゴリズムを開発し、ベンチマークしている。 しかしながら、シミュレーションで得られた洞察は、実際のロボット、特に環境との複雑な相互作用に関わるタスクに必ずしも変換されない。 それゆえ、実際のロボットチャレンジ2022は、参加者が実際のロボットを遠隔で実験することを可能にすることで、rlとロボットコミュニティの橋渡しとなった。 近年、オフラインの強化学習が成熟し、事前コンパイルされたデータセットから学習するための有望なパラダイムとなり、高価なオンラインインタラクションへの依存が軽減された。 そこで我々は参加者に対して,提供された実ロボットデータセットからプッシュ,握り,手動の向きを含む2つの巧妙な操作タスクを学ぶように求めた。 大規模なソフトウェアドキュメンテーションと、実際のセットアップのシミュレーションに基づく初期ステージは、競争を特にアクセスしやすくした。 それぞれのチームに、オフラインで学習したポリシーを7つのTriFingerプラットホームのクラスタで評価