このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230815となっている論文です。

PDF登録状況(公開日: 20230815)

TitleAuthorsAbstract論文公表日・翻訳日
# 遺伝的プログラミングを使ってソフトウェア定義ネットワークに自己適応性を構築する

Using Genetic Programming to Build Self-Adaptivity into Software-Defined Networks ( http://arxiv.org/abs/2306.00316v2 )

ライセンス: Link先を確認
Jia Li, Shiva Nejati, Mehrdad Sabetzadeh(参考訳) 自己適応ソリューションは、定期的にシステムを監視し、推論し、適応する必要があります。 適応ステップは、適応戦略を生成し、異常が発生したときにランニングシステムに適用する。 本稿では,個別の適応戦略を生成するのではなく,システム自体が,自己適応を頻繁に引き起こすことなく,将来の異常を解消する方法を学ぶように,実行中のシステムの制御ロジックを適応させることを目標とすべきである,と論じる。 適応の必要性は決して排除されないが、特に複雑なシステムの不確実で進化した環境に注目すると、適応介入の頻度を減少させることは、パフォーマンスの向上や実行システムの堅牢性向上など、さまざまな理由から有利である。 最新のデータセンタとモノのインターネットアプリケーションのための重要な技術である、ソフトウェア定義ネットワークに関する上記のアイデアを、インスタンス化し、実証的に検証します。 遺伝的プログラミング(gp)を用いて,ソフトウェア定義ネットワークのデータフォワード論理における制御構成を継続的に学習し,更新する自己適応ソリューションを提案する。 本評価は, オープンソースの合成および産業データを用いて実施し, 個別適応を生成するベースライン適応手法と比較して, gpベースアプローチがネットワーク混雑の解消に有効であること, また, 時間とともに適応介入の頻度を減少させることを示す。 さらに,同じトポロジを持つネットワークでは,大規模ネットワーク上での再利用によって,より小さなネットワークで学習される知識がgpベースの適応手法の性能を大幅に向上させることを示した。 最後に,ネットワーク文献からの標準データフォワードアルゴリズムに対するアプローチを比較し,パケットロスを大幅に低減することを示す。

Self-adaptation solutions need to periodically monitor, reason about, and adapt a running system. The adaptation step involves generating an adaptation strategy and applying it to the running system whenever an anomaly arises. In this article, we argue that, rather than generating individual adaptation strategies, the goal should be to adapt the control logic of the running system in such a way that the system itself would learn how to steer clear of future anomalies, without triggering self-adaptation too frequently. While the need for adaptation is never eliminated, especially noting the uncertain and evolving environment of complex systems, reducing the frequency of adaptation interventions is advantageous for various reasons, e.g., to increase performance and to make a running system more robust. We instantiate and empirically examine the above idea for software-defined networking -- a key enabling technology for modern data centres and Internet of Things applications. Using genetic programming,(GP), we propose a self-adaptation solution that continuously learns and updates the control constructs in the data-forwarding logic of a software-defined network. Our evaluation, performed using open-source synthetic and industrial data, indicates that, compared to a baseline adaptation technique that attempts to generate individual adaptations, our GP-based approach is more effective in resolving network congestion, and further, reduces the frequency of adaptation interventions over time. In addition, we show that, for networks with the same topology, reusing over larger networks the knowledge that is learned on smaller networks leads to significant improvements in the performance of our GP-based adaptation approach. Finally, we compare our approach against a standard data-forwarding algorithm from the network literature, demonstrating that our approach significantly reduces packet loss.
翻訳日:2023-10-24 04:57:41 公開日:2023-08-15
# EvLog: ソフトウェア進化に関する異常ログの特定

EvLog: Identifying Anomalous Logs over Software Evolution ( http://arxiv.org/abs/2306.01509v2 )

ライセンス: Link先を確認
Yintong Huo, Cheryl Lee, Yuxin Su, Shiwen Shan, Jinyang Liu and Michael R. Lyu(参考訳) ソフトウェアログはシステムのアクティビティを記録し、メンテナに障害の原因を特定し、迅速な緩和アクションを可能にする。 しかし、メンテナは、さらなる診断のために障害の詳細を明らかにする異常なログを特定するために、大量のデイリーログを検査する必要がある。 したがって、これらの異常ログと通常のログを自動的に区別する方法が重要な問題となる。 既存のアプローチはソフトウェアメンテナの負担を軽減するが、それらは不適切だが批判的な仮定に基づいている。 ソフトウェアは進化を続けているが、我々の経験的調査によると、進化するソフトウェアは、エラーのログ解析、ログイベントの進化、不安定なログシーケンスという3つの課題をもたらす。 本稿では,これらの課題を軽減すべく,進化型ログアナライザ(evlog)と呼ばれる新しい非教師付きアプローチを提案する。 まず,解析せずにログを処理し,パーサからのエラーを防止するマルチレベル表現抽出器を構築する。 マルチレベル表現はログの本質的なセマンティクスを維持しながら、進化するイベントにおける重要な変更を除外する。 evlogは、異常なログを特定し、不安定なシーケンスによって引き起こされる問題を避けるために、注意機構を備えた異常判別器を実装する。 EvLogは、平均F1スコアが0.955と0.847の2つの実世界のシステム進化ログデータセットにおいて、それぞれバージョン内設定とバージョン間設定において有効性を示しており、これは他の最先端アプローチよりも広いマージンで優れている。 私たちの知る限りでは、これはソフトウェアの進化に関する異常ログのローカライズに関する最初の研究です。 私たちは、ログ分析コミュニティの対応するソリューションによって、ソフトウェア進化の影響に新たな光を当てていると信じています。

Software logs record system activities, aiding maintainers in identifying the underlying causes for failures and enabling prompt mitigation actions. However, maintainers need to inspect a large volume of daily logs to identify the anomalous logs that reveal failure details for further diagnosis. Thus, how to automatically distinguish these anomalous logs from normal logs becomes a critical problem. Existing approaches alleviate the burden on software maintainers, but they are built upon an improper yet critical assumption: logging statements in the software remain unchanged. While software keeps evolving, our empirical study finds that evolving software brings three challenges: log parsing errors, evolving log events, and unstable log sequences. In this paper, we propose a novel unsupervised approach named Evolving Log analyzer (EvLog) to mitigate these challenges. We first build a multi-level representation extractor to process logs without parsing to prevent errors from the parser. The multi-level representations preserve the essential semantics of logs while leaving out insignificant changes in evolving events. EvLog then implements an anomaly discriminator with an attention mechanism to identify the anomalous logs and avoid the issue brought by the unstable sequence. EvLog has shown effectiveness in two real-world system evolution log datasets with an average F1 score of 0.955 and 0.847 in the intra-version setting and inter-version setting, respectively, which outperforms other state-of-the-art approaches by a wide margin. To our best knowledge, this is the first study on localizing anomalous logs over software evolution. We believe our work sheds new light on the impact of software evolution with the corresponding solutions for the log analysis community.
翻訳日:2023-10-24 04:45:30 公開日:2023-08-15
# Prism: 分散システムの大規模インスタンスから隠れた機能クラスタを発見

Prism: Revealing Hidden Functional Clusters from Massive Instances in Cloud Systems ( http://arxiv.org/abs/2308.07638v1 )

ライセンス: Link先を確認
Jinyang Liu, Zhihan Jiang, Jiazhen Gu, Junjie Huang, Zhuangbin Chen, Cong Feng, Zengyin Yang, Yongqiang Yang and Michael R. Lyu(参考訳) クラウドシステムの信頼性を確保することは、クラウドベンダーと顧客の両方にとって重要です。 クラウドシステムは、仮想マシンのようなハードウェアリソースのインスタンスを作成するために仮想化技術に依存することが多い。 しかし、仮想化は、クラウドシステムの可観測性を妨げるため、プラットフォームレベルの問題の診断が難しくなる。 システムオブザーバビリティを改善するため,同じような機能を持つインスタンス群をインスタンスの関数クラスタとして推定する手法を提案する。 まず,大規模クラウドシステム,すなわちhuawei cloudに関するパイロット研究を行い,同様の機能を持つインスタンスが類似した通信とリソース使用パターンを共有していることの実証を行った。 これらの結果から,クラスタリング問題としての関数クラスタの同定を定式化し,Prismと呼ばれる非侵入的解を提案する。 Prismは粗いクラスタリング戦略を採用している。 通信パターンに基づいて、まずインスタンスを粗い粒度に分割する。 各チャンク内でPrismはさらに、類似のリソース使用パターンを持つインスタンスをグループ化し、きめ細かい機能クラスタを生成する。 このような設計はデータのノイズを低減し、Prismが大量のインスタンスを効率的に処理できるようにする。 我々はHuawei Cloudの実環境から収集した2つのデータセットについてPrismを評価する。 実験の結果,Prism は 0.95 の v 測度を達成し,既存の最先端解を超えることがわかった。 さらに,モニタリングシステムにおけるprismの統合により,実世界の2つのユースケースを通じてクラウドの信頼性が向上することを示す。

Ensuring the reliability of cloud systems is critical for both cloud vendors and customers. Cloud systems often rely on virtualization techniques to create instances of hardware resources, such as virtual machines. However, virtualization hinders the observability of cloud systems, making it challenging to diagnose platform-level issues. To improve system observability, we propose to infer functional clusters of instances, i.e., groups of instances having similar functionalities. We first conduct a pilot study on a large-scale cloud system, i.e., Huawei Cloud, demonstrating that instances having similar functionalities share similar communication and resource usage patterns. Motivated by these findings, we formulate the identification of functional clusters as a clustering problem and propose a non-intrusive solution called Prism. Prism adopts a coarse-to-fine clustering strategy. It first partitions instances into coarse-grained chunks based on communication patterns. Within each chunk, Prism further groups instances with similar resource usage patterns to produce fine-grained functional clusters. Such a design reduces noises in the data and allows Prism to process massive instances efficiently. We evaluate Prism on two datasets collected from the real-world production environment of Huawei Cloud. Our experiments show that Prism achieves a v-measure of ~0.95, surpassing existing state-of-the-art solutions. Additionally, we illustrate the integration of Prism within monitoring systems for enhanced cloud reliability through two real-world use cases.
翻訳日:2023-10-23 14:22:43 公開日:2023-08-15
# スタートアップ企業におけるソフトウェア工学知識領域--マッピング研究

Software Engineering Knowledge Areas in Startup Companies: A Mapping Study ( http://arxiv.org/abs/2308.07628v1 )

ライセンス: Link先を確認
Eriks Klotins, Michael Unterkalmsteiner, Tony Gorschek(参考訳) 背景 - スタートアップ企業は革新的でソフトウェア集約的な製品の重要なサプライヤーになりつつある。 スタートアップの失敗率は、リソース不足、未成熟性、複数の影響、動的技術のために高い。 しかし、ソフトウェアプロダクトエンジニアリングはスタートアップの中核的な活動であり、応用エンジニアリングプラクティスの不整合は、高い失敗率の要因となるかもしれない。 Aim - この研究は、スタートアップで使われているソフトウェア工学の知識領域を特定して分類し、さらなる研究のためのギャップを特定します。 方法 - 関連研究の特定に雪玉サンプリングを適用し, 系統的な文献マッピング研究を行う。 結果 - 14の研究から54のプラクティスが特定できた。 SWEBOKの15の主要知識領域のうち11がカバーされているが、カテゴリの大部分はカバーされていない。 結論 - 既存の研究は、スタートアップライフサイクルのどの段階でも、ソフトウェアエンジニアリングの信頼できるサポートを提供していない。 最近の研究では厳格さが低いため、他のスタートアップへの成果の移転は難しい。

Background - Startup companies are becoming important suppliers of innovative and software intensive products. The failure rate among startups is high due to lack of resources, immaturity, multiple influences and dynamic technologies. However, software product engineering is the core activity in startups, therefore inadequacies in applied engineering practices might be a significant contributing factor for high failure rates. Aim - This study identifies and categorizes software engineering knowledge areas utilized in startups to map out the state-of-art, identifying gaps for further research. Method - We perform a systematic literature mapping study, applying snowball sampling to identify relevant primary studies. Results - We have identified 54 practices from 14 studies. Although 11 of 15 main knowledge areas from SWEBOK are covered, a large part of categories is not. Conclusions - Existing research does not provide reliable support for software engineering in any phase of a startup life cycle. Transfer of results to other startups is difficult due to low rigor in current studies.
翻訳日:2023-10-23 14:22:23 公開日:2023-08-15
# CPS変異検査のためのファジング

Fuzzing for CPS Mutation Testing ( http://arxiv.org/abs/2308.07949v1 )

ライセンス: Link先を確認
Jaekwon Lee, Enrico Vigan\`o, Oscar Cornejo, Fabrizio Pastore, Lionel Briand(参考訳) 突然変異テストは、欠陥のあるソフトウェアをリリースするリスクを減らすのに役立つ。 そのため、安全クリティカルなサイバーフィジカルシステム(cps)で動作する組み込みソフトウェアを開発する上で望ましいプラクティスである。 残念なことに、CPSソフトウェアの2つの典型的な言語であるCとC++ソフトウェアの突然変異テストのための最先端のテストデータ生成技術は、しばしばそのアプリケーション(例えばブラックボックスコンポーネントのテストはできない)を阻止するシンボリック実行に依存している。 我々は,c および c++ ソフトウェアで有効であることを証明した fuzz テストを活用する突然変異テスト手法を提案する。 ファズテストは、プログラム分岐を様々な方法で実行し、異なるプログラム状態で実行し、変異体を殺す可能性を最大化する様々なテスト入力を自動的に生成する。 我々は、現在軌道上にある衛星システムで使用されるソフトウェアコンポーネントを用いて、我々のアプローチを実証的に評価した。 実験結果から,fuzzテストに基づく突然変異試験では,生体変異体の割合が象徴的実行よりも有意に高い(47ポイント以上)ことが判明した。 さらに、シンボリックな実行が適用できない場合、fuzzテストは重要な利点(最大41%のミュータントが死ぬ)を提供する。 本研究は, 突然変異検査のためのファジテストとシンボリック実行を比較した最初の試みであり, 変異検査専用のファジテストツールの開発に向けたガイダンスを提供する。

Mutation testing can help reduce the risks of releasing faulty software. For such reason, it is a desired practice for the development of embedded software running in safety-critical cyber-physical systems (CPS). Unfortunately, state-of-the-art test data generation techniques for mutation testing of C and C++ software, two typical languages for CPS software, rely on symbolic execution, whose limitations often prevent its application (e.g., it cannot test black-box components). We propose a mutation testing approach that leverages fuzz testing, which has proved effective with C and C++ software. Fuzz testing automatically generates diverse test inputs that exercise program branches in a varied number of ways and, therefore, exercise statements in different program states, thus maximizing the likelihood of killing mutants, our objective. We performed an empirical assessment of our approach with software components used in satellite systems currently in orbit. Our empirical evaluation shows that mutation testing based on fuzz testing kills a significantly higher proportion of live mutants than symbolic execution (i.e., up to an additional 47 percentage points). Further, when symbolic execution cannot be applied, fuzz testing provides significant benefits (i.e., up to 41% mutants killed). Our study is the first one comparing fuzz testing and symbolic execution for mutation testing; our results provide guidance towards the development of fuzz testing tools dedicated to mutation testing.
翻訳日:2023-10-23 14:09:17 公開日:2023-08-15
# maat: 条件付き拡散を伴うクラウドサービスのパフォーマンスメトリック異常予測

Maat: Performance Metric Anomaly Anticipation for Cloud Services with Conditional Diffusion ( http://arxiv.org/abs/2308.07676v1 )

ライセンス: Link先を確認
Cheryl Lee, Tianyi Yang, Zhuangbin Chen, Yuxin Su, Michael R. Lyu(参考訳) クラウドサービスの信頼性とユーザ満足度を確保するには、迅速な異常検出と診断が必要である。 既存の異常検出技術はリアルタイム検出のみに焦点を当てており、異常発生と同時に異常アラートが発行される。 しかし、異常は失敗へと伝播しエスカレートし、下流の分析と介入の迅速化に非常に望ましいリアルタイム異常検出を実現する。 本稿では,クラウドサービスのパフォーマンス指標の異常予測に対処する最初の試みであるMaatを提案する。 Maatは、予測の予測と予測の異常検出からなる、新しい2段階の予測パラダイムを採用する。 計量予測段階は、条件付き偏差拡散モデルを用いて、自己回帰的な多段階予測を可能にする。 検出段階は、ドメイン知識に基づいて異常を示す特徴を抽出し、インクリメンタル学習を伴う分離フォレストを適用し、今後の異常を検出する。 これにより,人間の専門知識に適合した異常を明らかにすることができる。 3つの公開データセットの評価により、Maatは、最先端のリアルタイム異常検知器と比較して、比較的効率的に、より高速に異常を予測できることを示した。 また,異常指標の予測と異常発見にMaatが成功した事例も紹介した。

Ensuring the reliability and user satisfaction of cloud services necessitates prompt anomaly detection followed by diagnosis. Existing techniques for anomaly detection focus solely on real-time detection, meaning that anomaly alerts are issued as soon as anomalies occur. However, anomalies can propagate and escalate into failures, making faster-than-real-time anomaly detection highly desirable for expediting downstream analysis and intervention. This paper proposes Maat, the first work to address anomaly anticipation of performance metrics in cloud services. Maat adopts a novel two-stage paradigm for anomaly anticipation, consisting of metric forecasting and anomaly detection on forecasts. The metric forecasting stage employs a conditional denoising diffusion model to enable multi-step forecasting in an auto-regressive manner. The detection stage extracts anomaly-indicating features based on domain knowledge and applies isolation forest with incremental learning to detect upcoming anomalies. Thus, our method can uncover anomalies that better conform to human expertise. Evaluation on three publicly available datasets demonstrates that Maat can anticipate anomalies faster than real-time comparatively or more effectively compared with state-of-the-art real-time anomaly detectors. We also present cases highlighting Maat's success in forecasting abnormal metrics and discovering anomalies.
翻訳日:2023-10-23 14:08:33 公開日:2023-08-15
# 要件工学とソフトウェアテストアライメントの評価 - 5つのケーススタディ

Assessing requirements engineering and software test alignment -- Five case studies ( http://arxiv.org/abs/2308.07640v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner, Tony Gorschek, Robert Feldt, Eriks Klotins(参考訳) 大規模でソフトウェア集約的なシステムの開発は、一般的に分割と征服戦略によって取り組む複雑な仕事です。 これによって企業は、特に要件エンジニアリング(RE)とソフトウェアテスト(ST)の間で、ソフトウェア開発の個々の側面を調整するという課題に直面します。 restアライメントの欠如は無駄な努力だけでなく、欠陥のあるソフトウェアにもつながります。 しかし、企業が調整のメカニズムを改善する前には、まず理解する必要があります。 REST-benchでは、ソフトウェア開発プロジェクトのコーディネーションを示し、具体的な改善の機会を特定するアセスメントツールの提供を目指しています。 私たちは、RESTアライメントメソッドの分類の健全な基礎に基づいてRESTベンチを開発し、その方法を5つのケーススタディで検証しました。 技術的なアクションリサーチの原則に従い、私たちは5つの企業と協力し、RESTベンチを適用し、学んだ教訓に基づいてメソッドを反復的に改善しました。 私たちは、アジャイルと計画駆動の環境で、数週間から数年にわたるプロジェクトに適用し、最大1000人の従業員を雇用しました。 得られた改善の機会とフィードバックは、評価が効率的で効率的であることを示している。 さらに,REとSTの協調に関する理解が向上したことを確認した。

The development of large, software-intensive systems is a complex undertaking that we generally tackle by a divide and conquer strategy. Companies thereby face the challenge of coordinating individual aspects of software development, in particular between requirements engineering (RE) and software testing (ST). A lack of REST alignment can not only lead to wasted effort but also to defective software. However, before a company can improve the mechanisms of coordination they need to be understood first. With REST-bench we aim at providing an assessment tool that illustrates the coordination in software development projects and identify concrete improvement opportunities. We have developed REST-bench on the sound fundamentals of a taxonomy on REST alignment methods and validated the method in five case studies. Following the principles of technical action research, we collaborated with five companies, applying REST-bench and iteratively improving the method based on the lessons we learned. We applied REST-bench both in Agile and plan-driven environments, in projects lasting from weeks to years, and staffed as large as 1000 employees. The improvement opportunities we identified and the feedback we received indicate that the assessment was effective and efficient. Furthermore, participants confirmed that their understanding on the coordination between RE and ST improved.
翻訳日:2023-10-23 14:08:16 公開日:2023-08-15
# ハイパースペクトル画像とマルチブロック非負行列分解を用いたモノ/マルチマテリアルキャラクタリゼーション

Mono/Multi-material Characterization Using Hyperspectral Images and Multi-Block Non-Negative Matrix Factorization ( http://arxiv.org/abs/2309.12329v1 )

ライセンス: Link先を確認
Mahdiyeh Ghaffari, Gerjen H. Tinnevelt, Marcel C. P. van Eijk, Stanislav Podchezertsev, Geert J. Postma, Jeroen J. Jansen(参考訳) プラスチックの選別は廃棄物処理において非常に重要なステップであり、特に多層プラスチックの存在のためである。 これらのモノマテリアルおよび多材料プラスチックは包装の機能性を高めるために広く用いられ、厚み、機械的強度、耐熱性に優れる。 しかし、複数のポリマー種を含む材料は、モノマテリアルとしてリサイクルされる前に前処理する必要があるため、モノマテリアルストリームには含まれない。 業界 4.0 は、手作業による選別と比較して、プラスチック包装の選別をスピードと精度で大幅に改善し、特に、自動化され、高速で正確な材料キャラクタリゼーションを提供する NIRHSI (Near Infrared Hyperspectral Imaging) を通じて、サンプル準備なしで行う。 HSIを用いたマルチマテリアルの同定には, 化学パターン認識のための新しいアプローチが必要である。 非負行列因子化(NMF)はハイパースペクトル画像の化学分解能に広く用いられている。 化学的に関係のあるモデル制約は、HSIを介して多層プラスチックを特定することに特に価値がある。 具体的には, 異なる化学種の制約による多ブロック非負マトリックス因子化(MBNMF)を用いて, 特定の高分子種の有無を評価することができる。 MBNMFモデルをエビデンスに基づくソート決定に変換するため、Fテストを用いてモデルを拡張し、モノマテリアルとマルチマテリアルオブジェクトを区別した。 新たなアプローチであるMBNMFの利点は, プラスチック廃棄物の識別によって示された。

Plastic sorting is a very essential step in waste management, especially due to the presence of multilayer plastics. These monomaterial and multimaterial plastics are widely employed to enhance the functional properties of packaging, combining beneficial properties in thickness, mechanical strength, and heat tolerance. However, materials containing multiple polymer species need to be pretreated before they can be recycled as monomaterials and therefore should not end up in monomaterial streams. Industry 4.0 has significantly improved materials sorting of plastic packaging in speed and accuracy compared to manual sorting, specifically through Near Infrared Hyperspectral Imaging (NIRHSI) that provides an automated, fast, and accurate material characterization, without sample preparation. Identification of multimaterials with HSI however requires novel dedicated approaches for chemical pattern recognition. Non negative Matrix Factorization, NMF, is widely used for the chemical resolution of hyperspectral images. Chemically relevant model constraints may make it specifically valuable to identify multilayer plastics through HSI. Specifically, Multi Block Non Negative Matrix Factorization (MBNMF) with correspondence among different chemical species constraint may be used to evaluate the presence or absence of particular polymer species. To translate the MBNMF model into an evidence based sorting decision, we extended the model with an F test to distinguish between monomaterial and multimaterial objects. The benefits of our new approach, MBNMF, were illustrated by the identification of several plastic waste objects.
翻訳日:2023-10-23 06:46:32 公開日:2023-08-15
# Bengaliドキュメントレイアウト分析データセットのフレームワークとモデル解析: BaDLAD

Framework and Model Analysis on Bengali Document Layout Analysis Dataset: BaDLAD ( http://arxiv.org/abs/2309.16700v1 )

ライセンス: Link先を確認
Kazi Reyazul Hasan (1), Mubasshira Musarrat (1), Sadif Ahmed (1) and Shahriar Raj (1) ((1) Bangladesh University of Engineering and Technology)(参考訳) 本研究では,高度なコンピュータプログラムである Detectron2, YOLOv8, SAM を用いた Bengali Document Layouts の理解に焦点を当てた。 私たちは研究でさまざまなベンガルの文書を調べました。 Detectron2はテキストボックスや段落など,ドキュメントのさまざまな部分の検出と分離に優れています。 YOLOv8は、さまざまなテーブルや写真を見つけるのが得意です。 SAMも試しましたが、面倒なレイアウトを理解するのに役立ちました。 私たちはこれらのプログラムをテストして、どのように機能するかを確認しました。 それらの精度と速度を比較することで、どの文書が異なる種類の文書に適しているかを学習した。 我々の研究はベンガル語の文書の複雑なレイアウトを理解するのに役立ち、他の言語にも役立ちます。

This study focuses on understanding Bengali Document Layouts using advanced computer programs: Detectron2, YOLOv8, and SAM. We looked at lots of different Bengali documents in our study. Detectron2 is great at finding and separating different parts of documents, like text boxes and paragraphs. YOLOv8 is good at figuring out different tables and pictures. We also tried SAM, which helps us understand tricky layouts. We tested these programs to see how well they work. By comparing their accuracy and speed, we learned which one is good for different types of documents. Our research helps make sense of complex layouts in Bengali documents and can be useful for other languages too.
翻訳日:2023-10-23 06:01:03 公開日:2023-08-15
# mvmr: 複数の信頼できるビデオプール上での自然言語ビデオローカライゼーションバイアスの評価

MVMR: Evaluating Natural Language Video Localization Bias over Multiple Reliable Videos Pool ( http://arxiv.org/abs/2309.16701v1 )

ライセンス: Link先を確認
Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung(参考訳) 近年,マルチメディアコンテンツの爆発的な増加に伴い,自然言語検索にマッチする映像モーメントの検出に重点を置く自然言語ビデオのローカライズが問題となっている。 しかし、以前の研究は、複数のポジティブなビデオとネガティブなビデオが存在する大きなコーパスからの瞬間を局所化するものではない。 本稿では,テキストクエリが与えられた大量のビデオからビデオフレームをローカライズすることを目的としたMVMRタスクを提案する。 そこで本研究では,既存の映像ローカライゼーションデータセットに類似性フィルタリングを適用し,mvmrデータセットを3つ導入する手法を提案する。 具体的には、埋め込み型テキスト類似度マッチングとビデオ言語接地手法を用いて、対象クエリとビデオ間の関連スコアを計算し、正と負のセットを定義する。 提案したMVMRタスクに対して,MVMRタスクにおいてモデルをより堅牢に導く信頼性および情報的負を選択的にフィルタするコントラスト学習スキームであるReliable Mutual Matching Network (RMMN) をさらに発展させる。 その結果,既存のNLVLモデルは負の映像フレームによって容易に邪魔されるが,本モデルでは高い性能を示した。

With the explosion of multimedia content in recent years, natural language video localization, which focuses on detecting video moment that matches a given natural language query, has become a critical problem. However, none of the previous research explores localizing a moment from a large corpus where multiple positive and negative videos exist. In this paper, we propose an MVMR (Massive Videos Moment Retrieval) task, which aims to localize video frames from a massive set of videos given a text query. For this task, we suggest methods for constructing datasets by employing similarity filtering on the existing video localization datasets and introduce three MVMR datasets. Specifically, we employ embedding-based text similarity matching and video-language grounding techniques to calculate the relevance score between a target query and videos to define positive and negative sets. For the proposed MVMR task, we further develop a strong model, Reliable Mutual Matching Network (RMMN), which employs a contrastive learning scheme that selectively filters the reliable and informative negatives leading the model more robust on the MVMR task. Experimental results on the introduced datasets reveal that existing NLVL models are easily distracted by negative video frames, whereas our model shows significant performance.
翻訳日:2023-10-23 05:45:18 公開日:2023-08-15
# 純エッジコンピューティングにおけるロバスト適応ワークロードオーケストレーション

A Robust Adaptive Workload Orchestration in Pure Edge Computing ( http://arxiv.org/abs/2309.03913v1 )

ライセンス: Link先を確認
Zahra Safavifar, Charafeddine Mechalikh and Fatemeh Golpayegani(参考訳) Pure Edge Computing(PEC)は、クラウドアプリケーションとサービスをネットワークのエッジに持ち込み、時間に敏感なアプリケーションとデータ駆動コンピューティングのユーザ需要の増加をサポートすることを目的としている。 しかしながら、エッジデバイスのモビリティと計算能力の制限は、厳しい応答時間要求を伴う緊急かつ計算集約的なタスクをサポートする上での課題となる。 これらのタスクの実行結果が期限を超えると、価値がなくなり、深刻な安全上の問題を引き起こします。 したがって、エッジノードが可能な限り多くの遅延に敏感なタスクを完了させることが不可欠である。 本稿では、優先度定義とリアルロケーション戦略を用いて、納期ミスとデータ損失を最小限に抑えるロバスト適応ワークロードオーケストレーション(R-AdWOrch)モデルを提案する。 その結果、R-AdWOrchは全ての条件下での優先度の低いタスクのデータ損失を最小限に抑えながら、緊急タスクのデッドラインミスを最小限に抑えることができた。

Pure Edge computing (PEC) aims to bring cloud applications and services to the edge of the network to support the growing user demand for time-sensitive applications and data-driven computing. However, mobility and limited computational capacity of edge devices pose challenges in supporting some urgent and computationally intensive tasks with strict response time demands. If the execution results of these tasks exceed the deadline, they become worthless and can cause severe safety issues. Therefore, it is essential to ensure that edge nodes complete as many latency-sensitive tasks as possible. \\In this paper, we propose a Robust Adaptive Workload Orchestration (R-AdWOrch) model to minimize deadline misses and data loss by using priority definition and a reallocation strategy. The results show that R-AdWOrch can minimize deadline misses of urgent tasks while minimizing the data loss of lower priority tasks under all conditions.
翻訳日:2023-09-17 14:06:16 公開日:2023-08-15
# 波浪散乱における漁業情報の流れの連続性方程式

Continuity Equation for the Flow of Fisher Information in Wave Scattering ( http://arxiv.org/abs/2309.00010v1 )

ライセンス: Link先を確認
Jakob H\"upfl, Felix Russo, Lukas M. Rachbauer, Dorian Bouchet, Junjie Lu, Ulrich Kuhl and Stefan Rotter(参考訳) 地震学からレーダー技術、バイオメディカルイメージングから精密測定まで、私たちの環境を探索するために波を使うのが広く使われているパラダイムです。 これらすべての分野において、中心となる目的は、プローブ波を送信し、検出器に送信された情報を処理することで、興味のある対象に関するできるだけ多くの情報を収集することである。 ここでは,物体に散乱する電磁波が,物体の構成パラメータすべてについて局所的に定義された保存された情報を運ぶことを実証する。 具体的には、非常に一般的な波動場に対するフィッシャー情報の密度とフラックスを紹介し、これら全ての新しい量が基本連続性方程式を満たす情報ソースとシンクを特定する。 我々は,不規則環境内に埋め込まれた移動物体を解析し,それに対応する漁獲情報流束をマイクロ波周波数で測定することにより,理論予測を実験的に検証した。 本研究は,情報の生成と伝播に関する新たな理解を提供し,複雑な環境においても情報の流れを追跡し設計する新たな可能性を開く。

Using waves to explore our environment is a widely used paradigm, ranging from seismology to radar technology, and from bio-medical imaging to precision measurements. In all of these fields, the central aim is to gather as much information as possible about an object of interest by sending a probing wave at it and processing the information delivered back to the detector. Here, we demonstrate that an electromagnetic wave scattered at an object carries locally defined and conserved information about all of the object's constitutive parameters. Specifically, we introduce here the density and flux of Fisher information for very general types of wave fields and identify corresponding sources and sinks of information through which all these new quantities satisfy a fundamental continuity equation. We experimentally verify our theoretical predictions by studying a movable object embedded inside a disordered environment and by measuring the corresponding Fisher information flux at microwave frequencies. Our results provide a new understanding of the generation and propagation of information and open up new possibilities for tracking and designing the flow of information even in complex environments.
翻訳日:2023-09-10 03:55:28 公開日:2023-08-15
# 推薦用リニアオートエンコーダのZCA白化効果

Implicit ZCA Whitening Effects of Linear Autoencoders for Recommendation ( http://arxiv.org/abs/2308.13536v1 )

ライセンス: Link先を確認
Katsuhiko Hayashi and Kazuma Onishi(参考訳) 近年、レコメンデーションシステムの分野では、アイテムの類似性を学ぶ方法として線形回帰(autoencoder)モデルが研究されている。 本稿では,線形オートエンコーダモデルとZCAホワイトニングの関連性を示す。 特に,線形オートエンコーダモデルの双対形式解は,アイテムの特徴ベクトルに対してzcaホワイトニング効果を実際に有し,一方,アイテムはオートエンコーダ/レグレッションモデルのプライマリ問題における入力特徴と見なされる。 また,各項目の類似性を推定するためにItem2vecなどの埋め込み手法を用いて得られた低次元項目ベクトルに対して線形オートエンコーダを適用することの正当性を示す。 本実験は, 低次元アイテム埋め込みの白化効果を示す予備実験である。

Recently, in the field of recommendation systems, linear regression (autoencoder) models have been investigated as a way to learn item similarity. In this paper, we show a connection between a linear autoencoder model and ZCA whitening for recommendation data. In particular, we show that the dual form solution of a linear autoencoder model actually has ZCA whitening effects on feature vectors of items, while items are considered as input features in the primal problem of the autoencoder/regression model. We also show the correctness of applying a linear autoencoder to low-dimensional item vectors obtained using embedding methods such as Item2vec to estimate item-item similarities. Our experiments provide preliminary results indicating the effectiveness of whitening low-dimensional item embeddings.
翻訳日:2023-09-03 21:43:34 公開日:2023-08-15
# 動的負荷の復元のための物理インフォームド機械学習モデル

A physics-informed machine learning model for reconstruction of dynamic loads ( http://arxiv.org/abs/2308.08571v1 )

ライセンス: Link先を確認
Gledson Rodrigo Tondo and Igor Kavrakov and Guido Morgenthal(参考訳) 長寿命の橋は、その寿命の間に多数の動的励起を受ける。 構造システムへの影響を考慮するため、設計中にいくつかの負荷モデルを使用して、構造が経験するであろう条件をシミュレートする。 これらのモデルは様々な単純化された仮定に基づいており、一般に測定データから確率的に同定されるパラメータによって導かれる。 本稿では,ガウス過程回帰に基づく確率論的物理モデルを用いて,計測された振れ,速度,加速度に基づいて動的力を再構成する手法を提案する。 このモデルは不完全で汚染されたデータを扱うことができ、測定システムのノイズを考慮した自然な正規化アプローチを提供する。 開発した枠組みの応用は、グレートベルト・イースト橋の空力解析により得られた。 準定常モデルに基づいて空力応答を数値計算し,その基礎となる力はスパースおよびノイズ測定を用いて再構成する。 結果は、適用された負荷と予測された動的負荷との間に良い一致を示し、グローバルな応答と結果として生じる内部力を計算するために拡張することができる。 開発されたフレームワークには、設計モデルと仮定の検証、損傷検出と構造的健康モニタリングを支援するための応答の予後が含まれる。

Long-span bridges are subjected to a multitude of dynamic excitations during their lifespan. To account for their effects on the structural system, several load models are used during design to simulate the conditions the structure is likely to experience. These models are based on different simplifying assumptions and are generally guided by parameters that are stochastically identified from measurement data, making their outputs inherently uncertain. This paper presents a probabilistic physics-informed machine-learning framework based on Gaussian process regression for reconstructing dynamic forces based on measured deflections, velocities, or accelerations. The model can work with incomplete and contaminated data and offers a natural regularization approach to account for noise in the measurement system. An application of the developed framework is given by an aerodynamic analysis of the Great Belt East Bridge. The aerodynamic response is calculated numerically based on the quasi-steady model, and the underlying forces are reconstructed using sparse and noisy measurements. Results indicate a good agreement between the applied and the predicted dynamic load and can be extended to calculate global responses and the resulting internal forces. Uses of the developed framework include validation of design models and assumptions, as well as prognosis of responses to assist in damage detection and structural health monitoring.
翻訳日:2023-08-27 05:27:24 公開日:2023-08-15
# CMISR: 循環医療画像スーパーリゾリューション

CMISR: Circular Medical Image Super-Resolution ( http://arxiv.org/abs/2308.08567v1 )

ライセンス: Link先を確認
Honggui Li, Maria Trocan, Dimitri Galayko, Mohamad Sawan(参考訳) 医用画像超解像(MISR)の古典的な方法は、暗黙の低解像度(UR)ユニットと明示的な超解像(SR)ユニットを備えたオープンループアーキテクチャを使用する。 URユニットは常に与えられる、仮定される、または推定されるが、SRユニットは様々なSRアルゴリズムに従って精巧に設計されている。 閉ループフィードバック機構は、現在のMISRアプローチで広く採用されており、その性能を効率的に向上することができる。 フィードバックメカニズムは、ローカルフィードバックとグローバルフィードバックの2つのカテゴリに分けられる。 そこで本稿では,不明瞭なURおよびSR要素を持つグローバルなフィードバックベース閉サイクルフレームワークである円形MISR(CMISR)を提案する。 CMISRの数学的モデルと閉ループ方程式が構築されている。 テイラー級数近似を用いた数学的証明は、CMISRが定常状態においてゼロ回復誤差を持つことを示す。 加えて、CMISRは既存のMISRアルゴリズムで確立可能なプラグアンドプレイ特性を持っている。 5つのCMISRアルゴリズムはそれぞれ最先端のオープンループMISRアルゴリズムに基づいて提案される。 3つの尺度因子と3つのオープンな医用画像データセットによる実験結果から、CMISRは再建性能においてMISRよりも優れており、特に強いエッジや強いコントラストを持つ医用画像に適していることが示された。

Classical methods of medical image super-resolution (MISR) utilize open-loop architecture with implicit under-resolution (UR) unit and explicit super-resolution (SR) unit. The UR unit can always be given, assumed, or estimated, while the SR unit is elaborately designed according to various SR algorithms. The closed-loop feedback mechanism is widely employed in current MISR approaches and can efficiently improve their performance. The feedback mechanism may be divided into two categories: local and global feedback. Therefore, this paper proposes a global feedback-based closed-cycle framework, circular MISR (CMISR), with unambiguous UR and SR elements. Mathematical model and closed-loop equation of CMISR are built. Mathematical proof with Taylor-series approximation indicates that CMISR has zero recovery error in steady-state. In addition, CMISR holds plug-and-play characteristic which can be established on any existing MISR algorithms. Five CMISR algorithms are respectively proposed based on the state-of-the-art open-loop MISR algorithms. Experimental results with three scale factors and on three open medical image datasets show that CMISR is superior to MISR in reconstruction performance and is particularly suited to medical images with strong edges or intense contrast.
翻訳日:2023-08-27 05:27:05 公開日:2023-08-15
# KMF:ゼロショットノード分類のための知識対応多面表現学習

KMF: Knowledge-Aware Multi-Faceted Representation Learning for Zero-Shot Node Classification ( http://arxiv.org/abs/2308.08563v1 )

ライセンス: Link先を確認
Likang Wu, Junji Jiang, Hongke Zhao, Hao Wang, Defu Lian, Mengdi Zhang and Enhong Chen(参考訳) 近年,ゼロショットノード分類(znc)がグラフデータ解析において重要かつ重要な課題となっている。 このタスクは、トレーニングプロセスで観察できない未発見のクラスからノードを予測することを目的としている。 既存の作業は主にグラフニューラルネットワーク(GNN)を使用して、機能のプロトタイプとラベルのセマンティクスを関連付け、見知らぬクラスへの知識伝達を可能にする。 しかし、特徴論的アライメントにおける多面的な意味的指向は、以前の仕事、すなわち、ノードの内容は、通常、複数のラベルの意味論に関連する多様なトピックをカバーしている。 モデルの一般性を改善する認知能力に大きな影響を与える意味的要因を分離し、判断する必要がある。 そこで本研究では,抽出したKG(Knowledge Graph)ベースのトピックを通じて,ラベルセマンティクスの豊かさを向上するKMF(Knowledge Multi-Faceted framework)を提案する。 そして、各ノードの内容は、異なるラベルに多面的かつきめ細かい意味的関連性を提供するトピックレベルの表現に再構成される。 グラフのインスタンス(つまりノード)表現の特異性により、ノード情報集約によるプロトタイプドリフトの問題を軽減するために、新しい幾何学的制約が開発されている。 最後に,いくつかの公開グラフデータセットについて広範な実験を行い,ゼロショットのクロスドメインレコメンデーションのアプリケーションを設計する。 その結果, kmfの有効性と一般化と, 最先端のベースラインとの比較が得られた。

Recently, Zero-Shot Node Classification (ZNC) has been an emerging and crucial task in graph data analysis. This task aims to predict nodes from unseen classes which are unobserved in the training process. Existing work mainly utilizes Graph Neural Networks (GNNs) to associate features' prototypes and labels' semantics thus enabling knowledge transfer from seen to unseen classes. However, the multi-faceted semantic orientation in the feature-semantic alignment has been neglected by previous work, i.e. the content of a node usually covers diverse topics that are relevant to the semantics of multiple labels. It's necessary to separate and judge the semantic factors that tremendously affect the cognitive ability to improve the generality of models. To this end, we propose a Knowledge-Aware Multi-Faceted framework (KMF) that enhances the richness of label semantics via the extracted KG (Knowledge Graph)-based topics. And then the content of each node is reconstructed to a topic-level representation that offers multi-faceted and fine-grained semantic relevancy to different labels. Due to the particularity of the graph's instance (i.e., node) representation, a novel geometric constraint is developed to alleviate the problem of prototype drift caused by node information aggregation. Finally, we conduct extensive experiments on several public graph datasets and design an application of zero-shot cross-domain recommendation. The quantitative results demonstrate both the effectiveness and generalization of KMF with the comparison of state-of-the-art baselines.
翻訳日:2023-08-27 05:26:44 公開日:2023-08-15
# 合成データを用いたソーシャルメディア上でのサイバーバブル検出のための信頼できるLSTM-Autoencoderネットワーク

A Trustable LSTM-Autoencoder Network for Cyberbullying Detection on Social Media Using Synthetic Data ( http://arxiv.org/abs/2308.09722v1 )

ライセンス: Link先を確認
Mst Shapna Akter, Hossain Shahriar, Alfredo Cuzzocrea(参考訳) ソーシャルメディアのサイバーいじめは人間の生活に有害な影響を及ぼす。 オンラインソーシャルネットワークが日々成長するにつれて、ヘイトスピーチの量も増加する。 このような恐ろしい内容は、うつ病や自殺に関連する行動を引き起こす可能性がある。 本稿では,合成データを用いたソーシャルメディア上でのサイバーバブル検出のための信頼性の高いLSTM-Autoencoderネットワークを提案する。 機械翻訳データ生成によるデータ可用性問題に対処するための最先端手法を実証した。 しかし、ヒンディー語やバングラ語などいくつかの言語は、データセットの欠如による十分な調査が不足している。 提案したモデルと従来のモデルを用いて,ヒンディー語,バングラ語,英語のデータセットに対するアグレッシブなコメントを実験的に同定した。例えば,Long Short-Term Memory (LSTM), Bidirectional Long Short-Term Memory (BiLSTM), LSTM-Autoencoder, Word2vec, Bidirectional Encoder Representations from Transformers (BERT), Generative Pre-trained Transformer 2 (GPT-2) モデルである。 モデルの性能を評価するために,f1-score,精度,精度,リコールなどの評価指標を用いた。 提案モデルでは,全データセットのモデルに比較して95%の精度を達成した。 このモデルは,我々が本論文で使用したデータセット上で,これまでのすべての作業の中で最先端の結果を得る。

Social media cyberbullying has a detrimental effect on human life. As online social networking grows daily, the amount of hate speech also increases. Such terrible content can cause depression and actions related to suicide. This paper proposes a trustable LSTM-Autoencoder Network for cyberbullying detection on social media using synthetic data. We have demonstrated a cutting-edge method to address data availability difficulties by producing machine-translated data. However, several languages such as Hindi and Bangla still lack adequate investigations due to a lack of datasets. We carried out experimental identification of aggressive comments on Hindi, Bangla, and English datasets using the proposed model and traditional models, including Long Short-Term Memory (LSTM), Bidirectional Long Short-Term Memory (BiLSTM), LSTM-Autoencoder, Word2vec, Bidirectional Encoder Representations from Transformers (BERT), and Generative Pre-trained Transformer 2 (GPT-2) models. We employed evaluation metrics such as f1-score, accuracy, precision, and recall to assess the models performance. Our proposed model outperformed all the models on all datasets, achieving the highest accuracy of 95%. Our model achieves state-of-the-art results among all the previous works on the dataset we used in this paper.
翻訳日:2023-08-27 05:17:20 公開日:2023-08-15
# 反復行動計数法の進歩:性能改善を伴う関節型PoseRACモデル

Advancements in Repetitive Action Counting: Joint-Based PoseRAC Model With Improved Performance ( http://arxiv.org/abs/2308.08632v1 )

ライセンス: Link先を確認
Haodong Chen, Ming C. Leu, Md Moniruzzaman, Zhaozheng Yin, Solmaz Hajmohammadi, Zhuoqing Chang(参考訳) 反復カウント(RepCount)は、フィットネストラッキングやリハビリテーションなどの様々な応用において重要である。 以前は、アクション反復数を特定するために赤緑青フレームとボディポーズランドマークの推定に頼っていたが、これらの方法は、カメラ視点の変化を安定的に扱えないこと、オーバーカウント、アンダーカウンティング、サブアクションの区別が難しいこと、サリアンポーズの認識における不正確さなど、多くの問題に悩まされていた。 本稿では, [1] が行った研究に基づいて, これらの課題に対処し, 最先端の RepCount 法よりも優れた結果を得るために, 平均 0.211 の 平均絶対誤差 (MAE) と, オフバイワン (OBO) の 0.599 の精度を持つ RepCount データセット [2] と組み合わせた。 総合的な実験結果から,本手法の有効性とロバスト性を示した。

Repetitive counting (RepCount) is critical in various applications, such as fitness tracking and rehabilitation. Previous methods have relied on the estimation of red-green-and-blue (RGB) frames and body pose landmarks to identify the number of action repetitions, but these methods suffer from a number of issues, including the inability to stably handle changes in camera viewpoints, over-counting, under-counting, difficulty in distinguishing between sub-actions, inaccuracy in recognizing salient poses, etc. In this paper, based on the work done by [1], we integrate joint angles with body pose landmarks to address these challenges and achieve better results than the state-of-the-art RepCount methods, with a Mean Absolute Error (MAE) of 0.211 and an Off-By-One (OBO) counting accuracy of 0.599 on the RepCount data set [2]. Comprehensive experimental results demonstrate the effectiveness and robustness of our method.
翻訳日:2023-08-27 05:16:03 公開日:2023-08-15
# 自然に触発された特徴選択アルゴリズムの学生成績予測能力の比較分析

A Comparative Analysis of the Capabilities of Nature-inspired Feature Selection Algorithms in Predicting Student Performance ( http://arxiv.org/abs/2308.08574v1 )

ライセンス: Link先を確認
Thomas Trask(参考訳) リスクの高い学生に対する効果的な事前障害介入の活用には,学生のパフォーマンス予測が重要である。 本稿では,インスタンスベースのクリックストリームデータ,コース内シングルコースのパフォーマンス,複数コースを同時に行う場合のパフォーマンスの3つのデータセットを対象とした,12種類の自然に着想を得たアルゴリズムの相対的性能について分析した。 すべてのデータセットにおいて、特徴選択にniasを使用するアンサンブルアプローチと、予測精度を高めながら特徴セットサイズを2/3削減するための従来のmlアルゴリズムを活用することが分かりました。

Predicting student performance is key in leveraging effective pre-failure interventions for at-risk students. In this paper, I have analyzed the relative performance of a suite of 12 nature-inspired algorithms when used to predict student performance across 3 datasets consisting of instance-based clickstream data, intra-course single-course performance, and performance when taking multiple courses simultaneously. I found that, for all datasets, leveraging an ensemble approach using NIAs for feature selection and traditional ML algorithms for classification increased predictive accuracy while also reducing feature set size by 2/3.
翻訳日:2023-08-27 05:15:41 公開日:2023-08-15
# 入門プログラミング教育における大規模言語モデル:ChatGPTの性能と評価への影響

Large Language Models in Introductory Programming Education: ChatGPT's Performance and Implications for Assessments ( http://arxiv.org/abs/2308.08572v1 )

ライセンス: Link先を確認
Natalie Kiesler and Daniel Schiffner(参考訳) 本稿では,Large Language Models (LLMs) ChatGPT-3.5とGPT-4の性能について検討する。 この性能に基づいて, LLMを用いたシナリオとアセスメント形式を導出する。 分析では、初心者プログラマ向けの72のPythonタスクが無料サイトCodingBatから選択された。 完全なタスク記述は LLM への入力として使用され、生成した応答は CodingBat の単体テストを用いて評価された。 また,テキスト説明とプログラムコードの一般提供についても分析を行った。 その結果、94.4~95.8%の正答率と、テキストの説明やプログラムコードの信頼性が向上し、LCMをプログラム教育と評価に組み込む新たな方法が開かれた。

This paper investigates the performance of the Large Language Models (LLMs) ChatGPT-3.5 and GPT-4 in solving introductory programming tasks. Based on the performance, implications for didactic scenarios and assessment formats utilizing LLMs are derived. For the analysis, 72 Python tasks for novice programmers were selected from the free site CodingBat. Full task descriptions were used as input to the LLMs, while the generated replies were evaluated using CodingBat's unit tests. In addition, the general availability of textual explanations and program code was analyzed. The results show high scores of 94.4 to 95.8% correct responses and reliable availability of textual explanations and program code, which opens new ways to incorporate LLMs into programming education and assessment.
翻訳日:2023-08-27 05:15:30 公開日:2023-08-15
# 複数のカメラ出力とプロセス監視をより正確にマージするためのミラーボール投影の改善

Improved mirror ball projection for more accurate merging of multiple camera outputs and process monitoring ( http://arxiv.org/abs/2308.10991v1 )

ライセンス: Link先を確認
Wladislav Artsimovich, Yoko Hirono(参考訳) 広角カメラの代わりに球面ミラーを使用することで、通常カメラが動作しない危険な環境で製造プロセスをコスト効率良く監視することができる。 これには高熱、真空、強電磁場の環境が含まれる。 さらに、複数のカメラタイプ(例えば、カラー画像、近赤外線、長波長赤外線、紫外線)を単一の広角出力に階層化することができ、カメラの配置やレンズが異なる。 通常、異なるカメラ位置は、画像間のパララックスシフトを導入するが、球面ミラーによって生成された球面投影により、このパララックスシフトは、ミラーサイズと監視対象までの距離に応じて減少する。 本稿では,プロジェクションの極部における遠近カメラによる歪みを考慮した「ミラーボールプロジェクション」のバリエーションを紹介する。 最後に,ミラーボールによるプロセスモニタリングの有効性を評価する。

Using spherical mirrors in place of wide-angle cameras allows for cost-effective monitoring of manufacturing processes in hazardous environment, where a camera would normally not operate. This includes environments of high heat, vacuum and strong electromagnetic fields. Moreover, it allows the layering of multiple camera types (e.g., color image, near-infrared, long-wavelength infrared, ultraviolet) into a single wide-angle output, whilst accounting for the different camera placements and lenses used. Normally, the different camera positions introduce a parallax shift between the images, but with a spherical projection as produced by a spherical mirror, this parallax shift is reduced, depending on mirror size and distance to the monitoring target. This paper introduces a variation of the 'mirror ball projection', that accounts for distortion produced by a perspective camera at the pole of the projection. Finally, the efficacy of process monitoring via a mirror ball is evaluated.
翻訳日:2023-08-27 05:08:22 公開日:2023-08-15
# ERA*:正規格子図における最短経路問題の解法のための拡張緩和A*アルゴリズム

ERA*: Enhanced Relaxed A* algorithm for Solving the Shortest Path Problem in Regular Grid Maps ( http://arxiv.org/abs/2308.10988v1 )

ライセンス: Link先を確認
Adel Ammar(参考訳) 本稿では,静的な8隣接接続(G8)グリッドにおいて,最短経路問題の解法を提案する。 このアルゴリズムは、g8グリッドへのハドロックアルゴリズムの一般化と見なすことができ、理論的には、与えられた解の経路長の点で、緩和された$a^*$ (ra^*$) アルゴリズムと同値であるが、ルックアップ行列の集合を定義することに基づく、全く異なる計算戦略のために、かなりの時間とメモリ節約がある。 様々な種類と大きさのグリッドマップ(43のマップで1290が動作する)に関する実験的研究により、平均すると、$ra^*$よりも2.25倍速く、元の$a^*$よりも17倍速いことが証明された。 さらに、Gスコア行列を格納する必要がないため、メモリ効率が向上する。

This paper introduces a novel algorithm for solving the point-to-point shortest path problem in a static regular 8-neighbor connectivity (G8) grid. This algorithm can be seen as a generalization of Hadlock algorithm to G8 grids, and is shown to be theoretically equivalent to the relaxed $A^*$ ($RA^*$) algorithm in terms of the provided solution's path length, but with substantial time and memory savings, due to a completely different computation strategy, based on defining a set of lookup matrices. Through an experimental study on grid maps of various types and sizes (1290 runs on 43 maps), it is proven to be 2.25 times faster than $RA^*$ and 17 times faster than the original $A^*$, in average. Moreover, it is more memory-efficient, since it does not need to store a G score matrix.
翻訳日:2023-08-27 05:07:41 公開日:2023-08-15
# 機械学習によるIoTデータ信頼評価

IoT Data Trust Evaluation via Machine Learning ( http://arxiv.org/abs/2308.11638v1 )

ライセンス: Link先を確認
Timothy Tadj, Reza Arablouei, Volkan Dedeoglu(参考訳) IoTデータの信頼性を評価するために,教師付きあるいは教師なし機械学習(ML)に基づくさまざまなアプローチが提案されている。 しかしながら、実際の有効性を評価することは、主にベンチマークに使用できる関連する公開データセットが欠如しているため、難しい。 このようなデータセットの取得は困難であるため,既存の信頼できるデータから信頼できないデータを合成することにより,IoT時系列データセットを拡張するためにランダムウォークインフィル(RWI)と呼ばれるデータ合成手法を提案する。 したがって、RWIは、IoTデータ信頼評価のためのMLモデルの開発と検証に使用できるラベル付きデータセットを作成することができる。 また,iot 時系列センサデータから新たな特徴を抽出し,その自己相関を効果的に捉え,隣接する (peer) センサのデータと相互相関する。 これらの機能は、IoTセンサーデータの信頼性を認識するためのMLモデルを学ぶために使用できる。 合成した地層ラベル付きデータセットと情報相関に基づく特徴を備え,MLによるIoTデータ信頼を評価するためのさまざまなアプローチを批判的に検討するために,広範な実験を行った。 その結果,信頼ラベルをラベル付きデータに割り当てるための教師なしクラスタ分析に頼っているIoTデータ信頼評価において,MLベースのアプローチが一般的に使用されていることが判明した。 この貧弱なパフォーマンスは、クラスタリングが信頼性の高いラベルをデータ信頼に提供しているという根拠のない仮定によるものと言えます。 また、提案した特徴を用いてRWIで拡張したデータセットから学習したMLモデルは、見つからないデータによく一般化され、既存の関連するアプローチより優れています。 さらに、ラベル付きデータの約10%を必要とする半教師付きmlアプローチは、完全に教師付きアプローチよりも実質的に魅力的でありながら、競争力のあるパフォーマンスを提供する。

Various approaches based on supervised or unsupervised machine learning (ML) have been proposed for evaluating IoT data trust. However, assessing their real-world efficacy is hard mainly due to the lack of related publicly-available datasets that can be used for benchmarking. Since obtaining such datasets is challenging, we propose a data synthesis method, called random walk infilling (RWI), to augment IoT time-series datasets by synthesizing untrustworthy data from existing trustworthy data. Thus, RWI enables us to create labeled datasets that can be used to develop and validate ML models for IoT data trust evaluation. We also extract new features from IoT time-series sensor data that effectively capture its auto-correlation as well as its cross-correlation with the data of the neighboring (peer) sensors. These features can be used to learn ML models for recognizing the trustworthiness of IoT sensor data. Equipped with our synthesized ground-truth-labeled datasets and informative correlation-based feature, we conduct extensive experiments to critically examine various approaches to evaluating IoT data trust via ML. The results reveal that commonly used ML-based approaches to IoT data trust evaluation, which rely on unsupervised cluster analysis to assign trust labels to unlabeled data, perform poorly. This poor performance can be attributed to the underlying unsubstantiated assumption that clustering provides reliable labels for data trust, a premise that is found to be untenable. The results also show that the ML models learned from datasets augmented via RWI while using the proposed features generalize well to unseen data and outperform existing related approaches. Moreover, we observe that a semi-supervised ML approach that requires only about 10% of the data labeled offers competitive performance while being practically more appealing compared to the fully-supervised approaches.
翻訳日:2023-08-27 04:47:28 公開日:2023-08-15
# ds4dh at #smm4h 2023: zero-shot adverse drug events normalization using sentence transformers and reciprocal-rank fusion

DS4DH at #SMM4H 2023: Zero-Shot Adverse Drug Events Normalization using Sentence Transformers and Reciprocal-Rank Fusion ( http://arxiv.org/abs/2308.12877v1 )

ライセンス: Link先を確認
Anthony Yazdani, Hossein Rouhizadeh, David Vicente Alvarez, Douglas Teodoro(参考訳) 本稿では,デジタル・ヘルス・グループのためのデータサイエンス・フォー・デジタル・ヘルス・グループ (data science for digital health group for the social media mining for health applications 2023 shared task 5) によって開発された有害薬物イベント正規化システムの性能評価について概説する。 共有タスク5は、twitterにおける有害薬物イベントへの言及を標準化し、規制活動用語の医学辞書から概念を標準化することを目的としている。 BERTファインタニングと文変換器によるゼロショット正規化と相互ランク融合という2段階のアプローチが特徴である。 精度は44.9%、リコールは40.5%、F1スコアは42.6%だった。 これは共有タスク5の中央値のパフォーマンスを10%上回り、すべての参加者の中で最高のパフォーマンスを示した。 これらの結果は,ソーシャルメディアのテキストマイニング分野における薬物イベント正規化の有効性と,その潜在的応用を実証するものである。

This paper outlines the performance evaluation of a system for adverse drug event normalization, developed by the Data Science for Digital Health group for the Social Media Mining for Health Applications 2023 shared task 5. Shared task 5 targeted the normalization of adverse drug event mentions in Twitter to standard concepts from the Medical Dictionary for Regulatory Activities terminology. Our system hinges on a two-stage approach: BERT fine-tuning for entity recognition, followed by zero-shot normalization using sentence transformers and reciprocal-rank fusion. The approach yielded a precision of 44.9%, recall of 40.5%, and an F1-score of 42.6%. It outperformed the median performance in shared task 5 by 10% and demonstrated the highest performance among all participants. These results substantiate the effectiveness of our approach and its potential application for adverse drug event normalization in the realm of social media text mining.
翻訳日:2023-08-27 04:39:31 公開日:2023-08-15
# 逆リソグラフィ物理によるマスク最適化のためのディープニューラルレベルセット

Inverse Lithography Physics-informed Deep Neural Level Set for Mask Optimization ( http://arxiv.org/abs/2308.12299v1 )

ライセンス: Link先を確認
Xing-Yu Ma, Shaogang Hao(参考訳) 集積回路の特性が減少し続けるにつれて、光近接補正(OPC)がリソグラフィープロセスにおいて高い印刷性を確保するための重要な解像度向上技術として登場した。 近年、レベルセットベースの逆リソグラフィ技術 (ILT) は、特に高度なプロセスにおいて、その強力なパターン忠実性を示す、有望なOPCソリューションとして注目されている。 しかし、irtの膨大な計算時間消費は、主に部分的層とホットスポット領域を補正する可能性を制限する。 深層学習(DL)法はILTを加速させる大きな可能性を示している。 しかし、逆リソグラフィーのドメイン知識の欠如は、プロセスウィンドウ(PW)拡張などにおけるDLベースのアルゴリズムの能力を制限する。 本稿では,マスク最適化のための逆リソグラフィー物理インフォームドディープニューラルレベルセット (ILDLS) アプローチを提案する。 本手法では、DLフレームワーク内のレイヤとしてレベルセットベースILTを使用し、純粋なDLとILTの結果と比較して、マスク予測と修正を繰り返し、印刷性およびPWを大幅に向上させる。 このアプローチにより、計算時間はILTに対して数桁削減される。 ILDLSは逆リソグラフィの知識でDLをギアアップすることで、新しい効率的なマスク最適化ソリューションを提供する。

As the feature size of integrated circuits continues to decrease, optical proximity correction (OPC) has emerged as a crucial resolution enhancement technology for ensuring high printability in the lithography process. Recently, level set-based inverse lithography technology (ILT) has drawn considerable attention as a promising OPC solution, showcasing its powerful pattern fidelity, especially in advanced process. However, massive computational time consumption of ILT limits its applicability to mainly correcting partial layers and hotspot regions. Deep learning (DL) methods have shown great potential in accelerating ILT. However, lack of domain knowledge of inverse lithography limits the ability of DL-based algorithms in process window (PW) enhancement and etc. In this paper, we propose an inverse lithography physics-informed deep neural level set (ILDLS) approach for mask optimization. This approach utilizes level set based-ILT as a layer within the DL framework and iteratively conducts mask prediction and correction to significantly enhance printability and PW in comparison with results from pure DL and ILT. With this approach, computation time is reduced by a few orders of magnitude versus ILT. By gearing up DL with knowledge of inverse lithography physics, ILDLS provides a new and efficient mask optimization solution.
翻訳日:2023-08-27 04:38:13 公開日:2023-08-15
# リアルパブリケーションテキストを用いたChatGPT生成フェイクサイエンスの検出の改善:xFakeBibsの教師付き学習ネットワークアルゴリズムの導入

Improving Detection of ChatGPT-Generated Fake Science Using Real Publication Text: Introducing xFakeBibs a Supervised-Learning Network Algorithm ( http://arxiv.org/abs/2308.11767v1 )

ライセンス: Link先を確認
Ahmed Abdeen Hamed and Xindong Wu(参考訳) ChatGPTは新しい現実になりつつある。 本稿では,ChatGPTによる出版物を科学者が作成した出版物と区別する方法を示す。 新たに設計された教師付き機械学習アルゴリズムを用いて、科学者が生成した論文から機械生成出版物を検出する方法を示す。 このアルゴリズムは100の実際の要約を使って訓練され、続いて10倍のキャリブレーションアプローチによって、低い上限範囲の受け入れを確立する。 ChatGPT含有量と比較すると,ChatGPTの寄与はバルクラム含有量のわずか23倍であり,他の10個折り折りの50倍以下であった。 この分析は、ChatGPTが実科学と一致するに足りなかった技術面での大きな相違を浮き彫りにしている。 個々の論文を分類する際、xFakeBibsアルゴリズムは100件中98件を偽物として正確に識別し、2件を誤分類した。 この研究は、chatgptが生成した偽の科学を高い精度で検出するアルゴリズム的手法を導入したが、全ての偽のレコードを検出することは依然として困難である。 この研究は、偽の科学と誤報に対抗する正しい方向への一歩である。

ChatGPT is becoming a new reality. In this paper, we show how to distinguish ChatGPT-generated publications from counterparts produced by scientists. Using a newly designed supervised Machine Learning algorithm, we demonstrate how to detect machine-generated publications from those produced by scientists. The algorithm was trained using 100 real publication abstracts, followed by a 10-fold calibration approach to establish a lower-upper bound range of acceptance. In the comparison with ChatGPT content, it was evident that ChatGPT contributed merely 23\% of the bigram content, which is less than 50\% of any of the other 10 calibrating folds. This analysis highlights a significant disparity in technical terms where ChatGPT fell short of matching real science. When categorizing the individual articles, the xFakeBibs algorithm accurately identified 98 out of 100 publications as fake, with 2 articles incorrectly classified as real publications. Though this work introduced an algorithmic approach that detected the ChatGPT-generated fake science with a high degree of accuracy, it remains challenging to detect all fake records. This work is indeed a step in the right direction to counter fake science and misinformation.
翻訳日:2023-08-27 04:37:54 公開日:2023-08-15
# 時間一様中心極限理論と漸近的信頼系列

Time-uniform central limit theory and asymptotic confidence sequences ( http://arxiv.org/abs/2103.06476v8 )

ライセンス: Link先を確認
Ian Waudby-Smith, David Arbour, Ritwik Sinha, Edward H. Kennedy, and Aaditya Ramdas(参考訳) 中央極限定理(CLT)に基づく信頼区間は古典統計学の基盤となっている。 漸近的にのみ有効であるにもかかわらず、非常に弱い仮定の下で統計的推論を許すためユビキタスであり、漸近的推論が不可能である場合でもしばしば問題に適用できる。 本稿では、このような漸近的信頼区間の時間一様アナログを紹介する。 そこで本手法は,時間とともに一様に有効となる信頼区間のシーケンスを,信頼シーケンス(CS)の形式で記述する。 CSは任意の停止時間に有効な推論を提供し、サンプルサイズを事前に固定する必要のある古典的な信頼区間とは異なり、データに対する「覗き見」の罰則を課さない。 文献中の既存のCSは漸近的ではないため、前述の漸近的信頼区間の広範な適用性は享受できない。 我々の研究は「漸近的なCS」の定義を与え、弱いCLTのような仮定のみを必要とする普遍的な漸近的なCSを導出することでギャップを埋める。 cltは、固定されたサンプルサイズにおけるガウス平均の分布に近似するが、強い不変原理(1960年代のストラッセンの仕事とkoml\'os, major, tusn\'adyによる改善)を用いて、暗黙のガウス過程によってサンプル平均過程全体を一様に近似する。 本理論の例示として,観測実験における効率的な推定器を用いた平均治療効果に対する無症状CSを導出し,無作為な実験を行い,連続的に監視・適応的に停止できる因果推論を可能にした。

Confidence intervals based on the central limit theorem (CLT) are a cornerstone of classical statistics. Despite being only asymptotically valid, they are ubiquitous because they permit statistical inference under very weak assumptions, and can often be applied to problems even when nonasymptotic inference is impossible. This paper introduces time-uniform analogues of such asymptotic confidence intervals. To elaborate, our methods take the form of confidence sequences (CS) -- sequences of confidence intervals that are uniformly valid over time. CSs provide valid inference at arbitrary stopping times, incurring no penalties for "peeking" at the data, unlike classical confidence intervals which require the sample size to be fixed in advance. Existing CSs in the literature are nonasymptotic, and hence do not enjoy the aforementioned broad applicability of asymptotic confidence intervals. Our work bridges the gap by giving a definition for "asymptotic CSs", and deriving a universal asymptotic CS that requires only weak CLT-like assumptions. While the CLT approximates the distribution of a sample average by that of a Gaussian at a fixed sample size, we use strong invariance principles (stemming from the seminal 1960s work of Strassen and improvements by Koml\'os, Major, and Tusn\'ady) to uniformly approximate the entire sample average process by an implicit Gaussian process. As an illustration of our theory, we derive asymptotic CSs for the average treatment effect using efficient estimators in observational studies (for which no nonasymptotic bounds can exist even in the fixed-time regime) as well as randomized experiments, enabling causal inference that can be continuously monitored and adaptively stopped.
翻訳日:2023-08-17 18:18:38 公開日:2023-08-15
# SMGRL:スケーラブルなマルチ解像度グラフ表現学習

SMGRL: Scalable Multi-resolution Graph Representation Learning ( http://arxiv.org/abs/2201.12670v3 )

ライセンス: Link先を確認
Reza Namazi, Elahe Ghalebi, Sinead Williamson, Hamidreza Mahyar(参考訳) グラフ畳み込みネットワーク(GCN)は、分類やリンク予測に役立つトポロジ的に認識されたノードの埋め込みを学習することができる。 しかし、追加のレイヤを追加することなく、ノード間の長距離依存関係をキャプチャできないため、過剰なスムーシングと時間と空間の複雑さが増大する。 さらに、ノード間の複雑な依存関係は、ミニバッチを難しくし、大きなグラフに適用性を制限する。 マルチレゾリューションノードの埋め込みを効率的に学習できるスケーラブルなマルチレゾリューショングラフ表現学習(SMGRL)フレームワークを提案する。 私たちのフレームワークはモデルに依存しており、既存のgcnモデルに適用できます。 元のグラフの次元の粗さだけをトレーニングすることで、トレーニングコストを劇的に削減し、その結果のアルゴリズムを複数の解像度で適用するために自己相似性を利用する。 結果として得られるマルチレゾリューション組込みは集約され、長距離および短距離の依存関係をキャプチャする高品質なノード組込みが得られる。 実験の結果,高い計算コストを伴わずに分類精度が向上することがわかった。

Graph convolutional networks (GCNs) allow us to learn topologically-aware node embeddings, which can be useful for classification or link prediction. However, they are unable to capture long-range dependencies between nodes without adding additional layers -- which in turn leads to over-smoothing and increased time and space complexity. Further, the complex dependencies between nodes make mini-batching challenging, limiting their applicability to large graphs. We propose a Scalable Multi-resolution Graph Representation Learning (SMGRL) framework that enables us to learn multi-resolution node embeddings efficiently. Our framework is model-agnostic and can be applied to any existing GCN model. We dramatically reduce training costs by training only on a reduced-dimension coarsening of the original graph, then exploit self-similarity to apply the resulting algorithm at multiple resolutions. The resulting multi-resolution embeddings can be aggregated to yield high-quality node embeddings that capture both long- and short-range dependencies. Our experiments show that this leads to improved classification accuracy, without incurring high computational costs.
翻訳日:2023-08-17 18:11:24 公開日:2023-08-15
# サーバ学習によるフェデレーションラーニング - 非IIDデータのパフォーマンス向上

Federated Learning with Server Learning: Enhancing Performance for Non-IID Data ( http://arxiv.org/abs/2210.02614v4 )

ライセンス: Link先を確認
Van Sy Mai, Richard J. La, Tao Zhang(参考訳) フェデレートラーニング(FL)は、クライアントに格納されたローカルデータを協調サーバで分散学習する手段として登場した。 最近の研究では、クライアントでデータをトレーニングする場合、flはパフォーマンスの低下と収束の遅さに苦しむことが示されている。 ここでは、サーバが小さなデータセットから補助学習を行うことにより、この性能劣化を軽減するための新たな補完的アプローチを検討する。 解析と実験により,サーバのデータセットが小さく,すべてのクライアントから収集したデータと分布が異なる場合でも,モデル精度と収束時間の両方において,新たなアプローチが大幅に向上することが示された。

Federated Learning (FL) has emerged as a means of distributed learning using local data stored at clients with a coordinating server. Recent studies showed that FL can suffer from poor performance and slower convergence when training data at clients are not independent and identically distributed. Here we consider a new complementary approach to mitigating this performance degradation by allowing the server to perform auxiliary learning from a small dataset. Our analysis and experiments show that this new approach can achieve significant improvements in both model accuracy and convergence time even when the server dataset is small and its distribution differs from that of the aggregated data from all clients.
翻訳日:2023-08-17 18:02:59 公開日:2023-08-15
# 離散状態空間から得られるグラフの拡散モデル

Diffusion Models for Graphs Benefit From Discrete State Spaces ( http://arxiv.org/abs/2210.01549v4 )

ライセンス: Link先を確認
Kilian Konstantin Haefeli, Karolis Martinkus, Nathana\"el Perraudin, Roger Wattenhofer(参考訳) 拡散確率モデルとスコアマッチングモデルは、生成タスクに非常に強力であることが証明されている。 これらのアプローチは離散グラフの生成にも適用されているが、これまでは連続ガウス摂動に依存してきた。 代わりに、本研究では、前方マルコフ過程に離散ノイズを用いることを提案する。 これにより、すべての中間ステップにおいてグラフが離散的であることが保証される。 従来の手法と比較して, 4つのデータセットと複数のアーキテクチャを用いた実験結果から, 離散的ノージングプロセスを用いることで, 平均mmdを1.5倍小さくして, 高品質なサンプルが得られた。 さらに、分別ステップの数は1000ステップから32ステップに削減され、サンプリング手順が30倍高速になる。

Denoising diffusion probabilistic models and score-matching models have proven to be very powerful for generative tasks. While these approaches have also been applied to the generation of discrete graphs, they have, so far, relied on continuous Gaussian perturbations. Instead, in this work, we suggest using discrete noise for the forward Markov process. This ensures that in every intermediate step the graph remains discrete. Compared to the previous approach, our experimental results on four datasets and multiple architectures show that using a discrete noising process results in higher quality generated samples indicated with an average MMDs reduced by a factor of 1.5. Furthermore, the number of denoising steps is reduced from 1000 to 32 steps, leading to a 30 times faster sampling procedure.
翻訳日:2023-08-17 18:02:33 公開日:2023-08-15
# アンダーダムランゲヴィンダイナミクスを用いた非バイアス推定

Unbiased Estimation using Underdamped Langevin Dynamics ( http://arxiv.org/abs/2206.07202v2 )

ライセンス: Link先を確認
Hamza Ruzayqat, Neil K. Chada, Ajay Jasra(参考訳) 本研究では,非負のルベーグ密度を持ち,点的に上向きに正規化定数となる期待値w.r.t.~probability測度の偏りのない推定について考察する。 我々は、統計学や機械学習の応用により最近人気が高まっているランジェヴィン力学(Langevin dynamics)を用いて、バイアスのない方法の開発に注力する。 特に連続時間において、ダイナミクスは、時間が無限になるにつれて、静止測度として興味の確率を受け入れるように構成できる。 多くの場合、無傷ランジュバンダイナミクスの時間的離散化バージョンは、一定の数のイテレーションでのみ実行される、実際に使われます。 我々は,2倍のランダム化推定に基づく新しいスキームを,時間離散化バージョンのダイナミクスへのアクセスのみを必要とする \cite{ub_grad,disc_model} のように開発する。 提案手法は,有限個の反復のダイナミクスを実行することによって生じる二項化バイアスとバイアスを取り除くことを目的としている。 標準的な仮定の下では、推定子は有限分散であり、期待されるコストが有限であるか、あるいは高い確率で有限コストであることを示す。 理論的な知見を説明するために,ベイズ統計学や統計物理学の挑戦的な例を含む,理論を検証する数値実験を行う。

In this work we consider the unbiased estimation of expectations w.r.t.~probability measures that have non-negative Lebesgue density, and which are known point-wise up-to a normalizing constant. We focus upon developing an unbiased method via the underdamped Langevin dynamics, which has proven to be popular of late due to applications in statistics and machine learning. Specifically in continuous-time, the dynamics can be constructed {so that as the time goes to infinity they} admit the probability of interest as a stationary measure. {In many cases, time-discretized versions of the underdamped Langevin dynamics are used in practice which are run only with a fixed number of iterations.} We develop a novel scheme based upon doubly randomized estimation as in \cite{ub_grad,disc_model}, which requires access only to time-discretized versions of the dynamics. {The proposed scheme aims to remove the dicretization bias and the bias resulting from running the dynamics for a finite number of iterations}. We prove, under standard assumptions, that our estimator is of finite variance and either has finite expected cost, or has finite cost with a high probability. To illustrate our theoretical findings we provide numerical experiments which verify our theory, which include challenging examples from Bayesian statistics and statistical physics.
翻訳日:2023-08-17 18:00:31 公開日:2023-08-15
# 離散スケッチデータを用いた固有クエリの共形周波数推定

Conformal Frequency Estimation using Discrete Sketched Data with Coverage for Distinct Queries ( http://arxiv.org/abs/2211.04612v2 )

ライセンス: Link先を確認
Matteo Sesia, Stefano Favaro, Edgar Dobriban(参考訳) 本稿では,メモリフットプリントの少ないスケッチに基づいて,クエリ対象の頻度に対する信頼区間を,非常に大きな離散データセットで構築する共形推論手法を提案する。 このアプローチは、データ分布に関する知識を必要とせず、有名なカウントミンスケッチ、カウントスケッチ、およびそれらのバリエーションを含むあらゆるスケッチアルゴリズムと組み合わせることができる。 交換可能なランダムクエリの限界カバレッジを達成する方法について説明した後、我々は、データの離散性と異種クエリ周波数を考慮できる強力な推論を提供し、分散シフトの可能性に対する堅牢性を高めるために、ソリューションを拡張した。 これらの結果は、多数の異なるランダムクエリに対して有効なカバレッジを保証する新しいコンフォメーションキャリブレーション手法によって促進される。 最後に,本手法は,テキストやSARS-CoV-2のDNAデータの例と同様に,既存の頻繁な手法やベイズ的な手法と比較して実験性能が向上したことを示す。

This paper develops conformal inference methods to construct a confidence interval for the frequency of a queried object in a very large discrete data set, based on a sketch with a lower memory footprint. This approach requires no knowledge of the data distribution and can be combined with any sketching algorithm, including but not limited to the renowned count-min sketch, the count-sketch, and variations thereof. After explaining how to achieve marginal coverage for exchangeable random queries, we extend our solution to provide stronger inferences that can account for the discreteness of the data and for heterogeneous query frequencies, increasing also robustness to possible distribution shifts. These results are facilitated by a novel conformal calibration technique that guarantees valid coverage for a large fraction of distinct random queries. Finally, we show our methods have improved empirical performance compared to existing frequentist and Bayesian alternatives in simulations as well as in examples of text and SARS-CoV-2 DNA data.
翻訳日:2023-08-17 17:54:08 公開日:2023-08-15
# N$-mode,$K$-fermion系のジョルダン・ウィグナーエンコーディングのqubit要求を$N$から$\lceil \log_2 {N \choose K} \rceil$へ還元する

Reducing the qubit requirement of Jordan-Wigner encodings of $N$-mode, $K$-fermion systems from $N$ to $\lceil \log_2 {N \choose K} \rceil$ ( http://arxiv.org/abs/2211.04501v4 )

ライセンス: Link先を確認
Brent Harrison, Dylan Nelson, Daniel Adamiak and James Whitfield(参考訳) 量子コンピュータ上でフェルミオン系をシミュレートするには、フェルミオンの状態を量子ビットにエンコードする必要がある。 Jordan-Wigner や Bravyi-Kitaev 変換のようなフェルミオン対量子ビット写像は、$N$ qubits を使って、$N$フェルミオンモードの系を表現する。 本研究では、$K$フェルミオンと$N$モードの粒子数保存システムに対して、qubit要求を$\lceil \log_2 {N \choose K} \rceil$の情報理論最小値に還元できることを示した。 これにより、キュービット数に制限のある短期量子コンピュータ上での分子や多体系のシミュレーションの実現性が向上する。

To simulate a fermionic system on a quantum computer, it is necessary to encode the state of the fermions onto qubits. Fermion-to-qubit mappings such as the Jordan-Wigner and Bravyi-Kitaev transformations do this using $N$ qubits to represent systems of $N$ fermionic modes. In this work, we demonstrate that for particle number conserving systems of $K$ fermions and $N$ modes, the qubit requirement can be reduced to the information theoretic minimum of $\lceil \log_2 {N \choose K} \rceil$. This will improve the feasibility of simulation of molecules and many-body systems on near-term quantum computers with limited qubit number.
翻訳日:2023-08-17 17:53:51 公開日:2023-08-15
# 生成ビデオキャプションからのイベントとエンティティ抽出

Event and Entity Extraction from Generated Video Captions ( http://arxiv.org/abs/2211.02982v2 )

ライセンス: Link先を確認
Johannes Scherer and Ansgar Scherp and Deepayan Bhowmik(参考訳) 人間によるマルチメディアデータのアノテーションは時間がかかり費用がかかるが、セマンティックメタデータの自動生成は大きな課題である。 自動生成ビデオキャプションから意味メタデータを抽出するフレームワークを提案する。 メタデータとして、エンティティ、エンティティのプロパティ、エンティティ間の関係、およびビデオカテゴリを考える。 我々は2つの最先端の高密度ビデオキャプションモデルとマスク変換器(MT)と並列デコード(PVDC)を用いて、ActivityNet Captionsデータセットのビデオキャプションを生成する。 実験の結果,生成したキャプションから,エンティティ,その特性,エンティティ間の関係,ビデオカテゴリを抽出できることが確認された。 抽出された情報の品質は,映像中のイベントローカライゼーションの質や,イベントキャプション生成の性能に主に影響していると考えられる。

Annotation of multimedia data by humans is time-consuming and costly, while reliable automatic generation of semantic metadata is a major challenge. We propose a framework to extract semantic metadata from automatically generated video captions. As metadata, we consider entities, the entities' properties, relations between entities, and the video category. We employ two state-of-the-art dense video captioning models with masked transformer (MT) and parallel decoding (PVDC) to generate captions for videos of the ActivityNet Captions dataset. Our experiments show that it is possible to extract entities, their properties, relations between entities, and the video category from the generated captions. We observe that the quality of the extracted information is mainly influenced by the quality of the event localization in the video as well as the performance of the event caption generation.
翻訳日:2023-08-17 17:53:30 公開日:2023-08-15
# 実運用課題を考慮した時間同期全システム状態推定

Time-Synchronized Full System State Estimation Considering Practical Implementation Challenges ( http://arxiv.org/abs/2212.01729v2 )

ライセンス: Link先を確認
Antos Cheeramban Varghese, Hritik Shah, Behrouz Azimian, Anamitra Pal, and Evangelos Farantatos(参考訳) ファサー測定ユニット(PMU)は通常、最高電圧バスに搭載されるため、バルク電力系統の低電圧レベルの多くは観測されない。 この可視性の欠如は、システム全体の時間同期状態推定を困難な問題にする。 この問題を解決するために,Deep Neural Network-based State Estimator (DeNSE)を提案する。 DeNSEは、遅い時間スケールから引き出された推論と広範囲の監視制御とデータ取得(SCADA)データを高速な時間スケールでローカルなPMUデータと間接的に組み合わせて、システム全体のサブ秒の状況認識を実現するためにベイズフレームワークを使用している。 提案手法の実用性は, トポロジー変化, 非ガウス計測ノイズ, 悪いデータ検出と補正を考慮することで実証される。 IEEE 118-busシステムを用いて得られた結果は、純粋にSCADA状態推定器、SCADA-PMUハイブリッド状態推定器およびPMUのみ線形状態推定器よりもDeNSEの方が優れていることを示す。 最後に、DeNSEのスケーラビリティは、大規模で現実的な2000-bus Synthetic Texasシステムで状態推定を行うことによって証明される。

As phasor measurement units (PMUs) are usually placed on the highest voltage buses, many lower voltage levels of the bulk power system are not observed by them. This lack of visibility makes time-synchronized state estimation of the full system a challenging problem. We propose a Deep Neural network-based State Estimator (DeNSE) to overcome this problem. The DeNSE employs a Bayesian framework to indirectly combine inferences drawn from slow timescale but widespread supervisory control and data acquisition (SCADA) data with fast timescale but local PMU data to attain sub-second situational awareness of the entire system. The practical utility of the proposed approach is demonstrated by considering topology changes, non-Gaussian measurement noise, and bad data detection and correction. The results obtained using the IEEE 118-bus system show the superiority of the DeNSE over a purely SCADA state estimator, a SCADA-PMU hybrid state estimator, and a PMU-only linear state estimator from a techno-economic viability perspective. Lastly, the scalability of the DeNSE is proven by performing state estimation on a large and realistic 2000-bus Synthetic Texas system.
翻訳日:2023-08-17 17:42:57 公開日:2023-08-15
# 量子状態の近似再構成性とノイズ量子秘密共有スキーム

Approximate reconstructability of quantum states and noisy quantum secret sharing schemes ( http://arxiv.org/abs/2302.02509v2 )

ライセンス: Link先を確認
Yingkai Ouyang, Kaumudibikash Goswami, Jacquiline Romero, Barry C. Sanders, Min-Hsiu Hsieh and Marco Tomamichel(参考訳) プレイヤーの非公認部分集合を制御する量子秘密および全能の敵エージェントを略して再構成できる構造(プレイヤーのサブセットの集合)をほぼ否定するように、ディーラーがプレイヤーに量子秘密を符号化して配布する形式的な暗号設定において、近似量子秘密共有を導入し、分析する。 特に, 量子秘密を符号化したマップを量子チャネルとしてプレーヤに共有すると, これらのプレーヤによる量子秘密の近似的再構成が可能となるのは, 補足量子チャネルのある種の絡み合い支援容量が, 構造や環境外のプレイヤに対して与えられる情報漏洩が小さい場合に限りである。

We introduce and analyse approximate quantum secret sharing in a formal cryptographic setting, wherein a dealer encodes and distributes a quantum secret to players such that authorized structures (sets of subsets of players) can approximately reconstruct the quantum secret and omnipotent adversarial agents controlling non-authorized subsets of players are approximately denied the quantum secret. In particular, viewing the map encoding the quantum secret to shares for players in an authorized structure as a quantum channel, we show that approximate reconstructability of the quantum secret by these players is possible if and only if the information leakage, given in terms of a certain entanglement-assisted capacity of the complementary quantum channel to the players outside the structure and the environment, is small.
翻訳日:2023-08-17 17:32:12 公開日:2023-08-15
# 私の予測は任意か? 公平分類ベンチマークにおける変数の相違効果

Is My Prediction Arbitrary? The Confounding Effects of Variance in Fair Classification Benchmarks ( http://arxiv.org/abs/2301.11562v4 )

ライセンス: Link先を確認
A. Feder Cooper, Katherine Lee, Madiha Zahrah Choksi, Solon Barocas, Christopher De Sa, James Grimmelmann, Jon Kleinberg, Siddhartha Sen, Baobao Zhang(参考訳) 異なる訓練されたモデル間の予測のばらつきは、公平な分類において重要で未熟な誤りの原因である。 実際には、データ例のばらつきは非常に大きいので、決定を効果的に任意にすることができる。 この問題を調査するため、我々は実験的なアプローチをとり、4つの総合的な貢献をする。 1) 偏差から派生した自己整合性と呼ばれる指標を定義し、その指標を任意性の測定及び低減の代用として用いる。 2) 予測が任意である場合に分類を棄却するアンサンブルアルゴリズムを開発する。 3)公平な分類における分散(vis-a-vis自己矛盾と任意性)の役割について、過去最大の実証研究を行い、 4) US Home Mortgage Disclosure Act (HMDA)データセットを将来の研究に容易に利用できるようにするツールキットをリリースする。 その結果,ベンチマークデータセットにおける結論の信頼性に関する衝撃的な知見が得られた。 ほとんどのフェアネス分類ベンチマークは、一般的なフェアネス介入を適用する前に、予測に現れる仲裁の量を考慮して、フェアツーフェアである。 この発見は、一般的なアルゴリズム的公平性の方法の実用性に疑問を呈し、機械学習における公平性を測定する方法の根本的な再検討を示唆する。

Variance in predictions across different trained models is a significant, under-explored source of error in fair classification. In practice, the variance on some data examples is so large that decisions can be effectively arbitrary. To investigate this problem, we take an experimental approach and make four overarching contributions: We 1) Define a metric called self-consistency, derived from variance, which we use as a proxy for measuring and reducing arbitrariness; 2) Develop an ensembling algorithm that abstains from classification when a prediction would be arbitrary; 3) Conduct the largest to-date empirical study of the role of variance (vis-a-vis self-consistency and arbitrariness) in fair classification; and, 4) Release a toolkit that makes the US Home Mortgage Disclosure Act (HMDA) datasets easily usable for future research. Altogether, our experiments reveal shocking insights about the reliability of conclusions on benchmark datasets. Most fairness classification benchmarks are close-to-fair when taking into account the amount of arbitrariness present in predictions -- before we even try to apply common fairness interventions. This finding calls into question the practical utility of common algorithmic fairness methods, and in turn suggests that we should fundamentally reconsider how we choose to measure fairness in machine learning.
翻訳日:2023-08-17 17:31:56 公開日:2023-08-15
# 自律運転のためのクロスセマンティクス生成センサ融合を用いたペナルティに基づく模倣学習

Penalty-Based Imitation Learning With Cross Semantics Generation Sensor Fusion for Autonomous Driving ( http://arxiv.org/abs/2303.11888v3 )

ライセンス: Link先を確認
Hongkuan Zhou, Aifen Sui, Letian Shi, and Yinxian Li(参考訳) 近年では、エンドツーエンドの自動運転技術に注目が集まっている。 この技術は、より単純な構造とより高速な推論時間を持つ単一のニューラルネットワークで、運転パイプライン全体を置き換えることを含む。 しかし、このアプローチは駆動パイプラインのコンポーネント数を減らす一方で、解釈可能性と安全性に関する課題も提示する。 例えば、トレーニングされたポリシーが常にトラフィックルールに従うとは限らないため、中間出力が不足しているため、そのような誤動作の原因を判断することは困難である。 さらに, 自律走行技術の実現は, 周辺環境を正確に把握するために, センサデータの信頼性と迅速処理に大きく依存している。 本稿では,複数の情報モダリティを効率的に統合し,自律エージェントが交通規制を効果的に遵守できるようにするために,クロスセマンティクス生成センサ融合技術(P-CSG)と組み合わせたペナルティに基づく模倣学習手法を提案する。 提案手法は町長ベンチマークで評価され,最先端(sota)モデルであるinterfuserと比較して運転スコアが12%以上向上しているのを観察した。 特に, この性能向上を実現するとともに, 推論速度を7倍に増やし, モデルサイズを約30%削減した。 コードベースのリソースを含む詳細な情報はhttps://hk-zh.github.io/p-csg/にある。

In recent times, there has been a growing focus on end-to-end autonomous driving technologies. This technology involves the replacement of the entire driving pipeline with a single neural network, which has a simpler structure and faster inference time. However, while this approach reduces the number of components in the driving pipeline, it also presents challenges related to interpretability and safety. For instance, the trained policy may not always comply with traffic rules, and it is difficult to determine the reason for such misbehavior due to the lack of intermediate outputs. Additionally, the successful implementation of autonomous driving technology heavily depends on the reliable and expedient processing of sensory data to accurately perceive the surrounding environment. In this paper, we provide penalty-based imitation learning approach combined with cross semantics generation sensor fusion technologies (P-CSG) to efficiently integrate multiple modalities of information and enable the autonomous agent to effectively adhere to traffic regulations. Our model undergoes evaluation within the Town 05 Long benchmark, where we observe a remarkable increase in the driving score by more than 12% when compared to the state-of-the-art (SOTA) model, InterFuser. Notably, our model achieves this performance enhancement while achieving a 7-fold increase in inference speed and reducing the model size by approximately 30%. For more detailed information, including code-based resources, they can be found at https://hk-zh.github.io/p-csg/
翻訳日:2023-08-17 17:23:10 公開日:2023-08-15
# 擬似教師付きメトリクス:教師なしクロスドメイン分類フレームワークにおける教師なし画像から画像への変換モデルの評価

Pseudo Supervised Metrics: Evaluating Unsupervised Image to Image Translation Models In Unsupervised Cross-Domain Classification Frameworks ( http://arxiv.org/abs/2303.10310v2 )

ライセンス: Link先を確認
Firas Al-Hindawi, Md Mahfuzur Rahman Siddiquee, Teresa Wu, Han Hu, Ying Sun(参考訳) 画像を正確かつ効率的に分類する能力は、大きなラベル付きデータセットへのアクセスと、モデルがトレーニングされた同じドメインからのデータテストに依存する。 大規模なラベル付きデータセットを収集して、スクラッチから新しい分類器をトレーニングするドメインからの新しいデータを扱う場合、分類は時間がかかり、コストがかかり、時には不可能、あるいは不可能になる。 教師なし画像画像変換(UI2I)モデルを用いて、ラベルなし領域からラベル付き領域への入力画像の変換により、このデータ領域シフト問題に対処するクロスドメイン分類フレームワークを開発した。 これらの教師なしモデルの問題は、教師なしの性質にある。 アノテーションの欠如のため、従来の教師付きメトリクスを使用してこれらの翻訳モデルを評価し、最良のチェックポイントモデルを選択することはできない。 本稿では、人間の目から見た画像の品質の観点からモデルを評価するために設計されたFIDのような一般的なメトリクスとは対照的に、クロスドメイン分類アプリケーションをサポートするために設計されたPseudo Supervised Metricsと呼ばれる新しい手法を紹介する。 FIDのような教師なしのメトリクスよりも優れているだけでなく、真の教師なしのメトリクス、堅牢で説明可能なメトリクスと高い相関があることが示されています。 さらに,本研究を臨界実世界問題(沸騰危機問題)に適用することにより,今後の研究の標準指標として活用できることを実証する。

The ability to classify images accurately and efficiently is dependent on having access to large labeled datasets and testing on data from the same domain that the model is trained on. Classification becomes more challenging when dealing with new data from a different domain, where collecting a large labeled dataset and training a new classifier from scratch is time-consuming, expensive, and sometimes infeasible or impossible. Cross-domain classification frameworks were developed to handle this data domain shift problem by utilizing unsupervised image-to-image (UI2I) translation models to translate an input image from the unlabeled domain to the labeled domain. The problem with these unsupervised models lies in their unsupervised nature. For lack of annotations, it is not possible to use the traditional supervised metrics to evaluate these translation models to pick the best-saved checkpoint model. In this paper, we introduce a new method called Pseudo Supervised Metrics that was designed specifically to support cross-domain classification applications contrary to other typically used metrics such as the FID which was designed to evaluate the model in terms of the quality of the generated image from a human-eye perspective. We show that our metric not only outperforms unsupervised metrics such as the FID, but is also highly correlated with the true supervised metrics, robust, and explainable. Furthermore, we demonstrate that it can be used as a standard metric for future research in this field by applying it to a critical real-world problem (the boiling crisis problem).
翻訳日:2023-08-17 17:22:26 公開日:2023-08-15
# erm++: ドメインの一般化のためのベースラインの改善

ERM++: An Improved Baseline for Domain Generalization ( http://arxiv.org/abs/2304.01973v2 )

ライセンス: Link先を確認
Piotr Teterwak, Kuniaki Saito, Theodoros Tsiligkaridis, Kate Saenko, Bryan A. Plummer(参考訳) マルチソースドメイン一般化(DG)は、訓練されていないデータの新しい分布に一般化する分類器の能力を測定する。 いくつかのマルチソースDG手法が提案されているが、ドメインラベルを用いてトレーニング中にさらに複雑になる。 近年の研究では、経験的リスク最小化(ERM)トレーニングが、ソースドメインにおける経験的リスクを最小限に抑えるだけで、既存のDGメソッドよりも優れていることが示されている。 トレーニングデータのより良い利用、モデルパラメータの選択、重み空間の正規化など、EMMの性能を改善するためのいくつかの重要な候補手法を同定する。 提案手法はERM++と呼ばれ,従来のERMに比べて5つのマルチソースデータセット上でのDGの性能が5%以上向上し,計算コストが低いにもかかわらず最先端の手法に勝っていることを示す。 さらに、挑戦的なDGベンチマークであるWILDS-FMOWデータセット上で、ERM++の有効性を示す。 ERM++が将来のDG研究の強力なベースラインになることを願っています。 コードはhttps://github.com/piotr-teterwak/erm_plusplusでリリースされる。

Multi-source Domain Generalization (DG) measures a classifier's ability to generalize to new distributions of data it was not trained on, given several training domains. While several multi-source DG methods have been proposed, they incur additional complexity during training by using domain labels. Recent work has shown that a well-tuned Empirical Risk Minimization (ERM) training procedure, that is simply minimizing the empirical risk on the source domains, can outperform most existing DG methods. We identify several key candidate techniques to further improve ERM performance, such as better utilization of training data, model parameter selection, and weight-space regularization. We call the resulting method ERM++, and show it significantly improves the performance of DG on five multi-source datasets by over 5% compared to standard ERM, and beats state-of-the-art despite being less computationally expensive. Additionally, we demonstrate the efficacy of ERM++ on the WILDS-FMOW dataset, a challenging DG benchmark. We hope that ERM++ becomes a strong baseline for future DG research. Code is released at https://github.com/piotr-teterwak/erm_plusplus.
翻訳日:2023-08-17 17:12:57 公開日:2023-08-15
# 善良で再現可能な結果が粘土の足を持つ巨人である場合: nlpにおけるソフトウェア品質の重要性

When Good and Reproducible Results are a Giant with Feet of Clay: The Importance of Software Quality in NLP ( http://arxiv.org/abs/2303.16166v4 )

ライセンス: Link先を確認
Sara Papi, Marco Gaido, Andrea Pilzer, Matteo Negri(参考訳) 実験において重要な役割を担っているにもかかわらず、コードの正確性は結果の質に基づいてのみ推測される。 この仮定は誤った結果と潜在的に誤解を招く結果のリスクを伴う。 この問題に対処するため、我々は、再現性に焦点を合わせ、ソフトウェアの品質に重点を置くべきであると仮定する。 本稿では,最先端コンフォーマーアーキテクチャの実装で広く使用されている3つのバグを特定し,修正するケーススタディを提案する。 様々な言語における音声認識と翻訳の実験を通じて、バグの存在は、善良かつ再現可能な結果の達成を妨げないが、将来の研究を誤った結果に導く可能性があることを実証する。 この対策として,ニューラルモデルテスト専用のライブラリであるコード品質チェックリストとリリースパンゴリNNを提案し,コーディングベストプラクティスの促進とNLPコミュニティにおける研究ソフトウェア品質の向上を目標としている。

Despite its crucial role in research experiments, code correctness is often presumed only on the basis of the perceived quality of results. This assumption comes with the risk of erroneous outcomes and potentially misleading findings. To address this issue, we posit that the current focus on reproducibility should go hand in hand with the emphasis on software quality. We present a case study in which we identify and fix three bugs in widely used implementations of the state-of-the-art Conformer architecture. Through experiments on speech recognition and translation in various languages, we demonstrate that the presence of bugs does not prevent the achievement of good and reproducible results, which however can lead to incorrect conclusions that potentially misguide future research. As a countermeasure, we propose a Code-quality Checklist and release pangoliNN, a library dedicated to testing neural models, with the goal of promoting coding best practices and improving research software quality within the NLP community.
翻訳日:2023-08-17 17:11:35 公開日:2023-08-15
# duett: 電子健康記録用のデュアルイベントタイムトランスフォーマー

DuETT: Dual Event Time Transformer for Electronic Health Records ( http://arxiv.org/abs/2304.13017v2 )

ライセンス: Link先を確認
Alex Labach, Aslesha Pokhrel, Xiao Shi Huang, Saba Zuberi, Seung Eun Yi, Maksims Volkovs, Tomi Poutanen, Rahul G. Krishnan(参考訳) 病院で記録された電子健康記録(ehrs)は、通常、高いスパーシティと不規則な観察によって特徴づけられる幅広い数値時系列データを含んでいる。 このようなデータの効果的なモデリングは、時系列の性質、異なる種類の観測のセマンティックな関係、およびデータの空間構造における情報を活用する必要がある。 自己教師付きトランスフォーマーは、nlpやコンピュータビジョンの様々な構造化タスクにおいて優れた性能を示している。 しかし、多変量時系列データには、時間と記録されたイベントタイプという2次元にわたる構造化された関係が含まれており、時系列データへのトランスフォーマーの直接的な適用は、この異なる構造を利用しない。 セルフアテンション層の二次スケーリングは、適切な入力工学を使わずに入力シーケンスの長さを著しく制限することができる。 我々は,時間型とイベント型の両方の次元に対応するように設計されたトランスフォーマーの拡張であるduettアーキテクチャを紹介し,ehlデータからロバスト表現を生成する。 DuETTは、スパース時系列が一定の長さの正規シーケンスに変換される集約された入力を使用する。これにより、従来のERHトランスフォーマーモデルと比較して計算の複雑さが低下し、より重要なことに、より大きく深いニューラルネットワークの使用が可能になる。 モデル事前学習のためのリッチで情報的な信号を提供する自己教師型予測タスクを訓練すると、MIMIC-IVおよびPhystoNet-2012 EHRデータセットから得られた複数の下流タスクにおける最先端のディープラーニングモデルよりも優れる。

Electronic health records (EHRs) recorded in hospital settings typically contain a wide range of numeric time series data that is characterized by high sparsity and irregular observations. Effective modelling for such data must exploit its time series nature, the semantic relationship between different types of observations, and information in the sparsity structure of the data. Self-supervised Transformers have shown outstanding performance in a variety of structured tasks in NLP and computer vision. But multivariate time series data contains structured relationships over two dimensions: time and recorded event type, and straightforward applications of Transformers to time series data do not leverage this distinct structure. The quadratic scaling of self-attention layers can also significantly limit the input sequence length without appropriate input engineering. We introduce the DuETT architecture, an extension of Transformers designed to attend over both time and event type dimensions, yielding robust representations from EHR data. DuETT uses an aggregated input where sparse time series are transformed into a regular sequence with fixed length; this lowers the computational complexity relative to previous EHR Transformer models and, more importantly, enables the use of larger and deeper neural networks. When trained with self-supervised prediction tasks, that provide rich and informative signals for model pre-training, our model outperforms state-of-the-art deep learning models on multiple downstream tasks from the MIMIC-IV and PhysioNet-2012 EHR datasets.
翻訳日:2023-08-17 17:00:54 公開日:2023-08-15
# ロデオ投影の最適化

Optimizing rodeo projection ( http://arxiv.org/abs/2305.19952v3 )

ライセンス: Link先を確認
Thomas D. Cohen, Hyunwoo Oh(参考訳) ロデオアルゴリズムは、離散スペクトル系に対する固定エネルギー状態への与えられた初期状態の投影のための量子コンピューティングの効率的な方法として最近提案されている。 ロデオアルゴリズムの初期定式化では、これらの時間は固定されたrms時間を持つガウス分布を介してランダムに選択された。 本稿では,このような時間選択のランダムなアプローチは,不必要な成分の抑制の指数関数的に大きな変動に苦しむことを示し,反復数が大きくなるにつれて,ランダム選択から得られる抑制因子の分布が,非常に大きな変動をもたらすログ正規分布に近づくことを示した。 このようなゆらぎをランダムにではなく意図的に時間を選択することで回避でき、抑制の厳密な上限を得ることができることに注意する。 さらに、固定計算コストを用いた平均抑制は、ランダムアルゴリズムと比較して桁違いに小さくすることができる。 これを行うための鍵は、極端に最大スケールから指数関数的に小さなスケールへと、指数関数的に多くのスケールで変化する時間を選択することである。

The rodeo algorithm has been proposed recently as an efficient method in quantum computing for projection of a given initial state onto a state of fixed energy for systems with discrete spectra. In the initial formulation of the rodeo algorithm these times were chosen randomly via a Gaussian distribution with fixed RMS times. In this paper it is shown that such a random approach for choosing times suffers from exponentially large fluctuations in the suppression of unwanted components: as the number of iterations gets large, the distribution of suppression factors obtained from random selection approaches a log-normal distribution leading to remarkably large fluctuations. We note that by choosing times intentionally rather than randomly such fluctuations can be avoided and strict upper bounds on the suppression can be obtained. Moreover, the average suppression using fixed computational cost can be reduced by many orders of magnitude relative to the random algorithm. A key to doing this is to choose times that vary over exponentially many times scales, starting from a modest maximum scale and going down to time scales exponentially smaller.
翻訳日:2023-08-17 16:54:42 公開日:2023-08-15
# 光電子ホログラフィーにおける前方およびハイブリッド経路積分法:サブバリア補正、初期サンプリングおよび運動量マッピング

Forward and hybrid path-integral methods in photoelectron holography: sub-barrier corrections, initial sampling and momentum mapping ( http://arxiv.org/abs/2305.14501v2 )

ライセンス: Link先を確認
L. Cruz Rodriguez, T. Rook, B. B. Augstein, A. S. Maxwell, C. Figueira de Morisson Faria(参考訳) 本研究では,CQSFA(R-CQSFA)とH-CQSFA(H-CQSFA)の2つの強磁場経路積分法を構築した。 これらの手法は標準クーロン量子軌道強磁場近似 (cqsfa) と同じ出発点を持つが、それらの実装は軌道のダイナミクスを事前に知る必要はない。 これらの方法は超高速光電子ホログラフィーに応用される。 レートベース法では、電子軌道は前方に伝播し、準バリアクーロン補正を含むCQSFAから非断熱イオン化速度を導出し、初期軌道アンサンブルの重み付けに用いられる。 h-cqsfaでは、初期アンサンブルはその後の境界問題の初期推測を提供し、特定の運動量領域を包含または排除するのに役立つが、個々の軌道に関連するイオン化確率はサブバリア複素積分から計算される。 我々は,標準のCQSFA と \textit{ab-initio} メソッドとの比較を行い,CQSFA の標準的,純粋に境界型実装がトラジェクトリの全セットを排除していることを示す。 サブバリアクーロン補正により得られる光電子運動量分布(PMD)が広くなり,R-CQSFAとH-CQSFAとの整合性が向上することを示す。 異なる初期サンプリング分布, 等式, およびそれらがPMDに与える影響を探索する。 初期バイアスドサンプリングは高エネルギー領域における尾根の再散乱と干渉パターンを強調するが、初期一様サンプリングは電離閾値または偏光軸付近のホログラフィックパターンの正確なモデリングを保証する。 この結果は,異なる種類の干渉軌道に対する初期から最終モーメントマッピングを用いて説明される。

We construct two strong-field path integral methods with full Coulomb distortion, in which the quantum pathways are mimicked by interfering electron orbits: the rate-based CQSFA (R-CQSFA) and the hybrid forward-boundary CQSFA (H-CQSFA). The methods have the same starting point as the standard Coulomb quantum-orbit strong-field approximation (CQSFA), but their implementation does not require pre-knowledge of the orbits' dynamics. These methods are applied to ultrafast photoelectron holography. In the rate-based method, electron orbits are forward propagated and we derive a non-adiabatic ionization rate from the CQSFA, which includes sub-barrier Coulomb corrections and is used to weight the initial orbit ensemble. In the H-CQSFA, the initial ensemble provides initial guesses for a subsequent boundary problem and serves to include or exclude specific momentum regions, but the ionization probabilities associated with individual trajectories are computed from sub-barrier complex integrals. We perform comparisons with the standard CQSFA and \textit{ab-initio} methods, which show that the standard, purely boundary-type implementation of the CQSFA leaves out whole sets of trajectories. We show that the sub-barrier Coulomb corrections broaden the resulting photoelectron momentum distributions (PMDs) and improve the agreement of the R-CQSFA with the H-CQSFA and other approaches. We probe different initial sampling distributions, uniform and otherwise, and their influence on the PMDs. We find that initial biased sampling emphasizes rescattering ridges and interference patterns in high-energy ranges, while an initial uniform sampling guarantees accurate modeling of the holographic patterns near the ionization threshold or polarization axis. Our results are explained using the initial to final momentum mapping for different types of interfering trajectories.
翻訳日:2023-08-17 16:53:28 公開日:2023-08-15
# 大規模言語モデルにおける量子化器の理解:逆スケーリングのもう一つの例

Probing Quantifier Comprehension in Large Language Models: Another Example of Inverse Scaling ( http://arxiv.org/abs/2306.07384v2 )

ライセンス: Link先を確認
Akshat Gupta(参考訳) 大きな言語モデル(LLM)は、そのサイズが大きくなるにつれて、言語理解タスクがますます得意になってきています。 しかし、特定の下流タスクで高いパフォーマンスを発揮しても、llmはネゲーションや量子化子理解のための単純な言語テストに失敗する。 LLMにおける量化器の理解に関するこれまでの研究は、少数型量化器の理解における逆スケーリングを示している。 本稿では,先行研究の主張に疑問を呈し,不適切な検査手法の結果であることを示す。 また, LLMにおける量化器の理解度を測る別の手法を提案するとともに, LLMは, LLMの量化器のサイズが大きくなるにつれて, 少数型と最多型の量化器の意味の違いをよりよく理解できることを示した。 また、人間の心理言語実験や過去の研究とは対照的に、モデルのサイズが大きくなるにつれて、モデルが最多型の量化器を理解することは悪化する。 この評価は125M-175Bパラメータのモデルで行われており、LLMは量子化器では期待通りには行わないことを示唆している。 また、LLMにおける言語理解の評価における量化器理解の関連性についても論じる。

With their increasing size, large language models (LLMs) are becoming increasingly good at language understanding tasks. But even with high performance on specific downstream task, LLMs fail at simple linguistic tests for negation or quantifier understanding. Previous work on quantifier understanding in LLMs show inverse scaling in understanding few-type quantifiers. In this paper, we question the claims of of previous work and show that it is a result of inappropriate testing methodology. We also present alternate methods to measure quantifier comprehension in LLMs and show that LLMs are able to better understand the difference between the meaning of few-type and most-type quantifiers as their size increases, although they are not particularly good at it. We also observe inverse scaling for most-type quantifier understanding, which is contrary to human psycho-linguistic experiments and previous work, where the model's understanding of most-type quantifier gets worse as the model size increases. We do this evaluation on models ranging from 125M-175B parameters, which suggests that LLMs do not do as well as expected with quantifiers. We also discuss the possible reasons for this and the relevance of quantifier understanding in evaluating language understanding in LLMs.
翻訳日:2023-08-17 16:41:36 公開日:2023-08-15
# IP行列モデルにおけるクリロフ複雑性II

Krylov complexity in the IP matrix model II ( http://arxiv.org/abs/2308.07567v1 )

ライセンス: Link先を確認
Norihiro Iizuka, Mitsuhiro Nishida(参考訳) IP行列モデルにおけるクリロフ複雑性の解析を継続する。 前回の論文では、基本作用素に対して、クリロフ複雑性はゼロ温度で振動し成長しないことを示したが、無限温度の極限では、クリロフ複雑性は $\sim \exp\left( {\mathcal{O}\left( {\sqrt{t}}\right)} \right)$ として指数関数的に増加する。 クリロフの複雑性はゼロ温度の振動から無限温度の指数関数的な成長へとどのように変化するかを研究する。 低温では、スペクトル密度は無限ウィグナー半円の集まりとして近似される。 この無限分岐切断の集まりはランツォス係数に線形成長をもたらし、クリロフ複雑性の指数的成長を与えることを示した。 したがって、任意の非零温度のIPモデルは、グリーン関数が時間内にパワー則によって崩壊しても、クリロフ複雑性の指数関数的な成長を示す。 また、1/N^2$補正を考慮したIOP行列モデルにおけるランツォス係数とクリロフ複雑性についても検討する。 ここで、ランチョス係数は定数であり、クリロフ複雑性は予想通り指数関数的に増大しない。

We continue the analysis of the Krylov complexity in the IP matrix model. In a previous paper, for a fundamental operator, it was shown that at zero temperature, the Krylov complexity oscillates and does not grow, but in the infinite temperature limit, the Krylov complexity grows exponentially in time as $\sim \exp\left( {\mathcal{O}\left( {\sqrt{t}}\right)} \right)$. We study how the Krylov complexity changes from a zero-temperature oscillation to an infinite-temperature exponential growth. At low temperatures, the spectral density is approximated as collections of infinite Wigner semicircles. We showed that this infinite collection of branch cuts yields linear growth to the Lanczos coefficients and gives exponential growth of the Krylov complexity. Thus the IP model for any nonzero temperature shows exponential growth for the Krylov complexity even though the Green function decays by a power law in time. We also study the Lanczos coefficients and the Krylov complexity in the IOP matrix model taking into account the $1/N^2$ corrections. There, the Lanczos coefficients are constants and the Krylov complexity does not grow exponentially as expected.
翻訳日:2023-08-17 16:14:47 公開日:2023-08-15
# メタ認知プロンプトは大規模言語モデルの理解を改善する

Metacognitive Prompting Improves Understanding in Large Language Models ( http://arxiv.org/abs/2308.05342v2 )

ライセンス: Link先を確認
Yuqing Wang, Yun Zhao(参考訳) 大規模言語モデル(llm)では、タスク固有のパフォーマンスが一貫して向上しており、主に効果的なプロンプト設計の影響を受けている。 LLMの推論能力は近年研究されているが、その理解能力のさらなる向上にはまだギャップが残っている。 本研究では,人間の内省的推論プロセスに触発されたメタ認知的プロンプト(mp)を提案する。 MPを用いることで、LLMは構造化された自己認識評価の体系的なシリーズを実行し、その膨大な固有の知識と新たな洞察を生かした。 我々の実験ではllama2, vicuna, palm, gpt-3.5, gpt-4の5つのllmを用いて,glueおよびsuperglueベンチマークによる汎用自然言語理解(nlu)タスクに適用した。 その結果、GPT-4は、ほとんどのタスクにおいて一貫して優れているが、MPを装備した PaLM はその性能レベルに近づいた。 さらに、モデルとデータセット全体において、MPは標準およびチェーンのプロンプトを含む既存のプロンプトメソッドを一貫して上回る。 本研究は、LLMの理解能力を増幅する可能性を強調し、NLUタスクにおける人間の内省的推論を反映する利点を強調した。

In Large Language Models (LLMs), there have been consistent advancements in task-specific performance, largely influenced by effective prompt design. While recent research on prompting has enhanced the reasoning capabilities of LLMs, a gap remains in further improving their understanding abilities. In this study, we introduce Metacognitive Prompting (MP), a strategy inspired by human introspective reasoning processes. Using MP, LLMs undergo a systematic series of structured, self-aware evaluations, drawing on both their vast inherent knowledge and new insights. Our experiments involve five prevalent LLMs: Llama2, Vicuna, PaLM, GPT-3.5, and GPT-4, all of which span various general natural language understanding (NLU) tasks from the GLUE and SuperGLUE benchmarks. Results indicate that, although GPT-4 consistently excels in most tasks, PaLM, when equipped with MP, approaches its performance level. Furthermore, across models and datasets, MP consistently outperforms existing prompting methods, including standard and chain-of-thought prompting. This study underscores the potential to amplify the understanding abilities of LLMs and highlights the benefits of mirroring human introspective reasoning in NLU tasks.
翻訳日:2023-08-17 16:14:24 公開日:2023-08-15
# PeRP: 協調諮問システムによる混雑軽減のための個人化残留政策

PeRP: Personalized Residual Policies For Congestion Mitigation Through Co-operative Advisory Systems ( http://arxiv.org/abs/2308.00864v2 )

ライセンス: Link先を確認
Aamir Hasan, Neeloy Chakraborty, Haonan Chen, Jung-Hoon Cho, Cathy Wu, Katherine Driggs-Campbell(参考訳) インテリジェントな運転システムは単純な行動を通じて渋滞を緩和し、通勤時間やガスコストといった社会経済的要因を改善できる。 しかし、これらのシステムは、自律車両群を正確に制御しており、人間の行動の不確実性を考慮していないため、実際には制限されている。 Piecewise Constant (PC) Policiesは、密集したシナリオにおける交通渋滞を減らすために、人間の運転に追従するアクションアドバイスを提供するために、人間の運転の類似性を構造的にモデル化することで、これらの問題に対処する。 しかし、PCのポリシーは全てのドライバーが同じように振る舞うと仮定している。 そこで本研究では,pc政策に基づく協調型アドバイザリーシステムを開発し,ドライバ特性条件付きパーソナライズド残余ポリシーperpを開発した。 PeRPは、交通渋滞を軽減する方法でドライバに振る舞うようにアドバイスする。 まず,変分オートエンコーダを用いた教師なしの命令の追従方法について,ドライバの固有特性を推定する。 そして、推定形質に規定されたポリシーがPCポリシーの動作に適応し、ドライバにパーソナライズされたレコメンデーションを提供する。 本システムでは,新しいドライバモデルによる命令遵守のシミュレーションを行う。 提案手法は,運転者の行動に適応しながら渋滞を軽減し,ベースラインよりも平均速度が4~22%向上することを示す。

Intelligent driving systems can be used to mitigate congestion through simple actions, thus improving many socioeconomic factors such as commute time and gas costs. However, these systems assume precise control over autonomous vehicle fleets, and are hence limited in practice as they fail to account for uncertainty in human behavior. Piecewise Constant (PC) Policies address these issues by structurally modeling the likeness of human driving to reduce traffic congestion in dense scenarios to provide action advice to be followed by human drivers. However, PC policies assume that all drivers behave similarly. To this end, we develop a co-operative advisory system based on PC policies with a novel driver trait conditioned Personalized Residual Policy, PeRP. PeRP advises drivers to behave in ways that mitigate traffic congestion. We first infer the driver's intrinsic traits on how they follow instructions in an unsupervised manner with a variational autoencoder. Then, a policy conditioned on the inferred trait adapts the action of the PC policy to provide the driver with a personalized recommendation. Our system is trained in simulation with novel driver modeling of instruction adherence. We show that our approach successfully mitigates congestion while adapting to different driver behaviors, with 4 to 22% improvement in average speed over baselines.
翻訳日:2023-08-17 16:12:33 公開日:2023-08-15
# エルミート保存マップ指数による非理学作用の実現

Realizing Non-Physical Actions through Hermitian-Preserving Map Exponentiation ( http://arxiv.org/abs/2308.07956v1 )

ライセンス: Link先を確認
Fuchuan Wei, Zhenhuan Liu, Guoding Liu, Zizhao Han, Xiongfeng Ma, Dong-Ling Deng, Zhengwei Liu(参考訳) 量子力学はコヒーレンスや絡み合いのような様々な異なる性質を特徴としており、情報処理における古典的手法に比べて潜在的に有利であることを示すことができる。 一般に、正則な量子演算は量子力学の原理、特に完全正の正とトレース保存の要求に従わなければならない。 それでも、非物理的写像、特にエルミート保存写像は量子情報科学において重要な役割を果たす。 現在、これらの非物理写像を量子デバイスで実装するための効果的な方法は存在しない。 本研究では,任意のエルミート保存マップの動作を量子過程に符号化することで効果的に実現できるエルミート保存マップ指数アルゴリズムを提案する。 サンプルの複雑さやロバスト性など,このアルゴリズムの性能を解析し,その最適性を証明する。 アダマールテストや量子位相推定などのアルゴリズムと組み合わせることで、エルミート保存マップの出力から情報と状態の生成を可能にし、様々な応用を可能にする。 正だが完全正の地図を用い、このアルゴリズムは、シングルコピー操作に基づくプロトコルと比較して、絡み合い検出と量子化において指数関数的な利点を提供する。 さらに、対応するノイズチャネルの逆写像を実装し、量子エラーを扱うための興味深いアプローチを提供し、ノイズ状態の複数のコピーからノイズのない量子状態の回復を容易にする。 本研究は, 量子デバイスによる非物理的動作を系統的かつ効率的に実装し, 幅広い情報処理タスクにおける潜在的な量子的優位性を探究する道筋を示す。

Quantum mechanics features a variety of distinct properties such as coherence and entanglement, which could be explored to showcase potential advantages over classical counterparts in information processing. In general, legitimate quantum operations must adhere to principles of quantum mechanics, particularly the requirements of complete positivity and trace preservation. Nonetheless, non-physical maps, especially Hermitian-preserving maps, play a crucial role in quantum information science. To date, there exists no effective method for implementing these non-physical maps with quantum devices. In this work, we introduce the Hermitian-preserving map exponentiation algorithm, which can effectively realize the action of an arbitrary Hermitian-preserving map by encoding its output into a quantum process. We analyze the performances of this algorithm, including its sample complexity and robustness, and prove its optimality in certain cases. When combined with algorithms such as the Hadamard test and quantum phase estimation, it allows for the extraction of information and generation of states from outputs of Hermitian-preserving maps, enabling various applications. Utilizing positive but not completely positive maps, this algorithm provides exponential advantages in entanglement detection and quantification compared to protocols based on single-copy operations. In addition, it facilitates the recovery of noiseless quantum states from multiple copies of noisy states by implementing the inverse map of the corresponding noise channel, offering an intriguing approach to handling quantum errors. Our findings present a pathway for systematically and efficiently implementing non-physical actions with quantum devices, thereby boosting the exploration of potential quantum advantages across a wide range of information processing tasks.
翻訳日:2023-08-17 16:05:46 公開日:2023-08-15
# APACE:AlphaFold2と生物物理学の発見を加速するサービスとしての高度なコンピューティング

APACE: AlphaFold2 and advanced computing as a service for accelerated discovery in biophysics ( http://arxiv.org/abs/2308.07954v1 )

ライセンス: Link先を確認
Hyun Park, Parth Patel, Roland Haas, E. A. Huerta(参考訳) アミノ酸配列からタンパク質3d構造の予測は生物物理学において大きな課題であり、薬物の発見からゲノム解析まで、ロバストなタンパク質構造予測アルゴリズムにおいて重要な役割を果たしている。 AlphaFoldのようなAIモデルの出現は、堅牢なタンパク質構造予測アルゴリズムに依存するアプリケーションに革命をもたらしている。 このAIモデルとTBサイズのデータベースを効果的に処理し、現代のスーパーコンピュータ環境で加速されたタンパク質構造予測分析を行う、新しい計算フレームワークであるAPACE、AlphaFold2、および高度なコンピューティング・アズ・ア・サービスを導入する。 デルタスーパーコンピュータにAPACEを配置し, 6AWO, 6OAN, 7MEZ, 6D6Uの4つの類似タンパク質を用いて, 正確なタンパク質構造予測の性能を定量化した。 最大200アンサンブルを使用して、Deltaの50ノードに分散し、200 A100 NVIDIA GPUに相当する結果、APACEは市販のAlphaFold2実装よりも最大2桁高速で、数週間から数分に短縮できることがわかった。 この計算手法は、科学的な発見を自動化し、加速するために、ロボット研究所と容易に関連付けられる。

The prediction of protein 3D structure from amino acid sequence is a computational grand challenge in biophysics, and plays a key role in robust protein structure prediction algorithms, from drug discovery to genome interpretation. The advent of AI models, such as AlphaFold, is revolutionizing applications that depend on robust protein structure prediction algorithms. To maximize the impact, and ease the usability, of these novel AI tools we introduce APACE, AlphaFold2 and advanced computing as a service, a novel computational framework that effectively handles this AI model and its TB-size database to conduct accelerated protein structure prediction analyses in modern supercomputing environments. We deployed APACE in the Delta supercomputer, and quantified its performance for accurate protein structure predictions using four exemplar proteins: 6AWO, 6OAN, 7MEZ, and 6D6U. Using up to 200 ensembles, distributed across 50 nodes in Delta, equivalent to 200 A100 NVIDIA GPUs, we found that APACE is up to two orders of magnitude faster than off-the-shelf AlphaFold2 implementations, reducing time-to-solution from weeks to minutes. This computational approach may be readily linked with robotics laboratories to automate and accelerate scientific discovery.
翻訳日:2023-08-17 16:05:20 公開日:2023-08-15
# ピック・プレイスにおける対称性の活用

Leveraging Symmetries in Pick and Place ( http://arxiv.org/abs/2308.07948v1 )

ライセンス: Link先を確認
Haojie Huang, Dian Wang, Arsh Tangri, Robin Walters, Robert Platt(参考訳) ロボットピックと配置タスクは、選択対象と所望の場所ポーズの両方の翻訳と回転の下で対称である。 例えば、ピックオブジェクトが回転または変換された場合、最適なピックアクションも回転または変換されるべきである。 同じことが、場所のポーズにも当てはまります。所望の場所のポーズが変わった場合、所望の場所のアクションもそれに応じて変化するべきです。 transporter netとして知られる最近提案されたpick and placeフレームワークは、これらの対称性の一部をキャプチャするが、すべてではない。 本稿では,平面式ロボットピック・アンド・プレイスに存在する対称性を解析的に研究し,すべての対称性を捉える方法でトランスポーターネットに同変ニューラルモデルを組み込む方法を提案する。 Equivariant Transporter Net と呼ばれる新しいモデルは、ピック・アンド・プレイス・対称性に同値であり、ピック・アンド・プレイス・ポーズに即座に知識を一般化することができる。 実験結果から,非対称型モデルよりもサンプル効率が良好であることを示し,様々な模倣学習タスクにおいて,人間によるごく少数のデモンストレーションを用いて,実演されたピック・アンド・プレース動作を模倣できるシステムを開発した。

Robotic pick and place tasks are symmetric under translations and rotations of both the object to be picked and the desired place pose. For example, if the pick object is rotated or translated, then the optimal pick action should also rotate or translate. The same is true for the place pose; if the desired place pose changes, then the place action should also transform accordingly. A recently proposed pick and place framework known as Transporter Net captures some of these symmetries, but not all. This paper analytically studies the symmetries present in planar robotic pick and place and proposes a method of incorporating equivariant neural models into Transporter Net in a way that captures all symmetries. The new model, which we call Equivariant Transporter Net, is equivariant to both pick and place symmetries and can immediately generalize pick and place knowledge to different pick and place poses. We evaluate the new model empirically and show that it is much more sample efficient than the non-symmetric version, resulting in a system that can imitate demonstrated pick and place behavior using very few human demonstrations on a variety of imitation learning tasks.
翻訳日:2023-08-17 16:04:40 公開日:2023-08-15
# トポロジカルデータ分析によるポートフォリオ選択

Portfolio Selection via Topological Data Analysis ( http://arxiv.org/abs/2308.07944v1 )

ライセンス: Link先を確認
Petr Sokerin, Kristian Kuznetsov, Elizaveta Makhneva, Alexey Zaytsev(参考訳) ポートフォリオマネジメントは投資決定の重要な部分です。 しかし、伝統的な手法は、しばしば合理的な性能を提供できない。 この問題は、これらの手法が株式市場の多変量時系列データのユニークな特徴を考慮できないことに起因する。 普通株の投資ポートフォリオを構築するための2段階の方法を提案する。 この方法は時系列表現の生成とその後のクラスタリングを含む。 提案手法では, トポロジカルデータ解析(TDA)に基づく特徴を表現の生成に利用し, データのトポロジカル構造を解明する。 実験の結果,提案システムは他の手法よりも優れていることがわかった。 この優れたパフォーマンスは、異なるタイムフレームに対して一貫性があり、ポートフォリオ選択の強力なツールとしてのtdaの有効性が示唆されている。

Portfolio management is an essential part of investment decision-making. However, traditional methods often fail to deliver reasonable performance. This problem stems from the inability of these methods to account for the unique characteristics of multivariate time series data from stock markets. We present a two-stage method for constructing an investment portfolio of common stocks. The method involves the generation of time series representations followed by their subsequent clustering. Our approach utilizes features based on Topological Data Analysis (TDA) for the generation of representations, allowing us to elucidate the topological structure within the data. Experimental results show that our proposed system outperforms other methods. This superior performance is consistent over different time frames, suggesting the viability of TDA as a powerful tool for portfolio selection.
翻訳日:2023-08-17 16:03:57 公開日:2023-08-15
# ニューラルネットワーク間のアナフォリック構造

Anaphoric Structure Emerges Between Neural Networks ( http://arxiv.org/abs/2308.07984v1 )

ライセンス: Link先を確認
Nicholas Edwards, Hannah Rohde, and Henry Conklin(参考訳) プラグマティクスは自然言語の中核であり、話者はエリプシスやアナフォラのような構造と効率的にコミュニケーションでき、意味を失うことなく発話を短縮できる。 これらの構造は、聞き手が不明瞭な形式(代名詞のように)を解釈し、話し手の意図する意味を推測することを要求する。 曖昧さをもたらす可能性があるにもかかわらず、アナフォラは人間の言語に共通している。 自然言語におけるアナフォリック構造の起源をよりよく理解するために、通信課題を解決するために訓練された人工ニューラルネットワーク間で類似構造が出現するかどうかを検討する。 まず、あいまいさの増加の可能性にもかかわらず、アナフォリック構造を持つ言語はニューラルモデルによって学習可能である。 第二に、追加の制約を必要とせずに、モデル間のアナフォリック構造が「自然に」現れる。 最後に、話者に明示的な効率の圧力を導入することで、これらの構造の普及が増加する。 我々は、特定の実用的構造は、明示的な効率のプレッシャーなしに、ニューラルネットワーク間で直接現れるが、話者とリスナーの競合するニーズは、その出現の度合いと性質を条件付けると結論付けた。

Pragmatics is core to natural language, enabling speakers to communicate efficiently with structures like ellipsis and anaphora that can shorten utterances without loss of meaning. These structures require a listener to interpret an ambiguous form - like a pronoun - and infer the speaker's intended meaning - who that pronoun refers to. Despite potential to introduce ambiguity, anaphora is ubiquitous across human language. In an effort to better understand the origins of anaphoric structure in natural language, we look to see if analogous structures can emerge between artificial neural networks trained to solve a communicative task. We show that: first, despite the potential for increased ambiguity, languages with anaphoric structures are learnable by neural models. Second, anaphoric structures emerge between models 'naturally' without need for additional constraints. Finally, introducing an explicit efficiency pressure on the speaker increases the prevalence of these structures. We conclude that certain pragmatic structures straightforwardly emerge between neural networks, without explicit efficiency pressures, but that the competing needs of speakers and listeners conditions the degree and nature of their emergence.
翻訳日:2023-08-17 15:55:29 公開日:2023-08-15
# ベイズ線形逆問題に対するモンテカルロ誘導拡散

Monte Carlo guided Diffusion for Bayesian linear inverse problems ( http://arxiv.org/abs/2308.07983v1 )

ライセンス: Link先を確認
Gabriel Cardoso, Yazid Janati El Idrissi, Sylvain Le Corff, Eric Moulines(参考訳) 前方計測モデルの知識を先行モデルと組み合わせた線形逆問題(Ill-posed linear inverse problem)は、計算写真から医用画像まで様々な応用で頻繁に発生する。 近年の研究では、特に塗装問題において、知覚可能な画像を生成するスコアベース生成モデル(SGM)を用いてこれらの問題を解決することに焦点が当てられている。 本研究では,SGMで定義された先行構造を,スコアベース拡散を構成するために用いられる前方拡散モデルから適応したFeynman-Kacモデルとしてベイズフレームワークの回復を定式化する。 このファインマン-カック問題を解くために、シークエンシャルモンテカルロ法(Sequential Monte Carlo method)を提案する。 提案アルゴリズムであるMCGdiffは理論的に基礎を成し,不測の逆問題に対処する際の競合するベースラインよりも優れていることを示す数値シミュレーションを行う。

Ill-posed linear inverse problems that combine knowledge of the forward measurement model with prior models arise frequently in various applications, from computational photography to medical imaging. Recent research has focused on solving these problems with score-based generative models (SGMs) that produce perceptually plausible images, especially in inpainting problems. In this study, we exploit the particular structure of the prior defined in the SGM to formulate recovery in a Bayesian framework as a Feynman--Kac model adapted from the forward diffusion model used to construct score-based diffusion. To solve this Feynman--Kac problem, we propose the use of Sequential Monte Carlo methods. The proposed algorithm, MCGdiff, is shown to be theoretically grounded and we provide numerical simulations showing that it outperforms competing baselines when dealing with ill-posed inverse problems.
翻訳日:2023-08-17 15:55:08 公開日:2023-08-15
# メタラーニングに基づく確率的風力予測への適応的アプローチ

An Adaptive Approach for Probabilistic Wind Power Forecasting Based on Meta-Learning ( http://arxiv.org/abs/2308.07980v1 )

ライセンス: Link先を確認
Zichao Meng, Ye Guo, and Hongbin Sun(参考訳) 本稿では,オフラインおよびオンライン学習を含む確率的風力発電予測(WPF)の適応的手法について検討する。 オフライン学習の段階では、ベース予測モデルをメタラーニングの内外ループ更新を通じてトレーニングし、異なる予測タスク、すなわち異なるリード時間や位置の確率的WPFに優れた適応性を持つベース予測モデルを実現する。 オンライン学習の段階では,オンライン予測と漸進的学習技術を組み合わせたベース予測モデルを適用する。 これに基づいて,オンライン予測は,最近の情報とベース予測モデルの適応性をフル活用する。 提案手法は,それぞれ異なるリードタイム(時間適応)と新たに確立した風力発電(空間適応)の予測に基いて開発されている。 実世界の風力データを用いて数値実験を行った。 シミュレーションの結果,提案手法の適応性の利点を既存手法と比較して検証した。

This paper studies an adaptive approach for probabilistic wind power forecasting (WPF) including offline and online learning procedures. In the offline learning stage, a base forecast model is trained via inner and outer loop updates of meta-learning, which endows the base forecast model with excellent adaptability to different forecast tasks, i.e., probabilistic WPF with different lead times or locations. In the online learning stage, the base forecast model is applied to online forecasting combined with incremental learning techniques. On this basis, the online forecast takes full advantage of recent information and the adaptability of the base forecast model. Two applications are developed based on our proposed approach concerning forecasting with different lead times (temporal adaptation) and forecasting for newly established wind farms (spatial adaptation), respectively. Numerical tests were conducted on real-world wind power data sets. Simulation results validate the advantages in adaptivity of the proposed methods compared with existing alternatives.
翻訳日:2023-08-17 15:54:55 公開日:2023-08-15
# ヨダ: エリアを混乱させるだけです。 画像超解像に対する領域共振拡散法

YODA: You Only Diffuse Areas. An Area-Masked Diffusion Approach For Image Super-Resolution ( http://arxiv.org/abs/2308.07977v1 )

ライセンス: Link先を確認
Brian B. Moser, Stanislav Frolov, Federico Raue, Sebastian Palacio and Andreas Dengel(参考訳) 本研究は, 単一画像超解法(SISR)における部分拡散法である「You Only Diffuse Areas」(YODA)を紹介する。 中心となる考え方は,低解像度画像からの注目マップと拡散過程における現在の時間ステップに基づいて,空間領域での拡散を選択的に利用することである。 この時間依存のターゲティングは、反復的なリファインメントプロセス、すなわち詳細リッチなオブジェクトから最も恩恵を受ける領域にフォーカスすることで、より効果的な高分解能出力への変換を可能にする。 拡散型SISR法 SR3 と SRDiff を拡張して YODA を実証的に検証した。 実験ではPSNR, SSIM, LPIPS測定値にまたがって, 対面および一般SRの性能向上を示す。 注目すべき発見は、yodaのトレーニングに対する安定化効果であり、特に小さなバッチサイズによって引き起こされる場合、リソース制約されたシナリオに寄与する可能性がある。 提案した空間的・時間的適応拡散機構は,注目マップ抽出技術の開発やスペーサー拡散に基づく推論遅延の最適化など,有望な研究方向を開く。

This work introduces "You Only Diffuse Areas" (YODA), a novel method for partial diffusion in Single-Image Super-Resolution (SISR). The core idea is to utilize diffusion selectively on spatial regions based on attention maps derived from the low-resolution image and the current time step in the diffusion process. This time-dependent targeting enables a more effective conversion to high-resolution outputs by focusing on areas that benefit the most from the iterative refinement process, i.e., detail-rich objects. We empirically validate YODA by extending leading diffusion-based SISR methods SR3 and SRDiff. Our experiments demonstrate new state-of-the-art performance gains in face and general SR across PSNR, SSIM, and LPIPS metrics. A notable finding is YODA's stabilization effect on training by reducing color shifts, especially when induced by small batch sizes, potentially contributing to resource-constrained scenarios. The proposed spatial and temporal adaptive diffusion mechanism opens promising research directions, including developing enhanced attention map extraction techniques and optimizing inference latency based on sparser diffusion.
翻訳日:2023-08-17 15:54:41 公開日:2023-08-15
# 「欺くこと」:半真実を検知し、制御されたクレーム編集によってそれを非難する

"Beware of deception": Detecting Half-Truth and Debunking it through Controlled Claim Editing ( http://arxiv.org/abs/2308.07973v1 )

ライセンス: Link先を確認
Sandeep Singamsetty, Nishtha Madaan, Sameep Mehta, Varad Bhatnagar, Pushpak Bhattacharyya(参考訳) 真実はあるものの、究極的には偽りの表現である半真実の流行は、インターネットの利用の増加とともに高まっている。 この問題に対処するため,我々は,半真実検出モデルとクレーム編集モデルからなる包括的なパイプラインを構築した。 提案手法では,制御されたクレーム編集にT5モデルを用いる。 提案手法では,平均bleuスコア0.88(0-1スケール),disinfo-debunkスコア85%を編集クレームで達成した。 特に、t5ベースのアプローチは、gpt2、roberta、pegasus、tailorといった他の言語モデルよりも優れており、disinfo-debunkスコアの平均的な改善は82%、57%、42%、そして23%であった。 LIAR PLUSデータセットを拡張することで、半トラック検出モデルのF1スコアが82%に達し、フィールドに新しいベンチマークが設定される。 これまでの半真理検出の試みはあったが、私たちのアプローチは、私たちの知る限りでは、初めて半真理を解き明かす試みである。

The prevalence of half-truths, which are statements containing some truth but that are ultimately deceptive, has risen with the increasing use of the internet. To help combat this problem, we have created a comprehensive pipeline consisting of a half-truth detection model and a claim editing model. Our approach utilizes the T5 model for controlled claim editing; "controlled" here means precise adjustments to select parts of a claim. Our methodology achieves an average BLEU score of 0.88 (on a scale of 0-1) and a disinfo-debunk score of 85% on edited claims. Significantly, our T5-based approach outperforms other Language Models such as GPT2, RoBERTa, PEGASUS, and Tailor, with average improvements of 82%, 57%, 42%, and 23% in disinfo-debunk scores, respectively. By extending the LIAR PLUS dataset, we achieve an F1 score of 82% for the half-truth detection model, setting a new benchmark in the field. While previous attempts have been made at half-truth detection, our approach is, to the best of our knowledge, the first to attempt to debunk half-truths.
翻訳日:2023-08-17 15:54:19 公開日:2023-08-15
# MultiSChuBERT: 文書品質予測のための効果的なマルチモーダル融合

MultiSChuBERT: Effective Multimodal Fusion for Scholarly Document Quality Prediction ( http://arxiv.org/abs/2308.07971v1 )

ライセンス: Link先を確認
Gideon Maillette de Buy Wenniger, Thomas van Dongen, Lambert Schomaker(参考訳) 学術文書の品質の自動評価は, 潜在的影響が大きい課題である。 マルチモーダル、特にテキストの横に視覚情報を追加することで、学術文書品質予測(SDQP)タスクの性能を向上させることが示されている。 マルチモーダル予測モデルであるMultiSChuBERTを提案する。 Inception V3に基づく視覚モデルと、全文のチャンキングと計算されたBERTチャンクエンコーディング(SChuBERT)に基づくテキストモデルを組み合わせることで、SDQPにおける現在の最先端技術に3つの方法で貢献する。 まず,視覚とテキストの埋め込みを組み合わせる手法が,結果に大きな影響を及ぼすことを示す。 第2に,視覚サブモデルの重みの段階的凍結が,データに適合する傾向を減少させ,結果を改善することを実証する。 第3に、標準のbert$_{\textrm{base}}$embedsを最新の最先端テキスト埋め込みモデルに置き換える際に、マルチモダリティの持つ利点を示す。 BERT$_{\textrm{BASE}}$ embeddeddings, on the (log) number of citations prediction task with the ACL-BiblioMetry dataset, our MultiSChuBERT (text+visual) model obtained a $R^{2}$ score of 0.454 than the SChuBERT (text only) model。 PeerReadcept/reject予測タスクでも同様の改善が加えられている。 SciBERT, scincl, SPECTER, SPECTER2.0 の埋め込みを用いた実験では、それぞれの組み込みが標準 BERT$_{\textrm{BASE}}$ の埋め込みよりも改善され、SPECTER2.0 の埋め込みが最善であることを示す。

Automatic assessment of the quality of scholarly documents is a difficult task with high potential impact. Multimodality, in particular the addition of visual information next to text, has been shown to improve the performance on scholarly document quality prediction (SDQP) tasks. We propose the multimodal predictive model MultiSChuBERT. It combines a textual model based on chunking full paper text and aggregating computed BERT chunk-encodings (SChuBERT), with a visual model based on Inception V3.Our work contributes to the current state-of-the-art in SDQP in three ways. First, we show that the method of combining visual and textual embeddings can substantially influence the results. Second, we demonstrate that gradual-unfreezing of the weights of the visual sub-model, reduces its tendency to ovefit the data, improving results. Third, we show the retained benefit of multimodality when replacing standard BERT$_{\textrm{BASE}}$ embeddings with more recent state-of-the-art text embedding models. Using BERT$_{\textrm{BASE}}$ embeddings, on the (log) number of citations prediction task with the ACL-BiblioMetry dataset, our MultiSChuBERT (text+visual) model obtains an $R^{2}$ score of 0.454 compared to 0.432 for the SChuBERT (text only) model. Similar improvements are obtained on the PeerRead accept/reject prediction task. In our experiments using SciBERT, scincl, SPECTER and SPECTER2.0 embeddings, we show that each of these tailored embeddings adds further improvements over the standard BERT$_{\textrm{BASE}}$ embeddings, with the SPECTER2.0 embeddings performing best.
翻訳日:2023-08-17 15:53:54 公開日:2023-08-15
# ミラーレスレーザー:理論的な展望

Mirrorless lasing: a theoretical perspective ( http://arxiv.org/abs/2308.07969v1 )

ライセンス: Link先を確認
Aneesh Ramaswamy, Jabir Chathanathil, Dimitra Kanta, Emmanuel Klinger, Aram Papoyan, Svetlana Shmavonyan, Aleksandr Khanbekyan, Arne Wickenbrock, Dmitry Budker, Svetlana A. Malinovskaya(参考訳) ミラーレスラシングは、量子科学と応用に期待できる新しい地平線のために、約10年間、特に関心を集めてきた。 本研究では, この現象を説明する第一原理理論を概説し, rb原子の蒸気中における縮退ミラーレス発振, 媒質中で発生した光増幅機構と, $d_2$ ライン内の磁気サブレベル間の集団反転, 実験的実現に関する課題について論じる。

Mirrorless lasing has been a topic of particular interest for about a decade due to promising new horizons for quantum science and applications. In this work, we review first-principles theory that describes this phenomenon, and discuss degenerate mirrorless lasing in a vapor of Rb atoms, the mechanisms of amplification of light generated in the medium with population inversion between magnetic sublevels within the $D_2$ line, and challenges associated with experimental realization.
翻訳日:2023-08-17 15:53:14 公開日:2023-08-15
# LLMのパーソナライズ教育--執筆教育に触発されたアプローチ

Teach LLMs to Personalize -- An Approach inspired by Writing Education ( http://arxiv.org/abs/2308.07968v1 )

ライセンス: Link先を確認
Cheng Li, Mingyang Zhang, Qiaozhu Mei, Yaqing Wang, Spurthi Amba Hombaiah, Yi Liang, Michael Bendersky(参考訳) パーソナライズされたテキスト生成は、近年注目を集めている新たな研究分野である。 この方向のほとんどの研究は、好ましくない特徴やモデルを設計することによって特定の領域に焦点を当てている。 本研究では,大規模言語モデル(LLM)を用いたパーソナライズされたテキスト生成手法を提案する。 教育実践に触発されて,多段階多タスクフレームワークを開発し,個人化世代にllmを教える。 インストラクションを書く際に、ソースから書くタスクは、情報の発見、評価、要約、合成、統合を含む複数のステップに分解されることが多い。 同様に、パーソナライズされたテキスト生成へのアプローチは、検索、ランキング、要約、合成、生成という複数の段階からなる。 さらに,学生の読解能力と書字能力が相関することが多い教育における観察から着想を得たマルチタスク・セッティングを導入する。 我々は3つのパブリックデータセットに対するアプローチを評価し、それぞれが異なる代表領域をカバーする。 以上の結果から, 各種のベースラインに対して有意な改善が得られた。

Personalized text generation is an emerging research area that has attracted much attention in recent years. Most studies in this direction focus on a particular domain by designing bespoke features or models. In this work, we propose a general approach for personalized text generation using large language models (LLMs). Inspired by the practice of writing education, we develop a multistage and multitask framework to teach LLMs for personalized generation. In writing instruction, the task of writing from sources is often decomposed into multiple steps that involve finding, evaluating, summarizing, synthesizing, and integrating information. Analogously, our approach to personalized text generation consists of multiple stages: retrieval, ranking, summarization, synthesis, and generation. In addition, we introduce a multitask setting that helps the model improve its generation ability further, which is inspired by the observation in education that a student's reading proficiency and writing ability are often correlated. We evaluate our approach on three public datasets, each of which covers a different and representative domain. Our results show significant improvements over a variety of baselines.
翻訳日:2023-08-17 15:53:05 公開日:2023-08-15
# ブラインド顔復元による品質横断顔認証の強化

Boosting Cross-Quality Face Verification using Blind Face Restoration ( http://arxiv.org/abs/2308.07967v1 )

ライセンス: Link先を確認
Messaoud Bengherabi, Douaa Laib, Fella Souhila Lasnami, Ryma Boussaha(参考訳) 近年,様々なブラインドフェイス修復(bfr)技術が開発されている。 これらの技術は、複数の劣化に苦しむ低品質の顔から、知覚品質の高いよりリアルで自然な顔画像へと変換する。 しかし, 顔認証の課題は, 低画質画像の知覚品質を高めるだけでなく, バイオメトリック・ユーティリティーの顔品質指標を改善することが重要である。 さらに、価値あるアイデンティティ情報を保存することが非常に重要である。 本稿では, GFP-GAN, GPEN, SGPNという最先端のブラインドフェイス修復技術が, 極めて低画質の画像が特徴とする難易度環境下での顔認証システムの性能に与える影響について検討する。 近年提案された3つの最先端深層顔認識モデルを用いたクロスクオリティlfwデータベースの広範な実験結果から,gfp-ganが顔認証精度を著しく向上させる効果が示された。

In recent years, various Blind Face Restoration (BFR) techniques were developed. These techniques transform low quality faces suffering from multiple degradations to more realistic and natural face images with high perceptual quality. However, it is crucial for the task of face verification to not only enhance the perceptual quality of the low quality images but also to improve the biometric-utility face quality metrics. Furthermore, preserving the valuable identity information is of great importance. In this paper, we investigate the impact of applying three state-of-the-art blind face restoration techniques namely, GFP-GAN, GPEN and SGPN on the performance of face verification system under very challenging environment characterized by very low quality images. Extensive experimental results on the recently proposed cross-quality LFW database using three state-of-the-art deep face recognition models demonstrate the effectiveness of GFP-GAN in boosting significantly the face verification accuracy.
翻訳日:2023-08-17 15:52:48 公開日:2023-08-15
# モンテカルロから見た化学・物理学応用のための量子コンピューティング

Quantum computing for chemistry and physics applications from a Monte Carlo perspective ( http://arxiv.org/abs/2308.07964v1 )

ライセンス: Link先を確認
Guglielmo Mazzola(参考訳) この観点は、物理学と化学の分野における量子アルゴリズムとモンテカルロ法の間の重複に焦点をあてる。 我々は、確立された量子モンテカルロ解を量子アルゴリズムに統合する課題と可能性を分析する。 これには、洗練されたエネルギー推定器、パラメータ最適化、実時間および虚数時間ダイナミクス、変動回路が含まれる。 逆に、量子ハードウェアを利用して統計古典モデルのサンプリングを加速する新しいアイデアを、物理学、化学、最適化、機械学習への応用とともにレビューする。 このレビューは,量子コンピューティングとモンテカルロ法の交点における,さらなるアルゴリズム開発を促進することを目的としている。 この視点で議論された研究の多くは過去2年以内に現れており、この将来性のある研究分野への関心が急速に高まっていることを示している。

This Perspective focuses on the several overlaps between quantum algorithms and Monte Carlo methods in the domains of physics and chemistry. We will analyze the challenges and possibilities of integrating established quantum Monte Carlo solutions in quantum algorithms. These include refined energy estimators, parameter optimization, real and imaginary-time dynamics, and variational circuits. Conversely, we will review new ideas in utilizing quantum hardware to accelerate the sampling in statistical classical models, with applications in physics, chemistry, optimization, and machine learning. This review aims to be accessible to both communities and intends to foster further algorithmic developments at the intersection of quantum computing and Monte Carlo methods. Most of the works discussed in this Perspective have emerged within the last two years, indicating a rapidly growing interest in this promising area of research.
翻訳日:2023-08-17 15:52:30 公開日:2023-08-15
# 多言語ニューラル表現を用いたエンドツーエンドオープン語彙検索

End-to-End Open Vocabulary Keyword Search With Multilingual Neural Representations ( http://arxiv.org/abs/2308.08027v1 )

ライセンス: Link先を確認
Bolaji Yusuf, Jan Cernocky, Murat Saraclar(参考訳) 従来のキーワード検索システムは自動音声認識(ASR)出力で動作し、複雑なインデックス付けと検索パイプラインを持つ。 これにより、検索手順を簡素化するASRフリーアプローチへの関心が高まった。 我々は最近,クエリとドキュメントを2つの繰り返しニューラルネットワークエンコーダでエンコードし,そのエンコーディングをドット積と組み合わせた,効率的かつ簡易なパイプラインを維持しながら,競争性能を実現するニューラルネットワークASRフリーキーワード検索モデルを提案した。 本稿では,本研究を多言語事前学習と詳細なモデル解析により拡張する。 本実験では,多言語学習がモデル性能を大幅に向上し,語彙内単語を含む短いクエリやクエリに対して,強いasrベースの従来型キーワード検索システムと一致しないにも関わらず,学習データに現れない長文クエリやクエリのasrベースシステムを上回ることを示す。

Conventional keyword search systems operate on automatic speech recognition (ASR) outputs, which causes them to have a complex indexing and search pipeline. This has led to interest in ASR-free approaches to simplify the search procedure. We recently proposed a neural ASR-free keyword search model which achieves competitive performance while maintaining an efficient and simplified pipeline, where queries and documents are encoded with a pair of recurrent neural network encoders and the encodings are combined with a dot-product. In this article, we extend this work with multilingual pretraining and detailed analysis of the model. Our experiments show that the proposed multilingual training significantly improves the model performance and that despite not matching a strong ASR-based conventional keyword search system for short queries and queries comprising in-vocabulary words, the proposed model outperforms the ASR-based system for long queries and queries that do not appear in the training data.
翻訳日:2023-08-17 15:44:44 公開日:2023-08-15
# 量子経済の潜在エネルギー利用

Potential Energy Advantage of Quantum Economy ( http://arxiv.org/abs/2308.08025v1 )

ライセンス: Link先を確認
Junyu Liu, Hansheng Jiang, Zuo-Jun Max Shen(参考訳) エネルギーコストは、大規模機械学習モデルと言語モデルの幅広い展開によって、現代のコンピューティング業界でますます重要になっている。 コンピューティングサービスを提供する企業にとって、エネルギー消費の低さは、自国の市場成長と政府の規制の両方の観点から重要である。 本稿では、古典的計算における量子コンピューティングのエネルギー効果について考察する。 計算複雑性のみに基づく従来の量子優位の概念から逸脱し、エネルギー効率の文脈で優位性を再定義する。 エネルギー利用に制約のあるクールノ・コンペティション・モデルを通じて,ナッシュ均衡において,量子コンピューティング企業が従来のコンペティタよりも利益率とエネルギー効率を上回ることができることを実証する。 したがって、量子コンピューティングはコンピューティング業界にとってより持続可能な経路となるかもしれない。 さらに,量子コンピューティング経済のエネルギー効果が大規模計算に寄与していることが判明した。 実際の物理パラメータに基づき、このエネルギー効率の利点を実現するために必要な運用規模をさらに説明する。

Energy cost is increasingly crucial in the modern computing industry with the wide deployment of large-scale machine learning models and language models. For the firms that provide computing services, low energy consumption is important both from the perspective of their own market growth and the government's regulations. In this paper, we study the energy benefits of quantum computing vis-a-vis classical computing. Deviating from the conventional notion of quantum advantage based solely on computational complexity, we redefine advantage in an energy efficiency context. Through a Cournot competition model constrained by energy usage, we demonstrate quantum computing firms can outperform classical counterparts in both profitability and energy efficiency at Nash equilibrium. Therefore quantum computing may represent a more sustainable pathway for the computing industry. Moreover, we discover that the energy benefits of quantum computing economies are contingent on large-scale computation. Based on real physical parameters, we further illustrate the scale of operation necessary for realizing this energy efficiency advantage.
翻訳日:2023-08-17 15:44:27 公開日:2023-08-15
# Stackelberg Trajectory Gamesにおけるアクティブ逆学習

Active Inverse Learning in Stackelberg Trajectory Games ( http://arxiv.org/abs/2308.08017v1 )

ライセンス: Link先を確認
Yue Yu, Jacob Levy, Negar Mehr, David Fridovich-Keil, and Ufuk Topcu(参考訳) ゲーム理論の逆学習は、プレイヤーの行動から目的を推測する問題である。 リーダーと追従者の間のスタックルバーグゲームにおける逆学習問題を定式化し、各プレイヤーの行動が力学系の軌跡となる。 本稿では,有限個の候補のうちどの仮説がフォロワーの目的関数を記述しているかを推定する,リーダーの能動的逆学習法を提案する。 提案手法では,従来の手法のように受動的に観測された軌跡を用いるのではなく,異なる仮説の下での従者の軌跡の違いを積極的に最大化し,リーダーの推測を加速する。 提案手法を,後退水平反復軌道ゲームで実証する。 一様ランダム入力と比較して,提案手法により得られたリーダ入力は,従者の軌道上で条件付けられた異なる仮説の確率の収束を桁々に促進する。

Game-theoretic inverse learning is the problem of inferring the players' objectives from their actions. We formulate an inverse learning problem in a Stackelberg game between a leader and a follower, where each player's action is the trajectory of a dynamical system. We propose an active inverse learning method for the leader to infer which hypothesis among a finite set of candidates describes the follower's objective function. Instead of using passively observed trajectories like existing methods, the proposed method actively maximizes the differences in the follower's trajectories under different hypotheses to accelerate the leader's inference. We demonstrate the proposed method in a receding-horizon repeated trajectory game. Compared with uniformly random inputs, the leader inputs provided by the proposed method accelerate the convergence of the probability of different hypotheses conditioned on the follower's trajectory by orders of magnitude.
翻訳日:2023-08-17 15:44:13 公開日:2023-08-15
# Shortcut-V2V:時間冗長化に基づくビデオ間翻訳のための圧縮フレームワーク

Shortcut-V2V: Compression Framework for Video-to-Video Translation based on Temporal Redundancy Reduction ( http://arxiv.org/abs/2308.08011v1 )

ライセンス: Link先を確認
Chaeyeon Chung, Yeojeong Park, Seunghwan Choi, Munkhsoyol Ganbat, Jaegul Choo(参考訳) ビデオからビデオへの変換は、入力ビデオから対象領域のビデオフレームを生成することを目的としている。 その有用性にもかかわらず、既存のネットワークは膨大な計算を必要とするため、モデル圧縮を広範囲に利用する必要がある。 様々な映像・映像タスクの計算効率を向上する圧縮法は存在するが、ビデオ間翻訳の一般的な圧縮法はあまり研究されていない。 これに対して,ビデオ間翻訳のための汎用圧縮フレームワークであるShortcut-V2Vを提案する。 shourcut-v2vは、従来のフレームから現在のフレームの中間特性を近似することにより、隣り合う全てのビデオフレームの完全な推論を回避する。 さらに,本フレームワークでは,AdaBDと呼ばれるブロックが隣接フレームの特徴を適応的にブレンドして変形し,中間特徴のより正確な予測を可能にする。 我々は,様々なタスクにおいて,よく知られたビデオからビデオへの翻訳モデルを用いて定量的・質的評価を行い,フレームワークの汎用性を示す。 結果から,Shourcut-V2Vは従来のビデオ間翻訳モデルと比較して,3.2~5.7倍,テスト時に7.8~44倍のメモリを節約できることがわかった。

Video-to-video translation aims to generate video frames of a target domain from an input video. Despite its usefulness, the existing networks require enormous computations, necessitating their model compression for wide use. While there exist compression methods that improve computational efficiency in various image/video tasks, a generally-applicable compression method for video-to-video translation has not been studied much. In response, we present Shortcut-V2V, a general-purpose compression framework for video-to-video translation. Shourcut-V2V avoids full inference for every neighboring video frame by approximating the intermediate features of a current frame from those of the previous frame. Moreover, in our framework, a newly-proposed block called AdaBD adaptively blends and deforms features of neighboring frames, which makes more accurate predictions of the intermediate features possible. We conduct quantitative and qualitative evaluations using well-known video-to-video translation models on various tasks to demonstrate the general applicability of our framework. The results show that Shourcut-V2V achieves comparable performance compared to the original video-to-video translation model while saving 3.2-5.7x computational cost and 7.8-44x memory at test time.
翻訳日:2023-08-17 15:44:00 公開日:2023-08-15
# GRINN: 自己重力下での流体力学系を解く物理インフォームドニューラルネットワーク

GRINN: A Physics-Informed Neural Network for solving hydrodynamic systems in the presence of self-gravity ( http://arxiv.org/abs/2308.08010v1 )

ライセンス: Link先を確認
Sayantan Auddy, Ramit Dey, Neal J. Turner, Shantanu Basu(参考訳) 自己重力ガス流のモデリングは、天体物理学における多くの基本的な質問に答えるために不可欠である。 これは、惑星形成円盤、星形成雲、銀河形成、宇宙における大規模構造の発展など、多くのトピックにまたがる。 しかし、重力と流体力学の間の非線形相互作用は、結果として生じる時間依存偏微分方程式(pdes)を3次元(3d)で解くための大きな挑戦を与える。 メッシュのないフレームワーク内でのニューラルネットワークの普遍的な近似機能を活用することで、物理情報ニューラルネットワーク(PINN)はこの課題に対処する新たな方法を提供する。 本稿では,重力インフォームドニューラルネットワーク(GRINN)を導入し,3次元自己重力型流体力学系をシミュレーションする。 ここでは,等温気体中の重力不安定性と波動伝播を特に研究する。 この結果は,線形レジーム内の線形解析解が1\%以内に,従来のグリッド符号解が5\%以内に一致し,外乱が非線形レジームに成長する。 グリンの計算時間は次元数ではスケールしないことがわかった。 これは、次元数の増加に伴い、流体力学および自己重力計算のためのグリッドベースのコードのスケーリングとは対照的である。 その結果,GRINNの計算時間は1次元および2次元の計算ではグリッドコードよりも長いが,同じ精度で3次元のグリッドコードよりも桁違いに小さいことがわかった。 したがって、gnnのような物理に変形したニューラルネットワークは、3d天体フローをモデル化する能力の進歩を期待できる。

Modeling self-gravitating gas flows is essential to answering many fundamental questions in astrophysics. This spans many topics including planet-forming disks, star-forming clouds, galaxy formation, and the development of large-scale structures in the Universe. However, the nonlinear interaction between gravity and fluid dynamics offers a formidable challenge to solving the resulting time-dependent partial differential equations (PDEs) in three dimensions (3D). By leveraging the universal approximation capabilities of a neural network within a mesh-free framework, physics informed neural networks (PINNs) offer a new way of addressing this challenge. We introduce the gravity-informed neural network (GRINN), a PINN-based code, to simulate 3D self-gravitating hydrodynamic systems. Here, we specifically study gravitational instability and wave propagation in an isothermal gas. Our results match a linear analytic solution to within 1\% in the linear regime and a conventional grid code solution to within 5\% as the disturbance grows into the nonlinear regime. We find that the computation time of the GRINN does not scale with the number of dimensions. This is in contrast to the scaling of the grid-based code for the hydrodynamic and self-gravity calculations as the number of dimensions is increased. Our results show that the GRINN computation time is longer than the grid code in one- and two- dimensional calculations but is an order of magnitude lesser than the grid code in 3D with similar accuracy. Physics-informed neural networks like GRINN thus show promise for advancing our ability to model 3D astrophysical flows.
翻訳日:2023-08-17 15:43:39 公開日:2023-08-15
# 複雑なnexusをナビゲートする:政治情勢におけるサイバーセキュリティ

Navigating the complex nexus: cybersecurity in political landscapes ( http://arxiv.org/abs/2308.08005v1 )

ライセンス: Link先を確認
Mike Nkongolo(参考訳) 政治におけるサイバーセキュリティは、技術、ガバナンス、国際関係を交わす、重要かつ複雑な領域として現れてきた。 この相互接続されたデジタルの文脈では、政治的実体は機密データを保護し、民主的な手続きを維持し、サイバー脅威に対抗するための無論の課題に直面する。 本研究は,多面的な政治サイバーセキュリティの展望を探究し,サイバー攻撃の進展状況,政治的安定への影響,デジタルレジリエンスの強化戦略について検討した。 国家が支援するハッキング、不正情報キャンペーン、公共の信頼を損なう行為は、政治システムの完全性を保護するための強固なサイバーセキュリティ対策の要点である。 現実世界のケーススタディ、政策枠組み、協力的イニシアチブの広範な調査を通じて、この研究は、技術的な脆弱性、地政学、政治におけるサイバーセキュリティのダイナミックな進化を形作る倫理的懸念の複雑なネットワークを照らしている。 デジタル環境の進化の中で、アジャイルとプリエンプティブなサイバーセキュリティ戦略の衝動は、政治機関の安定性と信頼性を高める上で最重要である。

Cybersecurity in politics has emerged as a critical and intricate realm intersecting technology, governance, and international relations. In this interconnected digital context, political entities confront unparalleled challenges in securing sensitive data, upholding democratic procedures, and countering cyber threats. This study delves into the multifaceted landscape of political cybersecurity, examining the evolving landscape of cyberattacks, their impact on political stability, and strategies for bolstering digital resilience. The intricate interplay between state-sponsored hacking, disinformation campaigns, and eroding public trust underscores the imperative for robust cybersecurity measures to safeguard political system integrity. Through an extensive exploration of real-world case studies, policy frameworks, and collaborative initiatives, this research illuminates the intricate network of technological vulnerabilities, geopolitical dynamics, and ethical concerns that shape the dynamic evolution of cybersecurity in politics. Amidst evolving digital landscapes, the imperative for agile and preemptive cybersecurity strategies is paramount for upholding the stability and credibility of political institutions.
翻訳日:2023-08-17 15:43:13 公開日:2023-08-15
# BI-LAVA:アクティブラーニングとビジュアル分析による階層的画像ラベリングによるバイオキュレーション

BI-LAVA: Biocuration with Hierarchical Image Labeling through Active Learning and Visual Analysis ( http://arxiv.org/abs/2308.08003v1 )

ライセンス: Link先を確認
Juan Trelles and Andrew Wentzel and William Berrios and G. Elisabeta Marai(参考訳) 生物医学領域では、分類学は階層構造における科学的イメージの獲得モダリティを整理する。 このような分類は、大量の正しい画像ラベルを活用し、科学的な出版の重要性に関する重要な情報を提供する。 しかし、ラベルの階層的性質、画像処理のオーバーヘッド、ラベル付きデータの欠如または不完全性、およびこの種のデータをラベル付けるのに必要な専門知識は、バイオキュレーションのための有用なデータセットの作成を妨げる。 バイオキュレーターとテキストマイニング研究者との複数年間のコラボレーションから、これらの課題に対処するための反復的な視覚分析とアクティブラーニング戦略を導出する。 この戦略をbi-lava biocuration (bi-lava biocuration) というシステムで実装し,階層的な画像ラベリングを行う。 BI-LAVAは、小さなイメージラベルセット、階層的なイメージ分類器、アクティブラーニングを活用し、モデルビルダーが不完全な基底構造ラベルを扱うのを助け、画像モダリティの階層的な分類をターゲットとし、ラベルのない画像の大きなプールを分類する。 bi-lavaのフロントエンドは、データ分布、分類、画像投影、画像サムネイルの近傍を表すカスタムエンコーディングを使用して、モデル構築者が不慣れな画像データセットと分類を探索し、ラベルを訂正して生成するのに役立つ。 機械学習の実践者による評価では、分類学におけるクラスの特徴を理解し、ラベル付きコレクションやラベルなしコレクションのデータ品質を検証・改善する上で、ドメインエキスパートの育成に成功している。

In the biomedical domain, taxonomies organize the acquisition modalities of scientific images in hierarchical structures. Such taxonomies leverage large sets of correct image labels and provide essential information about the importance of a scientific publication, which could then be used in biocuration tasks. However, the hierarchical nature of the labels, the overhead of processing images, the absence or incompleteness of labeled data, and the expertise required to label this type of data impede the creation of useful datasets for biocuration. From a multi-year collaboration with biocurators and text-mining researchers, we derive an iterative visual analytics and active learning strategy to address these challenges. We implement this strategy in a system called BI-LAVA Biocuration with Hierarchical Image Labeling through Active Learning and Visual Analysis. BI-LAVA leverages a small set of image labels, a hierarchical set of image classifiers, and active learning to help model builders deal with incomplete ground-truth labels, target a hierarchical taxonomy of image modalities, and classify a large pool of unlabeled images. BI-LAVA's front end uses custom encodings to represent data distributions, taxonomies, image projections, and neighborhoods of image thumbnails, which help model builders explore an unfamiliar image dataset and taxonomy and correct and generate labels. An evaluation with machine learning practitioners shows that our mixed human-machine approach successfully supports domain experts in understanding the characteristics of classes within the taxonomy, as well as validating and improving data quality in labeled and unlabeled collections.
翻訳日:2023-08-17 15:42:53 公開日:2023-08-15
# A^2$Nav:基礎モデルの視覚・言語能力の爆発によるアクション対応ゼロショットロボットナビゲーション

$A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting Vision-and-Language Ability of Foundation Models ( http://arxiv.org/abs/2308.07997v1 )

ライセンス: Link先を確認
Peihao Chen, Xinyu Sun, Hongyan Zhi, Runhao Zeng, Thomas H. Li, Gaowen Liu, Mingkui Tan, Chuang Gan(参考訳) 本研究では,ゼロショット視覚言語ナビゲーション(zs-vln, zero-shot vision-and-language navigation)の課題について検討する。 通常、命令は複雑な文法構造を持ち、様々な動作記述(例えば "proceed beyond" や "depart from" など)を含んでいる。 これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。 優れた教育を受けた人間は、特別な訓練を必要とせずに、容易に経路指示を理解できる。 本稿では,基礎モデルの視覚・言語能力を利用したアクション対応ゼロショットVLN法(A^2$Nav)を提案する。 具体的には,提案手法は命令パーサとアクション対応ナビゲーションポリシから構成される。 命令パーサは、大規模な言語モデル(例えばGPT-3)の高度な推論能力を利用して、複雑なナビゲーション命令をアクション固有のオブジェクトナビゲーションサブタスクのシーケンスに分解する。 各サブタスクは、エージェントがオブジェクトをローカライズし、関連するアクション要求に応じて特定のゴール位置にナビゲートする必要がある。 これらのサブタスクを達成するために、アクション対応ナビゲーションポリシーは、アクション要求ごとに異なる特性を示す、自由に収集されたアクション固有のデータセットから学習される。 学習したナビゲーションポリシーを用いて、サブタスクを逐次実行し、ナビゲーション命令に従う。 大規模な実験によると、$A^2$NavはZS-VLNのパフォーマンスを期待でき、R2R-HabitatデータセットとRxR-Habitatデータセットの教師付き学習方法を超えている。

We study the task of zero-shot vision-and-language navigation (ZS-VLN), a practical yet challenging problem in which an agent learns to navigate following a path described by language instructions without requiring any path-instruction annotation data. Normally, the instructions have complex grammatical structures and often contain various action descriptions (e.g., "proceed beyond", "depart from"). How to correctly understand and execute these action demands is a critical problem, and the absence of annotated data makes it even more challenging. Note that a well-educated human being can easily understand path instructions without the need for any special training. In this paper, we propose an action-aware zero-shot VLN method ($A^2$Nav) by exploiting the vision-and-language ability of foundation models. Specifically, the proposed method consists of an instruction parser and an action-aware navigation policy. The instruction parser utilizes the advanced reasoning ability of large language models (e.g., GPT-3) to decompose complex navigation instructions into a sequence of action-specific object navigation sub-tasks. Each sub-task requires the agent to localize the object and navigate to a specific goal position according to the associated action demand. To accomplish these sub-tasks, an action-aware navigation policy is learned from freely collected action-specific datasets that reveal distinct characteristics of each action demand. We use the learned navigation policy for executing sub-tasks sequentially to follow the navigation instruction. Extensive experiments show $A^2$Nav achieves promising ZS-VLN performance and even surpasses the supervised learning methods on R2R-Habitat and RxR-Habitat datasets.
翻訳日:2023-08-17 15:42:14 公開日:2023-08-15
# マルコフ環境における量子システム

Quantum systems in Markovian environments ( http://arxiv.org/abs/2308.07996v1 )

ライセンス: Link先を確認
Henryk Gzyl(参考訳) 本研究では,ハミルトニアンが環境変化に依存するかもしれない量子系をモデル化する数学的枠組みを開発し,マルコフ過程に従って進化する。 環境が状態を変えると、量子系は衝撃を受け、状態間で瞬時に遷移する。 提案するモデルは、より一般的な設定に容易に適応できる。 側方解析問題を避けるため、有限次元状態空間を持つ量子系の場合、観測可能系はエルミート行列によって記述される。 観測対象の期待値を予測するために,環境を平均化する方法を示す。

In this work, we develop a mathematical framework to model a quantum system whose Hamiltonian may depend on the state of changing environment, that evolves according to a Markovian process. When the environment changes its state, the quantum system may suffer a shock that produces an instantaneous transition among its states. The model that we propose can be readily adapted to more general settings.\\ To avoid collateral analytical issues, we consider the case of quantum systems with finite dimensional state space, in which case the observables are described by Hermitian matrices. We show how to average over the environment to predict the expected values of observables.
翻訳日:2023-08-17 15:41:42 公開日:2023-08-15
# ワイル半金属の歪2次元層に基づくスピン場効果トランジスタ

A Spin Field Effect Transistor Based on a Strained Two Dimensional Layer of a Weyl Semimetal ( http://arxiv.org/abs/2308.07986v1 )

ライセンス: Link先を確認
Rahnuma Rahman and Supriyo Bandyopadhyay(参考訳) スピン場効果トランジスタ (spinfet) は、強磁性源とドレイン接点の間にある半導体チャネルにおけるゲートチューニングスピン軌道相互作用を利用してトランジスタ機能を導出するスピントロンデバイスの象徴的クラスである。 近年、量子材料におけるゲートチューニングひずみ(トポロジカル絶縁体など)に基づく新しいスピンfetが提案されており、その特異な振動伝達特性から周波数乗算などの興味深いアナログ応用が提案されている。 ここでは、異なるアプリケーションを持つかもしれないこのクラスで、さらに別のタイプのSpinFETを提案し、分析する。 それはワイル半金属に基づいている。 動作原理は古典的ではないため、チャネルコンダクタンスはチャネル長にゼロゲート電圧で振動依存性を示す。 また、チャネル長が変化すれば、トランスコンダクタンスが符号を切り替えることができる。 後者の機能を利用してCMOSのような補完デバイスを実装できるのは、チャンネル長がわずかに異なる2つのSpinFETを直列に接続することでである。 これらの特異な性質はニッチな応用があるかもしれない。

Spin field effect transistors (SpinFET) are an iconic class of spintronic devices that exploit gate tuned spin-orbit interaction in semiconductor channels interposed between ferromagnetic source and drain contacts to elicit transistor functionality. Recently, a new type of SpinFET based on gate tuned strain in quantum materials (e.g. topological insulators) has been proposed and may have interesting analog applications, such as in frequency multiplication, by virtue of its unusual oscillatory transfer characteristic. Here, we propose and analyze yet another type of SpinFET in this class, which may have a different application. It is based on a Weyl semimetal. Because the operating principle is non-classical, the channel conductance shows oscillatory dependence on the channel length at zero gate voltage. Furthermore, the transconductance can switch sign if the channel length is varied. This latter feature can be exploited to implement a complementary device like CMOS by connecting two such SpinFETs of slightly different channel lengths in series. These unusual properties may have niche applications.
翻訳日:2023-08-17 15:41:34 公開日:2023-08-15
# グラフカラーリングの量子最適化におけるqutritsの可能性の検討

Exploring the Potential of Qutrits for Quantum Optimization of Graph Coloring ( http://arxiv.org/abs/2308.08050v1 )

ライセンス: Link先を確認
Gabriel Bottrill, Mudit Pandey, Olivia Di Matteo(参考訳) 近年のハードウェア実証と回路コンパイルの進歩により、短期デバイス上の高次元システム(キューディット)を用いた量子コンピューティングが魅力的な可能性となった。 いくつかの問題は、量子ビット上のquditを用いたより自然な、あるいは最適なエンコーディングを持っている。 本稿では, 量子近似最適化アルゴリズム (QAOA) を用いて, グラフの3色化を定式化し, 量子近似アルゴリズム(QAOA) を用いてこの問題を解く。 qutrit-based cost and mixer hamiltonianは、qutritゲートを用いた適切な量子回路と共に構築される。 我々は,qubitベースのqaoaと比較するためにpennylaneを用いた無ノイズシミュレーションを実施し,ソリューションの品質とリソースを解析した。 予備的な結果は、クトリットエンコーディングは、同等のハイパーパラメータのセットでより正確な解を見つけ、クディットを半分使用し、効率的な量子ビットエンコーディングよりも層当たりの回路深さが著しく小さいことを示している。 この研究は、クォートリットが近距離デバイス上のいくつかの問題を解決するのに有用であることを示しているが、ノイズの多い環境におけるその可能性を評価するにはさらなる作業が必要であることを示唆している。

Recent hardware demonstrations and advances in circuit compilation have made quantum computing with higher-dimensional systems (qudits) on near-term devices an attractive possibility. Some problems have more natural or optimal encodings using qudits over qubits. We explore this potential by formulating graph 3-coloring, a well-known and difficult problem with practical applications, using qutrits, and solve it using the quantum approximate optimization algorithm (QAOA). Qutrit-based cost and mixer Hamiltonians are constructed along with appropriate quantum circuits using qutrit gates. We run noiseless simulations using PennyLane to compare the formulation against qubit-based QAOA, and analyze the solution quality and resources required. Preliminary results show that the qutrit encoding finds more accurate solutions with a comparable set of hyperparameters, uses half as many qudits, and has a notably smaller circuit depth per layer than an efficient qubit encoding. This work suggests that qutrits may be useful in solving some problems on near-term devices, however further work is required to assess their potential in a noisy environment.
翻訳日:2023-08-17 15:36:07 公開日:2023-08-15
# マルチエージェントマルチアームバンドにおけるレギュレット下界

Regret Lower Bounds in Multi-agent Multi-armed Bandit ( http://arxiv.org/abs/2308.08046v1 )

ライセンス: Link先を確認
Mengfan Xu, Diego Klabjan(参考訳) 多腕バンディットは、後悔の証明可能な上界を持つ手法を動機付け、他方の下界もこの文脈で広く研究されている。 近年、マルチエージェントマルチアームバンドは、個々のクライアントが分散的にバンディット問題に直面し、目的はシステム全体のパフォーマンスであり、通常後悔によって測定される。 後悔の上界を持つ効率的なアルゴリズムが出現する一方で、近年の敵の設定に対する下界を除いて、対応する後悔下界に対して限定的な注意が向けられている。 この目的のために、我々は、異なる設定における後悔の下限に関する最初の包括的な研究を行い、その厳密さを確立する。 具体的には、グラフが良好な接続性を示し、報酬が確率的に分布しているとき、平均ギャップ独立境界に対して$O(\log T)$と$\sqrt{T}$の下位境界を示す。 逆の報酬を仮定すると、連結グラフに対して下限 $o(t^{\frac{2}{3}})$ を定め、これにより前作業における下限と上限の間のギャップを橋渡しする。 また,グラフの切り離し時に,線形な後悔値下限を示す。 先行研究では,これらの設定を上界で検討してきたが,下界の密接性について徹底的な研究を行っている。

Multi-armed Bandit motivates methods with provable upper bounds on regret and also the counterpart lower bounds have been extensively studied in this context. Recently, Multi-agent Multi-armed Bandit has gained significant traction in various domains, where individual clients face bandit problems in a distributed manner and the objective is the overall system performance, typically measured by regret. While efficient algorithms with regret upper bounds have emerged, limited attention has been given to the corresponding regret lower bounds, except for a recent lower bound for adversarial settings, which, however, has a gap with let known upper bounds. To this end, we herein provide the first comprehensive study on regret lower bounds across different settings and establish their tightness. Specifically, when the graphs exhibit good connectivity properties and the rewards are stochastically distributed, we demonstrate a lower bound of order $O(\log T)$ for instance-dependent bounds and $\sqrt{T}$ for mean-gap independent bounds which are tight. Assuming adversarial rewards, we establish a lower bound $O(T^{\frac{2}{3}})$ for connected graphs, thereby bridging the gap between the lower and upper bound in the prior work. We also show a linear regret lower bound when the graph is disconnected. While previous works have explored these settings with upper bounds, we provide a thorough study on tight lower bounds.
翻訳日:2023-08-17 15:35:46 公開日:2023-08-15
# DiagGPT:タスク指向対話の自動トピック管理によるLLMベースのチャットボット

DiagGPT: An LLM-based Chatbot with Automatic Topic Management for Task-Oriented Dialogue ( http://arxiv.org/abs/2308.08043v1 )

ライセンス: Link先を確認
Lang Cao(参考訳) ChatGPTのような大規模言語モデル(LLM)は、ますます洗練され、人間のものとよく似た能力を示している。 これらのAIモデルは、人間の日常生活における幅広いタスクを支援する上で重要な役割を担っている。 AIの重要な応用は、チャットエージェントとしての使用であり、さまざまなドメインにわたる人間の問い合わせに応答する。 現在のLLMは、一般的な質問に答える能力を示している。 しかしながら、基本的な質問応答対話は、法律や医療の相談のような複雑な診断シナリオでは不足することが多い。 これらのシナリオは一般的にタスク指向対話(TOD)を必要とし、AIチャットエージェントは積極的に質問をポーズし、特定のタスク完了に向けてユーザーを誘導する必要がある。 従来の微調整モデルはTODでは性能が低く、現在のLLMは本質的にこの能力を持っていない。 本稿では,LDMをTODシナリオに拡張する革新的な手法であるDiagGPT(Dialogue in diagnosis GPT)を紹介する。 実験の結果,DiagGPTはユーザとTODを行う上で優れた性能を示し,実用化の可能性を示した。

Large Language Models (LLMs), such as ChatGPT, are becoming increasingly sophisticated, demonstrating capabilities that closely resemble those of humans. These AI models are playing an essential role in assisting humans with a wide array of tasks in daily life. A significant application of AI is its use as a chat agent, responding to human inquiries across various domains. Current LLMs have shown proficiency in answering general questions. However, basic question-answering dialogue often falls short in complex diagnostic scenarios, such as legal or medical consultations. These scenarios typically necessitate Task-Oriented Dialogue (TOD), wherein an AI chat agent needs to proactively pose questions and guide users towards specific task completion. Previous fine-tuning models have underperformed in TOD, and current LLMs do not inherently possess this capability. In this paper, we introduce DiagGPT (Dialogue in Diagnosis GPT), an innovative method that extends LLMs to TOD scenarios. Our experiments reveal that DiagGPT exhibits outstanding performance in conducting TOD with users, demonstrating its potential for practical applications.
翻訳日:2023-08-17 15:35:18 公開日:2023-08-15
# 2次元断面視による脾体積推定のための深層学習フレームワーク

Deep Learning Framework for Spleen Volume Estimation from 2D Cross-sectional Views ( http://arxiv.org/abs/2308.08038v1 )

ライセンス: Link先を確認
Zhen Yuan, Esther Puyol-Anton, Haran Jogeesvaran, Baba Inusa and Andrew P. King(参考訳) 異常脾腫 (splenomegaly) は, 肝疾患, 癌, 血液疾患など, 様々な疾患の臨床的指標である。 超音波画像から測定される脾の長さは脾臓の大きさのサロゲートとして一般的に用いられるが,脾臓容積は脾腫と関連疾患の重症度を評価するための金標準指標である。 ctは脾臓体積を測定するための主要なイメージングモードであるが、脾腫の発生率が高い地域(例えば、グローバル・サウス)ではアクセスできない。 本研究の目的は,超音波による2次元断面断面積の自動計測を可能にすることである。 本研究では,単視または双視の2次元脾臓セグメンテーションから脾臓体積を測定するための変分オートエンコーダベースのフレームワークについて述べる。 本稿では,本フレームワーク内の3つのボリューム推定手法を提案し,評価する。 また,本手法を臨床的に有用にするために,ボリューム推定の95%の信頼区間を作成できることを示す。 比較深層学習に基づく2D-3D再構成法と手動による線形回帰法の臨床標準手法の性能を上回り, 単視点と二視点のセグメンテーションでは86.62\%, 92.58\%の平均体積精度を達成した。 提案した脾体積推定フレームワークは,現在2次元超音波画像を用いて脾の長さを測定する標準的な臨床ワークフローに統合することができる。 私たちの知る限りでは、これは2次元脾臓セグメンテーションから直接3d脾臓体積推定を達成する最初の仕事です。

Abnormal spleen enlargement (splenomegaly) is regarded as a clinical indicator for a range of conditions, including liver disease, cancer and blood diseases. While spleen length measured from ultrasound images is a commonly used surrogate for spleen size, spleen volume remains the gold standard metric for assessing splenomegaly and the severity of related clinical conditions. Computed tomography is the main imaging modality for measuring spleen volume, but it is less accessible in areas where there is a high prevalence of splenomegaly (e.g., the Global South). Our objective was to enable automated spleen volume measurement from 2D cross-sectional segmentations, which can be obtained from ultrasound imaging. In this study, we describe a variational autoencoder-based framework to measure spleen volume from single- or dual-view 2D spleen segmentations. We propose and evaluate three volume estimation methods within this framework. We also demonstrate how 95\% confidence intervals of volume estimates can be produced to make our method more clinically useful. Our best model achieved mean relative volume accuracies of 86.62\% and 92.58\% for single- and dual-view segmentations, respectively, surpassing the performance of the clinical standard approach of linear regression using manual measurements and a comparative deep learning-based 2D-3D reconstruction-based approach. The proposed spleen volume estimation framework can be integrated into standard clinical workflows which currently use 2D ultrasound images to measure spleen length. To the best of our knowledge, this is the first work to achieve direct 3D spleen volume estimation from 2D spleen segmentations.
翻訳日:2023-08-17 15:34:58 公開日:2023-08-15
# レーザー誘起チューニングによる寿命制限有機分子の超ラジアントおよびサブラジアント状態

Superradiant and subradiant states in lifetime-limited organic molecules through laser-induced tuning ( http://arxiv.org/abs/2308.08037v1 )

ライセンス: Link先を確認
Christian Lange, Emma Daggett, Valentin Walther, Libai Huang, and Jonathan D. Hood(参考訳) 放射結合エミッタの配列は、量子光を生成し、保存し、操作するためのエキサイティングな新しいプラットフォームである。 しかし、複数の寿命制限エミッタの共鳴への位置決めとチューニングは依然として大きな課題である。 本稿では, レーザー誘起チューニングと共振器に永久にシフトさせることにより, 寿命制限およびサブ波長間隔の有機分子の対における超ラジカルおよびサブラジカルの絡み合った状態の生成を報告する。 分子は有機ナノ結晶の欠陥として埋め込まれる。 ポンプ光はナノ結晶の電荷を再分配し、共鳴分子の可能性を劇的に高める。 周波数スペクトル、寿命、二階相関は単純な量子モデルと一致する。 この有機分子によるスケーラブルなチューニングアプローチは、量子エミッタのサブ波長配列における集合量子現象を観測するための経路を提供する。

An array of radiatively coupled emitters is an exciting new platform for generating, storing, and manipulating quantum light. However, the simultaneous positioning and tuning of multiple lifetime-limited emitters into resonance remains a significant challenge. Here we report the creation of superradiant and subradiant entangled states in pairs of lifetime-limited and sub-wavelength spaced organic molecules by permanently shifting them into resonance with laser-induced tuning. The molecules are embedded as defects in an organic nanocrystal. The pump light redistributes charges in the nanocrystal and dramatically increases the likelihood of resonant molecules. The frequency spectra, lifetimes, and second-order correlation agree with a simple quantum model. This scalable tuning approach with organic molecules provides a pathway for observing collective quantum phenomena in sub-wavelength arrays of quantum emitters.
翻訳日:2023-08-17 15:34:25 公開日:2023-08-15
# コードモデルとドメイン適応を用いた自動テストケース生成

Automated Test Case Generation Using Code Models and Domain Adaptation ( http://arxiv.org/abs/2308.08033v1 )

ライセンス: Link先を確認
Sepehr Hashtroudi, Jiho Shin, Hadi Hemmati, Song Wang(参考訳) 検索ベースのテストのような最先端の自動テスト生成技術は通常、開発者がテストケースとして作るものについて無知である。 そのため、通常は、人間が読めるものではなく、開発者が記述したテストが行うような複雑なバグのタイプをすべて必ずしも検出しないテストを作成する。 本研究では,transformerベースのコードモデルを用いて,検索ベースのテスト生成を補完するユニットテストを生成する。 具体的には、CodeT5、すなわち最先端の大規模コードモデルを使用し、テスト生成の下流タスクで微調整します。 分析では,CodeT5とDefects4jの微調整に Methods2test データセットを使用し,プロジェクトレベルのドメイン適応と評価を行った。 この研究の主な貢献は、開発者が記述したテストと利用可能なコードモデルを利用して、コンパイル可能で人間可読なユニットテストを生成する、完全に自動化されたテストフレームワークを提案することである。 その結果,開発者が記述したテストでカバーされていないラインをカバーする新たなテストケースが得られた。 ドメイン適応を用いることで、平均と中央値(ドメイン適応のないモデルと比較)の観点から、モデル生成ユニットテストのラインカバレッジを49.9%、54%向上させることもできる。 また、我々のフレームワークは一般的な検索ベースの手法と相補的なソリューションとして利用でき、平均と中央値の25.3%と6.3%で全体のカバレッジを向上させることができる。 また、追加の変異体を殺して検索ベースの方法の突然変異率を高めることもできる(我々の実験では、プロジェクトごとに64個の新しい変異体が殺されている)。

State-of-the-art automated test generation techniques, such as search-based testing, are usually ignorant about what a developer would create as a test case. Therefore, they typically create tests that are not human-readable and may not necessarily detect all types of complex bugs developer-written tests would do. In this study, we leverage Transformer-based code models to generate unit tests that can complement search-based test generation. Specifically, we use CodeT5, i.e., a state-of-the-art large code model, and fine-tune it on the test generation downstream task. For our analysis, we use the Methods2test dataset for fine-tuning CodeT5 and Defects4j for project-level domain adaptation and evaluation. The main contribution of this study is proposing a fully automated testing framework that leverages developer-written tests and available code models to generate compilable, human-readable unit tests. Results show that our approach can generate new test cases that cover lines that were not covered by developer-written tests. Using domain adaptation, we can also increase line coverage of the model-generated unit tests by 49.9% and 54% in terms of mean and median (compared to the model without domain adaptation). We can also use our framework as a complementary solution alongside common search-based methods to increase the overall coverage with mean and median of 25.3% and 6.3%. It can also increase the mutation score of search-based methods by killing extra mutants (up to 64 new mutants were killed per project in our experiments).
翻訳日:2023-08-17 15:34:12 公開日:2023-08-15
# 人工集団を用いた神経モデルにおける心理現象の研究

Using Artificial Populations to Study Psychological Phenomena in Neural Models ( http://arxiv.org/abs/2308.08032v1 )

ライセンス: Link先を確認
Jesse Roberts, Kyle Moore, Drew Wilenzick, Doug Fisher(参考訳) 近年、トランスフォーマーに基づく自然言語処理の研究が急増し、モデルにおける人間のような認知行動の存在を検出する研究が数多く行われている。 ヒトの心理学と同様に、言語モデルにおける認知行動の調査は、結果が有意義になるのに適切な大きさの適切な集団で行わなければならないと主張する。 我々は、実験集団を効率的に構築するために、新しいアプローチにおける不確実性推定の作業を活用する。 結果として得られたツールである populationlm がオープンソースになった。 言語モデルに関する現在の認知作業から得られる不確実性推定文献と動機付けに理論的根拠を与える。 我々は他の科学コミュニティからの方法論的教訓を議論し、2つの人工集団研究への応用を実証する。 集団に基づく実験を通して、言語モデルは訓練において高度に表現されたカテゴリー間での典型的効果と整合した振る舞いを示す。 しかし、言語モデルは構造的なプライミング効果を示さない傾向がある。 一般に,単一モデルでは認知行動の存在を過大評価する傾向がみられた。

The recent proliferation of research into transformer based natural language processing has led to a number of studies which attempt to detect the presence of human-like cognitive behavior in the models. We contend that, as is true of human psychology, the investigation of cognitive behavior in language models must be conducted in an appropriate population of an appropriate size for the results to be meaningful. We leverage work in uncertainty estimation in a novel approach to efficiently construct experimental populations. The resultant tool, PopulationLM, has been made open source. We provide theoretical grounding in the uncertainty estimation literature and motivation from current cognitive work regarding language models. We discuss the methodological lessons from other scientific communities and attempt to demonstrate their application to two artificial population studies. Through population based experimentation we find that language models exhibit behavior consistent with typicality effects among categories highly represented in training. However, we find that language models don't tend to exhibit structural priming effects. Generally, our results show that single models tend to over estimate the presence of cognitive behaviors in neural models.
翻訳日:2023-08-17 15:33:45 公開日:2023-08-15
# 深部ReLUネットワークを用いたガウス混合モデルによるデータの分類

Classification of Data Generated by Gaussian Mixture Models Using Deep ReLU Networks ( http://arxiv.org/abs/2308.08030v1 )

ライセンス: Link先を確認
Tian-Yi Zhou, Xiaoming Huo(参考訳) 本稿では,gaussian mixture model (gmms) で生成する${\mathbb r}^d$ からの非有界データの深層ニューラルネットワークを用いた二元分類について検討する。 モデルパラメーターに制約を課すことなく、分類の過度なリスク(誤分類誤差を含む)の収束率と非漸近的上限を初めて$\unicode{x2013}$を得る。 我々が導出する収束率は次元 $d$ に依存しず、深層 relu ネットワークが分類における次元の呪いを克服できることを示した。 分類アルゴリズムの既存の一般化解析の大半は有界領域に依存しているが、ガウス分布の解析性と高速崩壊を利用して非有界領域を考える。 解析を容易にするために,reluネットワークを用いた一般解析関数に対する新しい近似誤差を導出する。 ガウス分布は、例えば音声、画像、テキストなど、アプリケーションで発生するデータをモデル化するためにうまく適用することができ、実際の分類問題におけるディープニューラルネットワークの観測効率の理論的検証を提供する。

This paper studies the binary classification of unbounded data from ${\mathbb R}^d$ generated under Gaussian Mixture Models (GMMs) using deep ReLU neural networks. We obtain $\unicode{x2013}$ for the first time $\unicode{x2013}$ non-asymptotic upper bounds and convergence rates of the excess risk (excess misclassification error) for the classification without restrictions on model parameters. The convergence rates we derive do not depend on dimension $d$, demonstrating that deep ReLU networks can overcome the curse of dimensionality in classification. While the majority of existing generalization analysis of classification algorithms relies on a bounded domain, we consider an unbounded domain by leveraging the analyticity and fast decay of Gaussian distributions. To facilitate our analysis, we give a novel approximation error bound for general analytic functions using ReLU networks, which may be of independent interest. Gaussian distributions can be adopted nicely to model data arising in applications, e.g., speeches, images, and texts; our results provide a theoretical verification of the observed efficiency of deep neural networks in practical classification problems.
翻訳日:2023-08-17 15:33:30 公開日:2023-08-15
# 学習計画:モデルベースプランニングにおけるアクティブラーニングのための新しいアルゴリズム

Planning to Learn: A Novel Algorithm for Active Learning during Model-Based Planning ( http://arxiv.org/abs/2308.08029v1 )

ライセンス: Link先を確認
Rowan Hodson, Bruce Bassett, Charel van Hoof, Benjamin Rosman, Mark Solms, Jonathan P. Shock, Ryan Smith(参考訳) アクティブ推論は不確実性下でのモデリング計画のための最近のフレームワークである。 実証的および理論的研究は、このアプローチの強みと弱み、そしてどのように改善されるかを評価するために始まった。 最近の拡張 - advanced inference (si) アルゴリズム - 再帰的決定木探索による多段階計画問題の性能向上。 しかし、SIを他の既存の計画アルゴリズムと比較する作業はほとんど行われていない。 SIは学習とは対照的に推論に焦点を当てて開発された。 本論文には2つの目的がある。 まず,同様の問題を解決するために設計されたベイズ強化学習(rl)方式とsiの性能を比較した。 第2に,計画中にアクティブラーニングをより深く取り入れたsl(sisophisticated learning)の拡張を提案する。 SLは、各方針の下で期待される将来の観測の下でモデルパラメータがどのように変化するかという信念を維持している。 これにより、エージェントが現在または過去の観測から何が学べるかを、異なる将来の観測で考慮する反事実的振り返り推論の形式が可能になる。 これらの目的を達成するために,SLが独特なソリューションを提供する問題構造を強調するために,生物にインスパイアされた新しい環境を利用する。 ここで、エージェントは、情報獲得のために競合する余裕がある場合、利用可能な(しかし変化する)リソースを継続的に探さなければならない。 我々のシミュレーションでは、SLはこの文脈で他の全てのアルゴリズムよりも優れており、特にベイズ適応RLと高信頼境界アルゴリズムは、同様の原理(すなわち、直接探索と対実推論)を用いて多段階計画問題の解決を目的としている。 これらの結果は、このような生物学的に関連のある問題を解く上でのアクティブ推論の有用性の強化と、人間の認知に関する仮説をテストするためのツールの追加を提供する。

Active Inference is a recent framework for modeling planning under uncertainty. Empirical and theoretical work have now begun to evaluate the strengths and weaknesses of this approach and how it might be improved. A recent extension - the sophisticated inference (SI) algorithm - improves performance on multi-step planning problems through recursive decision tree search. However, little work to date has been done to compare SI to other established planning algorithms. SI was also developed with a focus on inference as opposed to learning. The present paper has two aims. First, we compare performance of SI to Bayesian reinforcement learning (RL) schemes designed to solve similar problems. Second, we present an extension of SI - sophisticated learning (SL) - that more fully incorporates active learning during planning. SL maintains beliefs about how model parameters would change under the future observations expected under each policy. This allows a form of counterfactual retrospective inference in which the agent considers what could be learned from current or past observations given different future observations. To accomplish these aims, we make use of a novel, biologically inspired environment designed to highlight the problem structure for which SL offers a unique solution. Here, an agent must continually search for available (but changing) resources in the presence of competing affordances for information gain. Our simulations show that SL outperforms all other algorithms in this context - most notably, Bayes-adaptive RL and upper confidence bound algorithms, which aim to solve multi-step planning problems using similar principles (i.e., directed exploration and counterfactual reasoning). These results provide added support for the utility of Active Inference in solving this class of biologically-relevant problems and offer added tools for testing hypotheses about human cognition.
翻訳日:2023-08-17 15:33:09 公開日:2023-08-15
# 緊急住宅シェルターアクセスパターンに対するCOVID-19の影響のグラフ解析

A Graph Analysis of the Impact of COVID-19 on Emergency Housing Shelter Access Patterns ( http://arxiv.org/abs/2308.08028v1 )

ライセンス: Link先を確認
Geoffrey G. Messier(参考訳) 本稿では,カナダ・カルガリー州で新型コロナウイルスが緊急避難所のアクセスパターンを破壊した経緯と,その変化の現在の状況について検討する。 この分析は、2018年から現在までの7つの主要都市シェルターから4万人以上の個人が収集したシェルターアクセスデータを利用する。 グラフ理論のアプローチは、新型コロナウイルス(COVID-19)のロックダウン前後のシェルター間の個人の移動を調べるために使われる。 このアプローチでは、シェルターをグラフ内のノードとして扱い、シェルター間の遷移をノード間の矢印やエッジとして扱う。 この視点は、シェルターの使用とシェルター間の人々のフローを可視化するタイムラインとネットワーク図を作成するために使用される。 また, 防犯前ロックダウンのみを使用する人々のコホート, 防犯中は避難所にとどまる人々, ロックダウン中は初めて避難所を利用する人々の相違を示す統計結果も提示された。 その結果,複雑なケアシステムがパンデミックにどのように反応したかだけでなく,緊急時もそのシステムに依存する可能性が最も高い人々の特性が示された。

This paper investigates how COVID-19 disrupted emergency housing shelter access patterns in Calgary, Canada and what aspects of these changes persist to the present day. This analysis will utilize aggregated shelter access data for over 40,000 individuals from seven major urban shelters dating from 2018 to the present. A graph theoretic approach will be used to examine the journeys of individuals between shelters before, during and after the COVID-19 lockdown period. This approach treats shelters as nodes in a graph and a person's transition between shelter as an arrow or edge between nodes. This perspective is used to create both timeline and network diagrams that visualize shelter use and the flow of people between shelters. Statistical results are also presented that illustrate the differences between the cohorts of people who only used shelter pre/post-lockdown, people who stayed in shelter during lockdown and people who used shelter for the first time during lockdown. The results demonstrate not only how a complex system of care responded to the pandemic but also the characteristics of the people most likely to continue to rely on that system during an emergency.
翻訳日:2023-08-17 15:32:42 公開日:2023-08-15
# プライバシー保護勧告のための分散グラフニューラルネットワーク

Decentralized Graph Neural Network for Privacy-Preserving Recommendation ( http://arxiv.org/abs/2308.08072v1 )

ライセンス: Link先を確認
Xiaolin Zheng, Zhongyu Wang, Chaochao Chen, Jiashu Qian and Yao Yang(参考訳) ユーザのプライバシを侵害することなく、グラフニューラルネットワーク(GNN)ベースのレコメンデーションシステムを構築することは難しい。 既存の方法は、連合GNNと分散GNNに分けられる。 しかし、どちらの方法も望ましくない効果、すなわち通信効率の低下とプライバシーの漏洩がある。 本稿では,プライバシ保護レコメンデーションのための分散GNNであるDGRECを提案する。 これには、グラフ構築、局所勾配計算、大域的勾配通過という3つの段階が含まれる。 第1ステージでは、各ユーザ用のローカルな内面ハイパーグラフと、グローバルなユーザ間グラフを構築している。 第2ステージは、ユーザの好みをモデル化し、各ローカルデバイス上の勾配を計算する。 第3ステージでは、セキュアな勾配共有と呼ばれるローカルな差分プライバシーメカニズムを設計し、ユーザのプライベートデータの強力なプライバシー保護を証明している。 我々は3つの公開データセットに関する広範な実験を行い、フレームワークの一貫性のある優位性を検証する。

Building a graph neural network (GNN)-based recommender system without violating user privacy proves challenging. Existing methods can be divided into federated GNNs and decentralized GNNs. But both methods have undesirable effects, i.e., low communication efficiency and privacy leakage. This paper proposes DGREC, a novel decentralized GNN for privacy-preserving recommendations, where users can choose to publicize their interactions. It includes three stages, i.e., graph construction, local gradient calculation, and global gradient passing. The first stage builds a local inner-item hypergraph for each user and a global inter-user graph. The second stage models user preference and calculates gradients on each local device. The third stage designs a local differential privacy mechanism named secure gradient-sharing, which proves strong privacy-preserving of users' private data. We conduct extensive experiments on three public datasets to validate the consistent superiority of our framework.
翻訳日:2023-08-17 15:24:03 公開日:2023-08-15
# 新鮮さか正確さ 両方じゃないの? 動的グラフニューラルネットワークによる遅延フィードバックの対応

Freshness or Accuracy, Why Not Both? Addressing Delayed Feedback via Dynamic Graph Neural Networks ( http://arxiv.org/abs/2308.08071v1 )

ライセンス: Link先を確認
Xiaolin Zheng, Zhongyu Wang, Chaochao Chen, Feng Zhu and Jiashu Qian(参考訳) 遅延フィードバック問題は、ユーザの変換が常にオンラインの商用システムでは遅れているため、コンバージョン率を予測する上で最も差し迫った課題の1つだ。 新しいデータは継続的なトレーニングに有益であるが、完全なフィードバック情報、すなわち変換ラベルがなければ、トレーニングアルゴリズムは圧倒的な偽陰性を被る可能性がある。 既存の手法では、遅延したフィードバック問題を解決するためにマルチタスク学習やデータパイプラインを設計する傾向がある。 しかし、これらの手法はデータの鮮度とラベルの精度のトレードオフがある。 本稿では,動的グラフニューラルネットワーク(DGDFEM)による遅延フィードバックモデリングを提案する。 データパイプラインの作成、動的グラフの構築、CVR予測モデルのトレーニングという3つのステージが含まれている。 モデルトレーニングでは,高域通過フィルタと低域通過フィルタを併用して変換や非変換関係を扱うHLGCNという新しいグラフ畳み込み手法を提案する。 提案手法はデータの鮮度とラベル精度の両方を実現する。 提案手法の一貫性を検証した3つの産業データセットについて広範な実験を行った。

The delayed feedback problem is one of the most pressing challenges in predicting the conversion rate since users' conversions are always delayed in online commercial systems. Although new data are beneficial for continuous training, without complete feedback information, i.e., conversion labels, training algorithms may suffer from overwhelming fake negatives. Existing methods tend to use multitask learning or design data pipelines to solve the delayed feedback problem. However, these methods have a trade-off between data freshness and label accuracy. In this paper, we propose Delayed Feedback Modeling by Dynamic Graph Neural Network (DGDFEM). It includes three stages, i.e., preparing a data pipeline, building a dynamic graph, and training a CVR prediction model. In the model training, we propose a novel graph convolutional method named HLGCN, which leverages both high-pass and low-pass filters to deal with conversion and non-conversion relationships. The proposed method achieves both data freshness and label accuracy. We conduct extensive experiments on three industry datasets, which validate the consistent superiority of our method.
翻訳日:2023-08-17 15:23:49 公開日:2023-08-15
# 1次法による最大アフィン回帰

Max-affine regression via first-order methods ( http://arxiv.org/abs/2308.08070v1 )

ライセンス: Link先を確認
Seonho Kim and Kiryung Lee(参考訳) 我々は、max関数を介してアフィンモデルを結合することにより分割線形モデルを生成するmax-affineモデルの回帰を考える。 最大アフィンモデルは、多クラス分類、オークション問題、凸回帰を含む信号処理と統計学の応用においてユビキタスに現れる。 また、位相検索および学習整流器線形単位活性化関数を一般化する。 準ガウス音に追従したランダムな位置でモデルが観測された場合, 勾配降下(GD)と最小バッチ確率勾配降下(SGD)の非漸近収束解析を行い, 加法的サブガウス音による反集束解析を行った。 これらの仮定の下で、適切な初期化gdとsgdは、対応する誤差境界によって指定された基底真理の近傍に線形収束する。 理論的発見を裏付ける数値結果を提供する。 重要なことは、SGDは、ノイズのないシナリオにおける最小化とGDの交互化よりも少ない観測時間でより高速に収束するだけでなく、ノイズのある低サンプリングシナリオにおいてそれらを上回ります。

We consider regression of a max-affine model that produces a piecewise linear model by combining affine models via the max function. The max-affine model ubiquitously arises in applications in signal processing and statistics including multiclass classification, auction problems, and convex regression. It also generalizes phase retrieval and learning rectifier linear unit activation functions. We present a non-asymptotic convergence analysis of gradient descent (GD) and mini-batch stochastic gradient descent (SGD) for max-affine regression when the model is observed at random locations following the sub-Gaussianity and an anti-concentration with additive sub-Gaussian noise. Under these assumptions, a suitably initialized GD and SGD converge linearly to a neighborhood of the ground truth specified by the corresponding error bound. We provide numerical results that corroborate the theoretical finding. Importantly, SGD not only converges faster in run time with fewer observations than alternating minimization and GD in the noiseless scenario but also outperforms them in low-sample scenarios with noise.
翻訳日:2023-08-17 15:23:34 公開日:2023-08-15
# データセンター計算ノードの消費電力削減のための強化学習手法

A Reinforcement Learning Approach for Performance-aware Reduction in Power Consumption of Data Center Compute Nodes ( http://arxiv.org/abs/2308.08069v1 )

ライセンス: Link先を確認
Akhilesh Raj, Swann Perarnau, Aniruddha Gokhale(参考訳) Exascaleコンピューティングが現実になるにつれて、クラウドデータセンターにおける計算ノードのエネルギー需要は増え続けるだろう。 このエネルギー需要を減らす一般的なアプローチは、ワークロードがシステム内の他の場所でボトルネックが発生している場合に、ハードウェアコンポーネントの消費電力を制限することである。 しかし、オンザフライで消費電力を検出し制限できるリソースコントローラの設計は複雑な問題であり、アプリケーションパフォーマンスにも悪影響を及ぼす可能性がある。 本稿では,現在の電力消費と瞬時アプリケーション性能(heartbeats)の観測結果を用いて,クラウド計算ノードの電力キャッピングポリシを設計するための強化学習(rl)の利用について検討する。 本稿では,Argo Node Resource Management (NRM) ソフトウェアスタックと Intel Runing Average Power Limit (RAPL) ハードウェア制御機構を併用して,アプリケーションの性能を損なうことなくプロセッサに供給される最大電力を制御するエージェントを設計する。 本稿では,ppoエージェントを用いて計算ノード数理モデルにおける最適ポリシーを学習し,実ハードウェア上で動作する訓練エージェントが消費電力とアプリケーション性能のバランスをとることでどのように行動するかをストリームベンチマークを用いて実証し,評価する。

As Exascale computing becomes a reality, the energy needs of compute nodes in cloud data centers will continue to grow. A common approach to reducing this energy demand is to limit the power consumption of hardware components when workloads are experiencing bottlenecks elsewhere in the system. However, designing a resource controller capable of detecting and limiting power consumption on-the-fly is a complex issue and can also adversely impact application performance. In this paper, we explore the use of Reinforcement Learning (RL) to design a power capping policy on cloud compute nodes using observations on current power consumption and instantaneous application performance (heartbeats). By leveraging the Argo Node Resource Management (NRM) software stack in conjunction with the Intel Running Average Power Limit (RAPL) hardware control mechanism, we design an agent to control the maximum supplied power to processors without compromising on application performance. Employing a Proximal Policy Optimization (PPO) agent to learn an optimal policy on a mathematical model of the compute nodes, we demonstrate and evaluate using the STREAM benchmark how a trained agent running on actual hardware can take actions by balancing power consumption and application performance.
翻訳日:2023-08-17 15:23:12 公開日:2023-08-15
# コストジレンマ:大規模言語モデルの一般化、評価、コスト最適展開

The Costly Dilemma: Generalization, Evaluation and Cost-Optimal Deployment of Large Language Models ( http://arxiv.org/abs/2308.08061v1 )

ライセンス: Link先を確認
Abi Aryan, Aakash Kumar Nain, Andrew McMahon, Lucas Augusto Meyer, Harpreet Singh Sahota(参考訳) 製品/アプリケーションの実運用環境に機械学習モデルをデプロイする場合、一般的に望まれる3つの特性がある。 まず、ドメイン領域に関する知識が発展するにつれて、さらにユースケースに拡張できるモデルが一般化されるべきです。 第二に、パフォーマンスの明確な指標と製品設定でのメトリクスの計算が実現可能であるように、彼らは回避可能であるべきです。 最後に、デプロイメントは可能な限りコスト最適であるべきです。 本稿では,これらの3つの目的(一般化,評価,コスト最適性)は比較的直交的であり,大規模言語モデルでは従来のNLPモデルよりも性能が高いにもかかわらず,企業が本技術に実質的な投資を行う前に,これら3つの要因をすべて慎重に評価する必要があることを提案する。 本稿では,大規模言語モデルに特化した一般化,評価,コストモデリングのためのフレームワークを提案し,これら大規模言語モデルの開発と展開,管理の複雑さについて考察する。

When deploying machine learning models in production for any product/application, there are three properties that are commonly desired. First, the models should be generalizable, in that we can extend it to further use cases as our knowledge of the domain area develops. Second they should be evaluable, so that there are clear metrics for performance and the calculation of those metrics in production settings are feasible. Finally, the deployment should be cost-optimal as far as possible. In this paper we propose that these three objectives (i.e. generalization, evaluation and cost-optimality) can often be relatively orthogonal and that for large language models, despite their performance over conventional NLP models, enterprises need to carefully assess all the three factors before making substantial investments in this technology. We propose a framework for generalization, evaluation and cost-modeling specifically tailored to large language models, offering insights into the intricacies of development, deployment and management for these large language models.
翻訳日:2023-08-17 15:22:50 公開日:2023-08-15
# ゼロ膨張ポアソンモデルを用いたロバストベイズテンソル因子分解とコンセンサス集計

Robust Bayesian Tensor Factorization with Zero-Inflated Poisson Model and Consensus Aggregation ( http://arxiv.org/abs/2308.08060v1 )

ライセンス: Link先を確認
Daniel Chafamo, Vignesh Shanmugam, Neriman Tokcan(参考訳) テンソル分解(TF)は多次元データの効率的な表現と解析のための強力なツールである。 しかし、単一セルRNAシークエンシング(scRNA-seq)データなどのゼロインフレーションカウントデータに適用した場合、最大推定値に基づく古典的なTF法は、性能が低い。 さらに、TFに固有の確率性は、繰り返し実行毎に異なる要因をもたらし、結果の解釈と再現性が困難になる。 本稿では,過剰な零点を持つ高次元カウントデータの因子分解に対する新しいアプローチである,ゼロ膨張ポアソンテンソル因子分解(ziptf)を提案する。 確率性の課題を解決するために,ZIPTFと合意に基づくメタ分析を組み合わせたConsensus Zero Inflated Poisson Tensor Factorization (C-ZIPTF)を導入する。 提案したZIPTFとC-ZIPTFを合成ゼロインフレーションカウントデータと合成および実scRNA-seqデータに基づいて評価した。 ZIPTFは、ゼロインフレドデータの再構成精度の観点から、ベースライン行列とテンソル分解法を一貫して上回る。 余剰ゼロの確率が高い場合、ZIPTFは最大2.4\times$より精度が良い。 さらに、C-ZIPTFは分解の一貫性と精度を大幅に改善する。 合成および実scRNA-seqデータの両方で試験すると、ZIPTFとC-ZIPTFは、既知の生物学的に意味のある遺伝子発現プログラムを一貫して回復する。

Tensor factorizations (TF) are powerful tools for the efficient representation and analysis of multidimensional data. However, classic TF methods based on maximum likelihood estimation underperform when applied to zero-inflated count data, such as single-cell RNA sequencing (scRNA-seq) data. Additionally, the stochasticity inherent in TFs results in factors that vary across repeated runs, making interpretation and reproducibility of the results challenging. In this paper, we introduce Zero Inflated Poisson Tensor Factorization (ZIPTF), a novel approach for the factorization of high-dimensional count data with excess zeros. To address the challenge of stochasticity, we introduce Consensus Zero Inflated Poisson Tensor Factorization (C-ZIPTF), which combines ZIPTF with a consensus-based meta-analysis. We evaluate our proposed ZIPTF and C-ZIPTF on synthetic zero-inflated count data and synthetic and real scRNA-seq data. ZIPTF consistently outperforms baseline matrix and tensor factorization methods in terms of reconstruction accuracy for zero-inflated data. When the probability of excess zeros is high, ZIPTF achieves up to $2.4\times$ better accuracy. Additionally, C-ZIPTF significantly improves the consistency and accuracy of the factorization. When tested on both synthetic and real scRNA-seq data, ZIPTF and C-ZIPTF consistently recover known and biologically meaningful gene expression programs.
翻訳日:2023-08-17 15:22:32 公開日:2023-08-15
# 量子相互情報の自然軌道とスパーシティ

Natural orbitals and sparsity of quantum mutual information ( http://arxiv.org/abs/2308.08056v1 )

ライセンス: Link先を確認
Leonardo Ratini, Chiara Capecci, Leonardo Guidoni(参考訳) 電子構造と量子化学において、基底状態の1粒子還元密度行列を対角化する(分子)軌道として定義される自然軌道は、電子相関を記述するための完全な基準軌道であると何十年も推測されてきた。 本研究では,Wavefunction-Adapted Hamiltonian Through Orbital Rotation (WAHTOR) 法を適用し,量子コンピューティングにおける相関した経験的アンス・アッツの研究を行った。 すべての代表的な分子において、収束した軌道が自然軌道と一致することを示す。 興味深いことに、そのような軌道上に構築された結果の量子相互情報行列も極端にスパースであり、そのような軌道選択が電子相関を記述するための最適な基底を与えることができるという明確なイメージを提供する。 したがって、相関は量子相互情報行列に寄与する量子ビット対の少ない数で符号化される。

Natural orbitals, defined in electronic structure and quantum chemistry as the (molecular) orbitals diagonalizing the one-particle reduced density matrix of the ground state, have been conjectured for decades to be the perfect reference orbitals to describe electron correlation. In the present work we applied the Wavefunction-Adapted Hamiltonian Through Orbital Rotation (WAHTOR) method to study correlated empirical ans\"atze for quantum computing. In all representative molecules considered, we show that the converged orbitals are coinciding with natural orbitals. Interestingly, the resulting quantum mutual information matrix built on such orbitals is also maximally sparse, providing a clear picture that such orbital choice is indeed able to provide the optimal basis to describe electron correlation. The correlation is therefore encoded in a smaller number of qubit pairs contributing to the quantum mutual information matrix.
翻訳日:2023-08-17 15:22:06 公開日:2023-08-15
# oracleによるシンプルなオンライン学習

Simple online learning with consistency oracle ( http://arxiv.org/abs/2308.08055v1 )

ライセンス: Link先を確認
Alexander Kozachinskiy, Tomasz Steifer(参考訳) オンライン学習は、学習アルゴリズムが一貫性の神託(oracle)を通じてのみクラスにアクセスすることができるモデルにおいて検討する。 このモデルはAssosらによって最近検討された(COLT'23)。 これは、オンライン学習の標準的な方法がサブクラスのリトルストーン次元の計算に依存しているという事実に動機づけられている。 assosらはこのモデルでオンライン学習アルゴリズムを提供し、リトルストーン次元のクラスに対して最大$c^d$の誤りを生じさせる。 我々は少なくとも$O(256^d)$ミスを犯す新しいアルゴリズムを与える。 この証明は非常に単純であり、リトルストーン次元の非常に基本的な性質のみを用いる。 また、このモデルには、少なくとも2^{d+1}-2$の誤りを犯すアルゴリズムが存在しないことも観察する。 また、我々のアルゴリズム(Assosらのアルゴリズムと同様に)がHasratiとBen-David(ALT'23)によるオープンな問題を解くことも観察した。 すなわち、再帰的可算表現を持つ有限小石次元のすべてのクラスは、計算可能なオンライン学習者(非実現可能なサンプルでは定義できないかもしれない)を認める。

We consider online learning in the model where a learning algorithm can access the class only via the consistency oracle -- an oracle, that, at any moment, can give a function from the class that agrees with all examples seen so far. This model was recently considered by Assos et al. (COLT'23). It is motivated by the fact that standard methods of online learning rely on computing the Littlestone dimension of subclasses, a problem that is computationally intractable. Assos et al. gave an online learning algorithm in this model that makes at most $C^d$ mistakes on classes of Littlestone dimension $d$, for some absolute unspecified constant $C > 0$. We give a novel algorithm that makes at most $O(256^d)$ mistakes. Our proof is significantly simpler and uses only very basic properties of the Littlestone dimension. We also observe that there exists no algorithm in this model that makes at most $2^{d+1}-2$ mistakes. We also observe that our algorithm (as well as the algorithm of Assos et al.) solves an open problem by Hasrati and Ben-David (ALT'23). Namely, it demonstrates that every class of finite Littlestone dimension with recursively enumerable representation admits a computable online learner (that may be undefined on unrealizable samples).
翻訳日:2023-08-17 15:21:53 公開日:2023-08-15
# 確率的変分推論のためのブラックボックス推定器としての自然進化戦略

Natural Evolution Strategies as a Black Box Estimator for Stochastic Variational Inference ( http://arxiv.org/abs/2308.08053v1 )

ライセンス: Link先を確認
Ahmad Ayaz Amin(参考訳) 確率的変分推論とその変分オートエンコーダの形での導出は、大規模なデータセット上で効率的な方法でベイズ推論を行うことができる。 しかしながら、VAEで推論を行うには、偏りのない低分散勾配推定を可能にする設計選択(すなわち再パラメータ化トリック)が必要であり、生成可能なモデルのタイプを制限する。 この課題を克服するために,自然進化戦略に基づく代替推定器を提案する。 この推定器は使用される分布の種類を仮定せず、vaeフレームワークの下では不可能だったモデルの作成を可能にする。

Stochastic variational inference and its derivatives in the form of variational autoencoders enjoy the ability to perform Bayesian inference on large datasets in an efficient manner. However, performing inference with a VAE requires a certain design choice (i.e. reparameterization trick) to allow unbiased and low variance gradient estimation, restricting the types of models that can be created. To overcome this challenge, an alternative estimator based on natural evolution strategies is proposed. This estimator does not make assumptions about the kind of distributions used, allowing for the creation of models that would otherwise not have been possible under the VAE framework.
翻訳日:2023-08-17 15:21:30 公開日:2023-08-15
# 非バイアス決定は後悔を減らす:銀行ローン問題に対する敵対的ドメイン適応

Unbiased Decisions Reduce Regret: Adversarial Domain Adaptation for the Bank Loan Problem ( http://arxiv.org/abs/2308.08051v1 )

ライセンス: Link先を確認
Elena Gal, Shaun Singh, Aldo Pacchiano, Ben Walker, Terry Lyons, Jakob Foerster(参考訳) 多くの実世界では、バイナリ分類の決定は、例えばローンアプリケーションを評価する際に、ほぼリアルタイムで限られたデータに基づいて行われる。 真のラベルは、データポイントがプリンシパルによってポジティブなラベルに割り当てられたときにのみ観察されます。例えば、申請者がローンの申請を受け入れた場合にデフォルトかどうかを判断するだけです。 その結果、偽の拒絶は自己申告となり、モデル決定によって継続的に更新されるラベル付きトレーニングセットがバイアスを蓄積させる。 先行作業は、モデルに楽観主義を注入することでこの効果を緩和するが、これは偽の受け入れ率の増加のコストによって生じる。 アドバサリアン・オプティミズム(adversarial optimism,adopt)を導入し,アドバサリアン・ドメイン適応を用いたトレーニングセットのバイアスに直接対処する。 AdOptの目標は、受け入れられたデータポイントの集合とこれまで見てきたすべてのデータポイントの間の分散シフトを減らすことで、過去のデータのバイアスのない、情報のない表現を学ぶことである。 AdOptは、一連の挑戦的なベンチマーク問題において最先端のパフォーマンスを大幅に上回る。 また,本実験では,敵領域適応の導入により,公平性が向上することを示す。

In many real world settings binary classification decisions are made based on limited data in near real-time, e.g. when assessing a loan application. We focus on a class of these problems that share a common feature: the true label is only observed when a data point is assigned a positive label by the principal, e.g. we only find out whether an applicant defaults if we accepted their loan application. As a consequence, the false rejections become self-reinforcing and cause the labelled training set, that is being continuously updated by the model decisions, to accumulate bias. Prior work mitigates this effect by injecting optimism into the model, however this comes at the cost of increased false acceptance rate. We introduce adversarial optimism (AdOpt) to directly address bias in the training set using adversarial domain adaptation. The goal of AdOpt is to learn an unbiased but informative representation of past data, by reducing the distributional shift between the set of accepted data points and all data points seen thus far. AdOpt significantly exceeds state-of-the-art performance on a set of challenging benchmark problems. Our experiments also provide initial evidence that the introduction of adversarial domain adaptation improves fairness in this setting.
翻訳日:2023-08-17 15:21:21 公開日:2023-08-15
# 統合CTCと補助損失正規化によるCTC-AEDモデルの改善

Improving CTC-AED model with integrated-CTC and auxiliary loss regularization ( http://arxiv.org/abs/2308.08449v1 )

ライセンス: Link先を確認
Daobin Zhu, Xiangdong Su and Hongbin Zhang(参考訳) コネクショニスト時間分類 (ctc) と注意型エンコーダデコーダ (aed) の合同訓練は自動音声認識 (asr) に広く適用されている。 CTCとAEDの損失を別々に計算するほとんどのハイブリッドモデルとは異なり、提案した統合CTCはAEDの注意機構を利用してCTCの出力を誘導する。 本稿では,ロジットの直接付加(DAL)と最大確率保存(PMP)の2つの融合手法を用いる。 我々は,CTCの寸法に適合するように注意結果を適応的にアフィン変換することで,次元整合性を実現する。 モデル収束を高速化し、精度を向上させるため、加速収束のための補助損失正規化を導入する。 実験の結果, pmp法がctcプレフィックスビーム探索や欲望探索に優れているのに対し, dal法の方が注意喚起に優れることがわかった。

Connectionist temporal classification (CTC) and attention-based encoder decoder (AED) joint training has been widely applied in automatic speech recognition (ASR). Unlike most hybrid models that separately calculate the CTC and AED losses, our proposed integrated-CTC utilizes the attention mechanism of AED to guide the output of CTC. In this paper, we employ two fusion methods, namely direct addition of logits (DAL) and preserving the maximum probability (PMP). We achieve dimensional consistency by adaptively affine transforming the attention results to match the dimensions of CTC. To accelerate model convergence and improve accuracy, we introduce auxiliary loss regularization for accelerated convergence. Experimental results demonstrate that the DAL method performs better in attention rescoring, while the PMP method excels in CTC prefix beam search and greedy search.
翻訳日:2023-08-17 12:56:25 公開日:2023-08-15
# ファイナンスにおけるQuantum Generative Adversarial Network(qGAN)とQCBMの実装

Implementing Quantum Generative Adversarial Network (qGAN) and QCBM in Finance ( http://arxiv.org/abs/2308.08448v1 )

ライセンス: Link先を確認
Santanu Ganguly(参考訳) 量子機械学習(QML)は、量子コンピューティングと古典的機械学習(ML)という2つの最もエキサイティングな研究領域からなる学際的な主題である。 量子コンピュータは今日、薬物発見、物質と分子モデリング、ファイナンスで使われている。 本稿では、金融分野における量子機械学習(QML)の適用について、今後の活発な研究分野について論じる。 様々な応用の金融界に積極的に関心を寄せる分野となった特定のQMLモデルについて論じる。 実世界の金融データセットを用いて,シミュレーション環境を用いてqgan(quantum generative adversarial networks)やqcbm(quantum circuit born machine)などのモデルを比較する。 我々は,qGANについて,識別器とジェネレータの量子回路を定義し,ファイナンスにおけるQMLによる将来の量子優位性を示す。

Quantum machine learning (QML) is a cross-disciplinary subject made up of two of the most exciting research areas: quantum computing and classical machine learning (ML), with ML and artificial intelligence (AI) being projected as the first fields that will be impacted by the rise of quantum machines. Quantum computers are being used today in drug discovery, material & molecular modelling and finance. In this work, we discuss some upcoming active new research areas in application of quantum machine learning (QML) in finance. We discuss certain QML models that has become areas of active interest in the financial world for various applications. We use real world financial dataset and compare models such as qGAN (quantum generative adversarial networks) and QCBM (quantum circuit Born machine) among others, using simulated environments. For the qGAN, we define quantum circuits for discriminators and generators and show promises of future quantum advantage via QML in finance.
翻訳日:2023-08-17 12:56:09 公開日:2023-08-15
# 最短経路

Tightest Admissible Shortest Path ( http://arxiv.org/abs/2308.08453v1 )

ライセンス: Link先を確認
Eyal Weiss, Ariel Felner, Gal A. Kaminka(参考訳) グラフにおける最短経路問題はAIの基本である。 問題のほとんど全ての変種とそれを解決する関連するアルゴリズムは、エッジウェイト計算時間とその重みの不確かさとの共通関係を無視している。 これは、これらの要因を考慮に入れれば、関連するアプリケーションのパフォーマンスが向上する可能性があることを意味する。 近年,重み付き有向グラフの一般化フレームワークが提案され,エッジウェイトを複数回(推定)し,精度の向上と実行時費用の増大を図った。 我々は,最短最短経路 (TASP) を最適コストに縛られた最短経路 (TASP) を求める問題を提起するために,この枠組みを構築した。 これは、エッジウェイト不確実性を計算コストで交換できる境界不確実性への最短経路問題の一般化である。 我々は、ソリューションの品質を保証し、TASPを解くための完全なアルゴリズムを提案する。 経験的評価はこのアプローチの有効性を支持する。

The shortest path problem in graphs is fundamental to AI. Nearly all variants of the problem and relevant algorithms that solve them ignore edge-weight computation time and its common relation to weight uncertainty. This implies that taking these factors into consideration can potentially lead to a performance boost in relevant applications. Recently, a generalized framework for weighted directed graphs was suggested, where edge-weight can be computed (estimated) multiple times, at increasing accuracy and run-time expense. We build on this framework to introduce the problem of finding the tightest admissible shortest path (TASP); a path with the tightest suboptimality bound on the optimal cost. This is a generalization of the shortest path problem to bounded uncertainty, where edge-weight uncertainty can be traded for computational cost. We present a complete algorithm for solving TASP, with guarantees on solution quality. Empirical evaluation supports the effectiveness of this approach.
翻訳日:2023-08-17 12:42:56 公開日:2023-08-15
# クリックスルーレート予測のための時間的関心ネットワーク

Temporal Interest Network for Click-Through Rate Prediction ( http://arxiv.org/abs/2308.08487v1 )

ライセンス: Link先を確認
Haolin Zhou, Junwei Pan, Xinyi Zhou, Xihua Chen, Jie Jiang, Xiaofeng Gao, Guihai Chen(参考訳) ユーザ行動の歴史は,クリックスルー率(CTR)を予測する上で最も重要な特徴の1つである。 文献はそれぞれの相関関係を個別に検討しているが、研究はこれらの相関関係(行動意味論、標的意味論、行動時間論、対象時間論)を組み合わせて分析していない。 この相関が既存の手法が学習する程度や性能に与える影響はいまだ不明である。 このギャップに対処するために、経験的に四重相関を計測し、直感的で頑健な四重相関パターンを観察する。 いくつかの代表的なユーザ行動手法の学習相関を計測するが、意外なことに、そのようなパターン、特に時間的パターンを学習する者はいない。 本稿では,行動と対象の時間的相関と4重意味を捉えるための時間的関心ネットワーク(TIN)を提案する。 これを実現するために,意味的埋め込みに加えて,対象を意識したテンポラルエンコーディングを組み込んで行動や対象を表現する。 さらに、4方向インタラクションを明示的に行うために、ターゲット対応の注意とターゲット対応の表現を配置する。 AmazonとAlibabaのデータセットで包括的な評価を行いました。 提案したTINは,2つのデータセットでそれぞれ0.43\%,0.29\%の最高性能のベースラインを上回った。 包括的解析と可視化は、TINが4重相関を効果的に学習できることを示したが、既存の手法は全てそうはならなかった。 我々はTensorflowにおけるTINの実装を提供します。

The history of user behaviors constitutes one of the most significant characteristics in predicting the click-through rate (CTR), owing to their strong semantic and temporal correlation with the target item. While the literature has individually examined each of these correlations, research has yet to analyze them in combination, that is, the quadruple correlation of (behavior semantics, target semantics, behavior temporal, and target temporal). The effect of this correlation on performance and the extent to which existing methods learn it remain unknown. To address this gap, we empirically measure the quadruple correlation and observe intuitive yet robust quadruple patterns. We measure the learned correlation of several representative user behavior methods, but to our surprise, none of them learn such a pattern, especially the temporal one. In this paper, we propose the Temporal Interest Network (TIN) to capture the quadruple semantic and temporal correlation between behaviors and the target. We achieve this by incorporating target-aware temporal encoding, in addition to semantic embedding, to represent behaviors and the target. Furthermore, we deploy target-aware attention, along with target-aware representation, to explicitly conduct the 4-way interaction. We performed comprehensive evaluations on the Amazon and Alibaba datasets. Our proposed TIN outperforms the best-performing baselines by 0.43\% and 0.29\% on two datasets, respectively. Comprehensive analysis and visualization show that TIN is indeed capable of learning the quadruple correlation effectively, while all existing methods fail to do so. We provide our implementation of TIN in Tensorflow.
翻訳日:2023-08-17 12:35:48 公開日:2023-08-15
# MaxSATによる安定化器符号の最適合成

Optimal Synthesis of Stabilizer Codes via MaxSAT ( http://arxiv.org/abs/2308.06428v2 )

ライセンス: Link先を確認
Keyi Yin, Hezi Zhang, Yunong Shi, Travis Humble, Ang Li, Yufei Ding(参考訳) 量子誤り訂正(QEC)符号は、長期にわたってフォールトトレラント量子コンピューティングを達成するために重要である。 しかし、ハードウェア上でこれらのコードを効率的に実装するには、ハードウェア接続マッチング、効率的な回路スケジューリング、フォールトトレランス強制など、重大な課題がある。 本研究では,maxsatを用いて汎用安定化器コードを多種多様なハードウェア構造に縫い付ける最適合成器を提案する。 本評価は,(1)様々なコードやデバイスに適用するアプローチの能力,(2)特定のqec符号のみを対象とする最善の事前ヒューリスティックアプローチよりも一貫して優れた効率を示す。 高レベルのQECコード設計と低レベルのハードウェア制約のギャップを埋めることにより、この作業は長期のフォールトトレラントな量子コンピューティング目標を達成するための道を開く。

Quantum Error Correction (QEC) codes are crucial for achieving fault-tolerant quantum computing in the long term. However, efficiently implementing these codes on hardware poses significant challenges, including hardware connectivity matching, efficient circuit scheduling, and fault-tolerance enforcement. In this study, we present an optimal synthesizer that stitches generic stabilizer codes onto diverse hardware structures via MaxSAT. Our evaluation demonstrates (1) the capability of our approach to be applied for various codes and devices and (2) the consistently better efficiency than the best prior heuristic approaches that only target specific QEC codes. By bridging the gap between high-level QEC code design and low-level hardware constraints, this work paves the way toward achieving long-term fault-tolerant quantum computing goals.
翻訳日:2023-08-17 10:31:10 公開日:2023-08-15
# シングルショットデフレクトメトリーによる高密度3次元表面再構成からの正確な視線追跡

Accurate Eye Tracking from Dense 3D Surface Reconstructions using Single-Shot Deflectometry ( http://arxiv.org/abs/2308.07298v2 )

ライセンス: Link先を確認
Jiazhang Wang, Tianfu Wang, Bingjie Xu, Oliver Cossairt, Florian Willomitzer(参考訳) 視線追跡は、仮想現実デバイス、神経科学研究、心理学の発展において重要な役割を果たす。 多くのアプリケーションでその重要性はあったが、正確で堅牢で高速な視線追跡ソリューションの実現は、現在の最先端の手法にとって大きな課題である。 既存の反射に基づく技術(例えば「グリントトラッキング」)は最も正確であると考えられているが、その性能は角膜表面からのみ取得されたスパース3D表面データに依存しているため限られている。 本稿では,視線追跡における鏡面反射の応用法を再考し,単発位相計測法(pmd)からの指導を生かした視線方向の高精度かつ高速評価法を提案する。 現状の反射法とは対照的に,本手法は1枚のカメラフレーム(単一ショット)で角膜と頭蓋の密集した3次元表面情報を取得する。 取得された係数$>3300 \times$の反射面点("glints")の改善は容易に達成できる。 実験で評価した視線誤差は$\leq 0.25^\circ$であり,現状よりも大幅に改善した。

Eye-tracking plays a crucial role in the development of virtual reality devices, neuroscience research, and psychology. Despite its significance in numerous applications, achieving an accurate, robust, and fast eye-tracking solution remains a considerable challenge for current state-of-the-art methods. While existing reflection-based techniques (e.g., "glint tracking") are considered the most accurate, their performance is limited by their reliance on sparse 3D surface data acquired solely from the cornea surface. In this paper, we rethink the way how specular reflections can be used for eye tracking: We propose a novel method for accurate and fast evaluation of the gaze direction that exploits teachings from single-shot phase-measuring-deflectometry (PMD). In contrast to state-of-the-art reflection-based methods, our method acquires dense 3D surface information of both cornea and sclera within only one single camera frame (single-shot). Improvements in acquired reflection surface points("glints") of factors $>3300 \times$ are easily achievable. We show the feasibility of our approach with experimentally evaluated gaze errors of only $\leq 0.25^\circ$ demonstrating a significant improvement over the current state-of-the-art.
翻訳日:2023-08-17 10:22:11 公開日:2023-08-15
# LCE: Pythonにおけるバッグングとブースティングの強化された組み合わせ

LCE: An Augmented Combination of Bagging and Boosting in Python ( http://arxiv.org/abs/2308.07250v2 )

ライセンス: Link先を確認
Kevin Fauvel, \'Elisa Fromont, V\'eronique Masson, Philippe Faverdin and Alexandre Termier(参考訳) lcensembleは、分類と回帰の一般的なタスクのための、高性能でスケーラブルでユーザフレンドリーなpythonパッケージである。 このパッケージは、現在の最先端メソッドであるRandom ForestとXGBoostの予測性能をさらに向上する機械学習手法であるLocal Cascade Ensemble (LCE)を実装している。 LCEはその強みを結合し、より良い一般化予測子を得るために相補的な多様化アプローチを採用する。 パッケージはScikit-learnと互換性があるため、Scikit-learnパイプラインやモデル選択ツールと対話することができる。 Apache 2.0ライセンス下で配布されており、ソースコードはhttps://github.com/LocalCascadeEnsemble/LCEで入手できる。

lcensemble is a high-performing, scalable and user-friendly Python package for the general tasks of classification and regression. The package implements Local Cascade Ensemble (LCE), a machine learning method that further enhances the prediction performance of the current state-of-the-art methods Random Forest and XGBoost. LCE combines their strengths and adopts a complementary diversification approach to obtain a better generalizing predictor. The package is compatible with scikit-learn, therefore it can interact with scikit-learn pipelines and model selection tools. It is distributed under the Apache 2.0 license, and its source code is available at https://github.com/LocalCascadeEnsemble/LCE.
翻訳日:2023-08-17 10:21:28 公開日:2023-08-15
# 胃組織学学習のためのマルチスケールハイブリッド視覚トランスフォーマ--胃癌治療のためのaiに基づく意思決定支援システム

Multi-Scale Hybrid Vision Transformer for Learning Gastric Histology: AI-Based Decision Support System for Gastric Cancer Treatment ( http://arxiv.org/abs/2202.08510v4 )

ライセンス: Link先を確認
Yujin Oh, Go Eun Bae, Kyung-Hee Kim, Min-Kyung Yeo, Jong Chul Ye(参考訳) 胃内視鏡検査は早期に適切な胃癌(GC)治療を判定し,GC関連死亡率を低下させる有効な方法である。 人工知能(AI)は、病理学者がスライド画像全体をデジタル化するのを助けるという大きな約束をもたらしたが、既存のAIシステムは、微細ながんの亜分類に限られており、がん治療の計画にはほとんど利用できない。 本稿では,一般のGC治療指導と直接一致する5つのGC病理のサブ分類を可能にする実用的なAIシステムを提案する。 このaiシステムは、2段階のハイブリッドビジョントランスフォーマー(vit)ネットワークを用いたマルチスケールなセルフアテンション機構を通じて、人間の病理学者が組織学を理解する方法を模倣することにより、gcの多クラスを効率的に区別するように設計されている。 このAIシステムは、多中心コホートから合計1,212スライドで平均0.85以上のクラス平均感度を達成することにより、信頼性の高い診断性能を示す。 さらに,ai支援の病理学者は,診断感度が12%向上し,スクリーニング時間は18%低下した。 以上より,ai支援胃内視鏡スクリーニングは,胃癌の病理所見と適切な癌治療を実際的臨床環境に提供できる可能性が示唆された。

Gastric endoscopic screening is an effective way to decide appropriate gastric cancer (GC) treatment at an early stage, reducing GC-associated mortality rate. Although artificial intelligence (AI) has brought a great promise to assist pathologist to screen digitalized whole slide images, existing AI systems are limited in fine-grained cancer subclassifications and have little usability in planning cancer treatment. We propose a practical AI system that enables five subclassifications of GC pathology, which can be directly matched to general GC treatment guidance. The AI system is designed to efficiently differentiate multi-classes of GC through multi-scale self-attention mechanism using 2-stage hybrid Vision Transformer (ViT) networks, by mimicking the way how human pathologists understand histology. The AI system demonstrates reliable diagnostic performance by achieving class-average sensitivity of above 0.85 on a total of 1,212 slides from multicentric cohort. Furthermore, AI-assisted pathologists show significantly improved diagnostic sensitivity by 12% in addition to 18% reduced screening time compared to human pathologists. Our results demonstrate that AI-assisted gastric endoscopic screening has a great potential for providing presumptive pathologic opinion and appropriate cancer treatment of gastric cancer in practical clinical settings.
翻訳日:2023-08-16 17:58:37 公開日:2023-08-15
# 不完全データからの統計的モデル推定のための変分ギブス推定

Variational Gibbs Inference for Statistical Model Estimation from Incomplete Data ( http://arxiv.org/abs/2111.13180v4 )

ライセンス: Link先を確認
Vaidotas Simkus, Benjamin Rhodes, Michael U. Gutmann(参考訳) 統計モデルは、ダウンストリームタスクの幅広い適用性を備えた機械学習の中心である。 モデルは自由パラメータによって制御され、データから最大類似度推定や近似によって推定される。 しかし、現実のデータセットに直面すると、多くのモデルが重大な問題に直面する。それらは完全な観測データの観点から定式化されているのに対して、実際にはデータセットは欠落データに悩まされている。 不完全データからの統計モデル推定の理論は、変分推論(VI)のような強力なツールが存在する潜在変数モデルの推定と概念的に類似している。 しかし、標準の潜在変数モデルとは対照的に、不完全データを用いたパラメータ推定は、しばしば欠落変数の指数関数的に多くの条件分布を推定する必要がある。 不完全データから統計モデルのパラメータを推定する新しい汎用手法である変分ギブス推論(VGI)を導入することで、このギャップに対処する。 不完全データからの変分オートエンコーダや正規化フローなどの重要な機械学習モデルを推定し、VGIを一連の合成および実世界の推定タスクで検証する。 提案手法は汎用的ではあるが,既存のモデル固有推定法よりも競争力や性能が向上する。

Statistical models are central to machine learning with broad applicability across a range of downstream tasks. The models are controlled by free parameters that are typically estimated from data by maximum-likelihood estimation or approximations thereof. However, when faced with real-world data sets many of the models run into a critical issue: they are formulated in terms of fully-observed data, whereas in practice the data sets are plagued with missing data. The theory of statistical model estimation from incomplete data is conceptually similar to the estimation of latent-variable models, where powerful tools such as variational inference (VI) exist. However, in contrast to standard latent-variable models, parameter estimation with incomplete data often requires estimating exponentially-many conditional distributions of the missing variables, hence making standard VI methods intractable. We address this gap by introducing variational Gibbs inference (VGI), a new general-purpose method to estimate the parameters of statistical models from incomplete data. We validate VGI on a set of synthetic and real-world estimation tasks, estimating important machine learning models such as variational autoencoders and normalising flows from incomplete data. The proposed method, whilst general-purpose, achieves competitive or better performance than existing model-specific estimation methods.
翻訳日:2023-08-16 17:58:13 公開日:2023-08-15
# 因果図におけるクラスタリングと構造ロバスト性

Clustering and Structural Robustness in Causal Diagrams ( http://arxiv.org/abs/2111.04513v3 )

ライセンス: Link先を確認
Santtu Tikka and Jouni Helske and Juha Karvanen(参考訳) グラフは因果関係の表現と視覚化に一般的に使用される。 少数の変数に対して、このアプローチは、手元にあるシナリオの簡潔で明確なビューを提供する。 研究中の変数の数が増えるにつれて、グラフィカルなアプローチは現実的ではなくなり、表現の明確さは失われる。 変数のクラスタリングは因果図のサイズを減らす自然な方法であるが、任意に実装すれば、因果関係の本質的性質を誤って変更することができる。 我々は、特定の条件下で因果効果の識別可能性特性を保持できるトランジットクラスタと呼ばれる特定のタイプのクラスターを定義する。 与えられたグラフ内のすべてのトランジットクラスタを見つけ出すための健全で完全なアルゴリズムを提供し,因果効果の同定をクラスタ化がいかに簡単かを示す。 また,クラスターグラフから始まって,因果効果の識別可能性特性が変化しない拡張グラフを求める逆問題についても検討した。 このような構造的ロバスト性はトランジットクラスターと密接に関連している。

Graphs are commonly used to represent and visualize causal relations. For a small number of variables, this approach provides a succinct and clear view of the scenario at hand. As the number of variables under study increases, the graphical approach may become impractical, and the clarity of the representation is lost. Clustering of variables is a natural way to reduce the size of the causal diagram, but it may erroneously change the essential properties of the causal relations if implemented arbitrarily. We define a specific type of cluster, called transit cluster, that is guaranteed to preserve the identifiability properties of causal effects under certain conditions. We provide a sound and complete algorithm for finding all transit clusters in a given graph and demonstrate how clustering can simplify the identification of causal effects. We also study the inverse problem, where one starts with a clustered graph and looks for extended graphs where the identifiability properties of causal effects remain unchanged. We show that this kind of structural robustness is closely related to transit clusters.
翻訳日:2023-08-16 17:57:52 公開日:2023-08-15
# 画像処理メトリクスの一般的な制限:ピクチャーストーリー

Common Limitations of Image Processing Metrics: A Picture Story ( http://arxiv.org/abs/2104.05642v7 )

ライセンス: Link先を確認
Annika Reinke, Minu D. Tizabi, Carole H. Sudre, Matthias Eisenmann, Tim R\"adsch, Michael Baumgartner, Laura Acion, Michela Antonelli, Tal Arbel, Spyridon Bakas, Peter Bankhead, Arriel Benis, Matthew Blaschko, Florian B\"uttner, M. Jorge Cardoso, Jianxu Chen, Veronika Cheplygina, Evangelia Christodoulou, Beth Cimini, Gary S. Collins, Sandy Engelhardt, Keyvan Farahani, Luciana Ferrer, Adrian Galdran, Bram van Ginneken, Ben Glocker, Patrick Godau, Robert Haase, Fred Hamprecht, Daniel A. Hashimoto, Doreen Heckmann-N\"otzel, Peter Hirsch, Michael M. Hoffman, Merel Huisman, Fabian Isensee, Pierre Jannin, Charles E. Kahn, Dagmar Kainmueller, Bernhard Kainz, Alexandros Karargyris, Alan Karthikesalingam, A. Emre Kavur, Hannes Kenngott, Jens Kleesiek, Andreas Kleppe, Sven Kohler, Florian Kofler, Annette Kopp-Schneider, Thijs Kooi, Michal Kozubek, Anna Kreshuk, Tahsin Kurc, Bennett A. Landman, Geert Litjens, Amin Madani, Klaus Maier-Hein, Anne L. Martel, Peter Mattson, Erik Meijering, Bjoern Menze, David Moher, Karel G.M. Moons, Henning M\"uller, Brennan Nichyporuk, Felix Nickel, M. Alican Noyan, Jens Petersen, Gorkem Polat, Susanne M. Rafelski, Nasir Rajpoot, Mauricio Reyes, Nicola Rieke, Michael Riegler, Hassan Rivaz, Julio Saez-Rodriguez, Clara I. S\'anchez, Julien Schroeter, Anindo Saha, M. Alper Selver, Lalith Sharan, Shravya Shetty, Maarten van Smeden, Bram Stieltjes, Ronald M. Summers, Abdel A. Taha, Aleksei Tiulpin, Sotirios A. Tsaftaris, Ben Van Calster, Ga\"el Varoquaux, Manuel Wiesenfarth, Ziv R. Yaniv, Paul J\"ager, Lena Maier-Hein(参考訳) 自動画像解析の重要性は継続的に高まっているが、最近のメタリサーチにより、アルゴリズム検証に関する大きな欠陥が明らかになった。 パフォーマンスメトリクスは、特に、使用される自動アルゴリズムの有意義で客観的で透明なパフォーマンス評価と検証に重要であるが、特定の画像解析タスクに特定のメトリクスを使用する場合の実際の落とし穴には、比較的注意が払われていない。 これらは典型的には、(1)クラス不均衡や小さなターゲット構造の存在における振る舞いのような固有のメトリック特性の無視、(2)テストケースの非依存性のような固有のデータセットプロパティの無視、(3)メトリクスが反映すべき実際のバイオメディカルドメインの関心の無視に関係している。 この生きた動的文書は、画像分析の分野で一般的に適用されるパフォーマンスメトリクスの重要な制限を説明する目的を持っている。 この文脈では、画像レベルの分類、セマンティックセグメンテーション、インスタンスセグメンテーション、オブジェクト検出タスクと表現できるバイオメディカル画像解析の問題に焦点を当てている。 現在のバージョンは、世界中の60以上の機関からの画像分析専門家の国際コンソーシアムが実施したメトリクスに関するdelphiプロセスに基づいている。

While the importance of automatic image analysis is continuously increasing, recent meta-research revealed major flaws with respect to algorithm validation. Performance metrics are particularly key for meaningful, objective, and transparent performance assessment and validation of the used automatic algorithms, but relatively little attention has been given to the practical pitfalls when using specific metrics for a given image analysis task. These are typically related to (1) the disregard of inherent metric properties, such as the behaviour in the presence of class imbalance or small target structures, (2) the disregard of inherent data set properties, such as the non-independence of the test cases, and (3) the disregard of the actual biomedical domain interest that the metrics should reflect. This living dynamically document has the purpose to illustrate important limitations of performance metrics commonly applied in the field of image analysis. In this context, it focuses on biomedical image analysis problems that can be phrased as image-level classification, semantic segmentation, instance segmentation, or object detection task. The current version is based on a Delphi process on metrics conducted by an international consortium of image analysis experts from more than 60 institutions worldwide.
翻訳日:2023-08-16 17:57:01 公開日:2023-08-15
# 記憶と非確率制御による非定常オンライン学習

Non-stationary Online Learning with Memory and Non-stochastic Control ( http://arxiv.org/abs/2102.03758v4 )

ライセンス: Link先を確認
Peng Zhao and Yu-Hu Yan and Yu-Xiang Wang and Zhi-Hua Zhou(参考訳) 我々は,過去の決定に依拠した損失関数を記憶機能に組み込んだオンライン凸最適化(OCO)の問題について検討し,学習課題の時間的影響を捉える。 本稿では,非定常環境に頑健なアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。 本稿では,時間軸,非定常測度,メモリ長の観点で,最適な動的ポリシー後悔を味わうメモリ付きocoの新しいアルゴリズムを提案する。 技術的な課題は、スイッチングコストの制御方法、プレイヤーの決定の累積的な移動であり、ダイナミックポリシーの後悔の新たなメタベース分解と、スイッチングコストを明示的に定式化するメタリーナーとベースリーナーの注意深く設計された新しいスイッチングコストアウェアオンラインアンサンブルアプローチによってうまく対処される。 さらに, オンライン非定常制御 (agarwal et al., 2019) における非定常性,すなわち, 逆乱と凸コスト関数を伴う線形力学系を制御することに適用した。 オンラインの非確率的制御のための一連の変更ポリシーと競合する最初のコントローラである動的ポリシー後悔保証付き勾配ベースの新しいコントローラを導出する。

We study the problem of Online Convex Optimization (OCO) with memory, which allows loss functions to depend on past decisions and thus captures temporal effects of learning problems. In this paper, we introduce dynamic policy regret as the performance measure to design algorithms robust to non-stationary environments, which competes algorithms' decisions with a sequence of changing comparators. We propose a novel algorithm for OCO with memory that provably enjoys an optimal dynamic policy regret in terms of time horizon, non-stationarity measure, and memory length. The key technical challenge is how to control the switching cost, the cumulative movements of player's decisions, which is neatly addressed by a novel switching-cost-aware online ensemble approach equipped with a new meta-base decomposition of dynamic policy regret and a careful design of meta-learner and base-learner that explicitly regularizes the switching cost. The results are further applied to tackle non-stationarity in online non-stochastic control (Agarwal et al., 2019), i.e., controlling a linear dynamical system with adversarial disturbance and convex cost functions. We derive a novel gradient-based controller with dynamic policy regret guarantees, which is the first controller provably competitive to a sequence of changing policies for online non-stochastic control.
翻訳日:2023-08-16 17:56:30 公開日:2023-08-15
# 指数家族の十分な統計量による公正な密度向上

Fair Densities via Boosting the Sufficient Statistics of Exponential Families ( http://arxiv.org/abs/2012.00188v4 )

ライセンス: Link先を確認
Alexander Soen, Hisham Husain, Richard Nock(参考訳) 公平な事前処理のためのブースティングアルゴリズムを提案する。 最初の公平だが不正確な分布から始めて、私たちのアプローチは、公平さの最小保証を確保しながら、より良いデータ適合へとシフトします。 そのため、指数列の十分な統計をブースティング対応の収束で学習する。 重要なのは、理論上、学習された分布が表現率と統計速度データの公平性を保証することを証明できることである。 最近の最適化に基づく事前処理手法とは異なり、我々のアプローチは連続的なドメイン機能に容易に適応できる。 さらに、弱い学習者が決定木であると特定された場合、学習された分布の十分な統計データを調べ、(不公平な)情報源について手がかりを与えることができる。 実世界のデータに結果の品質を示す実験結果が提示される。

We introduce a boosting algorithm to pre-process data for fairness. Starting from an initial fair but inaccurate distribution, our approach shifts towards better data fitting while still ensuring a minimal fairness guarantee. To do so, it learns the sufficient statistics of an exponential family with boosting-compliant convergence. Importantly, we are able to theoretically prove that the learned distribution will have a representation rate and statistical rate data fairness guarantee. Unlike recent optimization based pre-processing methods, our approach can be easily adapted for continuous domain features. Furthermore, when the weak learners are specified to be decision trees, the sufficient statistics of the learned distribution can be examined to provide clues on sources of (un)fairness. Empirical results are present to display the quality of result on real-world data.
翻訳日:2023-08-16 17:56:05 公開日:2023-08-15
# ResNetブロックとしてのテンプレートマッチングによる特徴埋め込み

Feature Embedding by Template Matching as a ResNet Block ( http://arxiv.org/abs/2210.00992v2 )

ライセンス: Link先を確認
Ada Gorgun, Yeti Z. Gurbuz, A. Aydin Alatan(参考訳) 畳み込みブロックは局所的な特徴抽出となり、ニューラルネットワークの成功の鍵となる。 ローカルなセマンティックな特徴の埋め込みを明示的にするために、最適なマッチングカーネルに従って、畳み込みブロックを特徴選択として再構成する。 このようにして、典型的なResNetブロックは、バッチ正規化(BN)後、修正線形単位(ReLU)がarg-maxオプティマイザとして解釈されるとき、テンプレートマッチング(BN)を介して局所的特徴埋め込みを行う。 この観点から,ラベル情報を用いて意味的に意味のある局所的特徴埋め込みを明示的に強制する残余ブロックの調整を行う。 具体的には、対応する領域が一致するクラスに応じて、各局所領域に特徴ベクトルを割り当てる。 本手法は,画像分類のための複数のアーキテクチャを持つ3つの人気のあるベンチマークデータセット上で評価し,ベースラインアーキテクチャの性能を実質的に改善することを示す。

Convolution blocks serve as local feature extractors and are the key to success of the neural networks. To make local semantic feature embedding rather explicit, we reformulate convolution blocks as feature selection according to the best matching kernel. In this manner, we show that typical ResNet blocks indeed perform local feature embedding via template matching once batch normalization (BN) followed by a rectified linear unit (ReLU) is interpreted as arg-max optimizer. Following this perspective, we tailor a residual block that explicitly forces semantically meaningful local feature embedding through using label information. Specifically, we assign a feature vector to each local region according to the classes that the corresponding region matches. We evaluate our method on three popular benchmark datasets with several architectures for image classification and consistently show that our approach substantially improves the performance of the baseline architectures.
翻訳日:2023-08-16 17:48:54 公開日:2023-08-15
# R2C-GAN:Blind X線修復とCOVID-19分類のためのGANの復元

R2C-GAN: Restore-to-Classify GANs for Blind X-Ray Restoration and COVID-19 Classification ( http://arxiv.org/abs/2209.14770v2 )

ライセンス: Link先を確認
Mete Ahishali, Aysen Degerli, Serkan Kiranyaz, Tahir Hamid, Rashid Mazhar, Moncef Gabbouj(参考訳) 品質の悪い画像と混合した人工物の復元は、信頼性の高い診断に不可欠な役割を担っている。 既存の研究は、通常、アーティファクトの種類と重大さに強い仮定がある画像のデブラリング、ノイズ除去、露出補正などの特定の修復問題に焦点を当てている。 ブラインドx線修復の先駆的研究として,汎用的な画像復元と分類のための共同モデル,restore-to-classify generative adversarial networks (r2c-gans)を提案する。 このような共同で最適化されたモデルは、回復後に病気を無傷に保つ。 そのため,X線画像の画質の向上により診断性能が向上する。 この目的を達成するために,画像から画像への変換問題として,ノイズやぼやけた画像,あるいは露出の過剰な画像から高画質の画像領域への復元タスクを定義する。 提案したR2C-GANモデルは、未ペアトレーニングサンプルを用いて、2つの領域間の前方および逆変換を学習することができる。 同時に、関節分類は修復中に疾患のラベルを保存する。 さらに、R2C-GANは、ネットワーク深度を低減し、復元性能と分類性能をさらに向上させる運用層/ニューロンを備えている。 提案した関節モデルは、コロナウイルス病2019(COVID-19)分類のためのQaTa-COV19データセットで広範囲に評価されている。 提案手法では, 90%以上のF1スコアが得られた。 さらに、定性分析では、R2C-GANの修復性能が医師のグループによって承認される。 ソフトウェアの実装はhttps://github.com/meteahishali/R2C-GANで公開しています。

Restoration of poor quality images with a blended set of artifacts plays a vital role for a reliable diagnosis. Existing studies have focused on specific restoration problems such as image deblurring, denoising, and exposure correction where there is usually a strong assumption on the artifact type and severity. As a pioneer study in blind X-ray restoration, we propose a joint model for generic image restoration and classification: Restore-to-Classify Generative Adversarial Networks (R2C-GANs). Such a jointly optimized model keeps any disease intact after the restoration. Therefore, this will naturally lead to a higher diagnosis performance thanks to the improved X-ray image quality. To accomplish this crucial objective, we define the restoration task as an Image-to-Image translation problem from poor quality having noisy, blurry, or over/under-exposed images to high quality image domain. The proposed R2C-GAN model is able to learn forward and inverse transforms between the two domains using unpaired training samples. Simultaneously, the joint classification preserves the disease label during restoration. Moreover, the R2C-GANs are equipped with operational layers/neurons reducing the network depth and further boosting both restoration and classification performances. The proposed joint model is extensively evaluated over the QaTa-COV19 dataset for Coronavirus Disease 2019 (COVID-19) classification. The proposed restoration approach achieves over 90% F1-Score which is significantly higher than the performance of any deep model. Moreover, in the qualitative analysis, the restoration performance of R2C-GANs is approved by a group of medical doctors. We share the software implementation at https://github.com/meteahishali/R2C-GAN.
翻訳日:2023-08-16 17:48:40 公開日:2023-08-15
# イメージキャプションのための固有点と代表的スタイルの学習

Learning Distinct and Representative Styles for Image Captioning ( http://arxiv.org/abs/2209.08231v2 )

ライセンス: Link先を確認
Qi Chen, Chaorui Deng, Qi Wu(参考訳) 長年にわたり、最先端(SoTA)画像キャプション手法は、いくつかの評価指標(例えばCIDEr)で有望な結果を得た。 しかし、近年の研究では、これらの手法によって生成されたキャプションは、トレーニングコーパスの最も一般的なモード(言語パターン)のみをキャプチャする「平均」キャプション、すなわちいわゆるモード崩壊問題に偏りがあることが示されている。 その影響で生成されたキャプションは多様性に制限され、人間による自然なイメージ記述よりも情報に乏しい。 本稿では,画像キャプションのための離散モード学習(DML)パラダイムを提案することによって,この問題を回避する。 私たちの革新的なアイデアは、トレーニングキャプションコーパスのリッチなモードを調べて、"モード埋め込み"のセットを学び、さらに既存の画像キャプションモデルで生成されたキャプションのモードを制御することです。 具体的には、画像条件付き離散変分オートエンコーダ(CdVAE)ブランチとモード条件付きイメージキャプション(MIC)ブランチで構成されるデュアルアーキテクチャを最適化する。 CdVAEブランチは、各画像キャプションを学習コードブックに格納されたモード埋め込みの1つにマッピングし、純粋な非自己回帰生成目標を用いてトレーニングし、モードを区別し、代表する。 MICブランチは、モード埋め込みを制御信号として元の単語埋め込みに追加する既存の画像キャプションモデルから簡単に変更することができる。 実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。 その結果、学習モード埋め込みは、異なるモードの高品質な画像キャプションを生成するのに成功し、mscocoデータセットの多様性と品質の両方でパフォーマンスが向上することが示された。

Over the years, state-of-the-art (SoTA) image captioning methods have achieved promising results on some evaluation metrics (e.g., CIDEr). However, recent findings show that the captions generated by these methods tend to be biased toward the "average" caption that only captures the most general mode (a.k.a, language pattern) in the training corpus, i.e., the so-called mode collapse problem. Affected by it, the generated captions are limited in diversity and usually less informative than natural image descriptions made by humans. In this paper, we seek to avoid this problem by proposing a Discrete Mode Learning (DML) paradigm for image captioning. Our innovative idea is to explore the rich modes in the training caption corpus to learn a set of "mode embeddings", and further use them to control the mode of the generated captions for existing image captioning models. Specifically, the proposed DML optimizes a dual architecture that consists of an image-conditioned discrete variational autoencoder (CdVAE) branch and a mode-conditioned image captioning (MIC) branch. The CdVAE branch maps each image caption to one of the mode embeddings stored in a learned codebook, and is trained with a pure non-autoregressive generation objective to make the modes distinct and representative. The MIC branch can be simply modified from an existing image captioning model, where the mode embedding is added to the original word embeddings as the control signal. In the experiments, we apply the proposed DML to two widely used image captioning models, Transformer and AoANet. The results show that the learned mode embedding successfully facilitates these models to generate high-quality image captions with different modes, further leading to better performance for both diversity and quality on the MSCOCO dataset.
翻訳日:2023-08-16 17:47:42 公開日:2023-08-15
# 破壊的過剰フィッティングは識別的非ロバスト特徴によって引き起こされる

Catastrophic overfitting can be induced with discriminative non-robust features ( http://arxiv.org/abs/2206.08242v2 )

ライセンス: Link先を確認
Guillermo Ortiz-Jim\'enez, Pau de Jorge, Amartya Sanyal, Adel Bibi, Puneet K. Dokania, Pascal Frossard, Gregory Rog\'ez, Philip H.S. Torr(参考訳) 敵対的トレーニング(AT)は、堅牢なニューラルネットワークを構築するための事実上の方法であるが、計算コストがかかる。 これを緩和するために、高速なシングルステップ攻撃が使用できるが、これは破滅的なオーバーフィッティング(CO)を引き起こす可能性がある。 この現象は、atの最初の段階でネットワークが非自明な堅牢性を得るが、ほんの数回のイテレーションで脆弱になるようなブレークポイントに達すると現れる。 この障害モードにつながるメカニズムはまだ理解されていない。 本研究では,自然画像の典型的なデータセットの修正を制御し,単段階AT法によるCOの開始について検討する。 特にCOは、一見無害な特徴を持つ画像を注入するだけで、これまで観察されたよりもはるかに小さな$\epsilon$値で誘導できることを示す。 これらの特徴は、非破壊的な分類に役立つが、それ自体で堅牢性を達成するには不十分である。 広範な実験を通じてこの現象を分析し、これらの簡単な特徴の存在がCOにつながる学習ショートカットを誘導することを発見した。 私たちの発見は、coのメカニズムに関する新たな洞察を与え、atのダイナミクスに対する理解を改善する。 実験を再現するコードはhttps://github.com/gortizji/co_featuresで確認できます。

Adversarial training (AT) is the de facto method for building robust neural networks, but it can be computationally expensive. To mitigate this, fast single-step attacks can be used, but this may lead to catastrophic overfitting (CO). This phenomenon appears when networks gain non-trivial robustness during the first stages of AT, but then reach a breaking point where they become vulnerable in just a few iterations. The mechanisms that lead to this failure mode are still poorly understood. In this work, we study the onset of CO in single-step AT methods through controlled modifications of typical datasets of natural images. In particular, we show that CO can be induced at much smaller $\epsilon$ values than it was observed before just by injecting images with seemingly innocuous features. These features aid non-robust classification but are not enough to achieve robustness on their own. Through extensive experiments we analyze this novel phenomenon and discover that the presence of these easy features induces a learning shortcut that leads to CO. Our findings provide new insights into the mechanisms of CO and improve our understanding of the dynamics of AT. The code to reproduce our experiments can be found at https://github.com/gortizji/co_features.
翻訳日:2023-08-16 17:46:46 公開日:2023-08-15
# ポジティブなラベルなしコントラスト学習

Positive Unlabeled Contrastive Learning ( http://arxiv.org/abs/2206.01206v2 )

ライセンス: Link先を確認
Anish Acharya and Sujay Sanghavi and Li Jing and Bhargav Bhushanam and Michael Rabbat and Inderjit Dhillon(参考訳) ラベルなしデータの自己教師あり事前学習とラベル付きデータの教師付き微調整は、限定されたラベル付き例から学ぶための一般的なパラダイムである。 このパラダイムを古典的正の未ラベル(PU)設定に拡張し、いくつかのラベル付き正のサンプルのみを与えられたバイナリ分類器を学習し、(しばしば)大量の未ラベルのサンプル(正あるいは負の可能性がある)を学習する。 まず,コントラスト損失の標準的なインフォネッションNCEファミリをPU設定に簡易に拡張し,既存の教師なしおよび教師なしアプローチと比較して優れた表現を学習することを示す。 次に、新しいPU固有のクラスタリング方式を用いて、未ラベルのサンプルを擬似ラベル化する方法を開発し、その擬似ラベルを用いて最終(正対負の)分類器を訓練する。 提案手法は,いくつかの標準PUベンチマークデータセットにおいて最先端のPUメソッドよりも優れているが,どのクラスの事前知識も必要としない(他のPUメソッドでは一般的な仮定である)。 また,提案手法を動機づける単純な理論解析も提供する。

Self-supervised pretraining on unlabeled data followed by supervised fine-tuning on labeled data is a popular paradigm for learning from limited labeled examples. We extend this paradigm to the classical positive unlabeled (PU) setting, where the task is to learn a binary classifier given only a few labeled positive samples, and (often) a large amount of unlabeled samples (which could be positive or negative). We first propose a simple extension of standard infoNCE family of contrastive losses, to the PU setting; and show that this learns superior representations, as compared to existing unsupervised and supervised approaches. We then develop a simple methodology to pseudo-label the unlabeled samples using a new PU-specific clustering scheme; these pseudo-labels can then be used to train the final (positive vs. negative) classifier. Our method handily outperforms state-of-the-art PU methods over several standard PU benchmark datasets, while not requiring a-priori knowledge of any class prior (which is a common assumption in other PU methods). We also provide a simple theoretical analysis that motivates our methods.
翻訳日:2023-08-16 17:46:27 公開日:2023-08-15
# 変化点検出のためのランダムフォレスト

Random Forests for Change Point Detection ( http://arxiv.org/abs/2205.04997v2 )

ライセンス: Link先を確認
Malte Londschien, Peter B\"uhlmann, Solt Kov\'acs(参考訳) 分類器を用いた多変量非パラメトリック多重変化点検出法を提案する。 我々は,クラス確率予測を用いて異なる変化点構成を比較する分類器log-likelihood ratioを構築した。 本稿では,特に森林変動林に好適な計算可能な探索法を提案する。 しかし、この手法はクラス確率予測をもたらす任意のクラス化器とペアリングすることができ、k-nearest近傍のクラス化器を用いても説明できる。 一貫性のある分類器と組み合わせると、単一の変更点設定で変更点を一貫して見つけることが証明される。 提案手法は, 既存の多変量非パラメトリック変化点検出法と比較して, 実験性能の向上を実現する。 当社のメソッドの効率的な実装は,変更対象ソフトウェアパッケージでR,Python,Rustユーザに提供されています。

We propose a novel multivariate nonparametric multiple change point detection method using classifiers. We construct a classifier log-likelihood ratio that uses class probability predictions to compare different change point configurations. We propose a computationally feasible search method that is particularly well suited for random forests, denoted by changeforest. However, the method can be paired with any classifier that yields class probability predictions, which we illustrate by also using a k-nearest neighbor classifier. We prove that it consistently locates change points in single change point settings when paired with a consistent classifier. Our proposed method changeforest achieves improved empirical performance in an extensive simulation study compared to existing multivariate nonparametric change point detection methods. An efficient implementation of our method is made available for R, Python, and Rust users in the changeforest software package.
翻訳日:2023-08-16 17:46:05 公開日:2023-08-15
# FlexFringe:確率的オートマタ学習によるソフトウェア行動モデリング

FlexFringe: Modeling Software Behavior by Learning Probabilistic Automata ( http://arxiv.org/abs/2203.16331v2 )

ライセンス: Link先を確認
Sicco Verwer and Christian Hammerschmidt(参考訳) 本稿ではFlexFringeで利用可能な確率的決定論的有限オートマトン学習法の効率的な実装について述べる。 これらはステートマージのためのよく知られた戦略を実装しており、実際のパフォーマンスを改善するためのいくつかの修正が含まれている。 実験により,これらのアルゴリズムはデフォルト実装よりも競争結果と大幅な改善が得られた。 また、FlexFringeを使ってソフトウェアログから解釈可能なモデルを学習し、これらを異常検出に利用する方法を実証する。 より複雑なモデルを学習することで、異常検出におけるFlexFringeの性能が向上し、ニューラルネットに基づく既存のソリューションよりも優れていることを示す。

We present the efficient implementations of probabilistic deterministic finite automaton learning methods available in FlexFringe. These implement well-known strategies for state-merging including several modifications to improve their performance in practice. We show experimentally that these algorithms obtain competitive results and significant improvements over a default implementation. We also demonstrate how to use FlexFringe to learn interpretable models from software logs and use these for anomaly detection. Although less interpretable, we show that learning smaller more convoluted models improves the performance of FlexFringe on anomaly detection, outperforming an existing solution based on neural nets.
翻訳日:2023-08-16 17:45:53 公開日:2023-08-15
# 確率線形帯域を用いたマルチタスク表現学習

Multi-task Representation Learning with Stochastic Linear Bandits ( http://arxiv.org/abs/2202.10066v2 )

ライセンス: Link先を確認
Leonardo Cella, Karim Lounici, Gr\'egoire Pacreau, Massimiliano Pontil(参考訳) 確率線形バンディット課題の設定における転校学習の問題について検討する。 我々は,タスク間で低次元線形表現が共有されていると考え,マルチタスク学習環境において,この表現を学習するメリットについて検討する。 確率的バンディットポリシーの設計に関する最近の結果に続いて,トレースノルム正規化に基づく効率的なグリーディポリシーを提案する。 タスク回帰ベクトルによって形成される行列を低ランクにすることで、暗黙的に低次元表現を学習する。 文献における以前の研究とは異なり、我々の方針は基盤となる行列のランクを知る必要はない。 ここで$t$はタスク数、$r$はランク数、$d$は変数数、$n$はタスクごとのラウンド数である。 各タスクを独立に解くことで得られるベースライン$Td\sqrt{N}$と比較して,我々の戦略の利点を示す。 また、マルチタスクの後悔に対する低い境界も提供します。 最後に, 合成データに関する予備実験を行い, 理論的知見を裏付ける。

We study the problem of transfer-learning in the setting of stochastic linear bandit tasks. We consider that a low dimensional linear representation is shared across the tasks, and study the benefit of learning this representation in the multi-task learning setting. Following recent results to design stochastic bandit policies, we propose an efficient greedy policy based on trace norm regularization. It implicitly learns a low dimensional representation by encouraging the matrix formed by the task regression vectors to be of low rank. Unlike previous work in the literature, our policy does not need to know the rank of the underlying matrix. We derive an upper bound on the multi-task regret of our policy, which is, up to logarithmic factors, of order $\sqrt{NdT(T+d)r}$, where $T$ is the number of tasks, $r$ the rank, $d$ the number of variables and $N$ the number of rounds per task. We show the benefit of our strategy compared to the baseline $Td\sqrt{N}$ obtained by solving each task independently. We also provide a lower bound to the multi-task regret. Finally, we corroborate our theoretical findings with preliminary experiments on synthetic data.
翻訳日:2023-08-16 17:45:42 公開日:2023-08-15
# 誰の感情が重要か? 事前知識のない活動のローカライゼーション

Whose Emotion Matters? Speaking Activity Localisation without Prior Knowledge ( http://arxiv.org/abs/2211.15377v4 )

ライセンス: Link先を確認
Hugo Carneiro, Cornelius Weber, Stefan Wermter(参考訳) 例えば、ビデオベースのMultimodal EmotionLines Dataset(MELD)において、会話(ERC)における感情認識のタスクは、複数のモダリティの可用性の恩恵を受ける。 しかし、MELDビデオの音響情報と視覚情報の両方を利用する研究はごくわずかである。 まず、MELDのラベルとビデオのアライメントはうるさいので、これらのビデオは感情的な音声データの信頼性の低いソースになる。 第二に、会話は同じ場面で複数の人を巻き込み、発話源の局所化が必要となる。 本稿では,近年のアクティブな話者検出と自動音声認識モデルを用いて,MELDを用いた固定音声情報(MELD-FAIR)を導入し,MELDで提供される発話の96.92%で,MELDのビデオの認識と表情のキャプチャが可能となった。 自己教師付き音声認識モデルによる実験では、再構成されたMELD-FAIRビデオは、MELDデータセットの転写された発話とより密に一致している。 最後に,MELD-FAIRビデオに基づいて訓練された会話における感情認識モデルを作成し,視覚のみに基づくERCの最先端モデルよりも優れることを示す。 これは、発声話者からの表情抽出には発話源の局所化が有効であること、また、現在使われている視覚的特徴よりも、顔がより有意義な視覚的手がかりとなることを示している。 MELD-FAIRアライメントデータ、およびアライメント手順のコードと感情認識はhttps://github.com/knowledgetechnologyuh/MELD-FAIRで入手できる。

The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as provided, for example, in the video-based Multimodal EmotionLines Dataset (MELD). However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the localisation of the utterance source. In this paper, we introduce MELD with Fixed Audiovisual Information via Realignment (MELD-FAIR) by using recent active speaker detection and automatic speech recognition models, we are able to realign the videos of MELD and capture the facial expressions from speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD-FAIR videos more closely match the transcribed utterances given in the MELD dataset. Finally, we devise a model for emotion recognition in conversations trained on the realigned MELD-FAIR videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that localising the source of speaking activities is indeed effective for extracting facial expressions from the uttering speakers and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far. The MELD-FAIR realignment data, and the code of the realignment procedure and of the emotional recognition, are available at https://github.com/knowledgetechnologyuhh/MELD-FAIR.
翻訳日:2023-08-16 17:40:13 公開日:2023-08-15
# 顕微鏡データの効率的な画像分解

{\mu}Split: efficient image decomposition for microscopy data ( http://arxiv.org/abs/2211.12872v4 )

ライセンス: Link先を確認
Ashesh, Alexander Krull, Moises Di Sante, Francesco Silvio Pasqualini, Florian Jug(参考訳) 蛍光顕微鏡画像の文脈における画像分解のための専用手法である {\mu}Splitを提案する。 トレーニング中に大きなイメージパッチを使用すると,通常のディープアーキテクチャによる最良の結果が得られることが分かり,メモリ消費が性能向上の限界要因となる。 そこで我々は、強力なネットワークをトレーニングするためのメモリ効率のよいメモリ・コンテクスト・ライゼーション(LC)を導入し、LCがタスクの一貫性と大幅な改善をもたらすことを示す。 LCをU-Net、階層型AE、階層型VAEと統合し、改良されたELBO損失を定式化する。 さらにLCは、他の可能性よりも深い階層モデルのトレーニングを可能にし、興味深いことに、タイル付きVAE予測を使用する場合、本質的に避けられないティアリングアーチファクトを減らすのに役立ちます。 我々は、合成データセット上の5つの分解タスクに {\mu}splitを適用し、その他4つは実顕微鏡データから導出する。 LCはSOTA結果(平均2.36dB PSNRのベースラインの改善)を達成し、同時にGPUメモリをかなり少なくする。

We present {\mu}Split, a dedicated approach for trained image decomposition in the context of fluorescence microscopy images. We find that best results using regular deep architectures are achieved when large image patches are used during training, making memory consumption the limiting factor to further improving performance. We therefore introduce lateral contextualization (LC), a memory efficient way to train powerful networks and show that LC leads to consistent and significant improvements on the task at hand. We integrate LC with U-Nets, Hierarchical AEs, and Hierarchical VAEs, for which we formulate a modified ELBO loss. Additionally, LC enables training deeper hierarchical models than otherwise possible and, interestingly, helps to reduce tiling artefacts that are inherently impossible to avoid when using tiled VAE predictions. We apply {\mu}Split to five decomposition tasks, one on a synthetic dataset, four others derived from real microscopy data. LC achieves SOTA results (average improvements to the best baseline of 2.36 dB PSNR), while simultaneously requiring considerably less GPU memory.
翻訳日:2023-08-16 17:39:32 公開日:2023-08-15
# 分散連合学習 : 基礎, 現状, フレームワーク, トレンド, 課題

Decentralized Federated Learning: Fundamentals, State of the Art, Frameworks, Trends, and Challenges ( http://arxiv.org/abs/2211.08413v4 )

ライセンス: Link先を確認
Enrique Tom\'as Mart\'inez Beltr\'an, Mario Quiles P\'erez, Pedro Miguel S\'anchez S\'anchez, Sergio L\'opez Bernal, G\'er\^ome Bovet, Manuel Gil P\'erez, Gregorio Mart\'inez P\'erez, Alberto Huertas Celdr\'an(参考訳) 近年,federated learning (fl) は,センシティブなデータ共有を伴わずに協調モデルのトレーニングに寄与している。 中央集権FL(CFL)は、その誕生以来、中央の実体が大域的なモデルを作成する文学において最も一般的なアプローチである。 しかしながら、集中的なアプローチはボトルネックによるレイテンシの増加、システムの障害に対する脆弱性の増大、グローバルモデル作成に責任を持つエンティティに対する信頼性の懸念などにつながります。 DFL(Decentralized Federated Learning)は、分散モデルの集約を促進し、集中型アーキテクチャへの依存を最小限にすることで、これらの問題に対処するために登場した。 しかし、DFLでの作業にもかかわらず、文献は残っていない。 (i)DFLとCFLを区別する主な側面の研究。 (二)新しいソリューションを作成し評価するためのDFLフレームワークの分析、及び 3)DFLを用いたアプリケーションシナリオのレビュー。 本稿では,フェデレーションアーキテクチャ,トポロジ,通信機構,セキュリティアプローチ,主要なパフォーマンス指標といった観点から,dflの主な基礎を特定し,分析する。 さらに、論文は重要なdflの基本を最適化するための既存のメカニズムを探求している。 次に、現在のdflフレームワークの最も関連するフィーチャをレビューして比較する。 その後、最もよく使われるDFLアプリケーションシナリオを分析し、以前定義された基本とフレームワークに基づいたソリューションを特定します。 最後に、既存のDFLソリューションの進化について研究し、トレンド、学んだ教訓、オープンな課題のリストを提供する。

In recent years, Federated Learning (FL) has gained relevance in training collaborative models without sharing sensitive data. Since its birth, Centralized FL (CFL) has been the most common approach in the literature, where a central entity creates a global model. However, a centralized approach leads to increased latency due to bottlenecks, heightened vulnerability to system failures, and trustworthiness concerns affecting the entity responsible for the global model creation. Decentralized Federated Learning (DFL) emerged to address these concerns by promoting decentralized model aggregation and minimizing reliance on centralized architectures. However, despite the work done in DFL, the literature has not (i) studied the main aspects differentiating DFL and CFL; (ii) analyzed DFL frameworks to create and evaluate new solutions; and (iii) reviewed application scenarios using DFL. Thus, this article identifies and analyzes the main fundamentals of DFL in terms of federation architectures, topologies, communication mechanisms, security approaches, and key performance indicators. Additionally, the paper at hand explores existing mechanisms to optimize critical DFL fundamentals. Then, the most relevant features of the current DFL frameworks are reviewed and compared. After that, it analyzes the most used DFL application scenarios, identifying solutions based on the fundamentals and frameworks previously defined. Finally, the evolution of existing DFL solutions is studied to provide a list of trends, lessons learned, and open challenges.
翻訳日:2023-08-16 17:39:04 公開日:2023-08-15
# 位相量子計算言語としてのZX計算

The ZX-calculus as a Language for Topological Quantum Computation ( http://arxiv.org/abs/2211.03855v3 )

ライセンス: Link先を確認
Fatimah Rita Ahmadi and Aleks Kissinger(参考訳) ユニタリ融合圏はトポロジカル量子計算の代数理論を定式化する。 これらの圏は自然にヒルベルト空間の圏のサブカテゴリに富み、このサブカテゴリを見ると、量子計算を実装するためのジェネレータの集合を特定できる。 我々は、フィボナッチとイジングのモデル、すなわち、キュービットと関連するブレイド群の表現の符号化をZX-計算で表現し、どちらの場合も、ヤン・バクスター方程式はP-ルールとして知られる完全ZX-計算において重要な規則に直結していることを示し、相補基底に関して定義された位相ゲートを交換することができる。 イジングの場合、これはアダマール門の2つの異なるオイラー分解を$\pi/2$ Zand X-相ゲートとして関連付ける一般的な規則に還元するが、フィボナッチの場合、金比を含むP-ルールの未考慮の正確な解を与える。 フィボナッチ・エノンのシングルキュービット・ブレイド方程式とイジン・エノンのシングルキュービット・ブレイド方程式をグラフィカルに導出することにより,これらの表現の有用性を示す。 さらに,フィボナッチ・アノンのzx表現とブレイドをシミュレートし,単純化するための完全グラフィカルな手順を提案する。

Unitary fusion categories formalise the algebraic theory of topological quantum computation. These categories come naturally enriched in a subcategory of the category of Hilbert spaces, and by looking at this subcategory, one can identify a collection of generators for implementing quantum computation. We represent such generators for the Fibonacci and Ising models, namely the encoding of qubits and the associated braid group representations, with the ZX-calculus and show that in both cases, the Yang-Baxter equation is directly connected to an important rule in the complete ZX-calculus known as the P-rule, which enables one to interchange the phase gates defined with respect to complementary bases. In the Ising case, this reduces to a familiar rule relating two distinct Euler decompositions of the Hadamard gate as $\pi/2$ Z- and X-phase gates, whereas in the Fibonacci case, we give a previously unconsidered exact solution of the P-rule involving the Golden ratio. We demonstrate the utility of these representations by giving graphical derivations of the single-qubit braid equations for Fibonacci anyons and the single- and two-qubit braid equations for Ising anyons. We furthermore present a fully graphical procedure for simulating and simplifying braids with the ZX-representation of Fibonacci anyons.
翻訳日:2023-08-16 17:38:40 公開日:2023-08-15
# ベイズ双曲多次元スケーリング

Bayesian Hyperbolic Multidimensional Scaling ( http://arxiv.org/abs/2210.15081v3 )

ライセンス: Link先を確認
Bolun Liu, Shane Lubold, Adrian E. Raftery, Tyler H. McCormick(参考訳) 多次元スケーリング(MDS)は、高次元依存データを表現するために広く用いられている手法である。 mdsは、各観測者に、類似性を表す多様体上の距離を持つ低次元幾何学多様体上の位置を割り当てることで機能する。 低次元多様体が双曲的である場合の多次元スケーリングに対するベイズ的アプローチを提案する。 双曲空間を使うことは、多くの設定で共通する木のような構造(例えば、テキストや階層構造を持つ遺伝データ)を表現するのに役立つ。 ベイズアプローチは、観測データにおける測定誤差の影響を最小限に抑え、不確実性を評価する正規化を提供する。 また,大規模データ設定における後方分布からの効率的なサンプリングを可能にし,計算複雑性を約$o(n^2)$ から$o(n)$ に低減するケースコントロール度近似を提案する。 提案手法は,シミュレーション,標準基準データセット,インディアン村のネットワークデータ,およびヒトの遺伝子発現データを用いて,最先端の代替手法に対して評価する。

Multidimensional scaling (MDS) is a widely used approach to representing high-dimensional, dependent data. MDS works by assigning each observation a location on a low-dimensional geometric manifold, with distance on the manifold representing similarity. We propose a Bayesian approach to multidimensional scaling when the low-dimensional manifold is hyperbolic. Using hyperbolic space facilitates representing tree-like structures common in many settings (e.g. text or genetic data with hierarchical structure). A Bayesian approach provides regularization that minimizes the impact of measurement error in the observed data and assesses uncertainty. We also propose a case-control likelihood approximation that allows for efficient sampling from the posterior distribution in larger data settings, reducing computational complexity from approximately $O(n^2)$ to $O(n)$. We evaluate the proposed method against state-of-the-art alternatives using simulations, canonical reference datasets, Indian village network data, and human gene expression data.
翻訳日:2023-08-16 17:37:01 公開日:2023-08-15
# 確率的勾配降下法に対する厳密な動的平均場理論

Rigorous dynamical mean field theory for stochastic gradient descent methods ( http://arxiv.org/abs/2210.06591v2 )

ライセンス: Link先を確認
Cedric Gerbelot, Emanuele Troiani, Francesca Mignacco, Florent Krzakala and Lenka Zdeborova(参考訳) 経験的リスク最小化を伴うガウスデータを用いた観測から推定器(例えば、m-推定器、浅いニューラルネットワーク、...)を学習し、一階勾配に基づく手法の厳密な高次元漸近性に対する閉形式方程式を証明した。 これには確率勾配降下(SGD)やネステロフ加速度などの広く使われているアルゴリズムが含まれる。 得られた方程式は、勾配流に適用した場合の統計物理学からの力学平均場理論(DMFT)方程式の離散化の結果と一致する。 提案手法では,メモリカーネルの効率的な動的構造を明示的に記述し,非同一性共分散行列を持つデータセットに非分離性更新関数を含めることができる。 最後に,SGDの一般化されたバッチサイズおよび定常学習率を持つ方程式の数値的実装を提案する。

We prove closed-form equations for the exact high-dimensional asymptotics of a family of first order gradient-based methods, learning an estimator (e.g. M-estimator, shallow neural network, ...) from observations on Gaussian data with empirical risk minimization. This includes widely used algorithms such as stochastic gradient descent (SGD) or Nesterov acceleration. The obtained equations match those resulting from the discretization of dynamical mean-field theory (DMFT) equations from statistical physics when applied to gradient flow. Our proof method allows us to give an explicit description of how memory kernels build up in the effective dynamics, and to include non-separable update functions, allowing datasets with non-identity covariance matrices. Finally, we provide numerical implementations of the equations for SGD with generic extensive batch-size and with constant learning rates.
翻訳日:2023-08-16 17:36:31 公開日:2023-08-15
# 非IIDデータを用いたバッチ正規化損傷フェデレーション学習

Why Batch Normalization Damage Federated Learning on Non-IID Data? ( http://arxiv.org/abs/2301.02982v2 )

ライセンス: Link先を確認
Yanmeng Wang, Qingjiang Shi, Tsung-Hui Chang(参考訳) 有望な分散学習パラダイムとして、フェデレーション学習(FL)では、エッジクライアントのプライバシを保護するとともに、ネットワークエッジでディープニューラルネットワーク(DNN)モデルをトレーニングする。 大規模DNNモデルを訓練するために,バッチ正規化(BN)は訓練を加速し,一般化能力を向上させるためのシンプルかつ効果的な手段であると考えられてきた。 しかし、最近の研究では、BNは非i.d.データの存在下でFLの性能を著しく損なうことが示されている。 この問題に対処するためにいくつかのFLアルゴリズムが提案されているが、中央集権方式と比較しても性能は著しく低下している。 さらに、どちらもBNがFL収束をいかに損なうかを理論的に説明していない。 本稿では,非二項データの下で,BNの局所的パラメータと大域的パラメータのミスマッチが局所的モデルと大域的モデルとの勾配ずれを引き起こし,結果としてFL収束が遅くなり,偏りが生じることを示す最初の収束解析を提案する。 そこで我々は,複数のデータ分布において,反復層ワイドパラメータアグリゲーションを用いて,堅牢なFL性能を実現することができるFedTANというBNに適合した新しいFLアルゴリズムを開発した。 BNベースDNNモデルのトレーニングにおいて,既存のベースラインよりもFedTANの方が優れていることを示す。

As a promising distributed learning paradigm, federated learning (FL) involves training deep neural network (DNN) models at the network edge while protecting the privacy of the edge clients. To train a large-scale DNN model, batch normalization (BN) has been regarded as a simple and effective means to accelerate the training and improve the generalization capability. However, recent findings indicate that BN can significantly impair the performance of FL in the presence of non-i.i.d. data. While several FL algorithms have been proposed to address this issue, their performance still falls significantly when compared to the centralized scheme. Furthermore, none of them have provided a theoretical explanation of how the BN damages the FL convergence. In this paper, we present the first convergence analysis to show that under the non-i.i.d. data, the mismatch between the local and global statistical parameters in BN causes the gradient deviation between the local and global models, which, as a result, slows down and biases the FL convergence. In view of this, we develop a new FL algorithm that is tailored to BN, called FedTAN, which is capable of achieving robust FL performance under a variety of data distributions via iterative layer-wise parameter aggregation. Comprehensive experimental results demonstrate the superiority of the proposed FedTAN over existing baselines for training BN-based DNN models.
翻訳日:2023-08-16 17:28:52 公開日:2023-08-15
# FedICT: マルチアクセスエッジコンピューティングのためのフェデレーションマルチタスク蒸留

FedICT: Federated Multi-task Distillation for Multi-access Edge Computing ( http://arxiv.org/abs/2301.00389v2 )

ライセンス: Link先を確認
Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Quyang Pan, Xuefeng Jiang, Bo Gao(参考訳) モバイルデバイスのインテリジェントサービスとプライバシ保護に対する関心が高まり、マルチアクセスエッジコンピューティング(MEC)におけるフェデレーション学習の広範な適用がもたらされた。 多様なユーザー行動は、異なるデバイス上で異種機械学習(ml)モデルを持つパーソナライズされたサービスを呼び出す。 FMTL(Federated Multi-task Learning)は、異なるデバイスに対して、関連するがパーソナライズされたMLモデルをトレーニングするために提案されている。 fmtlに知識蒸留を導入することで、クライアント間の効率的なコミュニケーションとモデルの不均一性を同時に実現することができる。 このジレンマに対処するため,FedICT (Federated MultI-task Distillation for Multi- Access Edge CompuTing) を提案する。 クライアントとサーバ間の双方向蒸留プロセスにおいて,FedICTは,クライアント側ローカルモデルの分岐最適化方向からクライアントのドリフトを緩和しつつ,マルチタスククライアントの実現を目指す。 具体的には、Federated Prior Knowledge Distillation (FPKD)とLocal Knowledge Adjustment (LKA)が含まれる。 FPKDは、ローカルデータ配信の事前知識を導入して、クライアントのローカルデータの適合性を強化するために提案されている。 さらに、LKAはサーバの蒸留損失を補正するために提案され、転送されたローカル知識は一般化された表現とよりよく一致する。 3つのデータセットの実験により、FedICTはさまざまなデータおよびモデルアーキテクチャ設定のベンチマークを著しく上回り、FedAvgと比較して1.2%以下のトレーニング通信オーバーヘッドで精度を向上し、FedGKTと比較して75%以下のトレーニング通信ラウンドを実現している。

The growing interest in intelligent services and privacy protection for mobile devices has given rise to the widespread application of federated learning in Multi-access Edge Computing (MEC). Diverse user behaviors call for personalized services with heterogeneous Machine Learning (ML) models on different devices. Federated Multi-task Learning (FMTL) is proposed to train related but personalized ML models for different devices, whereas previous works suffer from excessive communication overhead during training and neglect the model heterogeneity among devices in MEC. Introducing knowledge distillation into FMTL can simultaneously enable efficient communication and model heterogeneity among clients, whereas existing methods rely on a public dataset, which is impractical in reality. To tackle this dilemma, Federated MultI-task Distillation for Multi-access Edge CompuTing (FedICT) is proposed. FedICT direct local-global knowledge aloof during bi-directional distillation processes between clients and the server, aiming to enable multi-task clients while alleviating client drift derived from divergent optimization directions of client-side local models. Specifically, FedICT includes Federated Prior Knowledge Distillation (FPKD) and Local Knowledge Adjustment (LKA). FPKD is proposed to reinforce the clients' fitting of local data by introducing prior knowledge of local data distributions. Moreover, LKA is proposed to correct the distillation loss of the server, making the transferred local knowledge better match the generalized representation. Experiments on three datasets show that FedICT significantly outperforms all compared benchmarks in various data heterogeneous and model architecture settings, achieving improved accuracy with less than 1.2% training communication overhead compared with FedAvg and no more than 75% training communication round compared with FedGKT.
翻訳日:2023-08-16 17:28:28 公開日:2023-08-15
# 尾の質

Quality at the Tail ( http://arxiv.org/abs/2212.13925v2 )

ライセンス: Link先を確認
Zhengxin Yang and Wanling Gao and Chunjie Luo and Lei Wang and Fei Tang and Xu Wen and Jianfeng Zhan(参考訳) ディープラーニングのモデルとシステムのベンチマークと評価には、総合的な評価を確保するための細心の注意を要する。 実用的なアプリケーションでは、推論の品質と推論時間の両方、特に、厳格な要求が両方のメトリクスの同時満足度を要求する重要なコンテキストにおいて考慮するのが最重要である。 どちらの側面も無視することは、人命の喪失や財産の損害など、重大で不可逆的な結果をもたらす可能性がある。 残念なことに、多くの研究はこれらの指標を包括的に考慮しておらず、しばしば理想的または許容的条件の下で行われ、その結果不完全または直観的評価方法論に繋がる。 本研究は、ディープラーニング推論品質が変動を示し、ベンチマークと評価の複雑さと課題を更に導入することを明らかにする。 この現象をよりよく特徴づけるために、分布の尾における品質を示す「テール品質」の概念が導入された。 品質変動現象を捉える上で、従来の推論品質と推論時間メトリクスの限界を克服し、より客観的な評価を提供することができる。 また,この現象を捉えるために,推定時間と品質に影響を与える諸要因を総合的に評価・分析するための先駆的評価フレームワークを提案する。 このフレームワークを活用することで、推論時間と推論品質の潜在的分布の予測が可能になる。 評価フレームワークの有効性は、4つのシステムにまたがる3つの異なるタスクに対するディープラーニングモデルによる実験によって検証される。 さらに, この評価枠組みを用いて, 予測品質と推定時間に影響を与える要因の予備分析を行った。

Benchmarking and evaluating deep learning models and systems necessitate a meticulous approach to ensure comprehensive assessment. In practical applications, it is paramount to consider both the inference quality and the inference time, particularly within critical contexts, where stringent requirements demand the simultaneous satisfaction of both metrics. Neglecting either aspect can result in severe and irreversible consequences, including loss of human life and property damage. Unfortunately, many studies lack a comprehensive consideration of these metrics, often conducted under ideal or permissive conditions, thereby leading to incomplete or non-intuitive evaluation methodologies. This study reveals that deep learning inference quality exhibits fluctuations, which further introduces complications and challenges to the benchmarking and evaluation. To better characterize the phenomenon, the concept of "tail quality" is introduced, which indicates the quality at the tail of distributions. "Tail quality" can offer a more objective evaluation, overcoming the limitations of conventional inference quality and inference time metrics in capturing the quality fluctuation phenomenon. To capture the phenomenon, this paper also proposes a pioneering evaluation framework for comprehensive assessment and analysis of various factors affecting inference time and quality. Leveraging this framework enables the anticipation of the potential distribution of inference time and inference quality, thus capturing "tail quality" before practically applying deep learning. The effectiveness of the evaluation framework is validated through experiments conducted on deep learning models for three different tasks across four systems. Furthermore, employing this evaluation framework, the experiments conducted a preliminary analysis of several factors influencing inference quality and inference time.
翻訳日:2023-08-16 17:27:57 公開日:2023-08-15
# 固有状態遷移におけるスケール不変生存確率

Scale-Invariant Survival Probability at Eigenstate Transitions ( http://arxiv.org/abs/2212.13888v2 )

ライセンス: Link先を確認
Miroslav Hopjan and Lev Vidmar(参考訳) 高励起ハミルトン固有状態における量子相転移の理解は、現時点では完成にはほど遠い。 時間領域における特徴付けのためのツールを確立することは特に重要である。 ここでは、典型的なハイゼンベルク時間の単位で時間を測定するスケールされた生存確率は、固有状態遷移におけるスケール不変の挙動を示す。 まず、この性質を1次元オーブリー・アンドレモデルと3次元アンダーソンモデルという2つのパラダイム的二次モデルで証明する。 驚くべきことに、同様の現象論はエルゴディシティ崩壊相転移の相互作用する雪崩モデルに現れる。 これにより、二次系における局在化遷移と相互作用系におけるエルゴード性破壊相転移との興味深い類似性が確立される。

Understanding quantum phase transitions in highly excited Hamiltonian eigenstates is currently far from being complete. It is particularly important to establish tools for their characterization in time domain. Here we argue that a scaled survival probability, where time is measured in units of a typical Heisenberg time, exhibits a scale-invariant behavior at eigenstate transitions. We first demonstrate this property in two paradigmatic quadratic models, the one-dimensional Aubry-Andre model and three-dimensional Anderson model. Surprisingly, we then show that similar phenomenology emerges in the interacting avalanche model of ergodicity breaking phase transitions. This establishes an intriguing similarity between localization transition in quadratic systems and ergodicity breaking phase transition in interacting systems.
翻訳日:2023-08-16 17:27:31 公開日:2023-08-15
# DDColor:デュアルデコーダによる写真リアリスティック画像のカラー化を目指して

DDColor: Towards Photo-Realistic Image Colorization via Dual Decoders ( http://arxiv.org/abs/2212.11613v4 )

ライセンス: Link先を確認
Xiaoyang Kang, Tao Yang, Wenqi Ouyang, Peiran Ren, Lingzhi Li, Xuansong Xie(参考訳) 画像のカラー化は、マルチモーダルな不確実性と高い不正性のために難しい問題である。 ディープニューラルネットワークを直接トレーニングすることは、通常、誤ったセマンティックカラーと低い色のリッチネスにつながる。 トランスフォーマーベースの手法はより良い結果をもたらすが、しばしば手動で設計したプリエントに依存し、一般化能力に乏しく、色出血効果をもたらす。 これらの問題に対処するため,画像カラー化のためのデュアルデコーダを用いたエンドツーエンドのDDColorを提案する。 我々のアプローチには、ピクセルデコーダとクエリベースのカラーデコーダが含まれる。 前者は画像の空間解像度を復元し、後者はリッチな視覚的特徴を利用して色クエリを洗練し、手作りの先行を避ける。 2つのデコーダが協力して,色表現とマルチスケール意味表現の相関関係をクロスアテンションによって確立し,色出血効果を著しく軽減した。 さらに、色豊かさを高めるために、単純で効果的な色度損失を導入する。 DDColorは,既存の最先端技術よりも定量的かつ定性的に優れた性能を発揮することを示した。 コードとモデルはhttps://github.com/piddnad/DDColor.comで公開されている。

Image colorization is a challenging problem due to multi-modal uncertainty and high ill-posedness. Directly training a deep neural network usually leads to incorrect semantic colors and low color richness. While transformer-based methods can deliver better results, they often rely on manually designed priors, suffer from poor generalization ability, and introduce color bleeding effects. To address these issues, we propose DDColor, an end-to-end method with dual decoders for image colorization. Our approach includes a pixel decoder and a query-based color decoder. The former restores the spatial resolution of the image, while the latter utilizes rich visual features to refine color queries, thus avoiding hand-crafted priors. Our two decoders work together to establish correlations between color and multi-scale semantic representations via cross-attention, significantly alleviating the color bleeding effect. Additionally, a simple yet effective colorfulness loss is introduced to enhance the color richness. Extensive experiments demonstrate that DDColor achieves superior performance to existing state-of-the-art works both quantitatively and qualitatively. The codes and models are publicly available at https://github.com/piddnad/DDColor.
翻訳日:2023-08-16 17:26:54 公開日:2023-08-15
# 遅延最小のディープオンラインビデオ安定化

Minimum Latency Deep Online Video Stabilization ( http://arxiv.org/abs/2212.02073v3 )

ライセンス: Link先を確認
Zhuofan Zhang, Zhen Liu, Ping Tan, Bing Zeng, Shuaicheng Liu(参考訳) オンラインビデオ安定化のための新しいカメラパス最適化フレームワークを提案する。 通常、安定化パイプラインは、モーション推定、パススムーシング、新しいビューレンダリングの3つのステップから構成される。 以前の手法のほとんどは運動推定に集中し、様々な大域的または局所的な運動モデルを提案する。 対照的に、パス最適化は、特に将来のフレームが利用できない重要なオンライン設定において、比較的注意を払わない。 本研究では,近年の市販の高品位深度モーションモデルを用いて動き推定を行い,カメラ軌道を復元し,後者の2ステップに集中する。 我々のネットワークは、スライディングウィンドウ内の短い2次元カメラパスを入力として取り、ウィンドウ内の最後のフレームの安定化ワープフィールドを出力する。 ハイブリッド損失は、空間的および時間的一貫性を制限するためによく定義される。 さらに、トレーニングのための安定かつ不安定な動きペアを含む動きデータセットを構築する。 広範な実験により,我々のアプローチは質的かつ定量的に最先端のオンライン手法を著しく上回り,オフラインメソッドと同等のパフォーマンスを達成していることが示された。 私たちのコードとデータセットはhttps://github.com/liuzhen03/nndvsで利用可能です。

We present a novel camera path optimization framework for the task of online video stabilization. Typically, a stabilization pipeline consists of three steps: motion estimating, path smoothing, and novel view rendering. Most previous methods concentrate on motion estimation, proposing various global or local motion models. In contrast, path optimization receives relatively less attention, especially in the important online setting, where no future frames are available. In this work, we adopt recent off-the-shelf high-quality deep motion models for motion estimation to recover the camera trajectory and focus on the latter two steps. Our network takes a short 2D camera path in a sliding window as input and outputs the stabilizing warp field of the last frame in the window, which warps the coming frame to its stabilized position. A hybrid loss is well-defined to constrain the spatial and temporal consistency. In addition, we build a motion dataset that contains stable and unstable motion pairs for the training. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art online methods both qualitatively and quantitatively and achieves comparable performance to offline methods. Our code and dataset are available at https://github.com/liuzhen03/NNDVS
翻訳日:2023-08-16 17:26:12 公開日:2023-08-15
# FedALA: 個人化フェデレーション学習のための適応的ローカルアグリゲーション

FedALA: Adaptive Local Aggregation for Personalized Federated Learning ( http://arxiv.org/abs/2212.01197v3 )

ライセンス: Link先を確認
Jianqing Zhang, Yang Hua, Hao Wang, Tao Song, Zhengui Xue, Ruhui Ma, Haibing Guan(参考訳) 連合学習(FL)における重要な課題は、各クライアントにおけるグローバルモデルの一般化を損なう統計的不均一性である。 そこで本研究では,クライアントモデルのグローバルモデルにおける所望情報をパーソナライズしたflで捉えることで,適応局所アグリゲーション(fedala)を用いたフェデレート学習を提案する。 fedalaの重要なコンポーネントはadaptive local aggregation(ala)モジュールで、ダウンロードされたグローバルモデルとローカルモデルを各クライアントのローカル目標に向けて適応的に集約し、各イテレーションでトレーニングする前にローカルモデルを初期化することができる。 FedALAの有効性を評価するため、コンピュータビジョンと自然言語処理領域における5つのベンチマークデータセットを用いて広範な実験を行った。 FedALAは11の最先端のベースラインを最大3.27%の精度で上回っている。 さらに、ALAモジュールを他のフェデレーション学習手法に適用し、テスト精度を最大24.19%向上させる。

A key challenge in federated learning (FL) is the statistical heterogeneity that impairs the generalization of the global model on each client. To address this, we propose a method Federated learning with Adaptive Local Aggregation (FedALA) by capturing the desired information in the global model for client models in personalized FL. The key component of FedALA is an Adaptive Local Aggregation (ALA) module, which can adaptively aggregate the downloaded global model and local model towards the local objective on each client to initialize the local model before training in each iteration. To evaluate the effectiveness of FedALA, we conduct extensive experiments with five benchmark datasets in computer vision and natural language processing domains. FedALA outperforms eleven state-of-the-art baselines by up to 3.27% in test accuracy. Furthermore, we also apply ALA module to other federated learning methods and achieve up to 24.19% improvement in test accuracy.
翻訳日:2023-08-16 17:25:51 公開日:2023-08-15
# SuS-X: 視覚言語モデルの訓練自由名専用転送

SuS-X: Training-Free Name-Only Transfer of Vision-Language Models ( http://arxiv.org/abs/2211.16198v4 )

ライセンス: Link先を確認
Vishaal Udandarao, Ankush Gupta, Samuel Albanie(参考訳) Contrastive Language-Image Pre-Training (CLIP) は、大規模な視覚言語モデルを訓練するための単純かつ効果的な方法として登場した。 CLIPは、さまざまな下流タスクに対する印象的なゼロショットの分類と検索を示す。 しかし、その潜在能力を最大限活用するためには、微調整が必要であるようだ。 クリップモデル全体の微調整はリソース集約的で不安定です。 さらに、このような微調整を回避しようとする最近の手法では、ターゲット分布からの画像にアクセスする必要がある。 本稿では,異なるアプローチを追求し,ダウンストリームタスクに関する知識が下流のターゲットカテゴリの名前のみを含む,トレーニングフリーな"名前のみの転送"の仕組みを検討する。 本稿では,SuSとTIP-Xという2つの重要なビルディングブロックで構成されるSuS-Xを提案する。 SuS-Xは19のベンチマークデータセットで最先端のゼロショット分類結果を達成する。 また,TIP-Xをトレーニング不要な複数ショット設定で有効性を示すとともに,トレーニング不要なベースラインの強化に対して,最先端の結果が得られた。 コードはhttps://github.com/vishaal27/SuS-Xで入手できる。

Contrastive Language-Image Pre-training (CLIP) has emerged as a simple yet effective way to train large-scale vision-language models. CLIP demonstrates impressive zero-shot classification and retrieval on diverse downstream tasks. However, to leverage its full potential, fine-tuning still appears to be necessary. Fine-tuning the entire CLIP model can be resource-intensive and unstable. Moreover, recent methods that aim to circumvent this need for fine-tuning still require access to images from the target distribution. In this paper, we pursue a different approach and explore the regime of training-free "name-only transfer" in which the only knowledge we possess about the downstream task comprises the names of downstream target categories. We propose a novel method, SuS-X, consisting of two key building blocks -- SuS and TIP-X, that requires neither intensive fine-tuning nor costly labelled data. SuS-X achieves state-of-the-art zero-shot classification results on 19 benchmark datasets. We further show the utility of TIP-X in the training-free few-shot setting, where we again achieve state-of-the-art results over strong training-free baselines. Code is available at https://github.com/vishaal27/SuS-X.
翻訳日:2023-08-16 17:25:33 公開日:2023-08-15
# ラベル効率のよい時系列表現学習

Label-efficient Time Series Representation Learning: A Review ( http://arxiv.org/abs/2302.06433v2 )

ライセンス: Link先を確認
Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, Xiaoli Li(参考訳) ラベル付きデータの不足は,実世界の時系列データにディープラーニングモデルを適用する上で,大きな課題のひとつだ。 そのため,近年,移動学習,自己指導学習,半教師付き学習といったいくつかの手法が開発され,限られた時系列ラベルから深層学習モデルの学習能力の向上が図られている。 本研究では,外部データソースへの依存度に基づいて,時系列データにおけるラベル付きデータ問題の希少性に対処する既存のアプローチを分類する新しい分類法を提案する。 さらに、各アプローチの最近の進歩を概観し、現在の作業の限界を結論付け、この分野の進歩をもたらすであろう今後の方向性について述べる。

The scarcity of labeled data is one of the main challenges of applying deep learning models on time series data in the real world. Therefore, several approaches, e.g., transfer learning, self-supervised learning, and semi-supervised learning, have been recently developed to promote the learning capability of deep learning models from the limited time series labels. In this survey, for the first time, we provide a novel taxonomy to categorize existing approaches that address the scarcity of labeled data problem in time series data based on their dependency on external data sources. Moreover, we present a review of the recent advances in each approach and conclude the limitations of the current works and provide future directions that could yield better progress in the field.
翻訳日:2023-08-16 17:18:59 公開日:2023-08-15
# 認知症者の扇動検出を改善するためのアンダーサンプリングと累積クラス再決定法

Undersampling and Cumulative Class Re-decision Methods to Improve Detection of Agitation in People with Dementia ( http://arxiv.org/abs/2302.03224v3 )

ライセンス: Link先を確認
Zhidong Meng, Andrea Iaboni, Bing Ye, Kristine Newman, Alex Mihailidis, Zhihong Deng, and Shehroz S. Khan(参考訳) 鎮静は認知症(PwD)患者の最も多い症状の1つで、自分自身と介護者の安全を危険にさらすことができる。 住宅地に住むpwdの健康と安全を支援するためには, 客観的な扇動検出手法の開発が重要である。 前回の研究では、参加者17名から600日間のマルチモーダルウェアラブルセンサデータを収集し、1分間の窓での動揺を検出する機械学習モデルを開発した。 しかし、データセットには不均衡問題や潜在的な不正確なラベルなど、通常の振る舞いに比べて動揺の発生がはるかに稀なため、大きな制限がある。 本稿では,まず,不均衡を解消するために異なるアンダーサンプリング手法を実装し,通常の動作データの20%だけが競合的動揺検出モデルの訓練に適しているという結論に至った。 そこで我々は,不明瞭な時間間隔を仮定した手動ラベリング機構を評価するため,重み付きアンダーサンプリング法を設計した。 その後, 累積クラス再決定(CCR)の後処理法が, 動揺の歴史的逐次的情報と連続特性に基づいて提案され, 動揺検出システムの潜在的な応用のための意思決定性能が向上した。 その結果、アンダーサンプリングとCCRの組み合わせにより、トレーニング時間とデータが少なく、F1スコアや他の指標を様々な程度に改善した。

Agitation is one of the most prevalent symptoms in people with dementia (PwD) that can place themselves and the caregiver's safety at risk. Developing objective agitation detection approaches is important to support health and safety of PwD living in a residential setting. In a previous study, we collected multimodal wearable sensor data from 17 participants for 600 days and developed machine learning models for detecting agitation in one-minute windows. However, there are significant limitations in the dataset, such as imbalance problem and potential imprecise labelsas the occurrence of agitation is much rarer in comparison to the normal behaviours. In this paper, we first implemented different undersampling methods to eliminate the imbalance problem, and came to the conclusion that only 20% of normal behaviour data were adequate to train a competitive agitation detection model. Then, we designed a weighted undersampling method to evaluate the manual labeling mechanism given the ambiguous time interval assumption. After that, the postprocessing method of cumulative class re-decision (CCR) was proposed based on the historical sequential information and continuity characteristic of agitation, improving the decision-making performance for the potential application of agitation detection system. The results showed that a combination of undersampling and CCR improved F1-score and other metrics to varying degrees with less training time and data.
翻訳日:2023-08-16 17:18:46 公開日:2023-08-15
# 非エルミートハミルトニアンによる量子力学の測定仮定のエミュレート

Emulating the measurement postulates of quantum mechanics via non-Hermitian Hamiltonian ( http://arxiv.org/abs/2302.01898v3 )

ライセンス: Link先を確認
Gurpahul Singh, Ritesh K. Singh and Soumitro Banerjee (Indian Institute of Science Education and Research Kolkata)(参考訳) 量子力学の定式化以来、波動関数の崩壊過程についてはほとんど理解されていない。 我々は,量子力学の測定仮定をエミュレートする力学モデルを提案した。 我々は、非エルミートハミルトニアンが測定の過程で作用し、任意の状態が引き寄せる平衡状態へと進化し、「崩壊」を模倣すると仮定する。 これを2レベルシステムを用いて実証し,nレベルシステムに拡張する。 2レベル系に対して、リンドブラッド・マスター方程式によって生成される力学は、2つの非エルミート的ハミルトニアンによる進化の不整合和として再現できることを示した。

Ever since the formulation of quantum mechanics, there is very little understanding of the process of the collapse of a wavefunction. We have proposed a dynamical model to emulate the measurement postulates of quantum mechanics. We postulate that a non-Hermitian Hamiltonian operates during the process of measurement, which evolves any state to an attracting equilibrium state, thus, mimicking a "collapse". We demonstrate this using a 2-level system and then extend it to an N-level system. For a 2-level system, we also demonstrate that the dynamics generated by the Lindblad master equation can be replicated as an incoherent sum of the evolution by two separate non-Hermitian Hamiltonians.
翻訳日:2023-08-16 17:18:21 公開日:2023-08-15
# HaMuCo:多視点協調型自己監督学習による手振り推定

HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised Learning ( http://arxiv.org/abs/2302.00988v2 )

ライセンス: Link先を確認
Xiaozheng Zheng, Chao Wen, Zhou Xue, Pengfei Ren, Jingyu Wang(参考訳) 近年の3次元手ポーズ推定の進歩は有望な結果を示しているが、その効果は主に大規模注釈付きデータセットの利用可能性に依存しており、その作成は手間とコストのかかるプロセスである。 ラベル・ハングリー制限を緩和するために,多視点擬似2dラベルから単視点ハンドポーズ推定器を学習する自己教師付き学習フレームワークhamucoを提案する。 しかし、自己指導型学習の主な課題の1つは、ノイズラベルの存在と複数の視点から「グループ思考」の効果である。 これらの課題を克服するために,クロスビュー相関機能を利用し,マルチビュー一貫性を強制することにより協調学習を実現する,シングルビュー推定器を蒸留するクロスビューインタラクションネットワークを提案する。 シングルビュー推定器とクロスビュー相互作用ネットワークは、エンドツーエンドで共同で訓練される。 本手法は多視点自己監督型ポーズ推定における最先端性能を実現することができる。 さらに,提案するクロスビューインタラクションネットワークは,マルチビュー入力からのハンドポーズ推定にも適用可能であり,同一設定下では従来の手法を上回っている。

Recent advancements in 3D hand pose estimation have shown promising results, but its effectiveness has primarily relied on the availability of large-scale annotated datasets, the creation of which is a laborious and costly process. To alleviate the label-hungry limitation, we propose a self-supervised learning framework, HaMuCo, that learns a single-view hand pose estimator from multi-view pseudo 2D labels. However, one of the main challenges of self-supervised learning is the presence of noisy labels and the ``groupthink'' effect from multiple views. To overcome these issues, we introduce a cross-view interaction network that distills the single-view estimator by utilizing the cross-view correlated features and enforcing multi-view consistency to achieve collaborative learning. Both the single-view estimator and the cross-view interaction network are trained jointly in an end-to-end manner. Extensive experiments show that our method can achieve state-of-the-art performance on multi-view self-supervised hand pose estimation. Furthermore, the proposed cross-view interaction network can also be applied to hand pose estimation from multi-view input and outperforms previous methods under the same settings.
翻訳日:2023-08-16 17:17:39 公開日:2023-08-15
# infinicity:無限大の都市合成

InfiniCity: Infinite-Scale City Synthesis ( http://arxiv.org/abs/2301.09637v2 )

ライセンス: Link先を確認
Chieh Hubert Lin, Hsin-Ying Lee, Willi Menapace, Menglei Chai, Aliaksandr Siarohin, Ming-Hsuan Yang and Sergey Tulyakov(参考訳) 本研究では,無限大の3次元都市合成に向けて,ランダムノイズから制約のない大規模3次元地下環境の構築とレンダリングを行う新しいフレームワーク,InfiniCityを提案する。 infinicityは一見非現実的なタスクを3つの実現可能なモジュールに分解し、2dと3dの両方のデータを利用する。 まず、無限画素画像合成モジュールが、鳥眼ビューから任意のスケールの2Dマップを生成する。 次にoctreeベースのvoxel補完モジュールは、生成された2dマップを3dオクターレにリフトする。 最後に、voxelベースのニューラルネットワークモジュールがvoxelをテキスト化し、2dイメージをレンダリングする。 これにより、InfiniCityは任意の規模の3D都市環境を合成し、フレキシブルでインタラクティブな編集を可能にする。 提案手法の有効性を定量的かつ質的に実証する。 プロジェクトページ: https://hubert0527.github.io/infinicity/

Toward infinite-scale 3D city synthesis, we propose a novel framework, InfiniCity, which constructs and renders an unconstrainedly large and 3D-grounded environment from random noises. InfiniCity decomposes the seemingly impractical task into three feasible modules, taking advantage of both 2D and 3D data. First, an infinite-pixel image synthesis module generates arbitrary-scale 2D maps from the bird's-eye view. Next, an octree-based voxel completion module lifts the generated 2D map to 3D octrees. Finally, a voxel-based neural rendering module texturizes the voxels and renders 2D images. InfiniCity can thus synthesize arbitrary-scale and traversable 3D city environments, and allow flexible and interactive editing from users. We quantitatively and qualitatively demonstrate the efficacy of the proposed framework. Project page: https://hubert0527.github.io/infinicity/
翻訳日:2023-08-16 17:17:00 公開日:2023-08-15
# 非最大量子カオスに対する有効場の理論

An effective field theory for non-maximal quantum chaos ( http://arxiv.org/abs/2301.05256v2 )

ライセンス: Link先を確認
Ping Gao and Hong Liu(参考訳) 非最大量子カオス系では、時間外順序付き相関器(OTOC)の指数的挙動は、高次の「スピン」作用素の無限塔の交換に関する和から生じる。 実効場理論(EFT)を構築し、これらの交換を$(0+1)$次元で捉える。 eftは最大カオスシステムのためのものを一般化し、最大カオスの限界でそれへ還元する。 この理論は、1/n$拡大(自由度数)の先頭の順序と、1/n$補正の無限個の高次数の両方においてotocsの一般構造を予測する。 これらの一般的な結果は、特定のモデルで明示的に得られた結果と一致する。 また、EFTの一般的な構造は、大きな$q$SYKモデルから抽出できることを示す。

In non-maximally quantum chaotic systems, the exponential behavior of out-of-time-ordered correlators (OTOCs) results from summing over exchanges of an infinite tower of higher "spin" operators. We construct an effective field theory (EFT) to capture these exchanges in $(0+1)$ dimensions. The EFT generalizes the one for maximally chaotic systems, and reduces to it in the limit of maximal chaos. The theory predicts the general structure of OTOCs both at leading order in the $1/N$ expansion ($N$ is the number of degrees of freedom), and after resuming over an infinite number of higher order $1/N$ corrections. These general results agree with those previously explicitly obtained in specific models. We also show that the general structure of the EFT can be extracted from the large $q$ SYK model.
翻訳日:2023-08-16 17:16:46 公開日:2023-08-15
# 複素ダイナミクスのグラフニューラル近似のための準備

A Recipe for Well-behaved Graph Neural Approximations of Complex Dynamics ( http://arxiv.org/abs/2301.04900v2 )

ライセンス: Link先を確認
Vaiva Vasiliauskaite and Nino Antulov-Fantulin(参考訳) 常微分方程式のデータ駆動近似は、力学系モデル、特に明示的な第一原理を持たない複素系の発見において、古典的な方法に代わる有望な方法を与える。 本稿では、ネットワーク隣接行列を介して結合された常微分方程式系で力学を記述する複雑なシステムに焦点をあてる。 金融、社会、神経システムを含む多くの現実世界のシステムは、このタイプの力学モデルに属する。 本稿では,必要なバイアスや適切なニューラルアーキテクチャを含むニューラルネットワークを用いて,そのような動的システムを近似するための必須要素を提案する。 静的教師付き学習との違いを強調し,統計的学習理論の古典的仮定を超えた一般化を評価することを提唱する。 推論時間中の予測の信頼性を推定するために,専用nullモデルを導入する。 様々な複雑なネットワークダイナミクスを研究することで、ニューラルネットワークが様々なダイナミクスを近似し、複雑なネットワーク構造、サイズ、入力の統計特性を一般化できることを実証する。 包括的フレームワークにより,高次元,非線形結合型複合力学系の深層学習近似が可能となる。

Data-driven approximations of ordinary differential equations offer a promising alternative to classical methods in discovering a dynamical system model, particularly in complex systems lacking explicit first principles. This paper focuses on a complex system whose dynamics is described with a system of ordinary differential equations, coupled via a network adjacency matrix. Numerous real-world systems, including financial, social, and neural systems, belong to this class of dynamical models. We propose essential elements for approximating such dynamical systems using neural networks, including necessary biases and an appropriate neural architecture. Emphasizing the differences from static supervised learning, we advocate for evaluating generalization beyond classical assumptions of statistical learning theory. To estimate confidence in prediction during inference time, we introduce a dedicated null model. By studying various complex network dynamics, we demonstrate the neural network's ability to approximate various dynamics, generalize across complex network structures, sizes, and statistical properties of inputs. Our comprehensive framework enables deep learning approximations of high-dimensional, non-linearly coupled complex dynamical systems.
翻訳日:2023-08-16 17:16:31 公開日:2023-08-15
# 一時的バンドル選択におけるユーザの個人化投影バイアスの学習

Probe: Learning Users' Personalized Projection Bias in Intertemporal Bundle Choices ( http://arxiv.org/abs/2303.06016v3 )

ライセンス: Link先を確認
Qingming Li and H. Vicky Zhao(参考訳) 時間的選択は、将来的な利益に対する現在のコストの重み付けを必要とする決定を下す。 特定のタイプの一時的な選択は、個々のアイテムを購入するか、そのアイテムを含むバンドルを選択するかのどちらかである。 従来の研究は、個人がこれらの選択に関わる要因を正確に予測していると仮定していた。 しかし、実際には、これらの要因に対するユーザの認識は、しばしばバイアスを受け、不合理かつ準最適意思決定につながる。 本研究では、投射バイアスと基準点効果という2つのよく観察されるバイアスに焦点を当てる。 これらのバイアスに対処するために, Probe と呼ばれる新しいバイアス埋め込み選好モデルを提案する。 このプローブは、ユーザの投影バイアスをキャプチャする重み関数と、参照点効果を考慮した値関数とを組み込んで、重み関数と値関数を組み合わせるための行動経済学からの予測理論を導入する。 これにより、ユーザがバンドルまたは1つのアイテムを選択する確率を判断できます。 我々は,バンドル販売戦略の設計における予測バイアスの影響を示すために,詳細な理論解析を行う。 実験の結果,提案手法は既存手法よりも優れており,バンドル購入におけるユーザの不合理な振る舞いの理解に寄与することが示された。 この調査は、ユーザの意思決定メカニズムをより深く理解し、パーソナライズされたサービスの提供を可能にし、より合理的で最適な意思決定を支援する。

Intertemporal choices involve making decisions that require weighing the costs in the present against the benefits in the future. One specific type of intertemporal choice is the decision between purchasing an individual item or opting for a bundle that includes that item. Previous research assumes that individuals have accurate expectations of the factors involved in these choices. However, in reality, users' perceptions of these factors are often biased, leading to irrational and suboptimal decision-making. In this work, we specifically focus on two commonly observed biases: projection bias and the reference-point effect. To address these biases, we propose a novel bias-embedded preference model called Probe. The Probe incorporates a weight function to capture users' projection bias and a value function to account for the reference-point effect, and introduce prospect theory from behavioral economics to combine the weight and value functions. This allows us to determine the probability of users selecting the bundle or a single item. We provide a thorough theoretical analysis to demonstrate the impact of projection bias on the design of bundle sales strategies. Through experimental results, we show that the proposed Probe model outperforms existing methods and contributes to a better understanding of users' irrational behaviors in bundle purchases. This investigation can facilitate a deeper comprehension of users' decision-making mechanisms, enable the provision of personalized services, and assist users in making more rational and optimal decisions.
翻訳日:2023-08-16 17:09:17 公開日:2023-08-15
# GPGait: 汎用Poseベースの歩行認識

GPGait: Generalized Pose-based Gait Recognition ( http://arxiv.org/abs/2303.05234v2 )

ライセンス: Link先を確認
Yang Fu, Shibei Meng, Saihui Hou, Xuecai Hu and Yongzhen Huang(参考訳) ポーズに基づく歩行認識に関する最近の研究は、このような単純な情報を用いてシルエット法に匹敵する結果が得られる可能性を実証している。 しかし、異なるデータセット上でのポーズベースの手法の一般化能力は、シルエットベースの手法よりも好ましくないほど劣っている。 データセット間でのポーズベースの手法の一般化能力を向上させるために,<textbf{G}eneralized \textbf{P}ose-based \textbf{Gait} recognition (\textbf{GPGait}) フレームワークを提案する。 まず,Human-Oriented Transformation (HOT) と一連のHuman-Oriented Descriptor (HOD) が提案され,識別多機能化によるポーズの統一表現が得られる。 そして、hotとhodの後の統一表現のわずかなバリエーションを考えると、ネットワークがキーポイント間の局所的グローバル関係を抽出することが重要となる。 この目的のために,効率的なグラフ分割と局所的グローバル空間特徴抽出を実現するために,部分認識型グラフ畳み込みネットワーク (pagcn) を提案する。 casia-b, oumvlp-pose, gait3d, growの4つのgait認識データセットを用いた実験により, 既存のスケルトンベース法と比較して, より良好で安定なクロスドメイン機能を示し, シルエットベースのものと同等の認識結果を得た。 コードはhttps://github.com/BNU-IVC/FastPoseGait.comで入手できる。

Recent works on pose-based gait recognition have demonstrated the potential of using such simple information to achieve results comparable to silhouette-based methods. However, the generalization ability of pose-based methods on different datasets is undesirably inferior to that of silhouette-based ones, which has received little attention but hinders the application of these methods in real-world scenarios. To improve the generalization ability of pose-based methods across datasets, we propose a \textbf{G}eneralized \textbf{P}ose-based \textbf{Gait} recognition (\textbf{GPGait}) framework. First, a Human-Oriented Transformation (HOT) and a series of Human-Oriented Descriptors (HOD) are proposed to obtain a unified pose representation with discriminative multi-features. Then, given the slight variations in the unified representation after HOT and HOD, it becomes crucial for the network to extract local-global relationships between the keypoints. To this end, a Part-Aware Graph Convolutional Network (PAGCN) is proposed to enable efficient graph partition and local-global spatial feature extraction. Experiments on four public gait recognition datasets, CASIA-B, OUMVLP-Pose, Gait3D and GREW, show that our model demonstrates better and more stable cross-domain capabilities compared to existing skeleton-based methods, achieving comparable recognition results to silhouette-based ones. Code is available at https://github.com/BNU-IVC/FastPoseGait.
翻訳日:2023-08-16 17:08:54 公開日:2023-08-15
# プログレッシブ・セルフ蒸留による食品認識の学習

Learn More for Food Recognition via Progressive Self-Distillation ( http://arxiv.org/abs/2303.05073v2 )

ライセンス: Link先を確認
Yaohui Zhu, Linhu Liu, Jiang Tian(参考訳) 食品認識には、健康に配慮したレコメンデーションやセルフサービスレストランなど、幅広い応用がある。 食品認識の従来の手法は、まず、弱い管理方法で情報領域を特定し、その特徴を集約する。 しかし、情報領域の位置誤差は、これらの手法の有効性をある程度制限する。 そこで本研究では,複数の地域を探索する代わりに,より詳細な食品認識のためのネットワークのマイニング能力を高めるプログレッシブ・セルフ蒸留(PSD)手法を提案する。 PSDのトレーニングは、教師ネットワークと学生ネットワークが同一の埋め込みネットワークを共有する複数の自己蒸留を含む。 教師ネットワークは、一部の情報領域をマスキングして教師ネットワークから修正画像を受け取るので、教師ネットワークは生徒ネットワークよりも強力な意味表現を出力する。 より強力な意味を持つ教師ネットワークによって指導され、学生ネットワークは、より有用な地域を、自身の能力を高めて修正画像からマイニングすることが奨励される。 また、共有埋め込みネットワークにより、教師ネットワークの能力も向上する。 プログレッシブトレーニングを使用することで、教師ネットワークはより差別的な地域をマイニングする能力を向上させる。 推論フェーズでは、学生ネットワークの助けなしに教師ネットワークのみが使用される。 3つのデータセットに関する広範囲な実験により,提案手法の有効性と最新性能が実証された。

Food recognition has a wide range of applications, such as health-aware recommendation and self-service restaurants. Most previous methods of food recognition firstly locate informative regions in some weakly-supervised manners and then aggregate their features. However, location errors of informative regions limit the effectiveness of these methods to some extent. Instead of locating multiple regions, we propose a Progressive Self-Distillation (PSD) method, which progressively enhances the ability of network to mine more details for food recognition. The training of PSD simultaneously contains multiple self-distillations, in which a teacher network and a student network share the same embedding network. Since the student network receives a modified image from its teacher network by masking some informative regions, the teacher network outputs stronger semantic representations than the student network. Guided by such teacher network with stronger semantics, the student network is encouraged to mine more useful regions from the modified image by enhancing its own ability. The ability of the teacher network is also enhanced with the shared embedding network. By using progressive training, the teacher network incrementally improves its ability to mine more discriminative regions. In inference phase, only the teacher network is used without the help of the student network. Extensive experiments on three datasets demonstrate the effectiveness of our proposed method and state-of-the-art performance.
翻訳日:2023-08-16 17:08:21 公開日:2023-08-15
# FUSQA:胎児超音波のセグメンテーション品質評価

FUSQA: Fetal Ultrasound Segmentation Quality Assessment ( http://arxiv.org/abs/2303.04418v2 )

ライセンス: Link先を確認
Sevim Cengiz, Ibrahim Almakky, Mohammad Yaqub(参考訳) 深層学習モデルは様々な胎児超音波セグメンテーションタスクに有効である。 しかし、新たな未知のデータへの一般化は、臨床応用の有効性に関する疑問を提起している。 通常、新しい目に見えないデータへの遷移は、移行後のセグメンテーション性能を検証するのに時間を要する。 セグメンテーション品質評価の取り組みは自然画像に焦点を合わせており、その問題は通常、ダイススコア回帰タスクとして定式化されている。 本稿では,マスクが存在しない場合にセグメンテーション品質評価に取り組むために,簡易な胎児超音波セグメンテーション品質評価(FUSQA)モデルを提案する。 分別品質評価プロセスを,より正確な妊娠年齢推定のために,良質な分別マスクと低品質の分別マスクを区別するための自動分類タスクとして定式化する。 異なる超音波装置を用いて2つの病院から収集した2つのデータセットについて,提案手法の性能を検証する。 優れたセグメンテーションマスクと低い品質のセグメンテーションマスクを区別することで、90%以上の分類精度を達成しています。 さらに、医師が報告した妊娠年齢とCRL測定値との差は1.45日しかなかった。 一方,この差は,セグメンテーションの少ないマスクからcrlを計算した場合,最大7.73日にまで達した。 その結果、AIベースのアプローチは胎児超音波のセグメンテーションの品質評価に役立つ可能性があり、将来的にはリアルタイムスクリーニングにおけるセグメンテーションの低下を検出する可能性がある。

Deep learning models have been effective for various fetal ultrasound segmentation tasks. However, generalization to new unseen data has raised questions about their effectiveness for clinical adoption. Normally, a transition to new unseen data requires time-consuming and costly quality assurance processes to validate the segmentation performance post-transition. Segmentation quality assessment efforts have focused on natural images, where the problem has been typically formulated as a dice score regression task. In this paper, we propose a simplified Fetal Ultrasound Segmentation Quality Assessment (FUSQA) model to tackle the segmentation quality assessment when no masks exist to compare with. We formulate the segmentation quality assessment process as an automated classification task to distinguish between good and poor-quality segmentation masks for more accurate gestational age estimation. We validate the performance of our proposed approach on two datasets we collect from two hospitals using different ultrasound machines. We compare different architectures, with our best-performing architecture achieving over 90% classification accuracy on distinguishing between good and poor-quality segmentation masks from an unseen dataset. Additionally, there was only a 1.45-day difference between the gestational age reported by doctors and estimated based on CRL measurements using well-segmented masks. On the other hand, this difference increased and reached up to 7.73 days when we calculated CRL from the poorly segmented masks. As a result, AI-based approaches can potentially aid fetal ultrasound segmentation quality assessment and might detect poor segmentation in real-time screening in the future.
翻訳日:2023-08-16 17:07:59 公開日:2023-08-15
# プライベート推定におけるサブセットベースインスタンス最適性

Subset-Based Instance Optimality in Private Estimation ( http://arxiv.org/abs/2303.01262v2 )

ライセンス: Link先を確認
Travis Dick, Alex Kulesza, Ziteng Sun, Ananda Theertha Suresh(参考訳) 微分プライベート推定アルゴリズムのインスタンス最適性の新たな定義を提案する。 私たちの定義では、各データセットの$d$と最高のプライベートベンチマークアルゴリズムを同時に競うために最適なアルゴリズムが必要です。 (a)事前にD$を知っており、 (b) は$d$ の大きなサブセットで最悪の場合の性能によって評価される。 つまり、ベンチマークアルゴリズムは、潜在的に極端なポイントが$d$に追加された場合、うまく機能しない。 これによってベンチマークは、以前の作業で提案されていたものよりも大幅に強化されました。 それにもかかわらず、実際の評価されたデータセットに対して、手段、量子化、および$\ell_p$-norm最小化を含む幅広いデータセット特性のクラスを推定する際に、インスタンス最適性の概念を達成するプライベートアルゴリズムを構築する方法を示す。 特に,詳細な解析を行い,分布的仮定の下で既存のアルゴリズムの漸近的性能を同時に満たしているか,あるいは超えていることを示す。

We propose a new definition of instance optimality for differentially private estimation algorithms. Our definition requires an optimal algorithm to compete, simultaneously for every dataset $D$, with the best private benchmark algorithm that (a) knows $D$ in advance and (b) is evaluated by its worst-case performance on large subsets of $D$. That is, the benchmark algorithm need not perform well when potentially extreme points are added to $D$; it only has to handle the removal of a small number of real data points that already exist. This makes our benchmark significantly stronger than those proposed in prior work. We nevertheless show, for real-valued datasets, how to construct private algorithms that achieve our notion of instance optimality when estimating a broad class of dataset properties, including means, quantiles, and $\ell_p$-norm minimizers. For means in particular, we provide a detailed analysis and show that our algorithm simultaneously matches or exceeds the asymptotic performance of existing algorithms under a range of distributional assumptions.
翻訳日:2023-08-16 17:07:36 公開日:2023-08-15
# I2P-Rec:Bird’s Eye View Projectionsによる大規模ポイントクラウドマップの画像認識

I2P-Rec: Recognizing Images on Large-scale Point Cloud Maps through Bird's Eye View Projections ( http://arxiv.org/abs/2303.01043v2 )

ライセンス: Link先を確認
Shuhang Zheng, Yixuan Li, Zhu Yu, Beinan Yu, Si-Yuan Cao, Minhang Wang, Jintao Xu, Rui Ai, Weihao Gu, Lun Luo, Hui-Liang Shen(参考訳) 位置認識は、オンラインローカライズアルゴリズムに最初の推測を提供するため、自動運転車が完全な自律性を達成するための重要な技術である。 画像やポイントクラウドに基づく現在の手法は良好な性能を達成しているが、大規模なポイントクラウドマップ上でのイメージのローカライズは未解決の問題である。 このクロスモーダルマッチングタスクは、画像や点雲から一貫した記述子を抽出することが難しいため、難しい。 本稿では,クロスモーダルデータを同一モダリティに変換することで,この問題を解決するための i2p-rec 法を提案する。 具体的には,近年の深度推定ネットワークの成功を利用して画像から点雲を復元する。 次に、ポイント雲をBird's Eye View (BEV)イメージに投影します。 中間表現としてBEV画像を用いて、畳み込みニューラルネットワークを用いてグローバルな特徴を抽出し、次いでNetVLAD層を用いてマッチングを行う。 KITTIデータセットで評価した実験結果から,I2P-Recはトレーニングデータのみを用いて,ポイントクラウドマップ上のモノクロ画像とステレオ画像の局所化において,Top-1\%以上80\%以上90\%のリコール率を達成した。 さらに,自律ロジスティクスカーが収集した1kmの軌道データセット上でのi2p-recの評価を行った。

Place recognition is an important technique for autonomous cars to achieve full autonomy since it can provide an initial guess to online localization algorithms. Although current methods based on images or point clouds have achieved satisfactory performance, localizing the images on a large-scale point cloud map remains a fairly unexplored problem. This cross-modal matching task is challenging due to the difficulty in extracting consistent descriptors from images and point clouds. In this paper, we propose the I2P-Rec method to solve the problem by transforming the cross-modal data into the same modality. Specifically, we leverage on the recent success of depth estimation networks to recover point clouds from images. We then project the point clouds into Bird's Eye View (BEV) images. Using the BEV image as an intermediate representation, we extract global features with a Convolutional Neural Network followed by a NetVLAD layer to perform matching. The experimental results evaluated on the KITTI dataset show that, with only a small set of training data, I2P-Rec achieves recall rates at Top-1\% over 80\% and 90\%, when localizing monocular and stereo images on point cloud maps, respectively. We further evaluate I2P-Rec on a 1 km trajectory dataset collected by an autonomous logistics car and show that I2P-Rec can generalize well to previously unseen environments.
翻訳日:2023-08-16 17:07:20 公開日:2023-08-15
# BEVPlace:鳥の視線画像を用いたLiDARによる位置認識学習

BEVPlace: Learning LiDAR-based Place Recognition using Bird's Eye View Images ( http://arxiv.org/abs/2302.14325v3 )

ライセンス: Link先を確認
Lun Luo, Shuhang Zheng, Yixuan Li, Yongzhi Fan, Beinan Yu, Siyuan Cao, Huiliang Shen(参考訳) 場所認識は長期SLAMシステムにとって重要なモジュールである。 現在のlidarに基づく位置認識法は、通常、不整点や範囲画像などの点雲の表現を用いる。 これらの手法は検索のリコール率が高いが、ビューの変化やシーンの変化で性能が低下する可能性がある。 本研究では、位置認識における異なる表現の可能性、すなわち、鳥の視線(BEV)画像について検討する。 我々は,bev画像の構造的内容は点雲の回転や変換の影響が少ないことを観察する。 微妙な設計がなければ、bevイメージで訓練された単純なvggnetが、わずかな視点変化の場面で最先端の場所認識手法と同等の性能を達成できることを検証する。 より堅牢な位置認識のために、BEVPlaceと呼ばれる回転不変ネットワークを設計する。 我々はグループ畳み込みを用いて画像から回転同変局所特徴を抽出し,大域的特徴集合にNetVLADを用いる。 さらに,BEV特徴量間の距離が点雲の幾何学的距離と相関していることが観察された。 そこで本研究では,クエリクラウドの位置を推定し,位置認識の利用範囲を拡大する手法を開発した。 大規模公開データセットを用いた実験により,本手法が得られた。 1)リコール率で最先端のパフォーマンスを達成する。 2) 変化を見るのに堅牢です。 3)強い一般化能力を示し、 4) 問合せ点雲の位置を推定できる。 ソースコードはhttps://github.com/zjuluolun/BEVPlace.comで公開されている。

Place recognition is a key module for long-term SLAM systems. Current LiDAR-based place recognition methods usually use representations of point clouds such as unordered points or range images. These methods achieve high recall rates of retrieval, but their performance may degrade in the case of view variation or scene changes. In this work, we explore the potential of a different representation in place recognition, i.e. bird's eye view (BEV) images. We observe that the structural contents of BEV images are less influenced by rotations and translations of point clouds. We validate that, without any delicate design, a simple VGGNet trained on BEV images achieves comparable performance with the state-of-the-art place recognition methods in scenes of slight viewpoint changes. For more robust place recognition, we design a rotation-invariant network called BEVPlace. We use group convolution to extract rotation-equivariant local features from the images and NetVLAD for global feature aggregation. In addition, we observe that the distance between BEV features is correlated with the geometry distance of point clouds. Based on the observation, we develop a method to estimate the position of the query cloud, extending the usage of place recognition. The experiments conducted on large-scale public datasets show that our method 1) achieves state-of-the-art performance in terms of recall rates, 2) is robust to view changes, 3) shows strong generalization ability, and 4) can estimate the positions of query point clouds. Source codes are publicly available at https://github.com/zjuluolun/BEVPlace.
翻訳日:2023-08-16 17:06:53 公開日:2023-08-15
# 不均衡情報ネットワークのための意味認識ノード合成

Semantic-aware Node Synthesis for Imbalanced Heterogeneous Information Networks ( http://arxiv.org/abs/2302.14061v2 )

ライセンス: Link先を確認
Xinyi Gao, Wentao Zhang, Tong Chen, Junliang Yu, Hung Quoc Viet Nguyen, Hongzhi Yin(参考訳) 不均一グラフニューラルネットワーク(HGNN)は、異種情報ネットワーク(HIN)における複素不均一性をモデル化する際、例外的な効果を示した。 HGNNの重要な利点は、豊富な意味情報を抽出し、有効表現学習に活用することにより、HINにおける多様なノードやエッジタイプを処理できることである。 しかし、多くの実世界のシナリオで広く見られる現象として、HINのクラス不均衡分布は既存のHGNNのパフォーマンスボトルネックを生み出している。 ノードの量的不均衡とは別に、hinsのもう一つの重要かつ特徴的な課題は意味的不均衡である。 hinsのマイノリティクラスは、しばしば多様で十分な隣接ノードを欠き、偏りと不完全な意味情報をもたらす。 この意味的不均衡は、少数ノードを正確に分類することの難しさをさらに複雑化し、HGNNの性能低下につながった。 マイノリティクラスの不均衡に取り組み,それらの不適切なセマンティクスを補完するために,sns(semantic-aware node synthesis)と呼ばれる不均衡hinにおけるセマンティクス不均衡問題の最初の方法を提案する。 マイノリティクラスへの影響を評価することにより、SNSは異種隣接ノードを適応的に選択し、マイノリティセマンティクスを維持しながら合成ノードでネットワークを増強する。 さらに,合成ノードの表現を意味論的およびクラス的視点の両方から制約し,合成ノードからの潜在的なノイズを効果的に抑制するhgnnの2つの正規化手法を導入する。 総合的な実験研究により、SNSは様々なベンチマークデータセットにおいて既存の手法よりずっと優れていることが示された。

Heterogeneous graph neural networks (HGNNs) have exhibited exceptional efficacy in modeling the complex heterogeneity in heterogeneous information networks (HINs). The critical advantage of HGNNs is their ability to handle diverse node and edge types in HINs by extracting and utilizing the abundant semantic information for effective representation learning. However, as a widespread phenomenon in many real-world scenarios, the class-imbalance distribution in HINs creates a performance bottleneck for existing HGNNs. Apart from the quantity imbalance of nodes, another more crucial and distinctive challenge in HINs is semantic imbalance. Minority classes in HINs often lack diverse and sufficient neighbor nodes, resulting in biased and incomplete semantic information. This semantic imbalance further compounds the difficulty of accurately classifying minority nodes, leading to the performance degradation of HGNNs. To tackle the imbalance of minority classes and supplement their inadequate semantics, we present the first method for the semantic imbalance problem in imbalanced HINs named Semantic-aware Node Synthesis (SNS). By assessing the influence on minority classes, SNS adaptively selects the heterogeneous neighbor nodes and augments the network with synthetic nodes while preserving the minority semantics. In addition, we introduce two regularization approaches for HGNNs that constrain the representation of synthetic nodes from both semantic and class perspectives to effectively suppress the potential noises from synthetic nodes, facilitating more expressive embeddings for classification. The comprehensive experimental study demonstrates that SNS consistently outperforms existing methods by a large margin in different benchmark datasets.
翻訳日:2023-08-16 17:06:32 公開日:2023-08-15
# エネルギー自然勾配によるPINNの高精度化

Achieving High Accuracy with PINNs via Energy Natural Gradients ( http://arxiv.org/abs/2302.13163v2 )

ライセンス: Link先を確認
Johannes M\"uller, Marius Zeinhofer(参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN)の最適化アルゴリズムとして,エネルギー自然勾配降下法,ヘシアン誘導リーマン計量に対する自然勾配法,ディープリッツ法を提案する。 主動機として、エネルギーの自然勾配から生じる関数空間の更新方向が、モデルの接空間への直交射影のニュートン方向に対応することを示す。 実験により, エネルギー勾配降下は, 計算時間が大幅に長い場合であっても, 勾配降下やアダムのような標準最適化器を用いてPINNを訓練する際に得られるものよりも数桁小さい誤差で高精度な解が得られることを示した。

We propose energy natural gradient descent, a natural gradient method with respect to a Hessian-induced Riemannian metric as an optimization algorithm for physics-informed neural networks (PINNs) and the deep Ritz method. As a main motivation we show that the update direction in function space resulting from the energy natural gradient corresponds to the Newton direction modulo an orthogonal projection onto the model's tangent space. We demonstrate experimentally that energy natural gradient descent yields highly accurate solutions with errors several orders of magnitude smaller than what is obtained when training PINNs with standard optimizers like gradient descent or Adam, even when those are allowed significantly more computation time.
翻訳日:2023-08-16 17:06:03 公開日:2023-08-15
# SGL-PT: グラフプロンプトチューニングによるグラフ学習

SGL-PT: A Strong Graph Learner with Graph Prompt Tuning ( http://arxiv.org/abs/2302.12449v2 )

ライセンス: Link先を確認
Yun Zhu and Jianhao Guo and Siliang Tang(参考訳) 近年,グラフ自己教師法の設計,一般化事前学習モデルの作成,微調整による下流タスクへの事前学習モデルの適用に多くの努力が払われている。 しかし、プリテキストとダウンストリームグラフのタスクの間には固有のギャップがあり、事前訓練されたモデルの能力は不十分であり、負の移動につながる。 一方、プロンプトチューニングは、事前トレーニングと微調整を一貫したトレーニング目標に合わせることで、自然言語処理において新たな成功を収めている。 本稿では,グラフ領域における日没事前学習手法にまたがる強固で普遍的な事前学習タスクが欠如していることから,グラフプロンプトチューニングの課題を明らかにする。 第2の課題は,事前トレーニングとダウンストリームタスクの両方に対して,一貫したトレーニング目標を設計することの難しさにある。 以上の障害を克服するために,< Pre-train, Prompt, and Predict'' という学習戦略に従う新しいフレームワーク SGL-PT を提案する。 具体的には,生成的および対照的自己教師付きグラフ学習の補完的メリットを得るsglとして,強固で普遍的な事前学習課題を提起する。 そして, グラフ分類タスクを目標として, 先行学習と微調整を統一し, 下流課題を前文課題と類似した形式に再構成する, 新規な動詞化なしプロンプト関数を設計した。 実験結果から,本手法は教師なし設定で他のベースラインを上回っており,微調整法よりも生体データセットのモデルを大幅に促進できることがわかった。

Recently, much exertion has been paid to design graph self-supervised methods to obtain generalized pre-trained models, and adapt pre-trained models onto downstream tasks through fine-tuning. However, there exists an inherent gap between pretext and downstream graph tasks, which insufficiently exerts the ability of pre-trained models and even leads to negative transfer. Meanwhile, prompt tuning has seen emerging success in natural language processing by aligning pre-training and fine-tuning with consistent training objectives. In this paper, we identify the challenges for graph prompt tuning: The first is the lack of a strong and universal pre-training task across sundry pre-training methods in graph domain. The second challenge lies in the difficulty of designing a consistent training objective for both pre-training and downstream tasks. To overcome above obstacles, we propose a novel framework named SGL-PT which follows the learning strategy ``Pre-train, Prompt, and Predict''. Specifically, we raise a strong and universal pre-training task coined as SGL that acquires the complementary merits of generative and contrastive self-supervised graph learning. And aiming for graph classification task, we unify pre-training and fine-tuning by designing a novel verbalizer-free prompting function, which reformulates the downstream task in a similar format as pretext task. Empirical results show that our method surpasses other baselines under unsupervised setting, and our prompt tuning method can greatly facilitate models on biological datasets over fine-tuning methods.
翻訳日:2023-08-16 17:05:52 公開日:2023-08-15
# Aleatoric Uncertainity によるフェアネス

Fairness through Aleatoric Uncertainty ( http://arxiv.org/abs/2304.03646v2 )

ライセンス: Link先を確認
Anique Tahir, Lu Cheng and Huan Liu(参考訳) 分類タスクにおける公平さと実用性の両面からしばしば競合する目標に対処するための,単純かつ効果的なソリューションを提案する。 公平さはモデルの予測が偏りがなく、特定のグループや個人と差別しないことを保証するが、ユーティリティーはモデルの予測性能を最大化することに焦点を当てる。 本研究は,不確実性(データ曖昧性など)を活用して公平性利用のトレードオフを改善するという考え方を導入する。 我々の中心となる仮説は、アルゴリズムの不確かさがアルゴリズムの不確実性の重要な要因であり、不確実性の低いサンプルは、高いアレベータ不確実性を持つ試料よりも正確かつ公平にモデル化されるというものである。 次に,不確実性が高い場合の公平性を改善するための原理モデルを提案し,他の場所での利用性を改善する。 提案手法は,まずデータ分布に介入し,アレエータ的不確実性と認識的不確実性を分離する。 次に、推定されたアレタリック不確実性に基づいて定義されるフェアネスユーティリティー双対象損失を導入する。 われわれのアプローチは理論的にフェアネス・ユーティリティ・トレードオフを改善することが保証されている。 表と画像の両方のデータセットによる実験結果から,提案手法は,フェアネス・ユーティリティトレードオフやグループおよび個人フェアネスの指標よりも優れていることがわかった。 本研究は,実用性とアルゴリズムフェアネスのトレードオフに関する新たな視点を示し,フェア機械学習における予測不確実性を利用する可能性の鍵となる道を開く。

We propose a simple yet effective solution to tackle the often-competing goals of fairness and utility in classification tasks. While fairness ensures that the model's predictions are unbiased and do not discriminate against any particular group or individual, utility focuses on maximizing the model's predictive performance. This work introduces the idea of leveraging aleatoric uncertainty (e.g., data ambiguity) to improve the fairness-utility trade-off. Our central hypothesis is that aleatoric uncertainty is a key factor for algorithmic fairness and samples with low aleatoric uncertainty are modeled more accurately and fairly than those with high aleatoric uncertainty. We then propose a principled model to improve fairness when aleatoric uncertainty is high and improve utility elsewhere. Our approach first intervenes in the data distribution to better decouple aleatoric uncertainty and epistemic uncertainty. It then introduces a fairness-utility bi-objective loss defined based on the estimated aleatoric uncertainty. Our approach is theoretically guaranteed to improve the fairness-utility trade-off. Experimental results on both tabular and image datasets show that the proposed approach outperforms state-of-the-art methods w.r.t. the fairness-utility trade-off and w.r.t. both group and individual fairness metrics. This work presents a fresh perspective on the trade-off between utility and algorithmic fairness and opens a key avenue for the potential of using prediction uncertainty in fair machine learning.
翻訳日:2023-08-16 17:00:30 公開日:2023-08-15
# SALUDA: 表面をベースとした自動車用ライダー

SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation ( http://arxiv.org/abs/2304.03251v2 )

ライセンス: Link先を確認
Bjoern Michele, Alexandre Boulch, Gilles Puy, Tuan-Hung Vu, Renaud Marlet, Nicolas Courty(参考訳) あるラベル付きデータセット上で、別のドメインでうまく一般化するモデルを学ぶことは、データドメイン間でいくつかのシフトが発生する可能性があるため、難しい作業である。 これはライダーデータにおいて特に顕著であり、例えば、異なるライダーパターンや取得条件の変化により、モデルが大きなパフォーマンスの相違を示すことができる。 本稿では,意味的セグメンテーションのためのUnsupervised Domain Adaptation (UDA)タスクについて述べる。 この問題を軽減するために、ソースデータとターゲットデータに基づいて暗黙的な表面表現を同時に学習する教師なし補助タスクを導入する。 両方のドメインが同じ潜在表現を共有しているため、モデルは2つのデータソース間の不一致に対応せざるを得ない。 この新しい戦略は、統計的分岐の古典的な最小化やライダー固有のドメイン適応技術とは異なる。 実験により,本手法は実物と合成物の両方のシナリオにおいて,現在の技術よりも優れた性能が得られることを示した。

Learning models on one labeled dataset that generalize well on another domain is a difficult task, as several shifts might happen between the data domains. This is notably the case for lidar data, for which models can exhibit large performance discrepancies due for instance to different lidar patterns or changes in acquisition conditions. This paper addresses the corresponding Unsupervised Domain Adaptation (UDA) task for semantic segmentation. To mitigate this problem, we introduce an unsupervised auxiliary task of learning an implicit underlying surface representation simultaneously on source and target data. As both domains share the same latent representation, the model is forced to accommodate discrepancies between the two sources of data. This novel strategy differs from classical minimization of statistical divergences or lidar-specific domain adaptation techniques. Our experiments demonstrate that our method achieves a better performance than the current state of the art, both in real-to-real and synthetic-to-real scenarios.
翻訳日:2023-08-16 17:00:01 公開日:2023-08-15
# 近似メッセージパッシングによる混合回帰

Mixed Regression via Approximate Message Passing ( http://arxiv.org/abs/2304.02229v2 )

ライセンス: Link先を確認
Nelvin Tan, Ramji Venkataramanan(参考訳) 複数の信号と潜伏変数を持つ一般化線形モデル(GLM)における回帰問題について検討する。 行列 GLM と呼ばれるこのモデルは、線形回帰、最大アフィン回帰、およびエキスパートの混合を含む、統計学習における多くの広く研究されている問題をカバーしている。 混合線形回帰では、各観測は1つの$L$信号ベクトル(回帰器)から来るが、どれかはわからない。 これらの問題すべてにおける目標は、観測から信号や潜在的変数を推定することである。 本稿では,行列 GLM における推定のための新しい近似メッセージパッシング (AMP) アルゴリズムを提案し,その性能を高次元限界で厳密に評価する。 この特性は状態の進化的再帰を考慮し、漸近平均二乗誤差のような性能測定を正確に計算することができる。 状態進化のキャラクタリゼーションは、AMPアルゴリズムを調整して、信号に関する構造情報を利用することができる。 状態の進化を用いて、各イテレーションにおける推定誤差を最小限に抑える AMP `denoising' 関数の最適選択を導出する。 理論的結果は, 混合線形回帰, 最大アフィン回帰, および混合実験の数値シミュレーションにより検証された。 最大アフィン回帰のために、AMPと予測最大化を組み合わせたアルゴリズムを提案し、その信号とともにモデルのインターセプトを推定する。 数値的な結果から,AMPは,多くのパラメータ系において線形回帰と最大偏差の混合に対して,他の推定値よりも有意に優れていた。

We study the problem of regression in a generalized linear model (GLM) with multiple signals and latent variables. This model, which we call a matrix GLM, covers many widely studied problems in statistical learning, including mixed linear regression, max-affine regression, and mixture-of-experts. In mixed linear regression, each observation comes from one of $L$ signal vectors (regressors), but we do not know which one; in max-affine regression, each observation comes from the maximum of $L$ affine functions, each defined via a different signal vector. The goal in all these problems is to estimate the signals, and possibly some of the latent variables, from the observations. We propose a novel approximate message passing (AMP) algorithm for estimation in a matrix GLM and rigorously characterize its performance in the high-dimensional limit. This characterization is in terms of a state evolution recursion, which allows us to precisely compute performance measures such as the asymptotic mean-squared error. The state evolution characterization can be used to tailor the AMP algorithm to take advantage of any structural information known about the signals. Using state evolution, we derive an optimal choice of AMP `denoising' functions that minimizes the estimation error in each iteration. The theoretical results are validated by numerical simulations for mixed linear regression, max-affine regression, and mixture-of-experts. For max-affine regression, we propose an algorithm that combines AMP with expectation-maximization to estimate intercepts of the model along with the signals. The numerical results show that AMP significantly outperforms other estimators for mixed linear regression and max-affine regression in most parameter regimes.
翻訳日:2023-08-16 16:59:38 公開日:2023-08-15
# 自然言語による視覚の微調整の改善

Improved Visual Fine-tuning with Natural Language Supervision ( http://arxiv.org/abs/2304.01489v2 )

ライセンス: Link先を確認
Junyang Wang, Yuanhong Xu, Juhua Hu, Ming Yan, Jitao Sang, Qi Qian(参考訳) 視覚事前学習モデルの微調整は、大規模事前学習データからの意味情報を活用し、限られたトレーニング例で下流ビジョンタスクの過剰フィッティング問題を緩和することができる。 事前訓練したバックボーンの破滅的忘れに関する問題は、微調整のために広く研究されているが、それに対応する事前訓練タスクとデータからの潜在的なバイアスは、より少ない注意を惹きつける。 本研究では,本研究で得られた分類器が,事前学習モデルにより誘導されるものに近くなることを示した。 分類器のバイアスを効果的に低減するため、学習した視覚分類器を正則化するための固定テキスト分類器から得られる参照分布を導入する。 提案手法であるtext supervised fine-tuning (tes) は,resnet や vit,bert や clip などのテキストエンコーダを11のダウンストリームタスクで評価した。 異なるシナリオに対する明確なマージンによる一貫した改善は、提案の有効性を確認します。 コードは \url{https://github.com/idstcv/TeS} で入手できる。

Fine-tuning a visual pre-trained model can leverage the semantic information from large-scale pre-training data and mitigate the over-fitting problem on downstream vision tasks with limited training examples. While the problem of catastrophic forgetting in pre-trained backbone has been extensively studied for fine-tuning, its potential bias from the corresponding pre-training task and data, attracts less attention. In this work, we investigate this problem by demonstrating that the obtained classifier after fine-tuning will be close to that induced by the pre-trained model. To reduce the bias in the classifier effectively, we introduce a reference distribution obtained from a fixed text classifier, which can help regularize the learned vision classifier. The proposed method, Text Supervised fine-tuning (TeS), is evaluated with diverse pre-trained vision models including ResNet and ViT, and text encoders including BERT and CLIP, on 11 downstream tasks. The consistent improvement with a clear margin over distinct scenarios confirms the effectiveness of our proposal. Code is available at \url{https://github.com/idstcv/TeS}.
翻訳日:2023-08-16 16:59:07 公開日:2023-08-15
# 非線形運動認識とオクルージョンローバスト転がりシャッタ補正に向けて

Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter Correction ( http://arxiv.org/abs/2303.18125v3 )

ライセンス: Link先を確認
Delin Qu, Yizhen Lao, Zhigang Wang, Dong Wang, Bin Zhao and Xuelong Li(参考訳) 本稿では, 極端な閉塞を伴う複雑な非線形・動的シーンにおけるシャッター補正の問題に対処する。 既存の手法には2つの大きな欠点がある。 第一に、一様速度仮定による精度の補正場推定の課題に直面し、複雑な動きの下で画像補正誤差が顕著になる。 第2に、ダイナミックシーンにおける劇的な閉塞は、複数のフレームの調整と集約が本質的に困難であるため、現在のソリューションが画質向上を妨げている。 これらの課題に対処するために,画素の曲線軌道を解析的にモデル化し,各画素の高次補正場を正確に推定する2次回転シャッター(qrs)運動ソルバを提案する。 さらに,動的シーンにおける高品質なオクルージョンフレームを再構築するために,マルチフレームコンテキスト,すなわちRSA2-Netを効果的にアライグ・アグリゲートする3次元ビデオアーキテクチャを提案する。 提案手法を広範囲のカメラと映像シーケンスで評価し,その優位性を実証した。 具体的には,PSNRがCarla-RS,Fastec-RS,BS-RSCの3つのデータセットに対して+4.98,+0.77,+4.33を越えている。 コードはhttps://github.com/delinqu/qrscで入手できる。

This paper addresses the problem of rolling shutter correction in complex nonlinear and dynamic scenes with extreme occlusion. Existing methods suffer from two main drawbacks. Firstly, they face challenges in estimating the accurate correction field due to the uniform velocity assumption, leading to significant image correction errors under complex motion. Secondly, the drastic occlusion in dynamic scenes prevents current solutions from achieving better image quality because of the inherent difficulties in aligning and aggregating multiple frames. To tackle these challenges, we model the curvilinear trajectory of pixels analytically and propose a geometry-based Quadratic Rolling Shutter (QRS) motion solver, which precisely estimates the high-order correction field of individual pixels. Besides, to reconstruct high-quality occlusion frames in dynamic scenes, we present a 3D video architecture that effectively Aligns and Aggregates multi-frame context, namely, RSA2-Net. We evaluate our method across a broad range of cameras and video sequences, demonstrating its significant superiority. Specifically, our method surpasses the state-of-the-art by +4.98, +0.77, and +4.33 of PSNR on Carla-RS, Fastec-RS, and BS-RSC datasets, respectively. Code is available at https://github.com/DelinQu/qrsc.
翻訳日:2023-08-16 16:58:16 公開日:2023-08-15
# 視覚変換器用ウェーブレットニューラル演算子によるマルチスケールアテンション

Multiscale Attention via Wavelet Neural Operators for Vision Transformers ( http://arxiv.org/abs/2303.12398v4 )

ライセンス: Link先を確認
Anahita Nekoozadeh, Mohammad Reza Ahmadzadeh, Zahra Mardani(参考訳) トランスフォーマーはコンピュータビジョンで広く成功を収めた。 彼らの心には自己認識(SA)メカニズムがあり、これはインプット内の各トークンと他のトークンを重み付けによって関連付ける誘導バイアスである。 標準のsa機構は、シーケンス長と二次的な複雑さを持ち、高分解能の視覚に現れる長いシーケンスに有用である。 近年,fftで効率的に実装されるグローバル畳み込みに基づく高分解能注意のための適応フーリエニューラル演算子 (afno) が提案されている。 しかし、AFNOグローバルフィルタリングは、自然画像によく見られる小型で中規模な構造をうまく表すことはできない。 配列サイズが線形に複雑になるウェーブレットニューラル演算子を利用して、粗大から細大のスケール構造を活用するために、マルチスケールウェーブレット注意(MWA)を導入する。 vit の注目を mwa に置き換え,cifar と tiny-imagenet の分類で実験を行った結果,afno や global filter network (gfn) といった代替フーリエベースの注目よりも大幅に改善した。

Transformers have achieved widespread success in computer vision. At their heart, there is a Self-Attention (SA) mechanism, an inductive bias that associates each token in the input with every other token through a weighted basis. The standard SA mechanism has quadratic complexity with the sequence length, which impedes its utility to long sequences appearing in high resolution vision. Recently, inspired by operator learning for PDEs, Adaptive Fourier Neural Operators (AFNO) were introduced for high resolution attention based on global convolution that is efficiently implemented via FFT. However, the AFNO global filtering cannot well represent small and moderate scale structures that commonly appear in natural images. To leverage the coarse-to-fine scale structures we introduce a Multiscale Wavelet Attention (MWA) by leveraging wavelet neural operators which incurs linear complexity in the sequence size. We replace the attention in ViT with MWA and our experiments with CIFAR and Tiny-ImageNet classification demonstrate significant improvement over alternative Fourier-based attentions such as AFNO and Global Filter Network (GFN).
翻訳日:2023-08-16 16:57:52 公開日:2023-08-15
# LayoutDiffusion:離散拡散確率モデルによるグラフィックレイアウト生成の改善

LayoutDiffusion: Improving Graphic Layout Generation by Discrete Diffusion Probabilistic Models ( http://arxiv.org/abs/2303.11589v2 )

ライセンス: Link先を確認
Junyi Zhang, Jiaqi Guo, Shizhao Sun, Jian-Guang Lou, Dongmei Zhang(参考訳) グラフィックレイアウトの作成はグラフィックデザインの基本的なステップです。 本研究では,レイアウト自動生成のための新しい生成モデルLayoutDiffusionを提案する。 レイアウトは典型的には離散トークンのシーケンスとして表現されるので、layoutdiffusionモデルによるレイアウト生成は離散化拡散プロセスとして表される。 フォワードステップの成長と隣のステップでのレイアウトがあまり変化しないため、レイアウトがますます混乱する、軽度のフォワードプロセスを逆転することを学びます。 しかし、layoutにはカテゴリ属性と順序属性の両方があるため、このような穏やかな前方プロセスの設計は非常に難しい。 この課題に取り組むために,レイアウトの軽度なフォワードプロセス,すなわち合法性,座標近接性,型破壊を実現するための3つの重要な要素を要約する。 そこで本研究では,ブロック単位の遷移行列と,片単位の線形雑音スケジュールを結合する手法を提案する。 RICOとPubLayNetデータセットの実験は、LayoutDiffusionが最先端のアプローチを大幅に上回っていることを示している。 さらに、プラグアンドプレイ方式で2つの条件付きレイアウト生成タスクを再学習することなく実現し、既存の方法よりも優れた性能を実現する。

Creating graphic layouts is a fundamental step in graphic designs. In this work, we present a novel generative model named LayoutDiffusion for automatic layout generation. As layout is typically represented as a sequence of discrete tokens, LayoutDiffusion models layout generation as a discrete denoising diffusion process. It learns to reverse a mild forward process, in which layouts become increasingly chaotic with the growth of forward steps and layouts in the neighboring steps do not differ too much. Designing such a mild forward process is however very challenging as layout has both categorical attributes and ordinal attributes. To tackle the challenge, we summarize three critical factors for achieving a mild forward process for the layout, i.e., legality, coordinate proximity and type disruption. Based on the factors, we propose a block-wise transition matrix coupled with a piece-wise linear noise schedule. Experiments on RICO and PubLayNet datasets show that LayoutDiffusion outperforms state-of-the-art approaches significantly. Moreover, it enables two conditional layout generation tasks in a plug-and-play manner without re-training and achieves better performance than existing methods.
翻訳日:2023-08-16 16:57:32 公開日:2023-08-15
# ベストサポート環境の提供によるAI開発プロセスの最適化

Optimizing the AI Development Process by Providing the Best Support Environment ( http://arxiv.org/abs/2305.00136v3 )

ライセンス: Link先を確認
Taha Khamis, Hamam Mokayed(参考訳) 本研究の目的は,AI(Artificial Inelegance)と機械学習(ML)アプリケーションの開発プロセスを調査し,最高のサポート環境を提供することである。 MLの主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。 本研究は,機械学習開発の最重要段階であるML開発におけるデータ管理段階とその障害を,エンドモデルの精度がモデルに入力されるデータの種類に依存しているため調査することに焦点を当てる。 この段階で見つかった最大の障害は、特にデータが機密である分野において、モデル学習に十分なデータがないことである。 このプロジェクトの目的は、データ管理の段階で十分なデータ不足を解決するための、研究者と開発者のためのフレームワークの構築と開発である。 このフレームワークは、オリジナルのデータセットから新しいデータを生成するために使用可能な、いくつかのデータ拡張技術を利用して、利用可能なデータ量と品質を増大させることで、MLアプリケーションの全体的なパフォーマンスを向上させることができる。 このフレームワークはpython言語を使用して構築され、ディープラーニングの進歩を使ってデータ拡張を行う。

The purpose of this study is to investigate the development process for Artificial inelegance (AI) and machine learning (ML) applications in order to provide the best support environment. The main stages of ML are problem understanding, data management, model building, model deployment and maintenance. This project focuses on investigating the data management stage of ML development and its obstacles as it is the most important stage of machine learning development because the accuracy of the end model is relying on the kind of data fed into the model. The biggest obstacle found on this stage was the lack of sufficient data for model learning, especially in the fields where data is confidential. This project aimed to build and develop a framework for researchers and developers that can help solve the lack of sufficient data during data management stage. The framework utilizes several data augmentation techniques that can be used to generate new data from the original dataset which can improve the overall performance of the ML applications by increasing the quantity and quality of available data to feed the model with the best possible data. The framework was built using python language to perform data augmentation using deep learning advancements.
翻訳日:2023-08-16 16:48:54 公開日:2023-08-15
# 2レベル$\mathcal{PT}$-symmetric系におけるトンネルとしてのアナログホーキング放射

Analogue Hawking radiation as a tunneling in a two-level $\mathcal{PT}$-symmetric system ( http://arxiv.org/abs/2304.14174v2 )

ライセンス: Link先を確認
Bijan Bagchi, Rahul Ghosh, Sauvik Sen(参考訳) 二段階非エルミート系$\mathcal{pt}$-symmetric hamiltonianの一般的なシナリオを踏まえて、四面体法を用いてアナログホーキング放射の可能性を解析する。 これは、関連するホーキング放射を、事象の地平線が課す古典的に禁じられた障壁を横切る量子トンネル過程として記述する従来のヌル・ジオデシックなアプローチを用いて行われる。 この結果の興味深い側面は、トンネル確率の推定が誘導ハミルトニアンを定義する非エルミートパラメータとは独立であるということである。

In the light of a general scenario of a two-level non-Hermitian $\mathcal{PT}$-symmetric Hamiltonian we apply the tetrad-based method to analyze the possibility of analogue Hawking radiation. It is done by making use of the conventional null-geodesic approach wherein the associated Hawking radiation is described as a quantum tunneling process across a classically forbidden barrier which the event horizon imposes. An interesting aspect of our result is that our estimate for the tunneling probability is independent of the non-Hermitian parameter that defines the guiding Hamiltonian.
翻訳日:2023-08-16 16:48:35 公開日:2023-08-15
# 代表的クラスタリング

Proportionally Representative Clustering ( http://arxiv.org/abs/2304.13917v2 )

ライセンス: Link先を確認
Haris Aziz and Barton E. Lee and Sean Morota Chu and Jeremy Vollen(参考訳) 近年、機械学習における公平性の概念を形式化する取り組みが急増している。 クラスタリングは、教師なし機械学習における基本的なタスクのひとつです。 本稿では,データポイントの分布と密集度を反映した中心関数の選択問題に対するクラスタリング問題に対して,新しい公理 ``proportional representation fairness'' (PRF) を提案する。 我々のフェアネスの概念は、既存のフェアクラスタリングアルゴリズムで満たされていない。 制約のないクラスタ化問題と離散的なクラスタリング問題の両方に対して,prfを実現するための効率的なアルゴリズムを設計した。 制約のない設定に対する我々のアルゴリズムは、よく研究された確率的公正(PF)公理(Chen, Fain, Lyu, Munagala, ICML, 2019)に対する初めての多項式時間近似アルゴリズムでもある。 離散集合のアルゴリズムはpfの最もよく知られた近似係数にも一致する。

In recent years, there has been a surge in effort to formalize notions of fairness in machine learning. We focus on clustering -- one of the fundamental tasks in unsupervised machine learning. We propose a new axiom ``proportional representation fairness'' (PRF) that is designed for clustering problems where the selection of centroids reflects the distribution of data points and how tightly they are clustered together. Our fairness concept is not satisfied by existing fair clustering algorithms. We design efficient algorithms to achieve PRF both for unconstrained and discrete clustering problems. Our algorithm for the unconstrained setting is also the first known polynomial-time approximation algorithm for the well-studied Proportional Fairness (PF) axiom (Chen, Fain, Lyu, and Munagala, ICML, 2019). Our algorithm for the discrete setting also matches the best known approximation factor for PF.
翻訳日:2023-08-16 16:48:23 公開日:2023-08-15
# ビデオ認識のための学習可能なアライメントを用いた暗黙の時間モデル

Implicit Temporal Modeling with Learnable Alignment for Video Recognition ( http://arxiv.org/abs/2304.10465v2 )

ライセンス: Link先を確認
Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu, Yu-Gang Jiang(参考訳) コントラスト言語画像事前訓練(CLIP)は,様々な画像タスクにおいて顕著な成功を収めている。 しかし、CLIPを効果的な時間的モデリングで拡張する方法はまだオープンで重要な問題である。 既存の因子化または共同時空間モデリングは、効率と性能のトレードオフである。 直進管内における時間情報モデリングは文献に広く採用されているが, 簡単なフレームアライメントは時間的注意を伴わずに十分重要である。 そこで本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)手法を提案する。 具体的には、フレーム対について、相互情報リッチ領域として機能し、各フレームで対話点を予測する。 インタラクティブポイント周辺の機能を強化することで、2つのフレームは暗黙的にアライメントされる。 整列された特徴は単一のトークンにプールされ、その後の空間的自己アテンションに利用されます。 ビデオにおける時間的自己注意のコストや不足を排除できる。 ベンチマークに関する広範な実験は、モジュールの優越性と汎用性を示している。 特に、提案されたiraは、swin-lやvivit-hに比べてはるかに少ないフロップで、kinetics-400で88.7%のtop-1精度を達成している。 コードはhttps://github.com/Francis-Rings/ILA で公開されている。

Contrastive language-image pretraining (CLIP) has demonstrated remarkable success in various image tasks. However, how to extend CLIP with effective temporal modeling is still an open and crucial problem. Existing factorized or joint spatial-temporal modeling trades off between the efficiency and performance. While modeling temporal information within straight through tube is widely adopted in literature, we find that simple frame alignment already provides enough essence without temporal attention. To this end, in this paper, we proposed a novel Implicit Learnable Alignment (ILA) method, which minimizes the temporal modeling effort while achieving incredibly high performance. Specifically, for a frame pair, an interactive point is predicted in each frame, serving as a mutual information rich region. By enhancing the features around the interactive point, two frames are implicitly aligned. The aligned features are then pooled into a single token, which is leveraged in the subsequent spatial self-attention. Our method allows eliminating the costly or insufficient temporal self-attention in video. Extensive experiments on benchmarks demonstrate the superiority and generality of our module. Particularly, the proposed ILA achieves a top-1 accuracy of 88.7% on Kinetics-400 with much fewer FLOPs compared with Swin-L and ViViT-H. Code is released at https://github.com/Francis-Rings/ILA .
翻訳日:2023-08-16 16:47:52 公開日:2023-08-15
# 非エルミート模型における高次例外点の相関

Correlations at higher-order exceptional points in non-Hermitian models ( http://arxiv.org/abs/2304.10280v2 )

ライセンス: Link先を確認
Doru Sticlet, C\u{a}t\u{a}lin Pa\c{s}cu Moca, Bal\'azs D\'ora(参考訳) 高次例外点を持つ$\mathcal{PT}$-symmetric non-Hermitian 1次元モデルの空間相関の減衰について検討する。 特定の相関長を超えて、エルミート系に比べて非エルミート系における相関の強い抑制を示す異常なパワーロー挙動を発達させる。 相関長は、スペクトルが隙間のないにもかかわらず、短距離での対数成長から大距離での一定値への変化を示す絡み合いエントロピーにも反映される。 2種類の異なるモデルが研究され、どちらも粒子-ホール対称性によって制約された類似のスペクトルを持つ。 最初のモデルは任意の高次例外点を生成する実験的に魅力的な方法を提供し、一般スピンに対するディラックハミルトニアンの非エルミート拡大を表す。 臨界点では、例外点の順序に関係なく、相関値 $\sim 1/x^2$ と $1/x^3$ の減衰を示す。 第2のモデルは一方向ホッピングを用いて構築され、特別な点の順序に依存する力の法則を持つ$\sim 1/x^a$, $a\ge 2$の相関の強化を表示する。

We investigate the decay of spatial correlations of $\mathcal{PT}$-symmetric non-Hermitian one-dimensional models that host higher-order exceptional points. Beyond a certain correlation length, they develop anomalous power-law behavior that indicates strong suppression of correlations in the non-Hermitian setups as compared to the Hermitian ones. The correlation length is also reflected in the entanglement entropy where it marks a change from logarithmic growth at short distance to a constant value at large distance, characteristic of an insulator, despite the spectrum being gapless. Two different families of models are investigated, both having a similar spectrum constrained by particle-hole symmetry. The first model offers an experimentally attractive way to generate arbitrary higher-order exceptional points and represents a non-Hermitian extension of the Dirac Hamiltonian for general spin. At the critical point it displays a decay of the correlations $\sim 1/x^2$ and $1/x^3$ irrespective of the order of the exceptional point. The second model is constructed using unidirectional hopping and displays enhanced suppression of correlations $\sim 1/x^a$, $a\ge 2$ with a power law that depends on the order of the exceptional point.
翻訳日:2023-08-16 16:47:33 公開日:2023-08-15
# Odd Oneが登場: 正規化された完全サイクル一貫性のある異常検出器GAN

Spot The Odd One Out: Regularized Complete Cycle Consistent Anomaly Detector GAN ( http://arxiv.org/abs/2304.07769v2 )

ライセンス: Link先を確認
Zahra Dehghanian, Saeed Saravani, Maryam Amirmazlaghani, Mohammad Rahmati(参考訳) 本研究では,生成型逆ニューラルネットワーク(gans)のパワーを,再構成誤差のサイクル一貫性を通じて活用し,実世界のアプリケーションにおける異常検出手法を提案する。 従来の手法ではクラス単位での精度のばらつきが高いため、すべてのタイプの異常には適用できない。 RCALADという手法は,この構造に新たな識別器を導入し,より効率的な学習プロセスを実現することで,この問題を解決しようとするものである。 さらに、RCALADは入力空間の補足的分布を用いて、通常のデータ分布に向けて再構成を操り、その再構成から異常サンプルを効果的に分離し、より正確な異常検出を容易にする。 モデルの性能をさらに向上するため、2つの新しい異常スコアを導入した。 提案モデルは6つのデータセットに対する広範な実験を通じて徹底的に評価され、既存の最先端モデルよりも優れた結果が得られた。 コードはリサーチコミュニティ(https://github.com/zahraDehghanian97/RCALAD)で簡単に入手できる。

This study presents an adversarial method for anomaly detection in real-world applications, leveraging the power of generative adversarial neural networks (GANs) through cycle consistency in reconstruction error. Previous methods suffer from the high variance between class-wise accuracy which leads to not being applicable for all types of anomalies. The proposed method named RCALAD tries to solve this problem by introducing a novel discriminator to the structure, which results in a more efficient training process. Additionally, RCALAD employs a supplementary distribution in the input space to steer reconstructions toward the normal data distribution, effectively separating anomalous samples from their reconstructions and facilitating more accurate anomaly detection. To further enhance the performance of the model, two novel anomaly scores are introduced. The proposed model has been thoroughly evaluated through extensive experiments on six various datasets, yielding results that demonstrate its superiority over existing state-of-the-art models. The code is readily available to the research community at https://github.com/zahraDehghanian97/RCALAD.
翻訳日:2023-08-16 16:47:11 公開日:2023-08-15
# スピン鎖化合物Ba$_6$Cr$_2$S$_{10}$における電荷密度波と反強磁性結合の共存

Co-existence of charge density wave and anti-ferromagnetic coupling in the spin-chain compound Ba$_6$Cr$_2$S$_{10}$ ( http://arxiv.org/abs/2304.06156v3 )

ライセンス: Link先を確認
Jianhua Zhu, Jianfeng Zhang, Yilin Zhang, Devashibhai Adroja, Huancheng Yang, Xiancheng Wang, Changqing Jin, Ji Chen, and Wei Wu(参考訳) ここでは、最近合成されたスピン鎖化合物Ba$_6$Cr$_2S$_{10}$に対するCrイオン上のスピン間の反強磁性交換相互作用の起源を研究するために、Ba$_6$Cr$_2S$_{10}$の電子構造と磁気的性質に関する詳細な第一原理計算を行った。 最も重要なことは、一方の線に沿った電荷密度波位相と他方の反強磁性スピン鎖が共存していることである。 Ba原子と疎結合した硫黄原子の二量体化は、電荷密度波の形成により系を絶縁状態へと誘導する。 一方、静電遮蔽による有効なハバード$u$パラメータの小さいサイズ($\sim 0.5$ ev)は、主に反強磁性基底状態の原因となっている。 この共存は、電荷とスピン自由度を独立に調整するプラットフォームを我々に提供する。 さらに、鎖に沿って隣り合う反強磁性相互作用があり、前方のスピンフラストレーションや量子スピン液体をもたらす可能性がある。

Here we have performed detailed first principles calculations for the electronic structure and magnetic properties of Ba$_6$Cr$_2$S$_{10}$ to study the origin of the anti-ferromagnetic exchange interaction between spins on Cr ions for the spin-chain compound Ba$_6$Cr$_2$S$_{10}$ synthesised recently. Most importantly, we have found the co-existence of a charge density wave phase along one line and an anti-ferromagnetic spin chain along another. The dimerization of sulfur atoms loosely bonded with Ba atoms drives the system into an insulating state owing to the formation of charge density wave. Meanwhile, the small size of the effective Hubbard $U$ parameter ($\sim 0.5$ eV) due to electrostatic screening mainly accounts for the anti-ferromagnetic ground state. This co-existence equips us with a platform to tune the charge and spin degrees of freedom independently. Moreover, there exists a next-nearest-neighbouring anti-ferromagnetic interaction along the chain, which could bring forward spin frustration and hence quantum spin liquid.
翻訳日:2023-08-16 16:46:05 公開日:2023-08-15
# GripRank: 検索と生成の間にギャップを埋める - 生成知識によるパスランクの改善

GripRank: Bridging the Gap between Retrieval and Generation via the Generative Knowledge Improved Passage Ranking ( http://arxiv.org/abs/2305.18144v2 )

ライセンス: Link先を確認
Jiaqi Bai, Hongcheng Guo, Jiaheng Liu, Jian Yang, Xinnian Liang, Zhao Yan and Zhoujun Li(参考訳) 検索強調テキスト生成は、入力クエリが与えられた場合に適切な回答を提供するために、大通路コーパスから検索された節を活用し、オープンドメイン質問応答や知識強調対話生成といった知識集約型言語タスクにおいて著しく進歩している。 しかし、検索と生成の相違のため、検索された通路は回答生成を導くのに理想的ではない。つまり、適切な回答を生成する可能性を考慮せずに、検索手続きの間、候補通路は全て等しく扱われる。 この不一致により、パッセージレトリバーは候補パスのサブオプティマイズコレクションを配信して回答を生成する。 本稿では,ジェネレーティブパス推定器 (GPE) から経路ランク装置へ知識を抽出し,提案課題に対処するジェネレーティブ知識改善パスランキング (GripRank) 手法を提案する。 我々は,gpeが発注したパスのランク付けをパスランカ学習に教えることにより,蒸留手順を実現する。 さらに、gpeが提供する知識を難易度の高いカリキュラムを通じて段階的にランチャーに蒸留することができ、多くの有力候補からの回答の出所を正しく認識できるカリキュラム知識蒸留機構を考案し、蒸留品質の向上を図る。 3つの知識集約型言語タスクにまたがる4つのデータセットに関する広範な実験を行った。 実験結果から,KILTベンチマークにおいて,パスランキングと回答生成の両面での最先端手法の利点が示された。

Retrieval-enhanced text generation has shown remarkable progress on knowledge-intensive language tasks, such as open-domain question answering and knowledge-enhanced dialogue generation, by leveraging passages retrieved from a large passage corpus for delivering a proper answer given the input query. However, the retrieved passages are not ideal for guiding answer generation because of the discrepancy between retrieval and generation, i.e., the candidate passages are all treated equally during the retrieval procedure without considering their potential to generate a proper answer. This discrepancy makes a passage retriever deliver a sub-optimal collection of candidate passages to generate the answer. In this paper, we propose the GeneRative Knowledge Improved Passage Ranking (GripRank) approach, addressing the above challenge by distilling knowledge from a generative passage estimator (GPE) to a passage ranker, where the GPE is a generative language model used to measure how likely the candidate passages can generate the proper answer. We realize the distillation procedure by teaching the passage ranker learning to rank the passages ordered by the GPE. Furthermore, we improve the distillation quality by devising a curriculum knowledge distillation mechanism, which allows the knowledge provided by the GPE can be progressively distilled to the ranker through an easy-to-hard curriculum, enabling the passage ranker to correctly recognize the provenance of the answer from many plausible candidates. We conduct extensive experiments on four datasets across three knowledge-intensive language tasks. Experimental results show advantages over the state-of-the-art methods for both passage ranking and answer generation on the KILT benchmark.
翻訳日:2023-08-16 16:40:11 公開日:2023-08-15
# 学術論文からテキスト分類とオブジェクト認識を洗練するためのフレームワーク

A Framework For Refining Text Classification and Object Recognition from Academic Articles ( http://arxiv.org/abs/2305.17401v3 )

ライセンス: Link先を確認
Jinghong Li, Koichi Ota, Wen Gu, Shinobu Hasegawa(参考訳) インターネットの普及に伴い、大量の学術論文から特定の情報を効率的に抽出することがますます重要になっている。 データマイニング技術は一般にこの問題を解決するために用いられる。 しかし, 学術論文のデータマイニングは, 複雑かつ非構造的なレイアウト文書中の特定のパターンを自動的に抽出する必要があるため, 困難である。 現在の学術論文のデータマイニング手法はルールベース(RB)または機械学習(ML)アプローチを採用している。 しかし、ルールベースの手法を用いることで複雑なタイプセット記事のコーディングコストが高くなる。 一方、単に機械学習手法を用いることで、論文内の複雑なコンテンツタイプに対するアノテーション作業が必要となり、コストがかかる可能性がある。 さらに、機械学習のみを用いることで、ルールベースの手法で容易に認識できるパターンを誤って抽出するケースが生まれる。 これらの課題を克服するために,特定出版物で使用される標準レイアウトと型設定の分析の観点から,学術論文に特有の特徴を具体化する手法を強調する。 我々は,機械学習とルールベースのスキームハイブリッドであるテキストブロック精錬フレームワーク(TBRF)を開発した。 検証実験では,有名なACL論文を実験データとして使用した。 実験の結果,表や図の95%以上の分類精度と90%以上の検出精度が得られた。

With the widespread use of the internet, it has become increasingly crucial to extract specific information from vast amounts of academic articles efficiently. Data mining techniques are generally employed to solve this issue. However, data mining for academic articles is challenging since it requires automatically extracting specific patterns in complex and unstructured layout documents. Current data mining methods for academic articles employ rule-based(RB) or machine learning(ML) approaches. However, using rule-based methods incurs a high coding cost for complex typesetting articles. On the other hand, simply using machine learning methods requires annotation work for complex content types within the paper, which can be costly. Furthermore, only using machine learning can lead to cases where patterns easily recognized by rule-based methods are mistakenly extracted. To overcome these issues, from the perspective of analyzing the standard layout and typesetting used in the specified publication, we emphasize implementing specific methods for specific characteristics in academic articles. We have developed a novel Text Block Refinement Framework (TBRF), a machine learning and rule-based scheme hybrid. We used the well-known ACL proceeding articles as experimental data for the validation experiment. The experiment shows that our approach achieved over 95% classification accuracy and 90% detection accuracy for tables and figures.
翻訳日:2023-08-16 16:39:44 公開日:2023-08-15
# 不確実性下におけるマルチロボットシステムの形式モデリング

Formal Modelling for Multi-Robot Systems Under Uncertainty ( http://arxiv.org/abs/2305.17018v2 )

ライセンス: Link先を確認
Charlie Street, Masoumeh Mansouri, Bruno Lacerda(参考訳) 目的: マルチロボット動作を効果的に合成・解析するためには, マルチロボット実行を正確にキャプチャする形式的なタスクレベルモデルが必要である。 本稿では,不確実性下でのマルチロボットシステムのモデリング形式を概観し,計画,強化学習,モデルチェック,シミュレーションにどのように使用できるかについて議論する。 最近の研究は、時間的不確実性や部分的可観測性など、異なる形式の不確実性を考慮して、より正確にマルチロボットの実行を捉えるモデルを調査し、ロボットの相互作用がアクション実行に与える影響をモデル化している。 他の一連の研究は、より効率的な解法を認めるためにマルチロボットモデルのサイズを減らすアプローチを提示している。 これは、独立の前提の下でロボットを分離したり、より高いレベルのマクロアクションを推論することで達成できる。 結論: 既存のマルチロボットモデルは、ロボットの依存関係と不確実性を正確に捉えることと、現実世界の問題を解決するのに十分小さいことのトレードオフを示す。 そこで,本研究では,不確実性やロボットの相互作用を正確に表現したモデルを開発するために,複数ロボットの挙動に関する現実的な仮定を活用すべきである。

Purpose of Review: To effectively synthesise and analyse multi-robot behaviour, we require formal task-level models which accurately capture multi-robot execution. In this paper, we review modelling formalisms for multi-robot systems under uncertainty, and discuss how they can be used for planning, reinforcement learning, model checking, and simulation. Recent Findings: Recent work has investigated models which more accurately capture multi-robot execution by considering different forms of uncertainty, such as temporal uncertainty and partial observability, and modelling the effects of robot interactions on action execution. Other strands of work have presented approaches for reducing the size of multi-robot models to admit more efficient solution methods. This can be achieved by decoupling the robots under independence assumptions, or reasoning over higher level macro actions. Summary: Existing multi-robot models demonstrate a trade off between accurately capturing robot dependencies and uncertainty, and being small enough to tractably solve real world problems. Therefore, future research should exploit realistic assumptions over multi-robot behaviour to develop smaller models which retain accurate representations of uncertainty and robot interactions; and exploit the structure of multi-robot problems, such as factored state spaces, to develop scalable solution methods.
翻訳日:2023-08-16 16:39:24 公開日:2023-08-15
# DAC:深部局所特徴に対する検出器非依存空間共分散

DAC: Detector-Agnostic Spatial Covariances for Deep Local Features ( http://arxiv.org/abs/2305.12250v2 )

ライセンス: Link先を確認
Javier Tirado-Gar\'in, Frederik Warburg, Javier Civera(参考訳) 現在の深部視覚特徴検出器は検出された特徴の空間的不確かさをモデル化せず、下流の応用において最適な結果をもたらす。 本研究では,事前学習済み深部特徴検出器に挿入可能な2つのポストホック共分散推定法を提案する。与えられた画素位置における予測スコアを用いた単純等方共分散推定法と,学習スコアマップの局所構造テンソルによる全共分散推定法を提案する。 どちらの方法も実装が容易で、どんな深い特徴検出器にも適用できる。 これらの共分散は特徴マッチングにおける誤差と直接関連していることを示し、視点n点問題や動きのみのバンドル調整などの下流タスクの改善につながっている。 コードはhttps://github.com/javrtg/DACで入手できる。

Current deep visual local feature detectors do not model the spatial uncertainty of detected features, producing suboptimal results in downstream applications. In this work, we propose two post-hoc covariance estimates that can be plugged into any pretrained deep feature detector: a simple, isotropic covariance estimate that uses the predicted score at a given pixel location, and a full covariance estimate via the local structure tensor of the learned score maps. Both methods are easy to implement and can be applied to any deep feature detector. We show that these covariances are directly related to errors in feature matching, leading to improvements in downstream tasks, including solving the perspective-n-point problem and motion-only bundle adjustment. Code is available at https://github.com/javrtg/DAC
翻訳日:2023-08-16 16:38:59 公開日:2023-08-15
# 経路積分法による励起状態に対する一般化量子幾何テンソル

Generalized quantum geometric tensor for excited states using the path integral approach ( http://arxiv.org/abs/2305.11525v2 )

ライセンス: Link先を確認
Sergio B. Ju\'arez, Diego Gonzalez, Daniel Guti\'errez-Ruiz and J. David Vergara(参考訳) 量子計量テンソルとベリー曲率からなる量子幾何学テンソルは、物理系のパラメータ空間幾何学を完全に符号化する。 まず、基底状態と励起状態の両方を扱える経路積分形式論における量子幾何学的テンソルの定式化を行い、励起状態の量子相転移(ESQPT)を特徴づけるのに有用である。 この設定では、量子幾何学的テンソルを一般化し、系パラメータと位相空間座標のバリエーションを取り込む。 これにより、純度やフォン・ノイマンエントロピーのようなツールによってガウス状態の量子絡み合いに関する情報を得ることができる量子共分散行列への別のアプローチが導かれる。 第二に、経路積分形式と他の既存手法における量子幾何テンソルの定式化の等価性を示す。 さらに、いくつかの量子系に対するリッチテンソルとスカラー曲率を計算し、一般化された量子計量テンソルの幾何学的性質を深く探究し、この幾何学的情報への洞察を与える。

The quantum geometric tensor, composed of the quantum metric tensor and Berry curvature, fully encodes the parameter space geometry of a physical system. We first provide a formulation of the quantum geometrical tensor in the path integral formalism that can handle both the ground and excited states, making it useful to characterize excited state quantum phase transitions (ESQPT). In this setting, we also generalize the quantum geometric tensor to incorporate variations of the system parameters and the phase-space coordinates. This gives rise to an alternative approach to the quantum covariance matrix, from which we can get information about the quantum entanglement of Gaussian states through tools such as purity and von Neumann entropy. Second, we demonstrate the equivalence between the formulation of the quantum geometric tensor in the path integral formalism and other existing methods. Furthermore, we explore the geometric properties of the generalized quantum metric tensor in depth by calculating the Ricci tensor and scalar curvature for several quantum systems, providing insight into this geometric information.
翻訳日:2023-08-16 16:38:46 公開日:2023-08-15
# 自動推論における問題集合に対する軽量オンライン学習

Lightweight Online Learning for Sets of Related Problems in Automated Reasoning ( http://arxiv.org/abs/2305.11087v3 )

ライセンス: Link先を確認
Haoze Wu, Christopher Hahn, Florian Lonsing, Makai Mann, Raghuram Ramanujan, Clark Barrett(参考訳) 私たちは、一連の関連する問題を解決することを含む自動推論タスクのための軽量オンライン学習方法論である、自己駆動型戦略学習(\textit{sdsl}$)を紹介します。 $\textit{sdsl}$ はオフラインのトレーニングを必要としないが、以前の問題を解決しながらデータセットを自動的に構築する。 このデータに機械学習モデルが適合し、その後の問題の解法戦略を調整するのに使用される。 我々はこのアプローチを抽象トランジッションルールのセットとして正式に定義する。 本稿では,データ生成のための条件付きサンプリングとランダムフォレストを基礎となる機械学習モデルとして用いたsdsl計算の具体例について述べる。 この手法をkissatソルバ上に実装し,kissat+$\textit{sdsl}$の組み合わせが,最新のハードウェアモデルチェックコンペティションから得られたベンチマークにおいて,他の最先端の有界モデルチェック手法よりも多くの反例を見出すことを示す。

We present Self-Driven Strategy Learning ($\textit{sdsl}$), a lightweight online learning methodology for automated reasoning tasks that involve solving a set of related problems. $\textit{sdsl}$ does not require offline training, but instead automatically constructs a dataset while solving earlier problems. It fits a machine learning model to this data which is then used to adjust the solving strategy for later problems. We formally define the approach as a set of abstract transition rules. We describe a concrete instance of the sdsl calculus which uses conditional sampling for generating data and random forests as the underlying machine learning model. We implement the approach on top of the Kissat solver and show that the combination of Kissat+$\textit{sdsl}$ certifies larger bounds and finds more counter-examples than other state-of-the-art bounded model checking approaches on benchmarks obtained from the latest Hardware Model Checking Competition.
翻訳日:2023-08-16 16:38:26 公開日:2023-08-15
# フラストレーションのない親ハミルトニアンから対角長距離オーダー:第2量子化におけるムーア・リードと関連する状態

From frustration-free parent Hamiltonians to off-diagonal long-range order: Moore-Read and related states in second quantization ( http://arxiv.org/abs/2305.09286v3 )

ライセンス: Link先を確認
Fanmao Zhang, Matheus Schossler, Alexander Seidel, Li Chen(参考訳) ムーア・リーディング・ファフィアン状態に対する再帰的第二量子化公式を構築する。 多項式クラスタリング特性に訴えることなく,フラストレーションのない親ハミルトニアンの存在を直接証明することにより,このような二次量子化プレゼンテーションの有用性を示す。 さらに、この定式化がムーア・リード状態の非局所順序パラメータの存在とどのように関連しているかを示し、後者がこれらの量で非対角長距離順序(ODLRO)を示すことを示す。 また、フェミオン性アンチ・PH-ファフィアン状態と、f-および高次波対合成フェルミオン状態の類似した2量子化プレゼンテーションを開発し、ほとんどの場合、ODLROについて論じる。

We construct a recursive second-quantized formula for Moore-Read Pfaffian states. We demonstrate the utility of such second-quantized presentations by directly proving the existence of frustration-free parent Hamiltonians, without appealing to polynomial clustering properties. Furthermore, we show how this formalism is connected to the existence of a non-local order parameter for Moore-Read states and give a proof that the latter exhibit off-diagonal long-range order (ODLRO) in these quantities. We also develop a similar second-quantized presentation for the fermionic antiand PH-Pfaffian states, as well as f- and higher wave paired composite fermion states, and discuss ODLRO in most cases.
翻訳日:2023-08-16 16:38:09 公開日:2023-08-15
# MMFトラック:3次元物体追跡のためのマルチモード多レベル融合

MMF-Track: Multi-modal Multi-level Fusion for 3D Single Object Tracking ( http://arxiv.org/abs/2305.06794v2 )

ライセンス: Link先を確認
Zhiheng Li, Yubo Cui, Yu Lin, Zheng Fang(参考訳) 3Dオブジェクト追跡はコンピュータビジョンにおいて重要な役割を果たす。 主ストリーム法は主に点雲に頼り、ターゲットテンプレートと探索領域間の幾何マッチングを実現する。 しかし、テクスチャレスで不完全な点雲は、単一モードトラッカーが類似した構造を持つ物体を区別することが困難である。 幾何マッチングの限界を克服するために,3次元目標追跡のための点雲の画像テクスチャと幾何学特性を利用するマルチモーダルマルチレベルフュージョントラッカー (MMF-Track) を提案する。 具体的には,まず,rgb画像を3次元空間内の点雲にアライメントするための空間アライメントモジュール(sam)を提案する。 そして,2重ストリーム構造に基づく特徴間相互作用モジュール(FIM)を設計し,並列にモーダル内特徴を拡張し,モーダル間セマンティックアソシエーションを構築する。 一方,各形態的特徴を洗練するために,異なるスケールで階層的特徴的相互作用を実現する粗粒間相互作用モジュール (cfim) を導入する。 最後に、類似度融合レベルでは、ターゲットから幾何学とテクスチャの手がかりを集約する類似度融合モジュール(sfm)を提案する。 実験により,本手法はKITTIの最先端性能(39%成功,42%精度向上)を達成し,NuScenesと競合することを示した。

3D single object tracking plays a crucial role in computer vision. Mainstream methods mainly rely on point clouds to achieve geometry matching between target template and search area. However, textureless and incomplete point clouds make it difficult for single-modal trackers to distinguish objects with similar structures. To overcome the limitations of geometry matching, we propose a Multi-modal Multi-level Fusion Tracker (MMF-Track), which exploits the image texture and geometry characteristic of point clouds to track 3D target. Specifically, we first propose a Space Alignment Module (SAM) to align RGB images with point clouds in 3D space, which is the prerequisite for constructing inter-modal associations. Then, in feature interaction level, we design a Feature Interaction Module (FIM) based on dual-stream structure, which enhances intra-modal features in parallel and constructs inter-modal semantic associations. Meanwhile, in order to refine each modal feature, we introduce a Coarse-to-Fine Interaction Module (CFIM) to realize the hierarchical feature interaction at different scales. Finally, in similarity fusion level, we propose a Similarity Fusion Module (SFM) to aggregate geometry and texture clues from the target. Experiments show that our method achieves state-of-the-art performance on KITTI (39% Success and 42% Precision gains against previous multi-modal method) and is also competitive on NuScenes.
翻訳日:2023-08-16 16:37:53 公開日:2023-08-15
# ノイズからのエコー:拡散モデルを用いた合成超音波画像生成による実画像分割

Echo from noise: synthetic ultrasound image generation using diffusion models for real image segmentation ( http://arxiv.org/abs/2305.05424v2 )

ライセンス: Link先を確認
David Stojanovski, Uxio Hermida, Pablo Lamata, Arian Beqiri, Alberto Gomez(参考訳) 本稿では,心臓意味的ラベルマップを用いた拡散確率モデル(ddpms)による合成超音波画像生成のための新しいパイプラインを提案する。 これらの合成画像は, 心的セグメンテーションなどの超音波画像解析タスクのためのディープラーニングモデルの訓練において, 実際のデータの代替として有効であることを示す。 この方法の有効性を示すために,合成2次元心エコー図を作成し,左心室と左心房を分節するニューラルネットワークを訓練した。 排他的合成画像を用いてトレーニングされたネットワークの性能は, 実画像の未確認データセットを用いて評価され, 平均Diceスコアは88.6$\pm 4.91$, 91.9$\pm 4.22$, 85.2$\pm 4.83$ \%であった。 これは、以前の最新データと比較して、diceスコアの9.2$、3.3$、13.9$の相対的な増加を示している。 提案したパイプラインは、様々な医療画像モダリティにまたがる幅広いタスクに応用できる可能性がある。

We propose a novel pipeline for the generation of synthetic ultrasound images via Denoising Diffusion Probabilistic Models (DDPMs) guided by cardiac semantic label maps. We show that these synthetic images can serve as a viable substitute for real data in the training of deep-learning models for ultrasound image analysis tasks such as cardiac segmentation. To demonstrate the effectiveness of this approach, we generated synthetic 2D echocardiograms and trained a neural network for segmenting the left ventricle and left atrium. The performance of the network trained on exclusively synthetic images was evaluated on an unseen dataset of real images and yielded mean Dice scores of 88.6 $\pm 4.91$ , 91.9 $\pm 4.22$, 85.2 $\pm 4.83$ \% for left ventricular endocardium, epicardium and left atrial segmentation respectively. This represents a relative increase of $9.2$, $3.3$ and $13.9$ \% in Dice scores compared to the previous state-of-the-art. The proposed pipeline has potential for application to a wide range of other tasks across various medical imaging modalities.
翻訳日:2023-08-16 16:37:28 公開日:2023-08-15
# ANTONIO:検証のためのNLPベンチマーク生成方式

ANTONIO: Towards a Systematic Method of Generating NLP Benchmarks for Verification ( http://arxiv.org/abs/2305.04003v3 )

ライセンス: Link先を確認
Marco Casadio, Luca Arnaboldi, Matthew L. Daggitt, Omri Isac, Tanvi Dinkar, Daniel Kienitz, Verena Rieser, Ekaterina Komendantskaya(参考訳) 自然言語処理(NLP)で使用される機械学習モデルの検証は難しい問題であることが知られている。 特に、コンピュータビジョンや他の数値データセットで機能する多くの既知のニューラルネットワーク検証方法は、NLPでは機能しない。 ここでは,この問題を裏付ける技術的理由について検討する。 そこで本研究では,NLPデータセットとモデルを作成するための実践的手法とヒューリスティックスを提案する。 我々はこれらの手法を,ニューラルネットワーク検証器ERANとマラブーにリンクするANTONIOと呼ばれるPythonライブラリとして実装する。 我々は,NLP データセット R-U-A-Robot を法的に重要な NLP アプリケーションを検証するためのベンチマークとして提案したツールの評価を行う。 一般的な適用性のおかげで、この研究がニューラルネットワーク検証コンテストにNLP検証問題を含める新たな可能性を開き、コミュニティ内でNLP問題の普及を期待する。

Verification of machine learning models used in Natural Language Processing (NLP) is known to be a hard problem. In particular, many known neural network verification methods that work for computer vision and other numeric datasets do not work for NLP. Here, we study technical reasons that underlie this problem. Based on this analysis, we propose practical methods and heuristics for preparing NLP datasets and models in a way that renders them amenable to known verification methods based on abstract interpretation. We implement these methods as a Python library called ANTONIO that links to the neural network verifiers ERAN and Marabou. We perform evaluation of the tool using an NLP dataset R-U-A-Robot suggested as a benchmark for verifying legally critical NLP applications. We hope that, thanks to its general applicability, this work will open novel possibilities for including NLP verification problems into neural network verification competitions, and will popularise NLP problems within this community.
翻訳日:2023-08-16 16:37:04 公開日:2023-08-15
# 時系列予測による時間認識型グラフ構造学習

Time-aware Graph Structure Learning via Sequence Prediction on Temporal Graphs ( http://arxiv.org/abs/2306.07699v2 )

ライセンス: Link先を確認
Haozhen Zhang, Xueting Han, Xi Xiao, Jing Bai(参考訳) 時間発展するグラフの性質をモデル化することを目的としたテンポラリグラフ学習が注目され,近年,目覚ましい成果を上げている。 しかし、実際には、グラフ構造は不完全でノイズが多いため、時間グラフネットワーク(TGN)が情報表現の学習を妨げる。 グラフコントラスト学習は、データ拡張を使用して、既存のデータの妥当なバリエーションを生成し、堅牢な表現を学ぶ。 しかし、ルールベースの拡張アプローチは学習性に欠け、下流タスクからの豊富な情報を活用することができないため、最適ではない。 これらの問題に対処するために,時系列グラフのシーケンス予測によるtgsl(time-aware graph structure learning)アプローチを提案する。 特に、前回観測された相互作用に基づいて時間認識のコンテキスト埋め込みを予測し、Gumble-Top-Kを用いて、このコンテキスト埋め込みに最も近い候補エッジを選択する。 さらに、効率性と多様性を確保するために、いくつかの候補サンプリング戦略が提案されている。 さらに、グラフ構造とTGNをエンドツーエンドで共同で学習し、洗練されたグラフ上で推論を行う。 TGSLはTGATやGraphMixerのような一般的なTGNに対して大きな利益をもたらし、時間グラフ上の他のコントラスト学習手法よりも優れていることを示す。 コードをhttps://github.com/ViktorAxelsen/TGSLでリリースします。

Temporal Graph Learning, which aims to model the time-evolving nature of graphs, has gained increasing attention and achieved remarkable performance recently. However, in reality, graph structures are often incomplete and noisy, which hinders temporal graph networks (TGNs) from learning informative representations. Graph contrastive learning uses data augmentation to generate plausible variations of existing data and learn robust representations. However, rule-based augmentation approaches may be suboptimal as they lack learnability and fail to leverage rich information from downstream tasks. To address these issues, we propose a Time-aware Graph Structure Learning (TGSL) approach via sequence prediction on temporal graphs, which learns better graph structures for downstream tasks through adding potential temporal edges. In particular, it predicts time-aware context embedding based on previously observed interactions and uses the Gumble-Top-K to select the closest candidate edges to this context embedding. Additionally, several candidate sampling strategies are proposed to ensure both efficiency and diversity. Furthermore, we jointly learn the graph structure and TGNs in an end-to-end manner and perform inference on the refined graph. Extensive experiments on temporal link prediction benchmarks demonstrate that TGSL yields significant gains for the popular TGNs such as TGAT and GraphMixer, and it outperforms other contrastive learning methods on temporal graphs. We release the code at https://github.com/ViktorAxelsen/TGSL.
翻訳日:2023-08-16 16:30:07 公開日:2023-08-15
# 非対称信頼区間を有する予算付きマルチアームバンディット

Budgeted Multi-Armed Bandits with Asymmetric Confidence Intervals ( http://arxiv.org/abs/2306.07071v2 )

ライセンス: Link先を確認
Marco Heyden, Vadim Arzamasov, Edouard Fouch\'e, Klemens B\"ohm(参考訳) 確率的Budgeted Multi-Armed Bandit (MAB) 問題について検討し、プレイヤーが期待できない報酬とコストでK$アームから選択する。 目標は、予算制約の下での全報酬を最大化することです。 プレイヤーは、最も高い報酬コスト比率の腕をできるだけ頻繁に選択しようとする。 この問題に対する現在の最先端のポリシーにはいくつかの問題がある。 そこで本稿では,非対称な信頼区間を用いた新しい高信頼境界(UCB)サンプリングポリシーである$\omega$-UCBを提案する。 これらの間隔は、サンプル平均とランダム変数の境界との間の距離でスケールし、我々の競合相手と比較してより正確で厳密な報酬コスト比を推定する。 我々のアプローチは対数的後悔であり、合成および実環境における既存のポリシーを一貫して上回っていることを示す。

We study the stochastic Budgeted Multi-Armed Bandit (MAB) problem, where a player chooses from $K$ arms with unknown expected rewards and costs. The goal is to maximize the total reward under a budget constraint. A player thus seeks to choose the arm with the highest reward-cost ratio as often as possible. Current state-of-the-art policies for this problem have several issues, which we illustrate. To overcome them, we propose a new upper confidence bound (UCB) sampling policy, $\omega$-UCB, that uses asymmetric confidence intervals. These intervals scale with the distance between the sample mean and the bounds of a random variable, yielding a more accurate and tight estimation of the reward-cost ratio compared to our competitors. We show that our approach has logarithmic regret and consistently outperforms existing policies in synthetic and real settings.
翻訳日:2023-08-16 16:29:42 公開日:2023-08-15
# オフライン強化学習のためのデータセット制約付きポリシー規則化

Policy Regularization with Dataset Constraint for Offline Reinforcement Learning ( http://arxiv.org/abs/2306.06569v2 )

ライセンス: Link先を確認
Yuhang Ran, Yi-Chen Li, Fuxiang Zhang, Zongzhang Zhang, Yang Yu(参考訳) 我々は、オフライン強化学習(rl)と呼ばれる固定データセットから可能な最善のポリシーを学ぶ問題を考える。 既存のオフラインRL作品の一般的な分類法は、通常、学習されたポリシーを行動ポリシーの分布または支持によって制限するポリシー規則化である。 しかし、分配と支援の制約は、それぞれが特定の状態を考える際に行動方針と同じような行動を選択するよう政策に強制するため、過度に保守的である。 特に行動ポリシーが最適ではない場合、学習したポリシーのパフォーマンスを制限する。 本稿では,最も近い状態-作用対に対するポリシーの正則化がより効果的であることから,データセット制約によるポリシー正則化(PRDC)を提案する。 ある状態のポリシーを更新するとき、PRDCは、最も近い状態アクションサンプルのデータセット全体を検索し、このサンプルのアクションでポリシーを制限します。 以前の作業とは異なり、PRDCはデータセットからの適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。 よりソフトな制約であるが、配布外行動から十分な保守性を維持する。 実証的な証拠と理論的分析により、prdcはオフラインrlの本質的に困難な値の過大評価問題と境界的なパフォーマンスギャップを緩和できることが示された。 さらに,移動タスクとナビゲーションタスクのセットにおいて,PRDCは従来の手法と比較して最先端のパフォーマンスを実現する。 コードはhttps://github.com/LAMDA-RL/PRDCで入手できる。

We consider the problem of learning the best possible policy from a fixed dataset, known as offline Reinforcement Learning (RL). A common taxonomy of existing offline RL works is policy regularization, which typically constrains the learned policy by distribution or support of the behavior policy. However, distribution and support constraints are overly conservative since they both force the policy to choose similar actions as the behavior policy when considering particular states. It will limit the learned policy's performance, especially when the behavior policy is sub-optimal. In this paper, we find that regularizing the policy towards the nearest state-action pair can be more effective and thus propose Policy Regularization with Dataset Constraint (PRDC). When updating the policy in a given state, PRDC searches the entire dataset for the nearest state-action sample and then restricts the policy with the action of this sample. Unlike previous works, PRDC can guide the policy with proper behaviors from the dataset, allowing it to choose actions that do not appear in the dataset along with the given state. It is a softer constraint but still keeps enough conservatism from out-of-distribution actions. Empirical evidence and theoretical analysis show that PRDC can alleviate offline RL's fundamentally challenging value overestimation issue with a bounded performance gap. Moreover, on a set of locomotion and navigation tasks, PRDC achieves state-of-the-art performance compared with existing methods. Code is available at https://github.com/LAMDA-RL/PRDC
翻訳日:2023-08-16 16:29:27 公開日:2023-08-15
# 小さな量子状態の説明可能な表現学習

Explainable Representation Learning of Small Quantum States ( http://arxiv.org/abs/2306.05694v2 )

ライセンス: Link先を確認
Felix Frohnert and Evert van Nieuwenburg(参考訳) 教師なし機械学習モデルは、明示的な人間のガイダンスや機能エンジニアリングを必要とせずに、トレーニングデータの内部表現を構築する。 この学習された表現は、目の前のタスクにどのデータの特徴が関係しているかについての洞察を提供する。 量子物理学の文脈では、人間の介入なしに量子状態を記述するためのトレーニングモデルは、機械が複雑な量子状態をどのように表現するかを理解するための有望なアプローチを提供する。 学習表現を解釈する能力は、量子システムの非自明な特徴とその効率的な表現に対する新しい視点を与えるかもしれない。 パラメータ化量子回路によって生成される2量子密度行列上に生成モデルを訓練する。 一連の計算実験において,モデルの学習された表現とその内部的データ理解について検討する。 モデルが量子状態と基礎となる絡み合い特性を関連づける解釈可能な表現を学ぶことを観察する。 特に,本実験の結果は,モデルの潜在表現が絡み合い尺度の一致と直接相関していることを示した。 この研究の洞察は、量子状態の解釈可能な機械学習への概念実証を表している。 我々のアプローチは、機械が小さな量子システムを自律的に表現する方法の洞察を与える。

Unsupervised machine learning models build an internal representation of their training data without the need for explicit human guidance or feature engineering. This learned representation provides insights into which features of the data are relevant for the task at hand. In the context of quantum physics, training models to describe quantum states without human intervention offers a promising approach to gaining insight into how machines represent complex quantum states. The ability to interpret the learned representation may offer a new perspective on non-trivial features of quantum systems and their efficient representation. We train a generative model on two-qubit density matrices generated by a parameterized quantum circuit. In a series of computational experiments, we investigate the learned representation of the model and its internal understanding of the data. We observe that the model learns an interpretable representation which relates the quantum states to their underlying entanglement characteristics. In particular, our results demonstrate that the latent representation of the model is directly correlated with the entanglement measure concurrence. The insights from this study represent proof of concept towards interpretable machine learning of quantum states. Our approach offers insight into how machines learn to represent small-scale quantum systems autonomously.
翻訳日:2023-08-16 16:29:03 公開日:2023-08-15
# 動的フィールドプログラム可能な中性原子配列プロセッサのための量子回路のコンパイル

Compiling Quantum Circuits for Dynamically Field-Programmable Neutral Atoms Array Processors ( http://arxiv.org/abs/2306.03487v3 )

ライセンス: Link先を確認
Daniel Bochen Tan, Dolev Bluvstein, Mikhail D. Lukin, Jason Cong(参考訳) dynamic field-programmable qubit arrays (dpqa) は量子情報処理の有望なプラットフォームとして最近登場した。 dpqaでは、原子量子ビットを光学トラップの配列に選択的にロードし、計算自体中に再構成することができる。 量子ビットのトランスポートと並列な量子演算を活用することで、量子ビットの異なるペア、あるいは遠く離れたものでさえ、量子プログラムの実行の異なる段階で絡み合うことができる。 このような再構成可能性と非ローカル接続性は、特にキュービットを配置し、ゲートをスケジュールするレイアウト合成ステップにおいて、コンパイルに新たな課題をもたらす。 本稿では,複数の配列を含むdpqaアーキテクチャを検討し,最先端の実験プラットフォームを表現した2次元アレイ動作をサポートする。 このアーキテクチャでは、状態空間とレイアウト合成を、回路深度の観点から、既存の解法によって最適に解ける満足なモジュラー理論問題として識別する。 複雑なコネクティビティを持つランダムグラフによって生成される一連のベンチマーク回路に対して,本コンパイラ olsq-dpqa は,固定平面アーキテクチャにおける最適コンパイル結果と比較して,小問題インスタンス上の2量子ゲート数を1.7倍削減する。 本手法のスケーラビリティと実用性をさらに高めるために,古典的集積回路ルーティングにおける反復剥離アプローチに触発された欲深いヒューリスティックを提案する。 グラディーと最適手法を組み合わせたハイブリッド手法を用いて、DPQAベースのコンパイル回路はグリッド固定アーキテクチャに比べてスケーリングオーバーヘッドを低減し、90量子ビットの量子回路では5.1倍の2量子ビットゲートが得られることを示した。 これらの方法は、プログラム可能で複雑な量子回路を中性原子量子コンピュータで実現し、将来のコンパイラと将来のハードウェアの選択の両方を知らせる。

Dynamically field-programmable qubit arrays (DPQA) have recently emerged as a promising platform for quantum information processing. In DPQA, atomic qubits are selectively loaded into arrays of optical traps that can be reconfigured during the computation itself. Leveraging qubit transport and parallel, entangling quantum operations, different pairs of qubits, even those initially far away, can be entangled at different stages of the quantum program execution. Such reconfigurability and non-local connectivity present new challenges for compilation, especially in the layout synthesis step which places and routes the qubits and schedules the gates. In this paper, we consider a DPQA architecture that contains multiple arrays and supports 2D array movements, representing cutting-edge experimental platforms. Within this architecture, we discretize the state space and formulate layout synthesis as a satisfactory modulo theories problem, which can be solved by existing solvers optimally in terms of circuit depth. For a set of benchmark circuits generated by random graphs with complex connectivities, our compiler OLSQ-DPQA reduces the number of two-qubit entangling gates on small problem instances by 1.7x compared to optimal compilation results on a fixed planar architecture. To further improve scalability and practicality of the method, we introduce a greedy heuristic inspired by the iterative peeling approach in classical integrated circuit routing. Using a hybrid approach that combined the greedy and optimal methods, we demonstrate that our DPQA-based compiled circuits feature reduced scaling overhead compared to a grid fixed architecture, resulting in 5.1X less two-qubit gates for 90 qubit quantum circuits. These methods enable programmable, complex quantum circuits with neutral atom quantum computers, as well as informing both future compilers and future hardware choices.
翻訳日:2023-08-16 16:28:48 公開日:2023-08-15
# DAG構造学習のための動的因果空間の探索

Discovering Dynamic Causal Space for DAG Structure Learning ( http://arxiv.org/abs/2306.02822v2 )

ライセンス: Link先を確認
Fangfu Liu, Wenchang Ma, An Zhang, Xiang Wang, Yueqi Duan, Tat-Seng Chua(参考訳) 変数間の因果関係の同定を目的とした純粋観測データ(因果発見)から因果構造を発見することは、機械学習の基本的な課題である。 近年の微分可能なスコアベースDAG学習器の発明は、組合せ最適化問題を有向グラフ空間上のDAG制約で微分可能な最適化に再構成する重要なイネーブルである。 その成功にもかかわらず、これらの最先端DAG学習者は、グラフ構造を考慮せず、有向グラフ候補を評価するためにDAGの独立スコア関数を組み込んでいる。 その結果,DAGによらずデータ適合度を計測することは,必然的に,最適なDAGとモデル脆弱性の発見につながる。 そこで本研究では,DAG構造学習のための動的因果空間であるCASPERを提案し,このグラフ構造をスコア関数に統合することで,推定された真理と地上のDAGの因果距離を忠実に反映する。 CASPERは、DAG-nessへの適応的注意によるDAG構造学習の強化とともに、学習プロセスの見直しを行う。 経験的可視化により、CASPERは空間として、構造認識やノイズ堅牢性といった一連の望ましい特性を満たす。 合成と実世界の両方のデータセットに対する大規模な実験は、精度と堅牢性の観点から、最先端の因果発見法よりもCASPERの方が優れていることを明確に証明している。

Discovering causal structure from purely observational data (i.e., causal discovery), aiming to identify causal relationships among variables, is a fundamental task in machine learning. The recent invention of differentiable score-based DAG learners is a crucial enabler, which reframes the combinatorial optimization problem into a differentiable optimization with a DAG constraint over directed graph space. Despite their great success, these cutting-edge DAG learners incorporate DAG-ness independent score functions to evaluate the directed graph candidates, lacking in considering graph structure. As a result, measuring the data fitness alone regardless of DAG-ness inevitably leads to discovering suboptimal DAGs and model vulnerabilities. Towards this end, we propose a dynamic causal space for DAG structure learning, coined CASPER, that integrates the graph structure into the score function as a new measure in the causal space to faithfully reflect the causal distance between estimated and ground truth DAG. CASPER revises the learning process as well as enhances the DAG structure learning via adaptive attention to DAG-ness. Grounded by empirical visualization, CASPER, as a space, satisfies a series of desired properties, such as structure awareness and noise robustness. Extensive experiments on both synthetic and real-world datasets clearly validate the superiority of our CASPER over the state-of-the-art causal discovery methods in terms of accuracy and robustness.
翻訳日:2023-08-16 16:28:16 公開日:2023-08-15
# パーセプトロンニューラルネットワークに基づくバイオインスパイアされたカオスセンサモデル:機械学習の概念と計算神経科学への応用

A Bio-Inspired Chaos Sensor Model Based on the Perceptron Neural Network: Machine Learning Concept and Application for Computational Neuro-Science ( http://arxiv.org/abs/2306.01991v2 )

ライセンス: Link先を確認
Andrei Velichko, Petr Boriskov, Maksim Belyaev and Vadim Putrolaynen(参考訳) 本研究では,神経力学系におけるスパイクトレインのエントロピー推定のための知覚神経ネットワークに基づくバイオインスパイアされたカオスセンサモデルを提案する。 トレーニング後、隠れた層に50個のニューロンを持ち、出力に1個のニューロンを持つパーセプトロン上のセンサーは、高精度で短い時系列のファジィエントロピーをR2〜0.9の判定係数で近似する。 Hindmarsh-Roseスパイクモデルは、一連のスパイク間隔と、パーセプトロンのトレーニングとテストのためのデータセットを生成するために使用された。 Kブロッククロスバリデーション法を用いて, パーセプトロンモデルのハイパーパラメータの選択とセンサ精度の推定を行った。 1つのニューロンを持つ隠れた層であっても、モデルは良い結果と計量 r2 ~ 0.5-0.8 でファジィエントロピーを近似する。 1つのニューロンと第1層の重みが等しい単純化されたモデルでは、近似の原理は時系列の平均値からエントロピー値への線形変換に基づいている。 ラットのl5背根部から記録された活動電位のスパイクトレインにカオスセンサを使用する例を提供する。 ニューロンのアンサンブルに基づくバイオインスパイアされたカオスセンサモデルは、スパイク信号のカオス挙動を動的に追跡し、この情報を神経力学モデルの他の部分に伝達し、さらなる処理を行うことができる。 この研究は、計算神経科学の分野の専門家や、人型ロボットや動物ロボット、限られた資源を持つバイオロボットの開発に役立ちます。

The study presents a bio-inspired chaos sensor model based on the perceptron neural network for the estimation of entropy of spike train in neurodynamic systems. After training, the sensor on perceptron, having 50 neurons in the hidden layer and 1 neuron at the output, approximates the fuzzy entropy of a short time series with high accuracy, with a determination coefficient of R2 ~ 0.9. The Hindmarsh-Rose spike model was used to generate time series of spike intervals, and datasets for training and testing the perceptron. The selection of the hyperparameters of the perceptron model and the estimation of the sensor accuracy were performed using the K-block cross-validation method. Even for a hidden layer with one neuron, the model approximates the fuzzy entropy with good results and the metric R2 ~ 0.5-0.8. In a simplified model with one neuron and equal weights in the first layer, the principle of approximation is based on the linear transformation of the average value of the time series into the entropy value. An example of using the chaos sensor on spike train of action potential recordings from the L5 dorsal rootlet of rat is provided. The bio-inspired chaos sensor model based on an ensemble of neurons is able to dynamically track the chaotic behavior of a spike signal and transmit this information to other parts of the neurodynamic model for further processing. The study will be useful for specialists in the field of computational neuroscience, and also to create humanoid and animal robots, and bio-robots with limited resources.
翻訳日:2023-08-16 16:27:51 公開日:2023-08-15
# トランスデューサに基づくストリーミング音声認識のための適応的文脈バイアス

Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition ( http://arxiv.org/abs/2306.00804v3 )

ライセンス: Link先を確認
Tianyi Xu, Zhanheng Yang, Kaixun Huang, Pengcheng Guo, Ao Zhang, Biao Li, Changru Chen, Chao Li, Lei Xie(参考訳) 文脈情報の追加により、パーソナライズされた単語の音声認識のための有望なソリューションとしてディープバイアス手法が登場している。 しかし、現実の音声アシスタントでは、予測スコアの高いパーソナライズされた単語に常に偏りがあるため、一般的な単語を認識する能力は著しく低下する。 そこで本研究では,コンテキスト認識変換器(CATT)に基づく適応的文脈バイアス手法を提案する。 このような予測はバイアスリストのオン/オフを動的に切り替えるために使用され、モデルがパーソナライズされたシナリオと一般的なシナリオの両方に対応できるようにします。 Librispeechと内部音声アシスタントデータセットの実験により、我々のアプローチは、それぞれベースラインと比較してWERとCERの最大6.7%と20.7%の相対的な減少を達成でき、一般的なケースでは96.7%と84.9%の相対的なWERとCERの増加を軽減できることが示された。 さらに,rtf増加を伴うストリーミング推論パイプラインを維持しつつ,パーソナライズされたシナリオにおけるパフォーマンスへの影響を最小限に抑えている。

By incorporating additional contextual information, deep biasing methods have emerged as a promising solution for speech recognition of personalized words. However, for real-world voice assistants, always biasing on such personalized words with high prediction scores can significantly degrade the performance of recognizing common words. To address this issue, we propose an adaptive contextual biasing method based on Context-Aware Transformer Transducer (CATT) that utilizes the biased encoder and predictor embeddings to perform streaming prediction of contextual phrase occurrences. Such prediction is then used to dynamically switch the bias list on and off, enabling the model to adapt to both personalized and common scenarios. Experiments on Librispeech and internal voice assistant datasets show that our approach can achieve up to 6.7% and 20.7% relative reduction in WER and CER compared to the baseline respectively, mitigating up to 96.7% and 84.9% of the relative WER and CER increase for common cases. Furthermore, our approach has a minimal performance impact in personalized scenarios while maintaining a streaming inference pipeline with negligible RTF increase.
翻訳日:2023-08-16 16:27:17 公開日:2023-08-15
# 潜在量子化による解離

Disentanglement via Latent Quantization ( http://arxiv.org/abs/2305.18378v2 )

ライセンス: Link先を確認
Kyle Hsu and Will Dorrell and James C. R. Whittington and Jiajun Wu and Chelsea Finn(参考訳) 乱れた表現学習では、モデルはデータセットの基盤となる変動源を区別し、互いに独立して表現するように要求される。 モデルにはこれらの情報源に関する基礎的な真理情報がないため、帰納的バイアスは遠絡を可能にする上で最重要である。 本研究では,組織化された潜在空間への符号化と復号に対する帰納的バイアスを構築する。 具体的には、これを行う。 (i)次元ごとに学習可能なスカラー符号帳を分離した離散符号ベクトルに潜在空間を定量化すること。 (ii)異常に高い重量減少による強モデル正則化の適用。 直感的には、潜在空間設計は、エンコーダに少数の異なるスカラー値から符号を組合せて構成させ、それによってデコーダは各値に一貫した意味を割り当てることができる。 正規化は、モデルをこの控えめな戦略へと導くのに役立ちます。 本稿では,基本データ再構成 (vanilla autoencoder) と潜在データ再構成 (InfoGAN) の両方に付加することで,このアプローチの適用性を示す。 信頼性の高い評価のために,我々は,情報理論において結合的に基礎を置き,先行する指標の確立された欠点を修正するための新しい指標セットであるinfomecを提案する。 正規化とともに、潜在量子化は、ベンチマークデータセットの代表スイートにおける学習された表現のモジュラリティと明示性を劇的に改善する。 特に、当社の量子化遅延オートエンコーダ(QLAE)は、データ再構成を損なうことなく、これらのキー不整合特性において、従来から強い手法よりも一貫して優れています。

In disentangled representation learning, a model is asked to tease apart a dataset's underlying sources of variation and represent them independently of one another. Since the model is provided with no ground truth information about these sources, inductive biases take a paramount role in enabling disentanglement. In this work, we construct an inductive bias towards encoding to and decoding from an organized latent space. Concretely, we do this by (i) quantizing the latent space into discrete code vectors with a separate learnable scalar codebook per dimension and (ii) applying strong model regularization via an unusually high weight decay. Intuitively, the latent space design forces the encoder to combinatorially construct codes from a small number of distinct scalar values, which in turn enables the decoder to assign a consistent meaning to each value. Regularization then serves to drive the model towards this parsimonious strategy. We demonstrate the broad applicability of this approach by adding it to both basic data-reconstructing (vanilla autoencoder) and latent-reconstructing (InfoGAN) generative models. For reliable evaluation, we also propose InfoMEC, a new set of metrics for disentanglement that is cohesively grounded in information theory and fixes well-established shortcomings in previous metrics. Together with regularization, latent quantization dramatically improves the modularity and explicitness of learned representations on a representative suite of benchmark datasets. In particular, our quantized-latent autoencoder (QLAE) consistently outperforms strong methods from prior work in these key disentanglement properties without compromising data reconstruction.
翻訳日:2023-08-16 16:26:42 公開日:2023-08-15
# 1次元デクスター型励起位相相転移

One-dimensional Dexter-type excitonic topological phase transition ( http://arxiv.org/abs/2305.18299v3 )

ライセンス: Link先を確認
Jianhua Zhu, Ji Chen, and Wei Wu(参考訳) 我々は、任意の1次元鎖構造の励起子を記述するのに十分一般的な1次元二量化励起模型に対するザック位相を計算した。 関連するホッピングパラメータのチューニングは、従来のSu-Shcrieffer-Heegerモデルとは異なり、一様鎖の非自明な位相位相、トポロジカルに堅牢な平坦なバンドの動物園、エキゾチックな分数相を含む、物理学の豊富なスペクトルを生み出す。 最も重要なことは、初めてデクスター電子交換プロセスで補助される位相相転移が発見されたことである。 さらに,計算における$\pi$のzak位相を解釈するために, ‘`composite chiral site' という新しい概念が開発された。 有限連鎖計算は位相的エッジ状態に準じ、その特性に関するより多くの情報を提供する。

We have computed the Zak phase for a one-dimensional dimerised excitonic model, which is sufficiently general to describe excitons for any one-dimensional chain structures. Tuning relevant hopping parameters gives rise to a rich spectrum of physics, including non-trivial topological phase in uniform chain unlike the conventional Su-Shcrieffer-Heeger model, a zoo of topologically robust flat bands, and exotic fractional phase. Most importantly, in the first time, a topological phase transition assisted by the Dexter electron exchange process has been found. In addition, a new concept of ``composite chiral site" was developed to interpret the Zak phase of $\pi$ in our calculations. Our finite-chain calculations substantiate topological edge states, providing more information about their characteristics.
翻訳日:2023-08-16 16:26:17 公開日:2023-08-15
# style over substance: 大規模言語モデルに対する評価バイアス

Style Over Substance: Evaluation Biases for Large Language Models ( http://arxiv.org/abs/2307.03025v2 )

ライセンス: Link先を確認
Minghao Wu, Alham Fikri Aji(参考訳) 大きな言語モデル(LLM)が進歩を続けるにつれ、そのパフォーマンスを正確かつ包括的に評価することはますます困難になっている。 人間の評価は自然言語生成における金本位制と見なされるが、近年の進歩では、評価過程における人間の判断のプロキシとして最先端のllmが組み込まれている。 しかしながら、人間とLLMがどの程度の能力を持つかは未だ不明である。 本研究では,異なるモデルからのアウトプットを比較する際に,クラウドソースおよびエキスパートアノテータおよびLPMの挙動について検討する。 これを実現するために、故意に欠陥のあるマシン生成回答のデータセットをキュレートする。 事実的誤りを伴う回答は,短すぎる回答や文法的誤りを含む回答よりも好意的に評価されるため,評価プロセスにバイアスが伴うことが明らかとなった。 この問題に対処するために,すべての評価面を1つのスコアにまとめるのではなく,複数の次元にわたるマシン生成テキストを独立に評価することを提案する。 このアイデアをeloレーティングシステムでインスタンス化し,マルチeloレーティングシステムを実現する。 本研究から得られた実験結果から,本手法はLLMによる評価,特に実測精度を著しく向上させることが明らかとなった。 しかし,クラウドソースによる評価では,さらなる調査・改善の必要性が指摘され,大幅な改善はない。

As large language models (LLMs) continue to advance, accurately and comprehensively evaluating their performance becomes increasingly challenging. Human evaluations are conventionally considered the gold standard in natural language generation, but recent advancements incorporate state-of-the-art LLMs as proxies for human judges in evaluation processes. However, the extent to which humans and LLMs are capable evaluators remains uncertain. This study investigates the behavior of crowd-sourced and expert annotators, as well as LLMs, when comparing outputs from different models. To achieve this, we curate a dataset of intentionally flawed machine-generated answers. Our findings reveal a concerning bias in the evaluation process, as answers with factual errors are rated more favorably than answers that are too short or contained grammatical errors. To address this issue, we propose independently evaluating machine-generated text across multiple dimensions, rather than merging all the evaluation aspects into a single score. We instantiate this idea with the Elo rating system, resulting in the Multi-Elo Rating System. Empirical results from our study reveal that this proposed approach significantly enhances the quality of LLM-based evaluations, particularly in terms of factual accuracy. However, there is no significant improvement in crowd-sourced-based evaluations, indicating the need for further investigation and refinement.
翻訳日:2023-08-16 16:20:38 公開日:2023-08-15
# BatGPT: 生成型事前学習型変圧器による双方向自動補聴器

BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained Transformer ( http://arxiv.org/abs/2307.00360v2 )

ライセンス: Link先を確認
Zuchao Li, Shitou Zhang, Hai Zhao, Yifei Yang, Dongjie Yang(参考訳) BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。 テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。 モデリングレベルでは、モデルが自然言語の複雑な依存関係を効率的に捉えることができ、言語生成、対話システム、質問応答といったタスクに非常に効果的である双方向の自己回帰アーキテクチャを採用しています。 さらに、双方向自己回帰モデリングは、左から右へだけでなく、右から左へも動作し、固定メモリ効果を効果的に低減し、モデル幻覚を緩和する。 学習面では、より小さなモデルの事前学習を活用し、モデルのアライメント性能を向上させることを目的とした、aiと人間のフィードバックからの強化学習を活用できる新しいパラメータ拡張手法を提案する。 全体として、これらのアプローチはBatGPTの有効性を大幅に改善し、そのモデルは幅広い自然言語アプリケーションに利用することができる。

BatGPT is a large-scale language model designed and trained jointly by Wuhan University and Shanghai Jiao Tong University. It is capable of generating highly natural and fluent text in response to various types of input, including text prompts, images, and audio. In the modeling level, we employ a bidirectional autoregressive architecture that allows the model to efficiently capture the complex dependencies of natural language, making it highly effective in tasks such as language generation, dialog systems, and question answering. Moreover, the bidirectional autoregressive modeling not only operates from left to right but also from right to left, effectively reducing fixed memory effects and alleviating model hallucinations. In the training aspect, we propose a novel parameter expansion method for leveraging the pre-training of smaller models and employ reinforcement learning from both AI and human feedback, aimed at improving the model's alignment performance. Overall, these approaches significantly improve the effectiveness of BatGPT, and the model can be utilized for a wide range of natural language applications.
翻訳日:2023-08-16 16:20:15 公開日:2023-08-15
# ピークオーバースレッショルドモデルを用いた検閲推論のためのニューラルベイズ推定器

Neural Bayes estimators for censored inference with peaks-over-threshold models ( http://arxiv.org/abs/2306.15642v3 )

ライセンス: Link先を確認
Jordan Richards and Matthew Sainsbury-Dale and Andrew Zammit-Mangion and Rapha\"el Huser(参考訳) 空間的極値依存モデルを用いた推論は、難解かつ検閲された確率を伴うため、計算量的に負担がかかる。 ニューラルネットワークアーキテクチャにおける検閲情報をエンコードする検閲されたピークオーバホールドモデルに対して,ベイズ推定器を近似したニューラルネットワークを用いた確率自由推定の最近の進歩に基づいて,高効率な推定器を開発した。 提案手法は,空間的極値依存モデルに対する従来の検閲に基づく推論手法に挑戦するパラダイムシフトを提供する。 我々のシミュレーション研究は、max-stable、$r$-pareto、ランダムスケール混合プロセスモデルなどの一般的な極値依存モデルを用いて推論を行うために、新しい推定器を適用した場合、計算効率と統計効率の両方において有意な向上を示す。 また,1つのニューラルネットワークベイズ推定器を一般検閲レベルでトレーニングすることは可能であり,検閲レベルが変更された場合のネットワークの再トレーニングは不要であることを示す。 サウジアラビア全土の過大粒子状物質2.5ミクロン以下(PM2.5)濃度を評価するために,高次元空間超依存性モデル数百個を高速に推定することにより,推定装置の有効性を検証した。

Making inference with spatial extremal dependence models can be computationally burdensome since they involve intractable and/or censored likelihoods. Building on recent advances in likelihood-free inference with neural Bayes estimators, that is, neural networks that approximate Bayes estimators, we develop highly efficient estimators for censored peaks-over-threshold models that encode censoring information in the neural network architecture. Our new method provides a paradigm shift that challenges traditional censored likelihood-based inference methods for spatial extremal dependence models. Our simulation studies highlight significant gains in both computational and statistical efficiency, relative to competing likelihood-based approaches, when applying our novel estimators to make inference with popular extremal dependence models, such as max-stable, $r$-Pareto, and random scale mixture process models. We also illustrate that it is possible to train a single neural Bayes estimator for a general censoring level, precluding the need to retrain the network when the censoring level is changed. We illustrate the efficacy of our estimators by making fast inference on hundreds-of-thousands of high-dimensional spatial extremal dependence models to assess extreme particulate matter 2.5 microns or less in diameter (PM2.5) concentration over the whole of Saudi Arabia.
翻訳日:2023-08-16 16:19:34 公開日:2023-08-15
# DiffSketcher:潜在拡散モデルによるテキストガイドベクトルスケッチ合成

DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models ( http://arxiv.org/abs/2306.14685v2 )

ライセンス: Link先を確認
Ximing Xing, Chuang Wang, Haitao Zhou, Jing Zhang, Qian Yu, Dong Xu(参考訳) 画像を中心に訓練したものの,事前学習された拡散モデルがスケッチ合成の指導において印象的な効果を示すことが判明した。 本稿では,自然言語入力を用いたベクトル化自由ハンドスケッチを作成する革新的なアルゴリズムdiffsketcherを提案する。 diffsketcherは、事前学習されたテキストから画像への拡散モデルに基づいている。 スコア蒸留サンプリング(sds)損失の延長バージョンでベジエ曲線のセットを直接最適化することにより、パラメトリックベクトル化スケッチ生成器の最適化に先立ってラスターレベルの拡散モデルを用いることができる。 さらに, 実効的ストローク初期化のための拡散モデルに埋め込まれた注意マップを探索し, 生成プロセスを高速化する。 生成されたスケッチは、認識可能性、基盤構造、描画対象の視覚的詳細を維持しながら、複数の抽象化レベルを示す。 私たちの実験では、diffsketcherは以前の作業よりも高い品質を達成しています。

Even though trained mainly on images, we discover that pretrained diffusion models show impressive power in guiding sketch synthesis. In this paper, we present DiffSketcher, an innovative algorithm that creates vectorized free-hand sketches using natural language input. DiffSketcher is developed based on a pre-trained text-to-image diffusion model. It performs the task by directly optimizing a set of Bezier curves with an extended version of the score distillation sampling (SDS) loss, which allows us to use a raster-level diffusion model as a prior for optimizing a parametric vectorized sketch generator. Furthermore, we explore attention maps embedded in the diffusion model for effective stroke initialization to speed up the generation process. The generated sketches demonstrate multiple levels of abstraction while maintaining recognizability, underlying structure, and essential visual details of the subject drawn. Our experiments show that DiffSketcher achieves greater quality than prior work.
翻訳日:2023-08-16 16:19:10 公開日:2023-08-15
# レコメンダシステムのためのデータ拡張と改良:最大マージン行列分解を用いた半教師付きアプローチ

Data augmentation and refinement for recommender system: A semi-supervised approach using maximum margin matrix factorization ( http://arxiv.org/abs/2306.13050v2 )

ライセンス: Link先を確認
Shamal Shaikh, Venkateswara Rao Kagita, Vikas Kumar, Arun K Pujari(参考訳) 協調フィルタリング(CF)は,過去の嗜好や他ユーザの嗜好情報に基づいて,新たな項目に対するユーザのレーティングを予測するレコメンデータシステム(RS)を開発するための一般的な手法となっている。 CFベースの手法が普及しているにもかかわらず、その性能は観察された項目の幅によって著しく制限されることが多い。 本研究では,MMMF (Maximum Margin Matrix Factorization, MMMF) のデータの増大と改善について検討した。 CFアルゴリズムの特性を利用して個人評価の信頼度を評価し,自己学習に基づく評価向上のための半教師付きアプローチを提案する。 cfアルゴリズムの信頼度の低い予測は、トレーニングデータの不足によるものであると仮定し、体系的データ拡張戦略を採用することにより、アルゴリズムの性能を向上させることができる。 我々は,高い信頼度で予測された評価を反復的に使用し,トレーニングデータを強化し,改良プロセスを通じて信頼性の低い項目を除去した。 このプロセスを繰り返すことで、システムは予測精度を改善することを学ぶ。 本手法は,いくつかの最先端cfアルゴリズムで実験的に評価され,ベースライン手法の性能向上に寄与する。

Collaborative filtering (CF) has become a popular method for developing recommender systems (RSs) where ratings of a user for new items are predicted based on her past preferences and available preference information of other users. Despite the popularity of CF-based methods, their performance is often greatly limited by the sparsity of observed entries. In this study, we explore the data augmentation and refinement aspects of Maximum Margin Matrix Factorization (MMMF), a widely accepted CF technique for rating predictions, which has not been investigated before. We exploit the inherent characteristics of CF algorithms to assess the confidence level of individual ratings and propose a semi-supervised approach for rating augmentation based on self-training. We hypothesize that any CF algorithm's predictions with low confidence are due to some deficiency in the training data and hence, the performance of the algorithm can be improved by adopting a systematic data augmentation strategy. We iteratively use some of the ratings predicted with high confidence to augment the training data and remove low-confidence entries through a refinement process. By repeating this process, the system learns to improve prediction accuracy. Our method is experimentally evaluated on several state-of-the-art CF algorithms and leads to informative rating augmentation, improving the performance of the baseline approaches.
翻訳日:2023-08-16 16:18:53 公開日:2023-08-15
# Task-Conditioned Hypernetwork に基づくマルチタスクエピソードメモリによる深層強化学習

Deep Reinforcement Learning with Multitask Episodic Memory Based on Task-Conditioned Hypernetwork ( http://arxiv.org/abs/2306.10698v3 )

ライセンス: Link先を確認
Yonggang Jin, Chenxu Wang, Liuyu Xiang, Yaodong Yang, Junge Zhang, Jie Fu and Zhaofeng He(参考訳) 深層強化学習アルゴリズムは通常、正確な意思決定能力を得るために環境と複数の相互作用に依存する非効率のサンプリングによって妨げられる。 対照的に、人間は海馬を頼りに、関連するタスクの過去の経験から関連する情報を取得し、環境の相互作用にのみ依存するのではなく、新しいタスクを学ぶ際の意思決定を導く。 それにもかかわらず、過去の経験を確立された強化学習アルゴリズムに組み込むエージェントのための海馬のようなモジュールの設計には、2つの課題がある。 第1の課題は、現在のタスクに最も関連する過去の経験を選択することであり、第2の課題は、そのような経験を意思決定ネットワークに統合することである。 これらの課題に対処するために,タスク条件付きハイパーネットワークに基づく検索ネットワークを用いて,検索ネットワークのパラメータをタスクに応じて適応させる新しい手法を提案する。 同時に,動的修正機構により,検索ネットワークと意思決定ネットワークの協調作業が促進される。 提案手法をMiniGrid環境上で評価し,提案手法が強いベースラインを著しく上回ることを示す実験結果を得た。

Deep reinforcement learning algorithms are usually impeded by sampling inefficiency, heavily depending on multiple interactions with the environment to acquire accurate decision-making capabilities. In contrast, humans rely on their hippocampus to retrieve relevant information from past experiences of relevant tasks, which guides their decision-making when learning a new task, rather than exclusively depending on environmental interactions. Nevertheless, designing a hippocampus-like module for an agent to incorporate past experiences into established reinforcement learning algorithms presents two challenges. The first challenge involves selecting the most relevant past experiences for the current task, and the second challenge is integrating such experiences into the decision network. To address these challenges, we propose a novel method that utilizes a retrieval network based on task-conditioned hypernetwork, which adapts the retrieval network's parameters depending on the task. At the same time, a dynamic modification mechanism enhances the collaborative efforts between the retrieval and decision networks. We evaluate the proposed method on the MiniGrid environment.The experimental results demonstrate that our proposed method significantly outperforms strong baselines.
翻訳日:2023-08-16 16:18:28 公開日:2023-08-15
# 仮想人間の生成モデル:人間の特性学習のためのマスクモデルアプローチ

Virtual Human Generative Model: Masked Modeling Approach for Learning Human Characteristics ( http://arxiv.org/abs/2306.10656v2 )

ライセンス: Link先を確認
Kenta Oono, Nontawat Charoenphakdee, Kotatsu Bito, Zhengyan Gao, Yoshiaki Ota, Shoichiro Yamaguchi, Yohei Sugawara, Shin-ichi Maeda, Kunihiko Miyoshi, Yuki Saito, Koki Tsuda, Hiroshi Maruyama, Kohei Hayashi(参考訳) 健康属性、ライフスタイル、パーソナリティの関係を特定することは、身体的および精神的な状態の理解と改善に不可欠である。 機械学習のアプローチは、それらの関係をモデル化し、実行可能な提案を提供する。 本稿では,ヘルスケア,ライフスタイル,パーソナリティに関する属性を推定する機械学習モデルであるvirtual human generative model (vhgm)を提案する。 vhgmは、既知の属性の結合分布を学ぶためにマスクモデルで訓練された深い生成モデルである。 不均一な表型データセットを使用して、VHGMは1,800以上の属性を効率的に学習する。 VHGMとその訓練技術の性能を数値的に評価する。 VHGMの概念実証として,医療属性の仮想計測やライフスタイルの仮説検証など,ユーザシナリオを示すいくつかのアプリケーションを提案する。

Identifying the relationship between healthcare attributes, lifestyles, and personality is vital for understanding and improving physical and mental conditions. Machine learning approaches are promising for modeling their relationships and offering actionable suggestions. In this paper, we propose Virtual Human Generative Model (VHGM), a machine learning model for estimating attributes about healthcare, lifestyles, and personalities. VHGM is a deep generative model trained with masked modeling to learn the joint distribution of attributes conditioned on known ones. Using heterogeneous tabular datasets, VHGM learns more than 1,800 attributes efficiently. We numerically evaluate the performance of VHGM and its training techniques. As a proof-of-concept of VHGM, we present several applications demonstrating user scenarios, such as virtual measurements of healthcare attributes and hypothesis verifications of lifestyles.
翻訳日:2023-08-16 16:18:10 公開日:2023-08-15
# 詩の融合 : 詩生成における意味的・韻律的操作の融合に向けて

PoetryDiffusion: Towards Joint Semantic and Metrical Manipulation in Poetry Generation ( http://arxiv.org/abs/2306.08456v2 )

ライセンス: Link先を確認
Zhiyuan Hu, Chumin Liu, Yue Feng, Anh Tuan Luu, Bryan Hooi(参考訳) 制御可能なテキスト生成は自然言語生成(NLG)において困難で意味のある分野である。 特に詩の生成はテキスト生成の条件が明確で厳密な典型的なものであり、現在の方法論を評価するのに理想的な場である。 以前の作品では詩生成の意味論的側面や計量的側面を制御できたが、同時に両者に対処することは困難である。 本稿では,ソネット生成のための拡散モデルと中国語のSongCi詩を用いて,このような課題に対処する。 セマンティクスの観点からは,拡散モデルに基づいて構築された詩拡散モデルが文情報全体を包括的に考慮して文全体や詩を生成する。 このアプローチは意味表現を強化し、自己回帰型および大規模言語モデル(LLM)と区別する。 メトリクス制御のために、拡散生成とその制約制御モジュールの分離特徴により、新しいメトリックコントローラを柔軟に組み込んでメトリクス(フォーマットとリズム)を操作し評価することができる。 poetrydiffusionでは、意味論の段階的な拡張と、ターゲットの制御分布から著しく離れている状態に対してペナルティを計算し課すことができるメトリックコントローラの柔軟な統合を可能にする。 2つのデータセットに対する実験結果から,本モデルが既存のモデルより優れており,セマンティクス,計量,総合的な性能と人的評価が自動評価されることがわかった。

Controllable text generation is a challenging and meaningful field in natural language generation (NLG). Especially, poetry generation is a typical one with well-defined and strict conditions for text generation which is an ideal playground for the assessment of current methodologies. While prior works succeeded in controlling either semantic or metrical aspects of poetry generation, simultaneously addressing both remains a challenge. In this paper, we pioneer the use of the Diffusion model for generating sonnets and Chinese SongCi poetry to tackle such challenges. In terms of semantics, our PoetryDiffusion model, built upon the Diffusion model, generates entire sentences or poetry by comprehensively considering the entirety of sentence information. This approach enhances semantic expression, distinguishing it from autoregressive and large language models (LLMs). For metrical control, the separation feature of diffusion generation and its constraint control module enable us to flexibly incorporate a novel metrical controller to manipulate and evaluate metrics (format and rhythm). The denoising process in PoetryDiffusion allows for gradual enhancement of semantics and flexible integration of the metrical controller which can calculate and impose penalties on states that stray significantly from the target control distribution. Experimental results on two datasets demonstrate that our model outperforms existing models in automatic evaluation of semantic, metrical, and overall performance as well as human evaluation.
翻訳日:2023-08-16 16:17:56 公開日:2023-08-15
# GCformer: 正確でスケーラブルな多変数時系列予測のための効率的なフレームワーク

GCformer: An Efficient Framework for Accurate and Scalable Long-Term Multivariate Time Series Forecasting ( http://arxiv.org/abs/2306.08325v3 )

ライセンス: Link先を確認
YanJun Zhao, Ziqing Ma, Tian Zhou, Liang Sun, Mengni Ye, Yi Qian(参考訳) トランスフォーマーベースのモデルは、時系列予測の有望なツールとして登場した。 しかし、これらのモデルでは長い入力時系列の正確な予測はできない。 一方で、時系列データ内のグローバルな依存関係を捉えられなかった。 一方、長い入力シーケンスは、通常、大きなモデルサイズと高い時間複雑性をもたらす。 この制限に対処するために、長い入力列を処理する構造化グローバル畳み込みブランチと、短い最新の信号をキャプチャするローカルトランスフォーマティブベースのブランチを組み合わせたgcformerを提案する。 大域的畳み込みカーネルのための凝集フレームワークが3つの異なるパラメータ化手法を用いて導入された。 グローバルブランチで選択された構造化畳み込みカーネルは、特に線形の複雑さで構築されており、長大で雑音の多い入力信号の効率的かつ効率的な処理を可能にしている。 6つのベンチマークデータセットに関する実証的研究により、GCformerは最先端の手法より優れており、多変量時系列ベンチマークのMSEエラーを4.38%、モデルパラメータを61.92%削減している。 特に、グローバル畳み込み分岐は他のモデルの性能を向上させるためのプラグインブロックとして機能することができ、最近発表された様々なトランスフォーマーベースのモデルを含む平均31.93\%改善されている。 私たちのコードはhttps://github.com/zyj-111/gcformerで公開しています。

Transformer-based models have emerged as promising tools for time series forecasting. However, these model cannot make accurate prediction for long input time series. On the one hand, they failed to capture global dependencies within time series data. On the other hand, the long input sequence usually leads to large model size and high time complexity. To address these limitations, we present GCformer, which combines a structured global convolutional branch for processing long input sequences with a local Transformer-based branch for capturing short, recent signals. A cohesive framework for a global convolution kernel has been introduced, utilizing three distinct parameterization methods. The selected structured convolutional kernel in the global branch has been specifically crafted with sublinear complexity, thereby allowing for the efficient and effective processing of lengthy and noisy input signals. Empirical studies on six benchmark datasets demonstrate that GCformer outperforms state-of-the-art methods, reducing MSE error in multivariate time series benchmarks by 4.38% and model parameters by 61.92%. In particular, the global convolutional branch can serve as a plug-in block to enhance the performance of other models, with an average improvement of 31.93\%, including various recently published Transformer-based models. Our code is publicly available at https://github.com/zyj-111/GCformer.
翻訳日:2023-08-16 16:17:33 公開日:2023-08-15
# PromptStyler: ソースフリードメイン一般化のためのプロンプト駆動型スタイル生成

PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization ( http://arxiv.org/abs/2307.15199v2 )

ライセンス: Link先を確認
Junhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak(参考訳) 共同視覚言語空間では、テキスト機能(例:「犬の写真」から)はその関連画像の特徴(例:犬の写真から)を効果的に表現することができる。 また、最近の研究は、この関節空間のクロスモーダル移動可能性現象を実証している。 そこで,本研究では,多種多様なスタイルをプロンプトで合成し,ソースフリーなドメイン一般化を扱うことなく,様々な分散シフトをシミュレートするプロンプトスタイルを提案する。 提案手法は、擬似単語S*の学習可能なスタイルワードベクトルを用いて、様々なスタイル特徴(aのS*スタイルから)を生成することを学習する。 学習されたスタイルがコンテンツ情報を歪めないようにするため、スタイルコンテンツの特徴([クラス]のs*スタイルから)は、共用視覚言語空間内の対応するコンテンツ特徴([クラス]から)の近くに配置するよう強制します。 スタイル単語ベクトルを学習した後、合成スタイルコンテンツ特徴を用いて線形分類器を訓練する。 PromptStylerは、トレーニングにイメージを必要としないにも関わらず、PACS、VLCS、OfficeHome、DomainNetの最先端技術を実現している。

In a joint vision-language space, a text feature (e.g., from "a photo of a dog") could effectively represent its relevant image features (e.g., from dog photos). Also, a recent study has demonstrated the cross-modal transferability phenomenon of this joint space. From these observations, we propose PromptStyler which simulates various distribution shifts in the joint space by synthesizing diverse styles via prompts without using any images to deal with source-free domain generalization. The proposed method learns to generate a variety of style features (from "a S* style of a") via learnable style word vectors for pseudo-words S*. To ensure that learned styles do not distort content information, we force style-content features (from "a S* style of a [class]") to be located nearby their corresponding content features (from "[class]") in the joint vision-language space. After learning style word vectors, we train a linear classifier using synthesized style-content features. PromptStyler achieves the state of the art on PACS, VLCS, OfficeHome and DomainNet, even though it does not require any images for training.
翻訳日:2023-08-16 16:09:56 公開日:2023-08-15
# Deep Bradley-Terry Rating: 比較による特性の定量化

Deep Bradley-Terry Rating: Quantifying Properties from Comparisons ( http://arxiv.org/abs/2307.13709v3 )

ライセンス: Link先を確認
Satoru Fujii(参考訳) 現実世界の多くの特性は直接観察できないので、学ぶのが難しくなります。 この課題に対処するために、先行研究は主に、トレーニングのターゲットラベルとしてグレードされた人間のスコアを用いて、それらの特性を推定することに焦点を当てている。 一方,Bradley-Terryモデルに基づく評価アルゴリズムは,試合履歴に基づく選手の競争性を評価するために広く研究されている。 本稿では,未知アイテムの特性を定量化し評価するための機械学習フレームワークであるDeep Bradley-Terry Rating (DBTR)を紹介する。 我々はBradley-Terryモデルをニューラルネットワーク構造にシームレスに統合する。 さらに,このアーキテクチャを不公平な非対称環境に一般化する。 実験により,DBTRが望ましい特性の定量化と推定に成功していることを示す。

Many properties in the real world can't be directly observed, making them difficult to learn. To deal with this challenging problem, prior works have primarily focused on estimating those properties by using graded human scores as the target label in the training. Meanwhile, rating algorithms based on the Bradley-Terry model are extensively studied to evaluate the competitiveness of players based on their match history. In this paper, we introduce the Deep Bradley-Terry Rating (DBTR), a novel machine learning framework designed to quantify and evaluate properties of unknown items. Our method seamlessly integrates the Bradley-Terry model into the neural network structure. Moreover, we generalize this architecture further to asymmetric environments with unfairness, a condition more commonly encountered in real-world settings. Through experimental analysis, we demonstrate that DBTR successfully learns to quantify and estimate desired properties.
翻訳日:2023-08-16 16:09:33 公開日:2023-08-15
# 不正確な境界箱を用いた物体検出のための空間自己蒸留

Spatial Self-Distillation for Object Detection with Inaccurate Bounding Boxes ( http://arxiv.org/abs/2307.12101v2 )

ライセンス: Link先を確認
Di Wu and Pengfei Chen and Xuehui Yu and Guorong Li and Zhenjun Han and Jianbin Jiao(参考訳) 不正確なバウンディングボックスによるオブジェクト検出は、高価なハイクオリティなアノテーションデータや、低いアノテーション品質(例えば小さなオブジェクト)の必然性によって、幅広い関心を集めている。 以前の研究は通常、カテゴリ情報に大きく依存するマルチインスタンス学習(MIL)を使用して、低品質のボックスを選択して洗練する。 これらの手法は空間情報を探索することなく物体のドリフト、グループ予測、部分支配問題に悩まされる。 本稿では,空間情報をマイニングし,不正確な箱を自己蒸留方式で精製する \textbf{spatial self-distillation based object detector (ssd-det") を提案する。 ssd-det は空間的位置自己蒸留 \textbf{(spsd)} モジュールを使用して空間情報と対話的構造を利用して空間情報とカテゴリ情報を組み合わせて高品質な提案バッグを構築する。 選択手順をさらに改善するため、SSD-DetにSpatial Identity Self-Distillation \textbf{(SISD)モジュールを導入し、空間信頼を得、最適な提案を選択する。 ノイズボックスアノテーションを用いたMS-COCOおよびVOCデータセットの実験により,本手法の有効性を確認し,最先端の性能を実現する。 コードはhttps://github.com/ucas-vg/PointTinyBenchmark/tree/SSD-Detで公開されている。

Object detection via inaccurate bounding boxes supervision has boosted a broad interest due to the expensive high-quality annotation data or the occasional inevitability of low annotation quality (\eg tiny objects). The previous works usually utilize multiple instance learning (MIL), which highly depends on category information, to select and refine a low-quality box. Those methods suffer from object drift, group prediction and part domination problems without exploring spatial information. In this paper, we heuristically propose a \textbf{Spatial Self-Distillation based Object Detector (SSD-Det)} to mine spatial information to refine the inaccurate box in a self-distillation fashion. SSD-Det utilizes a Spatial Position Self-Distillation \textbf{(SPSD)} module to exploit spatial information and an interactive structure to combine spatial information and category information, thus constructing a high-quality proposal bag. To further improve the selection procedure, a Spatial Identity Self-Distillation \textbf{(SISD)} module is introduced in SSD-Det to obtain spatial confidence to help select the best proposals. Experiments on MS-COCO and VOC datasets with noisy box annotation verify our method's effectiveness and achieve state-of-the-art performance. The code is available at https://github.com/ucas-vg/PointTinyBenchmark/tree/SSD-Det.
翻訳日:2023-08-16 16:09:18 公開日:2023-08-15
# 1次元フェルミガス中の不純物の相関除去による温度測定

Thermometry by correlated dephasing of impurities in a 1D Fermi gas ( http://arxiv.org/abs/2307.10132v2 )

ライセンス: Link先を確認
Sindre Brattegard and Mark T. Mitchison(参考訳) 我々は,超低温フェルミオン原子の共有環境に埋め込まれた2つの静的不純物量子ビットの純粋退化ダイナミクスを理論的に検討する。 我々の目標は、不純物間の浴媒介相互作用が非平衡量子温度計としての性能にどのように影響するかを理解することである。 関数決定式を用いて動的に解くことにより,ruderman-kittel-kasuya-yosida型の遅延相互作用により不純物が相関することを示した。 さらに, これらの相関関係は, 2量子ビット温度計の感度を2つの独立した不純物よりも高め, メトロロジー的な利点をもたらすことを実証する。 この増強は、低温と不純物と気体の間の弱い衝突結合の限界において最も顕著である。 この精度の利点は標準ラムゼイ干渉計を用いて利用でき、相関した初期状態を作成したり、不純物を個別に操作したり測定したりする必要もない。 また, 温度推定を行う際の相関を無視する影響を定量的に評価し, 不純物の簡易モデルから許容可能な精度を得ることができた。 以上の結果から, フェルミガス中の不純物の高次非平衡物理が示され, 超低温での温度推定の精度向上に寄与する可能性が示唆された。

We theoretically investigate the pure dephasing dynamics of two static impurity qubits embedded within a common environment of ultracold fermionic atoms, which are confined to one spatial dimension. Our goal is to understand how bath-mediated interactions between impurities affect their performance as nonequilibrium quantum thermometers. By solving the dynamics exactly using a functional determinant approach, we show that the impurities become correlated via retarded interactions of the Ruderman-Kittel-Kasuya-Yosida type. Moreover, we demonstrate that these correlations can provide a metrological advantage, enhancing the sensitivity of the two-qubit thermometer beyond that of two independent impurities. This enhancement is most prominent in the limit of low temperature and weak collisional coupling between the impurities and the gas. We show that this precision advantage can be exploited using standard Ramsey interferometry, with no need to prepare correlated initial states nor to individually manipulate or measure the impurities. We also quantitatively assess the impact of ignoring these correlations when constructing a temperature estimate, finding that acceptable precision can still be achieved from a simplified model of independent impurities. Our results demonstrate the rich nonequilibrium physics of impurities dephasing in a common Fermi gas, and may help to provide better temperature estimates at ultralow temperatures.
翻訳日:2023-08-16 16:08:53 公開日:2023-08-15
# promptmagician: テキストから画像へのインタラクティブなプロンプトエンジニアリング

PromptMagician: Interactive Prompt Engineering for Text-to-Image Creation ( http://arxiv.org/abs/2307.09036v2 )

ライセンス: Link先を確認
Yingchaojie Feng, Xingbo Wang, Kam Kwai Wong, Sijia Wang, Yuhong Lu, Minfeng Zhu, Baicheng Wang, Wei Chen(参考訳) 自然言語プロンプトに基づいた高品質な画像を生成する能力によって、生成型テキストから画像へのモデルが大衆に人気を集めている。 しかし、自然言語の複雑さとあいまいさのため、望ましい画像に対する効果的なプロンプトの開発は困難である。 本研究では,画像結果の探索と入力プロンプトの洗練を支援する視覚解析システムpromptmagicianを提案する。 システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連する)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。 インタラクティブなプロンプトリファインメントを容易にするために、prompcipalmagicianは、検索された画像と推奨キーワードのクロスモーダル埋め込みのためのマルチレベル可視化を導入し、パーソナライズされた探索のための複数の基準を指定するユーザをサポートする。 ユーザスタディとエキスパートインタビューの2つの利用シナリオは,システムの有効性とユーザビリティを実証し,迅速なエンジニアリングを促進し,生成テキスト・画像モデルの創造的サポートを改善することを示唆している。

Generative text-to-image models have gained great popularity among the public for their powerful capability to generate high-quality images based on natural language prompts. However, developing effective prompts for desired images can be challenging due to the complexity and ambiguity of natural language. This research proposes PromptMagician, a visual analysis system that helps users explore the image results and refine the input prompts. The backbone of our system is a prompt recommendation model that takes user prompts as input, retrieves similar prompt-image pairs from DiffusionDB, and identifies special (important and relevant) prompt keywords. To facilitate interactive prompt refinement, PromptMagician introduces a multi-level visualization for the cross-modal embedding of the retrieved images and recommended keywords, and supports users in specifying multiple criteria for personalized exploration. Two usage scenarios, a user study, and expert interviews demonstrate the effectiveness and usability of our system, suggesting it facilitates prompt engineering and improves the creativity support of the generative text-to-image model.
翻訳日:2023-08-16 16:08:28 公開日:2023-08-15
# 非拘束画像からの新規ビュー合成のためのクロスレイトニューラルラジアンス場

Cross-Ray Neural Radiance Fields for Novel-view Synthesis from Unconstrained Image Collections ( http://arxiv.org/abs/2307.08093v2 )

ライセンス: Link先を確認
Yifan Yang and Shuhai Zhang and Zixiong Huang and Yubing Zhang and Mingkui Tan(参考訳) NeRF(Neural Radiance Fields)は、1ピクセルあたりの1光線をサンプリングすることでシーンを描画する革命的なアプローチであり、静的なシーン画像から新規ビューの合成機能を示す。 しかし、実際には、通常、制約のないイメージコレクションからNeRFを回復する必要があります。 1)撮影時間とカメラ設定が異なるため、画像の外観が動的に変化することが多い。 2) 画像には,人間や車などの過渡的な物体が含まれ,閉塞やゴースト的アーティファクトにつながる可能性がある。 従来のアプローチでは、1つの光線を局所的に利用してピクセルの色を合成することでこれらの課題に対処しようとする。 対照的に、人間は通常、複数のピクセルにまたがる情報をグローバルに活用して外観や物体を知覚する。 本稿では,人間の知覚過程を模倣するために,複数の光線にまたがるインタラクティブな情報を利用して,画像と同じ外観のオクルージョンフリーな新規ビューを合成するクロスレイネフ(cr-nerf)を提案する。 具体的には、まず、新しいクロスレイ特徴を持つ複数の光線を表現し、次に、大域的な統計、すなわち、光線の特徴の共分散と画像の出現を融合して、その外観を復元することを提案する。 さらに,過渡オブジェクトによる閉塞を回避するために,過渡オブジェクトハンドラを提案し,過渡オブジェクトをマスキングするグリッドサンプリング戦略を提案する。 理論的には、複数の光線にまたがる相関の活用は、よりグローバルな情報収集を促進する。 さらに,cr-nerfの有効性を大規模実世界のデータセットで検証した。

Neural Radiance Fields (NeRF) is a revolutionary approach for rendering scenes by sampling a single ray per pixel and it has demonstrated impressive capabilities in novel-view synthesis from static scene images. However, in practice, we usually need to recover NeRF from unconstrained image collections, which poses two challenges: 1) the images often have dynamic changes in appearance because of different capturing time and camera settings; 2) the images may contain transient objects such as humans and cars, leading to occlusion and ghosting artifacts. Conventional approaches seek to address these challenges by locally utilizing a single ray to synthesize a color of a pixel. In contrast, humans typically perceive appearance and objects by globally utilizing information across multiple pixels. To mimic the perception process of humans, in this paper, we propose Cross-Ray NeRF (CR-NeRF) that leverages interactive information across multiple rays to synthesize occlusion-free novel views with the same appearances as the images. Specifically, to model varying appearances, we first propose to represent multiple rays with a novel cross-ray feature and then recover the appearance by fusing global statistics, i.e., feature covariance of the rays and the image appearance. Moreover, to avoid occlusion introduced by transient objects, we propose a transient objects handler and introduce a grid sampling strategy for masking out the transient objects. We theoretically find that leveraging correlation across multiple rays promotes capturing more global information. Moreover, extensive experimental results on large real-world datasets verify the effectiveness of CR-NeRF.
翻訳日:2023-08-16 16:08:06 公開日:2023-08-15
# 自動繊維配置における異常検出:データ制限による学習

Anomaly Detection in Automated Fibre Placement: Learning with Data Limitations ( http://arxiv.org/abs/2307.07893v2 )

ライセンス: Link先を確認
Assef Ghamisi, Todd Charter, Li Ji, Maxime Rivard, Gil Lund, Homayoun Najjaran(参考訳) 自動繊維配置(AFP)における従来の欠陥検出システムは、通常はエンドツーエンドの教師付き学習に依存しており、効果的なトレーニングのためにかなりの数のラベル付き欠陥サンプルを必要とする。 しかし、そのようなラベル付きデータの不足は課題となる。 この制限を克服するため,自動繊維配置における欠陥検出と局所化のための包括的枠組みを提案する。 我々の手法は教師なしのディープラーニングと古典的なコンピュータビジョンアルゴリズムを組み合わせることで、ラベル付きデータや欠陥サンプルの製造の必要性を解消する。 トレーニングのために複合部品のイメージを少なくしながら、様々な表面課題を効率的に検出する。 本フレームワークは,AFP固有の対称性を活用してデータセットを拡張する,革新的なサンプル抽出手法である。 繊維レイアップ面の深度マップを入力し,各コンポジットストリップ(トウ)に整列した局所試料を抽出する。 これらのサンプルはオートエンコーダを通じて処理され、正常なサンプルに基づいて正確な再構成を行い、再構成エラーによって異常をハイライトする。 集約された値は、洞察力のある可視化のための異常マップを形成する。 このフレームワークは、このマップでブロブ検出を使用して、製造欠陥を見つける。 実験の結果,画像数が少ないオートエンコーダを訓練しても,良好な検出精度を示し,欠陥箇所を正確に同定できることがわかった。 我々のフレームワークは既存のメソッドに匹敵するパフォーマンスを示し、欠陥の広範なラベル付きデータセットに頼ることなく、あらゆるタイプの異常を検出する利点を提供します。

Conventional defect detection systems in Automated Fibre Placement (AFP) typically rely on end-to-end supervised learning, necessitating a substantial number of labelled defective samples for effective training. However, the scarcity of such labelled data poses a challenge. To overcome this limitation, we present a comprehensive framework for defect detection and localization in Automated Fibre Placement. Our approach combines unsupervised deep learning and classical computer vision algorithms, eliminating the need for labelled data or manufacturing defect samples. It efficiently detects various surface issues while requiring fewer images of composite parts for training. Our framework employs an innovative sample extraction method leveraging AFP's inherent symmetry to expand the dataset. By inputting a depth map of the fibre layup surface, we extract local samples aligned with each composite strip (tow). These samples are processed through an autoencoder, trained on normal samples for precise reconstructions, highlighting anomalies through reconstruction errors. Aggregated values form an anomaly map for insightful visualization. The framework employs blob detection on this map to locate manufacturing defects. The experimental findings reveal that despite training the autoencoder with a limited number of images, our proposed method exhibits satisfactory detection accuracy and accurately identifies defect locations. Our framework demonstrates comparable performance to existing methods, while also offering the advantage of detecting all types of anomalies without relying on an extensive labelled dataset of defects.
翻訳日:2023-08-16 16:07:39 公開日:2023-08-15
# exposurediffusion:低光度画像強調のための露光学習

ExposureDiffusion: Learning to Expose for Low-light Image Enhancement ( http://arxiv.org/abs/2307.07710v2 )

ライセンス: Link先を確認
Yufei Wang, Yi Yu, Wenhan Yang, Lanqing Guo, Lap-Pui Chau, Alex C. Kot, Bihan Wen(参考訳) 以前の生画像に基づく低照度画像強調手法は、主にフィードフォワードニューラルネットワークに頼り、低照度から通常露光画像への決定論的マッピングを学習した。 しかし、彼らは重要な分布情報の取得に失敗し、視覚的に望ましくない結果をもたらした。 本研究は拡散モデルと物理系露出モデルとをシームレスに統合することでこの問題に対処した。 ガウス音を発生させるバニラ拡散モデルと異なり, 物理系露出モデルでは, 純粋な雑音ではなく, ノイズ画像から直接復元を行うことができる。 そこで本手法は,バニラ拡散モデルと比較して性能と推論時間を大幅に改善する。 異なる中間段階の利点をフル活用するために, 中間結果が既に十分に提示されている場合に, 繰り返し改良の副作用を効果的に除去する適応残留層を提案する。 提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。 提案するフレームワークは、実際のペア付きデータセット、実/合成ノイズモデル、異なるバックボーンネットワークと互換性がある。 提案手法は,様々な公開ベンチマークで評価し,異なる露光モデルとバックボーンを用いて一貫した改善を行い,有望な結果を得た。 また,提案手法は,パラメータの少ない大きなフィードフォワードニューラルモデルよりも,アンセンシング増幅率の一般化能力と優れた性能を実現する。

Previous raw image-based low-light image enhancement methods predominantly relied on feed-forward neural networks to learn deterministic mappings from low-light to normally-exposed images. However, they failed to capture critical distribution information, leading to visually undesirable results. This work addresses the issue by seamlessly integrating a diffusion model with a physics-based exposure model. Different from a vanilla diffusion model that has to perform Gaussian denoising, with the injected physics-based exposure model, our restoration process can directly start from a noisy image instead of pure noise. As such, our method obtains significantly improved performance and reduced inference time compared with vanilla diffusion models. To make full use of the advantages of different intermediate steps, we further propose an adaptive residual layer that effectively screens out the side-effect in the iterative refinement when the intermediate results have been already well-exposed. The proposed framework can work with both real-paired datasets, SOTA noise models, and different backbone networks. Note that, the proposed framework is compatible with real-paired datasets, real/synthetic noise models, and different backbone networks. We evaluate the proposed method on various public benchmarks, achieving promising results with consistent improvements using different exposure models and backbones. Besides, the proposed method achieves better generalization capacity for unseen amplifying ratios and better performance than a larger feedforward neural model when few parameters are adopted.
翻訳日:2023-08-16 16:07:16 公開日:2023-08-15
# Quantum Image Denoising: Boltzmann Machines、QUBO、Quantum Annealingによるフレームワーク

Quantum Image Denoising: A Framework via Boltzmann Machines, QUBO, and Quantum Annealing ( http://arxiv.org/abs/2307.06542v2 )

ライセンス: Link先を確認
Phillip Kerger and Ryoji Miyazaki(参考訳) 本稿では,二次的非拘束型二分最適化(qubo)形式におけるデノジング目標を導入する制限ボルツマンマシン(rbms)による二分画像デノジングの枠組みについて検討し,量子アニーリングによく適合する。 訓練されたRBMが学習した分布と、ノイズ画像から導出するペナルティ項とのバランスをとることにより、妄想目的を達成する。 対象分布が十分近似されていると仮定したペナルティパラメータの統計的最適選択を導出し、さらにその理想主義的な仮定にロバストな方法を実現するために経験的に支援された修正を提案する。 また,本手法により得られた復号化画像は,ノイズのない画像よりもノイズのない画像に近いことが期待される。 モデルをイメージ記述モデルとしてフレーム化するが、任意のバイナリデータに適用できる。 量子アニーラの実装にはQUBOの定式化が適しているため、D-Waveアドバンテージマシン上でモデルをテストし、古典的ヒューリスティックによりQUBOの解を近似することで、現在の量子アニーラには大きすぎるデータをテストする。

We investigate a framework for binary image denoising via restricted Boltzmann machines (RBMs) that introduces a denoising objective in quadratic unconstrained binary optimization (QUBO) form and is well-suited for quantum annealing. The denoising objective is attained by balancing the distribution learned by a trained RBM with a penalty term for derivations from the noisy image. We derive the statistically optimal choice of the penalty parameter assuming the target distribution has been well-approximated, and further suggest an empirically supported modification to make the method robust to that idealistic assumption. We also show under additional assumptions that the denoised images attained by our method are, in expectation, strictly closer to the noise-free images than the noisy images are. While we frame the model as an image denoising model, it can be applied to any binary data. As the QUBO formulation is well-suited for implementation on quantum annealers, we test the model on a D-Wave Advantage machine, and also test on data too large for current quantum annealers by approximating QUBO solutions through classical heuristics.
翻訳日:2023-08-16 16:06:50 公開日:2023-08-15
# Stack More Layers:低ランク更新によるハイランクトレーニング

Stack More Layers Differently: High-Rank Training Through Low-Rank Updates ( http://arxiv.org/abs/2307.05695v3 )

ライセンス: Link先を確認
Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky(参考訳) スケールの優位性と有効性にもかかわらず、数十億のパラメータを持つ大規模なネットワークは、過度にパラメータ化されたモデルをトレーニングする必要性を十分に理解しておらず、代替アプローチは必ずしも高性能モデルのトレーニングを安くするとは限らない。 本稿では,大規模ニューラルネットワークのトレーニングのための代替手法として,低ランクトレーニング手法を検討する。 高速ネットワークのトレーニングに低ランク更新を利用するReLoRAという新しい手法を提案する。 最大350mのパラメータを持つプレトレーニングトランス言語モデルにreloraを適用し,通常のニューラルネットワークトレーニングと同等の性能を示す。 さらに,ReLoRAの効率はモデルサイズとともに向上し,マルチビリオンパラメータネットワークを効率的にトレーニングする上で有望なアプローチとなる。 その結果,低ランクトレーニング技術の可能性と,その拡張法への影響が明らかになった。

Despite the dominance and effectiveness of scaling, resulting in large networks with hundreds of billions of parameters, the necessity to train overparametrized models remains poorly understood, and alternative approaches do not necessarily make it cheaper to train high-performance models. In this paper, we explore low-rank training techniques as an alternative approach to training large neural networks. We introduce a novel method called ReLoRA, which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to pre-training transformer language models with up to 350M parameters and demonstrate comparable performance to regular neural network training. Furthermore, we observe that the efficiency of ReLoRA increases with model size, making it a promising approach for training multi-billion-parameter networks efficiently. Our findings shed light on the potential of low-rank training techniques and their implications for scaling laws.
翻訳日:2023-08-16 16:06:24 公開日:2023-08-15
# CTP-Net:Document Image Forgery Localizationのための文字テクスチャ知覚ネットワーク

CTP-Net: Character Texture Perception Network for Document Image Forgery Localization ( http://arxiv.org/abs/2308.02158v2 )

ライセンス: Link先を確認
Xin Liao and Siliang Chen and Jiaxin Chen and Tianyi Wang and Xiehua Li(参考訳) 近年,情報技術の進歩により,文書画像はソーシャルネットワーク上で広く普及している。 強力な画像編集ツールの助けを借りて、ドキュメントイメージは目に見える操作トレースを残すことなく簡単に偽造され、悪意のある使用のために重要な情報が偽造された場合、深刻な問題を引き起こす。 したがって、文書画像鑑定の研究は、さらに探究する価値がある。 本稿では,文書画像中の偽領域をローカライズする文字テクスチャ知覚ネットワーク(CTP-Net)を提案する。 具体的には、文書画像のセマンティクスを持つ文字は非常に脆弱であるため、偽のトレースをキャプチャすることが、偽の領域をローカライズする鍵となる。 我々は,文字認識に基づく文字テクスチャストリーム(CTS)を設計し,文書画像の必須成分であるテキスト領域の特徴を捉える。 一方、文書画像全体のテクスチャ特徴は、画像テクスチャストリーム(ITS)によって活用される。 CTSとITSから抽出された特徴を組み合わせることで、CTP-Netは文書画像からより微妙な偽の痕跡を明らかにすることができる。 さらに,偽文書画像の欠如による課題を克服するために,Fake Chinese Trademark dataset(FCTM)の構築に使用されるデータ生成戦略を設計する。 異なるデータセット上での実験結果から,提案するctp-netは,文書画像中の複数スケールの偽造領域をローカライズでき,処理後の操作が適用された場合でも,最先端の偽造ローカライズ手法よりも優れることが示された。

Due to the progression of information technology in recent years, document images have been widely disseminated on social networks. With the help of powerful image editing tools, document images are easily forged without leaving visible manipulation traces, which leads to severe issues if significant information is falsified for malicious use. Therefore, the research of document image forensics is worth further exploring. In this paper, we propose a Character Texture Perception Network (CTP-Net) to localize the forged regions in document images. Specifically, considering the characters with semantics in a document image are highly vulnerable, capturing the forgery traces is the key to localize the forged regions. We design a Character Texture Stream (CTS) based on optical character recognition to capture features of text areas that are essential components of a document image. Meanwhile, texture features of the whole document image are exploited by an Image Texture Stream (ITS). Combining the features extracted from the CTS and the ITS, the CTP-Net can reveal more subtle forgery traces from document images. Moreover, to overcome the challenge caused by the lack of fake document images, we design a data generation strategy that is utilized to construct a Fake Chinese Trademark dataset (FCTM). Experimental results on different datasets demonstrate that the proposed CTP-Net is able to localize multi-scale forged areas in document images, and outperform the state-of-the-art forgery localization methods, even though post-processing operations are applied.
翻訳日:2023-08-16 16:01:00 公開日:2023-08-15
# LaFiCMIL: 関連性のある複数インスタンス学習の観点からの大規模ファイル分類の再考

LaFiCMIL: Rethinking Large File Classification from the Perspective of Correlated Multiple Instance Learning ( http://arxiv.org/abs/2308.01413v2 )

ライセンス: Link先を確認
Tiezhu Sun, Weiguo Pian, Nadia Daoudi, Kevin Allix, Tegawend\'e F. Bissyand\'e, Jacques Klein(参考訳) BERTのようなトランスフォーマーベースのモデルは様々な言語タスクに革命をもたらしたが、入力限界(例:512トークン)のために大きなファイル分類に苦戦している。 この制限を緩和しようとするいくつかの試みにもかかわらず、入力ファイルから部分的な必須情報のみを抽出できるため、ベンチマークデータセット全体で一貫して優れている方法はない。 さらに、異なるタイプの大きなファイルの様々な特性に適応できない。 本研究では,複数インスタンス学習の相関の観点から,この問題に対処する。 提案手法であるLaFiCMILは、自然言語処理、プログラミング言語処理、Android分析など、さまざまな領域にまたがる、バイナリ、マルチクラス、マルチラベルの分類タスクをカバーする様々な大規模なファイル分類タスクに適用可能なフレームワークである。 有効性を評価するために,Long Document Classification, Code Defect Detection, Android Malware Detectionの8つのベンチマークデータセットを用いた。 bertファミリーモデルを特徴抽出器として活用し,laficmilがすべてのベンチマークデータセットで新たな最先端性能を実現することを実証した。 これはBERTを最大20Kトークンまでスケールアップし、32Gのメモリを持つ単一のTesla V-100 GPUで動作する能力に起因する。

Transformer-based models, such as BERT, have revolutionized various language tasks, but still struggle with large file classification due to their input limit (e.g., 512 tokens). Despite several attempts to alleviate this limitation, no method consistently excels across all benchmark datasets, primarily because they can only extract partial essential information from the input file. Additionally, they fail to adapt to the varied properties of different types of large files. In this work, we tackle this problem from the perspective of correlated multiple instance learning. The proposed approach, LaFiCMIL, serves as a versatile framework applicable to various large file classification tasks covering binary, multi-class, and multi-label classification tasks, spanning various domains including Natural Language Processing, Programming Language Processing, and Android Analysis. To evaluate its effectiveness, we employ eight benchmark datasets pertaining to Long Document Classification, Code Defect Detection, and Android Malware Detection. Leveraging BERT-family models as feature extractors, our experimental results demonstrate that LaFiCMIL achieves new state-of-the-art performance across all benchmark datasets. This is largely attributable to its capability of scaling BERT up to nearly 20K tokens, running on a single Tesla V-100 GPU with 32G of memory.
翻訳日:2023-08-16 16:00:33 公開日:2023-08-15
# 有限要素問題における線形系の量子緩和法

Quantum Relaxation Method for Linear Systems in Finite Element Problems ( http://arxiv.org/abs/2308.01377v2 )

ライセンス: Link先を確認
Osama Muhammad Raisuddin, Suvranu De(参考訳) ゲートベースの量子コンピューティングのための量子線形系アルゴリズム(QLSA)は、方程式の線形系に対する指数的なスピードアップを提供することができる。 有限要素の離散化から生じる方程式系における問題サイズの条件数の増加は、高速化のためのqlsasの直接適用を阻害する。 さらにQLSAは、近似ソリューションや初期推測を使って改善されたソリューションを出力することはできない。 本稿では,線形定常反復をより大きなブロック線形系に埋め込み,ゲート型量子コンピュータの反復的アプローチとして,線形系の量子緩和(qrls)を提案する。 ブロック線形系は正定値であり、その条件数は元の系のサイズや条件数に依存しない反復数と線形にスケールし、有限要素問題の条件番号を効果的に管理する。 このシステムは、QLSAの最先端量子信号処理(QSP)変種を用いて、有限要素問題の実用的な反復解を可能にする。 正定値QLSAs l の繰り返しは O(\sqrt{l}) 時間で実行でき、これは古典的なコンピュータでは達成できない。 反復の複雑さは、o(\log(n)) qubitsとシステムサイズによらず、解時間スケーリングが量子ハードウェア上の反復有限要素解の新しいパラダイムを開く指数関数的改善であるために、古典的なアーキテクチャと比べて好適にスケールする。

Quantum linear system algorithms (QLSAs) for gate-based quantum computing can provide exponential speedups for linear systems of equations. The growth of the condition number with problem size for a system of equations arising from a finite element discretization inhibits the direct application of QLSAs for a speedup. Furthermore, QLSAs cannot use an approximate solution or initial guess to output an improved solution. Here, we present Quantum Relaxation for Linear System (qRLS), as an iterative approach for gate-based quantum computers by embedding linear stationary iterations into a larger block linear system. The block linear system is positive-definite and its condition number scales linearly with the number of iterations independent of the size and condition number of the original system, effectively managing the condition number of the finite element problem. The well-conditioned system enables a practical iterative solution of finite element problems using the state-of-the-art Quantum Signal Processing (QSP) variant of QLSAs. Using positive-definite QLSAs l iterations can be performed in O(\sqrt{l}) time, which is unattainable on classical computers. The complexity of the iterations scales favorably compared to classical architectures due to solution time scaling independent of system size with O(\log(N)) qubits, an exponential improvement opening a new paradigm for iterative finite element solutions on quantum hardware.
翻訳日:2023-08-16 16:00:08 公開日:2023-08-15
# tirtha - 画像のクラウドソースと遺産の3dモデル作成のための自動化プラットフォーム

Tirtha -- An Automated Platform to Crowdsource Images and Create 3D Models of Heritage Sites ( http://arxiv.org/abs/2308.01246v2 )

ライセンス: Link先を確認
Jyotirmaya Shivottam and Subhankar Mishra(参考訳) 文化遺産(ch)のデジタル保存は、自然災害や人間の活動による被害から保護するために重要である。 CHサイトの3Dモデルの作成は、コンピュータビジョンとフォトグラムメトリーの進歩により、デジタル保存の一般的な方法となっている。 しかし、このプロセスは時間がかかり、高価であり、通常は特別な設備と専門知識を必要とし、資源に制限された発展途上国で課題を提起する。 さらに、3Dモデルのためのオープンリポジトリがないことは、研究と彼らの遺産への公的な関与を妨げる。 そこで我々は,chサイトの画像をクラウドソーシングして3dモデルを作成するためのwebプラットフォームであるtirthaを提案する。 Tirthaは最先端のStructure from Motion (SfM)とMulti-View Stereo (MVS)技術を利用している。 モジュラーで拡張可能で費用対効果があり、フォトグラメトリーの進歩に伴って新しい技術が取り入れられる。 Tirthaはhttps://tirtha.niser.ac.inのWebインターフェースを通じてアクセスでき、オンプレミスでもクラウド環境でもデプロイできる。 本研究では,インド,オディーシャの寺院の3dモデルを作成し,クラウドソーシング画像を用いてパイプラインの有効性を実証する。 これらのモデルは、tirthaのウェブサイトで閲覧、対話、ダウンロードが可能である。 本研究の目的は,コンピュータビジョン,遺産保存,関連ドメイン研究のためのクラウドソース画像と3D再構成のデータセットを提供することである。 全体として、Tirthaは、主に資源に制限された発展途上国で、デジタル保存の民主化に向けた一歩だ。

Digital preservation of Cultural Heritage (CH) sites is crucial to protect them against damage from natural disasters or human activities. Creating 3D models of CH sites has become a popular method of digital preservation thanks to advancements in computer vision and photogrammetry. However, the process is time-consuming, expensive, and typically requires specialized equipment and expertise, posing challenges in resource-limited developing countries. Additionally, the lack of an open repository for 3D models hinders research and public engagement with their heritage. To address these issues, we propose Tirtha, a web platform for crowdsourcing images of CH sites and creating their 3D models. Tirtha utilizes state-of-the-art Structure from Motion (SfM) and Multi-View Stereo (MVS) techniques. It is modular, extensible and cost-effective, allowing for the incorporation of new techniques as photogrammetry advances. Tirtha is accessible through a web interface at https://tirtha.niser.ac.in and can be deployed on-premise or in a cloud environment. In our case studies, we demonstrate the pipeline's effectiveness by creating 3D models of temples in Odisha, India, using crowdsourced images. These models are available for viewing, interaction, and download on the Tirtha website. Our work aims to provide a dataset of crowdsourced images and 3D reconstructions for research in computer vision, heritage conservation, and related domains. Overall, Tirtha is a step towards democratizing digital preservation, primarily in resource-limited developing countries.
翻訳日:2023-08-16 15:59:44 公開日:2023-08-15
# 医用画像における不確かさ定量化のための潜在密度セグメンテーションモデルの検討と改善

Investigating and Improving Latent Density Segmentation Models for Aleatoric Uncertainty Quantification in Medical Imaging ( http://arxiv.org/abs/2307.16694v2 )

ライセンス: Link先を確認
M. M. Amaan Valiuddin, Christiaan G. A. Viviers, Ruud J. G. van Sloun, Peter H. N. de With, and Fons van der Sommen(参考訳) センサノイズやオクルージョンのようなデータの不確実性は、画像に既約曖昧性を導入し、その結果、様々な、しかしもっとも妥当なセマンティック仮説をもたらす。 機械学習では、この曖昧さは一般にアレタリック不確実性と呼ばれる。 潜在密度モデルは、画像分割におけるこの問題に対処するために利用できる。 最も一般的なアプローチは確率的u-net(pu-net)で、潜在正規密度を使って条件付きデータログライクな証拠を低限界に最適化する。 本研究ではPU-Net潜伏空間が極めて不均質であることを示す。 その結果, 勾配降下の有効性が抑制され, 潜在空間試料の局在に極めて敏感となり, 予測の欠陥が生じる。 そこで本研究では,Sinkhorn PU-Net (SPU-Net) を提案する。Sinkhorn Divergence を用いて,すべての潜伏次元の均一性を向上し,勾配の更新とモデルロバストネスを効果的に向上する。 以上の結果から,SPU-Netは,様々な臨床セグメント化問題の公開データセットにこれを適用することで,ハンガリー・マーチ計量の確率的セグメンテーションに先行する潜在変数モデルと比較して,最大11%の性能向上を達成できた。 その結果,均質な潜在空間を奨励することで,医用画像分割の潜在密度モデリングを著しく改善できることが示唆された。

Data uncertainties, such as sensor noise or occlusions, can introduce irreducible ambiguities in images, which result in varying, yet plausible, semantic hypotheses. In Machine Learning, this ambiguity is commonly referred to as aleatoric uncertainty. Latent density models can be utilized to address this problem in image segmentation. The most popular approach is the Probabilistic U-Net (PU-Net), which uses latent Normal densities to optimize the conditional data log-likelihood Evidence Lower Bound. In this work, we demonstrate that the PU- Net latent space is severely inhomogenous. As a result, the effectiveness of gradient descent is inhibited and the model becomes extremely sensitive to the localization of the latent space samples, resulting in defective predictions. To address this, we present the Sinkhorn PU-Net (SPU-Net), which uses the Sinkhorn Divergence to promote homogeneity across all latent dimensions, effectively improving gradient-descent updates and model robustness. Our results show that by applying this on public datasets of various clinical segmentation problems, the SPU-Net receives up to 11% performance gains compared against preceding latent variable models for probabilistic segmentation on the Hungarian-Matched metric. The results indicate that by encouraging a homogeneous latent space, one can significantly improve latent density modeling for medical image segmentation.
翻訳日:2023-08-16 15:58:57 公開日:2023-08-15
# samflow: segment anythingモデルによる光フローのフラグメンテーションの排除

SAMFlow: Eliminating Any Fragmentation in Optical Flow with Segment Anything Model ( http://arxiv.org/abs/2307.16586v2 )

ライセンス: Link先を確認
Shili Zhou, Ruian He, Weimin Tan and Bo Yan(参考訳) 光フロー推定は、2つのフレーム間の2次元密度運動場を求めることを目的としている。 モデル構造とトレーニングデータセットの制限のため、既存の手法はしばしば局所的な手がかりに頼りすぎ、オブジェクトの整合性を無視し、断片化された動き推定をもたらす。 理論解析により,事前学習された大視野モデルが光フロー推定に有用であることを見出し,最近有名になったsegment anything model (sam) が,フラグメンテーション問題を解決するのに適した完全物体を分割する強力な能力を示していることに気付いた。 そこで我々は,凍結したSAMイメージエンコーダをFlowFormerに埋め込んでオブジェクト認識を強化する方法を提案する。 本稿では,光フロー推定などの非セグメント化タスクにおいてSAMを奥行き利用することの課題に対処するため,光フローコンテキストエンコーダとSAMエンコーダを融合するContext Fusion Moduleと,光フロータスクのSAM特徴をLearted Task-Specific Embeddingで適応させるContext Adaption Moduleを含む光フロータスク特化適応スキームを提案する。 提案したSAMFlowモデルは,SintelおよびKITTI-15トレーニングセットで0.86/2.10クリーン/ファイナルEPEと3.55/12.32EPE/F1-allに達し,Flowformerの8.5%/9.9%,13.2%/16.3%を上回った。 さらに,本モデルでは,Sintel と KITTI-15 ベンチマークの最先端性能を達成し,Sintel のクリーンパスにおける2フレーム手法の上位にランクインした。

Optical Flow Estimation aims to find the 2D dense motion field between two frames. Due to the limitation of model structures and training datasets, existing methods often rely too much on local clues and ignore the integrity of objects, resulting in fragmented motion estimation. Through theoretical analysis, we find the pre-trained large vision models are helpful in optical flow estimation, and we notice that the recently famous Segment Anything Model (SAM) demonstrates a strong ability to segment complete objects, which is suitable for solving the fragmentation problem. We thus propose a solution to embed the frozen SAM image encoder into FlowFormer to enhance object perception. To address the challenge of in-depth utilizing SAM in non-segmentation tasks like optical flow estimation, we propose an Optical Flow Task-Specific Adaption scheme, including a Context Fusion Module to fuse the SAM encoder with the optical flow context encoder, and a Context Adaption Module to adapt the SAM features for optical flow task with Learned Task-Specific Embedding. Our proposed SAMFlow model reaches 0.86/2.10 clean/final EPE and 3.55/12.32 EPE/F1-all on Sintel and KITTI-15 training set, surpassing Flowformer by 8.5%/9.9% and 13.2%/16.3%. Furthermore, our model achieves state-of-the-art performance on the Sintel and KITTI-15 benchmarks, ranking #1 among all two-frame methods on Sintel clean pass.
翻訳日:2023-08-16 15:58:30 公開日:2023-08-15
# XMem++: 注釈付きフレームからのプロダクションレベルのビデオセグメンテーション

XMem++: Production-level Video Segmentation From Few Annotated Frames ( http://arxiv.org/abs/2307.15958v2 )

ライセンス: Link先を確認
Maksym Bekuzarov, Ariana Bermudez, Joon-Young Lee, Hao Li(参考訳) ユーザ誘導ビデオセグメンテーションの進歩にもかかわらず、高度に複雑なシーンを一貫して抽出することは、特に生産において労働集約的な作業である。 フレームの大多数が注釈を付ける必要があることは珍しくない。 本稿では,既存のメモリベースモデルを改善する,新しい半教師付きビデオオブジェクトセグメンテーション(SSVOS)モデルであるXMem++を提案する。 既存の手法の多くは単一フレームアノテーションに焦点をあてるが,本手法では同一オブジェクトや領域の外観が異なる複数のユーザ選択フレームを効果的に扱うことができる。 本手法はフレームアノテーションの必要な数を低く保ちつつ,一貫性の高い結果を抽出することができる。 さらに,アノテーションの次の最適なフレームを計算する,反復的かつ注意に基づくフレーム提案機構を導入する。 提案手法はリアルタイムであり,各ユーザの入力後の再学習を必要としない。 また、新しいデータセットであるpumavosも導入しています。 我々は,既存の手法よりもフレームアノテーションを著しく少なくしながら,難易度(部分的・複数クラス)のセグメンテーションシナリオと長ビデオ上でのSOTA性能を実証する。 プロジェクトページ: https://max810.github.io/xmem2-project-page/

Despite advancements in user-guided video segmentation, extracting complex objects consistently for highly complex scenes is still a labor-intensive task, especially for production. It is not uncommon that a majority of frames need to be annotated. We introduce a novel semi-supervised video object segmentation (SSVOS) model, XMem++, that improves existing memory-based models, with a permanent memory module. Most existing methods focus on single frame annotations, while our approach can effectively handle multiple user-selected frames with varying appearances of the same object or region. Our method can extract highly consistent results while keeping the required number of frame annotations low. We further introduce an iterative and attention-based frame suggestion mechanism, which computes the next best frame for annotation. Our method is real-time and does not require retraining after each user input. We also introduce a new dataset, PUMaVOS, which covers new challenging use cases not found in previous benchmarks. We demonstrate SOTA performance on challenging (partial and multi-class) segmentation scenarios as well as long videos, while ensuring significantly fewer frame annotations than any existing method. Project page: https://max810.github.io/xmem2-project-page/
翻訳日:2023-08-16 15:57:55 公開日:2023-08-15
# 実データ生成による教師付きホログラフィ学習

Supervised Homography Learning with Realistic Dataset Generation ( http://arxiv.org/abs/2307.15353v2 )

ライセンス: Link先を確認
Hai Jiang, Haipeng Li, Songchen Han, Haoqiang Fan, Bing Zeng, Shuaicheng Liu(参考訳) 本稿では,生成フェーズとトレーニングフェーズという2つのフェーズからなる反復的なフレームワークを提案し,現実的なトレーニングデータを生成し,教師付きホモグラフィネットワークを生成する。 生成段階では、ラベルなしのイメージペアが与えられたとき、事前に見積もられた支配的平面マスクとペアのホモグラフィと、新たなラベル付きトレーニングペアをリアルな動きで生成するために基底真理として機能する別のサンプル化されたホモグラフィを利用する。 トレーニングフェーズでは、生成されたデータは、コンテンツ一貫性モジュールと品質評価モジュールを介してトレーニングデータを洗練した教師付きホモグラフィネットワークのトレーニングに使用される。 イテレーションが完了すると、トレーニングされたネットワークは、事前に見積もられたホモグラフィを更新するために、次のデータ生成フェーズで使用される。 このような反復戦略により、データセットの品質とネットワークの性能を徐々に同時に改善することができる。 実験の結果,本手法は最先端の性能を実現し,生成したデータセットに基づいて既存の教師あり手法も改善できることがわかった。 コードとデータセットはhttps://github.com/JianghaiSCU/RealSHで入手できる。

In this paper, we propose an iterative framework, which consists of two phases: a generation phase and a training phase, to generate realistic training data and yield a supervised homography network. In the generation phase, given an unlabeled image pair, we utilize the pre-estimated dominant plane masks and homography of the pair, along with another sampled homography that serves as ground truth to generate a new labeled training pair with realistic motion. In the training phase, the generated data is used to train the supervised homography network, in which the training data is refined via a content consistency module and a quality assessment module. Once an iteration is finished, the trained network is used in the next data generation phase to update the pre-estimated homography. Through such an iterative strategy, the quality of the dataset and the performance of the network can be gradually and simultaneously improved. Experimental results show that our method achieves state-of-the-art performance and existing supervised methods can be also improved based on the generated dataset. Code and dataset are available at https://github.com/JianghaiSCU/RealSH.
翻訳日:2023-08-16 15:57:34 公開日:2023-08-15
# DIG In:地理多様性指標を用いた画像生成の差異評価

DIG In: Evaluating Disparities in Image Generations with Indicators for Geographic Diversity ( http://arxiv.org/abs/2308.06198v2 )

ライセンス: Link先を確認
Melissa Hall, Candace Ross, Adina Williams, Nicolas Carion, Michal Drozdzal, Adriana Romero Soriano(参考訳) 最近のテキストから画像への生成システムによって達成された前例のないフォトリアリスティックな結果と、プラグイン・アンド・プレイによるコンテンツ作成ソリューションとしての利用の増加は、彼らの潜在的なバイアスを理解するのに不可欠である。 本研究では,世界からオブジェクトを生成するように促されたテキスト・ツー・イメージ生成システムの現実性,多様性,迅速な生成一貫性を評価するための3つの指標を提案する。 我々の指標は、地理的格差の自動的かつ効率的なベンチマークを可能にすることで、これらのシステムの広範な影響の質的分析を補完する。 提案した指標を用いて,現在最先端のビジュアルコンテンツ生成システムにおける潜在的な地理的バイアスを分析し,(1) モデルがアフリカや西アジアに向けて欧州よりも現実性や世代多様性が低いこと,(2) 地理的情報によって生成した画像の一貫性と多様性の促進にコストがかかること,(3) モデルが他のオブジェクトよりも領域レベルの格差が大きいこと,などを見出した。 おそらく最も興味深いのは、画像生成品質の進歩は、現実世界の地理的表現のコストがかかることを示唆している。 包括的評価は、視覚コンテンツ制作のポジティブな体験を確保するための重要なステップである。

The unprecedented photorealistic results achieved by recent text-to-image generative systems and their increasing use as plug-and-play content creation solutions make it crucial to understand their potential biases. In this work, we introduce three indicators to evaluate the realism, diversity and prompt-generation consistency of text-to-image generative systems when prompted to generate objects from across the world. Our indicators complement qualitative analysis of the broader impact of such systems by enabling automatic and efficient benchmarking of geographic disparities, an important step towards building responsible visual content creation systems. We use our proposed indicators to analyze potential geographic biases in state-of-the-art visual content creation systems and find that: (1) models have less realism and diversity of generations when prompting for Africa and West Asia than Europe, (2) prompting with geographic information comes at a cost to prompt-consistency and diversity of generated images, and (3) models exhibit more region-level disparities for some objects than others. Perhaps most interestingly, our indicators suggest that progress in image generation quality has come at the cost of real-world geographic representation. Our comprehensive evaluation constitutes a crucial step towards ensuring a positive experience of visual content creation for everyone.
翻訳日:2023-08-16 15:49:40 公開日:2023-08-15
# RIGID: GANインバージョンとリアルフェイスビデオの編集を繰り返す

RIGID: Recurrent GAN Inversion and Editing of Real Face Videos ( http://arxiv.org/abs/2308.06097v2 )

ライセンス: Link先を確認
Yangyang Xu, Shengfeng He, Kwan-Yee K. Wong, Ping Luo(参考訳) GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。 しかし、ビデオフレームを個別に反転させる既存の手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。 本稿では,実映像の時間的コヒーレントなganインバージョンと顔編集を明示的かつ同時に実施するための統一的リカレントフレームワーク, \textbf{r}ecurrent v\textbf{i}deo \textbf{g}an \textbf{i}nversionおよびe\textbf{d}iting(rigid)を提案する。 提案手法は,現在フレームと前フレームの時間関係を3つの側面からモデル化する。 忠実な実映像再構成を実現するため,まず時間補償潜時符号を学習し,逆の忠実度と一貫性を最大化する。 第2に,潜時空間から分離できる高周波領域に非一貫性雑音が存在することを観測する。 第3に,属性操作後に不整合を取り除くために,任意のフレームが隣接するフレームの直接合成でなければならないようなフレーム構成制約を提案する。 統一されたフレームワークは、入力フレーム間の固有の一貫性をエンドツーエンドで学習するので、特定の属性に依存せず、再トレーニングすることなく同じビデオの任意の編集に適用することができる。 大規模な実験により、RIGIDはインバージョンタスクと編集タスクの両方において、定性的かつ定量的に最先端の手法より優れていることが示された。 成果物は \url{https://cnnlstm.github.io/RIGID} で確認できる。

GAN inversion is indispensable for applying the powerful editability of GAN to real images. However, existing methods invert video frames individually often leading to undesired inconsistent results over time. In this paper, we propose a unified recurrent framework, named \textbf{R}ecurrent v\textbf{I}deo \textbf{G}AN \textbf{I}nversion and e\textbf{D}iting (RIGID), to explicitly and simultaneously enforce temporally coherent GAN inversion and facial editing of real videos. Our approach models the temporal relations between current and previous frames from three aspects. To enable a faithful real video reconstruction, we first maximize the inversion fidelity and consistency by learning a temporal compensated latent code. Second, we observe incoherent noises lie in the high-frequency domain that can be disentangled from the latent space. Third, to remove the inconsistency after attribute manipulation, we propose an \textit{in-between frame composition constraint} such that the arbitrary frame must be a direct composite of its neighboring frames. Our unified framework learns the inherent coherence between input frames in an end-to-end manner, and therefore it is agnostic to a specific attribute and can be applied to arbitrary editing of the same video without re-training. Extensive experiments demonstrate that RIGID outperforms state-of-the-art methods qualitatively and quantitatively in both inversion and editing tasks. The deliverables can be found in \url{https://cnnlstm.github.io/RIGID}
翻訳日:2023-08-16 15:49:15 公開日:2023-08-15
# 真空分岐、ダークエネルギー、ダークマター

Vacuum Branching, Dark Energy, Dark Matter ( http://arxiv.org/abs/2308.05569v3 )

ライセンス: Link先を確認
Don Weingarten(参考訳) エヴェレット・デウィットによる量子力学の多世界解釈から始まり、量子系の状態ベクトルが任意の瞬間に直交枝に分裂し、それぞれがほぼ古典的な振る舞いを示すという一連の提案がなされた。 本研究の初期のバージョンでは,分枝分解における分枝の平均二乗量子複雑性の測定値の最小値を求めることで,状態ベクトルの分枝への分解を提案した。 特定のローレンツフレームに関して、低複雑性状態から始まるシステムに対して、分岐は、各分岐が次々に分裂してさらにサブブランチに繰り返し発生し、その分岐に続く実世界がボルン規則に従って選択される。 あるいは、明示ロレンツ共変定式化において、実世界は漸近的に遅い時間に枝の集合から単一のランダムなドローであり、後期選択によって暗示される分岐事象の集合を順次再現することで、特定のロレンツフレームにおいて有限時間に復元することができる。 本稿では、ミンコフスキー空間の格子上の時空ゲージにおける量子電磁力学への以前の定式化を適応する。 しかし、初期のバージョンは、物理真空に基づく複雑性の定義を、素真空に基づく定義に置き換えることによって単純化されている。 この交換の結果、物理的真空自体が分岐し、非分岐真空よりもわずかに大きなエネルギー密度を持つ分枝が生じると予測される。 真空エネルギー再正規化定数が通常通り選択され、無分岐真空に0エネルギー密度を与えると、真空分枝はダークエネルギーとダークマター密度の組み合わせを持つように見えるが、追加の粒子含有量は持たない。

Beginning with the Everett-DeWitt many-worlds interpretation of quantum mechanics, there have been a series of proposals for how the state vector of a quantum system might split at any instant into orthogonal branches, each of which exhibits approximately classical behavior. In an earlier version of the present work, we proposed a decomposition of a state vector into branches by finding the minimum of a measure of the mean squared quantum complexity of the branches in the branch decomposition. With respect to a particular Lorentz frame, for a system beginning in a state of low complexity, branching occurs repeatedly over time with each branch splitting successively into further sub-branches among which the branch followed by the real world is chosen according to the Born rule. Alternatively, in an explicitly Lorentz covariant formulation, the real world is a single random draw from the set of branches at asymptotically late time, which can then be restored to finite time in a particular Lorentz frame by sequentially retracing the set of branching events implied by the late time choice. In the present article, we adapt the earlier formulation to quantum electrodynamics in temporal gauge on a lattice in Minkowski space. The earlier version, however, here is simplified by replacing a definition of complexity based on the physical vacuum with a definition based on the bare vacuum. As a consequence of this replacement, the physical vacuum itself is predicted to branch yielding branches with energy densities slightly larger than that of the unbranched vacuum. If the vacuum energy renormalization constant is chosen as usual to give 0 energy density to the unbranched vacuum, vacuum branches will appear to have a combination of dark energy and dark matter densities but no additional particle content.
翻訳日:2023-08-16 15:48:17 公開日:2023-08-15
# メタファー検出のためのディープラーニングに基づく知識注入:包括的レビュー

Deep Learning-Based Knowledge Injection for Metaphor Detection: A Comprehensive Review ( http://arxiv.org/abs/2308.04306v2 )

ライセンス: Link先を確認
Cheng Yang, Wenye Zhao, Zhiyue Liu, Qingbao Huang(参考訳) 比喩研究の歴史は知識注入研究の進化を象徴している。 近年のディープラーニング技術の進歩により、自然言語処理コミュニティはメタファ認識タスクの成果に知識を適用することに大きな関心を示している。 メタファ認識の分野では,知識注入に関するアプローチが徐々に増えてきたが,知識注入に基づくアプローチに関する完全なレビュー記事が不足している。 そこで本稿の目的は,メタファ認識タスクにおける知識注入へのディープラーニングの適用における研究の進歩を包括的にレビューすることである。 本稿では,主要な知識と知識の注入原則を体系的に要約し,一般化するとともに,メタファ認識タスクで使用されるデータセット,評価指標,ベンチマークモデルをレビューする。 最後に,ナレッジインジェクション手法が直面する課題を探究し,今後の研究の方向性を展望する。

The history of metaphor research also marks the evolution of knowledge infusion research. With the continued advancement of deep learning techniques in recent years, the natural language processing community has shown great interest in applying knowledge to successful results in metaphor recognition tasks. Although there has been a gradual increase in the number of approaches involving knowledge injection in the field of metaphor recognition, there is a lack of a complete review article on knowledge injection based approaches. Therefore, the goal of this paper is to provide a comprehensive review of research advances in the application of deep learning for knowledge injection in metaphor recognition tasks. In this paper, we systematically summarize and generalize the mainstream knowledge and knowledge injection principles, as well as review the datasets, evaluation metrics, and benchmark models used in metaphor recognition tasks. Finally, we explore the current issues facing knowledge injection methods and provide an outlook on future research directions.
翻訳日:2023-08-16 15:47:45 公開日:2023-08-15
# 非計測共同設立者の因果推論における拡散モデル

Diffusion Model in Causal Inference with Unmeasured Confounders ( http://arxiv.org/abs/2308.03669v3 )

ライセンス: Link先を確認
Tatsuhiro Shimizu(参考訳) 本研究では,未測定の共同設立者の存在下での観察データから因果的疑問に答えるための拡散モデルの適用方法を検討する。 因果的介入を捉えるためにDAG(Directed Acyclic Graph)を用いるパールの枠組みでは、すべての共同設立者が観察されることを前提に、拡散モデルを用いて因果的疑問により正確に答える手法が提案された。 しかし、実際には測定されていない共同設立者が存在し、DCMの適用を妨げている。 DCMのこの制限を軽減するために,バックドア基準に基づくDCM(Backdoor Criterion based DCM)と呼ばれる拡張モデルを提案する。 合成データ実験により, 提案モデルが, dcmよりも正確に反事実分布を捉えていることが証明された。

We study how to extend the use of the diffusion model to answer the causal question from the observational data under the existence of unmeasured confounders. In Pearl's framework of using a Directed Acyclic Graph (DAG) to capture the causal intervention, a Diffusion-based Causal Model (DCM) was proposed incorporating the diffusion model to answer the causal questions more accurately, assuming that all of the confounders are observed. However, unmeasured confounders in practice exist, which hinders DCM from being applicable. To alleviate this limitation of DCM, we propose an extended model called Backdoor Criterion based DCM (BDCM), whose idea is rooted in the Backdoor criterion to find the variables in DAG to be included in the decoding process of the diffusion model so that we can extend DCM to the case with unmeasured confounders. Synthetic data experiment demonstrates that our proposed model captures the counterfactual distribution more precisely than DCM under the unmeasured confounders.
翻訳日:2023-08-16 15:47:31 公開日:2023-08-15
# SynJax: JAX の構造化確率分布

SynJax: Structured Probability Distributions for JAX ( http://arxiv.org/abs/2308.03291v2 )

ライセンス: Link先を確認
Milo\v{s} Stanojevi\'c and Laurent Sartran(参考訳) ディープラーニングソフトウェアライブラリの開発は、ユーザがモデリングに集中できると同時に、現代的なハードウェアアクセラレータの実行を最適化する退屈で時間のかかるタスクをライブラリに任せることで、この分野の大きな進歩をもたらした。 しかし、これは、プリミティブがベクトル化された計算に容易にマッピングするトランスフォーマーのような、特定のタイプのディープラーニングモデルにのみ恩恵がある。 木やセグメンテーションなどの構造化オブジェクトを明示的に説明するモデルは、ベクトル化形式で実装が難しいカスタムアルゴリズムを必要とするため、等しく利益を得られなかった。 SynJaxは、アライメント、タグ付け、セグメンテーション、選挙区木、スパンニングツリーを含む構造化分布のための効率的なベクトル化推論アルゴリズムを提供することで、この問題に対処する。 SynJaxを使えば、データ構造を明示的にモデル化する大規模な微分可能なモデルを構築することができます。 コードはhttps://github.com/deepmind/synjaxで入手できる。

The development of deep learning software libraries enabled significant progress in the field by allowing users to focus on modeling, while letting the library to take care of the tedious and time-consuming task of optimizing execution for modern hardware accelerators. However, this has benefited only particular types of deep learning models, such as Transformers, whose primitives map easily to the vectorized computation. The models that explicitly account for structured objects, such as trees and segmentations, did not benefit equally because they require custom algorithms that are difficult to implement in a vectorized form. SynJax directly addresses this problem by providing an efficient vectorized implementation of inference algorithms for structured distributions covering alignment, tagging, segmentation, constituency trees and spanning trees. With SynJax we can build large-scale differentiable models that explicitly model structure in the data. The code is available at https://github.com/deepmind/synjax.
翻訳日:2023-08-16 15:47:10 公開日:2023-08-15
# ソースフリードメイン適応型ヒューマンポース推定

Source-free Domain Adaptive Human Pose Estimation ( http://arxiv.org/abs/2308.03202v3 )

ライセンス: Link先を確認
Qucheng Peng, Ce Zheng, Chen Chen(参考訳) HPE(Human Pose Estimation)は、モーション分析、ヘルスケア、仮想現実など、さまざまな分野で広く使われている。 しかし、ラベル付き実世界のデータセットの膨大な費用は、HPEにとって大きな課題となる。 これを解決する1つのアプローチは、合成データセット上でHPEモデルをトレーニングし、実際のデータ上でドメイン適応(DA)を実行することである。 残念ながら、HPEの既存のDAメソッドは、適応プロセスでソースデータとターゲットデータの両方を使用することで、データのプライバシとセキュリティを無視している。 そこで本研究では,hpeのクロスドメイン学習の課題を解決するために,適応プロセス中にソースデータにアクセスせずに,新たなタスクであるsource-free domain adaptive hpeを提案する。 さらに、ソースモデル、中間モデル、ターゲットモデルという3つのモデルからなる新しいフレームワークを提案し、ソース保護とターゲット関連の観点からタスクを探索する。 音源保護モジュールは、ノイズに抵抗しながらより効果的にソース情報を保存し、ターゲット関連モジュールは、新しい空間確率空間を構築して空間表現のスパーシティを低減し、この空間に基づいてポーズ固有のコントラスト学習と情報最大化を提案する。 いくつかの領域適応型HPEベンチマークの総合的な実験により、提案手法は既存の手法よりもかなり優れていることが示された。 コードはhttps://github.com/davidpengucf/SFDAHPEで入手できる。

Human Pose Estimation (HPE) is widely used in various fields, including motion analysis, healthcare, and virtual reality. However, the great expenses of labeled real-world datasets present a significant challenge for HPE. To overcome this, one approach is to train HPE models on synthetic datasets and then perform domain adaptation (DA) on real-world data. Unfortunately, existing DA methods for HPE neglect data privacy and security by using both source and target data in the adaptation process. To this end, we propose a new task, named source-free domain adaptive HPE, which aims to address the challenges of cross-domain learning of HPE without access to source data during the adaptation process. We further propose a novel framework that consists of three models: source model, intermediate model, and target model, which explores the task from both source-protect and target-relevant perspectives. The source-protect module preserves source information more effectively while resisting noise, and the target-relevant module reduces the sparsity of spatial representations by building a novel spatial probability space, and pose-specific contrastive learning and information maximization are proposed on the basis of this space. Comprehensive experiments on several domain adaptive HPE benchmarks show that the proposed method outperforms existing approaches by a considerable margin. The codes are available at https://github.com/davidpengucf/SFDAHPE.
翻訳日:2023-08-16 15:46:54 公開日:2023-08-15
# miamix: multi-stage augmented mixed sample data augmentation 法による画像分類の強化

MiAMix: Enhancing Image Classification through a Multi-stage Augmented Mixed Sample Data Augmentation Method ( http://arxiv.org/abs/2308.02804v2 )

ライセンス: Link先を確認
Wen Liang, Youzhi Liang, Jianguo Jia(参考訳) ディープラーニングの分野ではかなり進歩しているにもかかわらず、オーバーフィッティングは重要な課題であり、様々なコンピュータビジョンタスクにおけるモデル一般化を強化する能力のため、データ拡張は特に有望なアプローチとして現れている。 様々な戦略が提案されているが、Mixed Sample Data Augmentation (MSDA) はモデルの性能向上と一般化に大きな可能性を示している。 マルチステージAugmented Mixupの略であるMiAMixという新しいミックスアップ手法を提案する。 MiAMixは、画像強化をミックスアップフレームワークに統合し、複数の多様化混合法を同時に利用し、ミキシングマスク増強法をランダムに選択して混合方法を改善する。 最近の手法では給与情報を利用し、miamixは計算効率も考慮し、追加のオーバーヘッドを削減し、既存のトレーニングパイプラインと簡単に統合できるように設計されている。 筆者らは4つの画像ベンチマークを用いてMiaMixを総合的に評価し、現在最先端の混合サンプルデータ拡張技術と比較し、MIAMixが計算オーバーヘッドを伴わずに性能を向上することを示す。

Despite substantial progress in the field of deep learning, overfitting persists as a critical challenge, and data augmentation has emerged as a particularly promising approach due to its capacity to enhance model generalization in various computer vision tasks. While various strategies have been proposed, Mixed Sample Data Augmentation (MSDA) has shown great potential for enhancing model performance and generalization. We introduce a novel mixup method called MiAMix, which stands for Multi-stage Augmented Mixup. MiAMix integrates image augmentation into the mixup framework, utilizes multiple diversified mixing methods concurrently, and improves the mixing method by randomly selecting mixing mask augmentation methods. Recent methods utilize saliency information and the MiAMix is designed for computational efficiency as well, reducing additional overhead and offering easy integration into existing training pipelines. We comprehensively evaluate MiaMix using four image benchmarks and pitting it against current state-of-the-art mixed sample data augmentation techniques to demonstrate that MIAMix improves performance without heavy computational overhead.
翻訳日:2023-08-16 15:46:31 公開日:2023-08-15
# 情報検索のための大規模言語モデル:調査

Large Language Models for Information Retrieval: A Survey ( http://arxiv.org/abs/2308.07107v2 )

ライセンス: Link先を確認
Yutao Zhu, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng, Zhicheng Dou, and Ji-Rong Wen(参考訳) 情報取得の主要な手段として,検索エンジンなどの情報検索(IR)システムが,私たちの日常生活に組み込まれている。 これらのシステムは対話、質問応答、推薦システムの構成要素としても機能する。 IRの軌道は、項ベースの手法の起源から高度なニューラルモデルとの統合まで、動的に進化してきた。 ニューラルネットワークは複雑なコンテキスト信号やセマンティックなニュアンスを捉えるのに優れており、IRのランドスケープを再構築するが、データ不足、解釈可能性、文脈的に妥当で不正確な応答の生成といった課題に直面している。 この進化には従来の手法(項ベースのスパース検索法と迅速な応答法など)と現代のニューラルアーキテクチャ(強力な言語理解能力を持つ言語モデルなど)の組み合わせが必要である。 一方、ChatGPTとGPT-4に代表される大規模言語モデル(LLM)の出現は、言語理解、生成、一般化、推論能力によって自然言語処理に革命をもたらした。 その結果、最近の研究はLLMをIRシステムの改善に活用しようと試みている。 この研究軌道の急速な進化を考えると、既存の方法論を整理し、包括的概要を通して微妙な洞察を提供する必要がある。 本調査では,クエリリフレクタ,レトリバー,リランカ,リーダといった重要な側面を含む,LLMとIRシステムの合流点を探索する。 さらに,この拡大分野における有望な方向性を探究する。

As a primary means of information acquisition, information retrieval (IR) systems, such as search engines, have integrated themselves into our daily lives. These systems also serve as components of dialogue, question-answering, and recommender systems. The trajectory of IR has evolved dynamically from its origins in term-based methods to its integration with advanced neural models. While the neural models excel at capturing complex contextual signals and semantic nuances, thereby reshaping the IR landscape, they still face challenges such as data scarcity, interpretability, and the generation of contextually plausible yet potentially inaccurate responses. This evolution requires a combination of both traditional methods (such as term-based sparse retrieval methods with rapid response) and modern neural architectures (such as language models with powerful language understanding capacity). Meanwhile, the emergence of large language models (LLMs), typified by ChatGPT and GPT-4, has revolutionized natural language processing due to their remarkable language understanding, generation, generalization, and reasoning abilities. Consequently, recent research has sought to leverage LLMs to improve IR systems. Given the rapid evolution of this research trajectory, it is necessary to consolidate existing methodologies and provide nuanced insights through a comprehensive overview. In this survey, we delve into the confluence of LLMs and IR systems, including crucial aspects such as query rewriters, retrievers, rerankers, and readers. Additionally, we explore promising directions within this expanding field.
翻訳日:2023-08-16 15:41:30 公開日:2023-08-15
# #InsTag:大規模言語モデルの教師付き微調整解析のためのインストラクションタグ

#InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models ( http://arxiv.org/abs/2308.07074v2 )

ライセンス: Link先を確認
Keming Lu, Hongyi Yuan, Zheng Yuan, Runji Lin, Junyang Lin, Chuanqi Tan, Chang Zhou, Jingren Zhou(参考訳) 基礎言語モデルは教師付き微調整(sft)により命令追従能力を得る。 多様性と複雑性は、SFTデータセットの成功の重要な要因と考えられているが、その定義はあいまいであり、定量分析が欠如している。 本研究では,SFTデータセット内のサンプルを意味と意図に基づいてタグ付けし,タグに関する命令の多様性と複雑性を定義するための,オープンセットのきめ細かいタグであるInsTagを提案する。 包括的ユーザクエリを記述するための6.6Kタグを取得する。 そして、人気のあるオープンソースsftデータセットを分析し、モデル能力がより多様で複雑なデータで成長することを見出します。 本研究では,InsTagをベースとしたデータセレクタを提案し,オープンソースのデータセットとInsTag選択データを用いたファインチューンモデルから6Kの多様な複雑なサンプルを抽出する。 その結果得られたモデルであるtaglmは、mt-benchが評価したかなり大きなsftデータに基づくオープンソースモデルよりも優れており、クエリの多様性と複雑さの重要性を反映している。 InsTagをhttps://github.com/OFA-Sys/InsTagでオープンソース化しました。

Foundation language models obtain the instruction-following ability through supervised fine-tuning (SFT). Diversity and complexity are considered critical factors of a successful SFT dataset, while their definitions remain obscure and lack quantitative analyses. In this work, we propose InsTag, an open-set fine-grained tagger, to tag samples within SFT datasets based on semantics and intentions and define instruction diversity and complexity regarding tags. We obtain 6.6K tags to describe comprehensive user queries. Then we analyze popular open-sourced SFT datasets and find that the model ability grows with more diverse and complex data. Based on this observation, we propose a data selector based on InsTag to select 6K diverse and complex samples from open-source datasets and fine-tune models on InsTag-selected data. The resulting models, TagLM, outperform open-source models based on considerably larger SFT data evaluated by MT-Bench, echoing the importance of query diversity and complexity. We open-source InsTag in https://github.com/OFA-Sys/InsTag.
翻訳日:2023-08-16 15:41:06 公開日:2023-08-15
# シングルコピー計測によるt$ドープ安定化状態の効率的な学習

Efficient learning of $t$-doped stabilizer states with single-copy measurements ( http://arxiv.org/abs/2308.07014v2 )

ライセンス: Link先を確認
Nai-Hui Chia, Ching-Yi Lai, Han-Hsuan Lin(参考訳) 量子状態学習の主要な目的の1つは、量子回路から生成される状態の学習に時間効率の良いアルゴリズムを開発することである。 初期の研究では、クリフォード回路から生成される状態に対して最大$\log(n)$非クリフォードゲートを持つ時間効率の良いアルゴリズムが示されている。 しかし、これらのアルゴリズムはマルチコピー計測を必要とし、必要な量子メモリのために短期的に実装上の課題を提起する。 それとは対照的に、計算ベースでのみシングルキュービットの測定を使用することは、合理的な量子後暗号仮定の下で1つの追加のT$ゲートを持つクリフォード回路の出力分布でさえ学習するには不十分である。 本研究では,Cifford回路が生成する状態を最大$O(\log n)$非Ciffordゲートで学習するために,非適応的な単一コピー測定のみを用いる効率的な量子アルゴリズムを提案する。

One of the primary objectives in the field of quantum state learning is to develop algorithms that are time-efficient for learning states generated from quantum circuits. Earlier investigations have demonstrated time-efficient algorithms for states generated from Clifford circuits with at most $\log(n)$ non-Clifford gates. However, these algorithms necessitate multi-copy measurements, posing implementation challenges in the near term due to the requisite quantum memory. On the contrary, using solely single-qubit measurements in the computational basis is insufficient in learning even the output distribution of a Clifford circuit with one additional $T$ gate under reasonable post-quantum cryptographic assumptions. In this work, we introduce an efficient quantum algorithm that employs only nonadaptive single-copy measurement to learn states produced by Clifford circuits with a maximum of $O(\log n)$ non-Clifford gates, filling a gap between the previous positive and negative results.
翻訳日:2023-08-16 15:40:45 公開日:2023-08-15
# Thresh: 微細テキスト評価のための統一された、カスタマイズ可能な、デプロイ可能なプラットフォーム

Thresh: A Unified, Customizable and Deployable Platform for Fine-Grained Text Evaluation ( http://arxiv.org/abs/2308.06953v2 )

ライセンス: Link先を確認
David Heineman, Yao Dou, Wei Xu(参考訳) 要約, 単純化, 機械翻訳, ニュース生成などのテキスト生成タスクを評価するための信頼性が高く, 堅牢な手法として人体評価が登場し, 得られたアノテーションは自動メトリクスのトレーニングや言語モデルの改善に有用である。 しかし、これらの評価フレームワークに実装されている既存のアノテーションツールには、異なるドメインや言語に拡張したり、ユーザのニーズに応じてアノテーション設定を変更する適応性がない。 そして、統一された注釈付きデータ形式がないことは、マルチタスク学習の研究を阻害する。 本稿では,細粒度評価のための統合化,カスタマイズ,デプロイ可能なプラットフォームであるthreshを紹介する。 yaml構成ファイルを簡単に作成することで、ユーザはあらゆるフレームワークのアノテーションインターフェースを数分で構築し、テストすることができる。 コラボレーションと共有を容易にするために、threshは、コミュニティが作成、収集する細かなフレームワークと対応するアノテーションのコレクションをホストするコミュニティハブを提供し、幅広いnlpタスクをカバーしている。 Threshは、小さな手動検査から大規模なクラウドソーシングまで、あらゆる規模のアノテーションプロジェクトに複数のオプションを提供する。 さらに,タイポロジー設計からアノテーション処理へのデプロイまで,プロセス全体を合理化するpythonライブラリも導入する。 Threshはhttps://thresh.tools.comで公開されている。

Fine-grained, span-level human evaluation has emerged as a reliable and robust method for evaluating text generation tasks such as summarization, simplification, machine translation and news generation, and the derived annotations have been useful for training automatic metrics and improving language models. However, existing annotation tools implemented for these evaluation frameworks lack the adaptability to be extended to different domains or languages, or modify annotation settings according to user needs. And the absence of a unified annotated data format inhibits the research in multi-task learning. In this paper, we introduce Thresh, a unified, customizable and deployable platform for fine-grained evaluation. By simply creating a YAML configuration file, users can build and test an annotation interface for any framework within minutes -- all in one web browser window. To facilitate collaboration and sharing, Thresh provides a community hub that hosts a collection of fine-grained frameworks and corresponding annotations made and collected by the community, covering a wide range of NLP tasks. For deployment, Thresh offers multiple options for any scale of annotation projects from small manual inspections to large crowdsourcing ones. Additionally, we introduce a Python library to streamline the entire process from typology design and deployment to annotation processing. Thresh is publicly accessible at https://thresh.tools.
翻訳日:2023-08-16 15:40:28 公開日:2023-08-15
# SAILOR: 構造拡張に基づくTailノード表現学習

SAILOR: Structural Augmentation Based Tail Node Representation Learning ( http://arxiv.org/abs/2308.06801v2 )

ライセンス: Link先を確認
Jie Liao, Jintang Li, Liang Chen, Bingzhe Wu, Yatao Bian, Zibin Zheng(参考訳) グラフニューラルネットワーク(GNN)は最近,グラフの表現学習において最先端のパフォーマンスを達成した。 しかし, メッセージ伝搬の重要な操作を活かしたGNNの有効性は, トポロジ構造の品質に大きく依存する。 実世界のシナリオにおけるグラフのほとんどは、ノードの次数における長い尾の分布、すなわちグラフ内のノードの大部分は、わずかに連結されたエッジを持つ尾のノードである。 GNNは構造情報を欠いているため、テールノードに対して下位ノード表現を生成する。 尾ノードに対するGNNの表現性を追求するため,構造情報の欠如が尾ノードの性能を悪化させるかを検討するとともに,SAILORと呼ばれる構造拡張に基づくTaIL nOde表現学習フレームワークを提案する。 公開ベンチマークデータセットに関する大規模な実験は、SAILORがテールノード表現を大幅に改善し、最先端のベースラインを上回る性能を発揮することを示した。

Graph Neural Networks (GNNs) have achieved state-of-the-art performance in representation learning for graphs recently. However, the effectiveness of GNNs, which capitalize on the key operation of message propagation, highly depends on the quality of the topology structure. Most of the graphs in real-world scenarios follow a long-tailed distribution on their node degrees, that is, a vast majority of the nodes in the graph are tail nodes with only a few connected edges. GNNs produce inferior node representations for tail nodes since they lack structural information. In the pursuit of promoting the expressiveness of GNNs for tail nodes, we explore how the deficiency of structural information deteriorates the performance of tail nodes and propose a general Structural Augmentation based taIL nOde Representation learning framework, dubbed as SAILOR, which can jointly learn to augment the graph structure and extract more informative representations for tail nodes. Extensive experiments on public benchmark datasets demonstrate that SAILOR can significantly improve the tail node representations and outperform the state-of-the-art baselines.
翻訳日:2023-08-16 15:39:52 公開日:2023-08-15
# fr\'echet統計に基づく多変量ホークス過程における変化点検出

Fr\'echet Statistics Based Change Point Detection in Multivariate Hawkes Process ( http://arxiv.org/abs/2308.06769v2 )

ライセンス: Link先を確認
Rui Luo and Vikram Krishnamurthy(参考訳) 本稿では,Frechet統計を用いた多変量ホークスの因果ネットワークにおける変化点検出手法を提案する。 提案手法では,点過程を重なり合う窓に分割し,各ウィンドウのカーネル行列を推定し,カーネル行列を因果ネットワークの隣接行列として扱うことで符号付きラプラシアンを再構成する。 シミュレーションおよび実世界の暗号データセットを用いた実験により,本手法の有効性を示す。 本手法は,多変量ホークス過程の因果構造の変化を正確に検出し,特徴付けることができ,金融学や神経科学などの分野にも応用できる可能性が示唆された。 提案手法は点プロセス設定におけるFrechet統計に関する以前の研究の拡張であり,多変量点プロセスにおける変化点検出の分野への重要な貢献を示す。

This paper proposes a new approach for change point detection in causal networks of multivariate Hawkes processes using Frechet statistics. Our method splits the point process into overlapping windows, estimates kernel matrices in each window, and reconstructs the signed Laplacians by treating the kernel matrices as the adjacency matrices of the causal network. We demonstrate the effectiveness of our method through experiments on both simulated and real-world cryptocurrency datasets. Our results show that our method is capable of accurately detecting and characterizing changes in the causal structure of multivariate Hawkes processes, and may have potential applications in fields such as finance and neuroscience. The proposed method is an extension of previous work on Frechet statistics in point process settings and represents an important contribution to the field of change point detection in multivariate point processes.
翻訳日:2023-08-16 15:39:01 公開日:2023-08-15
# mc-dre: 薬物イベント/エンティティ抽出のためのマルチアスペクトクロス統合

MC-DRE: Multi-Aspect Cross Integration for Drug Event/Entity Extraction ( http://arxiv.org/abs/2308.06546v2 )

ライセンス: Link先を確認
Jie Yang and Soyeon Caren Han and Siqu Long and Josiah Poon and Goran Nenadic(参考訳) 有害薬物事象(ADE)などの有意義な薬物関連情報を抽出することは、有害な薬物の予防と多くの命を救うために重要である。 ほとんどのADEは、医療コンテキストとの非構造化の会話を通じて報告されるため、一般的なエンティティ認識アプローチを適用するだけでは不十分である。 本稿では,薬物関連文書からコンテキスト/言語/知識の異なる特性を捕捉・整合させることにより,薬物の実体/事象検出のための多面的クロスインテグレーションフレームワークを提案する。 まず,マルチアスペクトエンコーダを構築し,意味的,構文的,医学的文書の文脈情報を,スロットタグタスク,主要薬物エンティティ/イベント検出,パート・オブ・スパイチ・タグ,一般医療名付きエンティティ認識により記述する。 次に、各エンコーダはキー・バリュー・クロス、アテンション・クロス、フィードフォワード・クロスの3つの方法で他のコンテキスト情報とのクロス統合を行い、マルチエンコーダを奥行きに統合する。 私たちのモデルは,フラットエンティティ検出と不連続イベント抽出という,広く使用されている2つのタスクにおいて,すべてのsotaを上回っている。

Extracting meaningful drug-related information chunks, such as adverse drug events (ADE), is crucial for preventing morbidity and saving many lives. Most ADEs are reported via an unstructured conversation with the medical context, so applying a general entity recognition approach is not sufficient enough. In this paper, we propose a new multi-aspect cross-integration framework for drug entity/event detection by capturing and aligning different context/language/knowledge properties from drug-related documents. We first construct multi-aspect encoders to describe semantic, syntactic, and medical document contextual information by conducting those slot tagging tasks, main drug entity/event detection, part-of-speech tagging, and general medical named entity recognition. Then, each encoder conducts cross-integration with other contextual information in three ways: the key-value cross, attention cross, and feedforward cross, so the multi-encoders are integrated in depth. Our model outperforms all SOTA on two widely used tasks, flat entity detection and discontinuous event extraction.
翻訳日:2023-08-16 15:38:37 公開日:2023-08-15
# セキュリティ検査画像におけるYOLOv8検出アルゴリズムの改良

Improved YOLOv8 Detection Algorithm in Security Inspection Image ( http://arxiv.org/abs/2308.06452v2 )

ライセンス: Link先を確認
Liyao Lu(参考訳) セキュリティ検査は、人々の生活と財産の安全を確保するための最初の防衛線であり、インテリジェントセキュリティ検査は、セキュリティ検査産業の将来の発展において避けられないトレンドである。 YOLOv8sに基づくX線コントラバンド検出アルゴリズムであるCSS-YOLOを提案する。

Security inspection is the first line of defense to ensure the safety of people's lives and property, and intelligent security inspection is an inevitable trend in the future development of the security inspection industry. Aiming at the problems of overlapping detection objects, false detection of contraband, and missed detection in the process of X-ray image detection, an improved X-ray contraband detection algorithm CSS-YOLO based on YOLOv8s is proposed.
翻訳日:2023-08-16 15:38:15 公開日:2023-08-15
# llm自己防衛:自己検査によって、llmは彼らが騙されていることを知っている

LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked ( http://arxiv.org/abs/2308.07308v2 )

ライセンス: Link先を確認
Alec Helbling, Mansi Phute, Matthew Hull and Duen Horng Chau(参考訳) 近年、人間のプロンプトに応じて高品質なテキストを生成する能力から、大規模言語モデル(llm)の人気が高まっている。 しかし、これらのモデルは、ユーザープロンプト(例えば、ユーザーが犯罪を犯す方法を指示するなど)に応じて有害なコンテンツを生成する可能性があることが示されている。 強化学習によるモデルと人間の価値を整合させる手法を通じて、これらのリスクの緩和に関する文献に焦点が当てられている。 しかし、アライメントされた言語モデルでさえ、有害テキスト生成の制限を回避できる敵攻撃の影響を受けやすいことが示されている。 本稿では,大規模な言語モデルで独自の応答をフィルタすることで,これらの攻撃を防御する簡単な手法を提案する。 現在の結果から,モデルが人間の価値観に適合するように微調整されていなくても,言語モデルを用いてコンテンツを検証することで,有害なコンテンツをユーザに提示することを止めることができる。

Large language models (LLMs) have skyrocketed in popularity in recent years due to their ability to generate high-quality text in response to human prompting. However, these models have been shown to have the potential to generate harmful content in response to user prompting (e.g., giving users instructions on how to commit crimes). There has been a focus in the literature on mitigating these risks, through methods like aligning models with human values through reinforcement learning. However, it has been shown that even aligned language models are susceptible to adversarial attacks that bypass their restrictions on generating harmful text. We propose a simple approach to defending against these attacks by having a large language model filter its own responses. Our current results show that even if a model is not fine-tuned to be aligned with human values, it is possible to stop it from presenting harmful content to users by validating the content using a language model.
翻訳日:2023-08-16 15:29:08 公開日:2023-08-15
# なぜだ? イブによるミス・エンターメントの解説(技術報告)

Why Not? Explaining Missing Entailments with Evee (Technical Report) ( http://arxiv.org/abs/2308.07294v2 )

ライセンス: Link先を確認
Christian Alrabbaa, Stefan Borgwardt, Tom Friese, Patrick Koopmann, Mikhail Kotlov(参考訳) 記述論理推論器が引き起こす論理的含意を理解することは、オントロジー利用者にとって必ずしもまっすぐではない。 このため, オントロジーエディタProt\'eg\'eのプラグインとして, 正当性や証明を用いた細部説明法が開発され, 実装されている。 しかし、ユーザが欠落結果が保持されることを期待する場合、なぜそれがオントロジーから従わないのかを説明するのも同様に重要である。 本稿では,<sup>e</sup> プラグインである $\rm E{\scriptsize VEE}$ の新バージョンについて述べる。

Understanding logical entailments derived by a description logic reasoner is not always straight-forward for ontology users. For this reason, various methods for explaining entailments using justifications and proofs have been developed and implemented as plug-ins for the ontology editor Prot\'eg\'e. However, when the user expects a missing consequence to hold, it is equally important to explain why it does not follow from the ontology. In this paper, we describe a new version of $\rm E{\scriptsize VEE}$, a Prot\'eg\'e plugin that now also provides explanations for missing consequences, via existing and new techniques based on abduction and counterexamples.
翻訳日:2023-08-16 15:28:50 公開日:2023-08-15
# 分散ガバナンス:データガバナンスに対するプリンシパルエージェントアプローチ -その1 背景とコア定義-

Distributed Governance: a Principal-Agent Approach to Data Governance -- Part 1 Background & Core Definitions ( http://arxiv.org/abs/2308.07280v2 )

ライセンス: Link先を確認
Philippe Page, Paul Knowles, Robert Mitwicki(参考訳) イノベーションやデジタルトランスフォーメーションの規制フレームワークを妨げることなく、デジタルテクノロジの規制の必要性に対処するために、情報ガバナンスに向けてデータガバナンスを進化させ、これら2つの用語の関係を精密化するためのモデルを提供する。 このモデルはデジタルおよび非デジタル情報交換を橋渡しする。 プリンシパルエージェントの問題の角度から管理データの利用の問題を考えることで、選択可能なエンティティとして定義された自律的なプリンシパルに基づいた分散ガバナンスモデルを構築し、トランザクションの主権を行使することができる。 プライバシー分野の法的概念をデジタル空間における機能的等価性に拡張することで、権利と説明責任を付与できるデジタル自己の構築につながる。 正当な権威によって束縛された自律的プリンシパルの共同体として定義される生態系は、物理的な世界統治システムを反映した自己複製性を持つ複雑さの増加の相互作用構造の基礎を提供する。 このモデルは、管轄区域間で運用されるマルチステークホルダー情報システムのガバナンス概念を提案する。 分散化された認証とセマンティクスにおける最近のソフトウェアエンジニアリングの進歩を利用して、人間と技術のガバナンス間のチェックとバランスを埋めた分散ガバナンスモデルをデプロイするための動的データ経済というフレームワークを提供します。 ドメイン固有のガバナンスモデルは、さらなる出版のために残されています。 同様に、デジタル自己と物理世界コントローラ(バイオメトリックバインディングなど)の接続に関する技術的な質問は、今後の出版物で扱われる予定である。

To address the need for regulating digital technologies without hampering innovation or pre-digital transformation regulatory frameworks, we provide a model to evolve Data governance toward Information governance and precise the relation between these two terms. This model bridges digital and non-digital information exchange. By considering the question of governed data usage through the angle of the Principal-Agent problem, we build a distributed governance model based on Autonomous Principals defined as entities capable of choice, therefore capable of exercising a transactional sovereignty. Extending the legal concept of the privacy sphere to a functional equivalent in the digital space leads to the construction of a digital self to which rights and accountability can be attached. Ecosystems, defined as communities of autonomous principals bound by a legitimate authority, provide the basis of interacting structures of increasing complexity endowed with a self-replicating property that mirrors physical world governance systems. The model proposes a governance concept for multi-stakeholder information systems operating across jurisdictions. Using recent software engineering advances in decentralised authentication and semantics, we provide a framework, Dynamic Data Economy to deploy a distributed governance model embedding checks and balance between human and technological governance. Domain specific governance models are left for further publications. Similarly, the technical questions related to the connection between a digital-self and its physical world controller (e.g biometric binding) will be treated in upcoming publications.
翻訳日:2023-08-16 15:28:36 公開日:2023-08-15
# AudioFormer:Audio Transformerは個々の音響コードから音声特徴表現を学習する

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes ( http://arxiv.org/abs/2308.07221v2 )

ライセンス: Link先を確認
Zhaohui Li and Haitao Wang and Xinghua Jiang(参考訳) 本研究では,離散音響符号の取得により音声特徴表現を学習し,その後,音声分類タスクに対して微調整を行う,audioformerという手法を提案する。 まず,音声分類タスクを自然言語理解(nlu)の一形態として考えることにより,新しい視点を提案する。 既存のニューラルオーディオコーデックモデルを利用して、離散音響コードを生成し、それをマスク付き言語モデル(MLM)の訓練に利用し、音声特徴表現を得る。 さらに,Multi-Positive sample Contrastive (MPC) 学習手法の統合を開拓した。 同一音声入力における複数の離散音響符号間の関節表現の学習を可能にする。 実験では、離散音響符号をテキストデータとして扱い、clozeのような手法を用いてマスキング言語モデルを訓練し、質の高い音声表現を導出する。 特に、mpc学習技術は、異なる正のサンプル間の協調表現を効果的に捉える。 その結果,複数のデータセットにまたがる単調な音声分類モデルに比べ,オーディオフォーマーの性能は著しく向上し,選択したデータセット上では視聴覚型マルチモーダル分類モデルよりも優れていた。 具体的には、AudioSet(2M,20K)やFSD50K(53.9,45.1、65.6)などのデータセットに対して、我々のアプローチは顕著な結果をもたらす。 私たちは、コードとモデルの両方をオープンに共有しました。

We propose a method named AudioFormer,which learns audio feature representations through the acquisition of discrete acoustic codes and subsequently fine-tunes them for audio classification tasks. Initially,we introduce a novel perspective by considering the audio classification task as a form of natural language understanding (NLU). Leveraging an existing neural audio codec model,we generate discrete acoustic codes and utilize them to train a masked language model (MLM),thereby obtaining audio feature representations. Furthermore,we pioneer the integration of a Multi-Positive sample Contrastive (MPC) learning approach. This method enables the learning of joint representations among multiple discrete acoustic codes within the same audio input. In our experiments,we treat discrete acoustic codes as textual data and train a masked language model using a cloze-like methodology,ultimately deriving high-quality audio representations. Notably,the MPC learning technique effectively captures collaborative representations among distinct positive samples. Our research outcomes demonstrate that AudioFormer attains significantly improved performance compared to prevailing monomodal audio classification models across multiple datasets,and even outperforms audio-visual multimodal classification models on select datasets. Specifically,our approach achieves remarkable results on datasets including AudioSet (2M,20K),and FSD50K,with performance scores of 53.9,45.1,and 65.6,respectively. We have openly shared both the code and models: https://github.com/LZH-0225/AudioFormer.git.
翻訳日:2023-08-16 15:28:12 公開日:2023-08-15
# FOLT:光学的流れに基づくUAVキャプチャ映像からの高速複数物体追跡

FOLT: Fast Multiple Object Tracking from UAV-captured Videos Based on Optical Flow ( http://arxiv.org/abs/2308.07207v2 )

ライセンス: Link先を確認
Mufeng Yao, Jiaqi Wang, Jinlong Peng, Mingmin Chi, Chao Liu(参考訳) 複数物体追跡(MOT)はコンピュータビジョンにおいて成功した。 しかし、無人航空機(UAV)が撮影したビデオのMOTは、小さな物体の大きさ、ぼやけた物体の外観、地上の物体とUAVプラットフォームの両方で非常に大きく不規則な動きのために、依然として困難である。 本稿では,これらの問題を緩和し,UAVビューで高速かつ正確なMOTに到達するためのFOLTを提案する。 FOLTは速度精度のトレードオフを目標とし、近代的な検出器と軽量な光フロー抽出器を採用し、最小限のコストで物体検出特徴と運動特徴を抽出する。 抽出した流れを考慮に入れ, フロー誘導型特徴増強法は, 微小物体の検出を改善する光学的フローに基づいて物体検出機能を増強するように設計されている。 次に,次のフレームにおける物体の位置を予測するためにフロー誘導運動予測も提案し,隣接フレーム間の変位が大きい物体の追従性能を向上させる。 最後に、検出されたオブジェクトと予測されたオブジェクトとを空間的マッチングスキームでマッチングし、各オブジェクトのトラックを生成する。 Visdrone と UAVDT のデータセットを用いた実験により,提案手法は大規模で不規則な動きを持つ小さな物体の追跡に成功し,UAV-MOT タスクにおける既存の最先端手法よりも優れていた。

Multiple object tracking (MOT) has been successfully investigated in computer vision. However, MOT for the videos captured by unmanned aerial vehicles (UAV) is still challenging due to small object size, blurred object appearance, and very large and/or irregular motion in both ground objects and UAV platforms. In this paper, we propose FOLT to mitigate these problems and reach fast and accurate MOT in UAV view. Aiming at speed-accuracy trade-off, FOLT adopts a modern detector and light-weight optical flow extractor to extract object detection features and motion features at a minimum cost. Given the extracted flow, the flow-guided feature augmentation is designed to augment the object detection feature based on its optical flow, which improves the detection of small objects. Then the flow-guided motion prediction is also proposed to predict the object's position in the next frame, which improves the tracking performance of objects with very large displacements between adjacent frames. Finally, the tracker matches the detected objects and predicted objects using a spatially matching scheme to generate tracks for every object. Experiments on Visdrone and UAVDT datasets show that our proposed model can successfully track small objects with large and irregular motion and outperform existing state-of-the-art methods in UAV-MOT tasks.
翻訳日:2023-08-16 15:27:46 公開日:2023-08-15
# SEMI-CenterNet:半導体欠陥検査のための機械学習ファシリテートアプローチ

SEMI-CenterNet: A Machine Learning Facilitated Approach for Semiconductor Defect Inspection ( http://arxiv.org/abs/2308.07180v2 )

ライセンス: Link先を確認
Vic De Ridder, Bappaditya Dey, Enrique Dehaerne, Sandip Halder, Stefan De Gendt, Bartel Van Waeyenberge(参考訳) 半導体領域におけるパターン次元の連続的縮小は、確率的ノイズの存在や欠陥パターンやタイプの動的挙動などの要因により、欠陥の検査がますます困難になっている。 従来のルールベースの手法とKNNのような非パラメトリック教師付き機械学習アルゴリズムは、これらの先進ノードでの半導体欠陥検査の要求でほとんど失敗する。 ディープラーニング(DL)ベースの手法は、これらの困難なシナリオに対して堅牢であることが証明されたため、半導体欠陥検査領域で人気を集めている。 本研究では,SEM画像における欠陥の局所化と分類を効率的に行うためのDLベースの自動手法を提案する。 我々は半導体ウエハ欠陥のSEM画像に基づいて学習したカスタマイズCNアーキテクチャであるSEMI-CenterNet(SEMI-CN)を提案する。 提案手法を用いることで,従来のDLモデルと比較して計算効率が向上する。 SEMI-CNは、欠陥インスタンスの中心、クラス、サイズ、オフセットを出力するように訓練される。 これは、バウンディングボックス予測にアンカーを使用するほとんどのオブジェクト検出モデルのアプローチとは異なる。 従来の手法では冗長なバウンディングボックスを予測するが、そのほとんどが後処理で破棄される。 cnは、おそらく欠陥中心点のボックスを予測するだけでこれを緩和する。 2つのデータセットでSEMI-CNをトレーニングし、2つのResNetバックボーンをベンチマークします。 当初、ResNetモデルはCOCOデータセット上で2つのデータセットを別々にトレーニングしていた。 主に、SEMI-CNは、以前の研究結果に対する推論時間を大幅に改善した。 最後に、トランスファーラーニング(カスタムSEMデータセットの重みを使用する)をADIデータセットからAEIデータセットとバイスリバーサに適用することで、従来のトレーニング手法に対して最高のmAPに達するために必要なトレーニング時間を短縮する。

Continual shrinking of pattern dimensions in the semiconductor domain is making it increasingly difficult to inspect defects due to factors such as the presence of stochastic noise and the dynamic behavior of defect patterns and types. Conventional rule-based methods and non-parametric supervised machine learning algorithms like KNN mostly fail at the requirements of semiconductor defect inspection at these advanced nodes. Deep Learning (DL)-based methods have gained popularity in the semiconductor defect inspection domain because they have been proven robust towards these challenging scenarios. In this research work, we have presented an automated DL-based approach for efficient localization and classification of defects in SEM images. We have proposed SEMI-CenterNet (SEMI-CN), a customized CN architecture trained on SEM images of semiconductor wafer defects. The use of the proposed CN approach allows improved computational efficiency compared to previously studied DL models. SEMI-CN gets trained to output the center, class, size, and offset of a defect instance. This is different from the approach of most object detection models that use anchors for bounding box prediction. Previous methods predict redundant bounding boxes, most of which are discarded in postprocessing. CN mitigates this by only predicting boxes for likely defect center points. We train SEMI-CN on two datasets and benchmark two ResNet backbones for the framework. Initially, ResNet models pretrained on the COCO dataset undergo training using two datasets separately. Primarily, SEMI-CN shows significant improvement in inference time against previous research works. Finally, transfer learning (using weights of custom SEM dataset) is applied from ADI dataset to AEI dataset and vice-versa, which reduces the required training time for both backbones to reach the best mAP against conventional training method.
翻訳日:2023-08-16 15:27:20 公開日:2023-08-15
# 時間対応テンソル分解による進行パターンの追跡

A Time-aware tensor decomposition for tracking evolving patterns ( http://arxiv.org/abs/2308.07126v2 )

ライセンス: Link先を確認
Christos Chatzis, Max Pfeffer, Pedro Lind, Evrim Acar(参考訳) 時間進化データセットは高階テンソルとして配置されることが多く、モードの1つがタイムモードである。 テンソル因子分解はそのような高次データセットの基本的なパターンを捉えるのにうまく使われてきたが、時間的側面はしばしば無視され、時間軸の再順序付けを可能にしている。 最近の研究では、時間正規化器が時間モードに組み込まれてこの問題に取り組んでいる。 それでも既存のアプローチでは,基盤となるパターンの時間的変化(脳の空間的変化やトピックのコンテキスト的変化など)は許可されていない。 本稿では, 時相正規化を用いた PARAFAC2 (tPARAFAC2) を用いた PARAFAC2 に基づくテンソル因子分解法を提案し, 時間的データから徐々に進化するパターンを抽出する。 合成データに関する広範な実験により, tPARAFAC2はPARAFAC2よりも正確に機能し, 時間的滑らか度正則化と組み合わせた行列因数分解を実現できることを示した。

Time-evolving data sets can often be arranged as a higher-order tensor with one of the modes being the time mode. While tensor factorizations have been successfully used to capture the underlying patterns in such higher-order data sets, the temporal aspect is often ignored, allowing for the reordering of time points. In recent studies, temporal regularizers are incorporated in the time mode to tackle this issue. Nevertheless, existing approaches still do not allow underlying patterns to change in time (e.g., spatial changes in the brain, contextual changes in topics). In this paper, we propose temporal PARAFAC2 (tPARAFAC2): a PARAFAC2-based tensor factorization method with temporal regularization to extract gradually evolving patterns from temporal data. Through extensive experiments on synthetic data, we demonstrate that tPARAFAC2 can capture the underlying evolving patterns accurately performing better than PARAFAC2 and coupled matrix factorization with temporal smoothness regularization.
翻訳日:2023-08-16 15:26:56 公開日:2023-08-15
# 臓器分節におけるスケーラブルなてんかん不確実性定量のベンチマーク

Benchmarking Scalable Epistemic Uncertainty Quantification in Organ Segmentation ( http://arxiv.org/abs/2308.07506v1 )

ライセンス: Link先を確認
Jadie Adams and Shireen Y. Elhabian(参考訳) 臓器の自動セグメンテーションのための深層学習に基づく手法は、診断と治療計画を支援する可能性を示している。 しかしながら、モデル予測に関連する不確かさを定量化し理解することは、重要な臨床応用において不可欠である。 疫学・モデルに基づく不確実性評価には多くの手法が提案されているが, 医用画像解析においてどの方法が望ましいかは定かではない。 本稿では,臓器セグメンテーションにおける認識的不確実性定量化法を,正確性,不確実性校正,拡張性の観点から評価する包括的ベンチマーク研究を行う。 我々は,各手法の長所,短所,分散検出能力について総合的な議論を行い,今後の改善を提言する。 これらの結果は、認識の不確かさを効果的に定量化しつつ、正確なセグメンテーションをもたらす信頼性とロバストなモデルの開発に寄与する。

Deep learning based methods for automatic organ segmentation have shown promise in aiding diagnosis and treatment planning. However, quantifying and understanding the uncertainty associated with model predictions is crucial in critical clinical applications. While many techniques have been proposed for epistemic or model-based uncertainty estimation, it is unclear which method is preferred in the medical image analysis setting. This paper presents a comprehensive benchmarking study that evaluates epistemic uncertainty quantification methods in organ segmentation in terms of accuracy, uncertainty calibration, and scalability. We provide a comprehensive discussion of the strengths, weaknesses, and out-of-distribution detection capabilities of each method as well as recommendations for future improvements. These findings contribute to the development of reliable and robust models that yield accurate segmentations while effectively quantifying epistemic uncertainty.
翻訳日:2023-08-16 14:30:44 公開日:2023-08-15
# 大規模言語モデルを用いたデータ競合検出

Data Race Detection Using Large Language Models ( http://arxiv.org/abs/2308.07505v1 )

ライセンス: Link先を確認
Le Chen, Xianzhong Ding, Murali Emani, Tristan Vanderbruggen, Pei-hung Lin, Chuanhua Liao(参考訳) 大規模言語モデル(llm)は、リソース集約的な手動ツール作成の必要性を回避し、高性能コンピューティングプログラムの分析と最適化を容易にする代替戦略として、大きな期待を示している。 本稿では,技術と微調整を融合したllmに基づく新しいデータ競合検出手法について検討する。 我々はDataRaceBenchから派生したDRB-MLという専用のデータセットを作成し、データレースペアとその関連する変数、行番号、読み書き情報を示す微粒なラベルを付ける。 DRB-MLは、代表的なLCMとファインチューンオープンソースの評価に使用される。 実験の結果,LLMはデータ競合検出に有効な手法であることがわかった。 しかし、変数ペアに関する詳細な情報が必要な場合、従来のデータ競合検出ツールと競合することはできません。

Large language models (LLMs) are demonstrating significant promise as an alternate strategy to facilitate analyses and optimizations of high-performance computing programs, circumventing the need for resource-intensive manual tool creation. In this paper, we explore a novel LLM-based data race detection approach combining prompting engineering and fine-tuning techniques. We create a dedicated dataset named DRB-ML, which is derived from DataRaceBench, with fine-grain labels showing the presence of data race pairs and their associated variables, line numbers, and read/write information. DRB-ML is then used to evaluate representative LLMs and fine-tune open-source ones. Our experiment shows that LLMs can be a viable approach to data race detection. However, they still cannot compete with traditional data race detection tools when we need detailed information about variable pairs causing data races.
翻訳日:2023-08-16 14:30:27 公開日:2023-08-15
# ICAFusion:マルチスペクトル物体検出のための反復的クロスアテンション誘導機能融合

ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection ( http://arxiv.org/abs/2308.07504v1 )

ライセンス: Link先を確認
Jifeng Shen, Yifei Chen, Yue Liu, Xin Zuo, Heng Fan, Wankou Yang(参考訳) マルチスペクトル画像の有効特徴融合は,多スペクトル物体検出において重要な役割を担っている。 従来の研究では、畳み込みニューラルネットワークを用いた特徴融合の有効性が実証されているが、これらの手法は、局所的な特徴の相互作用に固有の非効率性のため、画像の不一致に敏感であり、性能劣化をもたらす。 この問題に対処するために,グローバル特徴の相互作用をモデル化し,相補的情報を同時取得するために,デュアルクロス・アテンション・トランスフォーマの新たな特徴融合フレームワークを提案する。 このフレームワークは、クエリ誘導のクロスアテンション機構を通じてオブジェクト機能の識別性を向上し、パフォーマンスが向上する。 しかし,機能拡張のために複数の変圧器ブロックを積み重ねると,多数のパラメータや空間的複雑さが発生する。 これに対応するために,ブロックワイドマルチモーダル変圧器間でパラメータを共有する反復的相互作用機構を提案し,モデルの複雑さと計算コストを低減した。 提案手法は汎用的で, 異なる検出フレームワークに統合され, 異なるバックボーンで使用される。 KAIST,FLIR,VEDAIデータセットを用いた実験結果から,提案手法はより優れた性能と高速な推論を実現し,様々なシナリオに適していることが示された。 コードはhttps://github.com/chanchanchan97/ICAFusion.comから入手できる。

Effective feature fusion of multispectral images plays a crucial role in multi-spectral object detection. Previous studies have demonstrated the effectiveness of feature fusion using convolutional neural networks, but these methods are sensitive to image misalignment due to the inherent deffciency in local-range feature interaction resulting in the performance degradation. To address this issue, a novel feature fusion framework of dual cross-attention transformers is proposed to model global feature interaction and capture complementary information across modalities simultaneously. This framework enhances the discriminability of object features through the query-guided cross-attention mechanism, leading to improved performance. However, stacking multiple transformer blocks for feature enhancement incurs a large number of parameters and high spatial complexity. To handle this, inspired by the human process of reviewing knowledge, an iterative interaction mechanism is proposed to share parameters among block-wise multimodal transformers, reducing model complexity and computation cost. The proposed method is general and effective to be integrated into different detection frameworks and used with different backbones. Experimental results on KAIST, FLIR, and VEDAI datasets show that the proposed method achieves superior performance and faster inference, making it suitable for various practical scenarios. Code will be available at https://github.com/chanchanchan97/ICAFusion.
翻訳日:2023-08-16 14:30:15 公開日:2023-08-15
# AttMOT:補助歩行者属性の導入による多目的追跡の改善

AttMOT: Improving Multiple-Object Tracking by Introducing Auxiliary Pedestrian Attributes ( http://arxiv.org/abs/2308.07537v1 )

ライセンス: Link先を確認
Yunhao Li, Zhen Xiao, Lin Yang, Dan Meng, Xin Zhou, Heng Fan, Libo Zhang(参考訳) マルチオブジェクトトラッキング(MOT)は、インテリジェントな監視や自動運転など、多数のアプリケーションを用いたコンピュータビジョンにおける基本的な問題である。 MOTでは大きな進歩があったが、性別、髪型、体型、衣服の特徴など、豊かで高レベルな情報を含む歩行者の属性は調査されていない。 このギャップに対処するため,一般的なRe-ID埋め込みを支援するために,歩行者属性を簡易かつ効果的かつ汎用的に予測する手法を提案する。 AttMOTは、80万フレーム以上の歩行者IDと、異なる時間、気象条件、シナリオを含む、歩行者追跡のための大規模で高度に濃縮された合成データセットである。 私たちの知る限りでは、AttMOTはセマンティック属性を持つ最初のMOTデータセットです。 次に,アテンション機構を含む,リid埋め込みと歩行者属性を融合するアプローチについて検討し,属性支援motの開発を促進することを期待する。 提案手法は、AttMOTデータセットを用いて、MOT17やMOT20を含む複数の代表的な歩行者多目的追跡ベンチマークの有効性と一般性を示す。 最先端トラッカーに適用すると、MOTA、HOTA、AssA、ID、IFF1スコアの一貫性のある改善が達成される。 例えば、MOT17では、FairMOTを使用すると+1.1 MOTA、+1.7 HOTA、+1.8 IDF1の改善が得られる。 属性支援MOTに関するさらなる研究を促進するため、AttMOTデータセットをリリースする。

Multi-object tracking (MOT) is a fundamental problem in computer vision with numerous applications, such as intelligent surveillance and automated driving. Despite the significant progress made in MOT, pedestrian attributes, such as gender, hairstyle, body shape, and clothing features, which contain rich and high-level information, have been less explored. To address this gap, we propose a simple, effective, and generic method to predict pedestrian attributes to support general Re-ID embedding. We first introduce AttMOT, a large, highly enriched synthetic dataset for pedestrian tracking, containing over 80k frames and 6 million pedestrian IDs with different time, weather conditions, and scenarios. To the best of our knowledge, AttMOT is the first MOT dataset with semantic attributes. Subsequently, we explore different approaches to fuse Re-ID embedding and pedestrian attributes, including attention mechanisms, which we hope will stimulate the development of attribute-assisted MOT. The proposed method AAM demonstrates its effectiveness and generality on several representative pedestrian multi-object tracking benchmarks, including MOT17 and MOT20, through experiments on the AttMOT dataset. When applied to state-of-the-art trackers, AAM achieves consistent improvements in MOTA, HOTA, AssA, IDs, and IDF1 scores. For instance, on MOT17, the proposed method yields a +1.1 MOTA, +1.7 HOTA, and +1.8 IDF1 improvement when used with FairMOT. To encourage further research on attribute-assisted MOT, we will release the AttMOT dataset.
翻訳日:2023-08-16 14:23:23 公開日:2023-08-15
# 凸下レベル問題を用いた確率的単純二値最適化のための投影自由法

Projection-Free Methods for Stochastic Simple Bilevel Optimization with Convex Lower-level Problem ( http://arxiv.org/abs/2308.07536v1 )

ライセンス: Link先を確認
Jincheng Cao, Ruichen Jiang, Nazanin Abolfazli, Erfan Yazdandoost Hamedani, Aryan Mokhtari(参考訳) 本稿では,確率的二段階最適化問題(stochastic simple bilevel optimization)のクラスについて検討し,他の確率的凸最適化問題の最適解集合よりもスムーズな確率的目的関数を最小化する。 確率的切削平面を介して下層問題の解集合を局所的に近似する新しい確率的二段階最適化法を導入し, 分散還元法を用いて条件付き勾配更新を行い, 確率的勾配を用いた誤差制御を行う。 上位レベル関数が凸である場合、このメソッドは$\tilde{\mathcal{o}}(\max\{1/\epsilon_f^{2},1/\epsilon_g^{2}\})$確率oracleクエリを必要とし、上位レベルに対して$\epsilon_f$-optimal、下位レベルで$\epsilon_g$-optimalとなる解を得る。 この保証により、$\mathcal{O}(\max\{1/\epsilon_f^{4},1/\epsilon_g^{4}\})$の既知複雑性が向上する。 さらに、上層関数が非凸である場合、我々の方法は少なくとも$\tilde{\mathcal{O}}(\max\{1/\epsilon_f^{3},1/\epsilon_g^{3}\}) $ 確率的なオラクルクエリーを求め、$(\epsilon_f, \epsilon_g)$-定常点を求める。 有限サム設定では、我々のメソッドで要求される確率的オラクル呼び出しの数が$\tilde{\mathcal{O}}(\sqrt{n}/\epsilon)$と$\tilde{\mathcal{O}}(\sqrt{n}/\epsilon^{2})$であり、それぞれ凸と非凸の設定に対して$\epsilon=\min \{\epsilon_f,\epsilon_g\}$であることを示す。

In this paper, we study a class of stochastic bilevel optimization problems, also known as stochastic simple bilevel optimization, where we minimize a smooth stochastic objective function over the optimal solution set of another stochastic convex optimization problem. We introduce novel stochastic bilevel optimization methods that locally approximate the solution set of the lower-level problem via a stochastic cutting plane, and then run a conditional gradient update with variance reduction techniques to control the error induced by using stochastic gradients. For the case that the upper-level function is convex, our method requires $\tilde{\mathcal{O}}(\max\{1/\epsilon_f^{2},1/\epsilon_g^{2}\}) $ stochastic oracle queries to obtain a solution that is $\epsilon_f$-optimal for the upper-level and $\epsilon_g$-optimal for the lower-level. This guarantee improves the previous best-known complexity of $\mathcal{O}(\max\{1/\epsilon_f^{4},1/\epsilon_g^{4}\})$. Moreover, for the case that the upper-level function is non-convex, our method requires at most $\tilde{\mathcal{O}}(\max\{1/\epsilon_f^{3},1/\epsilon_g^{3}\}) $ stochastic oracle queries to find an $(\epsilon_f, \epsilon_g)$-stationary point. In the finite-sum setting, we show that the number of stochastic oracle calls required by our method are $\tilde{\mathcal{O}}(\sqrt{n}/\epsilon)$ and $\tilde{\mathcal{O}}(\sqrt{n}/\epsilon^{2})$ for the convex and non-convex settings, respectively, where $\epsilon=\min \{\epsilon_f,\epsilon_g\}$.
翻訳日:2023-08-16 14:22:38 公開日:2023-08-15
# 改良型Few-Shotオブジェクト検出のための地域提案ネットワーク

Improved Region Proposal Network for Enhanced Few-Shot Object Detection ( http://arxiv.org/abs/2308.07535v1 )

ライセンス: Link先を確認
Zeyu Shangguan and Mohammad Rostami(参考訳) オブジェクト検出タスクにおけるディープラーニングの成功にもかかわらず、ディープニューラルネットワークの標準的なトレーニングでは、すべてのクラスにわたって大量の注釈付きイメージにアクセスする必要がある。 データアノテーションは、特に頻度の低いオブジェクトを扱う場合、困難で時間を要する取り組みです。 Few-shot Object Detection (FSOD) は、ディープラーニングに基づく古典的オブジェクト検出手法の限界に対する解決策として登場した。 FSOD法は、非常に少ないトレーニングデータを用いて、堅牢なオブジェクト検出を実現することにより、顕著な性能を示す。 FSODの課題は、固定されたトレーニングクラスのセットに属さない新しいクラスのインスタンスが背景に現れ、ベースモデルが潜在的なオブジェクトとしてそれらを拾うことだ。 これらのオブジェクトは、トレーニングデータセットクラスの1つに分類され、fsodパフォーマンスが低下するため、ラベルノイズと同様に振る舞う。 FSODトレーニング段階において,未ラベルの新規物体を正のサンプルとして検出し,利用するための半教師付きアルゴリズムを開発した。 具体的には,階層型3次分類領域提案ネットワーク (htrpn) を開発し,ラベルのない新規オブジェクトをローカライズし,それらのオブジェクトをベーストレーニングデータセットクラスと区別するための新しいオブジェクト性ラベルを割り当てる。 地域提案ネットワーク(RPN)の階層的サンプリング戦略の改善により、大規模オブジェクトに対する物体検出モデルの認識能力も向上する。 FSOD文献で一般的に用いられているCOCOおよびPASCALVOCベースラインについて検討した。 実験の結果,本手法は既存のSOTA FSOD法よりも有効であり,優れた結果が得られた。 本実装は,結果の再現性を支援するサプリメントとして提供される。

Despite significant success of deep learning in object detection tasks, the standard training of deep neural networks requires access to a substantial quantity of annotated images across all classes. Data annotation is an arduous and time-consuming endeavor, particularly when dealing with infrequent objects. Few-shot object detection (FSOD) methods have emerged as a solution to the limitations of classic object detection approaches based on deep learning. FSOD methods demonstrate remarkable performance by achieving robust object detection using a significantly smaller amount of training data. A challenge for FSOD is that instances from novel classes that do not belong to the fixed set of training classes appear in the background and the base model may pick them up as potential objects. These objects behave similarly to label noise because they are classified as one of the training dataset classes, leading to FSOD performance degradation. We develop a semi-supervised algorithm to detect and then utilize these unlabeled novel objects as positive samples during the FSOD training stage to improve FSOD performance. Specifically, we develop a hierarchical ternary classification region proposal network (HTRPN) to localize the potential unlabeled novel objects and assign them new objectness labels to distinguish these objects from the base training dataset classes. Our improved hierarchical sampling strategy for the region proposal network (RPN) also boosts the perception ability of the object detection model for large objects. We test our approach and COCO and PASCAL VOC baselines that are commonly used in FSOD literature. Our experimental results indicate that our method is effective and outperforms the existing state-of-the-art (SOTA) FSOD methods. Our implementation is provided as a supplement to support reproducibility of the results.
翻訳日:2023-08-16 14:21:21 公開日:2023-08-15
# 信頼の輪郭:不確かさを意識した医用セマンティックセグメンテーション

Confidence Contours: Uncertainty-Aware Annotation for Medical Semantic Segmentation ( http://arxiv.org/abs/2308.07528v1 )

ライセンス: Link先を確認
Andre Ye, Quan Ze Chen, Amy Zhang(参考訳) 医用画像セグメンテーションモデリングは、視覚的曖昧性に対処するために不確実性を理解することが不可欠である、高い視点の課題である。 先行研究は、アノテータが特異な境界を描くラベルから不確かさを推測するために確率的あるいは生成的メカニズムを利用したセグメンテーションモデルを開発した。 しかし、これらのアノテーションは個々のアノテーションの不確実性を表現できないため、それらに基づいて訓練されたモデルは解釈が難しい不確実性マップを生成する。 本研究では,不確実性を直接捉えるために,高信頼感と低信頼感を用いた新しいセグメンテーション表現である信頼度輪郭を提案し,輪郭を収集するための新しいアノテーションシステムを開発した。 我々はLung Image Dataset Consortium(LIDC)と合成データセットの評価を行う。 30名を対象にした注釈研究から,信頼性コンターはアノテータの努力を著しく高めることなく,高い代表能力を提供することが示された。 また、汎用セグメンテーションモデルは標準特異アノテーションと同じパフォーマンスレベルで信頼度パターンを学習することができる。 最後に、5人の医療専門家とのインタビューから、信頼度コンターマップは構造的不確実性の表現によりベイズ地図よりも解釈可能であることがわかった。

Medical image segmentation modeling is a high-stakes task where understanding of uncertainty is crucial for addressing visual ambiguity. Prior work has developed segmentation models utilizing probabilistic or generative mechanisms to infer uncertainty from labels where annotators draw a singular boundary. However, as these annotations cannot represent an individual annotator's uncertainty, models trained on them produce uncertainty maps that are difficult to interpret. We propose a novel segmentation representation, Confidence Contours, which uses high- and low-confidence ``contours'' to capture uncertainty directly, and develop a novel annotation system for collecting contours. We conduct an evaluation on the Lung Image Dataset Consortium (LIDC) and a synthetic dataset. From an annotation study with 30 participants, results show that Confidence Contours provide high representative capacity without considerably higher annotator effort. We also find that general-purpose segmentation models can learn Confidence Contours at the same performance level as standard singular annotations. Finally, from interviews with 5 medical experts, we find that Confidence Contour maps are more interpretable than Bayesian maps due to representation of structural uncertainty.
翻訳日:2023-08-16 14:20:57 公開日:2023-08-15
# featgenn:相関型特徴抽出による表データモデル性能の向上

FeatGeNN: Improving Model Performance for Tabular Data with Correlation-based Feature Extraction ( http://arxiv.org/abs/2308.07527v1 )

ライセンス: Link先を確認
Sammuel Ramos Silva and Rodrigo Silva(参考訳) 自動機能エンジニアリング(autofe:automatic feature engineering)は、モデルのパフォーマンス向上と統計解析のさらなる情報獲得に役立つため、マシンラーニングプロジェクトにおいて重要なタスクとなっている。 しかし、現在のAutoFEのアプローチのほとんどは、多数の機能を生成することができる手動の機能生成や使用方法に依存しており、計算集約的で過度な適合につながる可能性がある。 これらの課題に対処するために,相関関数をプーリング関数として,新たな特徴抽出と生成を行う,featgennと呼ばれる新しい畳み込み手法を提案する。 最大プーリングのような従来のプール機能とは異なり、相関ベースのプーリングはデータマトリックスの機能間の線形関係を考慮し、表データにより適している。 提案手法を様々なベンチマークデータセット上で評価し,FeatGeNNがモデル性能に関する既存のAutoFEアプローチより優れていることを示す。 この結果から,相関型プールは表データアプリケーションにおけるAutoFEの最大プールの代替となる可能性が示唆された。

Automated Feature Engineering (AutoFE) has become an important task for any machine learning project, as it can help improve model performance and gain more information for statistical analysis. However, most current approaches for AutoFE rely on manual feature creation or use methods that can generate a large number of features, which can be computationally intensive and lead to overfitting. To address these challenges, we propose a novel convolutional method called FeatGeNN that extracts and creates new features using correlation as a pooling function. Unlike traditional pooling functions like max-pooling, correlation-based pooling considers the linear relationship between the features in the data matrix, making it more suitable for tabular data. We evaluate our method on various benchmark datasets and demonstrate that FeatGeNN outperforms existing AutoFE approaches regarding model performance. Our results suggest that correlation-based pooling can be a promising alternative to max-pooling for AutoFE in tabular data applications.
翻訳日:2023-08-16 14:20:33 公開日:2023-08-15
# 原子力システム用ディジタル二重誘導技術におけるディープオペレータネットワークの可能性

Potential of Deep Operator Networks in Digital Twin-enabling Technology for Nuclear System ( http://arxiv.org/abs/2308.07523v1 )

ライセンス: Link先を確認
Kazuma Kobayashi, Syed Bahauddin Alam(参考訳) 本研究では,Deep Operator Network (DeepONet) を,原子力工学におけるディジタルツイン (DT) システムのコンテキストにおける堅牢な代理モデリング手法として紹介する。 炭素中性溶液としての核エネルギーの重要性が高まるにつれ、DT技術の採用は原子力工学応用における運用効率、安全性、予測能力の向上に欠かせないものとなっている。 DeepONetは、従来のMLメソッドよりも優れた予測精度を示している。 本研究では,DeepONetの大規模ベンチマークと評価を通じて,難解な粒子輸送問題の解法におけるスケーラビリティと計算効率を示す。 関数を入力データとして取り、トレーニングデータから演算子$G$を構築することで、DeepONetは多様な複雑なシナリオを効果的に処理できる。 しかし,DeepONetの応用は,センサ配置やモデル評価,実世界の実装における重要な側面に関わる課題も明らかにしている。 これらの課題に対処することで、メソッドの実用性と信頼性がさらに向上する。 deeponetは全体として、核工学の研究と応用に有望でトランスフォーメーションなツールを提供する。 その正確な予測と計算効率の能力はDTシステムに革命をもたらし、原子力工学の研究を前進させる。 本研究は、重要な工学領域におけるサロゲートモデリング技術のパワーを活用するための重要なステップである。

This research introduces the Deep Operator Network (DeepONet) as a robust surrogate modeling method within the context of digital twin (DT) systems for nuclear engineering. With the increasing importance of nuclear energy as a carbon-neutral solution, adopting DT technology has become crucial to enhancing operational efficiencies, safety, and predictive capabilities in nuclear engineering applications. DeepONet exhibits remarkable prediction accuracy, outperforming traditional ML methods. Through extensive benchmarking and evaluation, this study showcases the scalability and computational efficiency of DeepONet in solving a challenging particle transport problem. By taking functions as input data and constructing the operator $G$ from training data, DeepONet can handle diverse and complex scenarios effectively. However, the application of DeepONet also reveals challenges related to optimal sensor placement and model evaluation, critical aspects of real-world implementation. Addressing these challenges will further enhance the method's practicality and reliability. Overall, DeepONet presents a promising and transformative tool for nuclear engineering research and applications. Its accurate prediction and computational efficiency capabilities can revolutionize DT systems, advancing nuclear engineering research. This study marks an important step towards harnessing the power of surrogate modeling techniques in critical engineering domains.
翻訳日:2023-08-16 14:20:16 公開日:2023-08-15
# 微調整BERTモデルとLSTMモデルを用いた10-Kレポートからのステークホルダー情報発見

Finding Stakeholder-Material Information from 10-K Reports using Fine-Tuned BERT and LSTM Models ( http://arxiv.org/abs/2308.07522v1 )

ライセンス: Link先を確認
Victor Zitian Chen(参考訳) 公開企業はすべて、連邦証券法によって毎年10-kの報告書で事業や金融活動の開示が求められている。 レポートは通常、数百ページに及ぶため、人間の読者が素材情報を効率的に識別し抽出することが困難になる。 この問題を解決するため、LSTMレイヤを用いたBERTモデルとRNNモデルを微調整し、顧客、従業員、投資家、およびコミュニティや自然環境など、企業の利害関係者への影響に関する情報を伝達する声明として定義する。 既存のプラクティスではキーワード検索を使ってその情報を識別しています。 2022年に発表された62の10-Kレポートから6000文近いビジネス専門家ラベル付きトレーニングデータを用いて、最良のモデルは、それぞれベースラインモデルの0.781と0.749を大きく上回る0.904とF1スコアの0.899の精度を達成した。 さらに、4つの異なる利害関係者グループ(顧客、投資家、従業員、コミュニティおよび自然環境)が別々にテストされている。 同様に、微調整のBERTモデルはLSTMとベースラインを上回りました。 今後の拡張に向けた産業応用とアイデアについて論じる。

All public companies are required by federal securities law to disclose their business and financial activities in their annual 10-K reports. Each report typically spans hundreds of pages, making it difficult for human readers to identify and extract the material information efficiently. To solve the problem, I have fine-tuned BERT models and RNN models with LSTM layers to identify stakeholder-material information, defined as statements that carry information about a company's influence on its stakeholders, including customers, employees, investors, and the community and natural environment. The existing practice uses keyword search to identify such information, which is my baseline model. Using business expert-labeled training data of nearly 6,000 sentences from 62 10-K reports published in 2022, the best model has achieved an accuracy of 0.904 and an F1 score of 0.899 in test data, significantly above the baseline model's 0.781 and 0.749 respectively. Furthermore, the same work was replicated on more granular taxonomies, based on which four distinct groups of stakeholders (i.e., customers, investors, employees, and the community and natural environment) are tested separately. Similarly, fined-tuned BERT models outperformed LSTM and the baseline. The implications for industry application and ideas for future extensions are discussed.
翻訳日:2023-08-16 14:19:58 公開日:2023-08-15
# 因果構造学習における非線形性、フィードバック、均一性

Nonlinearity, Feedback and Uniform Consistency in Causal Structural Learning ( http://arxiv.org/abs/2308.07520v1 )

ライセンス: Link先を確認
Shuyan Wang(参考訳) Causal Discoveryの目的は、観測データから因果構造を学習するための自動探索方法を見つけることである。 ある場合、興味ある因果メカニズムのすべての変数が測定され、ある測定された変数が他の変数に与える影響を予測する。 対照的に、プライマリ関心のある変数は直接観測可能ではなく、データ内のその表現から推測されることもある。 これらは潜在変数と呼ばれる。 一般的な例として、知能の心理的構成があるが、これは直接測定できないため、研究者はIQテストのような様々な指標を用いて評価しようとする。 この場合、カジュアルな発見アルゴリズムは、潜在変数と観測変数との間の因果関係を明らかにするために、基礎となるパターンや構造を明らかにすることができる。 この論文は因果発見における2つの疑問に焦点を当てている: k-三角忠実性の別の定義を提供する。 (i)分布のガウス族に適用した場合、強い忠実さよりも弱い。 (ii)分布の非ガウシアン族に適用でき、 (iii) 強忠実性の修正版が持つという仮定の下では、修正因果発見アルゴリズムの均一な一貫性を示すために使用することができ、潜在変数を持つ因果構造を学ぶための十分性仮定を緩和することができる。 複雑なシステムの理解と予測における因果関係の推論の重要性を考えると, 様々な単純化仮定を緩和する研究は, 因果発見法を多種多様な因果機構と統計的現象により広い範囲に適用できるよう拡張することが期待される。

The goal of Causal Discovery is to find automated search methods for learning causal structures from observational data. In some cases all variables of the interested causal mechanism are measured, and the task is to predict the effects one measured variable has on another. In contrast, sometimes the variables of primary interest are not directly observable but instead inferred from their manifestations in the data. These are referred to as latent variables. One commonly known example is the psychological construct of intelligence, which cannot directly measured so researchers try to assess through various indicators such as IQ tests. In this case, casual discovery algorithms can uncover underlying patterns and structures to reveal the causal connections between the latent variables and between the latent and observed variables. This thesis focuses on two questions in causal discovery: providing an alternative definition of k-Triangle Faithfulness that (i) is weaker than strong faithfulness when applied to the Gaussian family of distributions, (ii) can be applied to non-Gaussian families of distributions, and (iii) under the assumption that the modified version of Strong Faithfulness holds, can be used to show the uniform consistency of a modified causal discovery algorithm; relaxing the sufficiency assumption to learn causal structures with latent variables. Given the importance of inferring cause-and-effect relationships for understanding and forecasting complex systems, the work in this thesis of relaxing various simplification assumptions is expected to extend the causal discovery method to be applicable in a wider range with diversified causal mechanism and statistical phenomena.
翻訳日:2023-08-16 14:19:33 公開日:2023-08-15
# 資源管理アルゴリズムからニューラルネットワークへの知識の希薄化:統一トレーニング支援アプローチ

Distilling Knowledge from Resource Management Algorithms to Neural Networks: A Unified Training Assistance Approach ( http://arxiv.org/abs/2308.07511v1 )

ライセンス: Link先を確認
Longfei Ma, Nan Cheng, Xiucheng Wang, Zhisheng Yin, Haibo Zhou, Wei Quan(参考訳) 基本的な問題として,マルチユーザ設定におけるsinr(signal-to-interference-plus-noise ratio)の最適化に多くの手法が組み込まれている。 従来のモデルベース最適化手法は高いパフォーマンスを実現するが、高い複雑性は、パフォーマンスと複雑性をトレードオフするためのニューラルネットワーク(NN)ベースのアプローチを高くする。 To fully leverage the high performance of traditional model-based methods and the low complexity of the NN-based method, a knowledge distillation (KD) based algorithm distillation (AD) method is proposed in this paper to improve the performance and convergence speed of the NN-based method, where traditional SINR optimization methods are employed as ``teachers" to assist the training of NNs, which are ``students", thus enhancing the performance of unsupervised and reinforcement learning techniques. 本研究の目的は,各学習パラダイムで遭遇する共通問題を緩和することであり,ラベルとしての最適解の獲得や教師なし学習における過度な適合性,教師なし学習における収束性能の向上,強化学習における訓練効率の向上などである。 シミュレーションの結果,従来の学習手法と比較してAD法の性能が向上した。 この研究は,無線通信システム最適化における従来の最適化洞察と新しいNN技術の統合の道を開くものである。

As a fundamental problem, numerous methods are dedicated to the optimization of signal-to-interference-plus-noise ratio (SINR), in a multi-user setting. Although traditional model-based optimization methods achieve strong performance, the high complexity raises the research of neural network (NN) based approaches to trade-off the performance and complexity. To fully leverage the high performance of traditional model-based methods and the low complexity of the NN-based method, a knowledge distillation (KD) based algorithm distillation (AD) method is proposed in this paper to improve the performance and convergence speed of the NN-based method, where traditional SINR optimization methods are employed as ``teachers" to assist the training of NNs, which are ``students", thus enhancing the performance of unsupervised and reinforcement learning techniques. This approach aims to alleviate common issues encountered in each of these training paradigms, including the infeasibility of obtaining optimal solutions as labels and overfitting in supervised learning, ensuring higher convergence performance in unsupervised learning, and improving training efficiency in reinforcement learning. Simulation results demonstrate the enhanced performance of the proposed AD-based methods compared to traditional learning methods. Remarkably, this research paves the way for the integration of traditional optimization insights and emerging NN techniques in wireless communication system optimization.
翻訳日:2023-08-16 14:19:08 公開日:2023-08-15
# 高信頼・低信頼予測による半監督学習の促進

Boosting Semi-Supervised Learning by bridging high and low-confidence predictions ( http://arxiv.org/abs/2308.07509v1 )

ライセンス: Link先を確認
Khanh-Binh Nguyen, Joon-Sung Yang(参考訳) Pseudo-labelingは半教師付き学習(SSL)において重要なテクニックであり、トレーニングされたモデルによってラベルなしデータに対して人工ラベルを生成する。 しかし、いくつかの研究は疑似ラベルに基づくアプローチの3つの主要な問題を特定している。 第一に、これらの手法はトレーニングされたモデルからの予測に大きく依存しており、必ずしも正確とは限らないため、確認バイアス問題を引き起こす。 第二に、訓練されたモデルは難解な例に過度に適合し、難解な例を無視して、既に強いものが強くなり弱くなる「textit{"Matthew effect"」となる。 第3に、ラベルなしデータの低信頼予測のほとんどは、高いしきい値の使用によって破棄され、トレーニング中のラベルなしデータの未利用につながる。 これらの問題に対処するために,トレーニング中にラベルのないデータをすべて活用し,モデルの一般化性とsslベンチマークの性能を向上させることを目的とした,refixmatchと呼ばれる新しい手法を提案する。 特に、ReFixMatchはImageNet上の100kラベルの例で41.05\%のトップ-1の精度を実現し、ベースラインのFixMatchと現在の最先端メソッドを上回っている。

Pseudo-labeling is a crucial technique in semi-supervised learning (SSL), where artificial labels are generated for unlabeled data by a trained model, allowing for the simultaneous training of labeled and unlabeled data in a supervised setting. However, several studies have identified three main issues with pseudo-labeling-based approaches. Firstly, these methods heavily rely on predictions from the trained model, which may not always be accurate, leading to a confirmation bias problem. Secondly, the trained model may be overfitted to easy-to-learn examples, ignoring hard-to-learn ones, resulting in the \textit{"Matthew effect"} where the already strong become stronger and the weak weaker. Thirdly, most of the low-confidence predictions of unlabeled data are discarded due to the use of a high threshold, leading to an underutilization of unlabeled data during training. To address these issues, we propose a new method called ReFixMatch, which aims to utilize all of the unlabeled data during training, thus improving the generalizability of the model and performance on SSL benchmarks. Notably, ReFixMatch achieves 41.05\% top-1 accuracy with 100k labeled examples on ImageNet, outperforming the baseline FixMatch and current state-of-the-art methods.
翻訳日:2023-08-16 14:18:48 公開日:2023-08-15
# Neバッファーガスを用いたセル中での$^{85}$Rb蒸気のRydberg-EIT

Rydberg-EIT of $^{85}$Rb vapor in a cell with Ne buffer gas ( http://arxiv.org/abs/2308.07554v1 )

ライセンス: Link先を確認
Nithiwadee Thaicharoen, Ryan Cardman, Georg Raithel(参考訳) 我々は,5-トルネオンバッファーガスを含むガラスセル中の$^{85}$Rb原子蒸気のリドバーグ電磁誘導透過(EIT)について検討した。 ロープローブパワーでは、EIT線は約70〜MHzの正の周波数シフトを示し、約120〜MHzの幅を拡大し、ライドバーグ状態の主量子数に最小限依存する。 EIT線シフトは、リドベルク電子とネ原子間のs波散乱によって発生し、190〜MHz付近の正のシフトを誘導し、また、リドベルク原子内のネ原子の偏極によって-120~MHz付近の負のシフトが生じる。 線幅拡大は、主にne偏光によるものである。 実験結果は,バッファガス密度が線形となる理論モデルと良好に一致している。 以上の結果から,Rydberg-EITは低圧力下でのバッファーガス密度の直接分光プローブとして機能し,低圧希ガス放電プラズマおよびダスト状プラズマ中の電界の非侵襲的測定に好適であることが示唆された。

We investigate Rydberg electromagnetically induced transparency (EIT) of $^{85}$Rb atomic vapor in a glass cell that contains a 5-Torr neon buffer gas. At low probe power, EIT lines exhibit a positive frequency shift of about 70~MHz and a broadening of about 120~MHz, with minimal dependence on the principal quantum number of the Rydberg states. The EIT line shift arises from s-wave scattering between the Rydberg electron and the Ne atoms, which induces a positive shift near 190~MHz, and from the polarization of the Ne atoms within the Rydberg atom, which adds a negative shift near -120~MHz. The line broadening is largely due to the Ne polarization. Our experimental results are in good qualitative agreement with our theoretical model, in which the shift is linear in buffer-gas density. Our results suggest that Rydberg-EIT can serve as a direct spectroscopic probe for buffer-gas density at low pressure, and that it is suitable for non-invasive measurement of electric fields in low-pressure noble-gas discharge plasmas and in dusty plasmas.
翻訳日:2023-08-16 14:11:27 公開日:2023-08-15
# antidoteの強化: 中毒攻撃に対するポイントワイズ認定の改善

Enhancing the Antidote: Improved Pointwise Certifications against Poisoning Attacks ( http://arxiv.org/abs/2308.07553v1 )

ライセンス: Link先を確認
Shijie Liu, Andrew C. Cullen, Paul Montague, Sarah M. Erfani, Benjamin I. P. Rubinstein(参考訳) 毒殺攻撃は、トレーニングコーパスに小さな変更を加えることで、モデルの振る舞いに不釣り合いに影響を及ぼす。 特定の毒殺攻撃に対する防御は存在するが、一般的には保証がなく、新しい攻撃によって対抗する可能性がある。 対照的に、最悪の場合の振る舞いを調べることで、認証された防衛は、ポイントワイド認証として知られる限られた数のトレーニングサンプルを変更する敵攻撃に対して、サンプルの堅牢性を保証することができる。 これを実現するために、差分プライバシーとサンプリングガウス機構の両方を利用して、有限個の有毒例に対して各テストインスタンスの予測のばらつきを確実にする。 そうすることで、我々のモデルは、先行認定の2倍以上の大きさの敵対的堅牢性の保証を提供する。

Poisoning attacks can disproportionately influence model behaviour by making small changes to the training corpus. While defences against specific poisoning attacks do exist, they in general do not provide any guarantees, leaving them potentially countered by novel attacks. In contrast, by examining worst-case behaviours Certified Defences make it possible to provide guarantees of the robustness of a sample against adversarial attacks modifying a finite number of training samples, known as pointwise certification. We achieve this by exploiting both Differential Privacy and the Sampled Gaussian Mechanism to ensure the invariance of prediction for each testing instance against finite numbers of poisoned examples. In doing so, our model provides guarantees of adversarial robustness that are more than twice as large as those provided by prior certifications.
翻訳日:2023-08-16 14:11:04 公開日:2023-08-15
# 火炎に基づく多視点3次元顔再構成

Multi-view 3D Face Reconstruction Based on Flame ( http://arxiv.org/abs/2308.07551v1 )

ライセンス: Link先を確認
Wenzhuo Zheng, Junhao Zhao, Xiaohong Liu, Yongyang Pan, Zhenghao Gan, Haozhe Han, Ning Liu(参考訳) 現在,face 3dリコンストラクションは様々な分野で広く応用されているが,その研究はまだ開発段階にある。 本稿では,マルチビュー・トレーニングフレームワークとフェイスパラメトリック・モデル・フレイムを組み合わせることで,より優れた顔3次元再現性の実現を図り,マルチビュー・トレーニング・テストモデルmfnet(multi-view flame network)を提案する。 我々は,自己指導型トレーニングフレームワークを構築し,多視点光フロー損失関数や顔ランドマーク損失などの制約を実装し,最終的に完全なMFNetを得る。 マルチビュー光フロー損失と可視マスクの革新的実装を提案する。 aflwとfacescapeデータセットでモデルをテストし、実際のシナリオを可能な限りシミュレーションしながら、顔の写真を撮って3d顔を再構築します。 本研究は, 顔のパラメトリックモデルと顔の3次元再構成を併用する問題に主に対処し, 顔の3次元再構成に寄与するFlameベースのマルチビュートレーニングおよびテストフレームワークの実装について検討する。

At present, face 3D reconstruction has broad application prospects in various fields, but the research on it is still in the development stage. In this paper, we hope to achieve better face 3D reconstruction quality by combining multi-view training framework with face parametric model Flame, propose a multi-view training and testing model MFNet (Multi-view Flame Network). We build a self-supervised training framework and implement constraints such as multi-view optical flow loss function and face landmark loss, and finally obtain a complete MFNet. We propose innovative implementations of multi-view optical flow loss and the covisible mask. We test our model on AFLW and facescape datasets and also take pictures of our faces to reconstruct 3D faces while simulating actual scenarios as much as possible, which achieves good results. Our work mainly addresses the problem of combining parametric models of faces with multi-view face 3D reconstruction and explores the implementation of a Flame based multi-view training and testing framework for contributing to the field of face 3D reconstruction.
翻訳日:2023-08-16 14:10:51 公開日:2023-08-15
# 導波路QEDにおける温度関連単一光子輸送

Temperature-related single-photon transport in waveguide QED ( http://arxiv.org/abs/2308.07548v1 )

ライセンス: Link先を確認
Wei-Bin Yan, Zhong-Xiao Man, Ying-Jie Zhang, and Yun-Jie Xia(参考訳) 温度の影響を受ける単一光子輸送を実現する手法を提案する。 このスキームは、熱浴に結合した導波路-原子相互作用構造によって構成される。 熱浴の温度を調整することにより、単光子反射係数を調整できる。 これは単光子輸送の熱制御を提供する。 また、単光子輸送を測定することにより、熱浴の温度を推定することができる。 温度の推定は、低温のわずかな変化に敏感である可能性が考えられる。 これは、低温領域の試料温度を正確に測定できる光学温度計を実装するための道を意味する。

We propose a scheme to realize the single-photon transport affected by the temperature. The scheme is composed by a waveguide-atom interacting structure linked to a thermal bath. The single-photon reflection coefficient can be tuned by adjusting the temperature of the thermal bath. This provides a thermal control of the single-photon transport. Moreover, the temperature of the thermal bath can be estimated by measuring the single-photon transport. It is feasible that the estimation on the temperature is sensitive to slight changes of low temperature. This implies an avenue for implementing the optical thermometer with the ability to accurately measure the sample temperature in the low-temperature region.
翻訳日:2023-08-16 14:10:31 公開日:2023-08-15
# 3DHacker: ハードラベル3Dポイントクラウド攻撃のためのスペクトルベースの決定境界生成

3DHacker: Spectrum-based Decision Boundary Generation for Hard-label 3D Point Cloud Attack ( http://arxiv.org/abs/2308.07546v1 )

ライセンス: Link先を確認
Yunbo Tao, Daizong Liu, Pan Zhou, Yulai Xie, Wei Du, Wei Hu(参考訳) 深度センサーの成熟に伴い、3Dポイントクラウドモデルの脆弱性は、自律運転やロボットナビゲーションといった様々なアプリケーションで注目を集めている。 従来の3D攻撃者は、ホワイトボックス設定に従い、勾配に基づいて座標摂動を反復的に更新するか、出力モデルロジットを使用してブラックボックス設定のノイズ勾配を推定する。 しかし、現実的な3Dアプリケーションではユーザにモデルの詳細を共有できないため、これらの攻撃方法は現実のシナリオに展開するのは難しい。 そこで我々は,攻撃者が入力の予測ラベルへのアクセスしかできないブラックボックスのハードラベルでポイントクラウドを攻撃する,より挑戦的で実用的な3dアタック設定である \textit{i.e.} を探索する。 そこで本研究では, クラスラベルの知識にのみ依存した敵対的サンプルを生成するための決定境界アルゴリズムに基づいて, 新たな3Dアタック手法である「textbf{3D} \textbf{H}ard-label att\textbf{acker} (\textbf{3DHacker})」を提案する。 具体的には、クラス認識モデル決定境界を構築するために、3DHackerはまずスペクトル領域内の異なるクラスの2点の雲をランダムに融合し、中間サンプルを高い知覚力で作成し、二分探索によって決定境界に投影する。 最終的な摂動サイズを制限するため、3DHackerはさらに、最小の自明な摂動を持つ対向点雲を生成するための中間サンプルを決定境界に沿って移動させる反復最適化戦略を導入する。 大規模な評価では、挑戦的なハードラベル設定であっても、3DHackerは攻撃性能と敵の品質に関する既存の3D攻撃よりも競争力が高いことが示されている。

With the maturity of depth sensors, the vulnerability of 3D point cloud models has received increasing attention in various applications such as autonomous driving and robot navigation. Previous 3D adversarial attackers either follow the white-box setting to iteratively update the coordinate perturbations based on gradients, or utilize the output model logits to estimate noisy gradients in the black-box setting. However, these attack methods are hard to be deployed in real-world scenarios since realistic 3D applications will not share any model details to users. Therefore, we explore a more challenging yet practical 3D attack setting, \textit{i.e.}, attacking point clouds with black-box hard labels, in which the attacker can only have access to the prediction label of the input. To tackle this setting, we propose a novel 3D attack method, termed \textbf{3D} \textbf{H}ard-label att\textbf{acker} (\textbf{3DHacker}), based on the developed decision boundary algorithm to generate adversarial samples solely with the knowledge of class labels. Specifically, to construct the class-aware model decision boundary, 3DHacker first randomly fuses two point clouds of different classes in the spectral domain to craft their intermediate sample with high imperceptibility, then projects it onto the decision boundary via binary search. To restrict the final perturbation size, 3DHacker further introduces an iterative optimization strategy to move the intermediate sample along the decision boundary for generating adversarial point clouds with smallest trivial perturbations. Extensive evaluations show that, even in the challenging hard-label setting, 3DHacker still competitively outperforms existing 3D attacks regarding the attack performance as well as adversary quality.
翻訳日:2023-08-16 14:10:23 公開日:2023-08-15
# 画像検索のためのマルチモーダルデータセット蒸留

Multimodal Dataset Distillation for Image-Text Retrieval ( http://arxiv.org/abs/2308.07545v1 )

ライセンス: Link先を確認
Xindi Wu, Zhiwei Deng, Olga Russakovsky(参考訳) データセット蒸留法は、大規模なデータセットを、新しいモデルをスクラッチからトレーニングするのに十分な情報を保存する(潜在的に合成された)トレーニング例のかなり小さなセットに削減できる。 これまで画像分類のためのデータセット蒸留法が開発されてきた。 しかし、視覚言語モデルの能力が高まり、特にこれらのモデルの訓練に必要なデータセットの規模を考えると、データセットの蒸留法を画像分類以外にも拡張する時期が熟成している。 本研究では, 軌跡マッチングの考え方を拡張し, 視覚言語データセットの蒸留法を作成することで, この目標に向けて第一歩を踏み出す。 重要な課題は、視覚言語データセットが離散クラスの集合を持っていないことである。 そこで本研究では,画像と対応する言語記述をコントラスト式で共同蒸留する多モードデータセット蒸留法を提案する。 既存のベースラインがないため、我々のアプローチを3つのコアセット選択方法(トレーニングデータセットの戦略的なサブサンプリング)と比較し、視覚言語の設定に適応する。 flickr30k と coco 検索ベンチマークの課題に対して大きな改善が得られた: トレーニングのために1000のイメージテキストペアを選択できる最良のコアセット選択手法は、5.6%のイメージからテキストへの検索精度(recall@1)しか達成できない。

Dataset distillation methods offer the promise of reducing a large-scale dataset down to a significantly smaller set of (potentially synthetic) training examples, which preserve sufficient information for training a new model from scratch. So far dataset distillation methods have been developed for image classification. However, with the rise in capabilities of vision-language models, and especially given the scale of datasets necessary to train these models, the time is ripe to expand dataset distillation methods beyond image classification. In this work, we take the first steps towards this goal by expanding on the idea of trajectory matching to create a distillation method for vision-language datasets. The key challenge is that vision-language datasets do not have a set of discrete classes. To overcome this, our proposed multimodal dataset distillation method jointly distill the images and their corresponding language descriptions in a contrastive formulation. Since there are no existing baselines, we compare our approach to three coreset selection methods (strategic subsampling of the training dataset), which we adapt to the vision-language setting. We demonstrate significant improvements on the challenging Flickr30K and COCO retrieval benchmark: the best coreset selection method which selects 1000 image-text pairs for training is able to achieve only 5.6% image-to-text retrieval accuracy (recall@1); in contrast, our dataset distillation approach almost doubles that with just 100 (an order of magnitude fewer) training pairs.
翻訳日:2023-08-16 14:09:49 公開日:2023-08-15
# 強化学習(rl)によるサーバーレスコンピューティングにおけるコールドスタート頻度の低減

Reinforcement Learning (RL) Augmented Cold Start Frequency Reduction in Serverless Computing ( http://arxiv.org/abs/2308.07541v1 )

ライセンス: Link先を確認
Siddharth Agarwal, Maria A. Rodriguez, Rajkumar Buyya(参考訳) function-as-a-serviceは、アプリケーションにイベント駆動実行モデルを提供するクラウドコンピューティングパラダイムである。 開発者からリソース管理の責務を排除し、アプリケーションの透過的かつオンデマンドなスケーラビリティを提供する。 一般的なサーバーレスアプリケーションは、応答時間とスケーラビリティの要件が厳しいため、クライアントに迅速かつフォールトトレラントなフィードバックを提供するために、デプロイされたサービスに依存する。 しかし、FaaSパラダイムはオンデマンド関数の初期化に伴う非無視的な遅延があるため、コールドスタートに苦しむ。 本研究は強化学習を用いて,プラットフォーム上でのコールドスタート頻度の低減に重点を置いている。 提案手法ではQ-learningを用いて,期待する要求に基づいて,関数CPU利用,既存関数インスタンス,応答障害率などのメトリクスを前向きに初期化する。 提案手法はkubeless上で実装され,実世界の関数要求トレースと行列乗算を負荷として評価した。 その結果,最大8.81%のスループット向上と最大55%,37%の計算負荷とリソース浪費削減により,kubelessのデフォルトポリシや関数保留ポリシと比較した場合,rlベースのエージェントが好適な性能を示し,コールドスタートの直接的な結果となった。

Function-as-a-Service is a cloud computing paradigm offering an event-driven execution model to applications. It features serverless attributes by eliminating resource management responsibilities from developers and offers transparent and on-demand scalability of applications. Typical serverless applications have stringent response time and scalability requirements and therefore rely on deployed services to provide quick and fault-tolerant feedback to clients. However, the FaaS paradigm suffers from cold starts as there is a non-negligible delay associated with on-demand function initialization. This work focuses on reducing the frequency of cold starts on the platform by using Reinforcement Learning. Our approach uses Q-learning and considers metrics such as function CPU utilization, existing function instances, and response failure rate to proactively initialize functions in advance based on the expected demand. The proposed solution was implemented on Kubeless and was evaluated using a normalised real-world function demand trace with matrix multiplication as the workload. The results demonstrate a favourable performance of the RL-based agent when compared to Kubeless' default policy and function keep-alive policy by improving throughput by up to 8.81% and reducing computation load and resource wastage by up to 55% and 37%, respectively, which is a direct outcome of reduced cold starts.
翻訳日:2023-08-16 14:09:24 公開日:2023-08-15
# CALYPSO:ダンジョンマスターズアシスタントとしてのLLM

CALYPSO: LLMs as Dungeon Masters' Assistants ( http://arxiv.org/abs/2308.07540v1 )

ライセンス: Link先を確認
Andrew Zhu and Lara J. Martin and Andrew Head and Chris Callison-Burch(参考訳) ダンジョンズ&ドラゴンズゲームにおけるダンジョンマスター(dm)の役割は、複数のタスクを同時に実行することである。 DMはゲーム設定やモンスターに関する情報を消化し、他のプレイヤーに提示するためにシーンを合成し、プレイヤーのシーンとの相互作用に応答しなければならない。 物語と物語の世界における一貫性を維持しながらこれらすべてのタスクを実行することは、人間の認識の小さな偉業ではありません。 GPT-3やChatGPTのような大規模言語モデル(LLM)は、一貫性のある自然言語テキストを生成する優れた能力を示している。 本稿では,D&D とテーブルトップゲームにおける LLM のユースケースを確立するため,DM を用いた形式的評価を行う。 我々はcalypsoを紹介する。calypsoは、dmsをサポートするllmベースのインタフェースシステムで、それぞれのシナリオに固有の情報とインスピレーションを提供する。 CALYPSOはゲームコンテキストを口径の散文に蒸留し、ゲームからDMを邪魔することなくアイデアをブレインストーミングする。 CALYPSOへのアクセスが認められたとき、DMはプレイヤーへの直接のプレゼンテーションに適した高忠実なテキストを生成し、DMがクリエイティブエージェンシーを維持しながらさらに発展できるという低忠実なアイデアを作成したと報告した。 私たちはCALYPSOを、確立したゲームの世界における同期的な創造的支援を提供するAI拡張ツールのパラダイムを実証し、テーブルトップゲームをより広範に行なっています。

The role of a Dungeon Master, or DM, in the game Dungeons & Dragons is to perform multiple tasks simultaneously. The DM must digest information about the game setting and monsters, synthesize scenes to present to other players, and respond to the players' interactions with the scene. Doing all of these tasks while maintaining consistency within the narrative and story world is no small feat of human cognition, making the task tiring and unapproachable to new players. Large language models (LLMs) like GPT-3 and ChatGPT have shown remarkable abilities to generate coherent natural language text. In this paper, we conduct a formative evaluation with DMs to establish the use cases of LLMs in D&D and tabletop gaming generally. We introduce CALYPSO, a system of LLM-powered interfaces that support DMs with information and inspiration specific to their own scenario. CALYPSO distills game context into bite-sized prose and helps brainstorm ideas without distracting the DM from the game. When given access to CALYPSO, DMs reported that it generated high-fidelity text suitable for direct presentation to players, and low-fidelity ideas that the DM could develop further while maintaining their creative agency. We see CALYPSO as exemplifying a paradigm of AI-augmented tools that provide synchronous creative assistance within established game worlds, and tabletop gaming more broadly.
翻訳日:2023-08-16 14:09:01 公開日:2023-08-15
# 少数ショットセグメンテーションのための視覚的およびテキスト的事前マスクアセンブラ

Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation and Beyond ( http://arxiv.org/abs/2308.07539v1 )

ライセンス: Link先を確認
Chen Shuai, Meng Fanman, Zhang Runtong, Qiu Heqian, Li Hongliang, Wu Qingbo, Xu Linfeng(参考訳) Few-shot segmentation (FSS) は、いくつかの注釈付き画像で新しいクラスを分類することを目的としている。 CLIPの利点は、視覚情報とテキスト情報の整合性にあるため、CLIPの統合は、FSSモデルの一般化能力を高めることができる。 しかし、CLIPモデルでさえ、既存のCLIPベースのFSSメソッドは、クラス固有の特徴レベルの相互作用によって引き起こされるベースクラスに対するバイアス付き予測の対象となっている。 そこで本稿では,視覚およびテキストに先行したマスクアセンブラネットワーク(pgma-net)を提案する。 バイアスを軽減するためにクラス非依存のマスク組立プロセスを採用し、親和性を通じて前者を組み立てることで多様なタスクを統一的な方法で定式化する。 特に、クラス関係のテキスト的および視覚的特徴は、まず確率写像の形で、クラス非依存に変換される。 次に、複数のGAU(General Assemble Units)を含むPGMAM(Presideed-Guided Mask Assemble Module)を導入する。 視覚・テクスチュアル、インター・イントラ・イメージ、トレーニングフリー、高階の対話など、多種多様なプラグ・アンド・プレイの相互作用を考慮に入れている。 最後に, 階層型デコーダ(HDCDM)を提案し, 組立マスクと低レベル特徴を, クラス固有の情報に頼らずに柔軟に活用する。 1ショットシナリオでは、mIoUは$7.6$ on $\text{PASCAL-}5^i$と$59.4$ on $\text{COCO-}20^i$である。 これ以外にも,提案するPGMA-Netは,余分なトレーニングを伴わずに,bboxレベルとクロスドメインのFSS,コセグメンテーション,ゼロショットセグメンテーション(ZSS)タスクを解き,非ショットセグメンテーションフレームワークを導くことができることを示す。

Few-shot segmentation (FSS) aims to segment the novel classes with a few annotated images. Due to CLIP's advantages of aligning visual and textual information, the integration of CLIP can enhance the generalization ability of FSS model. However, even with the CLIP model, the existing CLIP-based FSS methods are still subject to the biased prediction towards base classes, which is caused by the class-specific feature level interactions. To solve this issue, we propose a visual and textual Prior Guided Mask Assemble Network (PGMA-Net). It employs a class-agnostic mask assembly process to alleviate the bias, and formulates diverse tasks into a unified manner by assembling the prior through affinity. Specifically, the class-relevant textual and visual features are first transformed to class-agnostic prior in the form of probability map. Then, a Prior-Guided Mask Assemble Module (PGMAM) including multiple General Assemble Units (GAUs) is introduced. It considers diverse and plug-and-play interactions, such as visual-textual, inter- and intra-image, training-free, and high-order ones. Lastly, to ensure the class-agnostic ability, a Hierarchical Decoder with Channel-Drop Mechanism (HDCDM) is proposed to flexibly exploit the assembled masks and low-level features, without relying on any class-specific information. It achieves new state-of-the-art results in the FSS task, with mIoU of $77.6$ on $\text{PASCAL-}5^i$ and $59.4$ on $\text{COCO-}20^i$ in 1-shot scenario. Beyond this, we show that without extra re-training, the proposed PGMA-Net can solve bbox-level and cross-domain FSS, co-segmentation, zero-shot segmentation (ZSS) tasks, leading an any-shot segmentation framework.
翻訳日:2023-08-16 14:08:37 公開日:2023-08-15
# 天文警報のリアル/ボガス分類のためのミニマックスエントロピーによる領域適応

Domain Adaptation via Minimax Entropy for Real/Bogus Classification of Astronomical Alerts ( http://arxiv.org/abs/2308.07538v1 )

ライセンス: Link先を確認
Guillermo Cabrera-Vives, C\'esar Bolivar, Francisco F\"orster, Alejandra M. Mu\~noz Arancibia, Manuel P\'erez-Carrasco, Esteban Reyes(参考訳) 時間領域天文学は、複数の巨大なデータセットをリアルタイムで分析し、マルチストリーム機械学習モデルの開発を促進する。 本研究では、HiTS、DES、ATLAS、ZTFの4つの異なるデータセットを用いて、実際の天体警報の分類のためのドメイン適応(DA)について検討する。 本研究では,これらのデータセット間の領域シフトについて検討し,Minimax Entropy (MME) を用いた微調整手法と半教師付き深度DAを用いて,自然な深度学習分類モデルを改善する。 これらのモデルのバランスの取れた精度を、異なるソースターゲットシナリオと比較する。 微調整モデルとMMEモデルの両方が、ターゲットデータセットから来るクラス毎のラベル付き項目が1つも少なく、ベースモデルを大幅に改善していることがわかったが、MMEはソースデータセットのパフォーマンスを損なわない。

Time domain astronomy is advancing towards the analysis of multiple massive datasets in real time, prompting the development of multi-stream machine learning models. In this work, we study Domain Adaptation (DA) for real/bogus classification of astronomical alerts using four different datasets: HiTS, DES, ATLAS, and ZTF. We study the domain shift between these datasets, and improve a naive deep learning classification model by using a fine tuning approach and semi-supervised deep DA via Minimax Entropy (MME). We compare the balanced accuracy of these models for different source-target scenarios. We find that both the fine tuning and MME models improve significantly the base model with as few as one labeled item per class coming from the target dataset, but that the MME does not compromise its performance on the source dataset.
翻訳日:2023-08-16 14:07:57 公開日:2023-08-15
# 逐次予測器による高確率リスク境界

High-Probability Risk Bounds via Sequential Predictors ( http://arxiv.org/abs/2308.07588v1 )

ライセンス: Link先を確認
Dirk van der Hoeven, Nikita Zhivotovskiy, Nicol\`o Cesa-Bianchi(参考訳) オンライン学習手法は最小限の仮定の下で逐次後悔境界を導き、統計的学習のための予測外リスク境界を提供する。 しかし、オンラインの保証が統計的に有利であることは明らかであるが、近年の知見は、多くの重要なケースにおいて、後悔の限界は統計的な状況において厳密な高い確率的リスク境界を保証していないことを示唆している。 本稿では、オンラインからバッチへの変換を一般的なオンライン学習アルゴリズムに適用することで、この制限を回避できることを示す。 後悔を定義する損失関数に対する一般的な二階補正により、離散分布推定、線形回帰、ロジスティック回帰、条件密度推定などのいくつかの古典的統計量推定問題に対して、ほぼ最適な高確率リスク境界を求める。 私たちの分析は、多くのオンライン学習アルゴリズムが不適切であるという事実に依存しています。 推定器の不適切な性質は、様々な問題パラメータへの依存性を大幅に改善することができる。 最後に、既存のバッチアルゴリズムに比べて、逐次アルゴリズムの計算上の利点について論じる。

Online learning methods yield sequential regret bounds under minimal assumptions and provide in-expectation risk bounds for statistical learning. However, despite the apparent advantage of online guarantees over their statistical counterparts, recent findings indicate that in many important cases, regret bounds may not guarantee tight high-probability risk bounds in the statistical setting. In this work we show that online to batch conversions applied to general online learning algorithms can bypass this limitation. Via a general second-order correction to the loss function defining the regret, we obtain nearly optimal high-probability risk bounds for several classical statistical estimation problems, such as discrete distribution estimation, linear regression, logistic regression, and conditional density estimation. Our analysis relies on the fact that many online learning algorithms are improper, as they are not restricted to use predictors from a given reference class. The improper nature of our estimators enables significant improvements in the dependencies on various problem parameters. Finally, we discuss some computational advantages of our sequential algorithms over their existing batch counterparts.
翻訳日:2023-08-16 14:02:12 公開日:2023-08-15
# QASMTrans: NISQデバイス向けQASMベースの量子トランスパイラフレームワーク

QASMTrans: A QASM based Quantum Transpiler Framework for NISQ Devices ( http://arxiv.org/abs/2308.07581v1 )

ライセンス: Link先を確認
Fei Hua, Meng Wang, Gushu Li, Bo Peng, Chenxu Liu, Muqing Zheng, Samuel Stein, Yufei Ding, Eddy Z. Zhang, Travis S. Humble, Ang Li(参考訳) 量子アルゴリズムの成功は、アプリケーションインダクションの成功をオーケストレーションする能力にかかっている。 一般的な量子回路を物理的に実装可能なルーチンにマッピングする際の有害なオーバーヘッドは、成功と誤回路誘導の間の決定要因となる。 QASMTransでは、高速な回路透過の問題に焦点をあてる。 トランスパイレーションは、高レベルの機械に依存しない回路を物理的トポロジーと支持ゲートセットに制約されたマシン固有の回路に変換する上で重要な役割を果たす。 特に量子ビット間の高い相互作用を必要とする大きな回路を扱う場合、トランスパイルの効率は依然として重大なボトルネックとなっている。 QASMTransは高性能なC++量子トランスパイラフレームワークで、一般的なQiskitトランスパイラと比較して最大369倍のスピードアップを示す。 我々は, o(10^6)ゲートを必要とするudcsd_n24やqft_n320などの高密度回路の高速化を観測する。 QASMTrans は前述の回路を69sと31sでトランスパイルし、一方 Qiskit は1時間のトランスパイル時間を超えた。 QASMTransは、以前のトランスパイラのわずかな時間でトランスパイラ回路を提供するため、潜在的な設計空間探索とヒューリスティックベースのトランスパイラ設計は、大幅にトラクタブルになる。 QASMTransはhttp://github.com/pnnl/qasmtransでリリースされた。

The success of a quantum algorithm hinges on the ability to orchestrate a successful application induction. Detrimental overheads in mapping general quantum circuits to physically implementable routines can be the deciding factor between a successful and erroneous circuit induction. In QASMTrans, we focus on the problem of rapid circuit transpilation. Transpilation plays a crucial role in converting high-level, machine-agnostic circuits into machine-specific circuits constrained by physical topology and supported gate sets. The efficiency of transpilation continues to be a substantial bottleneck, especially when dealing with larger circuits requiring high degrees of inter-qubit interaction. QASMTrans is a high-performance C++ quantum transpiler framework that demonstrates up to 369X speedups compared to the commonly used Qiskit transpiler. We observe speedups on large dense circuits such as uccsd_n24 and qft_n320 which require O(10^6) gates. QASMTrans successfully transpiles the aforementioned circuits in 69s and 31s, whilst Qiskit exceeded an hour of transpilation time. With QASMTrans providing transpiled circuits in a fraction of the time of prior transpilers, potential design space exploration, and heuristic-based transpiler design becomes substantially more tractable. QASMTrans is released at http://github.com/pnnl/qasmtrans.
翻訳日:2023-08-16 14:01:54 公開日:2023-08-15
# autolts: コントラスト学習と空間後処理によるサイクリングストレス評価の自動化

AutoLTS: Automating Cycling Stress Assessment via Contrastive Learning and Spatial Post-processing ( http://arxiv.org/abs/2308.07580v1 )

ライセンス: Link先を確認
Bo Lin, Shoshanna Saxe, Timothy C. Y. Chan(参考訳) 自転車のストレスアセスメントは、構築された環境や交通機関によって課されるサイクリストの認識されたストレスを定量化し、自転車のインフラ計画や自転車のルート推奨を通知する。 しかし、現在のサイクリングストレスの計算は遅く、データ集約的であり、幅広い応用を妨げる。 本稿では,街路画像に基づく都市道路網の高精度・高速・大規模サイクリングストレス評価を支援するためのディープラーニングフレームワークを提案する。 フレームワークの特徴 一 サイクリングストレスラベル間の順序関係を利用した対照的な学習方法 二 予測に空間的滑らかさを強制する後処理技術。 カナダ・トロントで収集された39,153個の道路セグメントのデータセットについて,我々は,高品位道路形状と自動車交通データがない場合,画像データを用いたサイクリングストレス評価の有効性を示す。

Cycling stress assessment, which quantifies cyclists' perceived stress imposed by the built environment and motor traffics, increasingly informs cycling infrastructure planning and cycling route recommendation. However, currently calculating cycling stress is slow and data-intensive, which hinders its broader application. In this paper, We propose a deep learning framework to support accurate, fast, and large-scale cycling stress assessments for urban road networks based on street-view images. Our framework features i) a contrastive learning approach that leverages the ordinal relationship among cycling stress labels, and ii) a post-processing technique that enforces spatial smoothness into our predictions. On a dataset of 39,153 road segments collected in Toronto, Canada, our results demonstrate the effectiveness of our deep learning framework and the value of using image data for cycling stress assessment in the absence of high-quality road geometry and motor traffic data.
翻訳日:2023-08-16 14:01:33 公開日:2023-08-15
# コンテキストメモリを用いたオンラインテキスト拡張によるストーリーの可視化

Story Visualization by Online Text Augmentation with Context Memory ( http://arxiv.org/abs/2308.07575v1 )

ライセンス: Link先を確認
Daechul Ahn, Daneul Kim, Gwangmo Song, Seung Hwan Kim, Honglak Lee, Dongyeop Kang, Jonghyun Choi(参考訳) ストーリービジュアライゼーション(sv)は、テキスト記述から視覚的詳細をレンダリングするだけでなく、複数の文章にまたがる長期的なコンテキストをエンコードするのも困難である。 それまでの取り組みは、文ごとに意味論的に関連のある画像を生成することに集中していたが、コンテキストが与えられた段落全体に広がり、コンテクスト的に説得力のある画像(例えば、正しいキャラクタやシーンの適切な背景)を生成することが課題である。 そこで本研究では,オンラインテキスト拡張機能を備えた双方向トランスフォーマの新たなメモリアーキテクチャを提案する。 Pororo-SVとFlintstones-SVという2つの人気のあるSVベンチマークの広範な実験において、提案手法は、FID、文字F1、フレーム精度、BLEU-2/3、R-精度などの様々な評価指標において、類似または少ない計算量で芸術の状態を著しく上回っている。

Story visualization (SV) is a challenging text-to-image generation task for the difficulty of not only rendering visual details from the text descriptions but also encoding a long-term context across multiple sentences. While prior efforts mostly focus on generating a semantically relevant image for each sentence, encoding a context spread across the given paragraph to generate contextually convincing images (e.g., with a correct character or with a proper background of the scene) remains a challenge. To this end, we propose a novel memory architecture for the Bi-directional Transformers with an online text augmentation that generates multiple pseudo-descriptions as supplementary supervision during training, for better generalization to the language variation at inference. In extensive experiments on the two popular SV benchmarks, i.e., the Pororo-SV and Flintstones-SV, the proposed method significantly outperforms the state of the arts in various evaluation metrics including FID, character F1, frame accuracy, BLEU-2/3, and R-precision with similar or less computational complexity.
翻訳日:2023-08-16 14:01:17 公開日:2023-08-15
# 2つの生成逆数ネットワークを用いたハイブリッド画像タブラルデータの合成データ生成法

Synthetic data generation method for hybrid image-tabular data using two generative adversarial networks ( http://arxiv.org/abs/2308.07573v1 )

ライセンス: Link先を確認
Tomohiro Kikuchi, Shouhei Hanaoka, Takahiro Nakao, Tomomi Takenaga, Yukihiro Nomura, Harushi Mori, Takeharu Yoshikawa(参考訳) generative adversarial network (gans) を用いた合成医療記録の生成は、医療分野におけるプライバシー問題への対処やデータ共有の促進のためにますます重要になっている。 本稿では,胸部X線画像(CXR)と構造化表状データ(人為的データおよび実験室試験を含む)からなる合成ハイブリッド医療記録を,自動符号化GAN({\alpha}GAN)と条件付き表状GAN(CTGAN)を用いて生成する手法を提案する。 我々のアプローチは、CXRの次元性を低減するために、大規模な公開データベース(pDB)上で {\alpha}GANモデルをトレーニングすることである。 次に、トレーニングされたGANモデルのエンコーダを元のデータベース(oDB)の画像に適用し、潜在ベクトルを得る。 これらの潜伏ベクトルとoDBの表型データを組み合わせて,CTGANモデルのトレーニングに使用した。 我々は,ハイブリッドCXRと表型データの多種多様な合成記録を作成した。 この合成データベース(sdb)を視覚的評価,記録間距離の分布,分類タスクを通じて評価した。 評価の結果,sdbは画像と表データとの対応を維持しつつ,odbの特徴を捉えることができた。 本手法は,odbと同じモダリティと撮像領域を持つ相当数の画像を含む大規模pdbの可用性に依存しているが,二次的なデータ利用を損なうことなく,合成データセットを一般公開する可能性を秘めている。

The generation of synthetic medical records using generative adversarial networks (GANs) has become increasingly important for addressing privacy concerns and promoting data sharing in the medical field. In this paper, we propose a novel method for generating synthetic hybrid medical records consisting of chest X-ray images (CXRs) and structured tabular data (including anthropometric data and laboratory tests) using an auto-encoding GAN ({\alpha}GAN) and a conditional tabular GAN (CTGAN). Our approach involves training a {\alpha}GAN model on a large public database (pDB) to reduce the dimensionality of CXRs. We then applied the trained encoder of the GAN model to the images in original database (oDB) to obtain the latent vectors. These latent vectors were combined with tabular data in oDB, and these joint data were used to train the CTGAN model. We successfully generated diverse synthetic records of hybrid CXR and tabular data, maintaining correspondence between them. We evaluated this synthetic database (sDB) through visual assessment, distribution of interrecord distances, and classification tasks. Our evaluation results showed that the sDB captured the features of the oDB while maintaining the correspondence between the images and tabular data. Although our approach relies on the availability of a large-scale pDB containing a substantial number of images with the same modality and imaging region as those in the oDB, this method has the potential for the public release of synthetic datasets without compromising the secondary use of data.
翻訳日:2023-08-16 14:00:52 公開日:2023-08-15
# Ske2Grid:行動認識のための骨格-格子表現学習

Ske2Grid: Skeleton-to-Grid Representation Learning for Action Recognition ( http://arxiv.org/abs/2308.07571v1 )

ライセンス: Link先を確認
Dongqi Cai, Yangyuxuan Kang, Anbang Yao, Yurong Chen(参考訳) 本稿では,スケルトンベース行動認識のための新しい表現学習フレームワークske2gridを提案する。 Ske2Gridでは,3つの新しいデザインによって構築・学習されたコンパクトなイメージライクなグリッドパッチである,人間の骨格の新たなグリッド表現に基づいて,定期的な畳み込み動作を定義する。 具体的には,スケルトングラフのノードを1つずつ所望のグリッドセルに割り当てることで,正規グリッドパッチを構築するグラフノードインデックス変換(git)を提案する。 GITをビジェクションとし、グリッド表現の表現性を高めるために、アップサンプリング変換(UPT)を学び、グリッドパッチをフルに埋めるためにスケルトングラフノードを補間する。 ワンステップuptが攻撃的であり、空間サイズが増大するグリッドパッチの表現能力を更に活用する場合には、uptを複数のステップに分離し、段階的に学習するコンパクトなカスケードデザインにより、複数のペアgitに調整するプログレッシブ・ラーニング・ストラテジー(pls)を提案する。 グラフ畳み込みネットワーク上にネットワークを構築し、6つの主流骨格に基づく行動認識データセットで実験を行う。 実験の結果、Ske2Gridはベンチマーク設定の異なる既存のGCNベースのソリューションをベルやホイッスルなしで大幅に上回っていることがわかった。 コードとモデルはhttps://github.com/OSVAI/Ske2Gridで入手できる。

This paper presents Ske2Grid, a new representation learning framework for improved skeleton-based action recognition. In Ske2Grid, we define a regular convolution operation upon a novel grid representation of human skeleton, which is a compact image-like grid patch constructed and learned through three novel designs. Specifically, we propose a graph-node index transform (GIT) to construct a regular grid patch through assigning the nodes in the skeleton graph one by one to the desired grid cells. To ensure that GIT is a bijection and enrich the expressiveness of the grid representation, an up-sampling transform (UPT) is learned to interpolate the skeleton graph nodes for filling the grid patch to the full. To resolve the problem when the one-step UPT is aggressive and further exploit the representation capability of the grid patch with increasing spatial size, a progressive learning strategy (PLS) is proposed which decouples the UPT into multiple steps and aligns them to multiple paired GITs through a compact cascaded design learned progressively. We construct networks upon prevailing graph convolution networks and conduct experiments on six mainstream skeleton-based action recognition datasets. Experiments show that our Ske2Grid significantly outperforms existing GCN-based solutions under different benchmark settings, without bells and whistles. Code and models are available at https://github.com/OSVAI/Ske2Grid
翻訳日:2023-08-16 14:00:22 公開日:2023-08-15
# 非ランダム欠落ラベルに対する複数命令による半教師付き学習

Semi-Supervised Learning with Multiple Imputations on Non-Random Missing Labels ( http://arxiv.org/abs/2308.07562v1 )

ライセンス: Link先を確認
Jason Lu, Michael Ma, Huaze Xu, Zixi Xu(参考訳) Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータの両方でアルゴリズムがトレーニングされるときに実装される。 これはmlの非常に一般的な応用であり、完全なラベル付きデータセットを取得することは非現実的である。 研究者は、ランダム(MAR)の欠如、完全にランダム(MCAR)の欠如、ランダム(MNAR)の欠如という3つの主要な問題に取り組んでいる。 mnar問題は3つの中で最も難しい問題であり、すべてのクラス分布が等しいと安全に仮定できない。 CAI(Class-Aware Imputation)やCAP(Class-Aware Propensity)といった既存の手法は、ラベルなしデータの非ランダム性を見落としている。 本稿では,より高精度でバイアスの少ない複数の計算モデルを組み合わせる2つの新しい手法を提案する。 1)複数のインプテーションモデルを用い,信頼区間を作成し,信頼度の低い擬似ラベルを無視する閾値を適用した。 2)新しい手法であるSSL-DIは,不正確なデータをフィルタリングし,正確で信頼性の高いサブセットを見つけることによってバイアスを低減することを目的としている。 大きなデータセットのこのサブセットは、別のsslモデルに組み込むことができるが、バイアスは少なくなる。 提案手法はMCARとMNARの両方の状況において有効であることが示されており,本手法は,分類精度とバイアス低減の観点から既存手法よりも優れていることを示す実験結果が得られた。

Semi-Supervised Learning (SSL) is implemented when algorithms are trained on both labeled and unlabeled data. This is a very common application of ML as it is unrealistic to obtain a fully labeled dataset. Researchers have tackled three main issues: missing at random (MAR), missing completely at random (MCAR), and missing not at random (MNAR). The MNAR problem is the most challenging of the three as one cannot safely assume that all class distributions are equal. Existing methods, including Class-Aware Imputation (CAI) and Class-Aware Propensity (CAP), mostly overlook the non-randomness in the unlabeled data. This paper proposes two new methods of combining multiple imputation models to achieve higher accuracy and less bias. 1) We use multiple imputation models, create confidence intervals, and apply a threshold to ignore pseudo-labels with low confidence. 2) Our new method, SSL with De-biased Imputations (SSL-DI), aims to reduce bias by filtering out inaccurate data and finding a subset that is accurate and reliable. This subset of the larger dataset could be imputed into another SSL model, which will be less biased. The proposed models have been shown to be effective in both MCAR and MNAR situations, and experimental results show that our methodology outperforms existing methods in terms of classification accuracy and reducing bias.
翻訳日:2023-08-16 13:59:58 公開日:2023-08-15
# 複数のビデオデータセット間のアクションクラス関係の検出と分類

Action Class Relation Detection and Classification Across Multiple Video Datasets ( http://arxiv.org/abs/2308.07558v1 )

ライセンス: Link先を確認
Yuya Yoshikawa, Yutaro Shigeto, Masashi Shimbo, Akikazu Takeuchi(参考訳) Meta Video Dataset(MetaVD)は、ビデオにおける人間のアクション認識のための主要なデータセットにおけるアクションクラス間の注釈付き関係を提供する。 これらの注釈付き関係はデータセットの拡張を可能にするが、MetaVDでカバーされているもののみに適用できる。 外部データセットが同じ利益を享受するためには、そのアクションクラスとMetaVD内のデータセットの関係を決定する必要がある。 この問題に対処するために,アクションクラス関係検出と分類という2つの新しい機械学習タスクについて検討する。 本稿では,クラスに関連する言語情報と視覚情報を用いて,アクションクラス間の関係を予測する統一モデルを提案する。 実験の結果 (i)テキストやビデオのトレーニング済みニューラルネットワークモデルは高い予測性能に寄与する。 (二)アクションラベルテキストに基づく関係予測は、動画による関係予測よりも正確であり、 (iii)両方のモダリティによる予測を組み合わせるブレンディングアプローチは、場合によっては予測性能をさらに向上させることができる。

The Meta Video Dataset (MetaVD) provides annotated relations between action classes in major datasets for human action recognition in videos. Although these annotated relations enable dataset augmentation, it is only applicable to those covered by MetaVD. For an external dataset to enjoy the same benefit, the relations between its action classes and those in MetaVD need to be determined. To address this issue, we consider two new machine learning tasks: action class relation detection and classification. We propose a unified model to predict relations between action classes, using language and visual information associated with classes. Experimental results show that (i) pre-trained recent neural network models for texts and videos contribute to high predictive performance, (ii) the relation prediction based on action label texts is more accurate than based on videos, and (iii) a blending approach that combines predictions by both modalities can further improve the predictive performance in some cases.
翻訳日:2023-08-16 13:59:30 公開日:2023-08-15
# スペイン語テキスト簡易化のユーザ中心評価

A User-Centered Evaluation of Spanish Text Simplification ( http://arxiv.org/abs/2308.07556v1 )

ライセンス: Link先を確認
Adrian de Wynter, Anthony Hevia, Si-Qing Chen(参考訳) 本稿では,複合語と複合語の両方に焦点をあてたコーパスを用いて,生産システムのためのスペイン語のテキスト簡易化(ts)を評価する。 我々は、スペイン固有の可読性スコアをニューラルネットワークと比較し、後者がTSに関するユーザの好みを予測するのに一貫して優れていることを示す。 分析の結果、複数の言語モデルは同じタスクでスペイン語のみのモデルに劣ることがわかったが、全てのモデルは文長のような散発的な統計的特徴に重きを置きすぎていることがわかった。 我々は,スペインの自然言語処理の最先端を推し進めることを目指して,我々の評価のコーパスを広いコミュニティに公開する。

We present an evaluation of text simplification (TS) in Spanish for a production system, by means of two corpora focused in both complex-sentence and complex-word identification. We compare the most prevalent Spanish-specific readability scores with neural networks, and show that the latter are consistently better at predicting user preferences regarding TS. As part of our analysis, we find that multilingual models underperform against equivalent Spanish-only models on the same task, yet all models focus too often on spurious statistical features, such as sentence length. We release the corpora in our evaluation to the broader community with the hopes of pushing forward the state-of-the-art in Spanish natural language processing.
翻訳日:2023-08-16 13:59:19 公開日:2023-08-15
# sst:既存経路に基づくタクシー目的地予測のための簡易スウィントランスモデル

SST: A Simplified Swin Transformer-based Model for Taxi Destination Prediction based on Existing Trajectory ( http://arxiv.org/abs/2308.07555v1 )

ライセンス: Link先を確認
Zepu Wang, Yifei Sun, Zhiyu Lei, Xincheng Zhu, Peng Sun(参考訳) タクシーの目的地を正確に予測することは、インテリジェントな位置情報サービスに様々な利点をもたらす。 この予測の潜在的な方法は、タクシー軌道を二次元グリッドに変換し、コンピュータビジョン技術を使用することである。 Swin Transformer はコンピュータビジョンアーキテクチャであり、下流のタスクの視覚的成功を示すものであるが、現実世界の軌道問題の解決には一般的には使われていない。 本稿では,従来のSwin Transformerではトラジェクトリデータが連続しているため,従来のSwin Transformerではシフトウインドウのアイデアを使用しない簡易Swin Transformer (SST) 構造を提案する。 実軌道データに基づく包括的実験により,SSTが最先端の手法よりも高い精度を達成できることが実証された。

Accurately predicting the destination of taxi trajectories can have various benefits for intelligent location-based services. One potential method to accomplish this prediction is by converting the taxi trajectory into a two-dimensional grid and using computer vision techniques. While the Swin Transformer is an innovative computer vision architecture with demonstrated success in vision downstream tasks, it is not commonly used to solve real-world trajectory problems. In this paper, we propose a simplified Swin Transformer (SST) structure that does not use the shifted window idea in the traditional Swin Transformer, as trajectory data is consecutive in nature. Our comprehensive experiments, based on real trajectory data, demonstrate that SST can achieve higher accuracy compared to state-of-the-art methods.
翻訳日:2023-08-16 13:59:05 公開日:2023-08-15
# LogPrompt: ゼロショットと解釈可能なログ分析に向けたプロンプトエンジニアリング

LogPrompt: Prompt Engineering Towards Zero-Shot and Interpretable Log Analysis ( http://arxiv.org/abs/2308.07610v1 )

ライセンス: Link先を確認
Yilun Liu, Shimin Tao, Weibin Meng, Jingyu Wang, Wenbing Ma, Yanqing Zhao, Yuhang Chen, Hao Yang, Yanfei Jiang, Xun Chen(参考訳) 自動ログ解析は、ソフトウェアメンテナンスとエンジニアリングライフサイクルを通して信頼性とレジリエンスを確保するために、現代のソフトウェア集約システムにおいて不可欠である。 既存の方法は、解釈なしで単一の予測値を提供することで、ログ解析やログ異常検出などのタスクを実行する。 しかし、システムイベントの量が増加すると、分析の解釈性が制限され、分析者の信頼と適切な行動を取る能力が阻害される。 さらに、これらの手法はドメイン内のトレーニングデータを必要とするため、新しいドメインからの未確認ログを含むオンラインシナリオではパフォーマンスが劇的に低下する(62.5%まで)。 本稿では,ゼロショットで解釈可能なログ解析手法であるlogpromptを提案する。 logpromptは大規模な言語モデル(llms)を使用して、ログタスク用に調整された一連の高度なプロンプト戦略を介してゼロショットログ分析タスクを実行する。 2つのタスクにわたる9つの公開評価データセットの実験では、LogPromptはトレーニングデータを使用しないにも関わらず、数千のログでトレーニングされた既存のアプローチを最大50%上回っている。 また,LogPromptの解釈可能性の評価を行い,10年以上の経験を持つ6人の実践者が有用性と可読性(平均4.42/5)を高く評価した。 LogPromptはまた、オープンソースおよび小規模のLLMとの顕著な互換性を示しており、実用的なデプロイメントに柔軟である。

Automated log analysis is crucial in modern software-intensive systems for ensuring reliability and resilience throughout software maintenance and engineering life cycles. Existing methods perform tasks such as log parsing and log anomaly detection by providing a single prediction value without interpretation. However, given the increasing volume of system events, the limited interpretability of analysis results hinders analysts' trust and their ability to take appropriate actions. Moreover, these methods require substantial in-domain training data, and their performance declines sharply (by up to 62.5%) in online scenarios involving unseen logs from new domains, a common occurrence due to rapid software updates. In this paper, we propose LogPrompt, a novel zero-shot and interpretable log analysis approach. LogPrompt employs large language models (LLMs) to perform zero-shot log analysis tasks via a suite of advanced prompt strategies tailored for log tasks, which enhances LLMs' performance by up to 107.5% compared with simple prompts. Experiments on nine publicly available evaluation datasets across two tasks demonstrate that LogPrompt, despite using no training data, outperforms existing approaches trained on thousands of logs by up to around 50%. We also conduct a human evaluation of LogPrompt's interpretability, with six practitioners possessing over 10 years of experience, who highly rated the generated content in terms of usefulness and readability (averagely 4.42/5). LogPrompt also exhibits remarkable compatibility with open-source and smaller-scale LLMs, making it flexible for practical deployment.
翻訳日:2023-08-16 13:52:34 公開日:2023-08-15
# 準エルミート時間依存観測器を用いた3つのモデル構築戦略

Three alternative model-building strategies using quasi-Hermitian time-dependent observables ( http://arxiv.org/abs/2308.07609v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) k+1)-$plet of non-hermitian and time-dependent operator (例えば、$\lambda_j(t)$, $j=0,1,\ldots,k$) はユニタリ量子系を特徴づける観測可能な集合として解釈できる。 必要となるのは自己随伴作用素の存在であり、一般に時間依存作用素(例えば、$\Theta(t)$)が準エルミート作用素、$\Lambda_j^\dagger(t)\Theta(t)=\Theta(t)\Lambda_j(t)$とする。 非エルミート相互作用図 (non-hermitian interaction-picture, nip) と呼ばれる理論は、次の状態の進化を別々に記述する必要がある: $\psi(t)$ (schr\"{o}dinger-type equation, by a generator, say, $g(t)$) and of the observables itself (a different generator (例えば $\sigma(t)(t)$) は、関連する非ヘルミート的ハイゼンベルク型方程式で起こる)。 すべての$\Lambda_j(t)$ (and, in particular, Hamiltonian $H(t)=\Lambda_0(t)$) は、その仮説的なアイソスペクトルと自己共役(ただし、仮定上は、明らかにユーザフレンドリでない)なアバター $\lambda_j(t)=\Omega(t)=\Omega(t)\Lambda_j(t)\Omega^{-1}(t)$ with $\Omega^\dagger(t)\Omega(t)=\Theta(t)$ に同値である。 この論文では、id $h(t)=g(t)+\sigma(t)$ で果たされる重要な役割は、nipアプローチの他の3つの有意義な実装、すなわち viz., ``number one'' ($h(t)$ の知識に基づく ``dynamical'' 戦略)、 ``number two'' (a ``$kinematical''' 、コリオリ力 $\sigma(t)$) と ``number three''' (文献では、$g(t)$ に基づく構成が最も一般的であるが、パラドックス的にも最も複雑である) であることを示している。

A $(K+1)-$plet of non-Hermitian and time-dependent operators (say, $\Lambda_j(t)$, $j=0,1,\ldots,K$) can be interpreted as the set of observables characterizing a unitary quantum system. What is required is the existence of a self-adjoint and, in general, time-dependent operator (say, $\Theta(t)$ called inner product metric) making the operators quasi-Hermitian, $\Lambda_j^\dagger(t)\Theta(t)=\Theta(t)\Lambda_j(t)$. The theory (called non-Hermitian interaction-picture, NIP) requires a separate description of the evolution of the states $\psi(t)$ (realized, via Schr\"{o}dinger-type equation, by a generator, say, $G(t)$) and of the observables themselves (a different generator (say, $\Sigma(t)(t)$) occurs in the related non-Hermitian Heisenberg-type equation). Every $\Lambda_j(t)$ (and, in particular, Hamiltonian $H(t)=\Lambda_0(t)$) appears isospectral to its hypothetical isospectral and self-adjoint (but, by assumption, prohibitively user-unfriendly) avatar $\lambda_j(t)=\Omega(t)\Lambda_j(t)\Omega^{-1}(t)$ with $\Omega^\dagger(t)\Omega(t)=\Theta(t)$. In our paper the key role played by identity $H(t)=G(t)+\Sigma(t)$ is shown to imply that there exist just three alternative meaningful implementations of the NIP approach, viz., ``number one'' (a ``dynamical'' strategy based on the knowledge of $H(t)$), ``number two'' (a ``kinematical'' one, based on the Coriolis force $\Sigma(t)$) and ``number three'' (in the literature, such a construction based on $G(t)$ is most popular but, paradoxically, it is also most complicated).
翻訳日:2023-08-16 13:52:08 公開日:2023-08-15
# SGDiff:ファッション合成のためのスタイルガイド付き拡散モデル

SGDiff: A Style Guided Diffusion Model for Fashion Synthesis ( http://arxiv.org/abs/2308.07605v1 )

ライセンス: Link先を確認
Zhengwentai Sun, Yanghong Zhou, Honghong He, P. Y. Mok(参考訳) 本稿では,既存の画像合成モデルに固有の弱点を克服する新しいスタイル誘導拡散モデル(SGDiff)の開発について報告する。 提案したSGDiffは、画像のモダリティと事前訓練されたテキスト-画像拡散モデルを組み合わせることで、創造的なファッション画像合成を容易にする。 補足的なスタイルガイダンスを導入し、トレーニングコストを大幅に削減し、テキストのみの入力で合成スタイルを制御することの難しさを克服することで、テキスト間拡散モデルの限界に対処する。 本稿では、ファッション画像合成アプリケーション用に特別に設計されたsg-fashionという新しいデータセットも紹介する。 包括的アブレーション研究により,分類者なし指導を様々な条件に適用し,希望するカテゴリ,製品属性,スタイルのファッション画像を生成するためのモデルの有効性を検証した。 本稿では,マルチモーダル特徴融合のための新しい分類器フリーガイダンス手法,ファッション画像合成のための包括的データセット,条件付きテキスト対画像合成に関する徹底的な調査,テキスト対画像合成領域における今後の研究への貴重な洞察について述べる。 コードとデータセットは \url{https://github.com/taited/sgdiff} で利用可能である。

This paper reports on the development of \textbf{a novel style guided diffusion model (SGDiff)} which overcomes certain weaknesses inherent in existing models for image synthesis. The proposed SGDiff combines image modality with a pretrained text-to-image diffusion model to facilitate creative fashion image synthesis. It addresses the limitations of text-to-image diffusion models by incorporating supplementary style guidance, substantially reducing training costs, and overcoming the difficulties of controlling synthesized styles with text-only inputs. This paper also introduces a new dataset -- SG-Fashion, specifically designed for fashion image synthesis applications, offering high-resolution images and an extensive range of garment categories. By means of comprehensive ablation study, we examine the application of classifier-free guidance to a variety of conditions and validate the effectiveness of the proposed model for generating fashion images of the desired categories, product attributes, and styles. The contributions of this paper include a novel classifier-free guidance method for multi-modal feature fusion, a comprehensive dataset for fashion image synthesis application, a thorough investigation on conditioned text-to-image synthesis, and valuable insights for future research in the text-to-image synthesis domain. The code and dataset are available at: \url{https://github.com/taited/SGDiff}.
翻訳日:2023-08-16 13:50:40 公開日:2023-08-15
# 異常検出のための機械学習による外惑星大気の新化学の探索

Searching for Novel Chemistry in Exoplanetary Atmospheres using Machine Learning for Anomaly Detection ( http://arxiv.org/abs/2308.07604v1 )

ライセンス: Link先を確認
Roy T. Forestano, Konstantin T. Matchev, Katia Matcheva, Eyup B. Unlu(参考訳) 次世代の望遠鏡は、何千もの太陽系外惑星の高解像度の分光データが得られるようになるだろう。 分析対象となる大量のデータと惑星の数は、観測と詳細な分析のために興味深い惑星をフラグ付けするための、新しい高速で効率的な方法の開発を大いに動機付けている。 我々は、異常な化学組成を持つ惑星を同定し、未知の生物記号を探すことを目的として、太陽系外惑星トランジットスペクトルに対する異常検出のための機械学習(ML)技術の応用を提唱する。 合成スペクトルの大規模公開データベース上で,2つの一般的な異常検出手法(局所外部因子と一クラス支援ベクトルマシン)の有効性を実証した。 計器音のレベルが異なる複数のテストケースについて検討した。 いずれの場合も、ROC曲線を用いて2つのML手法の性能を定量化し比較する。

The next generation of telescopes will yield a substantial increase in the availability of high-resolution spectroscopic data for thousands of exoplanets. The sheer volume of data and number of planets to be analyzed greatly motivate the development of new, fast and efficient methods for flagging interesting planets for reobservation and detailed analysis. We advocate the application of machine learning (ML) techniques for anomaly (novelty) detection to exoplanet transit spectra, with the goal of identifying planets with unusual chemical composition and even searching for unknown biosignatures. We successfully demonstrate the feasibility of two popular anomaly detection methods (Local Outlier Factor and One Class Support Vector Machine) on a large public database of synthetic spectra. We consider several test cases, each with different levels of instrumental noise. In each case, we use ROC curves to quantify and compare the performance of the two ML techniques.
翻訳日:2023-08-16 13:50:15 公開日:2023-08-15
# マルコフ開量子系の定常状態に対するアトラクション領域解析

Attraction Domain Analysis for Steady States of Markovian Open Quantum Systems ( http://arxiv.org/abs/2308.07602v1 )

ライセンス: Link先を確認
Shikun Zhang, Guofeng Zhang(参考訳) 本稿ではマルコフ開量子系の定常状態に対するアトラクション領域解析について述べる。 定常状態が与えられたとき、密度作用素の状態空間のどの部分が引き寄せられるのか、どの部分を引き付けないのか? 我々は, 定常状態と初期状態に対して, 後者が前者のアトラクション領域に属するか否かを決定する必要十分条件を提示することにより, この疑問に答える。 さらに、密度作用素の集合における一意性のない定常状態は、ある変換不変かつ局所有限測度の下で測度ゼロのアトラクション領域を持つことを示す。 最後に、開ハイゼンベルク XXZ スピン鎖に関する例を示す。

This article concerns the attraction domain analysis for steady states in Markovian open quantum systems. The central question is proposed as: given a steady state, which part of the state space of density operators does it attract and which part does it not attract? We answer this question by presenting necessary and sufficient conditions that determine, for any steady state and initial state, whether the latter belongs to the attraction domain of the former. Moreover, we show that steady states without uniqueness in the set of density operators have attraction domains with measure zero under some translation invariant and locally finite measures. Finally, an example regarding an open Heisenberg XXZ spin chain is presented.
翻訳日:2023-08-16 13:50:02 公開日:2023-08-15
# VLSP2022用VBD-MT中国語ベトナム語翻訳システム

VBD-MT Chinese-Vietnamese Translation Systems for VLSP 2022 ( http://arxiv.org/abs/2308.07601v1 )

ライセンス: Link先を確認
Hai Long Trieu, Song Kiet Bui, Tan Minh Tran, Van Khanh Tran, Hai An Nguyen(参考訳) 本稿では,VLSP 2022の機械翻訳共有タスクに参加する。 今年の共通作業では,中国-ベトナム語,ベトナム-中国語の両翻訳作業に参加した。 我々は,ニューラルネットワークを用いたトランスフォーマーモデルに基づいて,学習前モデルであるmBARTを用いてシステムを構築する。 大規模に利用可能な単言語データを活用するバックトランスレーションのサンプリング手法により,システムを強化した。 さらに、センシングやポストプロセッシングを含む翻訳品質を向上させるために、いくつかの方法が適用されている。 ベトナム語で38.9 BLEU、ベトナム語で38.0 BLEU、公試で38.0 BLEUを達成。

We present our systems participated in the VLSP 2022 machine translation shared task. In the shared task this year, we participated in both translation tasks, i.e., Chinese-Vietnamese and Vietnamese-Chinese translations. We build our systems based on the neural-based Transformer model with the powerful multilingual denoising pre-trained model mBART. The systems are enhanced by a sampling method for backtranslation, which leverage large scale available monolingual data. Additionally, several other methods are applied to improve the translation quality including ensembling and postprocessing. We achieve 38.9 BLEU on ChineseVietnamese and 38.0 BLEU on VietnameseChinese on the public test sets, which outperform several strong baselines.
翻訳日:2023-08-16 13:49:52 公開日:2023-08-15
# マルチモーダル・ディバイサル・イミテーション学習によるゲームのためのペルソナ生成

Generating Personas for Games with Multimodal Adversarial Imitation Learning ( http://arxiv.org/abs/2308.07598v1 )

ライセンス: Link先を確認
William Ahlberg, Alessandro Sestini, Konrad Tollmar, Linus Gissl\'en(参考訳) 強化学習は、人間レベルでゲームをプレイできるエージェントの制作に広く成功している。 しかし、これは複雑な報酬工学を必要とし、エージェントの結果のポリシーはしばしば予測不可能である。 強化学習を超えていくことは、報酬関数で表すのが難しい幅広い人間の遊びスタイルをモデル化するために必要である。 本稿では,プレイテストのための複数のペルソナポリシーを生成するための,新しい模倣学習手法を提案する。 multimodal generative adversarial imitation learning (multigail) は補助入力パラメータを使用して、単一エージェントモデルを用いて異なるペルソナを学習する。 マルチゲイルは生成的敵意学習に基づいており、複数の識別器を報酬モデルとして使用し、エージェントと異なる専門家ポリシーを比較して環境報酬を推測する。 各識別器からの報酬は補助入力に応じて重み付けされる。 本手法は,連続的および離散的動作空間を有する2つの環境において有効であることを示す。

Reinforcement learning has been widely successful in producing agents capable of playing games at a human level. However, this requires complex reward engineering, and the agent's resulting policy is often unpredictable. Going beyond reinforcement learning is necessary to model a wide range of human playstyles, which can be difficult to represent with a reward function. This paper presents a novel imitation learning approach to generate multiple persona policies for playtesting. Multimodal Generative Adversarial Imitation Learning (MultiGAIL) uses an auxiliary input parameter to learn distinct personas using a single-agent model. MultiGAIL is based on generative adversarial imitation learning and uses multiple discriminators as reward models, inferring the environment reward by comparing the agent and distinct expert policies. The reward from each discriminator is weighted according to the auxiliary input. Our experimental analysis demonstrates the effectiveness of our technique in two environments with continuous and discrete action spaces.
翻訳日:2023-08-16 13:49:40 公開日:2023-08-15
# akvsr: 事前学習モデルの音声知識圧縮による視覚音声認識能力の向上

AKVSR: Audio Knowledge Empowered Visual Speech Recognition by Compressing Audio Knowledge of a Pretrained Model ( http://arxiv.org/abs/2308.07593v1 )

ライセンス: Link先を確認
Jeong Hun Yeo, Minsu Kim, Jeongsoo Choi, Dae Hoe Kim, and Yong Man Ro(参考訳) 視覚音声認識(VSR)は、無声唇の動きから発声語を予測するタスクである。 VSRは唇運動に関する情報が不足しているため、難しい課題とみなされている。 本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(Audio Knowledge empowered Visual Speech Recognition framework)を提案する。 従来の手法と異なり、提案されたAKVSR 1)大規模事前学習音声モデルにより符号化されたリッチオーディオ知識を利用する。 2)小型オーディオメモリにおける音声知識の言語情報は、量子化により音声から非言語情報を捨てて保存する。 3)コンパクトオーディオメモリから最適なオーディオ機能を見つけることができるオーディオブリッジモジュールが含まれており、コンパクトオーディオメモリが構成された後、オーディオ入力なしでトレーニングを行える。 提案手法の有効性を広範囲な実験により検証し,広範に使用されているデータセット,LSS2,LSS3上での最先端性能を実現する。

Visual Speech Recognition (VSR) is the task of predicting spoken words from silent lip movements. VSR is regarded as a challenging task because of the insufficient information on lip movements. In this paper, we propose an Audio Knowledge empowered Visual Speech Recognition framework (AKVSR) to complement the insufficient speech information of visual modality by using audio modality. Different from the previous methods, the proposed AKVSR 1) utilizes rich audio knowledge encoded by a large-scale pretrained audio model, 2) saves the linguistic information of audio knowledge in compact audio memory by discarding the non-linguistic information from the audio through quantization, and 3) includes Audio Bridging Module which can find the best-matched audio features from the compact audio memory, which makes our training possible without audio inputs, once after the compact audio memory is composed. We validate the effectiveness of the proposed method through extensive experiments, and achieve new state-of-the-art performances on the widely-used datasets, LRS2 and LRS3.
翻訳日:2023-08-16 13:49:24 公開日:2023-08-15
# グラフセグメンタ:セマンティックセグメンテーションのための境界認識型グラフ変換器

Graph-Segmenter: Graph Transformer with Boundary-aware Attention for Semantic Segmentation ( http://arxiv.org/abs/2308.07592v1 )

ライセンス: Link先を確認
Zizhang Wu, Yuanzhu Gan, Tianhao Xu, Fan Wang(参考訳) ウィンドウをスライディングすることで画像を異なる領域に分割し,各ウィンドウ内の関係をモデル化するトランスフォーマーベースのセマンティックセマンティックセマンティクスアプローチは,大きな成功を収めた。 しかし、ウィンドウ間の関係モデリングが従来の作業の主眼ではなかったため、完全には利用されなかった。 本稿では,グラフトランスフォーマと境界認識アテンションモジュールを含むグラフセグメンタを提案する。グローバルビューにおけるウィンドウと各ウィンドウ内のさまざまなピクセル間のより深い関係を局所的にモデル化し,相当な低コストな境界調整を実現するための有効なネットワークである。 具体的には、ウィンドウ内のすべてのウィンドウとピクセルをノードとして扱い、ビュー両方のグラフを構築し、グラフトランスフォーマーを考案します。 導入された境界対応アテンションモジュールは、オブジェクトのエッジ上のピクセル間の関係をモデル化することにより、対象オブジェクトのエッジ情報を最適化する。 広範に使用される3つの意味セグメンテーションデータセット(cityscapes、ade-20k、pascal context)に関する広範な実験により、提案するネットワークである境界を意識したグラフトランスフォーマが、最先端セグメンテーション性能を達成できることが示されている。

The transformer-based semantic segmentation approaches, which divide the image into different regions by sliding windows and model the relation inside each window, have achieved outstanding success. However, since the relation modeling between windows was not the primary emphasis of previous work, it was not fully utilized. To address this issue, we propose a Graph-Segmenter, including a Graph Transformer and a Boundary-aware Attention module, which is an effective network for simultaneously modeling the more profound relation between windows in a global view and various pixels inside each window as a local one, and for substantial low-cost boundary adjustment. Specifically, we treat every window and pixel inside the window as nodes to construct graphs for both views and devise the Graph Transformer. The introduced boundary-aware attention module optimizes the edge information of the target objects by modeling the relationship between the pixel on the object's edge. Extensive experiments on three widely used semantic segmentation datasets (Cityscapes, ADE-20k and PASCAL Context) demonstrate that our proposed network, a Graph Transformer with Boundary-aware Attention, can achieve state-of-the-art segmentation performance.
翻訳日:2023-08-16 13:49:08 公開日:2023-08-15
# ADD:自動運転のための魚眼自動脱感作データセット

ADD: An Automatic Desensitization Fisheye Dataset for Autonomous Driving ( http://arxiv.org/abs/2308.07590v1 )

ライセンス: Link先を確認
Zizhang Wu, Chenxin Yuan, Hongyang Wei, Fan Song, Tianhao Xu(参考訳) 自律運転システムは周囲の環境を分析するために多くの画像を必要とする。 しかし、歩行者の顔や車のナンバープレートなど、撮影画像のプライベート情報に対するデータ保護は少ないため、重要な問題となっている。 本稿では,データセキュリティ法と規制の要求に応えて,魚眼カメラの大視野(fov)の利点を活かし,addと呼ばれる最初のオートパイロット・デセンシタイズデータセットを構築し,自動運転シナリオにおけるイメージデセンタイズの研究を促進するために,最初のディープラーニングベースのイメージデセンタイズフレームワークを策定する。 コンパイルされたデータセットは650kの画像からなり、サラウンドビュー魚眼カメラが捉えた異なる顔と車両のナンバープレート情報が含まれている。 顔の特徴やナンバープレートの色など、さまざまな自律運転シナリオをカバーする。 そこで,本研究では,車載用ナンバープレートの検出と脱感作タスクを行うための追加データセットのベンチマークとして,fallingernetと呼ばれる効率的なマルチタスク脱感作ネットワークを提案する。 画像の無感化性能の評価基準をさらに提示し,画像の無感化における手法の有効性と優位性を広範囲比較実験により検証した。

Autonomous driving systems require many images for analyzing the surrounding environment. However, there is fewer data protection for private information among these captured images, such as pedestrian faces or vehicle license plates, which has become a significant issue. In this paper, in response to the call for data security laws and regulations and based on the advantages of large Field of View(FoV) of the fisheye camera, we build the first Autopilot Desensitization Dataset, called ADD, and formulate the first deep-learning-based image desensitization framework, to promote the study of image desensitization in autonomous driving scenarios. The compiled dataset consists of 650K images, including different face and vehicle license plate information captured by the surround-view fisheye camera. It covers various autonomous driving scenarios, including diverse facial characteristics and license plate colors. Then, we propose an efficient multitask desensitization network called DesCenterNet as a benchmark on the ADD dataset, which can perform face and vehicle license plate detection and desensitization tasks. Based on ADD, we further provide an evaluation criterion for desensitization performance, and extensive comparison experiments have verified the effectiveness and superiority of our method on image desensitization.
翻訳日:2023-08-16 13:48:40 公開日:2023-08-15
# LLM-Mini-CEX:診断対話のための大規模言語モデルの自動評価

LLM-Mini-CEX: Automatic Evaluation of Large Language Model for Diagnostic Conversation ( http://arxiv.org/abs/2308.07635v1 )

ライセンス: Link先を確認
Xiaoming Shi, Jie Xu, Jinru Ding, Jiali Pang, Sichen Liu, Shuqing Luo, Xingwei Peng, Lu Lu, Haihong Yang, Mingtao Hu, Tong Ruan, Shaoting Zhang(参考訳) 診断効率を向上させるための診断用LSMの開発への関心が高まっている。 この技術の可能性は高いが、統一的で総合的な評価基準はなく、医療用llmの品質と潜在的なリスクを評価できず、医療シナリオにおけるllmの適用を妨げている。 また,現在の評価は,LLMとの労働集約的な相互作用に大きく依存しており,診断対話の質に関する人的評価も行われている。 統一的・包括的評価基準の欠如に対処するために,まず最初に,LLM固有のMini-CEXと呼ばれる評価基準を確立し,元のMini-CEXに基づいてLLMの診断能力を効果的に評価する。 労働集約型インタラクション問題に対処するために, llmとの自動対話を行うための患者シミュレータを開発し, chatgptを用いて診断対話を自動的に評価する。 実験の結果, LLM特異的ミニCEXは診断対話の評価に必要であることがわかった。 さらに、ChatGPTは人文的品質の指標を手作業で評価し、異なるLLM間の再現性と自動比較を提供する。

There is an increasing interest in developing LLMs for medical diagnosis to improve diagnosis efficiency. Despite their alluring technological potential, there is no unified and comprehensive evaluation criterion, leading to the inability to evaluate the quality and potential risks of medical LLMs, further hindering the application of LLMs in medical treatment scenarios. Besides, current evaluations heavily rely on labor-intensive interactions with LLMs to obtain diagnostic dialogues and human evaluation on the quality of diagnosis dialogue. To tackle the lack of unified and comprehensive evaluation criterion, we first initially establish an evaluation criterion, termed LLM-specific Mini-CEX to assess the diagnostic capabilities of LLMs effectively, based on original Mini-CEX. To address the labor-intensive interaction problem, we develop a patient simulator to engage in automatic conversations with LLMs, and utilize ChatGPT for evaluating diagnosis dialogues automatically. Experimental results show that the LLM-specific Mini-CEX is adequate and necessary to evaluate medical diagnosis dialogue. Besides, ChatGPT can replace manual evaluation on the metrics of humanistic qualities and provides reproducible and automated comparisons between different LLMs.
翻訳日:2023-08-16 13:42:37 公開日:2023-08-15
# 大規模言語モデルのモデル圧縮に関する調査

A Survey on Model Compression for Large Language Models ( http://arxiv.org/abs/2308.07633v1 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang(参考訳) 大規模言語モデル(LLM)は、自然言語処理タスクに革命をもたらした。 しかし、その大きなサイズと計算上の要求は、特に資源に制約のある環境での実践的な展開に重大な課題をもたらす。 これらの課題がますます重要になるにつれて、モデル圧縮の分野はこれらの制限を緩和するための重要な研究領域として現れてきた。 本稿では,LLMに特化されたモデル圧縮技術の展望を概観した総合的な調査を行う。 効率的な配置の必要性に対処するため, 定量化, 刈り取り, 知識蒸留など, 様々な手法を探求する。 これらの技術の中で,LLM研究の進展に寄与する最近の進歩と革新的アプローチを強調した。 さらに,圧縮LDMの有効性を評価する上で不可欠なベンチマーク戦略と評価指標について検討する。 最新の発展と実践的意味に関する洞察を提供することで、この調査は研究者と実践者の両方にとって貴重な情報源となる。 llmが進化を続けるにつれ、この調査は効率化と実世界の適用性の向上を目標とし、この分野における今後の進歩のための基盤を確立する。

Large Language Models (LLMs) have revolutionized natural language processing tasks with remarkable success. However, their formidable size and computational demands present significant challenges for practical deployment, especially in resource-constrained environments. As these challenges become increasingly pertinent, the field of model compression has emerged as a pivotal research area to alleviate these limitations. This paper presents a comprehensive survey that navigates the landscape of model compression techniques tailored specifically for LLMs. Addressing the imperative need for efficient deployment, we delve into various methodologies, encompassing quantization, pruning, knowledge distillation, and more. Within each of these techniques, we highlight recent advancements and innovative approaches that contribute to the evolving landscape of LLM research. Furthermore, we explore benchmarking strategies and evaluation metrics that are essential for assessing the effectiveness of compressed LLMs. By providing insights into the latest developments and practical implications, this survey serves as an invaluable resource for both researchers and practitioners. As LLMs continue to evolve, this survey aims to facilitate enhanced efficiency and real-world applicability, establishing a foundation for future advancements in the field.
翻訳日:2023-08-16 13:42:15 公開日:2023-08-15
# Nチャネルパリティ時対称性

N-channel parity-time symmetry ( http://arxiv.org/abs/2308.07631v1 )

ライセンス: Link先を確認
Ege \"Ozg\"un(参考訳) 等価損失/ゲインによるパリティ時間対称性を持つ一般nチャネル結合系の固有値を計算する。 その結果, 固有値のn-2はパリティ時間破壊であり, 残りの2つはパリティ時間対称であるか, 損失/利得とカップリングパラメータによって破壊されていることがわかった。 また,パリティ時対称相とパリティ時破壊相の混合は,分極のような他の自由度が考慮されない場合,少なくとも4チャンネルでのみ得られることを示した。

We calculated the eigenvalues for a general N-channel coupled system with parity-time symmetry due to equal loss/gain. We found that the eigenspectrum displays a mixing of parity-time symmetric and broken phases, with N-2 of the eigenvalues being parity-time broken whereas the remaining two being either parity-time symmetric or broken depending on the loss/gain and coupling parameters. Our results also show that mixing of parity-time symmetric and parity-time broken phases can only be obtained for at least four-channels if other degrees of freedom like polarization is not taken into account.
翻訳日:2023-08-16 13:41:58 公開日:2023-08-15
# 逆伝達性を考慮したバックプロパゲーション経路探索

Backpropagation Path Search On Adversarial Transferability ( http://arxiv.org/abs/2308.07625v1 )

ライセンス: Link先を確認
Zhuoer Xu, Zhangxuan Gu, Jianping Zhang, Shiwen Cui, Changhua Meng, Weiqiang Wang(参考訳) ディープニューラルネットワークは敵の例に対して脆弱であり、デプロイ前にモデルの堅牢性をテストする命令性を決定する。 転送ベースの攻撃者は代理モデルに対する敵の例を作成し、ブラックボックスの状況に配備された犠牲者モデルに転送する。 逆転性を高めるため、構造ベースの攻撃者はバックプロパゲーション経路を調整し、サロゲートモデルに過度に適合しないようにする。 しかし、既存の構造ベースの攻撃者はcnnの畳み込みモジュールを探索できず、バックプロパゲーショングラフをヒューリスティックに修正し、効果を制限している。 本稿では,先述の2つの問題を解くために,papagation pAth Search (PAS)を提案する。 まず,構造再パラメータ化により畳み込みのバックプロパゲーションパスを調整するためのskipconvを提案する。 ヒューリスティックに設計されたバックプロパゲーションパスの欠点を克服するため,我々はさらにDAGベースの探索空間を構築し,経路評価にワンステップ近似を用い,ベイズ最適化を用いて最適な経路を探索する。 我々は多種多様な転送環境で総合的な実験を行い、PASは通常の訓練モデルと防衛モデルの両方において、攻撃成功率を大幅に向上することを示した。

Deep neural networks are vulnerable to adversarial examples, dictating the imperativeness to test the model's robustness before deployment. Transfer-based attackers craft adversarial examples against surrogate models and transfer them to victim models deployed in the black-box situation. To enhance the adversarial transferability, structure-based attackers adjust the backpropagation path to avoid the attack from overfitting the surrogate model. However, existing structure-based attackers fail to explore the convolution module in CNNs and modify the backpropagation graph heuristically, leading to limited effectiveness. In this paper, we propose backPropagation pAth Search (PAS), solving the aforementioned two problems. We first propose SkipConv to adjust the backpropagation path of convolution by structural reparameterization. To overcome the drawback of heuristically designed backpropagation paths, we further construct a DAG-based search space, utilize one-step approximation for path evaluation and employ Bayesian Optimization to search for the optimal path. We conduct comprehensive experiments in a wide range of transfer settings, showing that PAS improves the attack success rate by a huge margin for both normally trained and defense models.
翻訳日:2023-08-16 13:41:47 公開日:2023-08-15
# 短距離医用画像分割のための自己プロンピング大ビジョンモデル

Self-Prompting Large Vision Models for Few-Shot Medical Image Segmentation ( http://arxiv.org/abs/2308.07624v1 )

ライセンス: Link先を確認
Qi Wu, Yuyao Zhang, Marawan Elbatel(参考訳) 大規模基盤モデルの最近の進歩は、フレキシブル・プロンプト能力によって医療産業に有望な可能性を示している。 そのようなモデルの一つであるSAM(Segment Anything Model)は、医療画像セグメンテーションにおける最先端のアプローチを超越して、顕著な性能向上を示した。 しかし、既存のメソッドは主に、広範囲のデータや特定のタスクに合わせた事前プロンプトを必要とするチューニング戦略に依存しており、限られた数のデータサンプルしか利用できない場合、特に困難である。 本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。 具体的には、SAM の埋め込み空間を利用して、単純で効果的な線形画素ワイド分類器を通して自身を誘導する。 大規模モデルの符号化能力と文脈情報をデコーダから保存し、そのインタラクティブなプロンサ性を活用することで、複数のデータセット(例えば、数枚の画像を用いたマスクデコーダの微調整と比較して15%以上の改善)で競合的な結果が得られる。

Recent advancements in large foundation models have shown promising potential in the medical industry due to their flexible prompting capability. One such model, the Segment Anything Model (SAM), a prompt-driven segmentation model, has shown remarkable performance improvements, surpassing state-of-the-art approaches in medical image segmentation. However, existing methods primarily rely on tuning strategies that require extensive data or prior prompts tailored to the specific task, making it particularly challenging when only a limited number of data samples are available. In this paper, we propose a novel perspective on self-prompting in medical vision applications. Specifically, we harness the embedding space of SAM to prompt itself through a simple yet effective linear pixel-wise classifier. By preserving the encoding capabilities of the large model, the contextual information from its decoder, and leveraging its interactive promptability, we achieve competitive results on multiple datasets (i.e. improvement of more than 15% compared to fine-tuning the mask decoder using a few images).
翻訳日:2023-08-16 13:41:27 公開日:2023-08-15
# メタバースサービスのための視覚に基づくセマンティックコミュニケーション:コンテスト理論によるアプローチ

Vision-based Semantic Communications for Metaverse Services: A Contest Theoretic Approach ( http://arxiv.org/abs/2308.07618v1 )

ライセンス: Link先を確認
Guangyuan Liu, Hongyang Du, Dusit Niyato, Jiawen Kang, Zehui Xiong, and Boon Hee Soong(参考訳) エンターテイメント、ソーシャル、ワークプラットフォームとしてのMetaverseの人気は、バーチャルワールドにおけるシームレスなアバター統合を大いに必要としてきた。 Metaverseでは、アバターを更新し、ユーザの振る舞いを反映してレンダリングする必要がある。 仮想バイロケーションとユーザ間のリアルタイム同期を実現することは複雑であり、Metaverse Service Provider(MSP)のレンダリングリソース割り当てスキームに高い要求を課す。 本稿では,ユーザとmsp間のインタラクションをモデル化し,各ユーザに対する最適なリソース割り当てを決定するための,コンテスト理論を活用したセマンティックコミュニケーションフレームワークを提案する。 無線通信におけるネットワークリソースの消費を減らすため,セマンティック通信技術を用いて送信するデータの量を削減する。 シミュレーション設定では、符号化されたセマンティックデータは、画像サイズ8.243メガバイトではなく51バイトのスケルトン座標のみを含む。 さらに,最大性能と効率的なリソース割り当てのための報酬設定を最適化するために,ディープqネットワークを実装した。 最適な報酬設定により、ユーザーはそれぞれのアップロード頻度を選択するインセンティブが与えられ、従来の平均分布法と比較してリソース制約のレンダリングによるダウンサンプリング損失を66.076\%削減する。 このフレームワークは、vr環境におけるアバターアソシエーションのためのリソース割り当てに対する新しいソリューションを提供し、すべてのユーザにスムーズで没入的なエクスペリエンスを提供する。

The popularity of Metaverse as an entertainment, social, and work platform has led to a great need for seamless avatar integration in the virtual world. In Metaverse, avatars must be updated and rendered to reflect users' behaviour. Achieving real-time synchronization between the virtual bilocation and the user is complex, placing high demands on the Metaverse Service Provider (MSP)'s rendering resource allocation scheme. To tackle this issue, we propose a semantic communication framework that leverages contest theory to model the interactions between users and MSPs and determine optimal resource allocation for each user. To reduce the consumption of network resources in wireless transmission, we use the semantic communication technique to reduce the amount of data to be transmitted. Under our simulation settings, the encoded semantic data only contains 51 bytes of skeleton coordinates instead of the image size of 8.243 megabytes. Moreover, we implement Deep Q-Network to optimize reward settings for maximum performance and efficient resource allocation. With the optimal reward setting, users are incentivized to select their respective suitable uploading frequency, reducing down-sampling loss due to rendering resource constraints by 66.076\% compared with the traditional average distribution method. The framework provides a novel solution to resource allocation for avatar association in VR environments, ensuring a smooth and immersive experience for all users.
翻訳日:2023-08-16 13:41:08 公開日:2023-08-15
# 中国政策下における住宅団地の概念設計のための多層パーセプトロン型高速日光評価

A Multilayer Perceptron-based Fast Sunlight Assessment for the Conceptual Design of Residential Neighborhoods under Chinese Policy ( http://arxiv.org/abs/2308.07616v1 )

ライセンス: Link先を確認
Can Jiang, Xiong Liang, Yu-Cheng Zhou, Yong Tian, Shengli Xu, Jia-Rui Lin, Zhiliang Ma, Shiji Yang, Hao Zhou(参考訳) 中国の建築基準では、特定の冬の日に住宅が自然の直射日光を最小時間受けることが義務付けられており、これは1年で最悪の日光条件である。 この要件は、住宅計画の概念設計中に建物の許可を得るための前提条件である。 したがって、公式に認可されたソフトウェアは通常、建物の日光性能を評価するために使用される。 これらのソフトウェアプログラムは、繰り返しシェーディング計算に基づいて日光時間を予測する。 本論文では,入力された立方体型建物によって生じるシェーディング時間間隔を出力する多層パーセプトロンに基づく一段階予測手法を提案する。 全ての建物の日射時間間隔(日射時間間隔の組合せ)の和を計算して、敷地の日射時間を求めることができる。 その結果、計算時間を96.5%~98%の精度で1/84~1/50に短縮できることがわかった。 また,提案モデルに基づき,rhino 7/grasshopperの住宅街区配置計画用プラグインも開発した。 本稿では,概念設計段階での日光時間シミュレーションの高速化に深層学習手法を応用できることを示す。

In Chinese building codes, it is required that residential buildings receive a minimum number of hours of natural, direct sunlight on a specified winter day, which represents the worst sunlight condition in a year. This requirement is a prerequisite for obtaining a building permit during the conceptual design of a residential project. Thus, officially sanctioned software is usually used to assess the sunlight performance of buildings. These software programs predict sunlight hours based on repeated shading calculations, which is time-consuming. This paper proposed a multilayer perceptron-based method, a one-stage prediction approach, which outputs a shading time interval caused by the inputted cuboid-form building. The sunlight hours of a site can be obtained by calculating the union of the sunlight time intervals (complement of shading time interval) of all the buildings. Three numerical experiments, i.e., horizontal level and slope analysis, and simulation-based optimization are carried out; the results show that the method reduces the computation time to 1/84~1/50 with 96.5%~98% accuracies. A residential neighborhood layout planning plug-in for Rhino 7/Grasshopper is also developed based on the proposed model. This paper indicates that deep learning techniques can be adopted to accelerate sunlight hour simulations at the conceptual design phase.
翻訳日:2023-08-16 13:40:46 公開日:2023-08-15
# 多世界解釈学習のための自己教師付きハイパーグラフ

Self-supervised Hypergraphs for Learning Multiple World Interpretations ( http://arxiv.org/abs/2308.07615v1 )

ライセンス: Link先を確認
Alina Marcu, Mihai Pirvu, Dragos Costea, Emanuela Haller, Emil Slusanschi, Ahmed Nabil Belbachir, Rahul Sukthankar, Marius Leordeanu(参考訳) マルチタスクハイパーグラフの形式で,これらの表現間の関係を利用して,小さなラベル付き集合を与えられた複数のシーン表現を学習する手法を提案する。 また、ラベル付きデータを追加せずに、ハイパーグラフを使って強力なトレーニング済みVisTransformerモデルを改善する方法を示す。 私たちのハイパーグラフでは、各ノードはシーンの解釈層(例えば、深さやセグメンテーション)です。 各ハイパーエッジ内では、1つまたは複数の入力ノードが出力ノードの層を予測する。 したがって、各ノードはハイパーエッジの入力ノードであり、他のノードの出力ノードである。 このように、複数の経路が同じノードに到達し、そこからロバストな擬似ラベルを得るアンサンブルを形成し、ハイパーグラフで自己教師付き学習を可能にする。 異なるアンサンブルモデルと異なるタイプのハイパーエッジをテストし、フィールド内の他のマルチタスクグラフモデルよりも優れたパフォーマンスを示す。 マルチタスク学習に適した複数の表現を備えた,複雑な実世界のシーンでuavでキャプチャされた大規模なビデオデータセットであるdronescapesも紹介する。

We present a method for learning multiple scene representations given a small labeled set, by exploiting the relationships between such representations in the form of a multi-task hypergraph. We also show how we can use the hypergraph to improve a powerful pretrained VisTransformer model without any additional labeled data. In our hypergraph, each node is an interpretation layer (e.g., depth or segmentation) of the scene. Within each hyperedge, one or several input nodes predict the layer at the output node. Thus, each node could be an input node in some hyperedges and an output node in others. In this way, multiple paths can reach the same node, to form ensembles from which we obtain robust pseudolabels, which allow self-supervised learning in the hypergraph. We test different ensemble models and different types of hyperedges and show superior performance to other multi-task graph models in the field. We also introduce Dronescapes, a large video dataset captured with UAVs in different complex real-world scenes, with multiple representations, suitable for multi-task learning.
翻訳日:2023-08-16 13:40:25 公開日:2023-08-15
# ボルツマン状態におけるハイゼンベルクの不確かさ積の下限について

On the lower bound of the Heisenberg uncertainty product in the Boltzmann states ( http://arxiv.org/abs/2308.07613v1 )

ライセンス: Link先を確認
Yao Wang(参考訳) 不確実性原理は、位置の精度と運動量測定の基本的なトレードオフを記述するため、量子力学の中心にある。 本研究ではボルツマン状態における量子粒子を研究し, {\delta}x と {\delta}p の積上の洗練された下界を導出する。 新しいバウンドは {\delta}xと熱ドブロイの波長の比で表され、熱力学的精度を特徴付ける貴重なツールとなる。 その結果をブラウン振動子系に適用し,新しい境界を有名なハイゼンベルクの不確実性原理と比較した。 解析の結果、新しい境界は、精度の熱力学的限界をより正確に測定できることがわかった。

The uncertainty principle lies at the heart of quantum mechanics, as it describes the fundamental trade-off between the precision of position and momentum measurements. In this work, we study the quantum particle in the Boltzmann states and derive a refined lower bound on the product of {\Delta}x and {\Delta}p. Our new bound is expressed in terms of the ratio between {\Delta}x and the thermal de Broglie wavelength, and provides a valuable tool for characterizing thermodynamic precision. We apply our results to the Brownian oscillator system, where we compare our new bound with the well-known Heisenberg uncertainty principle. Our analysis shows that our new bound offers a more precise measure of the thermodynamic limits of precision.
翻訳日:2023-08-16 13:40:08 公開日:2023-08-15
# GAMER-MRILによる多発性硬化症における障害関連脳変化の同定

GAMER-MRIL identifies Disability-Related Brain Changes in Multiple Sclerosis ( http://arxiv.org/abs/2308.07611v1 )

ライセンス: Link先を確認
Po-Jui Lu, Benjamin Odry, Muhamed Barakovic, Matthias Weigel, Robin Sandk\"uhler, Reza Rahmanzadeh, Xinjie Chen, Mario Ocampo-Pineda, Jens Kuhle, Ludwig Kappos, Philippe Cattin, Cristina Granziera(参考訳) 目的:多発性硬化症(MS)患者における障害関連脳変化の同定が重要である。 単一のMS患者に障害を誘発する病的特徴について,現時点では明確な理解が得られていない。 そこで本研究では,重度障害のあるms患者を分類し,関連する病的脳変化を調査するために,全脳定量mri(qmri),畳み込みニューラルネットワーク(cnn),解釈可能性を用いて,新しい包括的アプローチであるgamer-mrilを提案する。 方法: 3T MRI を施行した。 定量的なT1(qT1)、ミエリン水分画(MWF)、神経突起密度指数(NDI)を含む、微細構造脳特性のqMRI情報を再構成した。 qMRIをフル活用するために、GAMER-MRILはゲートアテンションベースのCNN(GAMER-MRI)を拡張した。 障害関連脳領域を見つけるため、GAMER-MRILは構造認識型解釈可能性法、レイヤワイド関連伝播法(LRP)を改良し、qMRIを組み込んだ。 結果: AUC=0.885。 qT1は障害に最も敏感な指標であり、NDIが続く。 提案手法は,サリエンシマップ,積分勾配,元のLPPを含む他の解釈可能性手法よりも,より具体的な領域を得た。 関連領域は皮質脊髄路で,QT1とNDIは患者の障害スコアと有意な相関を示した(\rho$=-0.37, 0.44)。 結語: これらの結果から, GAMER-MRILはqMRIを用いて重度障害患者を分類し, 移動機能の整合性に重要な脳領域を同定できることが示唆された。 意義:GAMER-MRILはバイオマーカーの開発と臨床医のNNへの信頼を高めることを約束している。

Objective: Identifying disability-related brain changes is important for multiple sclerosis (MS) patients. Currently, there is no clear understanding about which pathological features drive disability in single MS patients. In this work, we propose a novel comprehensive approach, GAMER-MRIL, leveraging whole-brain quantitative MRI (qMRI), convolutional neural network (CNN), and an interpretability method from classifying MS patients with severe disability to investigating relevant pathological brain changes. Methods: One-hundred-sixty-six MS patients underwent 3T MRI acquisitions. qMRI informative of microstructural brain properties was reconstructed, including quantitative T1 (qT1), myelin water fraction (MWF), and neurite density index (NDI). To fully utilize the qMRI, GAMER-MRIL extended a gated-attention-based CNN (GAMER-MRI), which was developed to select patch-based qMRI important for a given task/question, to the whole-brain image. To find out disability-related brain regions, GAMER-MRIL modified a structure-aware interpretability method, Layer-wise Relevance Propagation (LRP), to incorporate qMRI. Results: The test performance was AUC=0.885. qT1 was the most sensitive measure related to disability, followed by NDI. The proposed LRP approach obtained more specifically relevant regions than other interpretability methods, including the saliency map, the integrated gradients, and the original LRP. The relevant regions included the corticospinal tract, where average qT1 and NDI significantly correlated with patients' disability scores ($\rho$=-0.37 and 0.44). Conclusion: These results demonstrated that GAMER-MRIL can classify patients with severe disability using qMRI and subsequently identify brain regions potentially important to the integrity of the mobile function. Significance: GAMER-MRIL holds promise for developing biomarkers and increasing clinicians' trust in NN.
翻訳日:2023-08-16 13:39:55 公開日:2023-08-15
# 注意はこれ以上必要なものではない

Attention Is Not All You Need Anymore ( http://arxiv.org/abs/2308.07661v1 )

ライセンス: Link先を確認
Zhe Chen(参考訳) 近年,自然言語処理やコンピュータビジョンなど,多くの応用分野において人気のTransformerアーキテクチャが大きな成功を収めている。 既存の多くの作品は、性能のトレードオフによって変圧器の自己着脱機構の計算とメモリの複雑さを減らすことを目的としている。 しかし、Transformerの継続的な成功の鍵はパフォーマンスにある。 本稿では, 変圧器の自己保持機構であるエクストラクタ(Extractor)をドロップインで置き換える手法を提案する。 実験の結果, 自己着脱機構を抽出器に置き換えることで, 変圧器の性能が向上することがわかった。 さらに提案したExtractorは,計算のクリティカルパスがはるかに短いため,自己注意よりも高速に動作することができる。 さらに,テキスト生成の文脈におけるシーケンス予測問題を可変長離散時間マルコフ連鎖を用いて定式化し,その理解に基づいてトランスフォーマーについて検討する。

In recent years, the popular Transformer architecture has achieved great success in many application areas, including natural language processing and computer vision. Many existing works aim to reduce the computational and memory complexity of the self-attention mechanism in the Transformer by trading off performance. However, performance is key for the continuing success of the Transformer. In this paper, a drop-in replacement for the self-attention mechanism in the Transformer, called the Extractor, is proposed. Experimental results show that replacing the self-attention mechanism with the Extractor improves the performance of the Transformer. Furthermore, the proposed Extractor has the potential to run faster than the self-attention since it has a much shorter critical path of computation. Additionally, the sequence prediction problem in the context of text generation is formulated using variable-length discrete-time Markov chains, and the Transformer is reviewed based on our understanding.
翻訳日:2023-08-16 13:33:13 公開日:2023-08-15
# Kadanoff-Baym方程式を用いたオープン量子システム

Open Quantum Systems with Kadanoff-Baym Equations ( http://arxiv.org/abs/2308.07659v1 )

ライセンス: Link先を確認
Tim Neidig, Jan Rais, Marcus Bleicher, Hendrik van Hees, and Carsten Greiner(参考訳) ボソニック粒子の熱浴中での1次元の魅力的な二乗ウェルポテンシャルの中で1つの束縛状態を示す量子力学的フェルミオン粒子の時間的発展について検討した。 この開量子系では、熱-熱粒子との相互作用を弾性 2-2 散乱とすることで、系粒子の非平衡カダノフ・ベイム方程式を定式化する。 一粒子グリーンズ関数に対する空間的に不均一な積分微分方程式を数値的に解く。 本研究では, 系粒子が熱浴と平衡し熱し, 密度行列の非対角要素が1粒子のエネルギー固有ベイシスでどのように表されるかを示し, 対角成分, すなわち占有数のみが存続することを示す。 さらに、(取り戻された)グリーン関数の時間発展は、様々な1粒子量子状態のスペクトル特性も決定する。

We study the temporal evolution of quantum mechanical fermionic particles exhibiting one bound state within a one-dimensional attractive square-well potential in a heat bath of bosonic particles. For this open quantum system we formulate the non-equilibrium Kadanoff-Baym equations for the system particles by taking the interactions to be elastic 2-2 scatterings with the heat-bath particles. The corresponding spatially imhomogeneous integro-differential equations for the one-particle Greens's function are solved numerically. We demonstrate how the system particles equilibrate and thermalize with the heat bath and how the off-diagonal elements of the density matrix, expressed in the one-particle energy eigenbasis, decohere, so that only the diagonal entries, i.e. the occupation numbers, survive. In addition, the time evolution of the (retarded) Green's function also determines the spectral properties of the various one-particle quantum states.
翻訳日:2023-08-16 13:32:46 公開日:2023-08-15
# コミットメッセージ生成から履歴対応コミットメッセージ補完へ

From Commit Message Generation to History-Aware Commit Message Completion ( http://arxiv.org/abs/2308.07655v1 )

ライセンス: Link先を確認
Aleksandra Eliseeva, Yaroslav Sokolov, Egor Bogomolov, Yaroslav Golubev, Danny Dig, Timofey Bryksin(参考訳) コミットメッセージはソフトウェア開発に不可欠であり、開発者は変更を追跡し、効果的に協力することができる。 ユーティリティにもかかわらず、ほとんどのコミットメッセージは、高品質なコミットメッセージを書くのは面倒で時間を要するため、重要な情報がない。 コミットメッセージ生成(CMG)に関する活発な研究は、実際に広く採用されているわけではない。 コミットメッセージ生成からコミットメッセージ補完に重点を移し、以前のコミット履歴を追加コンテキストとして使用できれば、コミットメッセージの品質と個人的な性質が大幅に向上する、と私たちは主張しています。 本稿では,これら2つの新しいアイデアを提案し,評価する。 既存のデータセットには履歴データがないため、20言語にわたる107万のコミットを含むCommitChronicleと呼ばれる新しいデータセットを収集、共有しています。 本データセットを用いて,現状のCMGモデルとGPT-3.5-turboの完成状況と過去の文脈の有用性を評価する。 以上の結果から,コミットメッセージ補完は生成よりも優れた結果を示し,一般的にはGPT-3.5-turboはより悪い性能を示すが,長大かつ詳細なメッセージの可能性を示唆している。 歴史的情報により, 生成タスクにおけるCMGモデルの性能が向上し, 生成と完了の両方においてGPT-3.5-turboの性能が向上することを示す。

Commit messages are crucial to software development, allowing developers to track changes and collaborate effectively. Despite their utility, most commit messages lack important information since writing high-quality commit messages is tedious and time-consuming. The active research on commit message generation (CMG) has not yet led to wide adoption in practice. We argue that if we could shift the focus from commit message generation to commit message completion and use previous commit history as additional context, we could significantly improve the quality and the personal nature of the resulting commit messages. In this paper, we propose and evaluate both of these novel ideas. Since the existing datasets lack historical data, we collect and share a novel dataset called CommitChronicle, containing 10.7M commits across 20 programming languages. We use this dataset to evaluate the completion setting and the usefulness of the historical context for state-of-the-art CMG models and GPT-3.5-turbo. Our results show that in some contexts, commit message completion shows better results than generation, and that while in general GPT-3.5-turbo performs worse, it shows potential for long and detailed messages. As for the history, the results show that historical information improves the performance of CMG models in the generation task, and the performance of GPT-3.5-turbo in both generation and completion.
翻訳日:2023-08-16 13:32:22 公開日:2023-08-15
# SEER: MLIRを用いたEグラフ書き換えによるHLSの超最適化エクスプローラー

SEER: Super-Optimization Explorer for HLS using E-graph Rewriting with MLIR ( http://arxiv.org/abs/2308.07654v1 )

ライセンス: Link先を確認
Jianyi Cheng, Samuel Coward, Lorenzo Chelini, Rafael Barbalho, Theo Drane(参考訳) ハイレベルシンセシス(high-level synthesis, hls)は、ソフトウェアプログラムをハイレベル言語で自動的に低レベルのハードウェア記述に変換するプロセスである。 しかし、HLSツールによって作られたハードウェア設計は、手作業による実装に比べて大きなパフォーマンス差を被っている。 これは、入力HLSプログラムはハードウェア設計原則を使って書かなければならないためである。 既存の手法では、プログラムのソースを変更せずに残したり、ソース変換の固定シーケンスを実行したりする。 本稿では、任意のソフトウェアプログラムを最適化ハードウェア設計に使用可能な効率的なHLSコードに自動的に書き換えるHLSの超最適化手法を提案する。 我々は,電子グラフデータ構造に基づくSEERというツールフローを開発し,プログラムの大規模実装を効率的に検討した。 SEERは拡張可能なフレームワークを提供し、既存のソフトウェアコンパイラーパスとハードウェア合成オプティマイザを編成する。 私たちの仕事は、mlirのような大規模なソフトウェアコンパイラフレームワークのe-graph書き換えを利用する最初の試みです。 オープンソースのベンチマークでは、SEERが元のプログラムの1.4倍の範囲で最大38倍の性能を達成することを示す。 intelが提供したケーススタディを通じて、seerは、ハードウェア専門家が手作業で最適化した設計を上回る可能性を実証している。

High-level synthesis (HLS) is a process that automatically translates a software program in a high-level language into a low-level hardware description. However, the hardware designs produced by HLS tools still suffer from a significant performance gap compared to manual implementations. This is because the input HLS programs must still be written using hardware design principles. Existing techniques either leave the program source unchanged or perform a fixed sequence of source transformation passes, potentially missing opportunities to find the optimal design. We propose a super-optimization approach for HLS that automatically rewrites an arbitrary software program into efficient HLS code that can be used to generate an optimized hardware design. We developed a toolflow named SEER, based on the e-graph data structure, to efficiently explore equivalent implementations of a program at scale. SEER provides an extensible framework, orchestrating existing software compiler passes and hardware synthesis optimizers. Our work is the first attempt to exploit e-graph rewriting for large software compiler frameworks, such as MLIR. Across a set of open-source benchmarks, we show that SEER achieves up to 38x the performance within 1.4x the area of the original program. Via an Intel-provided case study, SEER demonstrates the potential to outperform manually optimized designs produced by hardware experts.
翻訳日:2023-08-16 13:31:42 公開日:2023-08-15
# 視覚野の幾何学と画像インパインティング・エンハンスメントへの応用

Geometry of the Visual Cortex with Applications to Image Inpainting and Enhancement ( http://arxiv.org/abs/2308.07652v1 )

ライセンス: Link先を確認
Francesco Ballerin and Erlend Grong(参考訳) 視覚野V1にインスパイアされたサブリーマン構造を持つロト翻訳群を$SE(2)$とすることで,低楕円波拡散に基づく画像の塗布と強調を行うアルゴリズムを提案する。 我々はCitti,Sarti,Boscainらによる従来の手法の実装を革新し、WaxOn-WaxOffと呼ばれる手順でフェードを防ぎ、よりシャープな結果を生み出す方法を提案する。 また,2次元画像処理のための古典的アンシャープフィルタに類似した$SE(2)$を用いて,完全に新しいアンシャープを定義するために,サブリーマン構造を利用する。 網膜スキャンによる血管造影法について検討した。

Equipping the rototranslation group $SE(2)$ with a sub-Riemannian structure inspired by the visual cortex V1, we propose algorithms for image inpainting and enhancement based on hypoelliptic diffusion. We innovate on previous implementations of the methods by Citti, Sarti and Boscain et al., by proposing an alternative that prevents fading and capable of producing sharper results in a procedure that we call WaxOn-WaxOff. We also exploit the sub-Riemannian structure to define a completely new unsharp using $SE(2)$, analogous of the classical unsharp filter for 2D image processing, with applications to image enhancement. We demonstrate our method on blood vessels enhancement in retinal scans.
翻訳日:2023-08-16 13:31:21 公開日:2023-08-15
# EQ-Net: 弾性量子化ニューラルネットワーク

EQ-Net: Elastic Quantization Neural Networks ( http://arxiv.org/abs/2308.07650v1 )

ライセンス: Link先を確認
Ke Xu and Lei Han and Ye Tian and Shangshang Yang and Xingyi Zhang(参考訳) 現在のモデル量子化法は、ストレージ容量と計算複雑性を削減できる有望な能力を示している。 しかしながら、異なるハードウェアでサポートされている量子化形式の多様性のため、既存のソリューションの1つの制限は、通常、異なるシナリオに対して繰り返し最適化を必要とすることである。 フレキシブルな量子化形式を持つモデルを構築する方法はあまり研究されていない。 本稿では,強靭な重み共有量子化スーパーネットのトレーニングを目的とした,Elastic Quantization Neural Networks (EQ-Net) と呼ばれるワンショットネットワーク量子化システムについて検討する。 まず、様々な主要な量形式に適応する弾性量子化空間(弾性ビット幅、粒度、対称性を含む)を提案する。 次に,重量分布正規化損失(wdr-loss)と群進行誘導損失(gpg-loss)を提案し,弾性量子化空間ギャップにおける重量分布の不整合と出力ロジットを橋渡しする。 最後に、遺伝的アルゴリズムと提案した条件量子化認識精度予測器(CQAP)を推定器として組み込んで、混合精度量子ニューラルネットワークを高速に探索する。 大規模な実験により、我々のEQ-Netは、最先端の堅牢なビット幅法と同様に、静的な手法に近いか、それ以上に優れていることが示される。 コードは \href{https://github.com/xuke225/EQ-Net.git}{https://github.com/xuke225/EQ-Net} で入手できる。

Current model quantization methods have shown their promising capability in reducing storage space and computation complexity. However, due to the diversity of quantization forms supported by different hardware, one limitation of existing solutions is that usually require repeated optimization for different scenarios. How to construct a model with flexible quantization forms has been less studied. In this paper, we explore a one-shot network quantization regime, named Elastic Quantization Neural Networks (EQ-Net), which aims to train a robust weight-sharing quantization supernet. First of all, we propose an elastic quantization space (including elastic bit-width, granularity, and symmetry) to adapt to various mainstream quantitative forms. Secondly, we propose the Weight Distribution Regularization Loss (WDR-Loss) and Group Progressive Guidance Loss (GPG-Loss) to bridge the inconsistency of the distribution for weights and output logits in the elastic quantization space gap. Lastly, we incorporate genetic algorithms and the proposed Conditional Quantization-Aware Accuracy Predictor (CQAP) as an estimator to quickly search mixed-precision quantized neural networks in supernet. Extensive experiments demonstrate that our EQ-Net is close to or even better than its static counterparts as well as state-of-the-art robust bit-width methods. Code can be available at \href{https://github.com/xuke225/EQ-Net.git}{https://github.com/xuke225/EQ-Net}.
翻訳日:2023-08-16 13:30:55 公開日:2023-08-15
# Prompt Switch: テキストビデオ検索のための効率的なCLIP適応

Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval ( http://arxiv.org/abs/2308.07648v1 )

ライセンス: Link先を確認
Chaorui Deng, Qi Chen, Pengda Qin, Da Chen, Qi Wu(参考訳) テキストビデオ検索において、最近の研究は、事前訓練されたテキストイメージ基盤モデル(例えば、CLIP)の強力な学習能力の恩恵を受けている。 彼らにとって重要な問題は、クリップの画像エンコーダを使ってビデオ内のリッチセマンティクスを効果的に捉える方法である。 これに対処するため、最先端の手法では複雑なクロスモーダルモデリング技術を用いて、テキスト情報をビデオフレーム表現に融合するが、テキストクエリ毎にビデオ表現をオンラインで再計算しなければならないため、大規模な検索システムでは深刻な効率問題が発生する。 本稿では,この問題のあるクロスモーダル融合処理を廃止し,映像から意味的に強調された表現を学習することを目的として,映像表現をオフラインで計算し,異なるテキストに再利用できるようにする。 具体的には、まず、CLIP画像エンコーダに時空間の「Prompt Cube」を導入し、それをエンコーダ層内に繰り返し切り替え、グローバルなビデオセマンティクスをフレーム表現に効率的に組み込む。 次に,フレーム表現の訓練に補助的映像キャプションの目的を適用し,意味空間における詳細なガイダンスを提供することにより,詳細な映像意味の学習を容易にすることを提案する。 拡張フレーム表現に有意な時間融合戦略(平均プーリング)により、3つのベンチマークデータセット(MSR-VTT, MSVD, LSMDC)上での最先端のパフォーマンスを得る。

In text-video retrieval, recent works have benefited from the powerful learning capabilities of pre-trained text-image foundation models (e.g., CLIP) by adapting them to the video domain. A critical problem for them is how to effectively capture the rich semantics inside the video using the image encoder of CLIP. To tackle this, state-of-the-art methods adopt complex cross-modal modeling techniques to fuse the text information into video frame representations, which, however, incurs severe efficiency issues in large-scale retrieval systems as the video representations must be recomputed online for every text query. In this paper, we discard this problematic cross-modal fusion process and aim to learn semantically-enhanced representations purely from the video, so that the video representations can be computed offline and reused for different texts. Concretely, we first introduce a spatial-temporal "Prompt Cube" into the CLIP image encoder and iteratively switch it within the encoder layers to efficiently incorporate the global video semantics into frame representations. We then propose to apply an auxiliary video captioning objective to train the frame representations, which facilitates the learning of detailed video semantics by providing fine-grained guidance in the semantic space. With a naive temporal fusion strategy (i.e., mean-pooling) on the enhanced frame representations, we obtain state-of-the-art performances on three benchmark datasets, i.e., MSR-VTT, MSVD, and LSMDC.
翻訳日:2023-08-16 13:30:30 公開日:2023-08-15
# ステアリング言語生成:コヒーレント・ディバース合成データ生成のための対照的な専門家ガイダンスと否定的プロンプト

Steering Language Generation: Harnessing Contrastive Expert Guidance and Negative Prompting for Coherent and Diverse Synthetic Data Generation ( http://arxiv.org/abs/2308.07645v1 )

ライセンス: Link先を確認
Charles O'Neill, Yuan-Sen Ting, Ioana Ciuca, Roberta Raileanu, Jack Miller, Thang Bui(参考訳) 大規模言語モデル(LLM)は、下流モデルトレーニングから実用的なデータ活用に至るまで、多くの応用がある高品質で実用性の高い合成データを生成する大きな可能性を秘めている。 しかし、現代のモデルは、その印象的な能力にもかかわらず、一貫性と多様なデータの両方を作り出すのに一貫して苦労している。 整合性問題に対処するために,我々は,細調整と基本言語モデルのロジット分布の違いを強調し,ドメインの整合性を確保するための対照的な専門家ガイダンスを導入する。 多様性を確保するため、既存の実例と合成例をモデルへの負のプロンプトとして利用します。 私たちはこの二重プロンプトによるlogitリシェープのアプローチを,steer: semantic text enhancement through embedded repositioningと定義しています。 STEERは推論時に動作し、LLMを体系的に誘導し、データ分散(セマンティックフィディリティの保証)と、以前の合成例や既存の実際のデータセット(多様性と信頼性の保証)からの逸脱のバランスを取る。 この微妙なバランスは、潜在空間における選択された表現の方向や方向を動的に移動させることによって達成される。 STEERは、従来の合成データ生成技術よりも優れたパフォーマンスを示し、仮説生成、有毒および非有毒なコメント生成、常識推論タスク生成の3つの異なるタスク間でデータの多様性と一貫性のバランスが改善されている。 我々は、STEERがハイパーパラメータを介して多様性コヒーレンシートレードオフを微調整して制御できる方法を示し、その汎用性を強調した。

Large Language Models (LLMs) hold immense potential to generate synthetic data of high quality and utility, which has numerous applications from downstream model training to practical data utilisation. However, contemporary models, despite their impressive capacities, consistently struggle to produce both coherent and diverse data. To address the coherency issue, we introduce contrastive expert guidance, where the difference between the logit distributions of fine-tuned and base language models is emphasised to ensure domain adherence. In order to ensure diversity, we utilise existing real and synthetic examples as negative prompts to the model. We deem this dual-pronged approach to logit reshaping as STEER: Semantic Text Enhancement via Embedding Repositioning. STEER operates at inference-time and systematically guides the LLMs to strike a balance between adherence to the data distribution (ensuring semantic fidelity) and deviation from prior synthetic examples or existing real datasets (ensuring diversity and authenticity). This delicate balancing act is achieved by dynamically moving towards or away from chosen representations in the latent space. STEER demonstrates improved performance over previous synthetic data generation techniques, exhibiting better balance between data diversity and coherency across three distinct tasks: hypothesis generation, toxic and non-toxic comment generation, and commonsense reasoning task generation. We demonstrate how STEER allows for fine-tuned control over the diversity-coherency trade-off via its hyperparameters, highlighting its versatility.
翻訳日:2023-08-16 13:29:59 公開日:2023-08-15
# 低励起状態を超えたM\"ossbauer核のX線励起特性と検出法

A characterization and detection method for x-ray excitation of M\"ossbauer nuclei beyond the low-excitation regime ( http://arxiv.org/abs/2308.07644v1 )

ライセンス: Link先を確認
Lukas Wolff and J\"org Evers(参考訳) これまで、m\"ossbauer核を含む実験は低励起状態に限定されてきた。 この理由は核のスペクトル線幅が狭いためである。 この決定的な特徴により、m\"ossbauer spectroscopy の分解能と時間領域での制御と測定が容易であるが、同時に、加速器ベースのx線源から供給される光子のごく一部だけが核と共振していることを示している。 X線自由電子レーザーは、パルス当たりの核共鳴光子の数が大幅に増加し、低励起(LER)状態を超える励起が到達する。 これは、非線形励起の開始が実験的にどのように検証されるかという疑問を提起する。 そこで我々は、X線導波路に埋め込まれた核のアンサンブルのためのLER以外の核アンサンブルの励起を検出する方法を開発し、探索する。 これは、核からX線をコヒーレントに、そして非コヒーレントに散乱する比較に依存する。 その結果,2つの観測値の比はLER内で一定であり,核系の詳細や励起X線の特徴とは本質的には独立であることがわかった。 逆に、この同値性からの偏差は、LER以外の励起の直接的な表示として機能する。 この観察に基づいて, 瞬時インパルスと時間延長非インプルシブx線励起の両方について実験的なシグネチャを開発した。 コヒーレントかつ不整合に散らばった強度の関係により、非線形励起の理論モデルと対応する実験をより厳密に比較することができる。

Up to now, experiments involving M\"ossbauer nuclei have been restricted to the low-excitation regime. The reason for this is the narrow spectral line width of the nuclei. This defining feature enables M\"ossbauer spectroscopy with remarkable resolution and convenient control and measurements in the time domain, but at the same time implies that only a tiny part of the photons delivered by accelerator-based x-ray sources with orders-of-magnitude larger pulse bandwidth are resonant with the nuclei. X-ray free-electron lasers promise a substantial enhancement of the number of nuclear-resonant photons per pulse, such that excitations beyond the low-excitation (LER) regime come within reach. This raises the question, how the onset of non-linear excitations could be experimentally verified. Here, we develop and explore a method to detect an excitation of nuclear ensembles beyond the LER for ensembles of nuclei embedded in x-ray waveguides. It relies on the comparison of the x-rays coherently and incoherently scattered off of the nuclei. As a key result, we show that the ratio of the two observables is constant within the LER, essentially independent of the details of the nuclear system and the characteristics of the exciting x-rays. Conversely, deviations from this equivalence serve as a direct indication of excitations beyond the LER. Building upon this observation, we develop a variety of experimental signatures both, for near-instantaneous impulsive and for temporally-extended non-impulsive x-ray excitation. Correlating coherently and incoherently scattered intensities further allows one to compare theoretical models of nonlinear excitations more rigorously to corresponding experiments.
翻訳日:2023-08-16 13:29:27 公開日:2023-08-15
# 線形写像におけるより良いパラメータ化形式としての三元特異値分解

Ternary Singular Value Decomposition as a Better Parameterized Form in Linear Mapping ( http://arxiv.org/abs/2308.07641v1 )

ライセンス: Link先を確認
Boyu Chen, Hanxuan Chen, Jiao He, Fengyu Sun, Shangling Jui(参考訳) 本稿では,ネットワーク圧縮性能を飛躍的に向上させるために,単純かつ新しいパラメータ化された線形写像形式を提案する。 バニラ SVD とは異なり、SVD の $U$ と $V$ の行列は $\{\pm 1, 0\}$ の 3次行列に制限される。 つまり、高価な乗算命令を使う代わりに、TSVDは$U(\cdot)$と$V(\cdot)$を計算する際にのみ追加命令を必要とする。 ポストトレーニング量子化および量子化アウェアトレーニングのようなTSVDのための直接および訓練遷移アルゴリズムを提供する。 さらに,理論における直接遷移アルゴリズムの収束を解析する。 実験では,既存のベースラインモデルであるConvNext, Swim, BERT, OPTなどの大規模言語モデルなど,様々な種類のネットワークやタスクにおいて,TSVDが最先端のネットワーク圧縮性能を達成できることを実証した。

We present a simple yet novel parameterized form of linear mapping to achieves remarkable network compression performance: a pseudo SVD called Ternary SVD (TSVD). Unlike vanilla SVD, TSVD limits the $U$ and $V$ matrices in SVD to ternary matrices form in $\{\pm 1, 0\}$. This means that instead of using the expensive multiplication instructions, TSVD only requires addition instructions when computing $U(\cdot)$ and $V(\cdot)$. We provide direct and training transition algorithms for TSVD like Post Training Quantization and Quantization Aware Training respectively. Additionally, we analyze the convergence of the direct transition algorithms in theory. In experiments, we demonstrate that TSVD can achieve state-of-the-art network compression performance in various types of networks and tasks, including current baseline models such as ConvNext, Swim, BERT, and large language model like OPT.
翻訳日:2023-08-16 13:29:02 公開日:2023-08-15
# 大規模・未ラベル自然画像を用いた医療AIモデルのネットワーク初期化の促進

Enhancing Network Initialization for Medical AI Models Using Large-Scale, Unlabeled Natural Images ( http://arxiv.org/abs/2308.07688v1 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Leo Misera, Jakob Nikolas Kather, Daniel Truhn, Sven Nebelung(参考訳) ImageNetのような事前トレーニングデータセットは、医療画像分析におけるゴールドスタンダードとなっている。 しかし、ラベルのないデータを利用して堅牢な特徴を学習する自己教師付き学習(SSL)の出現は、集中的なラベリングプロセスをバイパスする機会を与える。 本研究では,非医用画像に対する事前トレーニングのためのSSLが胸部X線写真に適用可能か,非医用画像および医用画像に対する教師付き事前トレーニングとの比較を行った。 視覚トランスフォーマーを利用して 重みを初期化しました (i)自然画像によるSSL事前トレーニング(DINOv2) (ii)自然画像(画像Netデータセット)におけるSL事前学習 3)MIMIC-CXRデータベースからの胸部X線写真によるSL事前訓練 我々は6つの大きなグローバルデータセットから800,000以上の胸部X線撮影を行い、20以上の異なる画像所見を診断した。 我々のSSL事前トレーニングは、ImageNetベースの事前トレーニング(P<0.001)に勝るだけでなく、MIMIC-CXRデータセット上のSLを上回りました。 以上の結果から,適切な事前トレーニング戦略,特にSSLを選択することは,医用画像における人工知能(AI)の診断精度の向上に重要であることが示唆された。 胸部x線写真解析におけるsslの有望性を示すことで、医療画像におけるより効率的で正確なaiモデルへの転換を示唆する。

Pre-training datasets, like ImageNet, have become the gold standard in medical image analysis. However, the emergence of self-supervised learning (SSL), which leverages unlabeled data to learn robust features, presents an opportunity to bypass the intensive labeling process. In this study, we explored if SSL for pre-training on non-medical images can be applied to chest radiographs and how it compares to supervised pre-training on non-medical images and on medical images. We utilized a vision transformer and initialized its weights based on (i) SSL pre-training on natural images (DINOv2), (ii) SL pre-training on natural images (ImageNet dataset), and (iii) SL pre-training on chest radiographs from the MIMIC-CXR database. We tested our approach on over 800,000 chest radiographs from six large global datasets, diagnosing more than 20 different imaging findings. Our SSL pre-training on curated images not only outperformed ImageNet-based pre-training (P<0.001 for all datasets) but, in certain cases, also exceeded SL on the MIMIC-CXR dataset. Our findings suggest that selecting the right pre-training strategy, especially with SSL, can be pivotal for improving artificial intelligence (AI)'s diagnostic accuracy in medical imaging. By demonstrating the promise of SSL in chest radiograph analysis, we underline a transformative shift towards more efficient and accurate AI models in medical imaging.
翻訳日:2023-08-16 13:23:20 公開日:2023-08-15
# DiffGuard: 事前学習拡散モデルを用いた意味的ミスマッチ誘導分布検出

DiffGuard: Semantic Mismatch-Guided Out-of-Distribution Detection using Pre-trained Diffusion Models ( http://arxiv.org/abs/2308.07687v1 )

ライセンス: Link先を確認
Ruiyuan Gao, Chenchen Zhao, Lanqing Hong, Qiang Xu(参考訳) 分類器が与えられた場合、semantic out-of-distribution (ood) サンプルの固有の特性は、それらの内容がすべての法的なクラス、すなわち意味的ミスマッチと異なることである。 画像空間における意味的ミスマッチを拡大するために、条件付き生成逆数ネットワーク(cGAN)を利用するOOD検出に直接適用する研究が最近行われている。 小さなデータセットで優れたOOD検出性能を実現する一方で、入力画像とラベルの両方を条件としてcGANをトレーニングすることが困難であるため、ImageNetスケールデータセットには適用できない。 拡散モデルは,cGANと比較して訓練が容易であり,様々な条件に適応できるため,本研究では,意味ミスマッチ誘導OOD検出のための事前学習拡散モデルDiffGuardを提案する。 具体的には、OOD入力画像と予測ラベルが分類器から与えられた場合、これらの条件下で再構成されたOOD画像と元の入力画像との意味的差異を拡大しようと試みる。 また,これらの違いをさらに強めるために,いくつかのテストタイム手法を提案する。 実験の結果,DiffGuardは大規模なImageNetのCifar-10とハードケースの両方で有効であり,既存のOOD検出技術と組み合わせて最先端のOOD検出結果が得られることがわかった。

Given a classifier, the inherent property of semantic Out-of-Distribution (OOD) samples is that their contents differ from all legal classes in terms of semantics, namely semantic mismatch. There is a recent work that directly applies it to OOD detection, which employs a conditional Generative Adversarial Network (cGAN) to enlarge semantic mismatch in the image space. While achieving remarkable OOD detection performance on small datasets, it is not applicable to ImageNet-scale datasets due to the difficulty in training cGANs with both input images and labels as conditions. As diffusion models are much easier to train and amenable to various conditions compared to cGANs, in this work, we propose to directly use pre-trained diffusion models for semantic mismatch-guided OOD detection, named DiffGuard. Specifically, given an OOD input image and the predicted label from the classifier, we try to enlarge the semantic difference between the reconstructed OOD image under these conditions and the original input image. We also present several test-time techniques to further strengthen such differences. Experimental results show that DiffGuard is effective on both Cifar-10 and hard cases of the large-scale ImageNet, and it can be easily combined with existing OOD detection techniques to achieve state-of-the-art OOD detection results.
翻訳日:2023-08-16 13:22:56 公開日:2023-08-15
# 適応勾配変調によるマルチモーダルモデルの性能向上

Boosting Multi-modal Model Performance with Adaptive Gradient Modulation ( http://arxiv.org/abs/2308.07686v1 )

ライセンス: Link先を確認
Hong Li, Xingyu Li, Pengbo Hu, Yinuo Lei, Chunxiao Li, Yi Zhou(参考訳) マルチモーダル学習の分野は急速に成長しているが,最近の研究により,標準合同学習パラダイムの欠如が明らかになっている。 彼らは、合同訓練モデルの最適性能をモダリティ競争現象と定義している。 既存の作業は、トレーニングプロセスを調整することによって、合同訓練モデルを改善することを試みる。 有効性にもかかわらず、これらの手法は後期融合モデルにしか適用できない。 さらに重要なことは、モダリティ競争のメカニズムは未解明のままである。 本稿では,様々な融合戦略を持つ多モードモデルの性能を向上させる適応的勾配変調法を提案する。 実験の結果,提案手法は既存の変調法を超越していることがわかった。 さらに,モダリティ競争の定量的理解と,変調法の有効性の背景となるメカニズムを考察するために,競技強度を測定するための新しい指標を導入する。 この計量はモノモダルの概念に基づいており、モダリティの競合のない状態を表すように設計された関数である。 系統的調査を通じて,変調がモデルにより有意義なモダリティに依存するよう促すという直観を検証した。 さらに、共同で訓練されたモデルは典型的には、競合が他のモダリティよりも弱い、好ましいモダリティを持つ。 しかし、この好ましいモダリティは他のものを支配する必要はない。 私たちのコードはhttps://github.com/lihong2303/agm_iccv2023で利用可能です。

While the field of multi-modal learning keeps growing fast, the deficiency of the standard joint training paradigm has become clear through recent studies. They attribute the sub-optimal performance of the jointly trained model to the modality competition phenomenon. Existing works attempt to improve the jointly trained model by modulating the training process. Despite their effectiveness, those methods can only apply to late fusion models. More importantly, the mechanism of the modality competition remains unexplored. In this paper, we first propose an adaptive gradient modulation method that can boost the performance of multi-modal models with various fusion strategies. Extensive experiments show that our method surpasses all existing modulation methods. Furthermore, to have a quantitative understanding of the modality competition and the mechanism behind the effectiveness of our modulation method, we introduce a novel metric to measure the competition strength. This metric is built on the mono-modal concept, a function that is designed to represent the competition-less state of a modality. Through systematic investigation, our results confirm the intuition that the modulation encourages the model to rely on the more informative modality. In addition, we find that the jointly trained model typically has a preferred modality on which the competition is weaker than other modalities. However, this preferred modality need not dominate others. Our code will be available at https://github.com/lihong2303/AGM_ICCV2023.
翻訳日:2023-08-16 13:22:30 公開日:2023-08-15
# コンピュータビジョンにおける敵対的攻撃の概観

A Review of Adversarial Attacks in Computer Vision ( http://arxiv.org/abs/2308.07673v1 )

ライセンス: Link先を確認
Yutong Zhang, Yao Li, Yin Li, Zhichang Guo(参考訳) ディープニューラルネットワークは、さまざまな下流タスク、特に自動運転のような安全クリティカルなシナリオで広く使用されているが、ディープニューラルネットワークは、しばしば敵のサンプルによって脅かされている。 このような敵対的な攻撃は人間の目には見えないが、dnnの誤分類につながる可能性があり、深層学習モデルと機械学習モデル間の転送可能性や現実世界の達成可能性を示すことが多い。 敵攻撃は、攻撃者がモデルのパラメータと勾配を知っているホワイトボックス攻撃とブラックボックス攻撃に分けられ、後者は攻撃者がモデルの入力と出力しか取得できない。 攻撃者の目的に関して言えば、ターゲットの攻撃と非ターゲットの攻撃に分けることができる。つまり、攻撃者はモデルが元のサンプルを特定のクラスに誤分類することを望んでおり、これはより実用的であり、非ターゲットの攻撃はモデルがサンプルを誤分類するだけである。 ブラックボックスの設定は、私たちが実際に遭遇するシナリオです。

Deep neural networks have been widely used in various downstream tasks, especially those safety-critical scenario such as autonomous driving, but deep networks are often threatened by adversarial samples. Such adversarial attacks can be invisible to human eyes, but can lead to DNN misclassification, and often exhibits transferability between deep learning and machine learning models and real-world achievability. Adversarial attacks can be divided into white-box attacks, for which the attacker knows the parameters and gradient of the model, and black-box attacks, for the latter, the attacker can only obtain the input and output of the model. In terms of the attacker's purpose, it can be divided into targeted attacks and non-targeted attacks, which means that the attacker wants the model to misclassify the original sample into the specified class, which is more practical, while the non-targeted attack just needs to make the model misclassify the sample. The black box setting is a scenario we will encounter in practice.
翻訳日:2023-08-16 13:22:09 公開日:2023-08-15
# Penningマイクロトラップ量子プロセッサのユニットセル

Unit cell of a Penning micro-trap quantum processor ( http://arxiv.org/abs/2308.07672v1 )

ライセンス: Link先を確認
Shreyans Jain, Tobias S\"agesser, Pavel Hrmo, Celeste Torkzaban, Martin Stadler, Robin Oswald, Chris Axline, Amado Bautista-Salvador, Christian Ospelkaus, Daniel Kienzler, and Jonathan Home(参考訳) 高周波トラップにおけるトラップイオンは、高忠実度量子ゲートと長いコヒーレンス時間のために量子コンピュータを実現するための主要なアプローチの一つである。 しかし、高周波の使用は、高電圧でのチップの互換性の要求、送電管理、イオンの輸送と配置の制限など、スケーリングに多くの課題をもたらす。 高周波磁場を3t磁場に置き換えることで、これらの制限を取り除いた微小加工されたペニングイオントラップを実現する。 この設定では、イオンの完全な量子制御と、チップ上のトラップ平面内でイオンを任意に輸送する能力を示す。 このPenningマイクロトラップアプローチのユニークな特徴は、接続性と柔軟性を改善したQuantum CCDアーキテクチャの変更を開放し、大規模に閉じ込められたイオン量子コンピューティング、量子シミュレーション、量子センシングを実現する。

Trapped ions in radio-frequency traps are among the leading approaches for realizing quantum computers, due to high-fidelity quantum gates and long coherence times. However, the use of radio-frequencies presents a number of challenges to scaling, including requiring compatibility of chips with high voltages, managing power dissipation and restricting transport and placement of ions. By replacing the radio-frequency field with a 3 T magnetic field, we here realize a micro-fabricated Penning ion trap which removes these restrictions. We demonstrate full quantum control of an ion in this setting, as well as the ability to transport the ion arbitrarily in the trapping plane above the chip. This unique feature of the Penning micro-trap approach opens up a modification of the Quantum CCD architecture with improved connectivity and flexibility, facilitating the realization of large-scale trapped-ion quantum computing, quantum simulation and quantum sensing.
翻訳日:2023-08-16 13:21:52 公開日:2023-08-15
# 移動光学格子を用いた捕捉イオンの偏光性測定における量子論理に基づく精度の伝達法

A scheme for quantum-logic based transfer of accuracy in polarizability measurement for trapped ions using a moving optical lattice ( http://arxiv.org/abs/2308.07671v1 )

ライセンス: Link先を確認
Fabian Wolf(参考訳) 閉じ込められたイオンに基づく光原子時計は、環境からの黒体放射との相互作用による時計遷移の系統的な周波数シフトに苦しむ。 これらのシフトは、黒体放射スペクトルと微分動的偏光性が十分な精度で知られている場合に補償することができる。 本稿では,ある種から別の種への偏光率測定の精度を直接伝達する量子論理に基づく新しい測定手法を提案する。 この測定は、閉じ込められたイオンにおける最先端の偏光性測定の限界であるパーセントレベル以下のレーザーパワーの校正の必要性を回避する。 さらに, 偏光率を高精度に計算できる水素様イオンへの偏光率移動を参照することが可能である。

Optical atomic clocks based on trapped ions suffer from systematic frequency shifts of the clock transition due to interaction with blackbody radiation from the environment. These shifts can be compensated if the blackbody radiation spectrum and the differential dynamic polarizability is known to a sufficient precision. Here, we present a new measurement scheme, based on quantum logic that allows a direct transfer of precision for polarizability measurements from one species to the other. This measurement circumvents the necessity of calibrating laser power below the percent level, which is the limitation for state-of-the-art polarizability measurements in trapped ions. Furthermore, the presented technique allows to reference the polarizability transfer to hydrogen-like ions for which the polarizability can be calculated with high precision.
翻訳日:2023-08-16 13:21:34 公開日:2023-08-15
# 量子状態に対するベイズ的モデリングアプローチ - 究極のガウス的プロセス状態ハンドブック

Bayesian Modelling Approaches for Quantum States -- The Ultimate Gaussian Process States Handbook ( http://arxiv.org/abs/2308.07669v1 )

ライセンス: Link先を確認
Yannic Rath(参考訳) マルチボディシステムの構成要素間の相関関係を正確に捉えることは、量子力学的基礎に基礎を置いている様々なシステムの適切な記述の鍵となる課題の1つである。 この論文は、量子状態の効率的な表現を見つけるための普遍的な枠組みを導入するという究極の目標と非自明な相関を示す量子多体波動関数の(古典的な)数値モデリングのための新しいツールと技術について論じる。 対象の特定の(物理的に期待される)相関特性に近似状態を制限することなく、標準機械学習フレームワークとのシナジーを利用して、関連する固有特性の自動推論を可能にする方法について概説した。 ガウス過程を通じて形式化されたような厳密なベイズ回帰手法は、様々な多体状態に対してコンパクト形式を導入するためにどのように利用できるかを示す。 ガウス過程状態(gaussian process state)を創案したansatzの基礎となる確率的回帰技術に基づき、異なる圧縮技術を用いて、物理的性質を抽出可能な数値的実現可能な表現を効率的に抽出する。 直感的に動機付けられたモデリング原理に従うことにより、モデルは高い解釈可能性を持ち、強い相関関係のために本質的にシミュレートが難しいものを含む、異なる量子システムの研究に容易に適用可能なツールを提供する。 この論文はガウス過程の状態に関する異なる視点を概説し、いくつかのベンチマーク応用、特に原型量子格子モデルの基底状態近似、フェルミ・ハバードモデル、$j_1-j_2$モデル、単純なab-initio量子化学系に基づく数値フレームワークの実用的適用性を示す。

Capturing the correlation emerging between constituents of many-body systems accurately is one of the key challenges for the appropriate description of various systems whose properties are underpinned by quantum mechanical fundamentals. This thesis discusses novel tools and techniques for the (classical) numerical modelling of quantum many-body wavefunctions exhibiting non-trivial correlations with the ultimate goal to introduce a universal framework for finding efficient quantum state representations. It is outlined how synergies with standard machine learning frameworks can be exploited to enable an automated inference of the relevant intrinsic characteristics, essentially without restricting the approximated state to specific (physically expected) correlation characteristics of the target. It is presented how rigorous Bayesian regression techniques, e.g. formalized via Gaussian Processes, can be utilized to introduce compact forms for various many-body states. Based on the probabilistic regression techniques forming the foundation of the resulting ansatz, coined the Gaussian Process State, different compression techniques are explored to efficiently extract a numerically feasible representation from which physical properties can be extracted. By following intuitively motivated modelling principles, the model carries a high degree of interpretability and offers an easily applicable tool for the study of different quantum systems, including ones inherently hard to simulate due to their strong correlation. This thesis outlines different perspectives on Gaussian Process States, and demonstrates the practical applicability of the numerical framework based on several benchmark applications, in particular, ground state approximations for prototypical quantum lattice models, Fermi-Hubbard models and $J_1-J_2$ models, as well as simple ab-initio quantum chemical systems.
翻訳日:2023-08-16 13:21:21 公開日:2023-08-15
# インバージョン・バイ・インバージョン:トレーニングなし確率微分方程式によるexemplar-based sketch-to-photo synthesis

Inversion-by-Inversion: Exemplar-based Sketch-to-Photo Synthesis via Stochastic Differential Equations without Training ( http://arxiv.org/abs/2308.07665v1 )

ライセンス: Link先を確認
Ximing Xing, Chuang Wang, Haitao Zhou, Zhihao Hu, Chongxuan Li, Dong Xu, Qian Yu(参考訳) Exemplar-based sketch-to-photo synthesisでは、スケッチに基づいて写真リアルな画像を生成することができる。 近年,拡散法は画像生成タスクにおいて顕著な性能を達成し,テキスト駆動生成やエネルギー関数による高柔軟性制御を実現している。 しかし、スケッチ画像から色とテクスチャで写実的な画像を生成することは、拡散モデルでは困難である。 スケッチは典型的には数ストロークのみで構成され、ほとんどの領域は空白のままであり、拡散に基づく方法では写真リアリスティック画像の生成が困難である。 本研究では,exemplar-based sketch-to-photo 合成のための ``inversion-by-inversion" という二段階法を提案する。 このアプローチにはシェープエンハンシングインバージョンとフルコントロールインバージョンが含まれる。 形状エンハンシング反転過程において、形状エネルギー関数の誘導により無色写真を生成する。 このステップは、生成された写真の形状を確実に制御するために不可欠である。 フルコントロール・インバージョンでは,最終生成画像の色やテクスチャを制御するための外観エネルギー関数を提案し,インバージョン・バイ・インバージョン・パイプラインはトレーニング不要であり,色やテクスチャの制御に様々な種類の例を受け入れることができる。 提案手法を評価するために広範な実験を行い,その有効性を実証した。

Exemplar-based sketch-to-photo synthesis allows users to generate photo-realistic images based on sketches. Recently, diffusion-based methods have achieved impressive performance on image generation tasks, enabling highly-flexible control through text-driven generation or energy functions. However, generating photo-realistic images with color and texture from sketch images remains challenging for diffusion models. Sketches typically consist of only a few strokes, with most regions left blank, making it difficult for diffusion-based methods to produce photo-realistic images. In this work, we propose a two-stage method named ``Inversion-by-Inversion" for exemplar-based sketch-to-photo synthesis. This approach includes shape-enhancing inversion and full-control inversion. During the shape-enhancing inversion process, an uncolored photo is generated with the guidance of a shape-energy function. This step is essential to ensure control over the shape of the generated photo. In the full-control inversion process, we propose an appearance-energy function to control the color and texture of the final generated photo.Importantly, our Inversion-by-Inversion pipeline is training-free and can accept different types of exemplars for color and texture control. We conducted extensive experiments to evaluate our proposed method, and the results demonstrate its effectiveness.
翻訳日:2023-08-16 13:20:51 公開日:2023-08-15
# 限られた資源とSIC-POVMを持つNISQデバイスにおける単一量子状態推定

Single Qubit State Estimation on NISQ Devices with Limited Resources and SIC-POVMs ( http://arxiv.org/abs/2308.07664v1 )

ライセンス: Link先を確認
Cristian A. Galvis-Florez, Daniel Reitzner, Simo S\"arkk\"a(参考訳) 現在の量子コンピュータは、古典的な計算手法を克服する可能性があるが、ノイズの多い中間スケールの量子デバイスで実行できるアルゴリズムの能力は、ハードウェアの欠陥のために制限されている。 量子ビットの状態の推定は、直接測定が欠如しているため、異なる量子プロトコルでしばしば必要となる。 本稿では,量子処理ユニットにおける量子ビットの量子状態を直接測定することなく推定する問題を考察する。 本稿では,量子トモグラフィ転送関数を用いて最適化された量子回路として表現される量子状態を推定するパラメータ化測定モデルを検討する。 我々は、フィンランド技術研究センターの量子コンピュータとibm量子コンピュータを用いて回路を実装し、テストする。 推定に用いる正の演算子値測定のセットは対称的かつ情報的に完備であることを示す。 さらに、直接測定が可能となると、量子ビット推定に必要なリソースが減少し、測定の対称性が保たれる。

Current quantum computers have the potential to overcome classical computational methods, however, the capability of the algorithms that can be executed on noisy intermediate-scale quantum devices is limited due to hardware imperfections. Estimating the state of a qubit is often needed in different quantum protocols, due to the lack of direct measurements. In this paper, we consider the problem of estimating the quantum state of a qubit in a quantum processing unit without conducting direct measurements of it. We consider a parameterized measurement model to estimate the quantum state, represented as a quantum circuit, which is optimized using the quantum tomographic transfer function. We implement and test the circuit using the quantum computer of the Technical Research Centre of Finland as well as an IBM quantum computer. We demonstrate that the set of positive operator-valued measurements used for the estimation is symmetric and informationally complete. Moreover, the resources needed for qubit estimation are reduced when direct measurements are allowed, keeping the symmetric property of the measurements.
翻訳日:2023-08-16 13:20:31 公開日:2023-08-15
# グラディエントベースのポストトレーニング量子化:現状の整合性

Gradient-Based Post-Training Quantization: Challenging the Status Quo ( http://arxiv.org/abs/2308.07662v1 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny and Kevin Bailly(参考訳) 量子化は、浮動小数点演算を単純な固定点演算に変換するディープニューラルネットワークの効率的な展開のための重要なステップとなっている。 最も単純な形式では、単にスケーリングと丸みを帯びた変換の組み合わせで構成されており、限られた圧縮率かかなりの精度低下をもたらす。 近年,gptq (gradient-based post-training quantization) 法は,そのような単純な手法と,より強力だが高価な量子化・アウェアトレーニング (qat) の手法,特にllm を量子化しようとする場合には,量子化プロセスのスケーラビリティが最重要視される。 GPTQは基本的に、小さなキャリブレーションセットを使用してラウンド操作を学習する。 本稿では,GPTQ手法の共通選択に挑戦する。 特に、このプロセスは、ある程度は、いくつかの変数(重み付け、特徴増強、校正セットの選択)に対して堅牢であることを示す。 より重要なのは、問題定式化(損失、自由度、非一様量子化スキームの使用)や最適化プロセス(変数とオプティマイザの選択)に関して、より効率的でスケーラブルなGPTQ手法を設計するためのベストプラクティスを導出することです。 最後に,新しい重要度に基づく混合精度手法を提案する。 これらのガイドラインは、テスト済みのGPTQメソッドとネットワーク(例えば、4ビット量子化のためのViTの +6.819 ポイントなど)の大幅な性能向上をもたらし、スケーラブルで効果的な量子化手法の設計の道を開いた。

Quantization has become a crucial step for the efficient deployment of deep neural networks, where floating point operations are converted to simpler fixed point operations. In its most naive form, it simply consists in a combination of scaling and rounding transformations, leading to either a limited compression rate or a significant accuracy drop. Recently, Gradient-based post-training quantization (GPTQ) methods appears to be constitute a suitable trade-off between such simple methods and more powerful, yet expensive Quantization-Aware Training (QAT) approaches, particularly when attempting to quantize LLMs, where scalability of the quantization process is of paramount importance. GPTQ essentially consists in learning the rounding operation using a small calibration set. In this work, we challenge common choices in GPTQ methods. In particular, we show that the process is, to a certain extent, robust to a number of variables (weight selection, feature augmentation, choice of calibration set). More importantly, we derive a number of best practices for designing more efficient and scalable GPTQ methods, regarding the problem formulation (loss, degrees of freedom, use of non-uniform quantization schemes) or optimization process (choice of variable and optimizer). Lastly, we propose a novel importance-based mixed-precision technique. Those guidelines lead to significant performance improvements on all the tested state-of-the-art GPTQ methods and networks (e.g. +6.819 points on ViT for 4-bit quantization), paving the way for the design of scalable, yet effective quantization methods.
翻訳日:2023-08-16 13:20:15 公開日:2023-08-15
# コヒーレンス蒸留のコヒーレント測定コスト

The coherent measurement cost of coherence distillation ( http://arxiv.org/abs/2308.07719v1 )

ライセンス: Link先を確認
Varun Narasimhachar(参考訳) 量子コヒーレンス(quantum coherence)は、量子技術応用に必要な資源である。 コヒーレンスを生成できない操作を用いて、ノイズのある形から蒸留できることが知られている。 しかし蒸留は、これまで推定されていなかったコヒーレントな測定コストを正確に測定する。 ここでは、このコスト(アダマールの測定値と同数で定式化された)が、私たちが不可解なコヒーレンスと呼ぶもの、すなわち形成のコヒーレンスと蒸留可能なコヒーレンスとの差と関連していることを示す。 我々は、与えられたノイズコヒーレント状態の多くのコピーから蒸留する場合、コヒーレントな測定コストは、入力の不可避コヒーレンスと正確に一致する漸近速度で、コピー数で広範囲にスケールする(そして部分的に証明する)。 このコストは、コヒーレンス蒸留が偶発的な結果(例えば、非コヒーレントランダムネス抽出)である場合に適用されるが、純粋なコヒーレンスが唯一の望ましい結果である場合、その影響はより劇的である。

Quantum coherence is an indispensable resource for quantum technological applications. It is known to be distillable from a noisy form using operations that cannot create coherence. However, distillation exacts a hidden coherent measurement cost, whose extent has not previously been estimated. Here we show that this cost (quantified by an equivalent number of Hadamard measurements) is related to what we call the irretrievable coherence: the difference between the coherence of formation and the distillable coherence. We conjecture (and make partial progress towards proving) that when distilling from many copies of a given noisy coherent state, the coherent measurement cost scales extensively in the number of copies, at an asymptotic rate exactly equalling the input's irretrievable coherence. This cost applies to any application whereof coherence distillation is an incidental outcome (e.g. incoherent randomness extraction), but the implications are more dramatic if pure coherence is the only desired outcome: the measurement cost may often be higher than the distilled yield, in which case coherence should rather be prepared afresh than distilled from a noisy input.
翻訳日:2023-08-16 13:12:45 公開日:2023-08-15
# 局所-Global Pixelからのパネル留置によるMモード自動心エコー計測

Real-time Automatic M-mode Echocardiography Measurement with Panel Attention from Local-to-Global Pixels ( http://arxiv.org/abs/2308.07717v1 )

ライセンス: Link先を確認
Ching-Hsun Tseng, Shao-Ju Chien, Po-Shen Wang, Shin-Jye Lee, Wei-Huan Hu, Bin Pu, and Xiao-jun Zeng(参考訳) 運動モード(Mモード)記録は、心臓の寸法と機能を測定するための心エコー法の重要な部分である。 However, the current diagnosis cannot build an automatic scheme, as there are three fundamental obstructs: Firstly, there is no open dataset available to build the automation for ensuring constant results and bridging M-mode echocardiography with real-time instance segmentation (RIS); Secondly, the examination is involving the time-consuming manual labelling upon M-mode echocardiograms; Thirdly, as objects in echocardiograms occupy a significant portion of pixels, the limited receptive field in existing backbones (e.g., ResNet) composed from multiple convolution layers are inefficient to cover the period of a valve movement. 既存の非ローカルアテンション(NL)の妥協は、計算オーバーヘッドが高く、あるいは非ローカルブロックの簡易バージョンからの情報を失うことでリアルタイムにできない。 そこで本研究では,mモード心エコー計のリアルタイム自動計測手法であるramemを提案する。 1) Mモード心エコー図のデータセットであるMEISを提供し、一貫性のある結果を実現し、自動スキームの開発を支援する。 2) グローバルレセプティブフィールドを用いた大型物体検出に向けたris方式において,パネル注目,ピクセルアンシャフリングによる局所からグローバルへの効率的な注目,更新upanets v2の埋め込みを提案する。 3) 診断における高速かつ正確な自動ラベリングを可能にするMモード心エコー計測の効率的なアルゴリズムAMEMを開発した。 実験の結果,RAMEM は PASCAL 2012 SBD の既存の RIS バックボーン (非局所的注意) を超越し,実時間MEIS の人為的な性能を試験した。 MEISとデータセットのコードはhttps://github.com/hanktseng131415go/RAMEで公開されている。

Motion mode (M-mode) recording is an essential part of echocardiography to measure cardiac dimension and function. However, the current diagnosis cannot build an automatic scheme, as there are three fundamental obstructs: Firstly, there is no open dataset available to build the automation for ensuring constant results and bridging M-mode echocardiography with real-time instance segmentation (RIS); Secondly, the examination is involving the time-consuming manual labelling upon M-mode echocardiograms; Thirdly, as objects in echocardiograms occupy a significant portion of pixels, the limited receptive field in existing backbones (e.g., ResNet) composed from multiple convolution layers are inefficient to cover the period of a valve movement. Existing non-local attentions (NL) compromise being unable real-time with a high computation overhead or losing information from a simplified version of the non-local block. Therefore, we proposed RAMEM, a real-time automatic M-mode echocardiography measurement scheme, contributes three aspects to answer the problems: 1) provide MEIS, a dataset of M-mode echocardiograms for instance segmentation, to enable consistent results and support the development of an automatic scheme; 2) propose panel attention, local-to-global efficient attention by pixel-unshuffling, embedding with updated UPANets V2 in a RIS scheme toward big object detection with global receptive field; 3) develop and implement AMEM, an efficient algorithm of automatic M-mode echocardiography measurement enabling fast and accurate automatic labelling among diagnosis. The experimental results show that RAMEM surpasses existing RIS backbones (with non-local attention) in PASCAL 2012 SBD and human performances in real-time MEIS tested. The code of MEIS and dataset are available at https://github.com/hanktseng131415go/RAME.
翻訳日:2023-08-16 13:12:22 公開日:2023-08-15
# 土地利用計画における不確実性を隠したフラッシュポイント信号

Flashpoints Signal Hidden Inherent Instabilities in Land-Use Planning ( http://arxiv.org/abs/2308.07714v1 )

ライセンス: Link先を確認
Hazhir Aliahmadi, Maeve Beckett, Sam Connolly, Dongmei Chen, Greg van Anders(参考訳) 土地利用意思決定プロセスは、グローバルに普及する体系的株式と持続可能性の懸念を生み出す長い歴史を持つ。 多目的土地割当(MOLA)のような量的、最適化に基づく計画手法は、土地利用の種類、量、場所によって計画の優先順位を明確に評価することで、客観性と透明性を向上させる可能性を開くように見える。 ここでは, 計画基準に基づく最適化に基づく計画手法が不安定な「フラッシュポイント」を発生させ, 計画優先順位の小さな変更が, 土地利用量に大きな変化をもたらすことを示す。 我々は、MOLAモデルで発見されたフラッシュポイントは、これらの計画因子が明示的または暗黙的に定式化されているかどうかに関わらず、オンサイトとインターサイトを協調する要因を計画するときに発生する、より一般的な不安定なファミリーの例である、と定量的に主張する。 我々は,不安定性が「草地」と呼ぶ土地利用型のあいまいさの地域につながることを示す。 フラッシュポイント間の灰色領域を直接マッピングすることにより,土地利用パターンの組合せ的に大きな空間を小さくし,利害関係者がより効率的かつ公正な結果に到達できるようにすることで,定量的手法が有用性を維持することを示す。

Land-use decision-making processes have a long history of producing globally pervasive systemic equity and sustainability concerns. Quantitative, optimization-based planning approaches, e.g. Multi-Objective Land Allocation (MOLA), seemingly open the possibility to improve objectivity and transparency by explicitly evaluating planning priorities by the type, amount, and location of land uses. Here, we show that optimization-based planning approaches with generic planning criteria generate a series of unstable "flashpoints" whereby tiny changes in planning priorities produce large-scale changes in the amount of land use by type. We give quantitative arguments that the flashpoints we uncover in MOLA models are examples of a more general family of instabilities that occur whenever planning accounts for factors that coordinate use on- and between-sites, regardless of whether these planning factors are formulated explicitly or implicitly. We show that instabilities lead to regions of ambiguity in land-use type that we term "gray areas". By directly mapping gray areas between flashpoints, we show that quantitative methods retain utility by reducing combinatorially large spaces of possible land-use patterns to a small, characteristic set that can engage stakeholders to arrive at more efficient and just outcomes.
翻訳日:2023-08-16 13:11:53 公開日:2023-08-15
# SPM:構造的事前学習とマッチングアーキテクチャによる関係モデリング

SPM: Structured Pretraining and Matching Architectures for Relevance Modeling in Meituan Search ( http://arxiv.org/abs/2308.07711v1 )

ライセンス: Link先を確認
Wen Zan, Yaopeng Han, Xiaotian Jiang, Yao Xiao, Yang Yang, Dayao Chen, Sheng Chen(参考訳) eコマース検索では,クエリとドキュメントの関連性はユーザエクスペリエンスを満たす上で必須である。 製品を提供する従来のeコマースプラットフォームとは異なり、ユーザは主に製品提供者向けのmeituanのようなライフサービスプラットフォームで検索する。 1) 構造化文書の異なる分野に言語分布の相違があるため, BERT のような既製の事前学習言語モデルに基づく手法を直接採用することは困難である。 2) 異なる分野が重要であり,その長さが大きく異なるため,関連性マッチングに役立つ文書情報の抽出が困難である。 そこで本稿では,リッチな構造化文書とのマッチングのために,新しい2段階事前学習とマッチングアーキテクチャを提案する。 事前学習段階では,クエリフィールドと文書の複数のフィールドの両方を入力として使用し,長大なフィールドに対する効果的な情報圧縮手法を含む効果的な事前学習手法を提案する。 関連度マッチングの段階では,検索クエリにおけるドメイン知識を活用して,関連度スコアリングのためのより効果的な文書表現を生成する新しいマッチング手法を提案する。 数百万人のユーザに対する大規模なオフライン実験とオンラインA/Bテストにより、提案したアーキテクチャが妥当性モデリングのパフォーマンスを効果的に向上することを確認した。 モデルはすでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。

In e-commerce search, relevance between query and documents is an essential requirement for satisfying user experience. Different from traditional e-commerce platforms that offer products, users search on life service platforms such as Meituan mainly for product providers, which usually have abundant structured information, e.g. name, address, category, thousands of products. Modeling search relevance with these rich structured contents is challenging due to the following issues: (1) there is language distribution discrepancy among different fields of structured document, making it difficult to directly adopt off-the-shelf pretrained language model based methods like BERT. (2) different fields usually have different importance and their length vary greatly, making it difficult to extract document information helpful for relevance matching. To tackle these issues, in this paper we propose a novel two-stage pretraining and matching architecture for relevance matching with rich structured documents. At pretraining stage, we propose an effective pretraining method that employs both query and multiple fields of document as inputs, including an effective information compression method for lengthy fields. At relevance matching stage, a novel matching method is proposed by leveraging domain knowledge in search query to generate more effective document representations for relevance scoring. Extensive offline experiments and online A/B tests on millions of users verify that the proposed architectures effectively improve the performance of relevance modeling. The model has already been deployed online, serving the search traffic of Meituan for over a year.
翻訳日:2023-08-16 13:11:30 公開日:2023-08-15
# 選択的なシナプスダンピングを通さない高速機械学習

Fast Machine Unlearning Without Retraining Through Selective Synaptic Dampening ( http://arxiv.org/abs/2308.07707v1 )

ライセンス: Link先を確認
Jack Foster, Stefan Schoepf, Alexandra Brintrup(参考訳) 機械学習モデルを忘れることのできる機械学習は、データプライバシ規則に準拠するだけでなく、有害で操作された、あるいは時代遅れな情報を削除することがますます重要になっている。 重要な課題は、残りのデータでモデルパフォーマンスを保護しながら、特定の情報を忘れることである。 現在の最先端のメソッドはうまく機能するが、モデルのパフォーマンスを保護または復元するためには、保持されたデータに対してある程度の訓練を必要とする。 これにより、計算オーバーヘッドが増加し、トレーニングデータが引き続き利用可能でアクセス可能であることが義務付けられる。 対照的に、他の手法ではリトレインフリーのパラダイムを採用しているが、これらの手法は計算コストが禁じられ、リトレインベースの手法と同等に動作しない。 選択型シナプスダンピング(Selective Synaptic Dampening, SSD)は, 高速で, 性能が高く, 訓練データの長期保存を必要としない, 2段階, ポストホック, リトレインフリーな機械学習手法である。 まず、ssdはトレーニングのフィッシャー情報マトリクスを使い、データを忘れ、忘れセットにとって不釣り合いに重要なパラメータを選択する。 第2に、SSDは、これらのパラメータを、より広いトレーニングデータに対する忘れセットに対する相対的な重要性に比例して減衰させることで、忘れを誘導する。 resnet18 と vision transformer を用いた各種実験において,既存のアンラーニング手法に対する評価を行った。 その結果,retrain-based post hoc法とssd性能が競合することが明らかとなり,retrain-free post hoc unlearning法の有効性が示された。

Machine unlearning, the ability for a machine learning model to forget, is becoming increasingly important to comply with data privacy regulations, as well as to remove harmful, manipulated, or outdated information. The key challenge lies in forgetting specific information while protecting model performance on the remaining data. While current state-of-the-art methods perform well, they typically require some level of retraining over the retained data, in order to protect or restore model performance. This adds computational overhead and mandates that the training data remain available and accessible, which may not be feasible. In contrast, other methods employ a retrain-free paradigm, however, these approaches are prohibitively computationally expensive and do not perform on par with their retrain-based counterparts. We present Selective Synaptic Dampening (SSD), a novel two-step, post hoc, retrain-free approach to machine unlearning which is fast, performant, and does not require long-term storage of the training data. First, SSD uses the Fisher information matrix of the training and forgetting data to select parameters that are disproportionately important to the forget set. Second, SSD induces forgetting by dampening these parameters proportional to their relative importance to the forget set with respect to the wider training data. We evaluate our method against several existing unlearning methods in a range of experiments using ResNet18 and Vision Transformer. Results show that the performance of SSD is competitive with retrain-based post hoc methods, demonstrating the viability of retrain-free post hoc unlearning approaches.
翻訳日:2023-08-16 13:11:07 公開日:2023-08-15
# 視覚言語モデルを用いた医用画像分割における転送学習の検討

Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models ( http://arxiv.org/abs/2308.07706v1 )

ライセンス: Link先を確認
Kanchan Poudel, Manish Dhakal, Prasiddha Bhandari, Rabin Adhikari, Safal Thapaliya, Bishesh Khanal(参考訳) 医用画像セグメンテーションは、医療領域内の様々な臨床応用において重要である。 最先端セグメンテーションモデルは有効であることが証明されているが、このタスクの視覚的特徴を高めるためにテキストガイダンスを統合することは、まだ進歩の少ない領域である。 テキストガイダンスを利用する既存のセグメンテーションモデルは、主にオープンドメインイメージに基づいてトレーニングされ、手作業による介入や微調整なしに医療領域で直接適用できるという懸念が高まる。 これらの課題に対処するために,画像記述と画像から意味情報を取り出すマルチモーダル視覚言語モデルを提案し,多様な医用画像のセグメンテーションを可能にした。 本研究では,複数のデータセットにまたがる既存の視覚言語モデルを包括的に評価し,オープンドメインから医療分野への移動性を評価する。 さらに,データセット内の未認識画像に対する画像記述のバリエーションについて紹介し,生成されたプロンプトに基づくモデル性能の顕著な変化を明らかにする。 本研究は,オープンドメイン画像と医療領域の分布変化に着目し,オープンドメイン画像で訓練されたセグメンテーションモデルが医療分野に直接移行できないことを示す。 しかし、それらのパフォーマンスは医療データセットで微調整することで向上することができる。 14の属性から抽出した9種類のプロンプトを用いて,11の医療データセット上での視覚言語モデル(VLM)のゼロショットおよび微調整セグメンテーション性能について報告する。

Medical Image Segmentation is crucial in various clinical applications within the medical domain. While state-of-the-art segmentation models have proven effective, integrating textual guidance to enhance visual features for this task remains an area with limited progress. Existing segmentation models that utilize textual guidance are primarily trained on open-domain images, raising concerns about their direct applicability in the medical domain without manual intervention or fine-tuning. To address these challenges, we propose using multimodal vision-language models for capturing semantic information from image descriptions and images, enabling the segmentation of diverse medical images. This study comprehensively evaluates existing vision language models across multiple datasets to assess their transferability from the open domain to the medical field. Furthermore, we introduce variations of image descriptions for previously unseen images in the dataset, revealing notable variations in model performance based on the generated prompts. Our findings highlight the distribution shift between the open-domain images and the medical domain and show that the segmentation models trained on open-domain images are not directly transferrable to the medical field. But their performance can be increased by finetuning them in the medical datasets. We report the zero-shot and finetuned segmentation performance of 4 Vision Language Models (VLMs) on 11 medical datasets using 9 types of prompts derived from 14 attributes.
翻訳日:2023-08-16 13:10:37 公開日:2023-08-15
# パラメトリックエントロピーに基づくクラスター遠心初期化による各種画像データセットのk平均クラスタリング

Parametric entropy based Cluster Centriod Initialization for k-means clustering of various Image datasets ( http://arxiv.org/abs/2308.07705v1 )

ライセンス: Link先を確認
Faheem Hussayn and Shahid M Shah(参考訳) クラスタ分析に最もよく用いられるが、単純なアルゴリズムの1つはk-meansアルゴリズムである。 k-meansは、人工知能、市場セグメンテーション、不正検出、データマイニング、心理学などにおいて、その使用を成功裏に目撃した。 しかし、k-meansアルゴリズムは必ずしも最高の品質結果をもたらすとは限らない。 その性能は、供給されるクラスターの数と、クラスターセントロイドまたは種子の適切な初期化に大きく依存する。 本稿では,エントロピーに基づく遠心初期化法におけるパラメトリックエントロピーを用いて,画像データに対するk平均の性能解析を行い,一般画像データセットに対する最適な適合エントロピー対策を提案する。 我々は、Taneja entropy、Kapur entropy、Aczel Daroczy entropy、Sharma Mittal entropyなどのエントロピーを使用する。 異なるデータセットに対して、異なるエントロピーが従来の方法よりも優れた結果をもたらすことを観察する。 提案アルゴリズムをこれらのデータセットに適用した: Satellite, Toys, Fruits, Cars, Brain MRI, Covid X-Ray。

One of the most employed yet simple algorithm for cluster analysis is the k-means algorithm. k-means has successfully witnessed its use in artificial intelligence, market segmentation, fraud detection, data mining, psychology, etc., only to name a few. The k-means algorithm, however, does not always yield the best quality results. Its performance heavily depends upon the number of clusters supplied and the proper initialization of the cluster centroids or seeds. In this paper, we conduct an analysis of the performance of k-means on image data by employing parametric entropies in an entropy based centroid initialization method and propose the best fitting entropy measures for general image datasets. We use several entropies like Taneja entropy, Kapur entropy, Aczel Daroczy entropy, Sharma Mittal entropy. We observe that for different datasets, different entropies provide better results than the conventional methods. We have applied our proposed algorithm on these datasets: Satellite, Toys, Fruits, Cars, Brain MRI, Covid X-Ray.
翻訳日:2023-08-16 13:10:15 公開日:2023-08-15
# Role-Play Promptingによるゼロショット推論の改善

Better Zero-Shot Reasoning with Role-Play Prompting ( http://arxiv.org/abs/2308.07702v1 )

ライセンス: Link先を確認
Aobo Kong, Shiwan Zhao, Hao Chen, Qicheng Li, Yong Qin, Ruiqi Sun, Xin Zhou(参考訳) ChatGPTのような現代の大きな言語モデル(LLM)は、ロールプレイングの優れた能力を示しており、人間の文字だけでなく、Linux端末のような非人間的な実体を具現化することができる。 この汎用性は、複雑な人間のような相互作用や振る舞いを様々な文脈でシミュレートし、特定のオブジェクトやシステムをエミュレートすることを可能にする。 これらの能力はユーザエンゲージメントを高め、対話の新たなモードを導入したが、LLMの推論能力に対するロールプレイングの影響は未解明のままである。 本研究では,戦略的に設計されたロールプレイプロンプト手法を導入し,算術,常識推論,象徴的推論などを含む12の多様な推論ベンチマークにおいて,ゼロショット設定下での性能を評価する。 chatgpt や llama 2 といったモデルを活用することで,多くのデータセットにおいて,ロールプレイプロンプトが標準的なゼロショットアプローチを一貫して越えていることが実証された。 特に、AQuAの精度は53.5%から63.8%に上昇し、Last Letterでは23.8%から84.2%に上昇した。 文脈的理解の強化以外にも、ロールプレイの促進が暗黙の連鎖(CoT)トリガーとなり、推論の品質が向上する、と仮定する。 我々のアプローチとZero-Shot-CoT技術を比較して、モデルに「ステップバイステップ」を推奨することで、ロールプレイプロンプトがより効果的なCoTを生成することをさらに実証する。 これはLLMの推論能力を増強する可能性を強調している。

Modern large language models (LLMs), such as ChatGPT, exhibit a remarkable capacity for role-playing, enabling them to embody not only human characters but also non-human entities like a Linux terminal. This versatility allows them to simulate complex human-like interactions and behaviors within various contexts, as well as to emulate specific objects or systems. While these capabilities have enhanced user engagement and introduced novel modes of interaction, the influence of role-playing on LLMs' reasoning abilities remains underexplored. In this study, we introduce a strategically designed role-play prompting methodology and assess its performance under the zero-shot setting across twelve diverse reasoning benchmarks, encompassing arithmetic, commonsense reasoning, symbolic reasoning, and more. Leveraging models such as ChatGPT and Llama 2, our empirical results illustrate that role-play prompting consistently surpasses the standard zero-shot approach across most datasets. Notably, accuracy on AQuA rises from 53.5% to 63.8%, and on Last Letter from 23.8% to 84.2%. Beyond enhancing contextual understanding, we posit that role-play prompting serves as an implicit Chain-of-Thought (CoT) trigger, thereby improving the quality of reasoning. By comparing our approach with the Zero-Shot-CoT technique, which prompts the model to "think step by step", we further demonstrate that role-play prompting can generate a more effective CoT. This highlights its potential to augment the reasoning capabilities of LLMs.
翻訳日:2023-08-16 13:09:55 公開日:2023-08-15
# 量子エンハンス原子干渉計のためのスピンスクイーズ状態のハイブリッド法

A hybrid method of generating spin-squeezed states for quantum-enhanced atom interferometry ( http://arxiv.org/abs/2308.07693v1 )

ライセンス: Link先を確認
Liam Fuderer and Joseph J Hope and Simon A Haine(参考訳) 本稿では,2つの確立されたスピンスクイーズ手法,量子非破壊測定(QND)と1軸ねじれ(OAT)を組み合わせた新しいスピンスクイーズ手法を提案する。 このハイブリッド手法は、現在達成されているものをQNDとOATで改善することを目的としている。 実際の状況では、QNDとOATの相互作用の強さは限定的である。 これらの状況下では,ハイブリッド方式は,単独で使用するOATやQNDよりも優れた性能を示した。 QNDとOATはともに実験的に実現されているため、この技術は実験にわずかな修正を加えるだけで現在の原子干渉計で実装できる。

We introduce a new spin-squeezing technique that is a hybrid of two well established spin-squeezing techniques, quantum nondemolition measurement (QND) and one-axis twisting (OAT). This hybrid method aims to improve spin-squeezing over what is currently achievable using QND and OAT. In practical situations, the strength of both the QND and OAT interactions is limited. We found that in these situations, the hybrid scheme performed considerably better than either OAT or QND used in isolation. As QND and OAT have both been realised experimentally, this technique could be implemented in current atom interferometry setups with only minor modifications to the experiment.
翻訳日:2023-08-16 13:09:26 公開日:2023-08-15
# グラフ状態における絡み合い、量子コレレータおよび接続性

Entanglement, quantum correlators and connectivity in graph states ( http://arxiv.org/abs/2308.07690v1 )

ライセンス: Link先を確認
Arthur Vesperini and Roberto Franzosi(参考訳) 本研究では,グラフ状態の絡み合いとグラフ接続性について包括的に検討する。 我々は最近導入された絡み合いの尺度である絡み合い距離を用いて、擬似グラフ状態の絡み合いを定量化する。 さらに,ポーリ行列の量子相関子を用いて,真のグラフ状態の基盤となるグラフ接続を探索する新しい手法を提案する。 また, 測定過程に興味深い影響が見られ, 特定の射影測定値の等価性を実証した。 最後に、このフレームワークにおけるデータ分析の単純さを強調する。 この研究は、グラフ状態の絡み合いと接続性に関する深い理解に寄与し、量子情報処理と量子コンピューティングアプリケーションに対する貴重な洞察を提供する。 この研究では、このタイプの状態の研究に一般的に好まれるフレームワークである確立された安定化形式主義に頼らず、それとは対照的に、我々のアプローチは単に期待値、量子相関、および射影測定の概念に基づいており、量子理論の非常に直感的で基本的なツールである。

In this work, we present a comprehensive exploration of the entanglement and graph connectivity properties of graph states. We quantify the entanglement in pseudo graph states using the entanglement distance, a recently introduced measure of entanglement. Additionally, we propose a novel approach to probe the underlying graph connectivity of genuine graph states, using quantum correlators of Pauli matrices. Our findings also reveal interesting implications for measurement processes, demonstrating the equivalence of certain projective measurements. Finally, we emphasize the simplicity of data analysis within this framework. This work contributes to a deeper understanding of the entanglement and connectivity properties of graph states, offering valuable insights for quantum information processing and quantum computing applications. In this work, we do not resort to the celebrated stabilizer formalism, which is the framework typically preferred for the study of this type of state; on the contrary, our approach is solely based on the concepts of expectation values, quantum correlations and projective measurement, which have the advantage of being very intuitive and fundamental tools of quantum theory.
翻訳日:2023-08-16 13:09:15 公開日:2023-08-15
# ChartDETR:ビジュアルチャート認識のための複数形状検出ネットワーク

ChartDETR: A Multi-shape Detection Network for Visual Chart Recognition ( http://arxiv.org/abs/2308.07743v1 )

ライセンス: Link先を確認
Wenyuan Xue, Dapeng Chen, Baosheng Yu, Yifei Chen, Sai Zhou, Wei Peng(参考訳) グラフ画像からテーブルヘッダーと値を自動的に識別する需要が高まっているため、ビジュアルチャート認識システムが注目を集めている。 現在の手法はキーポイント検出に頼り、チャート内のデータ要素の形状を推定するが、後処理のエラーをグループ化する。 そこで本研究では,正規形状の角にキーポイントを配置し,複数のデータ要素を単一のチャート画像に再構成するトランスフォーマー型多形検出器chartdetrを提案する。 提案手法は,クエリグループをセット予測に導入することにより,全てのデータ要素の形状を同時に予測する。 この特性により、ChartDETRはネットワークアーキテクチャを変更することなく様々なチャートタイプを表現できる統一されたフレームワークとして機能し、多様な形状のデータ要素を効果的に検出できる。 我々はChartDETRを3つのデータセットで評価し、追加の強化なしに全てのチャートタイプで競合する結果を得た。 例えば、ChartDETRはAdobe SyntheticのF1スコア0.98を達成し、0.71F1スコアで以前の最高のモデルよりも大幅に上回った。 さらにExcelChart400kで0.97の最先端結果を得た。 コードは公開される予定だ。

Visual chart recognition systems are gaining increasing attention due to the growing demand for automatically identifying table headers and values from chart images. Current methods rely on keypoint detection to estimate data element shapes in charts but suffer from grouping errors in post-processing. To address this issue, we propose ChartDETR, a transformer-based multi-shape detector that localizes keypoints at the corners of regular shapes to reconstruct multiple data elements in a single chart image. Our method predicts all data element shapes at once by introducing query groups in set prediction, eliminating the need for further postprocessing. This property allows ChartDETR to serve as a unified framework capable of representing various chart types without altering the network architecture, effectively detecting data elements of diverse shapes. We evaluated ChartDETR on three datasets, achieving competitive results across all chart types without any additional enhancements. For example, ChartDETR achieved an F1 score of 0.98 on Adobe Synthetic, significantly outperforming the previous best model with a 0.71 F1 score. Additionally, we obtained a new state-of-the-art result of 0.97 on ExcelChart400k. The code will be made publicly available.
翻訳日:2023-08-16 13:04:01 公開日:2023-08-15
# real robot challenge 2022: 現実世界のオフラインデータからデクスター処理を学ぶ

Real Robot Challenge 2022: Learning Dexterous Manipulation from Offline Data in the Real World ( http://arxiv.org/abs/2308.07741v1 )

ライセンス: Link先を確認
Nico G\"urtler, Felix Widmaier, Cansu Sancaktar, Sebastian Blaes, Pavel Kolev, Stefan Bauer, Manuel W\"uthrich, Markus Wulfmeier, Martin Riedmiller, Arthur Allshire, Qiang Wang, Robert McCarthy, Hangyeol Kim, Jongchan Baek Pohang, Wookyong Kwon, Shanliang Qian, Yasunori Toshimitsu, Mike Yan Michelis, Amirhossein Kazemipour, Arman Raayatsanati, Hehui Zheng, Barnabasa Gavin Cangan, Bernhard Sch\"olkopf, Georg Martius(参考訳) 実際のロボットの実験には時間とコストが要求される。 このため、強化学習(RL)コミュニティの大部分はシミュレータを使ってアルゴリズムを開発し、ベンチマークしている。 しかしながら、シミュレーションで得られた洞察は、実際のロボット、特に環境との複雑な相互作用に関わるタスクに必ずしも変換されない。 それゆえ、実際のロボットチャレンジ2022は、参加者が実際のロボットを遠隔で実験することを可能にすることで、rlとロボットコミュニティの橋渡しとなった。 近年、オフラインの強化学習が成熟し、事前コンパイルされたデータセットから学習するための有望なパラダイムとなり、高価なオンラインインタラクションへの依存が軽減された。 そこで我々は参加者に対して,提供された実ロボットデータセットからプッシュ,握り,手動の向きを含む2つの巧妙な操作タスクを学ぶように求めた。 大規模なソフトウェアドキュメンテーションと、実際のセットアップのシミュレーションに基づく初期ステージは、競争を特にアクセスしやすくした。 それぞれのチームに、オフラインで学習したポリシーを7つのTriFingerプラットホームのクラスタで評価するための、十分なアクセス予算を与えることで、機械学習とロボティクスのエキサイティングな競争を組織した。 本研究では,競争のルールを述べ,勝敗チームが使用する手法を示し,課題データセット上の最先端のオフラインRLアルゴリズムのベンチマークと比較する。

Experimentation on real robots is demanding in terms of time and costs. For this reason, a large part of the reinforcement learning (RL) community uses simulators to develop and benchmark algorithms. However, insights gained in simulation do not necessarily translate to real robots, in particular for tasks involving complex interactions with the environment. The Real Robot Challenge 2022 therefore served as a bridge between the RL and robotics communities by allowing participants to experiment remotely with a real robot - as easily as in simulation. In the last years, offline reinforcement learning has matured into a promising paradigm for learning from pre-collected datasets, alleviating the reliance on expensive online interactions. We therefore asked the participants to learn two dexterous manipulation tasks involving pushing, grasping, and in-hand orientation from provided real-robot datasets. An extensive software documentation and an initial stage based on a simulation of the real set-up made the competition particularly accessible. By giving each team plenty of access budget to evaluate their offline-learned policies on a cluster of seven identical real TriFinger platforms, we organized an exciting competition for machine learners and roboticists alike. In this work we state the rules of the competition, present the methods used by the winning teams and compare their results with a benchmark of state-of-the-art offline RL algorithms on the challenge datasets.
翻訳日:2023-08-16 13:03:39 公開日:2023-08-15
# MCTSのための形式的シャープDAgger:形式的手法によるデータ集約を用いた低レイテンシモンテカルロ木探索

Formally-Sharp DAgger for MCTS: Lower-Latency Monte Carlo Tree Search using Data Aggregation with Formal Methods ( http://arxiv.org/abs/2308.07738v1 )

ライセンス: Link先を確認
Debraj Chakraborty, Damien Busatto-Gaston, Jean-Fran\c{c}ois Raskin and Guillermo A. P\'erez(参考訳) 大規模マルコフ決定プロセス (mdps) において, 形式的手法, モンテカルロ木探索 (mcts) および深層学習を効率的に組み合わせ, 高品質な退行地平線政策を実現する方法について検討した。 特に,モデルチェック手法を用いてMCTSアルゴリズムを誘導し,MDPの代表的な状態に対する高品質な意思決定のオフラインサンプルを生成する。 これらのサンプルは、生成に使用するポリシを模倣したニューラルネットワークのトレーニングに使用することができる。 このニューラルネットワークは、低レイテンシのmctsオンライン検索のガイドとして使用できるか、あるいは最小のレイテンシを必要とする場合に、本格的なポリシとして使用できる。 統計的モデルチェックを使用して、追加のサンプルが必要なタイミングを検出し、学習したニューラルネットワークポリシと(計算的な)オフラインポリシが異なる設定にこれらの追加サンプルを集中する。 我々は,凍結湖環境とパックマン環境をモデル化したMDP(強化学習アルゴリズムの評価のための2つの人気のあるベンチマーク)に本手法を適用した。

We study how to efficiently combine formal methods, Monte Carlo Tree Search (MCTS), and deep learning in order to produce high-quality receding horizon policies in large Markov Decision processes (MDPs). In particular, we use model-checking techniques to guide the MCTS algorithm in order to generate offline samples of high-quality decisions on a representative set of states of the MDP. Those samples can then be used to train a neural network that imitates the policy used to generate them. This neural network can either be used as a guide on a lower-latency MCTS online search, or alternatively be used as a full-fledged policy when minimal latency is required. We use statistical model checking to detect when additional samples are needed and to focus those additional samples on configurations where the learnt neural network policy differs from the (computationally-expensive) offline policy. We illustrate the use of our method on MDPs that model the Frozen Lake and Pac-Man environments -- two popular benchmarks to evaluate reinforcement-learning algorithms.
翻訳日:2023-08-16 13:03:16 公開日:2023-08-15
# ビデオオブジェクト検出のためのアイデンティティ一貫性アグリゲーション

Identity-Consistent Aggregation for Video Object Detection ( http://arxiv.org/abs/2308.07737v1 )

ライセンス: Link先を確認
Chaorui Deng, Da Chen, Qi Wu(参考訳) ビデオオブジェクト検出(VID)では、ビデオからのリッチな時間的コンテキストを活用して、各フレーム内のオブジェクト表現を強化するのが一般的である。 既存の方法は、異なる対象から得られた時間的文脈を無差別に扱い、それらの異なるアイデンティティを無視する。 直感的には、同じオブジェクトのローカルビューを異なるフレームに集約することで、オブジェクトをより理解しやすくなります。 そこで本稿では,各対象の同一性に一貫性のある時間的文脈に着目し,より包括的な対象表現を求め,オクルージョンや動きのぼかしなどの物体の出現変化を迅速に処理することを目的としている。 しかし、既存のVIDモデル上でこの目標を実現するには、冗長な領域の提案と非並列フレームの予測方法により、効率の低い問題が発生する。 そこで本研究では,細粒度かつアイデンティティ一貫性のある時間的コンテキストをマイニングするために,ICA(Identity-Consistent Aggregation)層を備えたVIDモデルであるClipVIDを提案する。 これにより、セット予測戦略による冗長性を効果的に低減し、ICA層を極めて効率的にし、ビデオクリップ全体に対して並列なクリップワイズ予測を行うアーキテクチャを設計することができる。 ImageNet VIDデータセット上でのSOTA(State-of-the-art)性能(84.7% mAP)は,従来のSOTAよりも約7倍高速(39.3 fps)で動作している。

In Video Object Detection (VID), a common practice is to leverage the rich temporal contexts from the video to enhance the object representations in each frame. Existing methods treat the temporal contexts obtained from different objects indiscriminately and ignore their different identities. While intuitively, aggregating local views of the same object in different frames may facilitate a better understanding of the object. Thus, in this paper, we aim to enable the model to focus on the identity-consistent temporal contexts of each object to obtain more comprehensive object representations and handle the rapid object appearance variations such as occlusion, motion blur, etc. However, realizing this goal on top of existing VID models faces low-efficiency problems due to their redundant region proposals and nonparallel frame-wise prediction manner. To aid this, we propose ClipVID, a VID model equipped with Identity-Consistent Aggregation (ICA) layers specifically designed for mining fine-grained and identity-consistent temporal contexts. It effectively reduces the redundancies through the set prediction strategy, making the ICA layers very efficient and further allowing us to design an architecture that makes parallel clip-wise predictions for the whole video clip. Extensive experimental results demonstrate the superiority of our method: a state-of-the-art (SOTA) performance (84.7% mAP) on the ImageNet VID dataset while running at a speed about 7x faster (39.3 fps) than previous SOTAs.
翻訳日:2023-08-16 13:02:55 公開日:2023-08-15
# 未知環境における経路生成のためのSwarm Bugアルゴリズム

Swarm Bug Algorithms for Path Generation in Unknown Environments ( http://arxiv.org/abs/2308.07736v1 )

ライセンス: Link先を確認
Alexander Johansson and Johan Markdahl(参考訳) 本稿では,障害物が散らばっている未知の環境において,二点間をできるだけ速く移動する群れの問題を考える。 潜在的なアプリケーションには、損傷した環境が典型的である検索・救助操作が含まれる。 我々は,古典経路生成アルゴリズムCom,Bug1,Bug2のSwarmCom,SwarmBug1,SwarmBug2と呼ばれるSwarm一般化を提案する。 これらのアルゴリズムは未知の環境向けに開発され、低計算能力とメモリストレージを必要とするため、他のタスクのリソースを解放する。 swarmで最初のエージェントがswarmbug1のターゲットポイントに到達するための最悪の場合の移動時間の上限を示す。 SwarmBug2の場合、このアルゴリズムはSwarmBug1と比較して最悪の走行時間では性能が劣っている。 SwarmComでは,アルゴリズムが停止しないような簡単なシーンが存在し,性能保証がないことを示す。 さらに、SwarmBug1の走行時間の上限を任意の経路生成アルゴリズムの普遍的な下限と比較することにより、SwarmBug1のエージェント数が無限大に近づくときの限界において、他のアルゴリズムがSwarmBug1よりも厳密に最悪のケース性能を有し、普遍的な下限が厳密であることを示す。

In this paper, we consider the problem of a swarm traveling between two points as fast as possible in an unknown environment cluttered with obstacles. Potential applications include search-and-rescue operations where damaged environments are typical. We present swarm generalizations, called SwarmCom, SwarmBug1, and SwarmBug2, of the classical path generation algorithms Com, Bug1, and Bug2. These algorithms were developed for unknown environments and require low computational power and memory storage, thereby freeing up resources for other tasks. We show the upper bound of the worst-case travel time for the first agent in the swarm to reach the target point for SwarmBug1. For SwarmBug2, we show that the algorithm underperforms in terms of worst-case travel time compared to SwarmBug1. For SwarmCom, we show that there exists a trivial scene for which the algorithm will not halt, and it thus has no performance guarantees. Moreover, by comparing the upper bound of the travel time for SwarmBug1 with a universal lower bound for any path generation algorithm, it is shown that in the limit when the number of agents in the swarm approaches infinity, no other algorithm has strictly better worst-case performance than SwarmBug1 and the universal lower bound is tight.
翻訳日:2023-08-16 13:02:24 公開日:2023-08-15
# ユニバーサルニューラルイメージ圧縮のための動的低ランクインスタンス適応

Dynamic Low-Rank Instance Adaptation for Universal Neural Image Compression ( http://arxiv.org/abs/2308.07733v1 )

ライセンス: Link先を確認
Yue Lv, Jinxi Xiang, Jun Zhang, Wenming Yang, Xiao Han, Wei Yang(参考訳) ニューラル画像圧縮の最近の進歩は、従来の標準コーデックの速度歪み性能を超える大きな可能性を示している。 それでも、トレーニングに使用されるデータセット(自然画像)と推論に使用されるデータセット(芸術画像など)の間には、確実な領域ギャップが存在する。 提案手法は、ドメイン外のデータセットで観測される速度歪みの減少に対処するための低ランク適応手法である。 具体的には、クライアントのデコーダの適応パラメータを更新するために、低ランク行列分解を行う。 これらの更新されたパラメータとイメージラテントはビットストリームにエンコードされ、実際のシナリオでデコーダに送信される。 適応パラメータに課される低ランク制約のため、結果として生じるビットレートオーバーヘッドは小さい。 さらに、低ランク適応のビットレート割当は \emph{non-trivial} であり、多様な入力は様々な適応ビットストリームを必要とする。 そこで我々は,低ランク適応法の上に動的ゲーティングネットワークを導入し,どのデコーダ層を適応させるべきかを判定する。 動的適応ネットワークは、レート歪み損失を用いてエンドツーエンドに最適化される。 提案手法は多様な画像データセットにまたがる普遍性を示す。 その結果、このパラダイムはドメイン間ギャップを著しく軽減し、非適応的手法を平均的なBDレートの改善により、ドメイン外画像の約19.%で上回った。 さらに、最も先進的なインスタンス適応メソッドを約$5\%$ bdレートで上回っている。 アブレーション研究は,様々な画像圧縮アーキテクチャを普遍的に強化する手法の能力を確認した。

The latest advancements in neural image compression show great potential in surpassing the rate-distortion performance of conventional standard codecs. Nevertheless, there exists an indelible domain gap between the datasets utilized for training (i.e., natural images) and those utilized for inference (e.g., artistic images). Our proposal involves a low-rank adaptation approach aimed at addressing the rate-distortion drop observed in out-of-domain datasets. Specifically, we perform low-rank matrix decomposition to update certain adaptation parameters of the client's decoder. These updated parameters, along with image latents, are encoded into a bitstream and transmitted to the decoder in practical scenarios. Due to the low-rank constraint imposed on the adaptation parameters, the resulting bit rate overhead is small. Furthermore, the bit rate allocation of low-rank adaptation is \emph{non-trivial}, considering the diverse inputs require varying adaptation bitstreams. We thus introduce a dynamic gating network on top of the low-rank adaptation method, in order to decide which decoder layer should employ adaptation. The dynamic adaptation network is optimized end-to-end using rate-distortion loss. Our proposed method exhibits universality across diverse image datasets. Extensive results demonstrate that this paradigm significantly mitigates the domain gap, surpassing non-adaptive methods with an average BD-rate improvement of approximately $19\%$ across out-of-domain images. Furthermore, it outperforms the most advanced instance adaptive methods by roughly $5\%$ BD-rate. Ablation studies confirm our method's ability to universally enhance various image compression architectures.
翻訳日:2023-08-16 13:01:59 公開日:2023-08-15
# UniTR:Bird's-Eye-View表現のための統一的で効率的なマルチモード変換器

UniTR: A Unified and Efficient Multi-Modal Transformer for Bird's-Eye-View Representation ( http://arxiv.org/abs/2308.07732v1 )

ライセンス: Link先を確認
Haiyang Wang, Hao Tang, Shaoshuai Shi, Aoxue Li, Zhenguo Li, Bernt Schiele, Liwei Wang(参考訳) 複数のセンサから情報を共同処理することは、信頼性の高い自動運転システムにおいて、正確で堅牢な認識を達成するために不可欠である。 しかし、現在の3d知覚研究は、モダリティ特有のパラダイムに従い、計算オーバーヘッドの増加と、異なるセンサーデータ間の非効率なコラボレーションに繋がる。 本稿では,統一モデリングと共有パラメータを用いて様々なモダリティを処理するunitrという,屋外の3次元知覚のための効率的なマルチモーダルバックボーンを提案する。 以前の作品とは異なり、unitrは、並列モード回り表現学習と自動クロスモーダルインタラクションのためのこれらのビュー離散センサデータを扱うために、追加の融合ステップなしでモダリティ非依存トランスフォーマーエンコーダを導入している。 さらに,これらの相補的なセンサタイプをフル活用するために,セマンティック・アバウントな2次元視点と幾何学的3次元スパースな近傍関係を考慮した,新しいマルチモーダル統合戦略を提案する。 UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。 nuScenesベンチマークで新しい最先端のパフォーマンスを設定し、3Dオブジェクト検出では+1.1 NDS、推論遅延の低いBEVマップセグメンテーションでは+12.0のmIoUを達成した。 コードはhttps://github.com/Haiyang-W/UniTRで入手できる。

Jointly processing information from multiple sensors is crucial to achieving accurate and robust perception for reliable autonomous driving systems. However, current 3D perception research follows a modality-specific paradigm, leading to additional computation overheads and inefficient collaboration between different sensor data. In this paper, we present an efficient multi-modal backbone for outdoor 3D perception named UniTR, which processes a variety of modalities with unified modeling and shared parameters. Unlike previous works, UniTR introduces a modality-agnostic transformer encoder to handle these view-discrepant sensor data for parallel modal-wise representation learning and automatic cross-modal interaction without additional fusion steps. More importantly, to make full use of these complementary sensor types, we present a novel multi-modal integration strategy by both considering semantic-abundant 2D perspective and geometry-aware 3D sparse neighborhood relations. UniTR is also a fundamentally task-agnostic backbone that naturally supports different 3D perception tasks. It sets a new state-of-the-art performance on the nuScenes benchmark, achieving +1.1 NDS higher for 3D object detection and +12.0 higher mIoU for BEV map segmentation with lower inference latency. Code will be available at https://github.com/Haiyang-W/UniTR .
翻訳日:2023-08-16 13:01:31 公開日:2023-08-15
# ソースフリー領域適応基底画像分割のための文脈対応擬似ラベル再構成

Context-Aware Pseudo-Label Refinement for Source-Free Domain Adaptive Fundus Image Segmentation ( http://arxiv.org/abs/2308.07731v1 )

ライセンス: Link先を確認
Zheang Huai, Xinpeng Ding, Yi Li, and Xiaomeng Li(参考訳) ドメイン適応問題では、プライバシーや知的財産の問題により、ソースデータはターゲットクライアント側で利用できない可能性がある。 source-free unsupervised domain adaptation(sf-uda)は、ソース側でトレーニングされたモデルを適用し、ソースモデルとラベルなしのターゲットデータのみにターゲット分布を調整することを目的としている。 ソースモデルは通常、ターゲットドメイン、すなわち類似の視覚的な外観を持つ隣接領域に、異なる擬似ラベルを付けて、ノイズとコンテキストに一貫性のない擬似ラベルを生成する。 この観察は、文脈関係を持つ擬似ラベルを洗練する動機付けとなる。 別の観察では、同じクラスの特徴はドメインギャップにもかかわらずクラスタを形成する傾向にあり、それは特徴距離からコンテキスト関係を簡単に計算できることを意味する。 そこで本稿では,SF-UDAのための文脈認識型擬似ラベル改善手法を提案する。 具体的には、コンテキスト類似性学習モジュールを開発し、コンテキスト関係を学習する。 次に、学習した文脈関係を利用して擬似ラベルリビジョンを設計する。 さらに,不正確な文脈関係に起因する誤った修正を補うために,修正された擬似ラベルの校正を提案する。 さらに,ドメイン適応のための疑似ラベルを選択するために,画素レベルとクラスレベルの復調方式を採用する。 クロスドメイン・ファンドス画像の実験により,我々のアプローチが最先端の結果をもたらすことが示された。 コードはhttps://github.com/xmed-lab/cprで入手できる。

In the domain adaptation problem, source data may be unavailable to the target client side due to privacy or intellectual property issues. Source-free unsupervised domain adaptation (SF-UDA) aims at adapting a model trained on the source side to align the target distribution with only the source model and unlabeled target data. The source model usually produces noisy and context-inconsistent pseudo-labels on the target domain, i.e., neighbouring regions that have a similar visual appearance are annotated with different pseudo-labels. This observation motivates us to refine pseudo-labels with context relations. Another observation is that features of the same class tend to form a cluster despite the domain gap, which implies context relations can be readily calculated from feature distances. To this end, we propose a context-aware pseudo-label refinement method for SF-UDA. Specifically, a context-similarity learning module is developed to learn context relations. Next, pseudo-label revision is designed utilizing the learned context relations. Further, we propose calibrating the revised pseudo-labels to compensate for wrong revision caused by inaccurate context relations. Additionally, we adopt a pixel-level and class-level denoising scheme to select reliable pseudo-labels for domain adaptation. Experiments on cross-domain fundus images indicate that our approach yields the state-of-the-art results. Code is available at https://github.com/xmed-lab/CPR.
翻訳日:2023-08-16 13:01:06 公開日:2023-08-15
# ドメイン対応ファインチューニング:ニューラルネットワーク適応性の向上

Domain-Aware Fine-Tuning: Enhancing Neural Network Adaptability ( http://arxiv.org/abs/2308.07728v1 )

ライセンス: Link先を確認
Seokhyeon Ha, Sunbeom Jung, Jungwoo Lee(参考訳) 訓練済みの微調整ニューラルネットワークモデルは、さまざまな領域で広く採用されている。 しかし、既に強力な一般化能力を持つ事前訓練された特徴抽出器の歪みにつながる可能性がある。 新しいターゲット領域への適応における特徴歪みの緩和が重要である。 近年の研究では、微調整を行う前に、分布内データセット上にヘッド層をアライメントすることで、特徴歪みに対処する有望な結果が示されている。 それにもかかわらず、細調整中にバッチ正規化層の処理によって大きな制限が生じ、最適化性能が低下する。 本稿では、バッチ正規化変換と線形探索と微調整の統合を組み合わせた新しいアプローチであるDomain-Aware Fine-Tuning(DAFT)を提案する。 このバッチ正規化変換手法は、微調整時のニューラルネットワークの変更を低減し、特徴歪みを効果的に軽減する。 さらに,線形探索と微調整を統合して,特徴抽出器の段階的適応を伴うヘッド層を最適化する。 バッチ正規化レイヤを活用し、線形探索と微調整を統合することにより、DAFTは特徴歪みを著しく軽減し、分布内および分布外データセットのモデル性能を向上させる。 大規模な実験により,本手法は他のベースライン法よりも優れており,性能の向上だけでなく特徴歪みの軽減にも有効であることが示された。

Fine-tuning pre-trained neural network models has become a widely adopted approach across various domains. However, it can lead to the distortion of pre-trained feature extractors that already possess strong generalization capabilities. Mitigating feature distortion during adaptation to new target domains is crucial. Recent studies have shown promising results in handling feature distortion by aligning the head layer on in-distribution datasets before performing fine-tuning. Nonetheless, a significant limitation arises from the treatment of batch normalization layers during fine-tuning, leading to suboptimal performance. In this paper, we propose Domain-Aware Fine-Tuning (DAFT), a novel approach that incorporates batch normalization conversion and the integration of linear probing and fine-tuning. Our batch normalization conversion method effectively mitigates feature distortion by reducing modifications to the neural network during fine-tuning. Additionally, we introduce the integration of linear probing and fine-tuning to optimize the head layer with gradual adaptation of the feature extractor. By leveraging batch normalization layers and integrating linear probing and fine-tuning, our DAFT significantly mitigates feature distortion and achieves improved model performance on both in-distribution and out-of-distribution datasets. Extensive experiments demonstrate that our method outperforms other baseline methods, demonstrating its effectiveness in not only improving performance but also mitigating feature distortion.
翻訳日:2023-08-16 13:00:42 公開日:2023-08-15
# 非有界量子アドバンテージを用いた簡易情報処理タスク

Simple Information Processing Tasks with Unbounded Quantum Advantage ( http://arxiv.org/abs/2308.07727v1 )

ライセンス: Link先を確認
Teiko Heinosaari, Oskari Kerppo, Leevi Lepp\"aj\"arvi and Martin Pl\'avala(参考訳) 両者間の通信シナリオは、まず物理系の物理媒体として機能する物理系の状態にメッセージをエンコードし、次にシステムの状態を計測してメッセージの復号化を行うことによって実現される。 我々は、最も単純なシナリオでは、古典的システムよりも量子システムの定値、非有界な利点を検出できることを示した。 我々は,1つのキュービットだけで実装できるが,一方では古典的実装には無制限に大きい古典的システムを必要とする操作上有意義な通信タスク群を構築することにより,これを実現する。 さらに,共有ランダム性の付加的な資源により,提案する通信タスクは,同じ大きさの量子システムと古典システムの両方で実装できるが,古典的実装に必要な協調アクションの数も無制限に増加することを示した。 特に、古典的なシステムで可能なすべての量子通信タスクを実装するために必要なすべての協調アクションを格納するために、有限ストレージは使用できない。 その結果、共有ランダム性は自由資源と見なすことはできない。

Communication scenarios between two parties can be implemented by first encoding messages into some states of a physical system which acts as the physical medium of the communication and then decoding the messages by measuring the state of the system. We show that already in the simplest possible scenarios it is possible to detect a definite, unbounded advantage of quantum systems over classical systems. We do this by constructing a family of operationally meaningful communication tasks each of which on one hand can be implemented by using just a single qubit but which on the other hand require unboundedly larger classical system for classical implementation. Furthemore, we show that even though with the additional resource of shared randomness the proposed communication tasks can be implemented by both quantum and classical systems of the same size, the number of coordinated actions needed for the classical implementation also grows unboundedly. In particular, no finite storage can be used to store all the coordinated actions needed to implement all the possible quantum communication tasks with classical systems. As a consequence, shared randomness cannot be viewed as a free resource.
翻訳日:2023-08-16 13:00:21 公開日:2023-08-15
# 光トウェザを用いた原子干渉計

Atomic interferometer based on optical tweezers ( http://arxiv.org/abs/2308.07768v1 )

ライセンス: Link先を確認
Jonathan Nemirovsky, Rafi Weill, Ilan Meltzer, and Yoav Sagi(参考訳) 原子干渉計は例外的な精度で力と加速度を測定する。 従来の原子間干渉法では、原子雲を弾道軌道に打ち上げ、ラマン転移による運動量空間での波束分割を行う。 これにより、可能な原子軌道、位置決め精度、探査期間に厳しい制約が課される。 本稿では,マイクロ光学トラップ(光トウィーザー)を用いて原子の動きを操作・制御する新しい原子干渉計を提案し,解析する。 この新しい干渉計は、長いプローブ時間、サブマイクロメートルの測位精度、原子軌道形成の柔軟性を最大限に発揮する。 ツイーザー干渉計の基盤は、コヒーレントな原子分割と結合スキームである。 実験的な不完全性に対して頑健な2つまたは3つのツイーザを持つ2つの断熱型スキームを,多くの振動状態と同時に動作させる。 後者の特性は、1回のランでマルチ原子干渉法を可能にする。 また、フェルミオン原子を用いた振動状態の単一原子占有と平均場シフトの除去の利点を強調した。 ツイーザー強度ノイズの影響を調べ、ショットノイズに制約された場合、干渉計は地球の重力加速度の測定において、相対精度が10^{-12}より高いことを実証する。 サブマイクロメートル分解能と拡張測定期間は、新しい体制における基本的な物理法則を探求する有望な機会を提供する。 ツイーザー干渉計のユニークな機能によく適合する2つの応用について論じる。重力力の測定と原子と表面の間のカシミール・ポルダー力の研究である。 重要なことに、提案したツイーザー干渉計は、現在の技術的能力の範囲内にある。

Atomic interferometers measure forces and acceleration with exceptional precision. The conventional approach to atomic interferometry is to launch an atomic cloud into a ballistic trajectory and perform the wave-packet splitting in momentum space by Raman transitions. This places severe constraints on the possible atomic trajectory, positioning accuracy and probing duration. Here, we propose and analyze a novel atomic interferometer that uses micro-optical traps (optical tweezers) to manipulate and control the motion of atoms. The new interferometer allows long probing time, sub micrometer positioning accuracy, and utmost flexibility in shaping of the atomic trajectory. The cornerstone of the tweezer interferometer are the coherent atomic splitting and combining schemes. We present two adiabatic schemes with two or three tweezers that are robust to experimental imperfections and work simultaneously with many vibrational states. The latter property allows for multi-atom interferometry in a single run. We also highlight the advantage of using fermionic atoms to obtain single-atom occupation of vibrational states and to eliminate mean-field shifts. We examine the impact of tweezer intensity noise and demonstrate that, when constrained by shot noise, the interferometer can achieve a relative accuracy better than $10^{-12}$ in measuring Earth's gravitational acceleration. The sub-micrometer resolution and extended measurement duration offer promising opportunities for exploring fundamental physical laws in new regimes. We discuss two applications well-suited for the unique capabilities of the tweezer interferometer: the measurement of gravitational forces and the study of Casimir-Polder forces between atoms and surfaces. Crucially, our proposed tweezer interferometer is within the reach of current technological capabilities.
翻訳日:2023-08-16 12:52:21 公開日:2023-08-15
# 合成衛星画像による捕鯨検出の強化

Whale Detection Enhancement through Synthetic Satellite Images ( http://arxiv.org/abs/2308.07766v1 )

ライセンス: Link先を確認
Akshaj Gaur, Cheng Liu, Xiaomin Lin, Nare Karapetyan, Yiannis Aloimonos(参考訳) 海産個体数の急激な減少に伴い、クジラを含む広範囲の海洋動物に対する効果的な保護政策を開発する上で、海産個体数の収集と分析がますます重要になっている。 現代のコンピュータビジョンアルゴリズムは、広範囲の領域で画像中のクジラを検知し、監視プロセスの高速化と強化を可能にします。 しかし、これらのアルゴリズムは大規模なトレーニングデータセットに大きく依存しており、特に海洋や水生環境において収集するのに困難で時間を要する。 しかし、AIの最近の進歩により、機械学習アルゴリズムを訓練するためのデータセットを合成的に作成できるようになったため、これまで不可能だった新しいソリューションが実現された。 本研究では,クジラの発見を改善し,データ収集の訓練に要する労力を削減するために,空中合成画像データセットと衛星合成画像データセットを生成することでこの問題に対処する,SeaDroneSim2ベンチマークスイートを提案する。 その結果,10%の実データを追加することで,実データ単独で訓練を行うよりも15%の性能向上が達成できることがわかった。 シミュレーションプラットフォームSeaDroneSim2のコードと、それを通じて生成されたデータセットの両方をオープンソースにしています。

With a number of marine populations in rapid decline, collecting and analyzing data about marine populations has become increasingly important to develop effective conservation policies for a wide range of marine animals, including whales. Modern computer vision algorithms allow us to detect whales in images in a wide range of domains, further speeding up and enhancing the monitoring process. However, these algorithms heavily rely on large training datasets, which are challenging and time-consuming to collect particularly in marine or aquatic environments. Recent advances in AI however have made it possible to synthetically create datasets for training machine learning algorithms, thus enabling new solutions that were not possible before. In this work, we present a solution - SeaDroneSim2 benchmark suite, which addresses this challenge by generating aerial, and satellite synthetic image datasets to improve the detection of whales and reduce the effort required for training data collection. We show that we can achieve a 15% performance boost on whale detection compared to using the real data alone for training, by augmenting a 10% real data. We open source both the code of the simulation platform SeaDroneSim2 and the dataset generated through it.
翻訳日:2023-08-16 12:51:56 公開日:2023-08-15
# nefl:異種顧客のための入れ子型フェデレート学習

NeFL: Nested Federated Learning for Heterogeneous Clients ( http://arxiv.org/abs/2308.07761v1 )

ライセンス: Link先を確認
Honggu Kang, Seohyeon Cha, Jinwoo Shin, Jongmyeong Lee, Joonhyuk Kang(参考訳) 連合学習(federated learning、fl)は、プライバシを維持する分散学習において有望なアプローチである。 しかしながら、flのトレーニングパイプラインの間、遅いまたは不可能なクライアント(すなわちストラグラー)は、全体のトレーニング時間を遅くし、パフォーマンスを低下させる。 異種コンピューティングやネットワーク帯域幅を含むシステム不均一性は、ストラグラーの影響を軽減するために対処されてきた。 以前の研究では、この問題に取り組むためにモデルを分割したが、モデルアーキテクチャの観点からは自由度は低い。 本稿では,奥行きスケーリングと幅方向スケーリングの両方を用いて,モデルを効率的にサブモデルに分割する汎用フレームワークであるnested federated learning (nefl)を提案する。 NeFLは、モデルを通常の微分方程式(ODE)を適応的なステップサイズで解くものとして解釈することで実装される。 異なるアーキテクチャで複数のサブモデルをトレーニングする際に生じる矛盾に対処するために、いくつかのパラメータを分離する。 NeFLはリソース制約のあるクライアントがFLパイプラインとモデルを効果的に結合し、大量のデータでトレーニングすることを可能にする。 一連の実験を通じて、NeFLは特に最悪のサブモデル(CIFAR-10の8.33の改善など)において大きな利益をもたらすことを示した。 さらに,最近のFL研究とNeFLの整合性を示す。

Federated learning (FL) is a promising approach in distributed learning keeping privacy. However, during the training pipeline of FL, slow or incapable clients (i.e., stragglers) slow down the total training time and degrade performance. System heterogeneity, including heterogeneous computing and network bandwidth, has been addressed to mitigate the impact of stragglers. Previous studies split models to tackle the issue, but with less degree-of-freedom in terms of model architecture. We propose nested federated learning (NeFL), a generalized framework that efficiently divides a model into submodels using both depthwise and widthwise scaling. NeFL is implemented by interpreting models as solving ordinary differential equations (ODEs) with adaptive step sizes. To address the inconsistency that arises when training multiple submodels with different architecture, we decouple a few parameters. NeFL enables resource-constrained clients to effectively join the FL pipeline and the model to be trained with a larger amount of data. Through a series of experiments, we demonstrate that NeFL leads to significant gains, especially for the worst-case submodel (e.g., 8.33 improvement on CIFAR-10). Furthermore, we demonstrate NeFL aligns with recent studies in FL.
翻訳日:2023-08-16 12:51:26 公開日:2023-08-15
# ストリーミングリコメンダシステムのための最小レギュレットを用いた動的埋め込みサイズ探索

Dynamic Embedding Size Search with Minimum Regret for Streaming Recommender System ( http://arxiv.org/abs/2308.07760v1 )

ライセンス: Link先を確認
Bowei He, Xu He, Renrui Zhang, Yingxue Zhang, Ruiming Tang, Chen Ma(参考訳) ユーザやアイテムの継続的な増加に伴い、静的データセットでトレーニングされた従来のレコメンデータシステムは、環境の変化にほとんど適応できない。 高スループットデータは、ユーザの関心を捉えるために、タイムリーな方法でモデルを更新する必要があるため、ストリーミングレコメンダシステムの出現につながる。 深層学習に基づくレコメンダシステムの普及により,低次元ベクトルにおけるユーザ,アイテム,その他の特徴を表現するために埋め込み層が広く採用されている。 しかし、特にストリーミングレコメンデーションにおいて、同一かつ静的な埋め込みサイズの設定が推奨性能とメモリコストの面で準最適であることが証明されている。 この問題を解決するために,まずストリーミングモデル更新プロセスを再考し,動的埋め込みサイズ探索をバンドイット問題としてモデル化する。 そして、統計の観点から最適な埋め込みサイズに影響を与える要因を分析し定量化する。 そこで本研究では,ユーザとアイテムの双方に対する埋め込みサイズ選択の後悔を最小限に抑えるために, \textbf{d}ynamic \textbf{e}mbedding \textbf{s}ize \textbf{s}earch (\textbf{dess}) 法を提案する。 理論的には,従来の手法よりも上な線形後悔上限が得られる。 4つの公開データセット上の2つのレコメンデーションタスクにまたがる実証的な結果は、我々のアプローチがメモリコストを低減し、より高い時間効率でストリーミングレコメンデーションパフォーマンスを向上できることを示している。

With the continuous increase of users and items, conventional recommender systems trained on static datasets can hardly adapt to changing environments. The high-throughput data requires the model to be updated in a timely manner for capturing the user interest dynamics, which leads to the emergence of streaming recommender systems. Due to the prevalence of deep learning-based recommender systems, the embedding layer is widely adopted to represent the characteristics of users, items, and other features in low-dimensional vectors. However, it has been proved that setting an identical and static embedding size is sub-optimal in terms of recommendation performance and memory cost, especially for streaming recommendations. To tackle this problem, we first rethink the streaming model update process and model the dynamic embedding size search as a bandit problem. Then, we analyze and quantify the factors that influence the optimal embedding sizes from the statistics perspective. Based on this, we propose the \textbf{D}ynamic \textbf{E}mbedding \textbf{S}ize \textbf{S}earch (\textbf{DESS}) method to minimize the embedding size selection regret on both user and item sides in a non-stationary manner. Theoretically, we obtain a sublinear regret upper bound superior to previous methods. Empirical results across two recommendation tasks on four public datasets also demonstrate that our approach can achieve better streaming recommendation performance with lower memory cost and higher time efficiency.
翻訳日:2023-08-16 12:51:06 公開日:2023-08-15
# 検証のための大規模言語モデルの後方推論

Backward Reasoning in Large Language Models for Verification ( http://arxiv.org/abs/2308.07758v1 )

ライセンス: Link先を確認
Weisen Jiang and Han Shi and Longhui Yu and Zhengying Liu and Yu Zhang and Zhenguo Li and James T. Kwok(参考訳) Chain-of-Though (CoT)プロンプトは様々な推論タスクで有望なパフォーマンスを示している。 近年、自己整合性(Self-Consistency) \citep{wang2023selfConsistency} は、最も多くの票を得た回答が選択される間に、異なる回答につながる可能性のある様々な推論チェーンをサンプリングすることを提案する。 本稿では,候補回答の検証に後ろ向き推論を用いた新しい手法を提案する。 質問中のトークンを${\bf x}$でマスクし、候補の回答が \textit{a simple template}、すなわち ``\textit{\textbf{if we know the answer of the question is \{a candidate answer\}, and the llm to predict the masked token when a candidate answer is provide by \textit{a simple template},すなわち ``\textit{\textbf{if we know the answer of the question is \{a candidate answer\}, what the value of unknown variable ${\bf x}$? 直感的には、LLMは与えられた候補回答が正しい場合、マスクされたトークンをうまく予測する。 さらに, 候補回答の確率を推定するために, 前方と後方の推論を組み合わせるフォバーを提案する。 6つのデータセットと3つのLSMについて広範な実験を行う。 実験結果から,FOBARは様々な推論ベンチマークで最先端の性能を達成することが示された。

Chain-of-Though (CoT) prompting has shown promising performance in various reasoning tasks. Recently, Self-Consistency \citep{wang2023selfconsistency} proposes to sample a diverse set of reasoning chains which may lead to different answers while the answer that receives the most votes is selected. In this paper, we propose a novel method to use backward reasoning in verifying candidate answers. We mask a token in the question by ${\bf x}$ and ask the LLM to predict the masked token when a candidate answer is provided by \textit{a simple template}, i.e., ``\textit{\textbf{If we know the answer of the above question is \{a candidate answer\}, what is the value of unknown variable ${\bf x}$?}}'' Intuitively, the LLM is expected to predict the masked token successfully if the provided candidate answer is correct. We further propose FOBAR to combine forward and backward reasoning for estimating the probability of candidate answers. We conduct extensive experiments on six data sets and three LLMs. Experimental results demonstrate that FOBAR achieves state-of-the-art performance on various reasoning benchmarks.
翻訳日:2023-08-16 12:50:37 公開日:2023-08-15
# CASPNet++: 共同マルチエージェントモーション予測

CASPNet++: Joint Multi-Agent Motion Prediction ( http://arxiv.org/abs/2308.07751v1 )

ライセンス: Link先を確認
Maximilian Sch\"afer, Kun Zhao and Anton Kummert(参考訳) 道路利用者の将来行動予測は、先進的運転支援システム(adas)を支援する上で重要な課題である。 安全な運転操作の計画と実行を可能にする上で、自律運転(AD)においてさらに重要な役割を果たす。 これまでの研究に基づいて,改良されたシステムであるCASPNet++であるContext-Aware Scene Prediction Network (CASPNet)を提案する。 本研究では,時空間格子を用いた道路利用者の協調予測を支援するために,インタラクションモデリングとシーン理解をさらに強化することに焦点を当てた。 さらに、インスタンスベースの出力ヘッドを導入し、関心のあるエージェントにマルチモーダルなトラジェクタを提供する。 本研究では,hdマップ,レーダ検出,ライダーセグメンテーションといった多様な環境入力源を活用し,活用することでcaspnet++のスケーラビリティを実証する。 都市中心の予測データセットnuScenesでテストされたCASPNet++は、最先端のパフォーマンスに達する。 モデルはテスト車両にデプロイされ、適度な計算リソースでリアルタイムで実行される。

The prediction of road users' future motion is a critical task in supporting advanced driver-assistance systems (ADAS). It plays an even more crucial role for autonomous driving (AD) in enabling the planning and execution of safe driving maneuvers. Based on our previous work, Context-Aware Scene Prediction Network (CASPNet), an improved system, CASPNet++, is proposed. In this work, we focus on further enhancing the interaction modeling and scene understanding to support the joint prediction of all road users in a scene using spatiotemporal grids to model future occupancy. Moreover, an instance-based output head is introduced to provide multi-modal trajectories for agents of interest. In extensive quantitative and qualitative analysis, we demonstrate the scalability of CASPNet++ in utilizing and fusing diverse environmental input sources such as HD maps, Radar detection, and Lidar segmentation. Tested on the urban-focused prediction dataset nuScenes, CASPNet++ reaches state-of-the-art performance. The model has been deployed in a testing vehicle, running in real-time with moderate computational resources.
翻訳日:2023-08-16 12:50:08 公開日:2023-08-15
# ダンスアバター:画像拡散モデルを用いたポーズとテキスト誘導ヒトモーションビデオ合成

Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with Image Diffusion Model ( http://arxiv.org/abs/2308.07749v1 )

ライセンス: Link先を確認
Bosheng Qin, Wentao Ye, Qifan Yu, Siliang Tang, Yueting Zhuang(参考訳) デジタル空間における生活のようなアバターの需要が高まり、テキストによる記述やポーズによってガイドされた高品質な人間のビデオを作成する必要性が高まっている。 そこで我々は,ポーズやテキストによる手動動画を製作するためのDancing Avatarを提案する。 提案手法では,事前学習したT2I拡散モデルを用いて,各映像フレームを自己回帰的に生成する。 革新の欠如は、文脈的関連性を保ちながら、連続してビデオフレームを生成するためのT2I拡散モデルの利用に関係している。 我々は、さまざまなポーズで人間の性格と衣服の一貫性を維持することによるハードルを克服し、多様な人間の動きの中で背景の連続性を維持する。 ビデオ全体を通して一貫した人間の外観を確保するために、フレーム内アライメントモジュールを考案する。 このモジュールは、テキスト誘導合成された人格知識を事前訓練されたt2i拡散モデルに同化し、chatgptからの洞察を合成する。 背景の連続性を維持するため,背景のアライメントパイプラインを配置し,セグメントからの洞察と画像のインパインティング技術を組み合わせた。 さらに,先行するフレームが現在のフレームの合成過程をガイドする隣り合うフレーム間の時間的一貫性を高めるために,自己回帰パイプラインからインスピレーションを得たフレーム間アライメントモジュールを提案する。 最先端の手法と比較すると、Dancing Avatarは、人間と背景の忠実さと、既存の最先端のアプローチと比較して時間的コヒーレンスの両方において、明らかに優れた品質の人間のビデオを生成する能力を示している。

The rising demand for creating lifelike avatars in the digital realm has led to an increased need for generating high-quality human videos guided by textual descriptions and poses. We propose Dancing Avatar, designed to fabricate human motion videos driven by poses and textual cues. Our approach employs a pretrained T2I diffusion model to generate each video frame in an autoregressive fashion. The crux of innovation lies in our adept utilization of the T2I diffusion model for producing video frames successively while preserving contextual relevance. We surmount the hurdles posed by maintaining human character and clothing consistency across varying poses, along with upholding the background's continuity amidst diverse human movements. To ensure consistent human appearances across the entire video, we devise an intra-frame alignment module. This module assimilates text-guided synthesized human character knowledge into the pretrained T2I diffusion model, synergizing insights from ChatGPT. For preserving background continuity, we put forth a background alignment pipeline, amalgamating insights from segment anything and image inpainting techniques. Furthermore, we propose an inter-frame alignment module that draws inspiration from an auto-regressive pipeline to augment temporal consistency between adjacent frames, where the preceding frame guides the synthesis process of the current frame. Comparisons with state-of-the-art methods demonstrate that Dancing Avatar exhibits the capacity to generate human videos with markedly superior quality, both in terms of human and background fidelity, as well as temporal coherence compared to existing state-of-the-art approaches.
翻訳日:2023-08-16 12:49:51 公開日:2023-08-15
# 自動車レーダ物体検出ネットワークにおけるスパーシティの活用

Exploiting Sparsity in Automotive Radar Object Detection Networks ( http://arxiv.org/abs/2308.07748v1 )

ライセンス: Link先を確認
Marius Lippke, Maurice Quach, Sascha Braun, Daniel K\"ohler, Michael Ulrich, Bastian Bischoff and Wei Yap Tan(参考訳) 環境を正確に認識することは、自律運転システムの安全で信頼性の高い機能を保証する上で不可欠である。 レーダオブジェクト検出ネットワークはそのようなシステムの基本部分である。 CNNベースのオブジェクト検出器はこの文脈で優れた性能を示したが、大きな計算資源を必要とした。 本稿では,強力なグリッドベース検出と低計算資源を組み合わせた分散畳み込み物体検出ネットワークについて検討する。 本稿では,SKPP (Sparse kernel point pillars) とDVPC (Double voxel point convolutions) をグリッドレンダリングおよびスパースバックボーンアーキテクチャの補正として提案する。 SKPP-DPVCN アーキテクチャを nuScenes 上で評価し, ベースラインの5.89%, 先行状態の4.19% を Car AP4.0 で上回った。 さらに、SKPP-DPVCNはベースライン上の平均スケール誤差(ASE)を21.41%削減する。

Having precise perception of the environment is crucial for ensuring the secure and reliable functioning of autonomous driving systems. Radar object detection networks are one fundamental part of such systems. CNN-based object detectors showed good performance in this context, but they require large compute resources. This paper investigates sparse convolutional object detection networks, which combine powerful grid-based detection with low compute resources. We investigate radar specific challenges and propose sparse kernel point pillars (SKPP) and dual voxel point convolutions (DVPC) as remedies for the grid rendering and sparse backbone architectures. We evaluate our SKPP-DPVCN architecture on nuScenes, which outperforms the baseline by 5.89% and the previous state of the art by 4.19% in Car AP4.0. Moreover, SKPP-DPVCN reduces the average scale error (ASE) by 21.41% over the baseline.
翻訳日:2023-08-16 12:49:23 公開日:2023-08-15
# 絡み合い目撃者の方法に関する情報理論的展望

Information theoretical perspective on the method of Entanglement Witnesses ( http://arxiv.org/abs/2308.07744v1 )

ライセンス: Link先を確認
Paulo J. Cavalcanti, Giovanni Scala, Antonio Mandarino, and Cosmo Lupo(参考訳) 本研究では,ランダムな変数推論の問題として絡み合い検出を行い,絡み合いの目撃者がそのタスクの効率的な手順につながるかどうかを定量的に測定し,理解する手法を提案する。 したがって、一群の絡み合い証人が与えられた量子状態サンプルの絡み合いを推測できる情報の数を定量化する。 ビットは相互情報の観点から計算され、emph{ efficiently}処理されない隠れた情報が存在することが明かされる。 例えば、$\mathbb{E}[W]=\langle W \rangle_\rho$ は $\mathbb{E}[W]$ の符号よりも多くの情報が存在することを示す。 これは、絡み合う目撃者が絡み合いについてより多くの情報を提供できることを示唆する。 決定境界に関して、$\mathrm{sign}\left(\mathbb{e}\right [w ])$ではなく、その期待値の異なる関数を計算する。

We frame entanglement detection as a problem of random variable inference to introduce a quantitative method to measure and understand whether entanglement witnesses lead to an efficient procedure for that task. Hence we quantify how many bits of information a family of entanglement witnesses can infer about the entanglement of a given quantum state sample. The bits are computed in terms of the mutual information and we unveil there exists hidden information not \emph{efficiently} processed. We show that there is more information in the expected value of the entanglement witnesses, i.e. $\mathbb{E}[W]=\langle W \rangle_\rho$ than in the sign of $\mathbb{E}[W]$. This suggests that an entanglement witness can provide more information about the entanglement if for our decision boundary we compute a different functional of its expectation value, rather than $\mathrm{sign}\left(\mathbb{E}\right [ W ])$.
翻訳日:2023-08-16 12:49:04 公開日:2023-08-15
# 動的デュアル自己認識による画像遅延変換器ネットワークの学習

Learning Image Deraining Transformer Network with Dynamic Dual Self-Attention ( http://arxiv.org/abs/2308.07781v1 )

ライセンス: Link先を確認
Zhentao Fan, Hongming Chen, Yufeng Li(参考訳) 近年,非局所情報モデリングの利点から,トランスフォーマーをベースとしたアーキテクチャが単一画像デライニングタスクに導入されている。 しかし、既存のアプローチでは、クエリとキー間のトークンの類似点をすべて利用する傾向があるため、密集した自己注意戦略に基づいてグローバル機能を統合する傾向がある。 実際、この戦略は、最も関連する情報を無視し、機能集約中の無関係な表現によるぼやけ効果を誘発する。 そこで本稿では,高密度かつ疎度な注意戦略を組み合わせた動的二重自己注意変換方式(DDSA)を提案する。 具体的には、トップk近似計算に基づいて最も有用な類似度値のみを選択し、疎注意を得る。 また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。 ベンチマークデータセットの大規模な実験により,提案手法の有効性が示された。

Recently, Transformer-based architecture has been introduced into single image deraining task due to its advantage in modeling non-local information. However, existing approaches tend to integrate global features based on a dense self-attention strategy since it tend to uses all similarities of the tokens between the queries and keys. In fact, this strategy leads to ignoring the most relevant information and inducing blurry effect by the irrelevant representations during the feature aggregation. To this end, this paper proposes an effective image deraining Transformer with dynamic dual self-attention (DDSA), which combines both dense and sparse attention strategies to better facilitate clear image reconstruction. Specifically, we only select the most useful similarity values based on top-k approximate calculation to achieve sparse attention. In addition, we also develop a novel spatial-enhanced feed-forward network (SEFN) to further obtain a more accurate representation for achieving high-quality derained results. Extensive experiments on benchmark datasets demonstrate the effectiveness of our proposed method.
翻訳日:2023-08-16 12:44:38 公開日:2023-08-15
# 生徒の知識状態は十分に理解できますか。 知識追跡における回答バイアスの同定と軽減

Do We Fully Understand Students' Knowledge States? Identifying and Mitigating Answer Bias in Knowledge Tracing ( http://arxiv.org/abs/2308.07779v1 )

ライセンス: Link先を確認
Chaoran Cui, Hebo Ma, Chen Zhang, Chunyun Zhang, Yumo Yao, Meng Chen, Yuling Ma(参考訳) 知識追跡(KT)は,概念関連質問との学習相互作用を通じて,学生の進化する知識状態を監視することを目的としており,将来の質問に対する学生の行動予測によって間接的に評価することができる。 本稿では,解答バイアスの共通する現象,すなわち,各問に対して正解と誤解の高度に不均衡な分布が存在することを観察する。 既存のモデルは、KTにおける高い予測性能を達成するためのショートカットとして解答バイアスを記憶する傾向があり、それによって学生の知識状態を完全に理解できない。 この問題に対処するため、我々は因果性の観点からKTタスクにアプローチする。 KTの因果グラフが最初に確立され,回答バイアスの影響が学生の反応に対する質問の直接的な因果効果に関係していることを確認する。 さらに,kt に対する新たな反事実推論(core)フレームワークも提案されており,トレーニング中の因果効果と直接因果効果を分離して捉え,テストにおいて前者から後者を差し引いて回答バイアスを軽減している。 COREフレームワークは様々な既存のKTモデルに適用可能であり、DKT、DKVMN、AKTモデルに基づいて実装する。 3つのベンチマークデータセットに対する大規模な実験は、COREがKTの偏りのある推論に有効であることを示した。

Knowledge tracing (KT) aims to monitor students' evolving knowledge states through their learning interactions with concept-related questions, and can be indirectly evaluated by predicting how students will perform on future questions. In this paper, we observe that there is a common phenomenon of answer bias, i.e., a highly unbalanced distribution of correct and incorrect answers for each question. Existing models tend to memorize the answer bias as a shortcut for achieving high prediction performance in KT, thereby failing to fully understand students' knowledge states. To address this issue, we approach the KT task from a causality perspective. A causal graph of KT is first established, from which we identify that the impact of answer bias lies in the direct causal effect of questions on students' responses. A novel COunterfactual REasoning (CORE) framework for KT is further proposed, which separately captures the total causal effect and direct causal effect during training, and mitigates answer bias by subtracting the latter from the former in testing. The CORE framework is applicable to various existing KT models, and we implement it based on the prevailing DKT, DKVMN, and AKT models, respectively. Extensive experiments on three benchmark datasets demonstrate the effectiveness of CORE in making the debiased inference for KT.
翻訳日:2023-08-16 12:44:23 公開日:2023-08-15
# Deep Learning-based Imaging Biomarkersを用いたアルツハイマー病診断のための解釈可能な機械学習モデル

An Interpretable Machine Learning Model with Deep Learning-based Imaging Biomarkers for Diagnosis of Alzheimer's Disease ( http://arxiv.org/abs/2308.07778v1 )

ライセンス: Link先を確認
Wenjie Kang, Bo Li, Janne M. Papma, Lize C. Jiskoot, Peter Paul De Deyn, Geert Jan Biessels, Jurgen A.H. R. Claassen, Huub A.M. Middelkoop, Wiesje M. van der Flier, Inez H.G.B. Ramakers, Stefan Klein, Esther E. Bron(参考訳) 機械学習はアルツハイマー病(AD)の早期診断に大きな可能性を秘めている。 しかし、画像データに基づく機械学習手法では、通常、どのように意思決定するかが不明確であるため、解釈性に乏しいものもある。 説明可能ブースティングマシン(英語: descriptionable boosting machines、ebms)は、一般化加法モデリングの統計的枠組みに基づく解釈可能な機械学習モデルであるが、これまでは表データにのみ用いられてきた。 そこで本研究では,ebmの強度と高次元画像データを組み合わせたディープラーニング特徴抽出手法を提案する。 提案されたフレームワークは、各機能の重要性を提供するため、解釈可能である。 我々は,アルツハイマー病神経イメージングイニシアチブ(ADNI)データセットの枠組みを検証し,ADの0.883とAUCの0.970の精度と制御の分類を行った。 さらに,提案手法を外部テストセットで検証し,ADでは0.778,AUCは0.887,SCD分類では0.778であった。 提案したフレームワークは,ディープラーニングベースの機能ではなく,ボリュームバイオマーカーを用いたESMモデルと,最適化アーキテクチャを備えたエンドツーエンド畳み込みニューラルネットワーク(CNN)を著しく向上させた。

Machine learning methods have shown large potential for the automatic early diagnosis of Alzheimer's Disease (AD). However, some machine learning methods based on imaging data have poor interpretability because it is usually unclear how they make their decisions. Explainable Boosting Machines (EBMs) are interpretable machine learning models based on the statistical framework of generalized additive modeling, but have so far only been used for tabular data. Therefore, we propose a framework that combines the strength of EBM with high-dimensional imaging data using deep learning-based feature extraction. The proposed framework is interpretable because it provides the importance of each feature. We validated the proposed framework on the Alzheimer's Disease Neuroimaging Initiative (ADNI) dataset, achieving accuracy of 0.883 and area-under-the-curve (AUC) of 0.970 on AD and control classification. Furthermore, we validated the proposed framework on an external testing set, achieving accuracy of 0.778 and AUC of 0.887 on AD and subjective cognitive decline (SCD) classification. The proposed framework significantly outperformed an EBM model using volume biomarkers instead of deep learning-based features, as well as an end-to-end convolutional neural network (CNN) with optimized architecture.
翻訳日:2023-08-16 12:44:00 公開日:2023-08-15
# レイアウト構造モデリングによるビジュアルリッチ文書理解の強化

Enhancing Visually-Rich Document Understanding via Layout Structure Modeling ( http://arxiv.org/abs/2308.07777v1 )

ライセンス: Link先を確認
Qiwei Li, Zuchao Li, Xiantao Cai, Bo Du and Hai Zhao(参考訳) 近年,マルチモーダルな事前学習型トランスフォーマーの利用は,視覚的にリッチな文書理解に大きな進歩をもたらした。 しかし、既存のモデルはテキストノード間のレイアウト関係の重要性を無視しながら、主にテキストや視覚などの機能に焦点を当てている。 本稿では、レイアウト構造グラフのモデリングを利用して文書レイアウトの知識をモデルに注入する新しい文書理解モデルGraphLayoutLMを提案する。 GraphLayoutLMはグラフ構造に基づいてテキストシーケンスを調整するためにグラフリオーダーアルゴリズムを使用する。 さらに,このモデルでは,レイアウトを意識したマルチヘッドセルフアテンション層を用いて文書レイアウトの知識を学習する。 提案モデルにより,テキスト要素の空間的配置の理解が可能となり,文書の理解が向上する。 我々は、FUNSD、XFUND、CORDを含む様々なベンチマークでモデルを評価し、これらのデータセットの最先端結果を得る。 実験の結果,提案手法は既存の手法よりも大幅に改善され,文書理解モデルにレイアウト情報を組み込むことの重要性が示された。 また, モデルの各成分の寄与を調べるため, アブレーション研究を行った。 その結果,グラフリオーダリングアルゴリズムとレイアウトアウェアマルチヘッドセルフアテンション層の両方が,最高の性能を達成する上で重要な役割を担っていることがわかった。

In recent years, the use of multi-modal pre-trained Transformers has led to significant advancements in visually-rich document understanding. However, existing models have mainly focused on features such as text and vision while neglecting the importance of layout relationship between text nodes. In this paper, we propose GraphLayoutLM, a novel document understanding model that leverages the modeling of layout structure graph to inject document layout knowledge into the model. GraphLayoutLM utilizes a graph reordering algorithm to adjust the text sequence based on the graph structure. Additionally, our model uses a layout-aware multi-head self-attention layer to learn document layout knowledge. The proposed model enables the understanding of the spatial arrangement of text elements, improving document comprehension. We evaluate our model on various benchmarks, including FUNSD, XFUND and CORD, and achieve state-of-the-art results among these datasets. Our experimental results demonstrate that our proposed method provides a significant improvement over existing approaches and showcases the importance of incorporating layout information into document understanding models. We also conduct an ablation study to investigate the contribution of each component of our model. The results show that both the graph reordering algorithm and the layout-aware multi-head self-attention layer play a crucial role in achieving the best performance.
翻訳日:2023-08-16 12:43:36 公開日:2023-08-15
# 自律ロボットの階層的生成モデル

Hierarchical generative modelling for autonomous robots ( http://arxiv.org/abs/2308.07775v1 )

ライセンス: Link先を確認
Kai Yuan, Noor Sajid, Karl Friston, Zhibin Li(参考訳) 人間は、個々の手足の動きを計画し、実行し、組み合わせることで、周囲と相互作用するときに、複雑な全身の動きを生み出すことができる。 自律ロボットの動作設定におけるモータ制御の基礎的側面について検討した。 我々は,人間の運動制御の深い時間的構造を模倣したマルチレベル計画-自律的タスク完了のための階層的生成モデルを用いてこの問題にアプローチする。 ここでは、時間深度とは、例えばオブジェクトを届けるためには、複数の局所的な手足の動きを素早く調整するためのグローバルな計画を必要とする、前方または生成モデルの連続的なレベルが広がるネストされた時間スケールを指す。 この時間スケールの分離は、ロボット工学と制御のモチベーションでもある。 具体的には、多用途なセンサモジュレータ制御を実現するために、個々の四肢の計画と低レベルモータ制御を階層的に構成することが有利である。 数値および物理シミュレーションを用いて実験を行い、この定式化の有効性を確立する。 階層的生成モデルを用いて, ヒューマノイドロボットが自律的に複雑なタスクを完了し, 歩行, 操作, 把握の全体的利用を必要とすることを示す。 具体的には、箱を回収して輸送し、ドアを通り抜けて目的地に到達し、接近し、サッカーを蹴ることのできるヒューマノイドロボットの能力を示すとともに、身体の損傷や地面の不規則性の存在下で頑健な性能を示す。 本研究は,人間に触発された運動制御アルゴリズムの有効性を実証し,目標指向課題の自律的完了のための有効な階層的アーキテクチャを提供する。

Humans can produce complex whole-body motions when interacting with their surroundings, by planning, executing and combining individual limb movements. We investigated this fundamental aspect of motor control in the setting of autonomous robotic operations. We approach this problem by hierarchical generative modelling equipped with multi-level planning-for autonomous task completion-that mimics the deep temporal architecture of human motor control. Here, temporal depth refers to the nested time scales at which successive levels of a forward or generative model unfold, for example, delivering an object requires a global plan to contextualise the fast coordination of multiple local movements of limbs. This separation of temporal scales also motivates robotics and control. Specifically, to achieve versatile sensorimotor control, it is advantageous to hierarchically structure the planning and low-level motor control of individual limbs. We use numerical and physical simulation to conduct experiments and to establish the efficacy of this formulation. Using a hierarchical generative model, we show how a humanoid robot can autonomously complete a complex task that necessitates a holistic use of locomotion, manipulation, and grasping. Specifically, we demonstrate the ability of a humanoid robot that can retrieve and transport a box, open and walk through a door to reach the destination, approach and kick a football, while showing robust performance in presence of body damage and ground irregularities. Our findings demonstrated the effectiveness of using human-inspired motor control algorithms, and our method provides a viable hierarchical architecture for the autonomous completion of challenging goal-directed tasks.
翻訳日:2023-08-16 12:43:17 公開日:2023-08-15
# 教師なし異常検出のためのグラフエンコーダデコーダネットワーク

A Graph Encoder-Decoder Network for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2308.07774v1 )

ライセンス: Link先を確認
Mahsa Mesgaran and A. Ben Hamza(参考訳) 多くのグラフニューラルネットワーク(GNN)の重要なコンポーネントは、重要な構造情報を保持しながらグラフのサイズを小さくしようとするプーリング操作である。 しかし、既存のグラフプーリング戦略のほとんどは、トレーニング可能なパラメータを特徴とするGNN層を用いて得られる代入行列に依存しており、しばしば計算の複雑さとプールプロセスにおける解釈可能性の欠如につながる。 本稿では,グラフから異常ノードを検出するための教師なしグラフエンコーダ・デコーダモデルを提案する。 符号化段階ではLCPoolと呼ばれる新しいプール機構を設計し,局所性制約付き線形符号化を特徴符号化に適用し,最小二乗最適化問題を局所性正規化項で解くことによりクラスタ割り当て行列を求める。 コーディングプロセス中に局所性制約を強制することにより、LCPoolは学習可能なパラメータから解放され、大きなグラフを効率的に処理でき、グラフの最も重要な構造特性を保持しながら、効果的に粗いグラフ表現を生成することができる。 復号段階ではLCUnpoolと呼ばれるアンプール演算を提案し,元のグラフの構造と結節の特徴を再構築する。 本手法は,いくつかの評価指標を用いて6つのベンチマークデータセット上で経験的評価を行い,現状の異常検出手法よりも優れていることを示す。

A key component of many graph neural networks (GNNs) is the pooling operation, which seeks to reduce the size of a graph while preserving important structural information. However, most existing graph pooling strategies rely on an assignment matrix obtained by employing a GNN layer, which is characterized by trainable parameters, often leading to significant computational complexity and a lack of interpretability in the pooling process. In this paper, we propose an unsupervised graph encoder-decoder model to detect abnormal nodes from graphs by learning an anomaly scoring function to rank nodes based on their degree of abnormality. In the encoding stage, we design a novel pooling mechanism, named LCPool, which leverages locality-constrained linear coding for feature encoding to find a cluster assignment matrix by solving a least-squares optimization problem with a locality regularization term. By enforcing locality constraints during the coding process, LCPool is designed to be free from learnable parameters, capable of efficiently handling large graphs, and can effectively generate a coarser graph representation while retaining the most significant structural characteristics of the graph. In the decoding stage, we propose an unpooling operation, called LCUnpool, to reconstruct both the structure and nodal features of the original graph. We conduct empirical evaluations of our method on six benchmark datasets using several evaluation metrics, and the results demonstrate its superiority over state-of-the-art anomaly detection approaches.
翻訳日:2023-08-16 12:42:37 公開日:2023-08-15
# MOLE: 相互情報最大化によるモジュール型学習フレームワーク

MOLE: MOdular Learning FramEwork via Mutual Information Maximization ( http://arxiv.org/abs/2308.07772v1 )

ライセンス: Link先を確認
Tianchao Li and Yulong Pei(参考訳) 本稿では、ニューラルネットワークのための非同期で局所的な学習フレームワークであるModular Learning Framework(MOLE)を紹介する。 このフレームワークはニューラルネットワークをレイヤでモジュール化し、各モジュールの相互情報を介してトレーニング目標を定義し、相互情報最大化によって各モジュールを順次トレーニングする。 MOLEはモジュール間の勾配分離による局所的な最適化を可能にし、このスキームはBPよりも生物学的に妥当である。 ベクトルデータ,グリッドデータ,グラフデータについて実験を行った。 特に、このフレームワークはグラフ型データのグラフレベルとノードレベルの両方のタスクを解決できる。 したがって、MOLEは様々な種類のデータに適用可能であることが実験的に証明されている。

This paper is to introduce an asynchronous and local learning framework for neural networks, named Modular Learning Framework (MOLE). This framework modularizes neural networks by layers, defines the training objective via mutual information for each module, and sequentially trains each module by mutual information maximization. MOLE makes the training become local optimization with gradient-isolated across modules, and this scheme is more biologically plausible than BP. We run experiments on vector-, grid- and graph-type data. In particular, this framework is capable of solving both graph- and node-level tasks for graph-type data. Therefore, MOLE has been experimentally proven to be universally applicable to different types of data.
翻訳日:2023-08-16 12:41:54 公開日:2023-08-15
# 遠隔フォトプレチモグラフィ用デュアルパストークンレアナー : 顔ビデオを用いた生理学的計測

Dual-path TokenLearner for Remote Photoplethysmography-based Physiological Measurement with Facial Videos ( http://arxiv.org/abs/2308.07771v1 )

ライセンス: Link先を確認
Wei Qian, Dan Guo, Kun Li, Xilan Tian, Meng Wang(参考訳) リモート光胸腺撮影(rPPG)に基づく生理的計測は、新たな重要な視覚課題であり、その課題は、照明のバリエーション、顔の閉塞、頭部の動き、etcなどのノイズを伴う顔ビデオからの正確なrPPG予測を非接触で探索することにある。 既存のCNNベースのモデルは、心拍によって引き起こされる顔領域(ROI)の微妙な色変化を捉え、生理的信号を検出する。 しかし、そのようなモデルは、神経ユニット内の限られた局所的空間的または時間的受容的場によって制約される。 これらと異なり,ビデオのグローバルな視点から空間的・時間的情報的コンテキストを統合するために,学習可能なトークンの概念を利用する,Dual-path TokenLearner(Dual-TL)と呼ばれるネイティブトランスフォーマーベースのフレームワークが提案されている。 具体的には、提案されたDual-TLでは、Spatial TokenLearner(S-TL)を使用して、さまざまな顔ROIの関連を探索する。 相補的に、T-TL(Temporal TokenLearner)は、頭部運動などの時間的乱れを排除し、半周期的な心拍パターンを推定するように設計されている。 2つのTokenLearner、S-TLとT-TLはデュアルパスモードで実行される。 これにより、最終的なrPPG信号予測のためのノイズ障害を低減することができる。 4つの生理学的測定ベンチマークデータセットに関する広範囲な実験を行った。 Dual-TLは、内部およびクロスデータセットテストの両方で最先端のパフォーマンスを達成し、rPPG測定の基本的なバックボーンとして、その潜在能力を実証している。 ソースコードは \href{https://github.com/VUT-HFUT/Dual-TL}{https://github.com/VUT-HFUT/Dual-TL} で入手できる。

Remote photoplethysmography (rPPG) based physiological measurement is an emerging yet crucial vision task, whose challenge lies in exploring accurate rPPG prediction from facial videos accompanied by noises of illumination variations, facial occlusions, head movements, \etc, in a non-contact manner. Existing mainstream CNN-based models make efforts to detect physiological signals by capturing subtle color changes in facial regions of interest (ROI) caused by heartbeats. However, such models are constrained by the limited local spatial or temporal receptive fields in the neural units. Unlike them, a native Transformer-based framework called Dual-path TokenLearner (Dual-TL) is proposed in this paper, which utilizes the concept of learnable tokens to integrate both spatial and temporal informative contexts from the global perspective of the video. Specifically, the proposed Dual-TL uses a Spatial TokenLearner (S-TL) to explore associations in different facial ROIs, which promises the rPPG prediction far away from noisy ROI disturbances. Complementarily, a Temporal TokenLearner (T-TL) is designed to infer the quasi-periodic pattern of heartbeats, which eliminates temporal disturbances such as head movements. The two TokenLearners, S-TL and T-TL, are executed in a dual-path mode. This enables the model to reduce noise disturbances for final rPPG signal prediction. Extensive experiments on four physiological measurement benchmark datasets are conducted. The Dual-TL achieves state-of-the-art performances in both intra- and cross-dataset testings, demonstrating its immense potential as a basic backbone for rPPG measurement. The source code is available at \href{https://github.com/VUT-HFUT/Dual-TL}{https://github.com/VUT-HFUT/Dual-TL}
翻訳日:2023-08-16 12:41:36 公開日:2023-08-15
# 顔行動単位検出のためのマルチスケール自己調整相関学習

Multi-scale Promoted Self-adjusting Correlation Learning for Facial Action Unit Detection ( http://arxiv.org/abs/2308.07770v1 )

ライセンス: Link先を確認
Xin Liu, Kaishen Yuan, Xuesong Niu, Jingang Shi, Zitong Yu, Huanjing Yue, Jingyu Yang(参考訳) AU(Facial Action Unit)検出は、表情によって表現される感情の識別を助けるため、感情コンピューティングや社会ロボティクスにおいて重要なタスクである。 解剖学的には、豊富な情報を含み、AU検出に不可欠であるAUの間には無数の相関関係がある。 従来の手法では、専門家の経験に基づく固定au相関や特定のベンチマークの統計規則を用いたが、手作りの設定でaus間の複雑な相関を包括的に反映することは困難である。 これらの依存関係を徹底的に学習するために、完全に連結されたグラフを使う別の方法がある。 しかし、これらのアプローチは大きなデータセットで計算爆発と高い依存性をもたらす可能性がある。 これらの課題に対処するために,AU検出の少ない自己調整型AU相関学習(SACL)手法を提案する。 ネットワークの異なるステージで抽出されたau動作の異なるレベルと感情表現情報の特性を効率的に活用し、au相関グラフを適応的に学習し更新する。 さらに,相関情報抽出におけるマルチスケール学習の役割を考察し,単純かつ効果的なマルチスケール特徴学習(msfl)法を考案し,au検出の性能向上を図る。 AU相関情報をマルチスケールの特徴と統合することにより、最終的なAU検出のためのより堅牢な特徴表現を得る。 広範な実験により,提案手法は,au検出ベンチマークデータセットにおいて,最良手法のパラメータとフラップの28.7\%と12.0\%で,最先端の手法よりも優れていることがわかった。 このメソッドのコードは \url{https://github.com/linuxsino/self-adjusting-au} で入手できる。

Facial Action Unit (AU) detection is a crucial task in affective computing and social robotics as it helps to identify emotions expressed through facial expressions. Anatomically, there are innumerable correlations between AUs, which contain rich information and are vital for AU detection. Previous methods used fixed AU correlations based on expert experience or statistical rules on specific benchmarks, but it is challenging to comprehensively reflect complex correlations between AUs via hand-crafted settings. There are alternative methods that employ a fully connected graph to learn these dependencies exhaustively. However, these approaches can result in a computational explosion and high dependency with a large dataset. To address these challenges, this paper proposes a novel self-adjusting AU-correlation learning (SACL) method with less computation for AU detection. This method adaptively learns and updates AU correlation graphs by efficiently leveraging the characteristics of different levels of AU motion and emotion representation information extracted in different stages of the network. Moreover, this paper explores the role of multi-scale learning in correlation information extraction, and design a simple yet effective multi-scale feature learning (MSFL) method to promote better performance in AU detection. By integrating AU correlation information with multi-scale features, the proposed method obtains a more robust feature representation for the final AU detection. Extensive experiments show that the proposed method outperforms the state-of-the-art methods on widely used AU detection benchmark datasets, with only 28.7\% and 12.0\% of the parameters and FLOPs of the best method, respectively. The code for this method is available at \url{https://github.com/linuxsino/Self-adjusting-AU}.
翻訳日:2023-08-16 12:40:51 公開日:2023-08-15
# Urban Toolkit: 都市ビジュアル分析のための文法ベースのフレームワーク

The Urban Toolkit: A Grammar-based Framework for Urban Visual Analytics ( http://arxiv.org/abs/2308.07769v1 )

ライセンス: Link先を確認
Gustavo Moreira, Maryam Hosseini, Md Nafiul Alam Nipu, Marcos Lage, Nivan Ferreira, Fabio Miranda(参考訳) 世界中の都市は、彼らの問題を解決するためにデータ収集、管理、分析の新たな進歩を利用するためのスマートな方法を模索しているが、都市の問題の複雑な性質と膨大なデータ量が、これらの取り組みを実行可能な洞察に翻訳する上で大きな課題となっている。 過去数年間、都市視覚分析ツールはこれらの課題に大きく取り組みました。 興味のある特徴を分析する際、都市の専門家は異なるテーマ(例えば、日光アクセス、人口統計学)と物理的(例えば、建物、ストリートネットワーク)のデータ層を変換し、統合し、視覚化しなければならない。 しかし、これらのレイヤーの統合と分析には異なる分野の専門知識が必要であり、開発時間と労力が増加する。 これにより、プログラマにとって視覚的なデータ探索とシステム実装が難しくなり、コンピュータ科学以外の都市の専門家にとって高い入り口障壁となる。 そこで本稿では,都市利用を念頭に置いて構築された新しい高レベル文法を用いて,webベースの可視化を容易に作成できるフレキシブルで拡張可能な可視化フレームワークであるurban toolkit(utk)を提案する。 また,異なる都市データの統合と可視化を容易にするため,テーマと物理的な都市層を融合させる結び目の概念を提案する。 我々は,都市アクセシビリティ,都市計画,建築,気候科学など,さまざまな分野の専門家や実践者への一連のインタビューを通じて,我々のアプローチを評価する。 UTKは urbantk.org で入手できる。

While cities around the world are looking for smart ways to use new advances in data collection, management, and analysis to address their problems, the complex nature of urban issues and the overwhelming amount of available data have posed significant challenges in translating these efforts into actionable insights. In the past few years, urban visual analytics tools have significantly helped tackle these challenges. When analyzing a feature of interest, an urban expert must transform, integrate, and visualize different thematic (e.g., sunlight access, demographic) and physical (e.g., buildings, street networks) data layers, oftentimes across multiple spatial and temporal scales. However, integrating and analyzing these layers require expertise in different fields, increasing development time and effort. This makes the entire visual data exploration and system implementation difficult for programmers and also sets a high entry barrier for urban experts outside of computer science. With this in mind, in this paper, we present the Urban Toolkit (UTK), a flexible and extensible visualization framework that enables the easy authoring of web-based visualizations through a new high-level grammar specifically built with common urban use cases in mind. In order to facilitate the integration and visualization of different urban data, we also propose the concept of knots to merge thematic and physical urban layers. We evaluate our approach through use cases and a series of interviews with experts and practitioners from different domains, including urban accessibility, urban planning, architecture, and climate science. UTK is available at urbantk.org.
翻訳日:2023-08-16 12:40:23 公開日:2023-08-15
# 格子因子化への量子および古典的組合せ最適化の適用

Quantum and Classical Combinatorial Optimizations Applied to Lattice-Based Factorization ( http://arxiv.org/abs/2308.07804v1 )

ライセンス: Link先を確認
Willie Aboumrad, Dominic Widdows, Ananth Kaushik(参考訳) 動作する量子コンピュータの可用性は、いくつかの提案と量子優位性の主張につながった。 2023年には、素因子が全て小さい近くの整数の探索を最適化することで、量子コンピュータが大きな整数をうまく分解できると主張している。 本稿は,これらの手法による商業的意義のファクタリングが期待できないことを実証する。 数学的には、これは n が成長するにつれて滑らかな数の密度(素数全体の数)が指数関数的に減少するためである。 実験により,格子ベースの因子分解はより大きい数に対してうまくスケールできないこと,提案する量子拡張はこの結論に影響を与えないこと,また,他の単純な古典的最適化ヒューリスティックは格子に基づく因子分解にはるかに優れていることを示した。 しかし、この分野の多くのトピックは、ファクタリング自身とは独立に興味深い応用と数学的課題を持っている。 我々は、cvpの特別な場合と、線形方程式の解であるmodulo 2を含む分解パイプラインの他の部分に量子技術を適用する機会について考察する。 1000ビットの数値を分解する目的はまだ未定だが、コンビネータ的な展望は有望であり、より遠近な目的でさらなる研究を保証している。

The availability of working quantum computers has led to several proposals and claims of quantum advantage. In 2023, this has included claims that quantum computers can successfully factor large integers, by optimizing the search for nearby integers whose prime factors are all small. This paper demonstrates that the hope of factoring numbers of commercial significance using these methods is unfounded. Mathematically, this is because the density of smooth numbers (numbers all of whose prime factors are small) decays exponentially as n grows. Our experimental reproductions and analysis show that lattice-based factoring does not scale successfully to larger numbers, that the proposed quantum enhancements do not alter this conclusion, and that other simpler classical optimization heuristics perform much better for lattice-based factoring. However, many topics in this area have interesting applications and mathematical challenges, independently of factoring itself. We consider particular cases of the CVP, and opportunities for applying quantum techniques to other parts of the factorization pipeline, including the solution of linear equations modulo 2. Though the goal of factoring 1000-bit numbers is still out-of-reach, the combinatoric landscape is promising, and warrants further research with more circumspect objectives.
翻訳日:2023-08-16 12:31:48 公開日:2023-08-15
# イベントカメラを用いたキャビン内モニタリングのためのニューロモルフィックシートベルト状態検出

Neuromorphic Seatbelt State Detection for In-Cabin Monitoring with Event Cameras ( http://arxiv.org/abs/2308.07802v1 )

ライセンス: Link先を確認
Paul Kielty, Cian Ryan, Mehdi Sefidgar Dilmaghani, Waseem Shariff, Joe Lemley, Peter Corcoran(参考訳) ニューロモルフィック視覚センサーやイベントカメラは、特定の速度で画像を撮影しないという点で従来のカメラとは異なる。 代わりに、各ピクセルのローカルな明るさ変化を非同期に記録する。 結果として、イベントカメラは与えられたシーンの変化のみを記録し、非常に高時間分解能、高ダイナミックレンジ、低電力要求でそれを行う。 最近の研究では、これらの特徴がドライバー監視システム(DMS)においてイベントカメラを極めて実用的なセンサーにする方法が実証されている。 本研究は,シートベルト状態検出を含むイベントベースDMS技術を拡張するための概念実証を提供する。 イベントシミュレータを用いて,近赤外(nir)データセットから108,691個のカー占有者の合成ニューロモルフィックフレームのデータセットを生成し,再帰畳み込みニューラルネットワーク(cnn)に基づくシートベルト状態検出アルゴリズムのトレーニング,検証,テストセットに分割した。 さらに、より小さな実イベントデータが収集され、テスト用に予約された。 二分分類タスクでは, 固定・非固定フレームと実テストセットでそれぞれ0.989, 0.944のf1スコアを同定した。 また、シートベルトの締め付け・締め付け動作の分別も可能となり、各F1スコアの0.964と0.846が達成された。

Neuromorphic vision sensors, or event cameras, differ from conventional cameras in that they do not capture images at a specified rate. Instead, they asynchronously log local brightness changes at each pixel. As a result, event cameras only record changes in a given scene, and do so with very high temporal resolution, high dynamic range, and low power requirements. Recent research has demonstrated how these characteristics make event cameras extremely practical sensors in driver monitoring systems (DMS), enabling the tracking of high-speed eye motion and blinks. This research provides a proof of concept to expand event-based DMS techniques to include seatbelt state detection. Using an event simulator, a dataset of 108,691 synthetic neuromorphic frames of car occupants was generated from a near-infrared (NIR) dataset, and split into training, validation, and test sets for a seatbelt state detection algorithm based on a recurrent convolutional neural network (CNN). In addition, a smaller set of real event data was collected and reserved for testing. In a binary classification task, the fastened/unfastened frames were identified with an F1 score of 0.989 and 0.944 on the simulated and real test sets respectively. When the problem extended to also classify the action of fastening/unfastening the seatbelt, respective F1 scores of 0.964 and 0.846 were achieved.
翻訳日:2023-08-16 12:31:27 公開日:2023-08-15
# 手書きステングラフ認識とライオンデータセット

Handwritten Stenography Recognition and the LION Dataset ( http://arxiv.org/abs/2308.07799v1 )

ライセンス: Link先を確認
Raphaela Heil, Malin Nauwerck(参考訳) 目的:本論文では,新規なLIONデータセットを用いて手書きステントグラフィー認識のベースラインを構築し,ステントグラフィー理論の選択的側面を認識プロセスに含めることの影響について検討する。 LIONデータセットを公開し、手書きステントグラフィー認識における今後の研究を奨励する。 方法:最先端のテキスト認識モデルをトレーニングしてベースラインを確立する。 対象シーケンスを表現に変換する4つの異なる符号化手法を適用して、ステングラフ領域知識を統合することにより、書き込みシステムの選択された側面を近似する。 合成データに基づく事前学習方式を統合することにより, 結果をさらに改善する。 結果: ベースラインモデルは平均テスト文字誤り率(CER)が29.81%、単語誤り率(WER)が55.14%に達する。 テストエラー率は、ステントグラフィー固有のターゲットシーケンスエンコーディングと事前トレーニングと微調整を組み合わせることで大幅に減少し、24.5%から26%、WERは44.8%から48.2%の範囲でCERが得られる。 結論: 得られた結果は, stenography recognitionの難解な性質を示している。 合成データの事前学習と微調整と合わせて、ステントグラフィー特有の知識を統合することで、かなりの改善がもたらされる。 本研究は,本研究の先行研究とともに,手書き文字認識をステントグラフィに応用する最初の試みである。 データセットとコードはzenodoから公開されています。

Purpose: In this paper, we establish a baseline for handwritten stenography recognition, using the novel LION dataset, and investigate the impact of including selected aspects of stenographic theory into the recognition process. We make the LION dataset publicly available with the aim of encouraging future research in handwritten stenography recognition. Methods: A state-of-the-art text recognition model is trained to establish a baseline. Stenographic domain knowledge is integrated by applying four different encoding methods that transform the target sequence into representations, which approximate selected aspects of the writing system. Results are further improved by integrating a pre-training scheme, based on synthetic data. Results: The baseline model achieves an average test character error rate (CER) of 29.81% and a word error rate (WER) of 55.14%. Test error rates are reduced significantly by combining stenography-specific target sequence encodings with pre-training and fine-tuning, yielding CERs in the range of 24.5% - 26% and WERs of 44.8% - 48.2%. Conclusion: The obtained results demonstrate the challenging nature of stenography recognition. Integrating stenography-specific knowledge, in conjunction with pre-training and fine-tuning on synthetic data, yields considerable improvements. Together with our precursor study on the subject, this is the first work to apply modern handwritten text recognition to stenography. The dataset and our code are publicly available via Zenodo.
翻訳日:2023-08-16 12:31:03 公開日:2023-08-15
# Rydberg量子アニール上の局所光シフト符号化による最適化問題の解法

Solving optimization problems with local light shift encoding on Rydberg quantum annealers ( http://arxiv.org/abs/2308.07798v1 )

ライセンス: Link先を確認
Kapil Goswami, Rick Mukherjee, Herwig Ott, Peter Schmelcher(参考訳) 最大カット(max-cut)や最大独立集合(mis)といった組合せ最適化問題をrydberg量子アニーラー上で解くための非単位ディスクフレームワークを提供する。 我々の構成は、グラフ問題をイジングスピンモデルにマッピングするために、局所制御可能な光シフトを個々のキュービットに適用する多体相互作用Rydbergシステムからなる。 光トワイザーが空間配置で提供する柔軟性を生かした数値シミュレーションでは、rydberg annealerを所望の多体基底状態へとグローバルに駆動しながら局所調整プロトコルを実装し、最適化問題への解決策でもある。 最適制御法を用いて, システムの寿命内, 近似比が1に近い時間スケールのプロトタイプグラフに対して, これらの解を求める。 非ブロッケードアプローチは、2次元のRydberg構成で実現でき、非重み付きグラフと重み付きグラフの両方に適用できる特定のトポロジーによるグラフ問題の符号化を容易にする。 システムサイズ, グラフの硬度, 解に収束するのに要するイテレーション数の観点から, 提案手法の利点を浮き彫りにした, 高速な模擬焼鈍による比較解析が提供される。

We provide a non-unit disk framework to solve combinatorial optimization problems such as Maximum Cut (Max-Cut) and Maximum Independent Set (MIS) on a Rydberg quantum annealer. Our setup consists of a many-body interacting Rydberg system where locally controllable light shifts are applied to individual qubits in order to map the graph problem onto the Ising spin model. Exploiting the flexibility that optical tweezers offer in terms of spatial arrangement, our numerical simulations implement the local-detuning protocol while globally driving the Rydberg annealer to the desired many-body ground state, which is also the solution to the optimization problem. Using optimal control methods, these solutions are obtained for prototype graphs with varying sizes at time scales well within the system lifetime and with approximation ratios close to one. The non-blockade approach facilitates the encoding of graph problems with specific topologies that can be realized in two-dimensional Rydberg configurations and is applicable to both unweighted as well as weighted graphs. A comparative analysis with fast simulated annealing is provided which highlights the advantages of our scheme in terms of system size, hardness of the graph, and the number of iterations required to converge to the solution.
翻訳日:2023-08-16 12:30:38 公開日:2023-08-15
# 動的期待最大化を用いた色雑音下における適応雑音共分散推定

Adaptive Noise Covariance Estimation under Colored Noise using Dynamic Expectation Maximization ( http://arxiv.org/abs/2308.07797v1 )

ライセンス: Link先を確認
Ajith Anil Meera and Pablo Lanillos(参考訳) 動的システムにおけるノイズ共分散行列(NCM)の正確な推定は、その最適性に大きな影響を与えるため、状態推定と制御に重要である。 多くのNCM推定法が開発されているが、そのほとんどはノイズが白色であると仮定している。 しかし、多くの実世界の応用において、ノイズは色付けされている(例えば、それらは時間的自己相関を示す)。 本稿では,カラーノイズを受ける動的システムのNCMを高精度かつ適応的に推定する,脳に触発された新しいアルゴリズムを提案する。 特に,自由エネルギー目標を最適化することにより,オンラインノイズ共分散と状態推定の両方を行うための動的期待最大化アルゴリズムを拡張する。 我々はNCM推定器がこの自由エネルギー目標の大域的最適値に収束することを数学的に証明する。 ランダム化数値シミュレーションを用いて,色付き雑音条件下での雑音共分散推定誤差を最小に抑えた9つのベースライン法よりも高い性能を示す。 特に,本手法は,高色雑音に対する関節雑音および状態推定において,最良ベースライン(可変ベイズ)よりも優れることを示す。 我々は、推定器の精度と適応性が実世界のアプリケーションにおけるオンライン推定に適していることを予測している。

The accurate estimation of the noise covariance matrix (NCM) in a dynamic system is critical for state estimation and control, as it has a major influence in their optimality. Although a large number of NCM estimation methods have been developed, most of them assume the noises to be white. However, in many real-world applications, the noises are colored (e.g., they exhibit temporal autocorrelations), resulting in suboptimal solutions. Here, we introduce a novel brain-inspired algorithm that accurately and adaptively estimates the NCM for dynamic systems subjected to colored noise. Particularly, we extend the Dynamic Expectation Maximization algorithm to perform both online noise covariance and state estimation by optimizing the free energy objective. We mathematically prove that our NCM estimator converges to the global optimum of this free energy objective. Using randomized numerical simulations, we show that our estimator outperforms nine baseline methods with minimal noise covariance estimation error under colored noise conditions. Notably, we show that our method outperforms the best baseline (Variational Bayes) in joint noise and state estimation for high colored noise. We foresee that the accuracy and the adaptive nature of our estimator make it suitable for online estimation in real-world applications.
翻訳日:2023-08-16 12:30:14 公開日:2023-08-15
# 映像からの強化学習における臨界状態の同定

Learning to Identify Critical States for Reinforcement Learning from Videos ( http://arxiv.org/abs/2308.07795v1 )

ライセンス: Link先を確認
Haozhe Liu, Mingchen Zhuge, Bing Li, Yuhui Wang, Francesco Faccio, Bernard Ghanem, J\"urgen Schmidhuber(参考訳) 近年の深層強化学習(DRL)の研究は、実行された行動に関する明示的な情報を持たないオフラインデータから良い方針に関するアルゴリズム情報を抽出できることを指摘している。 例えば、人間やロボットのビデオは、報酬のアクションシーケンスに関する多くの暗黙の情報を伝達するかもしれないが、そのようなビデオを見て利益を得たいDRLマシンは、まず、関連する状態/アクション/リワードを識別し認識するために、自分で学ぶ必要がある。 Deep State Identifierと呼ばれる新しい手法は、ビデオとしてエンコードされたエピソードからのリターンを予測する。 そして、マスクベースの感度分析を使って重要な重要な状態を抽出・識別する。 広範囲な実験は、エージェントの振る舞いを理解し改善するための方法の可能性を示す。 ソースコードと生成されたデータセットはhttps://github.com/AI-Initiative-KAUST/VideoRLCSで公開されている。

Recent work on deep reinforcement learning (DRL) has pointed out that algorithmic information about good policies can be extracted from offline data which lack explicit information about executed actions. For example, videos of humans or robots may convey a lot of implicit information about rewarding action sequences, but a DRL machine that wants to profit from watching such videos must first learn by itself to identify and recognize relevant states/actions/rewards. Without relying on ground-truth annotations, our new method called Deep State Identifier learns to predict returns from episodes encoded as videos. Then it uses a kind of mask-based sensitivity analysis to extract/identify important critical states. Extensive experiments showcase our method's potential for understanding and improving agent behavior. The source code and the generated datasets are available at https://github.com/AI-Initiative-KAUST/VideoRLCS.
翻訳日:2023-08-16 12:29:51 公開日:2023-08-15
# 生成言語モデルのためのインフォームド名前付きエンティティ認識デコーディング

Informed Named Entity Recognition Decoding for Generative Language Models ( http://arxiv.org/abs/2308.07791v1 )

ライセンス: Link先を確認
Tobias Deu{\ss}er, Lars Hillebrand, Christian Bauckhage, Rafet Sifa(参考訳) 絶え間ない言語モデルは、今や確立されたテキスト処理ツールである。 残念なことに、名前付きエンティティ認識のような情報抽出タスクは、主に前世代のエンコーダのみのトランスフォーマーモデルに基づいているため、この進歩にほとんど影響を受けていない。 本稿では、名前付きエンティティ認識を生成プロセスとして扱う、シンプルかつ効果的なエンティティ認識復号(inerd)手法を提案する。 情報抽出の制限された性質をオープンエンドテキスト生成に取り入れ、性能を改善し、幻覚のリスクを排除した情報復号方式を用いて、最近の生成モデルの言語理解能力を将来的な方法で活用する。 我々は、その性能を高めるために、統合されたエンティティコーパス上でモデルを粗く調整し、8つの名前付きエンティティ認識データセット上で5つの生成言語モデルを評価し、特に未知のエンティティクラスを持つ環境において、そのアプローチの適応性を示す驚くべき結果を得る。

Ever-larger language models with ever-increasing capabilities are by now well-established text processing tools. Alas, information extraction tasks such as named entity recognition are still largely unaffected by this progress as they are primarily based on the previous generation of encoder-only transformer models. Here, we propose a simple yet effective approach, Informed Named Entity Recognition Decoding (iNERD), which treats named entity recognition as a generative process. It leverages the language understanding capabilities of recent generative models in a future-proof manner and employs an informed decoding scheme incorporating the restricted nature of information extraction into open-ended text generation, improving performance and eliminating any risk of hallucinations. We coarse-tune our model on a merged named entity corpus to strengthen its performance, evaluate five generative language models on eight named entity recognition datasets, and achieve remarkable results, especially in an environment with an unknown entity class set, demonstrating the adaptability of the approach.
翻訳日:2023-08-16 12:29:38 公開日:2023-08-15
# 半導体量子ドット系における高速断熱通過型超解像顕微鏡

Rapid-adiabatic-passage-based super-resolution microscopy in semiconductor quantum dot system ( http://arxiv.org/abs/2308.07790v1 )

ライセンス: Link先を確認
Partha Das, Samit Kumar Hazra, Tarak Nath Dey(参考訳) 本研究では,2つの構造ビームと相互作用する2レベル量子ドット系における高速断熱通路(rap)に基づく超解像イメージングを理論的に検討する。 カルデューイ実験のための超解像の形成の背後にある物理的メカニズムを理解する。 al.,}[nature photonics 10.1038/s41566-017-0079-y (2018)] まず、光子を媒介とする放射崩壊と非放射崩壊を組み込んだliouvilleの密度行列を用いる。 構造化ビームの好適に選択された時空間エンベロープは超解像形成を可能にする。 また,画像の特徴の大きさはラゲール・ガウスビーム(lg)の強度に依存することがわかった。 しかし、生成した画像分解能は低強度の円環の存在により歪みを受ける。 望ましくない円環は、超ガウス(SG)ビームテール上のLGビームテールの優位性から生じ、基底状態から励起状態への残留人口移動を開始する。 この制限は、ベッセル変調された断線構造lgとsgビームを使用することで克服できる。 次に、フォノン相互作用が必須となる有限温度における半導体量子ドット系のダイナミクスについて研究する。 ポラロン変換マスター方程式を用いて高温でのシステム探索を行う。 数値的な結果から,低温度下では低フォノンカップリングで画像のシャープさが保たれることが確認できた。 したがって、提案手法は量子ドットを用いたナノスケールイメージングに応用できる可能性がある。

We theoretically investigate rapid adiabatic passage(RAP)-based super-resolution imaging in a two-level quantum dot system interacting with two structured beams. To understand the physical mechanism behind the formation of super-resolution for the experiment of Kaldewey {\it et. al.,}[Nature Photonics 10.1038/s41566-017-0079-y (2018)], we first use Liouville's density matrix where photon-mediated radiative and non-radiative decays are incorporated. A suitably chosen spatiotemporal envelope of the structured beams enables the formation of a super-resolution image. We also find that the feature size of the image depends on the intensity of the Laguerre Gaussian beam(LG). However, the created image resolution undergoes distortion due to the existence of a low-intensity circular ring. The unwanted circular ring arises from the dominance of the LG beam tail over the super-Gaussian(SG) beam tail, initiating the residual population transfer from the ground state to the excited state. This limitation can be overcome by using the Bessel-modulated truncated structured LG and SG beams. We next study the dynamics of the semiconductor quantum dot system at finite temperatures wherein the phonon interaction becomes imperative. We employ the polaron-transformed master equation to explore the system at higher temperatures. Our numerical results confirm that the sharpness of the image remains intact at low temperatures with weak phonon coupling. Hence, the proposed scheme may open up applications in nano-scale imaging with quantum dots.
翻訳日:2023-08-16 12:29:21 公開日:2023-08-15
# DiffV2S:視覚誘導型話者埋め込みを用いた拡散型音声合成

DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided Speaker Embedding ( http://arxiv.org/abs/2308.07787v1 )

ライセンス: Link先を確認
Jeongsoo Choi, Joanna Hong, Yong Man Ro(参考訳) 近年の研究では、音声のみを視覚入力から再構成するビデオ音声合成の顕著な成果が示されている。 しかし、モデルが適切な音で正しい内容を推測するための十分なガイダンスが欠如しているため、以前の作品では正確な音声合成に苦慮している。 この問題を解決するために、彼らは参照聴覚情報から話し方指導として追加の話者埋め込みを採用した。 それでも、特に推論時間において、対応するビデオ入力からオーディオ情報を取得することは必ずしも不可能ではない。 本稿では,自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。 これにより、入力された視覚情報のみからリッチな話者埋め込み情報を生成することができ、その推論中に余分な音声情報は不要となる。 抽出した視覚誘導型話者埋め込み表現を用いて,DiffV2Sと呼ばれる拡散に基づく音声合成モデルを構築し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。 提案するdiffv2は、入力されたビデオフレームに含まれる音素の詳細を保持するだけでなく、複数の話者の話者識別がすべて保存される高度に理解可能なメル・スペクトログラムを生成する。 実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。

Recent research has demonstrated impressive results in video-to-speech synthesis which involves reconstructing speech solely from visual input. However, previous works have struggled to accurately synthesize speech due to a lack of sufficient guidance for the model to infer the correct content with the appropriate sound. To resolve the issue, they have adopted an extra speaker embedding as a speaking style guidance from a reference auditory information. Nevertheless, it is not always possible to obtain the audio information from the corresponding video input, especially during the inference time. In this paper, we present a novel vision-guided speaker embedding extractor using a self-supervised pre-trained model and prompt tuning technique. In doing so, the rich speaker embedding information can be produced solely from input visual information, and the extra audio information is not necessary during the inference time. Using the extracted vision-guided speaker embedding representations, we further develop a diffusion-based video-to-speech synthesis model, so called DiffV2S, conditioned on those speaker embeddings and the visual representation extracted from the input video. The proposed DiffV2S not only maintains phoneme details contained in the input video frames, but also creates a highly intelligible mel-spectrogram in which the speaker identities of the multiple speakers are all preserved. Our experimental results show that DiffV2S achieves the state-of-the-art performance compared to the previous video-to-speech synthesis technique.
翻訳日:2023-08-16 12:28:56 公開日:2023-08-15
# ビデオ異常検出のための単一フレームからの将来の映像予測

Future Video Prediction from a Single Frame for Video Anomaly Detection ( http://arxiv.org/abs/2308.07783v1 )

ライセンス: Link先を確認
Mohammad Baradaran, Robert Bergevin(参考訳) ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要であるが難しい課題である。 主な課題は、すべての異常なケースをモデル化するトレーニングサンプルの多さにある。 したがって, 半教師付き異常検出法は, 標準パターンのモデリングに焦点を置き, 正常パターンからの偏差を計測して異常を検出するため, より注目されている。 正常な動きと外観のモデリングにおいてこれらの手法が顕著な進歩を遂げたものの、長期的な動きのモデリングは今のところ効果的に行われていない。 将来のフレーム予測プロキシタスクの能力に着想を得て,ビデオ異常検出のための新しいプロキシタスクとして,単一フレームからの将来のビデオ予測タスクを導入する。 このプロキシタスクは、より長い動きパターンを学ぶ前の方法の課題を軽減する。 さらに、初期および将来のrawフレームを対応するセマンティックセグメンテーションマップに置き換えることにより、メソッドがオブジェクトクラスを認識するだけでなく、モデルに対する予測タスクがより複雑になる。 ベンチマークデータセット(ShanghaiTech, UCSD-Ped1, UCSD-Ped2)の大規模な実験は, SOTA予測に基づくVAD法と比較して, 本手法の有効性と性能の優位性を示している。

Video anomaly detection (VAD) is an important but challenging task in computer vision. The main challenge rises due to the rarity of training samples to model all anomaly cases. Hence, semi-supervised anomaly detection methods have gotten more attention, since they focus on modeling normals and they detect anomalies by measuring the deviations from normal patterns. Despite impressive advances of these methods in modeling normal motion and appearance, long-term motion modeling has not been effectively explored so far. Inspired by the abilities of the future frame prediction proxy-task, we introduce the task of future video prediction from a single frame, as a novel proxy-task for video anomaly detection. This proxy-task alleviates the challenges of previous methods in learning longer motion patterns. Moreover, we replace the initial and future raw frames with their corresponding semantic segmentation map, which not only makes the method aware of object class but also makes the prediction task less complex for the model. Extensive experiments on the benchmark datasets (ShanghaiTech, UCSD-Ped1, and UCSD-Ped2) show the effectiveness of the method and the superiority of its performance compared to SOTA prediction-based VAD methods.
翻訳日:2023-08-16 12:28:35 公開日:2023-08-15
# REFORMS: 機械学習に基づく科学のレポート標準

REFORMS: Reporting Standards for Machine Learning Based Science ( http://arxiv.org/abs/2308.07832v1 )

ライセンス: Link先を確認
Sayash Kapoor, Emily Cantrell, Kenny Peng, Thanh Hien Pham, Christopher A. Bail, Odd Erik Gundersen, Jake M. Hofman, Jessica Hullman, Michael A. Lones, Momin M. Malik, Priyanka Nanayakkara, Russell A. Poldrack, Inioluwa Deborah Raji, Michael Roberts, Matthew J. Salganik, Marta Serra-Garcia, Brandon M. Stewart, Gilles Vandewiele, Arvind Narayanan(参考訳) 機械学習(ml)の手法は科学研究で普及している。 しかし、これらの手法の採用には、妥当性、再現性、一般化性の失敗が伴う。 これらの失敗は科学的進歩を阻害し、不正な主張に関する誤った合意を導き、MLベースの科学の信頼性を損なう。 MLメソッドは、しばしば適用され、規律を越えて同様の方法で失敗する。 この観察に動機づけられた私たちの目標は、MLベースの科学の明確な報告標準を提供することです。 過去の文献の広範なレビューから引用して、REFORMSチェックリスト($\textbf{Re}$porting Standards $\textbf{For}$ $\textbf{M}$achine Learning Based $\textbf{S}$cience)を提示する。 32の質問と一組のガイドラインからなる。 REFORMSはコンピュータ科学、データサイエンス、数学、社会科学、生物医学の19人の研究者の合意に基づいて開発された。 研究を設計・実施する研究者、論文をレビューするレビュアー、透明性と再現性に関する基準を施行するジャーナルのリソースとして、改革は役に立ちます。

Machine learning (ML) methods are proliferating in scientific research. However, the adoption of these methods has been accompanied by failures of validity, reproducibility, and generalizability. These failures can hinder scientific progress, lead to false consensus around invalid claims, and undermine the credibility of ML-based science. ML methods are often applied and fail in similar ways across disciplines. Motivated by this observation, our goal is to provide clear reporting standards for ML-based science. Drawing from an extensive review of past literature, we present the REFORMS checklist ($\textbf{Re}$porting Standards $\textbf{For}$ $\textbf{M}$achine Learning Based $\textbf{S}$cience). It consists of 32 questions and a paired set of guidelines. REFORMS was developed based on a consensus of 19 researchers across computer science, data science, mathematics, social sciences, and biomedical sciences. REFORMS can serve as a resource for researchers when designing and implementing a study, for referees when reviewing papers, and for journals when enforcing standards for transparency and reproducibility.
翻訳日:2023-08-16 12:22:42 公開日:2023-08-15
# 一般化二次代入問題に対する遺伝的アルゴリズムのメタヒューリスティック

A Genetic Algorithm Meta-Heuristic for a Generalized Quadratic Assignment Problem ( http://arxiv.org/abs/2308.07828v1 )

ライセンス: Link先を確認
Mojtaba A. Farahani(参考訳) 一般化二次代入問題(GQAP)は、運用研究分野において最も解決が難しい問題の1つである。 本研究で取り組んだGQAPは、一組の施設を一組の場所に割り当てる際の割り当てと輸送コストを最小化するタスクとして定義される。 施設は異なる空間要件を持ち、場所は異なる空間容量を持つ。 スペース容量に違反しない場合、複数の施設が各場所に割り当てられる。 本稿では,異なる状況におけるgqapの3つの例を示す。 そして、GQAPインスタンスを解決するために遺伝的アルゴリズムを開発する。 最後に、最急降下戦略を有する局所近傍探索を構築し、gaで得られる最終解に適用し、mpl/cplexソフトウェアおよび参照論文で得られた最良解と比較する。 その結果,GAヒューリスティックはGQAPの解法に有効であることが示唆された。

The generalized quadratic assignment problem (GQAP) is one of the hardest problems to solve in the operations research area. The GQAP addressed in this work is defined as the task of minimizing the assignment and transportation costs of assigning a set of facilities to a set of locations. The facilities have different space requirements, and the locations have different space capacities. Multiple facilities can be assigned to each location if the space capacity is not violated. In this work, three instances of GQAP in different situations are presented. Then, a genetic algorithm is developed to solve the GQAP instances. Finally, the local neighborhood search with the steepest descend strategy is constructed and applied to the final solution obtained by the GA, and the final solution is compared with the best solution found by MPL/CPLEX software and reference papers. The results show that the developed GA heuristic is effective for solving the GQAP.
翻訳日:2023-08-16 12:22:18 公開日:2023-08-15
# マルチオブジェクト6DoFポース推定のためのより良いキーポイントの学習

Learning Better Keypoints for Multi-Object 6DoF Pose Estimation ( http://arxiv.org/abs/2308.07827v1 )

ライセンス: Link先を確認
Yangzheng Wu and Michael Greenspan(参考訳) 本研究では,事前定義されたキーポイントがポーズ推定に与える影響について検討し,グラフネットワークをトレーニングすることにより,分散キーポイントのセットを同じように分散投票で選択することで,精度と効率性が向上できることを見出した。 これらの投票は回帰ネットワークによって学習され、キーポイントの位置の証拠を蓄積し、従来のヒューリスティックなキーポイントアルゴリズムよりも正確に回帰することができる。 提案するkeygnetは,wasserstein距離と分散値の両方の損失測定を併用し,対象物体の色と形状の特徴を学習し,最適なキーポイント位置を推定する。 KeyGNetが選択したキーポイントは、テストされた7つのデータセットのすべての評価指標の精度を3つのキーポイント投票法で改善した。 挑戦的なOcclusion LINEMODデータセットは、PVN3DでADD(S)を+16.4%改善し、すべてのコアBOPデータセットは、+1%から+21.5%までのすべてのオブジェクトに対してARの改善を示した。 また、単一オブジェクトからKeyGNetキーポイントを使用した複数オブジェクトトレーニングへの移行時のパフォーマンスも顕著に向上し、Occlusion LINEMODのSISO-MIMOギャップを排除した。

We investigate the impact of pre-defined keypoints for pose estimation, and found that accuracy and efficiency can be improved by training a graph network to select a set of disperse keypoints with similarly distributed votes. These votes, learned by a regression network to accumulate evidence for the keypoint locations, can be regressed more accurately compared to previous heuristic keypoint algorithms. The proposed KeyGNet, supervised by a combined loss measuring both Wassserstein distance and dispersion, learns the color and geometry features of the target objects to estimate optimal keypoint locations. Experiments demonstrate the keypoints selected by KeyGNet improved the accuracy for all evaluation metrics of all seven datasets tested, for three keypoint voting methods. The challenging Occlusion LINEMOD dataset notably improved ADD(S) by +16.4% on PVN3D, and all core BOP datasets showed an AR improvement for all objects, of between +1% and +21.5%. There was also a notable increase in performance when transitioning from single object to multiple object training using KeyGNet keypoints, essentially eliminating the SISO-MIMO gap for Occlusion LINEMOD.
翻訳日:2023-08-16 12:22:05 公開日:2023-08-15
# cerberus:リラクゼーション電圧曲線に基づくリチウムイオン電池の老化推定と予測のためのディープラーニングハイブリッドモデル

Cerberus: A Deep Learning Hybrid Model for Lithium-Ion Battery Aging Estimation and Prediction Based on Relaxation Voltage Curves ( http://arxiv.org/abs/2308.07824v1 )

ライセンス: Link先を確認
Yue Xiang, Bo Jiang, Haifeng Dai(参考訳) リチウムイオン電池の劣化過程は、電力源やエネルギー貯蔵装置としてライフサイクル全体と複雑に結びついており、性能供給やサイクリング利用といった側面を含んでいる。 その結果, リチウムイオン電池の経年劣化状態を正確に推定し, 予測することが注目されている。 それでも、一般的な研究は主に老化予測や予測に集中し、両方の面の動的融合を無視している。 本稿では, 蓄電・放電緩和過程から高度に経時的特徴を抽出した深層学習に基づくキャパシティエイジング推定と予測のためのハイブリッドモデルを提案する。 過去の容量減衰データを融合することにより、現在の容量の推定とリチウムイオン電池の将来の容量予測を動的に提供する。 提案手法は, チャージサイクルと放電サイクルを含む新しいデータセットに対して, 様々なレートで検証を行う。 具体的には、0.25Cの充電条件下では平均絶対パーセンテージ誤差(MAPE)が0.29%に達する。 この結果は、実世界でよく見られる緩和過程を活用し、電池管理システム(bms)内の歴史的容量記録と相乗効果を生かして、精度を高めて容量減少の推定と予測を可能にしたモデルの特徴を浮き彫りにする。

The degradation process of lithium-ion batteries is intricately linked to their entire lifecycle as power sources and energy storage devices, encompassing aspects such as performance delivery and cycling utilization. Consequently, the accurate and expedient estimation or prediction of the aging state of lithium-ion batteries has garnered extensive attention. Nonetheless, prevailing research predominantly concentrates on either aging estimation or prediction, neglecting the dynamic fusion of both facets. This paper proposes a hybrid model for capacity aging estimation and prediction based on deep learning, wherein salient features highly pertinent to aging are extracted from charge and discharge relaxation processes. By amalgamating historical capacity decay data, the model dynamically furnishes estimations of the present capacity and forecasts of future capacity for lithium-ion batteries. Our approach is validated against a novel dataset involving charge and discharge cycles at varying rates. Specifically, under a charging condition of 0.25C, a mean absolute percentage error (MAPE) of 0.29% is achieved. This outcome underscores the model's adeptness in harnessing relaxation processes commonly encountered in the real world and synergizing with historical capacity records within battery management systems (BMS), thereby affording estimations and prognostications of capacity decline with heightened precision.
翻訳日:2023-08-16 12:21:41 公開日:2023-08-15
# プロセス設計のための深層強化学習 : レビューと展望

Deep reinforcement learning for process design: Review and perspective ( http://arxiv.org/abs/2308.07822v1 )

ライセンス: Link先を確認
Qinghe Gao and Artur M. Schweidtmann(参考訳) 化学産業における再生可能エネルギーと飼料供給への転換は、新しい概念的プロセス設計アプローチを必要とする。 近年、人工知能のブレークスルーは、この移行を加速する機会を提供する。 具体的には、機械学習のサブクラスである深層強化学習は、複雑な意思決定問題を解決する可能性を示し、持続可能なプロセス設計を支援する。 プロセス設計における強化学習の最先端研究を3つの要素を通して調査する。 (i)情報表現 (ii)エージェントアーキテクチャ、及び (iii)環境と報酬。 さらに,化学工学におけるプロセス設計における強化学習の可能性について,基礎となる課題と今後の課題について考察する。

The transformation towards renewable energy and feedstock supply in the chemical industry requires new conceptual process design approaches. Recently, breakthroughs in artificial intelligence offer opportunities to accelerate this transition. Specifically, deep reinforcement learning, a subclass of machine learning, has shown the potential to solve complex decision-making problems and aid sustainable process design. We survey state-of-the-art research in reinforcement learning for process design through three major elements: (i) information representation, (ii) agent architecture, and (iii) environment and reward. Moreover, we discuss perspectives on underlying challenges and promising future works to unfold the full potential of reinforcement learning for process design in chemical engineering.
翻訳日:2023-08-16 12:21:19 公開日:2023-08-15
# 待ち行列システムにおける学習コストの定量化

Quantifying the Cost of Learning in Queueing Systems ( http://arxiv.org/abs/2308.07817v1 )

ライセンス: Link先を確認
Daniel Freund, Thodoris Lykouris, Wentao Weng(参考訳) キューシステムは、通信ネットワーク、医療、サービスシステムなどにおけるユースケースを備えた、広く適用可能な確率モデルである。 最適制御は広く研究されているが、既存のほとんどの手法はシステムパラメータの完全な知識を前提としている。 もちろん、パラメータの不確実性がある場合、この仮定はめったに成立しないため、待ち行列システムのバンディット学習に関する最近の作業が動機となっている。 この初期の研究の流れは、提案アルゴリズムの漸近的性能に焦点を当てている。 本稿では,後期の演奏に焦点を当てた漸近的メトリクスは,典型的には早期に発生する待ち行列システムにおける学習の内在的な統計的複雑さを捉えるには不十分である,と論じる。 代わりに、パラメータの不確実性に起因する平均待ち時間長の最大増加を定量化する新しい指標である、待ち時間学習コスト(CLQ)を提案する。 我々は、単一キューのマルチサーバシステムのclqを特徴付け、その結果をマルチキューのマルチサーバシステムとキューのネットワークに拡張する。 結果の確立にあたり,リアプノフとバンディット解析を橋渡しするclqの統一分析フレームワークを提案する。

Queueing systems are widely applicable stochastic models with use cases in communication networks, healthcare, service systems, etc. Although their optimal control has been extensively studied, most existing approaches assume perfect knowledge of system parameters. Of course, this assumption rarely holds in practice where there is parameter uncertainty, thus motivating a recent line of work on bandit learning for queueing systems. This nascent stream of research focuses on the asymptotic performance of the proposed algorithms. In this paper, we argue that an asymptotic metric, which focuses on late-stage performance, is insufficient to capture the intrinsic statistical complexity of learning in queueing systems which typically occurs in the early stage. Instead, we propose the Cost of Learning in Queueing (CLQ), a new metric that quantifies the maximum increase in time-averaged queue length caused by parameter uncertainty. We characterize the CLQ of a single-queue multi-server system, and then extend these results to multi-queue multi-server systems and networks of queues. In establishing our results, we propose a unified analysis framework for CLQ that bridges Lyapunov and bandit analysis, which could be of independent interest.
翻訳日:2023-08-16 12:21:09 公開日:2023-08-15
# ImbSAM: クラス不均衡認識におけるシャープネス認識の最小化について

ImbSAM: A Closer Look at Sharpness-Aware Minimization in Class-Imbalanced Recognition ( http://arxiv.org/abs/2308.07815v1 )

ライセンス: Link先を確認
Yixuan Zhou, Yi Qu, Xing Xu, Hengtao Shen(参考訳) クラス不均衡は、現実世界の認識タスクにおいて一般的な課題であり、ほとんどのクラスは、テールクラス(tail class)とも呼ばれるサンプルをほとんど持たない。 一般化の観点からこの問題に対処し、有望なSharpness-Aware Minimization (SAM) がクラス不均衡条件下での一般化問題に対処できないことを実証的に見出した。 この種のタスクを調査した結果,その一般化のボトルネックは,トレーニングデータに制限のあるテールクラスの過度なオーバーフィットにあることが判明した。 このボトルネックを克服するために、クラス非依存samの一般化範囲を制限するためにクラスプリエントを利用し、imbsam(imbalanced-sam)と呼ばれるクラスアウェアな滑らかさ最適化アルゴリズムを提案する。 クラス事前のガイダンスにより、ImbSAMはテールクラスをターゲットにした一般化を特に改善します。 また,クラス不均衡認識の2つの原型的応用であるlong-tailed classification と semi-supervised anomaly detection に対する imbsam の有効性を検証した。 私たちのコード実装はhttps://github.com/cool-xuan/imbalanced_samで利用可能です。

Class imbalance is a common challenge in real-world recognition tasks, where the majority of classes have few samples, also known as tail classes. We address this challenge with the perspective of generalization and empirically find that the promising Sharpness-Aware Minimization (SAM) fails to address generalization issues under the class-imbalanced setting. Through investigating this specific type of task, we identify that its generalization bottleneck primarily lies in the severe overfitting for tail classes with limited training data. To overcome this bottleneck, we leverage class priors to restrict the generalization scope of the class-agnostic SAM and propose a class-aware smoothness optimization algorithm named Imbalanced-SAM (ImbSAM). With the guidance of class priors, our ImbSAM specifically improves generalization targeting tail classes. We also verify the efficacy of ImbSAM on two prototypical applications of class-imbalanced recognition: long-tailed classification and semi-supervised anomaly detection, where our ImbSAM demonstrates remarkable performance improvements for tail classes and anomaly. Our code implementation is available at https://github.com/cool-xuan/Imbalanced_SAM.
翻訳日:2023-08-16 12:20:51 公開日:2023-08-15
# 連続量子計測電流の最初の通過時間

First Passage Times for Continuous Quantum Measurement Currents ( http://arxiv.org/abs/2308.07810v1 )

ライセンス: Link先を確認
Michael J. Kewming, Anthony Kiely, Steve Campbell, Gabriel T. Landi(参考訳) FPT(First Passage Time)は、確率過程が所望の閾値に達するのに要する時間である。 様々な分野に広く応用されており、近年は運動の不確実性関係(KURs)との関係から確率的熱力学において特に重要になっている。 本稿では,連続的に測定される量子系の場合の確率的測定電流のfptについて述べる。 提案手法は電荷検出の全数統計量に関連する電荷分解マスター方程式に基づいている。 量子ジャンプ (quantum jump unravelling) では、これはマスター方程式の結合系の形を取るが、量子拡散では量子フォッカー・プランク方程式の一種となる。 どちらの場合も、FPTは吸収境界条件を導入し、計算を極めて効率的にすることで得られることを示す。 フレームワークの汎用性は、2つの関連する例で示されています。 まず,最近提案するkursの量子ジャンプに対する密着性を調べるために,本手法をどのように利用するかを示す。 第2に、単層二層原子のホモダイン検出について検討し、FPT分布における様々な非自明な特徴を明らかにする方法を示す。

The First Passage Time (FPT) is the time taken for a stochastic process to reach a desired threshold. It finds wide application in various fields and has recently become particularly important in stochastic thermodynamics, due to its relation to kinetic uncertainty relations (KURs). In this letter we address the FPT of the stochastic measurement current in the case of continuously measured quantum systems. Our approach is based on a charge-resolved master equation, which is related to the Full-Counting statistics of charge detection. In the quantum jump unravelling we show that this takes the form of a coupled system of master equations, while for quantum diffusion it becomes a type of quantum Fokker-Planck equation. In both cases, we show that the FPT can be obtained by introducing absorbing boundary conditions, making their computation extremely efficient. The versatility of our framework is demonstrated with two relevant examples. First, we show how our method can be used to study the tightness of recently proposed KURs for quantum jumps. Second, we study the homodyne detection of a single two-level atom, and show how our approach can unveil various non-trivial features in the FPT distribution.
翻訳日:2023-08-16 12:20:29 公開日:2023-08-15
# 局所表面の自己調整的暗示表現に基づくグラフ転送

Grasp Transfer based on Self-Aligning Implicit Representations of Local Surfaces ( http://arxiv.org/abs/2308.07807v1 )

ライセンス: Link先を確認
Ahmet Tekden, Marc Peter Deisenroth, Yasemin Bekiroglu(参考訳) 私たちが操作し操作するオブジェクトは、共有機能のために柔軟にアクションを転送できるハンドルのような類似の部品を共有します。 本研究は,ロボットがこれまで遭遇した物体と形状の類似性を共有する新しい物体に,把握経験や実演を移す問題に対処する。 この問題を解決する既存のアプローチは、通常、特定の対象のカテゴリまたはパラメトリックな形状に限定される。 しかし,我々のアプローチは,対象カテゴリ間で共有される局所曲面の暗黙的モデルに関連する把握を伝達することができる。 具体的には,オブジェクトメッシュの小さなデータセットから暗黙的な局所的表面表現モデルを学ぶために,単一の専門家による把握デモを用いる。 推論時に、このモデルは、専門家が把握した面と最も幾何学的に類似した面を識別することで、新しい物体に把持を移すために使用される。 モデルは完全にシミュレーションで訓練され、トレーニング中に見えないシミュレーションや実世界のオブジェクトで評価されます。 評価の結果, シミュレーション実験と実世界実験の両方において, この手法による対象カテゴリーの把握が有効であることが示された。 シミュレーションの結果,提案手法は,ベースライン手法と比較して空間精度と把握精度が向上することが示された。

Objects we interact with and manipulate often share similar parts, such as handles, that allow us to transfer our actions flexibly due to their shared functionality. This work addresses the problem of transferring a grasp experience or a demonstration to a novel object that shares shape similarities with objects the robot has previously encountered. Existing approaches for solving this problem are typically restricted to a specific object category or a parametric shape. Our approach, however, can transfer grasps associated with implicit models of local surfaces shared across object categories. Specifically, we employ a single expert grasp demonstration to learn an implicit local surface representation model from a small dataset of object meshes. At inference time, this model is used to transfer grasps to novel objects by identifying the most geometrically similar surfaces to the one on which the expert grasp is demonstrated. Our model is trained entirely in simulation and is evaluated on simulated and real-world objects that are not seen during training. Evaluations indicate that grasp transfer to unseen object categories using this approach can be successfully performed both in simulation and real-world experiments. The simulation results also show that the proposed approach leads to better spatial precision and grasp accuracy compared to a baseline approach.
翻訳日:2023-08-16 12:20:09 公開日:2023-08-15
# 連合学習における公平性とプライバシーとその医療における意義

Fairness and Privacy in Federated Learning and Their Implications in Healthcare ( http://arxiv.org/abs/2308.07805v1 )

ライセンス: Link先を確認
Navya Annapareddy, Jade Preston, Judy Fox(参考訳) 現在、分散学習が困難である、あるいはセキュリティや通信の制限によって制約される、多くのコンテキストが存在する。 これが考慮される一般的なドメインのひとつは、医療において、データがHIPAAのようなデータ利用規則によって管理されることが多い。 一方、より大きなサンプルサイズと共有データモデルが必要であり、モデルがより可変性があり、表現不足のクラスが分散する可能性を考慮してより一般化することができる。 フェデレーション学習(federated learning)は、データを分散的にトレーニング可能な、分散学習モデルの一種である。 これは、データセキュリティ、プライバシ、脆弱性の考慮事項に対処する。データ自体が学習ネットワークノード間で共有されないからだ。 フェデレーション学習の3つの大きな課題は、ノードデータは独立ではなく、同一分散(iid)であり、ピア間の高いレベルの通信オーバーヘッドを必要とするクライアントであり、データセットのバイアスとサイズに関してネットワーク内の異なるクライアントの多様性がある。 分野が成長するにつれて、フェデレートラーニングにおける公平性の概念も新しい実装によって導入されている。 公正なアプローチは、標準化された学習の標準形式と異なり、医療領域に対して異なる課題と考察を持っている。 本稿では,研究におけるフェアフェデレーション学習の典型的なライフサイクルを概説するとともに,実装におけるフェアネスの現況を考慮に入れた最新の分類法を提案する。 最後に,医療分野における連帯学習における公平性の実現と支援の意義と課題について考察を加えた。

Currently, many contexts exist where distributed learning is difficult or otherwise constrained by security and communication limitations. One common domain where this is a consideration is in Healthcare where data is often governed by data-use-ordinances like HIPAA. On the other hand, larger sample sizes and shared data models are necessary to allow models to better generalize on account of the potential for more variability and balancing underrepresented classes. Federated learning is a type of distributed learning model that allows data to be trained in a decentralized manner. This, in turn, addresses data security, privacy, and vulnerability considerations as data itself is not shared across a given learning network nodes. Three main challenges to federated learning include node data is not independent and identically distributed (iid), clients requiring high levels of communication overhead between peers, and there is the heterogeneity of different clients within a network with respect to dataset bias and size. As the field has grown, the notion of fairness in federated learning has also been introduced through novel implementations. Fairness approaches differ from the standard form of federated learning and also have distinct challenges and considerations for the healthcare domain. This paper endeavors to outline the typical lifecycle of fair federated learning in research as well as provide an updated taxonomy to account for the current state of fairness in implementations. Lastly, this paper provides added insight into the implications and challenges of implementing and supporting fairness in federated learning in the healthcare domain.
翻訳日:2023-08-16 12:19:51 公開日:2023-08-15
# ガウス過程を用いたパワーフロー学習のためのグラフ構造カーネル設計

Graph-Structured Kernel Design for Power Flow Learning using Gaussian Processes ( http://arxiv.org/abs/2308.07867v1 )

ライセンス: Link先を確認
Parikshit Pareek, Deepjyoti Deka, and Sidhant Misra(参考訳) 本稿では,ガウス過程(GP)を用いた電力フロー学習のための物理インスピレーション付きグラフ構造化カーネルを提案する。 VDK (vertex-degree kernel) と呼ばれるカーネルは、ネットワークグラフやトポロジーに基づく電圧-注入関係の遅延分解に依存している。 特に、VDK設計では、カーネル探索の最適化問題を解く必要がなくなる。 効率を向上させるため、より少ない項でvdk表現を得るためのグラフリダクション手法も検討する。 さらに,VDKの学習を高速化するために,逐次学習入力をインテリジェントに選択するネットワークスワイプ型アクティブ学習手法を提案する。 vdkの付加構造を利用して、アクティブラーニングアルゴリズムはgpの予測分散に対してブロック・ディセント型手続きを実行し、情報ゲインのプロキシとして機能する。 シミュレーションにより,提案するvdk-gpは,中規模 500 バスと大規模 1354 バス電力系統のフル gp と比較して,2 倍以上の複雑化を実現した。 ネットワークスウィップアルゴリズムは,中規模500バスシステムでは2折り畳みテスト,大規模1354バスシステムでは25回のランダムトライアルでは10%の精度で,500ランダムトライアルの平均性能を上回っている。 さらに, 分布シフトテストデータセットを用いた不確実性定量化アプリケーションにおける提案手法の性能を示す。

This paper presents a physics-inspired graph-structured kernel designed for power flow learning using Gaussian Process (GP). The kernel, named the vertex-degree kernel (VDK), relies on latent decomposition of voltage-injection relationship based on the network graph or topology. Notably, VDK design avoids the need to solve optimization problems for kernel search. To enhance efficiency, we also explore a graph-reduction approach to obtain a VDK representation with lesser terms. Additionally, we propose a novel network-swipe active learning scheme, which intelligently selects sequential training inputs to accelerate the learning of VDK. Leveraging the additive structure of VDK, the active learning algorithm performs a block-descent type procedure on GP's predictive variance, serving as a proxy for information gain. Simulations demonstrate that the proposed VDK-GP achieves more than two fold sample complexity reduction, compared to full GP on medium scale 500-Bus and large scale 1354-Bus power systems. The network-swipe algorithm outperforms mean performance of 500 random trials on test predictions by two fold for medium-sized 500-Bus systems and best performance of 25 random trials for large-scale 1354-Bus systems by 10%. Moreover, we demonstrate that the proposed method's performance for uncertainty quantification applications with distributionally shifted testing data sets.
翻訳日:2023-08-16 12:11:52 公開日:2023-08-15
# 量子テンソルネットワークを用いたシーケンス処理

Sequence Processing with Quantum Tensor Networks ( http://arxiv.org/abs/2308.07865v1 )

ライセンス: Link先を確認
Carys Harvey, Richie Yeung, Konstantinos Meichanetzidis(参考訳) 本稿では,確率的グラフィカルモデル,解釈可能性,リソース圧縮に対応するシーケンス処理のための複雑なテンソルネットワークモデルを提案する。 帰納的バイアスはネットワークアーキテクチャを通じてモデルに導入され、データに固有の相関構造と関連する構成構造によって動機付けられ、木のような接続性をもたらす。 我々のモデルは、量子機械学習で広く使われているパラメータ化された量子回路を用いて、ヒルベルト空間を特徴空間として効果的に構築されている。 さらに、木のような構造のため、効率よく訓練できる。 本研究では,自然言語やバイオインフォマティクスに関連する実世界のデータセットから,長期的相関によって特徴付けられ,しばしば構文情報を備えたシーケンスのバイナリ分類を行うための実験結果を示す。 我々のモデルは量子プロセスとして有効な操作解釈を持つので、QuantinuumのH2-1トラップイオン量子プロセッサの実装を実証し、短期量子デバイス上での効率的なシーケンス処理の可能性を示す。 この研究は、近い将来の量子言語処理の最初のスケーラブルな実装であり、テンソル構造と構文前処理の役割を大規模に実験するためのツールを提供する。 最後に, 学習確率分布からのサンプリングは, 量子デバイス上で多項式速度アップによって行うことができるが, シミュレーションで効率的に訓練を行うことができるハイブリッドパイプラインにおける生成シーケンスモデリングの基礎となる手法を提案する。

We introduce complex-valued tensor network models for sequence processing motivated by correspondence to probabilistic graphical models, interpretability and resource compression. Inductive bias is introduced to our models via network architecture, and is motivated by the correlation structure inherent in the data, as well as any relevant compositional structure, resulting in tree-like connectivity. Our models are specifically constructed using parameterised quantum circuits, widely used in quantum machine learning, effectively using Hilbert space as a feature space. Furthermore, they are efficiently trainable due to their tree-like structure. We demonstrate experimental results for the task of binary classification of sequences from real-world datasets relevant to natural language and bioinformatics, characterised by long-range correlations and often equipped with syntactic information. Since our models have a valid operational interpretation as quantum processes, we also demonstrate their implementation on Quantinuum's H2-1 trapped-ion quantum processor, demonstrating the possibility of efficient sequence processing on near-term quantum devices. This work constitutes the first scalable implementation of near-term quantum language processing, providing the tools for large-scale experimentation on the role of tensor structure and syntactic priors. Finally, this work lays the groundwork for generative sequence modelling in a hybrid pipeline where the training may be conducted efficiently in simulation, while sampling from learned probability distributions may be done with polynomial speed-up on quantum devices.
翻訳日:2023-08-16 12:11:27 公開日:2023-08-15
# stylediffusion:拡散モデルによる制御可能な不連続型スタイル転送

StyleDiffusion: Controllable Disentangled Style Transfer via Diffusion Models ( http://arxiv.org/abs/2308.07863v1 )

ライセンス: Link先を確認
Zhizhong Wang, Lei Zhao, Wei Xing(参考訳) コンテンツとスタイル(C-S)の絡み合いは、スタイル転送の根本的な問題であり、重要な課題である。 明示的な定義(グラム行列など)や暗黙的な学習(GANなど)に基づく既存のアプローチは、解釈可能でも制御が容易でもなく、絡み合った表現となり、結果の満足度が低下する。 本稿では,従来の仮定を使わずに,スタイル転送のための新しいC-S不整合フレームワークを提案する。 鍵となる洞察は、コンテンツ情報を明示的に抽出し、補完的なスタイル情報を暗黙的に学習し、解釈可能で制御可能なC-S歪みとスタイル転送をもたらすことである。 また,CLIP画像空間内のC-Sをアンタングル化するために,従来のスタイル再構成と協調したシンプルなCLIPベースのスタイルのアンタングル化損失を導入する。 拡散モデルの強力なスタイル除去と生成能力をさらに活用することにより,最先端技術やフレキシブルなc-s異方性とトレードオフ制御よりも優れた結果が得られる。 本研究は,スタイル伝達におけるc-sの不連続性に関する新たな知見を提供し,c-s特性学習のための拡散モデルの可能性を示す。

Content and style (C-S) disentanglement is a fundamental problem and critical challenge of style transfer. Existing approaches based on explicit definitions (e.g., Gram matrix) or implicit learning (e.g., GANs) are neither interpretable nor easy to control, resulting in entangled representations and less satisfying results. In this paper, we propose a new C-S disentangled framework for style transfer without using previous assumptions. The key insight is to explicitly extract the content information and implicitly learn the complementary style information, yielding interpretable and controllable C-S disentanglement and style transfer. A simple yet effective CLIP-based style disentanglement loss coordinated with a style reconstruction prior is introduced to disentangle C-S in the CLIP image space. By further leveraging the powerful style removal and generative ability of diffusion models, our framework achieves superior results than state of the art and flexible C-S disentanglement and trade-off control. Our work provides new insights into the C-S disentanglement in style transfer and demonstrates the potential of diffusion models for learning well-disentangled C-S characteristics.
翻訳日:2023-08-16 12:11:05 公開日:2023-08-15
# 印象認識型推薦システム

Impression-Aware Recommender Systems ( http://arxiv.org/abs/2308.07857v1 )

ライセンス: Link先を確認
Fernando B. P\'erez Maurera, Maurizio Ferrari Dacrema, Pablo Castells, Paolo Cremonesi(参考訳) 新たなデータソースは、レコメンデーションシステムの品質を改善する新しい機会をもたらす。 インプレッション(インプレッション)は、過去のレコメンデーション(表示項目)と従来のインタラクションを含む、新しいデータソースである。 研究者はインプレッションを使ってユーザーの好みを洗練させ、推奨システム研究の現在の制限を克服することができる。 インプレッションの関連性と関心は年々高まっているため、この種のレコメンデーションに関する関連する作業のレビューの必要性が高まっている。 本稿では,レコメンダ,データセット,評価方法論の3つの基本的な角度に着目し,インプレッションを用いたレコメンダシステムに関する体系的文献レビューを行う。 本稿では,インプレッションを用いたレコメンデータの分類,レビューされた各論文の詳細な表示,インプレッション付きデータセットの記述,既存の評価手法の分析を行う。 最後に、オープン質問と今後の関心の方向を紹介し、将来の作品で対処できる文献に欠けている側面を強調する。

Novel data sources bring new opportunities to improve the quality of recommender systems. Impressions are a novel data source containing past recommendations (shown items) and traditional interactions. Researchers may use impressions to refine user preferences and overcome the current limitations in recommender systems research. The relevance and interest of impressions have increased over the years; hence, the need for a review of relevant work on this type of recommenders. We present a systematic literature review on recommender systems using impressions, focusing on three fundamental angles in research: recommenders, datasets, and evaluation methodologies. We provide three categorizations of papers describing recommenders using impressions, present each reviewed paper in detail, describe datasets with impressions, and analyze the existing evaluation methodologies. Lastly, we present open questions and future directions of interest, highlighting aspects missing in the literature that can be addressed in future works.
翻訳日:2023-08-16 12:10:44 公開日:2023-08-15
# フラックス量子ビットと伝送線路共振器のインダクティブ結合の高周波抑制

High-frequency suppression of inductive coupling between flux qubit and transmission line resonator ( http://arxiv.org/abs/2308.07849v1 )

ライセンス: Link先を確認
Sahel Ashhab, Ziqiao Ao, Fumiki Yoshihara, Kouichi Semba(参考訳) 伝送線路共振器(TLR)に誘導的に結合されたフラックス量子ビットからなる回路において、自然発生する高周波遮断を理論的に検討する。 結果は,類似した回路設計を考慮した過去の研究と一致した。 特に、qubitモードと高周波モードの間でデカップリングが発生する。 その結果、量子ビットモードと共振器モードの結合強度は、モード周波数$\omega$ as $\sqrt{\omega}$を低周波数で増加し、高周波数で1/\sqrt{\omega}$として減少する。 量子ビットの特性周波数におけるマルチモード共振器誘起ラムシフトの式を導出する。 量子ビットモードと高周波モードの自然な分離のため、ラムシフト正規化量子ビット周波数は有限である。

We perform theoretical calculations to investigate the naturally occurring high-frequency cutoff in a circuit comprising a flux qubit coupled inductively to a transmission line resonator (TLR). Our results agree with those of past studies that considered somewhat similar circuit designs. In particular, a decoupling occurs between the qubit and the high-frequency modes. As a result, the coupling strength between the qubit and resonator modes increases with mode frequency $\omega$ as $\sqrt{\omega}$ at low frequencies and decreases as $1/\sqrt{\omega}$ at high frequencies. We derive expressions for the multimode-resonator-induced Lamb shift in the qubit's characteristic frequency. Because of the natural decoupling between the qubit and high-frequency modes, the Lamb-shift-renormalized qubit frequency remains finite.
翻訳日:2023-08-16 12:10:29 公開日:2023-08-15
# 量子スピン系

Quantum Spin Systems ( http://arxiv.org/abs/2308.07848v1 )

ライセンス: Link先を確認
Amanda Young(参考訳) この研究は、概念、技術、性質、結果を含むギャップ付き量子スピンシステムの概要を提供する。 量子スピン系の基本的な枠組みと対象を導入し、フラストレーションのないモデルに対するスペクトルギャップを証明する方法の背景にある主要なアイデアを概説する。 いくつかのスペクトルギャップ予想の最近の進歩を振り返って、ハイゼンベルク力学の準局所性とガップ量子スピン系の特性の証明における有用性について論じる。 リーブ・ロビンソン境界は、基底状態相関の指数的減衰、一次元系の領域法則、多体断熱定理、スペクトルギャップ安定性を確立する上で中心的な役割を果たす。 また, 半断断熱連続体の開発にも寄与し, ギャップ状基底状態相の解明にも有用である。

This work provides an overview of gapped quantum spin systems, including concepts, techniques, properties, and results. The basic framework and objects of interest for quantum spin systems are introduced, and the main ideas behind methods for proving spectral gaps for frustration-free models are outlined. After reviewing recent progress on several spectral gap conjectures, we discuss quasi-locality of the Heisenberg dynamics and its utility in proving properties of gapped quantum spin systems. Lieb-Robinson bounds have played a central role in establishing exponential decay of ground state correlations, an area law for one-dimensional systems, a many-body adiabatic theorem, and spectral gap stability. They also aided in the development of the quasi-adiabatic continuation, which is a useful for investigating gapped ground state phases, both of which are also discussed.
翻訳日:2023-08-16 12:10:14 公開日:2023-08-15
# フォールトトレラント錯体

Fault-tolerant complexes ( http://arxiv.org/abs/2308.07844v1 )

ライセンス: Link先を確認
Hector Bombin, Chris Dawson, Terry Farrelly, Yehua Liu, Naomi Nickerson, Mihir Pant, Fernando Pastawski and Sam Roberts(参考訳) フォールトトレラント錯体は、単一の幾何学的対象からの表面コードフォールトトレラントプロトコルを記述する。 まず、表面符号に基づく核融合型量子コンピューティング(fbqc)のフォールトトレラントな量子プロトコルの一般ファミリーを定義する核融合錯体を紹介する。 各辺が4つの入射面を持つ任意の3次元セル複合体は、有効な融合複合体となることを示す。 この構成により, 耐故障性の自動探索が可能となり, 適度な探索時間で627個のサンプルを特定できる。 我々は、オープンソースのソフトウェアツールであるGavrogを用いてこれを実装し、様々なスキームのしきい値を示し、文献上に存在するものよりも高い消去率とパウリしきい値の融合ネットワークを見つける。 次に、回路ベースの計算、フロッケに基づく計算、マルチ量子ビット計測によるfbqcを含む、多くの低レベルエラーモデルからフォールトトレランスのホモロジー的記述を提供する、フォールトトレラントコンプレックスと呼ばれるより一般的な構造を定義する。 これにより、フォールトトレランスのホモロジー記述の適用性が拡張され、これまで特定されていなかった多くの新しいスキームの生成が可能になる。 また、カラーコードと3次元シングルショットサブシステムのためのフォールトトレラントコンプレックスのファミリーを定義し、同様のコンストラクティブメソッドを可能にし、それぞれに新しい例をいくつか提示する。

Fault-tolerant complexes describe surface-code fault-tolerant protocols from a single geometric object. We first introduce fusion complexes that define a general family of fusion-based quantum computing (FBQC) fault-tolerant quantum protocols based on surface codes. We show that any 3-dimensional cell complex where each edge has four incident faces gives a valid fusion complex. This construction enables an automated search for fault tolerance schemes, allowing us to identify 627 examples within a moderate search time. We implement this using the open-source software tool Gavrog and present threshold results for a variety of schemes, finding fusion networks with higher erasure and Pauli thresholds than those existing in the literature. We then define more general structures we call fault-tolerant complexes that provide a homological description of fault tolerance from a large family of low-level error models, which include circuit-based computation, floquet-based computation, and FBQC with multi-qubit measurements. This extends the applicability of homological descriptions of fault tolerance, and enables the generation of many new schemes which have not been previously identified. We also define families of fault-tolerant complexes for color codes and 3d single-shot subsystem codes, which enables similar constructive methods, and we present several new examples of each.
翻訳日:2023-08-16 12:09:59 公開日:2023-08-15
# dyadic 強化学習

Dyadic Reinforcement Learning ( http://arxiv.org/abs/2308.07843v1 )

ライセンス: Link先を確認
Shuangning Li, Lluis Salvat Niell, Sung Won Choi, Inbal Nahum-Shani, Guy Shani, Susan Murphy(参考訳) モバイルヘルスは、個人の日常生活に介入することで、健康上の成果を高めることを目的としている。 ケアパートナーやソーシャルサポートネットワークの関与は、個人が負担の多い医療状況を管理するのに不可欠である。 これは、社会的支援を強化することを目的として、ダイアド関係(対象者とケアパートナーの関係)をターゲットにした介入をデザインする機会を提供する。 本稿では,対象者とその介護パートナーの状況的要因と過去の対応に基づいて,介入配信をパーソナライズするオンライン強化学習アルゴリズムであるdyadic rlを開発した。 ここで、複数の介入セットは、複数の時間間隔にわたってdyadに影響を与える。 開発されたダイド RL はベイズ的かつ階層的である。 問題設定を正式に導入し, Dyadic RLを開発し, 後悔の束縛を確立する。 本研究は,モバイル健康調査で収集したデータから構築した,おもちゃのシナリオと現実的なテストベッドのシミュレーション研究を通じて,ダイアディッドRLの実証性能を実証する。

Mobile health aims to enhance health outcomes by delivering interventions to individuals as they go about their daily life. The involvement of care partners and social support networks often proves crucial in helping individuals managing burdensome medical conditions. This presents opportunities in mobile health to design interventions that target the dyadic relationship -- the relationship between a target person and their care partner -- with the aim of enhancing social support. In this paper, we develop dyadic RL, an online reinforcement learning algorithm designed to personalize intervention delivery based on contextual factors and past responses of a target person and their care partner. Here, multiple sets of interventions impact the dyad across multiple time intervals. The developed dyadic RL is Bayesian and hierarchical. We formally introduce the problem setup, develop dyadic RL and establish a regret bound. We demonstrate dyadic RL's empirical performance through simulation studies on both toy scenarios and on a realistic test bed constructed from data collected in a mobile health study.
翻訳日:2023-08-16 12:09:38 公開日:2023-08-15
# CCD-3DR : 単一画像3次元再構成のための拡散条件

CCD-3DR: Consistent Conditioning in Diffusion for Single-Image 3D Reconstruction ( http://arxiv.org/abs/2308.07837v1 )

ライセンス: Link先を確認
Yan Di, Chenyangguang Zhang, Pengyuan Wang, Guangyao Zhai, Ruida Zhang, Fabian Manhardt, Benjamin Busam, Xiangyang Ji, and Federico Tombari(参考訳) 本稿では,拡散モデルを用いて,単一のrgb画像にキャプチャされた物体に対して3次元スパース点雲を生成する新しい形状再構成法を提案する。 最近の手法では、大域的埋め込みや局所射影に基づく特徴を拡散モデルを導く条件として利用することが多い。 しかし、そのような戦略は、特定の画像と復調点雲を一貫して整列させることができず、不安定な条件付けと性能の低下につながる。 本稿では,一貫した局所特徴条件付けのための新しい中心拡散確率モデルを用いたCD-3DRを提案する。 我々は,拡散モデルからのノイズとサンプリングされた点雲を,前方拡散過程と逆過程の間に点雲中心が変化しない部分空間に制約する。 さらにstable point cloud centerは、各ポイントを対応するローカルプロジェクションベースの機能にアラインするアンカーとして機能する。 総合的なベンチマークであるShapeNet-R2N2による実験により、CCD-3DRは、40%以上の改善を伴い、全ての競合より優れた性能を示した。 また、実世界のアプリケーションにおけるCCD-3DRの可能性を徹底的に示すために、実世界のデータセットPix3Dに結果を提供する。 コードも間もなくリリースされる

In this paper, we present a novel shape reconstruction method leveraging diffusion model to generate 3D sparse point cloud for the object captured in a single RGB image. Recent methods typically leverage global embedding or local projection-based features as the condition to guide the diffusion model. However, such strategies fail to consistently align the denoised point cloud with the given image, leading to unstable conditioning and inferior performance. In this paper, we present CCD-3DR, which exploits a novel centered diffusion probabilistic model for consistent local feature conditioning. We constrain the noise and sampled point cloud from the diffusion model into a subspace where the point cloud center remains unchanged during the forward diffusion process and reverse process. The stable point cloud center further serves as an anchor to align each point with its corresponding local projection-based features. Extensive experiments on synthetic benchmark ShapeNet-R2N2 demonstrate that CCD-3DR outperforms all competitors by a large margin, with over 40% improvement. We also provide results on real-world dataset Pix3D to thoroughly demonstrate the potential of CCD-3DR in real-world applications. Codes will be released soon
翻訳日:2023-08-16 12:09:22 公開日:2023-08-15
# 単純かつ効率的な部分グラフ逆アタック : 新しい視点

Simple and Efficient Partial Graph Adversarial Attack: A New Perspective ( http://arxiv.org/abs/2308.07834v1 )

ライセンス: Link先を確認
Guanghui Zhu, Mengyu Chen, Chunfeng Yuan, and Yihua Huang(参考訳) グラフニューラルネットワークの研究がより集中的で包括的になるにつれて、その堅牢性とセキュリティは大きな研究関心を集めている。 既存のグローバルアタックメソッドは、グラフのすべてのノードを攻撃対象として扱う。 既存の手法は優れた成果を上げているが、改善の余地は十分ある。 鍵となる問題は、現在のアプローチがグローバルアタックの定義に厳格に従うことである。 それらは重要な問題を無視し、すなわち、異なるノードは異なる堅牢性を持ち、攻撃に対して等しく耐性がない。 グローバルアタッカーの視点では、高度に堅牢なノードを浪費するのではなく、攻撃予算を賢明に調整する必要がある。 そこで本研究では,攻撃対象として脆弱なノードを選択する部分グラフ攻撃(PGA)という全く新しい手法を提案する。 まず,脆弱性のある項目を選択するために,攻撃者が攻撃しやすいノードのみに集中できる階層的ターゲット選択ポリシーを提案する。 そこで本稿では,エッジの追加や削除に最も有望なアンカーを選択するための費用対効果の高いアンカーピッキングポリシと,より効率的な攻撃を行うためのより積極的な反復グリーディベースのアタック手法を提案する。 広範な実験結果から、pgaは他のグラフグローバル攻撃法と比較して攻撃効果と攻撃効率の両方において著しく改善できることが示されている。

As the study of graph neural networks becomes more intensive and comprehensive, their robustness and security have received great research interest. The existing global attack methods treat all nodes in the graph as their attack targets. Although existing methods have achieved excellent results, there is still considerable space for improvement. The key problem is that the current approaches rigidly follow the definition of global attacks. They ignore an important issue, i.e., different nodes have different robustness and are not equally resilient to attacks. From a global attacker's view, we should arrange the attack budget wisely, rather than wasting them on highly robust nodes. To this end, we propose a totally new method named partial graph attack (PGA), which selects the vulnerable nodes as attack targets. First, to select the vulnerable items, we propose a hierarchical target selection policy, which allows attackers to only focus on easy-to-attack nodes. Then, we propose a cost-effective anchor-picking policy to pick the most promising anchors for adding or removing edges, and a more aggressive iterative greedy-based attack method to perform more efficient attacks. Extensive experimental results demonstrate that PGA can achieve significant improvements in both attack effect and attack efficiency compared to other existing graph global attack methods.
翻訳日:2023-08-16 12:09:01 公開日:2023-08-15
# back to basics:現代の時系列分類アルゴリズムの健全性チェック

Back to Basics: A Sanity Check on Modern Time Series Classification Algorithms ( http://arxiv.org/abs/2308.07886v1 )

ライセンス: Link先を確認
Bhaskar Dhariyal, Thach Le Nguyen, Georgiana Ifrim(参考訳) 時系列分類の最先端は、1NN-DTWアルゴリズムからROCKET分類器ファミリーまで、長い道のりを経てきた。 しかし、新しい分類器の急速な開発では、一歩後退して単純なベースラインチェックを実行することが不可欠である。 研究者たちは最先端の成果を確立し、スケーラブルなアルゴリズムを開発し、モデルを説明可能にすることに重点を置いている。 それにもかかわらず、一見すると時系列のように見えるデータセットはたくさんあるが、時間順序付けのない表型メソッドのような古典的なアルゴリズムは、そのような問題に対してよりうまく機能するかもしれない。 例えば、分光データセットでは、表法が最近の時系列法を大幅に上回る傾向がある。 本研究では,従来の機械学習手法(リッジ,lda,ランダムフォレストなど)と,分類器(ロケット,ミニロケット,マルチロケットなど)のロケット群との比較を行った。 タブラルモデルは単純で非常に効率的であるが、ROCKETファミリーの分類器はより複雑であり、最近の時系列分類器では最先端の精度と効率を有する。 UCR/UEAベンチマークでは,約19%の単変量データセットと28%の多変量データセットでROCKET分類器群を上回り,約50%のデータセットで10ポイント以内の精度で精度が得られた。 本研究は,時系列分類器の開発において,単純な表モデルがベースラインであると考えることが重要であることを示唆する。 これらのモデルは、非常に高速で、より複雑なメソッドと同じくらい効果的で、理解やデプロイが容易です。

The state-of-the-art in time series classification has come a long way, from the 1NN-DTW algorithm to the ROCKET family of classifiers. However, in the current fast-paced development of new classifiers, taking a step back and performing simple baseline checks is essential. These checks are often overlooked, as researchers are focused on establishing new state-of-the-art results, developing scalable algorithms, and making models explainable. Nevertheless, there are many datasets that look like time series at first glance, but classic algorithms such as tabular methods with no time ordering may perform better on such problems. For example, for spectroscopy datasets, tabular methods tend to significantly outperform recent time series methods. In this study, we compare the performance of tabular models using classic machine learning approaches (e.g., Ridge, LDA, RandomForest) with the ROCKET family of classifiers (e.g., Rocket, MiniRocket, MultiRocket). Tabular models are simple and very efficient, while the ROCKET family of classifiers are more complex and have state-of-the-art accuracy and efficiency among recent time series classifiers. We find that tabular models outperform the ROCKET family of classifiers on approximately 19% of univariate and 28% of multivariate datasets in the UCR/UEA benchmark and achieve accuracy within 10 percentage points on about 50% of datasets. Our results suggest that it is important to consider simple tabular models as baselines when developing time series classifiers. These models are very fast, can be as effective as more complex methods and may be easier to understand and deploy.
翻訳日:2023-08-16 12:03:48 公開日:2023-08-15
# 深層学習を用いた胎児心MRI再建の課題

The Challenge of Fetal Cardiac MRI Reconstruction Using Deep Learning ( http://arxiv.org/abs/2308.07885v1 )

ライセンス: Link先を確認
Denis Prokopenko, Kerstin Hammernik, Thomas Roberts, David F A Lloyd, Daniel Rueckert, Joseph V Hajnal(参考訳) 動的自由呼吸型胎児心MRIは、胎児の心臓の急激な変化を示すために、高時間分解能と空間分解能を必要とする最も困難である。 深層学習によるアンサンプデータの復元能力は,kt-SENSE獲得戦略の最適化と非ゲートkt-SENSE再構築品質の向上に役立つ。 本研究では,kt-senseスタイル獲得データの再構成のために,広範囲なin vivoデータセットを用いた教師付き深層学習ネットワークについて検討する。 完全サンプリングされた低解像度マルチコイル胎児心MRIにアクセスし, アンダーサンプルデータから完全サンプリングされたデータを復元するネットワークの性能について検討した。 モデルアーキテクチャとトレーニング戦略を併用して、データセットの収集に使用される実際の臨床的な設定を考慮し、ネットワークが潜在的にアンサンプされたデータを復元できるようにする。 実データを用いた胎児心のダイナミックMRIのベースライン性能評価のための一連の修正について検討する。 コイル結合データを用いたモデルの評価を体系的に行い, 胎児心特性の文脈において, 提案する構造変化の影響を明らかにする。 本研究は,母体解剖の詳細な描写を大規模に再現するが,胎児心臓の動的特性は低発現であることを示す。 マルチコイルデータを直接トレーニングすることで、モデルの性能が向上し、将来的なアプリケーションがデータをアンサンプし、成人心血管MRIに導入されたCTFNetを上回っている。 しかし、これらのモデルは、母体が非常に良く回復するが、胎児の心臓の動的特性を過小評価する同様の質的パフォーマンスを提供する。 胎児の心臓の急速な変化のダイナミックな特徴は、よりターゲティングなトレーニングと評価方法の両方が胎児の心臓の応用に必要であることを示唆している。

Dynamic free-breathing fetal cardiac MRI is one of the most challenging modalities, which requires high temporal and spatial resolution to depict rapid changes in a small fetal heart. The ability of deep learning methods to recover undersampled data could help to optimise the kt-SENSE acquisition strategy and improve non-gated kt-SENSE reconstruction quality. In this work, we explore supervised deep learning networks for reconstruction of kt-SENSE style acquired data using an extensive in vivo dataset. Having access to fully-sampled low-resolution multi-coil fetal cardiac MRI, we study the performance of the networks to recover fully-sampled data from undersampled data. We consider model architectures together with training strategies taking into account their application in the real clinical setup used to collect the dataset to enable networks to recover prospectively undersampled data. We explore a set of modifications to form a baseline performance evaluation for dynamic fetal cardiac MRI on real data. We systematically evaluate the models on coil-combined data to reveal the effect of the suggested changes to the architecture in the context of fetal heart properties. We show that the best-performers recover a detailed depiction of the maternal anatomy on a large scale, but the dynamic properties of the fetal heart are under-represented. Training directly on multi-coil data improves the performance of the models, allows their prospective application to undersampled data and makes them outperform CTFNet introduced for adult cardiac cine MRI. However, these models deliver similar qualitative performances recovering the maternal body very well but underestimating the dynamic properties of fetal heart. This dynamic feature of fast change of fetal heart that is highly localised suggests both more targeted training and evaluation methods might be needed for fetal heart application.
翻訳日:2023-08-16 12:03:17 公開日:2023-08-15
# 仮面回帰をめざして--国連間の農業貿易を事例として

Towards Temporal Edge Regression: A Case Study on Agriculture Trade Between Nations ( http://arxiv.org/abs/2308.07883v1 )

ライセンス: Link先を確認
Lekang Jiang, Caiqi Zhang, Farimah Poursafaei, Shenyang Huang(参考訳) 近年,グラフニューラルネットワーク(GNN)は,ノード分類やリンク予測,グラフ回帰といった動的グラフのタスクにおいて,有望な性能を示している。 しかし、実世界の重要な応用である時間的エッジ回帰タスクの研究はほとんどない。 本稿では,国家間における食料・農業の貿易価値の予測に焦点をあて,静的および動的環境におけるエッジ回帰タスクへのGNNの適用について検討する。 我々は,3つの単純かつ強力なベースラインを導入し,UN Tradeデータセットを用いて静的かつ3つの動的GNNモデルを包括的に評価する。 実験結果から, ベースラインは様々な設定において極めて高い性能を示し, 既存のGNNの不十分さを浮き彫りにした。 また、TGNは他のGNNモデルよりも優れており、TGNがエッジ回帰タスクにおいてより適切な選択であることを示す。 さらに,トレーニングサンプル中の負のエッジの割合がテスト性能に大きく影響することに注目した。 関連ソースコードはhttps://github.com/scylj1/gnn_edge_regressionにある。

Recently, Graph Neural Networks (GNNs) have shown promising performance in tasks on dynamic graphs such as node classification, link prediction and graph regression. However, few work has studied the temporal edge regression task which has important real-world applications. In this paper, we explore the application of GNNs to edge regression tasks in both static and dynamic settings, focusing on predicting food and agriculture trade values between nations. We introduce three simple yet strong baselines and comprehensively evaluate one static and three dynamic GNN models using the UN Trade dataset. Our experimental results reveal that the baselines exhibit remarkably strong performance across various settings, highlighting the inadequacy of existing GNNs. We also find that TGN outperforms other GNN models, suggesting TGN is a more appropriate choice for edge regression tasks. Moreover, we note that the proportion of negative edges in the training samples significantly affects the test performance. The companion source code can be found at: https://github.com/scylj1/GNN_Edge_Regression.
翻訳日:2023-08-16 12:02:45 公開日:2023-08-15
# 1000万ドルのANAアバターXPRIZEコンペティション 没入型テレプレゼンスシステム

The $10 Million ANA Avatar XPRIZE Competition Advanced Immersive Telepresence Systems ( http://arxiv.org/abs/2308.07878v1 )

ライセンス: Link先を確認
Sven Behnke, Julie A. Adams and David Locke(参考訳) この$10m(1000万ドル)のana avatar xprizeは、人間の存在を遠隔地へリアルタイムで移動できるアバターシステムだ。 この複数年にわたるコンペの参加者たちは、オペレーターがリモート環境を、まるで本当にそこにいるかのように感じたり、聞いたり、対話したりできるロボットシステムを開発した。 一方,遠隔環境の人間にはアバターロボットの中にオペレータが存在するという印象が与えられていた。 2022年11月にカリフォルニア州ロングビーチで開催されたコンペティション決勝では、アバターシステムは人間とリモートで対話し、新しい環境を探究し、専門的なスキルを身につけることで評価された。 この記事では、タスクと評価手順による競争のステージを説明し、結果を報告し、勝利したチームのアプローチを示し、学んだ教訓について議論する。

The $10M ANA Avatar XPRIZE aimed to create avatar systems that can transport human presence to remote locations in real time. The participants of this multi-year competition developed robotic systems that allow operators to see, hear, and interact with a remote environment in a way that feels as if they are truly there. On the other hand, people in the remote environment were given the impression that the operator was present inside the avatar robot. At the competition finals, held in November 2022 in Long Beach, CA, USA, the avatar systems were evaluated on their support for remotely interacting with humans, exploring new environments, and employing specialized skills. This article describes the competition stages with tasks and evaluation procedures, reports the results, presents the winning teams' approaches, and discusses lessons learned.
翻訳日:2023-08-16 12:02:24 公開日:2023-08-15
# Codebook Knowledge, NLI, ChatGPTによる政治ゼロショット関係分類の合成

Synthesizing Political Zero-Shot Relation Classification via Codebook Knowledge, NLI, and ChatGPT ( http://arxiv.org/abs/2308.07876v1 )

ライセンス: Link先を確認
Yibo Hu, Erick Skorupa Parolin, Latifur Khan, Patrick T. Brandt, Javier Osorio, Vito J. D'Orazio(参考訳) イベント符号化における最近の教師付きモデルによるパターンマッチング法の性能向上 しかし、新しいアノテーションにのみ依存していることは、専門家データベースにおける膨大な知識を無視し、きめ細かい分類の適用性を妨げている。 これらの制限に対処するため,我々は,確立された注釈コードブックからの知識を活用し,政治イベントオントロジー関係分類のためのゼロショットアプローチを検討する。 本研究は,ChatGPTと新しい自然言語推論(NLI)に基づくアプローチであるZSPを包含する。 ZSPは、タスクをコンテキスト、モダリティ、クラス曖昧化レベルに分解するツリークエリフレームワークを採用している。 このフレームワークは、スキーマ変更の解釈性、効率性、適応性を改善する。 新たにキュレートしたデータセットに対して広範な実験を行うことで、ChatGPT内の不安定性問題を特定し、ZSPの優れたパフォーマンスを強調します。 ZSPは、きめ細かいRootcode分類のためのF1スコアを40%改善した。 ZSPは、教師付きBERTモデルと比較して競合性能を示し、イベントレコード検証とオントロジー開発のための貴重なツールとして位置づけている。 私たちの研究は、トランスファー学習と既存の専門知識を活用して、この分野の研究の効率と拡張性を高める可能性を強調しています。

Recent supervised models for event coding vastly outperform pattern-matching methods. However, their reliance solely on new annotations disregards the vast knowledge within expert databases, hindering their applicability to fine-grained classification. To address these limitations, we explore zero-shot approaches for political event ontology relation classification, by leveraging knowledge from established annotation codebooks. Our study encompasses both ChatGPT and a novel natural language inference (NLI) based approach named ZSP. ZSP adopts a tree-query framework that deconstructs the task into context, modality, and class disambiguation levels. This framework improves interpretability, efficiency, and adaptability to schema changes. By conducting extensive experiments on our newly curated datasets, we pinpoint the instability issues within ChatGPT and highlight the superior performance of ZSP. ZSP achieves an impressive 40% improvement in F1 score for fine-grained Rootcode classification. ZSP demonstrates competitive performance compared to supervised BERT models, positioning it as a valuable tool for event record validation and ontology development. Our work underscores the potential of leveraging transfer learning and existing expertise to enhance the efficiency and scalability of research in the field.
翻訳日:2023-08-16 12:02:09 公開日:2023-08-15
# SEDA:頑健な胸部X線分類のための防衛蒸留と対向訓練による自己組立型VT

SEDA: Self-Ensembling ViT with Defensive Distillation and Adversarial Training for robust Chest X-rays Classification ( http://arxiv.org/abs/2308.07874v1 )

ライセンス: Link先を確認
Raza Imam, Ibrahim Almakky, Salma Alrashdi, Baketah Alrashdi, Mohammad Yaqub(参考訳) ディープラーニングの手法は最近、医療画像アプリケーションへの採用が増加している。 しかし、近年のDeep Learningソリューションでは高度な脆弱性が調査されており、将来の採用を妨げる可能性がある。 特に、敵、プライバシー、機密性攻撃に対するViT(Vision Transformer)の脆弱性は、医療現場での信頼性に対する深刻な懸念を引き起こす。 本研究は,結核胸部X線分類作業における自己認識型ViTの堅牢性を高めることを目的としている。 防衛蒸留と防犯訓練(seda)を併用した自己センシングvitを提案する。 SEDAは効率の良いCNNブロックを用いて、中間VTブロックから抽出された特徴表現から様々なレベルの抽象的な空間的特徴を学習する。 さらに,SEDAは防御蒸留と併用して敵に対する堅牢性を向上する。 逆例を用いたトレーニングはより優れたモデル一般化可能性をもたらし、摂動を扱う能力を向上させる。 ソフト確率を用いた蒸留は出力確率に不確実性と変動をもたらし、敵意やプライバシ攻撃を難しくする。 提案したアーキテクチャとトレーニングパラダイムを併用した実験により,SEDAのSOTA効果をSEViTと比較し,70倍の軽量フレームワークで計算効率を向上し,強靭性を+9%向上させた。

Deep Learning methods have recently seen increased adoption in medical imaging applications. However, elevated vulnerabilities have been explored in recent Deep Learning solutions, which can hinder future adoption. Particularly, the vulnerability of Vision Transformer (ViT) to adversarial, privacy, and confidentiality attacks raise serious concerns about their reliability in medical settings. This work aims to enhance the robustness of self-ensembling ViTs for the tuberculosis chest x-ray classification task. We propose Self-Ensembling ViT with defensive Distillation and Adversarial training (SEDA). SEDA utilizes efficient CNN blocks to learn spatial features with various levels of abstraction from feature representations extracted from intermediate ViT blocks, that are largely unaffected by adversarial perturbations. Furthermore, SEDA leverages adversarial training in combination with defensive distillation for improved robustness against adversaries. Training using adversarial examples leads to better model generalizability and improves its ability to handle perturbations. Distillation using soft probabilities introduces uncertainty and variation into the output probabilities, making it more difficult for adversarial and privacy attacks. Extensive experiments performed with the proposed architecture and training paradigm on publicly available Tuberculosis x-ray dataset shows SOTA efficacy of SEDA compared to SEViT in terms of computational efficiency with 70x times lighter framework and enhanced robustness of +9%.
翻訳日:2023-08-16 12:01:49 公開日:2023-08-15
# Emotion Embeddings $\unicode{x2014}$ Learning Stable and Homogeneous Abstractions from Heterogeneous Affective Datasets

Emotion Embeddings $\unicode{x2014}$ Learning Stable and Homogeneous Abstractions from Heterogeneous Affective Datasets ( http://arxiv.org/abs/2308.07871v1 )

ライセンス: Link先を確認
Sven Buechel and Udo Hahn(参考訳) 人間の感情は多くのコミュニケーションモダリティやメディアフォーマットで表現されるため、その計算研究は自然言語処理、音声信号分析、コンピュータビジョン等に等しく多様化している。 同様に、以前の研究で感情(極性尺度、基本的な感情カテゴリ、次元的アプローチ、評価理論など)を記述するのに用いられた多種多様な表現形式は、データセット、予測モデル、感情分析のためのソフトウェアツールの多様化につながった。 これら2つの異なる異種性のため、表現的および表現的レベルでは、データやラベルの型を多様化する以前の作業を統合する必要がある。 本稿ではそのような統一計算モデルを提案する。 本稿では,感情の共有潜在表現,いわゆる感情埋め込み,異なる自然言語,コミュニケーションモダリティ,メディアや表現ラベル形式,さらには異なるモデルアーキテクチャを学習するトレーニング手順を提案する。 幅広い不均一な感情データセットに関する実験は、このアプローチが予測品質を損なうことなく、再利用性、解釈性、柔軟性のために望ましい相互運用性をもたらすことを示している。 コードとデータはhttps://doi.org/10.5281/zenodo.7405327でアーカイブされる。

Human emotion is expressed in many communication modalities and media formats and so their computational study is equally diversified into natural language processing, audio signal analysis, computer vision, etc. Similarly, the large variety of representation formats used in previous research to describe emotions (polarity scales, basic emotion categories, dimensional approaches, appraisal theory, etc.) have led to an ever proliferating diversity of datasets, predictive models, and software tools for emotion analysis. Because of these two distinct types of heterogeneity, at the expressional and representational level, there is a dire need to unify previous work on increasingly diverging data and label types. This article presents such a unifying computational model. We propose a training procedure that learns a shared latent representation for emotions, so-called emotion embeddings, independent of different natural languages, communication modalities, media or representation label formats, and even disparate model architectures. Experiments on a wide range of heterogeneous affective datasets indicate that this approach yields the desired interoperability for the sake of reusability, interpretability and flexibility, without penalizing prediction quality. Code and data are archived under https://doi.org/10.5281/zenodo.7405327 .
翻訳日:2023-08-16 12:01:27 公開日:2023-08-15
# 脳にインスパイアされた予測符号化による計算知能

Brain-Inspired Computational Intelligence via Predictive Coding ( http://arxiv.org/abs/2308.07870v1 )

ライセンス: Link先を確認
Tommaso Salvatori, Ankur Mali, Christopher L. Buckley, Thomas Lukasiewicz, Rajesh P. N. Rao, Karl Friston, Alexander Ororbia(参考訳) 人工知能(AI)は今世紀の主要な技術の一つになりつつある。 これまでのAIの結果の大部分は、エラーバックプロパゲーション学習アルゴリズムでトレーニングされたディープニューラルネットワークを使用して達成されている。 しかし、このアプローチのユビキタスな採用は、かなりの計算コスト、不確実性の定量化の難しさ、堅牢性の欠如、信頼性の欠如、生物学的不確実性など、いくつかの重要な制限を強調している。 これらの制限に対処するには、神経科学理論にインスパイアされ、導かれるスキームを必要とする可能性がある。 pcは異なる脳領域で情報処理をモデル化することができ、認知制御やロボティクスで使用でき、変分推論において堅固な数学的根拠を持ち、連続状態生成モデルの特定のクラスに対して強力な反転スキームを提供する。 この方向への先進的な研究を期待して、我々はこの視点に寄与した文献を調査し、PCが機械学習とコンピュータ知能の将来に果たす様々な役割を浮き彫りにした。

Artificial intelligence (AI) is rapidly becoming one of the key technologies of this century. The majority of results in AI thus far have been achieved using deep neural networks trained with the error backpropagation learning algorithm. However, the ubiquitous adoption of this approach has highlighted some important limitations such as substantial computational cost, difficulty in quantifying uncertainty, lack of robustness, unreliability, and biological implausibility. It is possible that addressing these limitations may require schemes that are inspired and guided by neuroscience theories. One such theory, called predictive coding (PC), has shown promising performance in machine intelligence tasks, exhibiting exciting properties that make it potentially valuable for the machine learning community: PC can model information processing in different brain areas, can be used in cognitive control and robotics, and has a solid mathematical grounding in variational inference, offering a powerful inversion scheme for a specific class of continuous-state generative models. With the hope of foregrounding research in this direction, we survey the literature that has contributed to this perspective, highlighting the many ways that PC might play a role in the future of machine learning and computational intelligence at large.
翻訳日:2023-08-16 12:01:01 公開日:2023-08-15
# デバイス依存およびデバイス非依存暗号におけるメモリ効果

Memory effects in device-dependent and device-independent cryptography ( http://arxiv.org/abs/2308.07869v1 )

ライセンス: Link先を確認
Ernest Y.-Z. Tan(参考訳) デバイスに依存しない暗号では、複数のプロトコルインスタンスにまたがるデバイスの再利用がメモリ攻撃に対する脆弱性を引き起こすことが知られている。 これは、デバイス依存のQKDに制限され、単一のプロトコルインスタンスしか考慮していないとしても、ラウンド間のメモリ効果は、デ・フィネッティの削減や相補性に基づく議論(例えば位相誤差の解析)など、既存の非IID証明技術の適用においてかなりの困難を引き起こす。 本稿では,これらの課題について,メモリ効果が許容された場合にセキュリティ証明を認めるプロトコルが安全性を損なうような,適切なシナリオを提示するとともに,測定結果に基づいて公開告知を行うDIQKDプロトコルに対する攻撃に対して,最近議論された接続を強調する。 この議論は、単一のプロトコルインスタンスであっても、メモリエフェクト(デバイス依存またはデバイス非依存のケース)の存在下でこれらのテクニックを適用するために対処する必要がある課題を示す。

In device-independent cryptography, it is known that reuse of devices across multiple protocol instances can introduce a vulnerability against memory attacks. This is an introductory note to highlight that even if we restrict ourselves to device-dependent QKD and only consider a single protocol instance, memory effects across rounds are enough to cause substantial difficulties in applying many existing non-IID proof techniques, such as de Finetti reductions and complementarity-based arguments (e.g. analysis of phase errors). We present a quick discussion of these issues, including some tailored scenarios where protocols admitting security proofs via those techniques become insecure when memory effects are allowed, and we highlight connections to recently discussed attacks on DIQKD protocols that have public announcements based on the measurement outcomes. This discussion indicates the challenges that would need to be addressed in order to apply those techniques in the presence of memory effects (for either the device-dependent or device-independent case), even for a single protocol instance.
翻訳日:2023-08-16 12:00:40 公開日:2023-08-15
# ObjectSDF++: オブジェクト合成ニューラルインシシトサーフェスの改善

ObjectSDF++: Improved Object-Compositional Neural Implicit Surfaces ( http://arxiv.org/abs/2308.07868v1 )

ライセンス: Link先を確認
Qianyi Wu, Kaisiyuan Wang, Kejie Li, Jianmin Zheng, Jianfei Cai(参考訳) 近年,多視点3次元再構成のパラダイムとして神経暗黙的表面再構成が注目されている。 従来の多視点ステレオアプローチとは異なり、ニューラルネットワークは3次元シーンを符号付き距離関数(SDF)として表現する。 しかし、シーン内の個々のオブジェクトの再構築を無視する傾向があるため、パフォーマンスと実用性が制限される。 この問題に対処するため、ObjectSDFは、個々のオブジェクトSDFを監督するために2Dインスタンスマスクを使用する、オブジェクト合成ニューラル暗黙表面の優れたフレームワークを導入した。 本稿ではObjectSDF++という新しいフレームワークを提案し,ObjectSDFの限界を克服する。 第一に、objectdfはセマンティクスフィールドの変換によって主に性能が制限されているのに対し、モデルの中核となるコンポーネントはオクルージョン認識オブジェクト不透明度レンダリング形式であり、オブジェクト不透明度を直接インスタンスマスクで監視する。 第2に,物体識別のための新しい正規化用語を設計し,衝突防止のための制約が欠如していることから,ObjectSDFが予期せぬ再設計をもたらすという問題を効果的に緩和する。 広範な実験により,新しい枠組みが優れたオブジェクト復元結果をもたらすだけでなく,シーン復元の質を著しく向上させることを示した。 コードとリソースは \url{https://qianyiwu.github.io/objectsdf++} にある。

In recent years, neural implicit surface reconstruction has emerged as a popular paradigm for multi-view 3D reconstruction. Unlike traditional multi-view stereo approaches, the neural implicit surface-based methods leverage neural networks to represent 3D scenes as signed distance functions (SDFs). However, they tend to disregard the reconstruction of individual objects within the scene, which limits their performance and practical applications. To address this issue, previous work ObjectSDF introduced a nice framework of object-composition neural implicit surfaces, which utilizes 2D instance masks to supervise individual object SDFs. In this paper, we propose a new framework called ObjectSDF++ to overcome the limitations of ObjectSDF. First, in contrast to ObjectSDF whose performance is primarily restricted by its converted semantic field, the core component of our model is an occlusion-aware object opacity rendering formulation that directly volume-renders object opacity to be supervised with instance masks. Second, we design a novel regularization term for object distinction, which can effectively mitigate the issue that ObjectSDF may result in unexpected reconstruction in invisible regions due to the lack of constraint to prevent collisions. Our extensive experiments demonstrate that our novel framework not only produces superior object reconstruction results but also significantly improves the quality of scene reconstruction. Code and more resources can be found in \url{https://qianyiwu.github.io/objectsdf++}
翻訳日:2023-08-16 12:00:21 公開日:2023-08-15
# 正規表現推論チャレンジ

The Regular Expression Inference Challenge ( http://arxiv.org/abs/2308.07899v1 )

ライセンス: Link先を確認
Mojtaba Valizadeh, Philip John Gorinski, Ignacio Iacobacci, Martin Berger(参考訳) 我々は、コード/言語モデリングの課題として、およびより広い機械学習コミュニティとして、 \emph{regular expression inference (rei)を提案する。 REIは教師付き機械学習(ML)とプログラム合成タスクであり、例から最小限の正規表現を見つける問題である: 2つの文字列の有限集合$P$と$N$とコスト関数$\text{cost}(\cdot)$が与えられたとき、そのタスクは、$P$のすべての文字列を受け入れて$N$のすべての文字列を拒否する式$r$を生成することであり、他のどの式$r'$も$\text{cost}(r')<\text{cost}(r)$と共に存在する。 reiには課題として利点があります (i)正規表現は、よく知られ、広く使用され、コードの自然な理想化である。 (II)REIの漸近的最悪のケースの複雑さはよく理解されている。 (iii)reiは、簡単なパラメータ(例えば、$p$または$n$の基数、例の文字列長、コスト関数など)を少数持っているので、これにより、レイハードネスを簡単に微調整することができます。 (iv)REIはディープラーニングベースのMLの未解決問題である。 近年,プログラム合成技術を用いたREIソルバがGPU上に実装されている。 これにより、複雑なREIインスタンス用の最小限の式を、初めて高速に生成できるようになった。 この進歩に基づいて、最初の大規模なREIデータセットを生成し、公開し、いくつかの初期ヒューリスティックおよび機械学習ベースラインを考案し、評価する。 私たちはコミュニティに、REI問題を解決するためのMLメソッドの参加と探索を依頼します。 私たちはREIの進歩が直接コード/言語モデリングに翻訳されると考えている。

We propose \emph{regular expression inference (REI)} as a challenge for code/language modelling, and the wider machine learning community. REI is a supervised machine learning (ML) and program synthesis task, and poses the problem of finding minimal regular expressions from examples: Given two finite sets of strings $P$ and $N$ and a cost function $\text{cost}(\cdot)$, the task is to generate an expression $r$ that accepts all strings in $P$ and rejects all strings in $N$, while no other such expression $r'$ exists with $\text{cost}(r')<\text{cost}(r)$. REI has advantages as a challenge problem: (i) regular expressions are well-known, widely used, and a natural idealisation of code; (ii) REI's asymptotic worst-case complexity is well understood; (iii) REI has a small number of easy to understand parameters (e.g.~$P$ or $N$ cardinality, string lengths of examples, or the cost function); this lets us easily finetune REI-hardness; (iv) REI is an unsolved problem for deep learning based ML. Recently, an REI solver was implemented on GPUs, using program synthesis techniques. This enabled, for the first time, fast generation of minimal expressions for complex REI instances. Building on this advance, we generate and publish the first large-scale datasets for REI, and devise and evaluate several initial heuristic and machine learning baselines. We invite the community to participate and explore ML methods that learn to solve REI problems. We believe that progress in REI directly translates to code/language modelling.
翻訳日:2023-08-16 11:53:32 公開日:2023-08-15
# 網膜の基礎言語画像モデル(flair) : テキスト監督における専門知識の符号化

A Foundation LAnguage-Image model of the Retina (FLAIR): Encoding expert knowledge in text supervision ( http://arxiv.org/abs/2308.07898v1 )

ライセンス: Link先を確認
Julio Silva-Rodriguez, Hadi Chakor, Riadh Kobbi, Jose Dolz and Ismail Ben Ayed(参考訳) ファンデーションビジョン言語モデルは、現在コンピュータビジョンを変容させており、非常に有望な一般化能力によって医療画像の進歩が加速している。 しかし、この新たなパラダイムを医用画像に移す試みは、重要なドメインシフトと医療画像タスクに固有の複雑な専門的ドメイン知識のために、他のドメインで見られるものよりも印象的なパフォーマンスが低い。 ドメインエキスパート基盤モデルの必要性に感銘を受けて,広義網膜眼底画像理解のための学習済み視覚言語モデルFLAIRを提案する。 この目的のために、37のオープンアクセスデータセットをコンパイルし、主に様々なソースから、97の異なる目標条件と284,660の画像を収集した。 我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合し、データの非形式的な分類的監督を強化する。 このような文献的専門家の知識は、関連する臨床文献やコミュニティ標準からまとめられ、病理の細かな特徴とそれらの間の階層や依存関係を記述している。 専門知識とFLAIRの強力な一般化能力を統合することのメリットを、ドメインシフトや見当たらないカテゴリの難しいシナリオ下での総合的な評価を報告する。 軽量リニアプローブに適応すると、FLAIRは、数発のレギュレーションにおいて、完全にトレーニングされたデータセット中心のモデルよりも優れています。 FLAIRは、専門家のドメイン知識と医療画像におけるジェネラリストモデルの限界を埋め込む可能性を強調する、より大規模な画像言語モデルよりも優れている。

Foundation vision-language models are currently transforming computer vision, and are on the rise in medical imaging fueled by their very promising generalization capabilities. However, the initial attempts to transfer this new paradigm to medical imaging have shown less impressive performances than those observed in other domains, due to the significant domain shift and the complex, expert domain knowledge inherent to medical-imaging tasks. Motivated by the need for domain-expert foundation models, we present FLAIR, a pre-trained vision-language model for universal retinal fundus image understanding. To this end, we compiled 37 open-access, mostly categorical fundus imaging datasets from various sources, with up to 97 different target conditions and 284,660 images. We integrate the expert's domain knowledge in the form of descriptive textual prompts, during both pre-training and zero-shot inference, enhancing the less-informative categorical supervision of the data. Such a textual expert's knowledge, which we compiled from the relevant clinical literature and community standards, describes the fine-grained features of the pathologies as well as the hierarchies and dependencies between them. We report comprehensive evaluations, which illustrate the benefit of integrating expert knowledge and the strong generalization capabilities of FLAIR under difficult scenarios with domain shifts or unseen categories. When adapted with a lightweight linear probe, FLAIR outperforms fully-trained, dataset-focused models, more so in the few-shot regimes. Interestingly, FLAIR outperforms by a large margin more generalist, larger-scale image-language models, which emphasizes the potential of embedding experts' domain knowledge and the limitations of generalist models in medical imaging.
翻訳日:2023-08-16 11:53:00 公開日:2023-08-15
# 自律材料研究のための確率的位相ラベリングと格子微細化

Probabilistic Phase Labeling and Lattice Refinement for Autonomous Material Research ( http://arxiv.org/abs/2308.07897v1 )

ライセンス: Link先を確認
Ming-Chiang Chang, Sebastian Ament, Maximilian Amsler, Duncan R. Sutherland, Lan Zhou, John M. Gregoire, Carla P. Gomes, R. Bruce van Dover, Michael O. Thompson(参考訳) X線回折(X-ray diffraction、XRD)は、高スループット実験において材料の結晶構造を決定する重要な技術であり、最近、自律的な科学的発見プロセスにおいて、人工知能エージェントに組み込まれている。 しかし,XRDデータの高速かつ自動かつ信頼性の高い解析手法は依然として大きな課題である。 これらの問題に対処するため, 位相空間情報やトレーニングを必要とせず, 位相結合の確率を推定するために, 対称性制約付き擬分極最適化, 最優先木探索, ベイズモデルを用いた確率論的XRD位相ラベリングアルゴリズムCrystalShiftを提案する。 crystalshiftは、合成および実験データセットの既存の手法を上回って、堅牢な確率推定を提供し、高スループットな実験ワークフローに容易に統合できることを実証する。 効率的な位相マッピングに加えて、クリスタルシフトは材料の構造パラメータに関する定量的な洞察を提供し、専門家による位相空間の評価とaiベースのモデリングを促進し、最終的に材料の識別と発見を加速する。

X-ray diffraction (XRD) is an essential technique to determine a material's crystal structure in high-throughput experimentation, and has recently been incorporated in artificially intelligent agents in autonomous scientific discovery processes. However, rapid, automated and reliable analysis method of XRD data matching the incoming data rate remains a major challenge. To address these issues, we present CrystalShift, an efficient algorithm for probabilistic XRD phase labeling that employs symmetry-constrained pseudo-refinement optimization, best-first tree search, and Bayesian model comparison to estimate probabilities for phase combinations without requiring phase space information or training. We demonstrate that CrystalShift provides robust probability estimates, outperforming existing methods on synthetic and experimental datasets, and can be readily integrated into high-throughput experimental workflows. In addition to efficient phase-mapping, CrystalShift offers quantitative insights into materials' structural parameters, which facilitate both expert evaluation and AI-based modeling of the phase space, ultimately accelerating materials identification and discovery.
翻訳日:2023-08-16 11:52:22 公開日:2023-08-15
# SciRE-Solver:再帰微分推定を用いたスコア積分解法による拡散確率モデルの効率的なサンプリング

SciRE-Solver: Efficient Sampling of Diffusion Probabilistic Models by Score-integrand Solver with Recursive Derivative Estimation ( http://arxiv.org/abs/2308.07896v1 )

ライセンス: Link先を確認
Shigui Li, Wei Chen, Delu Zeng(参考訳) diffusion probabilistic models (dpms) は高忠実度画像サンプルを生成する能力で知られる強力な生成モデルである。 DPMの実装における大きな課題は、遅いサンプリングプロセスである。 本研究では,DPMの高効率サンプリングを行う。 具体的には、DPMのサンプリングプロセスに対応する拡散ODEに対するスコアベース正確な解法パラダイムを提案し、拡散ODEを解くための数値アルゴリズムの開発に新たな視点を導入する。 効率的なサンプル作成を実現するために,再帰的微分推定 (rde) 法を提案する。 提案した解法パラダイムとRDE法を用いて,拡散ODEを解くための効率的な解法(SciRE-Solver)として収束順序保証を用いたスコア積分解法を提案する。 SciRE-Solverは、既存のトレーニング不要サンプリングアルゴリズムと比較して、離散時間および連続時間DPMのスコア関数評価(NFE)を限定して、最先端サンプリング性能を得る。 このようにして、CIFAR10上の連続DPMに対して、120ドルNFEで3.48ドルFID、20ドルNFEで2.42ドルFIDを得る。 他のサンプルと異なり、SciRE-Solverは、NFEがわずかに少ない事前訓練されたモデルのオリジナルの論文で達成されたFIDを超える有望な可能性を秘めている。 例えば、SOTA値が$2.40$、NFEが$100、FIDが$3.15$、CIFAR-10で$84$、FIDが$2.17$($2.02$)で$18$($50$)で$18$($50$)で$CelebA 64$\times$64である。

Diffusion probabilistic models (DPMs) are a powerful class of generative models known for their ability to generate high-fidelity image samples. A major challenge in the implementation of DPMs is the slow sampling process. In this work, we bring a high-efficiency sampler for DPMs. Specifically, we propose a score-based exact solution paradigm for the diffusion ODEs corresponding to the sampling process of DPMs, which introduces a new perspective on developing numerical algorithms for solving diffusion ODEs. To achieve an efficient sampler, we propose a recursive derivative estimation (RDE) method to reduce the estimation error. With our proposed solution paradigm and RDE method, we propose the score-integrand solver with the convergence order guarantee as efficient solver (SciRE-Solver) for solving diffusion ODEs. The SciRE-Solver attains state-of-the-art (SOTA) sampling performance with a limited number of score function evaluations (NFE) on both discrete-time and continuous-time DPMs in comparison to existing training-free sampling algorithms. Such as, we achieve $3.48$ FID with $12$ NFE and $2.42$ FID with $20$ NFE for continuous-time DPMs on CIFAR10, respectively. Different from other samplers, SciRE-Solver has the promising potential to surpass the FIDs achieved in the original papers of some pre-trained models with just fewer NFEs. For example, we reach SOTA value of $2.40$ FID with $100$ NFE for continuous-time DPM and of $3.15$ FID with $84$ NFE for discrete-time DPM on CIFAR-10, as well as of $2.17$ ($2.02$) FID with $18$ ($50$) NFE for discrete-time DPM on CelebA 64$\times$64.
翻訳日:2023-08-16 11:51:48 公開日:2023-08-15
# オンライン行動理解のためのメモリ・アンド・Anticipation Transformer

Memory-and-Anticipation Transformer for Online Action Understanding ( http://arxiv.org/abs/2308.07893v1 )

ライセンス: Link先を確認
Jiahao Wang, Guo Chen, Yifei Huang, Limin Wang, Tong Lu(参考訳) 既存の予測システムは、様々なメモリ機構を用いて人間の予測能力を模倣するメモリベースの手法であり、メモリ依存の時間的モデリングに進歩している。 それにもかかわらず、このパラダイムの明らかな弱点は、限られた歴史的依存しかモデル化できず、過去を超越できないことである。 本稿では,事象進化の時間的依存性を再考し,過去,現在,未来を含む時間的構造全体をモデル化する新しい記憶予測に基づくパラダイムを提案する。 この考え方に基づき、オンラインの行動検出と予測タスクに対処するために、メモリ予測に基づく手法であるメモリ・アンド・予測トランスフォーマ(mat)を提案する。 さらに、MATの本来の優位性のため、オンラインアクション検出および予測タスクを統一的に処理することができる。 提案したMATモデルは、オンラインアクション検出および予測タスクのために、TVSeries、THUMOS'14、HDD、EPIC-Kitchens-100の4つの挑戦的なベンチマークでテストされ、既存のすべてのメソッドよりも大幅に優れている。 コードはhttps://github.com/Echo0125/Memory-and-Anticipation-Transformerで入手できる。

Most existing forecasting systems are memory-based methods, which attempt to mimic human forecasting ability by employing various memory mechanisms and have progressed in temporal modeling for memory dependency. Nevertheless, an obvious weakness of this paradigm is that it can only model limited historical dependence and can not transcend the past. In this paper, we rethink the temporal dependence of event evolution and propose a novel memory-anticipation-based paradigm to model an entire temporal structure, including the past, present, and future. Based on this idea, we present Memory-and-Anticipation Transformer (MAT), a memory-anticipation-based approach, to address the online action detection and anticipation tasks. In addition, owing to the inherent superiority of MAT, it can process online action detection and anticipation tasks in a unified manner. The proposed MAT model is tested on four challenging benchmarks TVSeries, THUMOS'14, HDD, and EPIC-Kitchens-100, for online action detection and anticipation tasks, and it significantly outperforms all existing methods. Code is available at https://github.com/Echo0125/Memory-and-Anticipation-Transformer.
翻訳日:2023-08-16 11:50:59 公開日:2023-08-15
# 超低温原子系の真空エンタングルメントプローブ

Vacuum entanglement probes for ultra-cold atom systems ( http://arxiv.org/abs/2308.07892v1 )

ライセンス: Link先を確認
Cisco Gooding, Allison Sachs, Robert B. Mann, and Silke Weinfurtner(参考訳) 本研究は、超低温原子系から一対のパルスレーザービームへの非古典相関の移動を考察する。 非破壊的局所プローブ測定により,BECエンタングルメントのマッピングにおける破壊的手法に代わる手法を導入する。 超低温で動作し、レーザーをフォノンのunruh-dewitt検出器として、相対論的真空場をエミュレートする。 真空は内在的な絡み合いを持ち、遠方のプローブと短時間に相互作用する、いわゆる「絡み合い収穫」現象である。 本研究は, 第一に, 有効相対論的場とエンタングルメント収穫プロトコルとを相互作用する一対のパルスレーザープローブの数学的等価性を確立すること, 第二に, このプロトコルを超低温原子実験で実現するための潜在的および持続的障害を詳細に検討することである。

This study explores the transfer of nonclassical correlations from an ultra-cold atom system to a pair of pulsed laser beams. Through nondestructive local probe measurements, we introduce an alternative to destructive techniques for mapping BEC entanglement. Operating at ultralow temperatures, the setup emulates a relativistic vacuum field, using lasers as Unruh-DeWitt detectors for phonons. The vacuum holds intrinsic entanglement, transferable to distant probes briefly interacting with it - a phenomenon termed ``entanglement harvesting''. Our study accomplishes two primary objectives: first, establishing a mathematical equivalence between a pair of pulsed laser probes interacting with an effective relativistic field and the entanglement harvesting protocol; and second, to closely examine the potential and persisting obstacles for realising this protocol in an ultra-cold atom experiment.
翻訳日:2023-08-16 11:50:37 公開日:2023-08-15
# マルチモーダルLLMのためのリンクコンテキスト学習

Link-Context Learning for Multimodal LLMs ( http://arxiv.org/abs/2308.07891v1 )

ライセンス: Link先を確認
Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu(参考訳) コンテキストから新しい概念を学習し、適切な応答を提供する能力は、人間の会話に不可欠である。 現在のMLLM(Multimodal Large Language Models)やLLM(Large Language Models)は大規模データセットでトレーニングされているにもかかわらず、未確認の画像を認識したり、新しい概念をトレーニングなしで理解することは依然として課題である。 In-Context Learning (ICL)は、モデルに限定されたタスクから「学習する学習」を奨励し、目に見えないタスクに一般化させる訓練なしの少ショットラーニングを探求する。本研究では、MLLMの学習能力を増強する「原因と効果の推論」を強調するリンクコンテキストラーニング(LCL)を提案する。 LCLは、サポートセットとクエリセット間の因果関係を明示的に強化することで、従来のICLを超えています。 因果関係のデモンストレーションを提供することにより、LCLはモデルにアナロジーだけでなく、データポイント間の因果関係も識別し、MLLMが見えない画像を認識し、新しい概念をより効果的に理解できるようにする。 本手法の評価を容易にするために,リンク・コンテキスト学習用に設計された未確認画像ラベル対のみからなるISEKAIデータセットを提案する。 我々のLCL-MLLMはバニラMLLM上の新しい概念に強いリンクコンテキスト学習能力を示す。 コードとデータはhttps://github.com/isekai-portal/link-context-learningでリリースされる。

The ability to learn from context with novel concepts, and deliver appropriate responses are essential in human conversations. Despite current Multimodal Large Language Models (MLLMs) and Large Language Models (LLMs) being trained on mega-scale datasets, recognizing unseen images or understanding novel concepts in a training-free manner remains a challenge. In-Context Learning (ICL) explores training-free few-shot learning, where models are encouraged to ``learn to learn" from limited tasks and generalize to unseen tasks. In this work, we propose link-context learning (LCL), which emphasizes "reasoning from cause and effect" to augment the learning capabilities of MLLMs. LCL goes beyond traditional ICL by explicitly strengthening the causal relationship between the support set and the query set. By providing demonstrations with causal links, LCL guides the model to discern not only the analogy but also the underlying causal associations between data points, which empowers MLLMs to recognize unseen images and understand novel concepts more effectively. To facilitate the evaluation of this novel approach, we introduce the ISEKAI dataset, comprising exclusively of unseen generated image-label pairs designed for link-context learning. Extensive experiments show that our LCL-MLLM exhibits strong link-context learning capabilities to novel concepts over vanilla MLLMs. Code and data will be released at https://github.com/isekai-portal/Link-Context-Learning.
翻訳日:2023-08-16 11:50:22 公開日:2023-08-15
# EduSAT: ブール満足度の理論と応用のための教育ツール

EduSAT: A Pedagogical Tool for Theory and Applications of Boolean Satisfiability ( http://arxiv.org/abs/2308.07890v1 )

ライセンス: Link先を確認
Yiqi Zhao, Ziyan An, Meiyi Ma, Taylor Johnson(参考訳) Boolean Satisfiability (SAT) と Satisfiability Modulo Theories (SMT) は自動検証に広く用いられているが、この分野では教育目的で設計されたインタラクティブツールが不足している。 このギャップに対処するため,SAT と SMT の学習と理解を支援するために開発された教育ツールである EduSAT を提案する。 EduSATは、Davis-Putnam-Logemann-Loveland (DPLL)アルゴリズムやROBDD (Reduceed Order Binary Decision Diagram) などの鍵となるアルゴリズムの実装を提供している。 さらに、EduSATはSATとSMT以外の5つのNP完全問題に対するソルバ抽象化を提供する。 EduSATの利点は、SATとSMTの問題解決技術を実験、分析、検証することで得られる。 本ツールには,総合的なドキュメンテーションやチュートリアル,広範囲なテスト,自然言語インタフェースやSATおよびSMT式生成機能など,学習者の理解を深めるための貴重な機会を提供する。 EduSATの評価は、その精度を示し、実装されたSATおよびSMTソルバの100%精度を実現する。 私たちは.NETのpythonパッケージとしてEduSATをリリースします。 ソースはhttps://github.com/zhaoy37/SAT_Solver.wlファイルで確認できる。

Boolean Satisfiability (SAT) and Satisfiability Modulo Theories (SMT) are widely used in automated verification, but there is a lack of interactive tools designed for educational purposes in this field. To address this gap, we present EduSAT, a pedagogical tool specifically developed to support learning and understanding of SAT and SMT solving. EduSAT offers implementations of key algorithms such as the Davis-Putnam-Logemann-Loveland (DPLL) algorithm and the Reduced Order Binary Decision Diagram (ROBDD) for SAT solving. Additionally, EduSAT provides solver abstractions for five NP-complete problems beyond SAT and SMT. Users can benefit from EduSAT by experimenting, analyzing, and validating their understanding of SAT and SMT solving techniques. Our tool is accompanied by comprehensive documentation and tutorials, extensive testing, and practical features such as a natural language interface and SAT and SMT formula generators, which also serve as a valuable opportunity for learners to deepen their understanding. Our evaluation of EduSAT demonstrates its high accuracy, achieving 100% correctness across all the implemented SAT and SMT solvers. We release EduSAT as a python package in .whl file, and the source can be identified at https://github.com/zhaoy37/SAT_Solver.
翻訳日:2023-08-16 11:49:51 公開日:2023-08-15
# ルール学習に基づく関係パターンに埋め込まれた知識グラフに関する総合的研究

A Comprehensive Study on Knowledge Graph Embedding over Relational Patterns Based on Rule Learning ( http://arxiv.org/abs/2308.07889v1 )

ライセンス: Link先を確認
Long Jin, Zhen Yao, Mingyang Chen, Huajun Chen, Wen Zhang(参考訳) 知識グラフ埋め込み(KGE)は、知識グラフ補完(KGC)タスクを解決するための効果的なアプローチであることが証明されている。 グラフパターンを示す特定の意味論との関係を示す関係パターンは、KGEモデルの性能において重要な要素である。 KGEモデルの性能は理論上の異なる関係パターンに対して分析され、より優れた関係パターンモデリングとKGCの性能との粗い関係が構築されているが、関係パターンに対するKGEモデルに関する包括的な定量的分析はいまだに存在せず、関係パターンに対するKGEの理論的サポートが、そのような関係パターンに関連する三重項のパフォーマンスにどのように寄与するかは不明である。 この課題に対処するため、2つのベンチマークで4つの共通リレーショナルパターンに対して7つのKGEモデルの性能を評価し、理論、実体周波数、部分対全3側面の分析を行い、いくつかの直感的結論を得る。 最後に,KGEモデルの性能を様々なリレーショナルパターンに対して向上させるために,Score-based Patterns Adaptation (SPA) のトレーニングフリー手法を提案する。 このアプローチは単純だが効果的であり、追加のトレーニングなしでKGEモデルに適用できる。 実験の結果,本手法は特定の関係パターンよりも高い性能を示すことがわかった。 ソースコードはGitHubからhttps://github.com/zjukg/Comprehensive-Study-over-Relational-Patternsで入手可能です。

Knowledge Graph Embedding (KGE) has proven to be an effective approach to solving the Knowledge Graph Completion (KGC) task. Relational patterns which refer to relations with specific semantics exhibiting graph patterns are an important factor in the performance of KGE models. Though KGE models' capabilities are analyzed over different relational patterns in theory and a rough connection between better relational patterns modeling and better performance of KGC has been built, a comprehensive quantitative analysis on KGE models over relational patterns remains absent so it is uncertain how the theoretical support of KGE to a relational pattern contributes to the performance of triples associated to such a relational pattern. To address this challenge, we evaluate the performance of 7 KGE models over 4 common relational patterns on 2 benchmarks, then conduct an analysis in theory, entity frequency, and part-to-whole three aspects and get some counterintuitive conclusions. Finally, we introduce a training-free method Score-based Patterns Adaptation (SPA) to enhance KGE models' performance over various relational patterns. This approach is simple yet effective and can be applied to KGE models without additional training. Our experimental results demonstrate that our method generally enhances performance over specific relational patterns. Our source code is available from GitHub at https://github.com/zjukg/Comprehensive-Study-over-Relational-Patterns.
翻訳日:2023-08-16 11:49:26 公開日:2023-08-15
# 正則化ラドン-ニコディム微分について

On regularized Radon-Nikodym differentiation ( http://arxiv.org/abs/2308.07887v1 )

ライセンス: Link先を確認
Duc Hoan Nguyen and Werner Zellinger and Sergei V. Pereverzyev(参考訳) ラドン-ニコディム誘導体推定の問題点について考察する。 この問題は、共変量シフト適応、確率比テスト、相互情報推定、条件付き確率推定といった様々な応用で現れる。 上記の問題に対処するために、カーネルヒルベルト空間の再生に一般化正規化スキームを用いる。 対応する正規化アルゴリズムの収束速度は、微分の滑らかさと、それが推定される空間の容量の両方を考慮することによって決定される。 これは一般のソース条件と正規化されたクリストッフェル関数の観点から行われる。 また,ラドン-ニコディム誘導体の任意の点における再構成は高精度に行うことができることがわかった。 我々の理論結果は数値シミュレーションによって示される。

We discuss the problem of estimating Radon-Nikodym derivatives. This problem appears in various applications, such as covariate shift adaptation, likelihood-ratio testing, mutual information estimation, and conditional probability estimation. To address the above problem, we employ the general regularization scheme in reproducing kernel Hilbert spaces. The convergence rate of the corresponding regularized algorithm is established by taking into account both the smoothness of the derivative and the capacity of the space in which it is estimated. This is done in terms of general source conditions and the regularized Christoffel functions. We also find that the reconstruction of Radon-Nikodym derivatives at any particular point can be done with high order of accuracy. Our theoretical results are illustrated by numerical simulations.
翻訳日:2023-08-16 11:48:58 公開日:2023-08-15
# CoDeF:一時連続ビデオ処理のためのコンテンツ変形場

CoDeF: Content Deformation Fields for Temporally Consistent Video Processing ( http://arxiv.org/abs/2308.07926v1 )

ライセンス: Link先を確認
Hao Ouyang, Qiuyu Wang, Yuxi Xiao, Qingyan Bai, Juntao Zhang, Kecheng Zheng, Xiaowei Zhou, Qifeng Chen, Yujun Shen(参考訳) We present the content deformation field CoDeF as a new type of video representation, which consists of a canonical content field aggregating the static contents in the entire video and a temporal deformation field recording the transformations from the canonical image (i.e., rendered from the canonical content field) to each individual frame along the time axis.Given a target video, these two fields are jointly optimized to reconstruct it through a carefully tailored rendering pipeline.We advisedly introduce some regularizations into the optimization process, urging the canonical content field to inherit semantics (e.g., the object shape) from the video.With such a design, CoDeF naturally supports lifting image algorithms for video processing, in the sense that one can apply an image algorithm to the canonical image and effortlessly propagate the outcomes to the entire video with the aid of the temporal deformation field.We experimentally show that CoDeF is able to lift image-to-image translation to video-to-video translation and lift keypoint detection to keypoint tracking without any training.More importantly, thanks to our lifting strategy that deploys the algorithms on only one image, we achieve superior cross-frame consistency in processed videos compared to existing video-to-video translation approaches, and even manage to track non-rigid objects like water and smog.Project page can be found at https://qiuyu96.github.io/CoDeF/.

We present the content deformation field CoDeF as a new type of video representation, which consists of a canonical content field aggregating the static contents in the entire video and a temporal deformation field recording the transformations from the canonical image (i.e., rendered from the canonical content field) to each individual frame along the time axis.Given a target video, these two fields are jointly optimized to reconstruct it through a carefully tailored rendering pipeline.We advisedly introduce some regularizations into the optimization process, urging the canonical content field to inherit semantics (e.g., the object shape) from the video.With such a design, CoDeF naturally supports lifting image algorithms for video processing, in the sense that one can apply an image algorithm to the canonical image and effortlessly propagate the outcomes to the entire video with the aid of the temporal deformation field.We experimentally show that CoDeF is able to lift image-to-image translation to video-to-video translation and lift keypoint detection to keypoint tracking without any training.More importantly, thanks to our lifting strategy that deploys the algorithms on only one image, we achieve superior cross-frame consistency in processed videos compared to existing video-to-video translation approaches, and even manage to track non-rigid objects like water and smog.Project page can be found at https://qiuyu96.github.io/CoDeF/.
翻訳日:2023-08-16 11:43:39 公開日:2023-08-15
# 医療サービス提供者に対するパーソナライズ医療の経済性に関する調査--膀胱癌を事例として

Investigation Toward The Economic Feasibility of Personalized Medicine For Healthcare Service Providers: The Case of Bladder Cancer ( http://arxiv.org/abs/2308.07924v1 )

ライセンス: Link先を確認
Elizaveta Savchenko, Svetlana Bunimovich-Mendrazitsky(参考訳) 今日の複雑な医療現場では、複雑な経済力学をナビゲートしながら最適な患者ケアを提供することが、医療サービスプロバイダ(HSP)にとって大きな課題となっている。 この既に複雑なダイナミクスにおいて、臨床的に有望なパーソナライズされた医療ベースの治療の出現は、医学を革新することを目的としている。 パーソナライズされた医療は治療効果を高める大きな可能性を秘めているが、リソース制限されたHSPへの統合は深刻な課題を呈している。 本研究では,パーソナライズ医療の経済性について検討する。 主な目的は、個々の患者のニーズに応えることと経済的に実行可能な意思決定のバランスをとることである。 従来のパーソナライズ化アプローチとは異なり,パーソナライズをスペクトルとして扱うことにより,よりニュアンス的な視点を提案する。 このアプローチにより、意思決定とリソース割り当ての柔軟性が向上する。 そこで本研究では,膀胱癌(BC)を事例として,本提案を考察する数学的枠組みを提案する。 以上の結果から, パーソナライズドメディカル医療の導入は可能ではあるが, 高効率で高コストな医療は, より効果的で安価な代替手段に比べて短命であり, HSPの目的を最適化し, より大きなコホートを患者に提供できることが示唆された。

In today's complex healthcare landscape, the pursuit of delivering optimal patient care while navigating intricate economic dynamics poses a significant challenge for healthcare service providers (HSPs). In this already complex dynamics, the emergence of clinically promising personalized medicine based treatment aims to revolutionize medicine. While personalized medicine holds tremendous potential for enhancing therapeutic outcomes, its integration within resource-constrained HSPs presents formidable challenges. In this study, we investigate the economic feasibility of implementing personalized medicine. The central objective is to strike a balance between catering to individual patient needs and making economically viable decisions. Unlike conventional binary approaches to personalized treatment, we propose a more nuanced perspective by treating personalization as a spectrum. This approach allows for greater flexibility in decision-making and resource allocation. To this end, we propose a mathematical framework to investigate our proposal, focusing on Bladder Cancer (BC) as a case study. Our results show that while it is feasible to introduce personalized medicine, a highly efficient but highly expensive one would be short-lived relative to its less effective but cheaper alternative as the latter can be provided to a larger cohort of patients, optimizing the HSP's objective better.
翻訳日:2023-08-16 11:43:22 公開日:2023-08-15
# RAVEN:Retrieval Augmented Encoder-Decoder言語モデルによるインコンテキスト学習

RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models ( http://arxiv.org/abs/2308.07922v1 )

ライセンス: Link先を確認
Jie Huang, Wei Ping, Peng Xu, Mohammad Shoeybi, Kevin Chen-Chuan Chang, Bryan Catanzaro(参考訳) 本稿では,検索強化エンコーダ・デコーダ言語モデルのコンテキスト内学習能力について検討する。 まず,現在最先端のATLASモデルを包括的に分析し,事前学習とテストのミスマッチや制限された文脈長によるコンテキスト内学習の限界を同定する。 これらの問題に対処するために,検索強化マスキング言語モデリングとプレフィックス言語モデリングを組み合わせたモデルであるRAVENを提案する。 さらに,追加のトレーニングやモデル修正を必要とせずに,モデルがコンテキスト内サンプルを活用することを可能にすることで,限定的なパフォーマンス向上を実現するために,fusion-in-context learningも導入する。 大規模な実験を通じて、RAVENはATLASを著しく上回り、パラメータがかなり少ないにもかかわらず、特定のシナリオにおいて最も高度な言語モデルに匹敵する結果が得られることを示した。 本研究は,テキスト内学習のための検索強化エンコーダデコーダ言語モデルの可能性を強調し,さらなる研究を促進する。

In this paper, we investigate the in-context learning ability of retrieval-augmented encoder-decoder language models. We first conduct a comprehensive analysis of the state-of-the-art ATLAS model and identify its limitations in in-context learning, primarily due to a mismatch between pretraining and testing, as well as a restricted context length. To address these issues, we propose RAVEN, a model that combines retrieval-augmented masked language modeling and prefix language modeling. We further introduce Fusion-in-Context Learning to enhance the few-shot performance by enabling the model to leverage more in-context examples without requiring additional training or model modifications. Through extensive experiments, we demonstrate that RAVEN significantly outperforms ATLAS and achieves results comparable to the most advanced language models in certain scenarios, despite having substantially fewer parameters. Our work underscores the potential of retrieval-augmented encoder-decoder language models for in-context learning and encourages further research in this direction.
翻訳日:2023-08-16 11:42:57 公開日:2023-08-15
# GPT-4コードインタープリタとコードによる自己検証による単語問題の解法

Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-based Self-Verification ( http://arxiv.org/abs/2308.07921v1 )

ライセンス: Link先を確認
Aojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo, Zipeng Qin, Shaoqing Lu, Anya Jia, Linqi Song, Mingjie Zhan, Hongsheng Li(参考訳) GPT-4やPaLM-2のような大規模言語モデル(LLM)の最近の進歩は、数学推論問題に対処する上で大きな進歩をもたらした。 特に、OpenAIのGPT-4の最新バージョンであるGPT-4 Code Interpreterは、挑戦的な数学データセットにおいて顕著なパフォーマンスを示している。 本稿では, GPT-4 Code Interpreter の \textit{Code Usage Frequency} に異なる制約を導入することで, LLM の推論能力向上に対するコードの効果を検討する。 その成功は、コードの生成と実行、コード実行のアウトプットの評価、そして不合理なアウトプットを受け取る際のソリューションの修正において、その強力なスキルに大きく影響することを発見した。 そこで本研究では, GPT-4 符号解釈器の数学的推論可能性を高めるために, 明示的な \uline{c}ode-based \uline{s}elf-\uline{v}erification~(CSV)を提案する。 この方法は GPT-4 Code Interpreter にゼロショットプロンプトを使い、コードを使って答えを自己検証する。 検証状態が ``false''' として登録されている場合、モデルは自動的にその解を修正しなければならない。 さらに、検証結果の状態がソリューションの信頼度を示し、多数決の有効性を向上させることができることを認識した。 GPT-4 Code Interpreter と CSV を用いて、MATH データセット \textbf{(53.9\% $\to$ 84.3\%)} 上で、印象的なゼロショット精度を実現する。

Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has brought significant advancements in addressing math reasoning problems. In particular, OpenAI's latest version of GPT-4, known as GPT-4 Code Interpreter, shows remarkable performance on challenging math datasets. In this paper, we explore the effect of code on enhancing LLMs' reasoning capability by introducing different constraints on the \textit{Code Usage Frequency} of GPT-4 Code Interpreter. We found that its success can be largely attributed to its powerful skills in generating and executing code, evaluating the output of code execution, and rectifying its solution when receiving unreasonable outputs. Based on this insight, we propose a novel and effective prompting method, explicit \uline{c}ode-based \uline{s}elf-\uline{v}erification~(CSV), to further boost the mathematical reasoning potential of GPT-4 Code Interpreter. This method employs a zero-shot prompt on GPT-4 Code Interpreter to encourage it to use code to self-verify its answers. In instances where the verification state registers as ``False'', the model shall automatically amend its solution, analogous to our approach of rectifying errors during a mathematics examination. Furthermore, we recognize that the states of the verification result indicate the confidence of a solution, which can improve the effectiveness of majority voting. With GPT-4 Code Interpreter and CSV, we achieve an impressive zero-shot accuracy on MATH dataset \textbf{(53.9\% $\to$ 84.3\%)}.
翻訳日:2023-08-16 11:42:39 公開日:2023-08-15
# ヘルプハンド:オブジェクト認識型エゴ中心ビデオ認識モデル

Helping Hands: An Object-Aware Ego-Centric Video Recognition Model ( http://arxiv.org/abs/2308.07918v1 )

ライセンス: Link先を確認
Chuhan Zhang, Ankush Gupta, Andrew Zisserman(参考訳) 本稿では,エゴ中心ビデオにおける時空間表現の性能向上を目的としたオブジェクト認識デコーダを提案する。 キーとなるアイデアは、モデルに手の位置、オブジェクトの位置、および、ペアキャプションを使用してオブジェクトの意味ラベルを予測するように指示することで、トレーニング中のオブジェクト認識を高めることである。 推論時には、モデルは入力としてRGBフレームしか必要とせず、オブジェクトの追跡とグラウンドが可能である(ただし、これは明示的に訓練されていない)。 我々は,本モデルで学習したオブジェクト認識表現の性能を示す。 (i)数多くの下流ビデオテキスト検索・分類ベンチマークにおいて、強力な転送、すなわちゼロショットテストにより評価すること。 (ii)長期映像理解タスク(例えば、ego4dにおけるエピソディックメモリ)の入力として学習された表現を用いて いずれの場合も、非常に大きなバッチサイズでトレーニングされたネットワークと比較しても、パフォーマンスは最先端に向上します。 また,学習中の疑似ラベルとして雑音画像レベル検出を用いることで,映像の一貫性を利用した境界ボックスの改善や,関連するテキスト記述の単語のグラウンド化が実現することを示す。 全体として、このモデルがエゴ中心のビデオモデルのドロップイン代替として機能し、視覚テキストのグラウンド化による性能向上を図っている。

We introduce an object-aware decoder for improving the performance of spatio-temporal representations on ego-centric videos. The key idea is to enhance object-awareness during training by tasking the model to predict hand positions, object positions, and the semantic label of the objects using paired captions when available. At inference time the model only requires RGB frames as inputs, and is able to track and ground objects (although it has not been trained explicitly for this). We demonstrate the performance of the object-aware representations learnt by our model, by: (i) evaluating it for strong transfer, i.e. through zero-shot testing, on a number of downstream video-text retrieval and classification benchmarks; and (ii) by using the representations learned as input for long-term video understanding tasks (e.g. Episodic Memory in Ego4D). In all cases the performance improves over the state of the art -- even compared to networks trained with far larger batch sizes. We also show that by using noisy image-level detection as pseudo-labels in training, the model learns to provide better bounding boxes using video consistency, as well as grounding the words in the associated text descriptions. Overall, we show that the model can act as a drop-in replacement for an ego-centric video model to improve performance through visual-text grounding.
翻訳日:2023-08-16 11:42:08 公開日:2023-08-15
# 高thresholdおよび低オーバヘッドフォールトトレラント量子メモリ

High-threshold and low-overhead fault-tolerant quantum memory ( http://arxiv.org/abs/2308.07915v1 )

ライセンス: Link先を確認
Sergey Bravyi, Andrew W. Cross, Jay M. Gambetta, Dmitri Maslov, Patrick Rall, and Theodore J. Yoder(参考訳) 量子誤差補正は、物理誤差率が特定の量子コード、シンドローム測定回路、復号アルゴリズムに依存するしきい値以下である場合に限り、実用的な可能性となる。 本稿では、標準回路ベースノイズモデルに対して、誤り閾値が0.8\%のLDPC符号のファミリに基づいて、フォールトトレラントメモリを実装したエンドツーエンドの量子誤り訂正プロトコルを提案する。 これは、20年近くにわたって高いエラーしきい値の点で、未証明のリーダのままである表面コードと同等です。 われわれの家族では、長さn$のコードに対する完全なシンドロームの測定サイクルは、n$アンシラリーキュービットと最寄りのcnotゲートからなる深さ7回路を必要とする。 必要となるqubit接続は、2つのエッジ非結合平面グラフからなる次数6グラフである。 具体的な例として、論理量子ビットは288の物理量子ビットを用いて1000万のシンドロームサイクルで保存可能であり、物理エラーレートは0.1\%$である。 我々は、表面コードで12の論理キュービットで同じレベルのエラー抑制を達成するには4000以上の物理キュービットが必要であると主張している。 我々の発見は、短期量子プロセッサの範囲内で、低オーバーヘッドのフォールトトレラント量子メモリのデモンストレーションをもたらす。

Quantum error correction becomes a practical possibility only if the physical error rate is below a threshold value that depends on a particular quantum code, syndrome measurement circuit, and a decoding algorithm. Here we present an end-to-end quantum error correction protocol that implements fault-tolerant memory based on a family of LDPC codes with a high encoding rate that achieves an error threshold of $0.8\%$ for the standard circuit-based noise model. This is on par with the surface code which has remained an uncontested leader in terms of its high error threshold for nearly 20 years. The full syndrome measurement cycle for a length-$n$ code in our family requires $n$ ancillary qubits and a depth-7 circuit composed of nearest-neighbor CNOT gates. The required qubit connectivity is a degree-6 graph that consists of two edge-disjoint planar subgraphs. As a concrete example, we show that 12 logical qubits can be preserved for ten million syndrome cycles using 288 physical qubits in total, assuming the physical error rate of $0.1\%$. We argue that achieving the same level of error suppression on 12 logical qubits with the surface code would require more than 4000 physical qubits. Our findings bring demonstrations of a low-overhead fault-tolerant quantum memory within the reach of near-term quantum processors.
翻訳日:2023-08-16 11:41:47 公開日:2023-08-15
# 60原子アナログ量子シミュレータによる高絡み合い状態のベンチマーク

Benchmarking highly entangled states on a 60-atom analog quantum simulator ( http://arxiv.org/abs/2308.07914v1 )

ライセンス: Link先を確認
Adam L. Shaw, Zhuo Chen, Joonhee Choi, Daniel K. Mark, Pascal Scholl, Ran Finkelstein, Andreas Elben, Soonwon Choi, Manuel Endres(参考訳) 量子システムは、古典的なコンピュータが高度に絡み合った量子状態を表す近似をしなければならない競争体制に入った。 しかし、この超古典的な状況下では、量子系と古典系の忠実度比較は今のところデジタル量子デバイスに限られており、実験の実際の絡み合い量を推定する方法は未解決のままである。 ここでは60原子のアナログRydberg量子シミュレータを用いて、忠実度ベンチマークと混合状態エンタングルメント推定を行い、正確な古典シミュレーションが非現実的な高エンタングルメントエントロピー状態に達する。 私たちのベンチマークプロトコルは、エンタングルメント制限が変化する多くの近似古典アルゴリズムとの比較による外挿を含む。 次に,実験結果の混合状態の絡み合いを推定し,ランダム回路進化を行う最先端のディジタル量子デバイスとの競合性を見出した。 最後に、様々な古典的アルゴリズムによって達成された実験の忠実度を比較し、ここで紹介する1つだけが、我々が採用する古典的ハードウェアの実験に追随できることを示す。 以上の結果から,アナログおよびデジタル量子デバイスの性能評価のための新たなパラダイムが実現され,量子システムと古典システムとの相違が強調された。

Quantum systems have entered a competitive regime where classical computers must make approximations to represent highly entangled quantum states. However, in this beyond-classically-exact regime, fidelity comparisons between quantum and classical systems have so far been limited to digital quantum devices, and it remains unsolved how to estimate the actual entanglement content of experiments. Here we perform fidelity benchmarking and mixed-state entanglement estimation with a 60-atom analog Rydberg quantum simulator, reaching a high entanglement entropy regime where exact classical simulation becomes impractical. Our benchmarking protocol involves extrapolation from comparisons against many approximate classical algorithms with varying entanglement limits. We then develop and demonstrate an estimator of the experimental mixed-state entanglement, finding our experiment is competitive with state-of-the-art digital quantum devices performing random circuit evolution. Finally, we compare the experimental fidelity against that achieved by various approximate classical algorithms, and find that only one, which we introduce here, is able to keep pace with the experiment on the classical hardware we employ. Our results enable a new paradigm for evaluating the performance of both analog and digital quantum devices in the beyond-classically-exact regime, and highlight the evolving divide between quantum and classical systems.
翻訳日:2023-08-16 11:41:24 公開日:2023-08-15
# 構成可能な原子鎖と原子空洞相互作用の操作

Manipulating Atom-Cavity Interactions with Configurable Atomic Chains ( http://arxiv.org/abs/2308.07908v1 )

ライセンス: Link先を確認
Xinwei Li, Yijia Zhou, Hao Zhang(参考訳) 1次元原子鎖に結合した2つの縮退した対向伝播モードからなるリングキャビティについて検討し、双方向光散乱を導出する。 構造因子によって説明される原子鎖の空間的構成は、原子-キャビティ相互作用の操作や集合励起モードの形成において重要な役割を果たす。 顕著なことに、原子間隔が半波長の整数倍である場合、空洞ダークモードが誘導される。 この定在波ダークモードのノードは原子位置と正確に一致し、自由空間散乱なしでキャビティ内フィールド変換を可能にする。 原子鎖の構成を調整することで、光子損失がほとんどなく、広いチューニング範囲を持つ光モード変換を実現し、量子技術における様々な実用的な応用に適している。

We investigate a ring cavity comprising two degenerate counter-propagating modes coupled to a one-dimensional atomic chain, leading to bidirectional light scattering. The spatial configuration of the atomic chain, described by a structure factor, plays a crucial role in manipulation of the atom-cavity interactions and formation of the collective excitation modes. Remarkably, we observe that a cavity dark mode is induced when the atomic spacing is an integer multiple of half-wavelength. The nodes of this standing-wave dark mode align precisely with the atomic positions, enabling intracavity field conversion without free space scattering. By adjusting the configuration of the atomic chain, we realize optical mode conversion with almost no photon loss and a broad tuning range, making it suitable for various practical applications in quantum technologies.
翻訳日:2023-08-16 11:41:00 公開日:2023-08-15
# スパースビュービデオによるリフレッシュでアニメーション可能なニューラルネットワークアバター

Relightable and Animatable Neural Avatar from Sparse-View Video ( http://arxiv.org/abs/2308.07903v1 )

ライセンス: Link先を確認
Zhen Xu, Sida Peng, Chen Geng, Linzhan Mou, Zihan Yan, Jiaming Sun, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では,未知の照明下での動的人間のスパースビュー(あるいは単眼)ビデオから,再現可能でアニメーション可能なニューラルネットワークアバターを作成するという課題に挑戦する。 スタジオ環境と比較すると、この設定はより実用的でアクセスしやすいが、非常に難しい問題となる。 従来のニューラル・ヒューマン・リコンストラクション法は、変形した符号付き距離場(SDF)を用いてスパースビューからアニマタブル・アバターを再構築するが、リライトのための材料パラメータを回復することはできない。 微分可能な逆レンダリングベースの手法は静的オブジェクトのマテリアルリカバリに成功しているが、それを動的人間に拡張するのは容易ではない。 この課題を解決するために,任意のポーズ下での世界空間距離を近似する階層的距離クエリ(hdq)アルゴリズムを提案する。 具体的には, パラメトリック人体モデルに基づいて粗い距離を推定し, sdfの局所変形不変性を利用して細距離を計算する。 hdqアルゴリズムに基づき、球面追跡を利用して、表面の交点と光の可視性を効率的に推定する。 これにより、スパースビュー(またはモノクラー)入力からアニマタブルでリライトブルなニューラルアバターを回収する最初のシステムを開発することができる。 実験により,最先端手法と比較して優れた結果が得られることを示した。 私たちのコードは再現性のためにリリースされます。

This paper tackles the challenge of creating relightable and animatable neural avatars from sparse-view (or even monocular) videos of dynamic humans under unknown illumination. Compared to studio environments, this setting is more practical and accessible but poses an extremely challenging ill-posed problem. Previous neural human reconstruction methods are able to reconstruct animatable avatars from sparse views using deformed Signed Distance Fields (SDF) but cannot recover material parameters for relighting. While differentiable inverse rendering-based methods have succeeded in material recovery of static objects, it is not straightforward to extend them to dynamic humans as it is computationally intensive to compute pixel-surface intersection and light visibility on deformed SDFs for inverse rendering. To solve this challenge, we propose a Hierarchical Distance Query (HDQ) algorithm to approximate the world space distances under arbitrary human poses. Specifically, we estimate coarse distances based on a parametric human model and compute fine distances by exploiting the local deformation invariance of SDF. Based on the HDQ algorithm, we leverage sphere tracing to efficiently estimate the surface intersection and light visibility. This allows us to develop the first system to recover animatable and relightable neural avatars from sparse view (or monocular) inputs. Experiments demonstrate that our approach is able to produce superior results compared to state-of-the-art methods. Our code will be released for reproducibility.
翻訳日:2023-08-16 11:40:46 公開日:2023-08-15
# コアコンピテンシーのレンズを通して:大規模言語モデルの評価に関する調査

Through the Lens of Core Competency: Survey on Evaluation of Large Language Models ( http://arxiv.org/abs/2308.07902v1 )

ライセンス: Link先を確認
Ziyu Zhuang, Qiguang Chen, Longxuan Ma, Mingda Li, Yi Han, Yushan Qian, Haopeng Bai, Zixian Feng, Weinan Zhang, Ting Liu(参考訳) 事前学習された言語モデル(PLM)から大規模言語モデル(LLM)まで、自然言語処理(NLP)の分野は、パフォーマンスの急激な向上と幅広い実用的利用を目撃してきた。 研究分野の評価は、その改善の方向性を導く。 しかし、LSMは2つの理由から徹底的に評価することが極めて困難である。 第一に、従来のNLPタスクはLLMの優れた性能のために不十分になる。 第二に、既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。 これらの問題に対処するため、既存の研究はLSMをよりよく評価するための様々なベンチマークを提案した。 学術・産業両分野における多岐にわたる評価課題を明らかにするため, LLM評価に関する複数の論文について検討した。 LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。 すべての能力に対して、その定義、対応するベンチマーク、メトリクスを導入します。 この能力アーキテクチャでは、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。 最後に,LLMの評価の今後の方向性について提案する。

From pre-trained language model (PLM) to large language model (LLM), the field of natural language processing (NLP) has witnessed steep performance gains and wide practical uses. The evaluation of a research field guides its direction of improvement. However, LLMs are extremely hard to thoroughly evaluate for two reasons. First of all, traditional NLP tasks become inadequate due to the excellent performance of LLM. Secondly, existing evaluation tasks are difficult to keep up with the wide range of applications in real-world scenarios. To tackle these problems, existing works proposed various benchmarks to better evaluate LLMs. To clarify the numerous evaluation tasks in both academia and industry, we investigate multiple papers concerning LLM evaluations. We summarize 4 core competencies of LLM, including reasoning, knowledge, reliability, and safety. For every competency, we introduce its definition, corresponding benchmarks, and metrics. Under this competency architecture, similar tasks are combined to reflect corresponding ability, while new tasks can also be easily added into the system. Finally, we give our suggestions on the future direction of LLM's evaluation.
翻訳日:2023-08-16 11:40:17 公開日:2023-08-15