このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230923となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ゲーム・オブ・トラベスティ:プロアクティブなエージェントに対するデコイベースの心理学的サイバー詐欺
Game of Travesty: Decoy-based Psychological Cyber Deception for Proactive Human Agents ( http://arxiv.org/abs/2309.13403v1 ) ライセンス: Link先を確認 | Yinan Hu, Quanyan Zhu, | (参考訳) サイバー詐欺の概念が注目されている。
サイバー防衛偽装技術の発達には、認知科学が重要な役割を果たす学際的な作業が必要である。
本研究では, インサイダー攻撃(IA)と戦うための量子決定理論を用いて, 人間の意思決定の認知バイアスを生かしたサイバー防御偽装プロトコルを開発するために, ディフェンダーと人間のエージェント間のシグナリングゲームフレームワークを採用する。
ディフェンダーは、内部の人間の攻撃者を騙して、人間の攻撃者の精神状態を操作する古典的な信号の知覚を生成するジェネレータを介してデコイセンサーにアクセスする。
この結果から,従来のトラフィックデータを変更することなく,内部攻撃者に対する防御性能が低下する可能性が示唆された。
提案された枠組みは、より効果的なシグナリングスキームを設計する上での基本的な理論に繋がる。
The concept of cyber deception has been receiving emerging attention. The development of cyber defensive deception techniques requires interdisciplinary work, among which cognitive science plays an important role. In this work, we adopt a signaling game framework between a defender and a human agent to develop a cyber defensive deception protocol that takes advantage of the cognitive biases of human decision-making using quantum decision theory to combat insider attacks (IA). The defender deceives an inside human attacker by luring him to access decoy sensors via generators producing perceptions of classical signals to manipulate the human attacker's psychological state of mind. Our results reveal that even without changing the classical traffic data, strategically designed generators can result in a worse performance for defending against insider attackers in identifying decoys than the ones in the deceptive scheme without generators, which generate random information based on input signals. The proposed framework leads to fundamental theories in designing more effective signaling schemes. | 翻訳日:2024-03-19 04:01:03 公開日:2023-09-23 |
# O-RANアーキテクチャにおける移動目標防御に基づくセキュアネットワークスライシングシステム
Moving Target Defense based Secured Network Slicing System in the O-RAN Architecture ( http://arxiv.org/abs/2309.13444v1 ) ライセンス: Link先を確認 | Mojdeh Karbalaee Motalleb, Chafika Benzaïd, Tarik Taleb, Vahid Shah-Mansouri, | (参考訳) オープン無線アクセスネットワーク(O-RAN)アーキテクチャのネイティブ仮想化と組み込みインテリジェンスにより、RANスライシングが促進され、ポスト5Gネットワークにおける包括的なエンドツーエンドサービスが可能になる。
しかし、脆弱性はセキュリティを害する可能性がある。
したがって、人工知能(AI)と機械学習(ML)のセキュリティ脅威は、O-RANのメリットを脅かすこともできる。
本稿では,O-RANアーキテクチャにおける動的サービス入出力制御と電力最小化のためのセキュアなAI/ML手法に対処しながら,スライス毎のVNFの最適数を推定する新しい手法を提案する。
本研究では、大規模で予め定義されたVNF数を決定する数学的手法と、動的サービス入出力制御の解法であるPPO(Pep Reinforcement Learning Algorithm)を用いて、小規模で異なるスライスに対する電力最小化を行う。
O-RANのMLシステムを確保するため,我々は移動目標防衛(MTD)戦略を導入し,システムに不確実性を加えることで中毒攻撃を防止する。
実験の結果,提案手法は80 %以上の入場率を達成するとともに,MTD 戦略は PPO 手法の敵攻撃に対する堅牢性を効果的に強化することを示した。
The open radio access network (O-RAN) architecture's native virtualization and embedded intelligence facilitate RAN slicing and enable comprehensive end-to-end services in post-5G networks. However, any vulnerabilities could harm security. Therefore, artificial intelligence (AI) and machine learning (ML) security threats can even threaten O-RAN benefits. This paper proposes a novel approach to estimating the optimal number of predefined VNFs for each slice while addressing secure AI/ML methods for dynamic service admission control and power minimization in the O-RAN architecture. We solve this problem on two-time scales using mathematical methods for determining the predefined number of VNFs on a large time scale and the proximal policy optimization (PPO), a Deep Reinforcement Learning algorithm, for solving dynamic service admission control and power minimization for different slices on a small-time scale. To secure the ML system for O-RAN, we implement a moving target defense (MTD) strategy to prevent poisoning attacks by adding uncertainty to the system. Our experimental results show that the proposed PPO-based service admission control approach achieves an admission rate above 80\% and that the MTD strategy effectively strengthens the robustness of the PPO method against adversarial attacks. | 翻訳日:2024-03-19 04:01:03 公開日:2023-09-23 |
# Stratosphere: 脆弱性のあるクラウドストレージバケットを見つける
Stratosphere: Finding Vulnerable Cloud Storage Buckets ( http://arxiv.org/abs/2309.13496v1 ) ライセンス: Link先を確認 | Jack Cable, Drew Gregory, Liz Izhikevich, Zakir Durumeric, | (参考訳) 設定ミスのクラウドストレージバケットは、数億の医療、投票者、顧客記録をリークした。
これらの違反は、簡単に操作可能なバケット名とエラーが発生しやすいセキュリティ設定を組み合わせることで、攻撃者が機密データを簡単に推測してアクセスできるようにするためである。
本研究では,バケットのセキュリティについて検討し,従来の研究がクラウドのセキュリティを過小評価してきたことを明らかにする。
パスワード分析の分野での事前の作業を活用することで、脆弱なバケットの名前を効率的に推測するために、バケットが実際にどのように命名されているかを学習するシステムであるStratosphereを導入する。
Stratosphereを使用することで、バケットと脆弱な構成の広範な利用が、長年にわたって増加し続けています。
オペレータ、研究者、クラウドプロバイダの推奨で締めくくります。
Misconfigured cloud storage buckets have leaked hundreds of millions of medical, voter, and customer records. These breaches are due to a combination of easily-guessable bucket names and error-prone security configurations, which, together, allow attackers to easily guess and access sensitive data. In this work, we investigate the security of buckets, finding that prior studies have largely underestimated cloud insecurity by focusing on simple, easy-to-guess names. By leveraging prior work in the password analysis space, we introduce Stratosphere, a system that learns how buckets are named in practice in order to efficiently guess the names of vulnerable buckets. Using Stratosphere, we find wide-spread exploitation of buckets and vulnerable configurations continuing to increase over the years. We conclude with recommendations for operators, researchers, and cloud providers. | 翻訳日:2024-03-19 03:51:14 公開日:2023-09-23 |
# 分散レジャー技術のコンセンサスアルゴリズム - 包括的解析
Consensus Algorithms of Distributed Ledger Technology -- A Comprehensive Analysis ( http://arxiv.org/abs/2309.13498v1 ) ライセンス: Link先を確認 | Ahmad J. Alkhodair, Saraju P. Mohanty, Elias Kougianos, | (参考訳) すべての分散Ledger Technology(DLT)の最も重要なコンポーネントはConsensus Algorithm(CA)である。
多数のCAが存在するが、特定のアプリケーションに対するその生存可能性が異なるため、DLTを特定の分野で実装する際には、トレードオフが考慮すべき重要な要素となる。
この記事では、分散台帳技術(DLT)とブロックチェーンネットワークで使用されるさまざまなコンセンサスアルゴリズムを包括的に分析する。
我々は30のコンセンサスアルゴリズムを網羅する。
ハードウェア要件、事前トラストレベル、トレランスレベルなどを含む11の属性を使用して、これらのコンセンサスアルゴリズムを評価する一連の比較表を生成する。
さらに、あるコンセンサスアルゴリズムのカテゴリであるDLT分類について論じ、認証に焦点をあてたDLTとデータ保存に焦点をあてたDLTの例を示す。
さらに,特定コンセンサスアルゴリズムの長所と短所,例えばNominateed Proof of Stake (NPoS), Bonded Proof of Stake (BPoS), Avalancheを解析した。
結論として,これらのコンセンサスアルゴリズムがサプライチェーン管理,インテリジェントトランスポートシステム,スマートヘルスケアなど,様々なサイバー物理システム(CPS)のユースケースに適用可能であることを論じる。
The most essential component of every Distributed Ledger Technology (DLT) is the Consensus Algorithm (CA), which enables users to reach a consensus in a decentralized and distributed manner. Numerous CA exist, but their viability for particular applications varies, making their trade-offs a crucial factor to consider when implementing DLT in a specific field. This article provided a comprehensive analysis of the various consensus algorithms used in distributed ledger technologies (DLT) and blockchain networks. We cover an extensive array of thirty consensus algorithms. Eleven attributes including hardware requirements, pre-trust level, tolerance level, and more, were used to generate a series of comparison tables evaluating these consensus algorithms. In addition, we discuss DLT classifications, the categories of certain consensus algorithms, and provide examples of authentication-focused and data-storage-focused DLTs. In addition, we analyze the pros and cons of particular consensus algorithms, such as Nominated Proof of Stake (NPoS), Bonded Proof of Stake (BPoS), and Avalanche. In conclusion, we discuss the applicability of these consensus algorithms to various Cyber Physical System (CPS) use cases, including supply chain management, intelligent transportation systems, and smart healthcare. | 翻訳日:2024-03-19 03:51:14 公開日:2023-09-23 |
# トリック・ミー:Honeypotが分散取引所を狙う理由
Why Trick Me: The Honeypot Traps on Decentralized Exchanges ( http://arxiv.org/abs/2309.13501v1 ) ライセンス: Link先を確認 | Rundong Gan, Le Wang, Xiaodong Lin, | (参考訳) 分散取引所(DEX)は、分散金融(DeFi)の世界で最も重要なインフラの一つであり、一般的に中央取引所(CEX)よりも信頼性が高いと考えられている。
しかしながら、いくつかの有名な分散取引所(例えば、Unixwap)は、未確認のERC20トークンの配備を可能にし、トレーダーの資産を盗むように設計された多くのハニーポットトラップを作成する。
本稿では, 分散型取引所におけるハニーポットトラップを導入し, 攻撃効果に応じてこれらのトラップを分類する。
異なる種類のトラップに対して,過去のデータ解析とトランザクションシミュレーションに基づく検出手法を設計する。
我々は、Uniswap V2 \&V3から1万個のプールをランダムに選び、そのプールを検査するためにこの方法を利用して8,443個の異常プールを発見した。
さらに,貿易者の資産を保護するための緩和・防衛戦略についても論じる。
Decentralized Exchanges (DEXs) are one of the most important infrastructures in the world of Decentralized Finance (DeFi) and are generally considered more reliable than centralized exchanges (CEXs). However, some well-known decentralized exchanges (e.g., Uniswap) allow the deployment of any unaudited ERC20 tokens, resulting in the creation of numerous honeypot traps designed to steal traders' assets: traders can exchange valuable assets (e.g., ETH) for fraudulent tokens in liquidity pools but are unable to exchange them back for the original assets. In this paper, we introduce honeypot traps on decentralized exchanges and provide a taxonomy for these traps according to the attack effect. For different types of traps, we design a detection scheme based on historical data analysis and transaction simulation. We randomly select 10,000 pools from Uniswap V2 \& V3, and then utilize our method to check these pools.Finally, we discover 8,443 abnormal pools, which shows that honeypot traps may exist widely in exchanges like Uniswap. Furthermore, we discuss possible mitigation and defense strategies to protect traders' assets. | 翻訳日:2024-03-19 03:51:14 公開日:2023-09-23 |
# 科学学習成果に対する生成AIの負の影響に関する実験的エビデンス Experimental Evidence on Negative Impact of Generative AI on Scientific Learning Outcomes ( http://arxiv.org/abs/2311.05629v1 ) ライセンス: Link先を確認 | Qirui Ju | (参考訳) 本研究では,実験手法を用いた学習教材の学習効果に及ぼす生成AIの影響について検討した。
大学教育を受けた参加者は、読み書きの3サイクルに携わる。
それぞれのサイクルの後、彼らは材料に関する質問に答えた。
背景知識と人口統計因子を調整した後、タスクを書くためのAIへの完全依存が25.1%の精度の低下につながった。
対照的に、AIによる読み上げは12%減少した。
興味深いことに、AIによる要約は品質と出力の両方を大幅に改善した。
精度はAI補助部位で顕著なばらつきを示した。
さらに分析したところ,読書のトピックと優れた読み書きスキルに強い背景を持つ個人が最も有益であることが判明した。
教育政策への影響を議論し、AIへの過度依存の危険性について生徒に警告することの必要性を強調し、教育環境におけるその最適利用に関するガイダンスを提供する。 In this study, I explored the impact of Generative AI on learning efficacy in academic reading materials using experimental methods. College-educated participants engaged in three cycles of reading and writing tasks. After each cycle, they responded to comprehension questions related to the material. After adjusting for background knowledge and demographic factors, complete reliance on AI for writing tasks led to a 25.1% reduction in accuracy. In contrast, AI-assisted reading resulted in a 12% decline. Interestingly, using AI for summarization significantly improved both quality and output. Accuracy exhibited notable variance in the AI-assisted section. Further analysis revealed that individuals with a robust background in the reading topic and superior reading/writing skills benefitted the most. I conclude the research by discussing educational policy implications, emphasizing the need for educators to warn students about the dangers of over-dependence on AI and provide guidance on its optimal use in educational settings. | 翻訳日:2024-01-15 16:33:33 公開日:2023-09-23 |
# androidアプリケーション用rubricsシステムの設計と開発 A Design and Development of Rubrics System for Android Applications ( http://arxiv.org/abs/2311.05628v1 ) ライセンス: Link先を確認 | Kaustubh Kundu, Sushant Yadav, Tayyabbali Sayyad | (参考訳) オンライングレーティングシステムは、ほとんどの学術資料がデジタル化される過程にあるため、既に行われていないとしても非常に普及している。
本稿では,学部・大学院生による学生のパフォーマンス評価を課題とするモバイルアプリケーション"Student Evaluation System"の設計と実装について述べる。
本アプリケーションの目的は,学生の成績を閲覧するためのユーザフレンドリーなインタフェースを提供することであり,学生の課題をグラフィカルに分析してルーブリックを拡張する機能を備えている。
rubrics評価システムは、ソフトウェア産業と教育機関の両方で広く行われている実践である。
我々のアプリケーションは、グレーティングシステムを容易にし、時間とリソースの面での有効性を高めることを約束します。
このアプリケーションはまた、ユーザ/グラマーが、一貫した方法で容易にアクセスでき統計的に分析できる形式で、提出と評価データを追跡できる。 Online grading systems have become extremely prevalent as majority of academic materials are in the process of being digitized, if not already done. In this paper, we present the concept of design and implementation of a mobile application for "Student Evaluation System", envisaged with the purpose of making the task of evaluation of students performance by faculty and graders facile. This application aims to provide an user-friendly interface for viewing the students performance and has several functions which extends the Rubrics with graphical analysis of students assignments. Rubrics evaluation system is the widespread practice in both the software industry and the educational institutes. Our application promises to make the grading system easier and to enhance the effectiveness in terms of time and resources. This application also allows the user/grader to keep track of submissions and the evaluated data in a form that can be easily accessed and statistically analysed in a consistent manner. | 翻訳日:2024-01-15 16:33:19 公開日:2023-09-23 |
# チームメンバーインタラクションにおけるオフィスプレゼンスと共プレゼンスの違いを理解する Understanding the Difference between Office Presence and Co-presence in Team Member Interactions ( http://arxiv.org/abs/2311.05627v1 ) ライセンス: Link先を確認 | Nils Brede Moe, Simen Ulsaker, Darja Smite, Jarle Moss Hildrum, Fehime Ceren Ay | (参考訳) 新型コロナウイルス(covid-19)パンデミックに伴う公衆衛生の緊急事態が正式に終了したが、多くのソフトウェア開発者は一部在宅勤務を続けている。
オフィスタイムを調整するアジャイルチームは、チームメンバ間の統一感、コラボレーション、結束感を育む。
それとは対照的に、心理的安全性を確立し、結束的で包括的なチーム文化を開発し、効果的なコミュニケーションや知識共有、信頼構築を妨げる可能性がある。
したがって、アジャイルチームのメンバが毎日同じ場所にいるのではない影響について調べなければならない。
我々は、従業員が部分的に在宅勤務する大規模アジャイル通信会社における17のアジャイルチームの共存パターンを調査した。
オフィスアクセスカードデータから,共同プレゼンスの実践に有意な差異が認められた。
一部のチームは協調的なアプローチを示し、チームメンバが同時にオフィスにいることを保証した。
しかし、他のチームは断片化された共存を示し、メンバーの小さなサブグループだけが直接会合し、残りはチームメンバーと対面することが滅多になかった。
したがって、チーム内の平均的なオフィスの存在は、必ずしもチームメンバーがオフィスで直接会うことを暗示しない。
対照的に、非コーディネートチームは、メンバー間の平均的なオフィスプレゼンスと対人交流の頻度が低い。
以上の結果から,コーディネート・コプレゼンスを伴わない単なるオフィス存在の促進は,優れた平均出席レベルが頻繁な個人的交流を保証するという誤った仮定に基づいていることが示唆された。
これらの発見は長期的なチームのダイナミクスと実践の研究に重要な意味を持つ。 Although the public health emergency related to the coronavirus disease 2019 (COVID-19) pandemic has officially ended, many software developers still work partly from home. Agile teams that coordinate their office time foster a sense of unity, collaboration, and cohesion among team members. In contrast, teams with limited co-presence may experience challenges in establishing psychological safety and developing a cohesive and inclusive team culture, potentially hindering effective communication, knowledge sharing, and trust building. Therefore, the effect of agile team members not being co-located daily must be investigated. We explore the co-presence patterns of 17 agile teams in a large agile telecommunications company whose employees work partly from home. Based on office access card data, we found significant variation in co-presence practices. Some teams exhibited a coordinated approach, ensuring team members are simultaneously present at the office. However, other teams demonstrated fragmented co-presence, with only small subgroups of members meeting in person and the remainder rarely interacting with their team members face-to-face. Thus, high average office presence in the team does not necessarily imply that team members meet often in person at the office. In contrast, non-coordinated teams may have both high average office presence and low frequency of in-person interactions among the members. Our results suggest that the promotion of mere office presence without coordinated co-presence is based on a false assumption that good average attendance levels guarantee frequent personal interactions. These findings carry important implications for research on long-term team dynamics and practice. | 翻訳日:2024-01-15 16:33:04 公開日:2023-09-23 |
# 変電所における物体検出アルゴリズム Algorithms for Object Detection in Substations ( http://arxiv.org/abs/2311.07577v1 ) ライセンス: Link先を確認 | Bingying Jin, Yadong Liu, Qinlin Qian | (参考訳) 高電圧設備の検査は電源信頼性を確保する効果的な方法である。
自動動力機器検査における重要な技術の一つである物体認識は、多くの研究者や技術者の注目を集めている。
既存のモデルにはいくつかの利点があるが、このタスクにおいて非常に重要な機器間のオブジェクト関係はほとんど考慮されていない。
本稿では,オブジェクト関係モデリングとトランスフォーマーモデルを組み合わせたリレーショナルトランスフォーマーモデルを提案する。
バックボーン、エンコーダ、デコーダ、予測ヘッドの4つの部分がある。
この構造を用いて, 提案手法は, 変電所における物体認識における他の3つのモデルよりも優れた性能を示し, 自動動力機器検査の開発を推進している。 Inspection of high-voltage power equipment is an effective way to ensure power supply reliability. Object recognition, one of the key technologies in automatic power equipment inspection, attracts attention of many researchers and engineers. Although quite a few existing models have some their own advantages, object relationship between equipment which is very important in this task is scarcely considered. This paper combining object relationship modeling and Transformer Model proposes a Relation Transformer Model. It has four parts -- backbone, encoder, decoder and prediction heads. With this structure, the proposed method shows in experiments a much better performance than other three commonly used models in object recognition in substation, largely promoting the development of automatic power equipment inspection. | 翻訳日:2024-01-15 16:23:26 公開日:2023-09-23 |
# SpeakEasy: 大学生のコミュニケーションスキル向上のための会話型知能チャットボット SpeakEasy: A Conversational Intelligence Chatbot for Enhancing College Students' Communication Skills ( http://arxiv.org/abs/2310.14891v1 ) ライセンス: Link先を確認 | Hyunbae Jeon, Rhea Ramachandran, Victoria Ploerer, Yella Diekmann, Max Bagga | (参考訳) 社会的相互作用と会話のスキルは、成功と成功と自信とを区別する。
特に大学生にとって、会話能力は、すべての重要なキャリアスキルの基礎とともに、日常的に経験したストレスや不安の源泉となる。
これを踏まえて、私たちはSpeakEasyを設計しました。SpeakEasyはある程度の知性を備えたチャットボットで、チャットボットと自由形式の会話を行う能力に対してフィードバックを与えます。
SpeakEasyは、大学生がユーザと7分間の会話を行い、過去の心理学や言語学の研究に基づくメトリクスを用いてユーザーの反応を分析し、会話能力を改善する方法についてフィードバックを提供することで、コミュニケーションスキルの向上を支援する。
自然な会話をシミュレートするために、SpeakEasyは、旅行、スポーツ、エンターテイメントという2人が初めて会うであろう幅広いトピックについて、ユーザーと会話する。
会話スキルを向上させるという目的の他のチャットボットとは異なり、speakeasyは実際にユーザの会話を記録し、音声をトークンに書き起こし、マクロを使って音声のペースを計算し、ある単語に過度に依存しているかどうかを判断し、会話の品質を評価する。
評価に基づいて、SpeakEasyはユーザが会話を改善する方法について、詳細なフィードバックを提供する。
次に、SpeakEasyは、ユーザがSpeakEasyのパフォーマンスに関して応答する一連の質問に基づいてアルゴリズムを更新する。 Social interactions and conversation skills separate the successful from the rest and the confident from the shy. For college students in particular, the ability to converse can be an outlet for the stress and anxiety experienced on a daily basis along with a foundation for all-important career skills. In light of this, we designed SpeakEasy: a chatbot with some degree of intelligence that provides feedback to the user on their ability to engage in free-form conversations with the chatbot. SpeakEasy attempts to help college students improve their communication skills by engaging in a seven-minute spoken conversation with the user, analyzing the user's responses with metrics designed based on previous psychology and linguistics research, and providing feedback to the user on how they can improve their conversational ability. To simulate natural conversation, SpeakEasy converses with the user on a wide assortment of topics that two people meeting for the first time might discuss: travel, sports, and entertainment. Unlike most other chatbots with the goal of improving conversation skills, SpeakEasy actually records the user speaking, transcribes the audio into tokens, and uses macros-e.g., sequences that calculate the pace of speech, determine if the user has an over-reliance on certain words, and identifies awkward transitions-to evaluate the quality of the conversation. Based on the evaluation, SpeakEasy provides elaborate feedback on how the user can improve their conversations. In turn, SpeakEasy updates its algorithms based on a series of questions that the user responds to regarding SpeakEasy's performance. | 翻訳日:2023-10-29 15:57:54 公開日:2023-09-23 |
# それはトラップか?
モバイルアプリ用オンライン自動プライバシーポリシージェネレータの大規模実証研究と包括的評価 Is It a Trap? A Large-scale Empirical Study And Comprehensive Assessment of Online Automated Privacy Policy Generators for Mobile Apps ( http://arxiv.org/abs/2305.03271v2 ) ライセンス: Link先を確認 | Shidong Pan, Dawen Zhang, Mark Staples, Zhenchang Xing, Jieshan Chen, Xiwei Xu, and James Hoang | (参考訳) プライバシ規制は、モバイルアプリに対して、個人情報の収集方法と、その処理方法を説明するプライバシーポリシーを提供することによって、個人のプライバシを保護し、促進する。
しかし、開発者はそのようなプライバシーポリシーを作成するのに十分な法的知識を持っていないことが多い。
オンライン自動プライバシポリシジェネレータ(APPG)は、プライバシポリシを作成することができるが、その品質やその他の特性は様々である。
本稿では,モバイルアプリ用APPGの大規模実験と総合評価を行う。
具体的には,多次元で10個のAPPGを精査する。
さらに、Google Playから46,472のAndroidアプリのプライバシポリシを収集し、既存のAPPGによって20.1%近いプライバシポリシが生成されることを発見した。
最後に,本研究で得られた政策がGDPR,CCPA,LGPDに完全に準拠していないことを指摘する。
要約すると、アプリ開発者は潜在的な落とし穴を避けるために、適切なappgを慎重に選択して使用する必要があります。 Privacy regulations protect and promote the privacy of individuals by requiring mobile apps to provide a privacy policy that explains what personal information is collected and how these apps process this information. However, developers often do not have sufficient legal knowledge to create such privacy policies. Online Automated Privacy Policy Generators (APPGs) can create privacy policies, but their quality and other characteristics can vary. In this paper, we conduct the first large-scale empirical study and comprehensive assessment of APPGs for mobile apps. Specifically, we scrutinize 10 APPGs on multiple dimensions. We further perform the market penetration analysis by collecting 46,472 Android app privacy policies from Google Play, discovering that nearly 20.1% of privacy policies could be generated by existing APPGs. Lastly, we point out that generated policies in our study do not fully comply with GDPR, CCPA, or LGPD. In summary, app developers must carefully select and use the appropriate APPGs with careful consideration to avoid potential pitfalls. | 翻訳日:2023-10-24 12:14:00 公開日:2023-09-23 |
# システム宇宙のモデル宇宙を進化させる Evolve the Model Universe of a System Universe ( http://arxiv.org/abs/2309.13342v1 ) ライセンス: Link先を確認 | Tao Yue and Shaukat Ali | (参考訳) 不確実で予測不能、リアルタイム、そして生涯にわたる進化は、インテリジェントなソフトウェアシステムにおいて運用上の障害を引き起こし、重大な損傷、安全とセキュリティの危険、そして悲劇を引き起こす。
そのようなシステムの可能性を完全に解き放ち、より広範な採用を促進するためには、不確実性の下で意思決定の信頼性を確保することが重要な課題である。
この課題を克服するために、インテリジェントなソフトウェアシステムとその運用環境は、その運用中に継続的に監視、テスト、洗練されなければならない。
デジタルツインのような既存の技術は、そのようなシステムと連続的に同期することで、最も更新された状態を反映することができる。
このような表現は、しばしば、モデル宇宙と呼ばれる、事前知識ベースと機械学習モデルの形式である。
本稿では,ソフトウェア工学,進化計算,機械学習といった技術を組み合わせて,モデル宇宙の進化を支援するというビジョンを示す。 Uncertain, unpredictable, real time, and lifelong evolution causes operational failures in intelligent software systems, leading to significant damages, safety and security hazards, and tragedies. To fully unleash the potential of such systems and facilitate their wider adoption, ensuring the trustworthiness of their decision making under uncertainty is the prime challenge. To overcome this challenge, an intelligent software system and its operating environment should be continuously monitored, tested, and refined during its lifetime operation. Existing technologies, such as digital twins, can enable continuous synchronisation with such systems to reflect their most updated states. Such representations are often in the form of prior knowledge based and machine learning models, together called model universe. In this paper, we present our vision of combining techniques from software engineering, evolutionary computation, and machine learning to support the model universe evolution. | 翻訳日:2023-10-23 06:49:20 公開日:2023-09-23 |
# 量子ソフトウェア要件工学に向けて Towards Quantum Software Requirements Engineering ( http://arxiv.org/abs/2309.13358v1 ) ライセンス: Link先を確認 | Tao Yue, Shaukat Ali, Paolo Arcaini | (参考訳) 量子ソフトウェア工学(qse)は、量子ソフトウェアモデリング、テスト、デバッグといったトピックに関する出版物の増加によって、注目を集めている。
しかしながら、文献では、量子ソフトウェア要件エンジニアリング(qsre)は依然としてソフトウェアエンジニアリングの領域であり、比較的調査されていない。
そこで本論文では,古典的要求分類(機能的および外機能的要求)を量子ソフトウェアのコンテキストにマッピングした上で,量子ソフトウェアにおける要件工学と古典的ソフトウェアにおける要件工学との相違点について,まず最初に考察する。
さらに、量子ソフトウェア工学コミュニティから注目に値するQSREの様々な側面について議論する。 Quantum software engineering (QSE) is receiving increasing attention, as evidenced by increasing publications on topics, e.g., quantum software modeling, testing, and debugging. However, in the literature, quantum software requirements engineering (QSRE) is still a software engineering area that is relatively less investigated. To this end, in this paper, we provide an initial set of thoughts about how requirements engineering for quantum software might differ from that for classical software after making an effort to map classical requirements classifications (e.g., functional and extra-functional requirements) into the context of quantum software. Moreover, we provide discussions on various aspects of QSRE that deserve attention from the quantum software engineering community. | 翻訳日:2023-10-23 06:40:14 公開日:2023-09-23 |
# スケーラブルなアーキテクチャでa/b実験を行う Conducting A/B Experiments with a Scalable Architecture ( http://arxiv.org/abs/2309.13450v1 ) ライセンス: Link先を確認 | Andrew Hornback, Sungeun An, Scott Bunin, Stephen Buckley, John Kos, Ashok Goel | (参考訳) A/B実験は、2つの異なる実験グループ(制御グループと治療グループ)で1つ以上の変数を変更する効果を比較するために一般的に用いられる。
A/B実験を使うことの利点は広く知られ、受け入れられているが、そのような実験を迅速に実施するためのソフトウェアインフラシステムを構築するための原則的なアプローチについては合意が得られていない。
我々は、ドメインに依存しないa/b実験をサポートするソフトウェアアーキテクチャを開発するための4原則アプローチを提案し、これらの実験を成功させるために必要なリソース制約を緩和するのに役立つ。
i) A/B実験の典型的な性質を保たなければならない。
(二 問題解決活動及び成果の把握。)
三 実験参加者の行動及び成果を研究者が理解できるようにすること。
(iv)自動分析を行なわなければならない。
我々は,これらの原則をカプセル化し,実世界のa/b実験で実装するソフトウェアシステムの開発に成功した。 A/B experiments are commonly used in research to compare the effects of changing one or more variables in two different experimental groups - a control group and a treatment group. While the benefits of using A/B experiments are widely known and accepted, there is less agreement on a principled approach to creating software infrastructure systems to assist in rapidly conducting such experiments. We propose a four-principle approach for developing a software architecture to support A/B experiments that is domain agnostic and can help alleviate some of the resource constraints currently needed to successfully implement these experiments: the software architecture (i) must retain the typical properties of A/B experiments, (ii) capture problem solving activities and outcomes, (iii) allow researchers to understand the behavior and outcomes of participants in the experiment, and (iv) must enable automated analysis. We successfully developed a software system to encapsulate these principles and implement it in a real-world A/B experiment. | 翻訳日:2023-10-23 06:25:37 公開日:2023-09-23 |
# 非アベリア対称性を用いたハイブリッドCPU-GPUアーキテクチャにおける大規模並列テンソルネットワーク状態アルゴリズムの有効性能向上 Boosting the effective performance of massively parallel tensor network state algorithms on hybrid CPU-GPU based architectures via non-Abelian symmetries ( http://arxiv.org/abs/2309.16724v1 ) ライセンス: Link先を確認 | Andor Menczer and \"Ors Legeza | (参考訳) 本稿では,高性能コンピューティング基盤上でのテンソルネットワーク状態アルゴリズムの現在の限界を増大させるために,非アベリア対称性を利用した新しいアルゴリズム解を提案する。
当社が社内開発したハイブリッドCPU-マルチGPUソリューションスケジューリングでは,スレッドは自律的であり,スレッド間通信はグローバルに可視なロックフリー構造とのインタラクションにのみ制限される。
私たちのカスタムの仮想メモリ管理は、データを高い空間的局所性で生成することを確実にします。
IOオーバーヘッドを下げるために、アダプティブバッファリング技術は、キャッシュレポジトリが構築され再利用されるデータの抽象化レベルをシステムリソースに動的に適合させるために使用される。
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に切り離されるので、大きな並列行列とテンソル演算を追加のオーバーヘッドなく行うことができる。
全体として,計算複雑性の観点からarxiv:2305.05581で報告された結果に対して,tflopsで測定した実性能の3~6倍の性能向上を達成した。
ベンチマーク結果は、選択された強相関分子系上でのSU(2)スピン適応密度行列再正規化群シミュレーションにより得られるヒルベルト空間次元最大2.88\times10^{36}$で示される。
これらはNVIDIAの高度に専門化されたテンソルコアの利用を示し、8つのNVIDIA A100デバイスで供給された単一ノード上での110 TFLOPSのパフォーマンスに繋がった。
一致精度を持つU(1)実装と比較して,提案手法の有効性能は250-500TFLOPSと推定される。 We present novel algorithmic solutions together with implementation details utilizing non-Abelian symmetries in order to boost the current limits of tensor network state algorithms on high performance computing infrastructure. In our in-house developed hybrid CPU-multiGPU solution scheduling is decentralized, threads are autonomous and inter-thread communications are solely limited to interactions with globally visible lock-free constructs. Our custom tailored virtual memory management ensures data is produced with high spatial locality, which together with the use of specific sequences of strided batched matrix operations translates to significantly higher overall throughput. In order to lower IO overhead, an adaptive buffering technique is used to dynamically match the level of data abstraction, at which cache repositories are built and reused, to system resources. The non-Abelian symmetry related tensor algebra based on Wigner-Eckhart theorem is fully detached from the conventional tensor network layer, thus massively parallel matrix and tensor operations can be performed without additional overheads. Altogether, we have achieved an order of magnitude increase in performance with respect to results reported in arXiv:2305.05581 in terms of computational complexity and at the same time a factor of three to six in the actual performance measured in TFLOPS. Benchmark results are presented on Hilbert space dimensions up to $2.88\times10^{36}$ obtained via large-scale SU(2) spin adapted density matrix renormalization group simulations on selected strongly correlated molecular systems. These demonstrate the utilization of NVIDIA's highly specialized tensor cores, leading to performance around 110 TFLOPS on a single node supplied with eight NVIDIA A100 devices. In comparison to U(1) implementations with matching accuracy, our solution has an estimated effective performance of 250-500 TFLOPS. | 翻訳日:2023-10-23 05:36:27 公開日:2023-09-23 |
# 内部ソフトウェアメトリクスは、フォールトプロニースや変更プロニースと関係があるか? Do Internal Software Metrics Have Relationship with Fault-proneness and Change-proneness? ( http://arxiv.org/abs/2310.03673v1 ) ライセンス: Link先を確認 | Md.Masudur Rahman, Toukir Ahammed and Kazi Sakib | (参考訳) 変更傾向は、ソフトウェアシステムの変更の可能性を示している。
どちらも、システムに多くの変更を加えることで、サイズ、継承、結合など、内部ソフトウェアメトリクスに影響を与えるソフトウェアの保守性に関連しています。
文献では、ほぼ10年前の内部ソフトウェアメトリクスを使用して、変更と障害の傾向が予測されている。
したがって,ソフトウェアシステムや構造が本質的に進化するにつれて,内部ソフトウェアメトリクスと変化と障害発生性の関係を再検討し,最新の知見を提供するための実証的研究を行う。
特に,apache や eclipse のエコシステムでよく知られたオープンソースシステムにおいて,25 の内部ソフトウェアメトリクス,変更の傾向,障害の傾向を識別しています。
次に,統計的相関法に基づいて関係を解析する。
その結果、ほとんどのメトリクスはフォールトプロニーネスと無関係か低関係であるが、継承、結合、コメント関連メトリクスは変更プロニーネスと中程度か高い関係にあることがわかった。
これらの発見は、開発者が関連するソフトウェアメトリクスを最小化して、変更や障害発生率の観点から保守性を高めるのに役立つだろう。
さらに、これらは、より高い関連するメトリクスを取り入れることで、変更と障害予測アプローチの革新にも役立ちます。 Change-proneness indicates the possibility of changes to a software system. Both of these measures are related to software maintainability which impact internal software metrics such as size, inheritance, coupling, etc. due to making many changes to the system. In the literature, change- and fault-proneness have been predicted using the internal software metrics which are almost one decade earlier. Therefore, as software systems and structures are evolving in nature, we present an empirical study to revisit the relationship of the internal software metrics with change- and fault-proneness to provide up-to-date insights. In particular, we identify 25 internal software metrics, change-proneness and fault-proneness in the wellknown open source systems from Apache and Eclipse ecosystems. Then we analyse the relationship based on the statistical correlation method. The results show that almost all of the metrics have no or low relationship with fault-proneness, while inheritance, coupling and comments-related metrics have a moderate or high relationship with change-proneness. These findings will assist developers to minimize the higher related software metrics to enhance maintainability in terms of change- and fault-proneness. In addition, these also help researchers to innovate change and fault prediction approaches by incorporating the higher related metrics. | 翻訳日:2023-10-23 04:36:50 公開日:2023-09-23 |
# NetDiffus:時系列イメージングによる拡散モデルによるネットワークトラフィック生成 NetDiffus: Network Traffic Generation by Diffusion Models through Time-Series Imaging ( http://arxiv.org/abs/2310.04429v1 ) ライセンス: Link先を確認 | Nirhoshan Sivaroopan, Dumindu Bandara, Chamara Madarasingha, Guilluame Jourjon, Anura Jayasumana and Kanchana Thilakarathna | (参考訳) ネットワークデータ分析は、今ではほぼすべてのネットワークソリューションの中核にある。
それでも、現代のネットワークの複雑さ、商業感度、プライバシー、規制の制約など多くの理由から、ネットワークデータへのアクセス制限は永続的な課題となっている。
本研究では,最近の拡散モデル(dm)の進歩を活かして,ネットワークトラフィックデータを生成する方法について検討する。
まず,1次元時系列ネットワークトラフィックを2次元画像に変換し,その代表画像を合成する,エンドツーエンドの frameworknetdiffus を開発した。
我々は、生成したデータの忠実度を66.4%増加し、下流機械学習タスクを18.1%増加させることにより、GAN(Generative Adversarial Networks)に基づく最先端のトラフィック生成手法よりも優れていることを示す。
本研究では,7種類のトラヒックトレースについてnetdiffusを評価し,合成データの利用がトラヒックフィンガープリント,異常検出,トラヒック分類を大幅に改善することを示した。 Network data analytics are now at the core of almost every networking solution. Nonetheless, limited access to networking data has been an enduring challenge due to many reasons including complexity of modern networks, commercial sensitivity, privacy and regulatory constraints. In this work, we explore how to leverage recent advancements in Diffusion Models (DM) to generate synthetic network traffic data. We develop an end-to-end framework - NetDiffus that first converts one-dimensional time-series network traffic into two-dimensional images, and then synthesizes representative images for the original data. We demonstrate that NetDiffus outperforms the state-of-the-art traffic generation methods based on Generative Adversarial Networks (GANs) by providing 66.4% increase in fidelity of the generated data and 18.1% increase in downstream machine learning tasks. We evaluate NetDiffus on seven diverse traffic traces and show that utilizing synthetic data significantly improves traffic fingerprinting, anomaly detection and traffic classification. | 翻訳日:2023-10-23 04:25:18 公開日:2023-09-23 |
# 主観埋め込み型移動学習を用いた手指認識における過渡高密度筋電図の深層学習シーケンスデコーダ A Deep Learning Sequential Decoder for Transient High-Density Electromyography in Hand Gesture Recognition Using Subject-Embedded Transfer Learning ( http://arxiv.org/abs/2310.03752v1 ) ライセンス: Link先を確認 | Golara Ahmadi Azar, Qin Hu, Melika Emami, Alyson Fletcher, Sundeep Rangan, S. Farokh Atashzar | (参考訳) ハンドジェスチャ認識(HGR)は、表面筋電図(SEMG)などの周辺神経系から生体信号の深部時空間的ダイナミクスを解釈できるAIを利用したヒューマンコンピュータインタフェースの利用の増加により注目されている。
これらのインターフェースには、拡張現実の制御、アジャイルの義肢、外骨格など、さまざまなアプリケーションがある。
しかし、個人間でのsEMGの自然変動により、研究者は主題特異的な解決策に集中するようになった。
複雑な構造を持つ深層学習法は、特にデータ格納型であり、トレーニングに時間がかかるため、主題固有のアプリケーションでは実用性が低下する。
本稿では,HGRの事前知識を利用して,半可観測者65人のジェスチャーの平均精度を73%向上させる,一過性高密度sEMG(HD-sEMG)の一般化可能なシーケンシャルデコーダを提案し,開発する。
ジェスチャー安定化の前に一過性のHD-sEMGを用いることで,システム制御の遅延を抑えるという究極の目標でジェスチャーを予測することができる。
提案した一般化モデルは,特に訓練データに制限がある場合において,主観的アプローチよりも有意に優れており,ジェスチャークラスもかなりの数存在する。
本手法は,事前知識の構築と多目的埋込み構造の導入により,データ可用性を極小に抑えた部分観察対象に対して,平均精度を13%以上達成する。
この研究はHD-sEMGの可能性を強調し、ユーザ間で共通パターンをモデル化し、新しいユーザのための大量のデータの必要性を減らし、実用性を向上する利点を示す。 Hand gesture recognition (HGR) has gained significant attention due to the increasing use of AI-powered human-computer interfaces that can interpret the deep spatiotemporal dynamics of biosignals from the peripheral nervous system, such as surface electromyography (sEMG). These interfaces have a range of applications, including the control of extended reality, agile prosthetics, and exoskeletons. However, the natural variability of sEMG among individuals has led researchers to focus on subject-specific solutions. Deep learning methods, which often have complex structures, are particularly data-hungry and can be time-consuming to train, making them less practical for subject-specific applications. In this paper, we propose and develop a generalizable, sequential decoder of transient high-density sEMG (HD-sEMG) that achieves 73% average accuracy on 65 gestures for partially-observed subjects through subject-embedded transfer learning, leveraging pre-knowledge of HGR acquired during pre-training. The use of transient HD-sEMG before gesture stabilization allows us to predict gestures with the ultimate goal of counterbalancing system control delays. The results show that the proposed generalized models significantly outperform subject-specific approaches, especially when the training data is limited, and there is a significant number of gesture classes. By building on pre-knowledge and incorporating a multiplicative subject-embedded structure, our method comparatively achieves more than 13% average accuracy across partially observed subjects with minimal data availability. This work highlights the potential of HD-sEMG and demonstrates the benefits of modeling common patterns across users to reduce the need for large amounts of data for new users, enhancing practicality. | 翻訳日:2023-10-23 04:22:59 公開日:2023-09-23 |
# EMGTFNet:手指認識のための上肢sEMG信号をデコードするファジィビジョン変換器 EMGTFNet: Fuzzy Vision Transformer to decode Upperlimb sEMG signals for Hand Gestures Recognition ( http://arxiv.org/abs/2310.03754v1 ) ライセンス: Link先を確認 | Joseph Cherre C\'ordova, Christian Flores, Javier Andreu-Perez | (参考訳) 筋電制御は、特に生体補綴用ハンドジェスチャ認識(HGR)などの応用において、近年関心が高まっている筋電図の領域である。
今日の焦点は、機械学習と最近ではディープラーニング手法を用いたパターン認識である。
スパースsEMG信号の良好な結果にもかかわらず、後者のモデルは一般的に大きなデータセットとトレーニング時間を必要とする。
さらに、確率的sEMG信号の性質から、従来のモデルは非定型値や雑音値のサンプルの一般化に失敗した。
本稿では、表面筋電図(sEMG)信号から手動ジェスチャー認識を行うために、EMTFNetと呼ばれるファジィニューラルブロック(FNB)を用いた視覚変換器(ViT)アーキテクチャの設計を提案する。
提案したEMGTFNetアーキテクチャは,データ拡張技術や転送学習,ネットワーク内のパラメータ数の大幅な増加を必要とせずに,さまざまなハンドジェスチャを正確に分類することができる。
提案モデルの精度は49種類の手ジェスチャーからなるNinaProデータベースを用いて検証した。
実験では、平均テスト精度は 83.57\% \& 3.5\% であり、200 ms のウィンドウサイズと56,793 のトレーニング可能なパラメータしか持たない。
その結果,FNBを含まないViTでは,FNBを含まないと性能が向上することがわかった。
提案フレームワークであるEMGTFNetは,義肢制御のための実用的応用の可能性について報告した。 Myoelectric control is an area of electromyography of increasing interest nowadays, particularly in applications such as Hand Gesture Recognition (HGR) for bionic prostheses. Today's focus is on pattern recognition using Machine Learning and, more recently, Deep Learning methods. Despite achieving good results on sparse sEMG signals, the latter models typically require large datasets and training times. Furthermore, due to the nature of stochastic sEMG signals, traditional models fail to generalize samples for atypical or noisy values. In this paper, we propose the design of a Vision Transformer (ViT) based architecture with a Fuzzy Neural Block (FNB) called EMGTFNet to perform Hand Gesture Recognition from surface electromyography (sEMG) signals. The proposed EMGTFNet architecture can accurately classify a variety of hand gestures without any need for data augmentation techniques, transfer learning or a significant increase in the number of parameters in the network. The accuracy of the proposed model is tested using the publicly available NinaPro database consisting of 49 different hand gestures. Experiments yield an average test accuracy of 83.57\% \& 3.5\% using a 200 ms window size and only 56,793 trainable parameters. Our results outperform the ViT without FNB, thus demonstrating that including FNB improves its performance. Our proposal framework EMGTFNet reported the significant potential for its practical application for prosthetic control. | 翻訳日:2023-10-15 14:59:20 公開日:2023-09-23 |
# ECGNet: 単一リード入力からの12誘導ECG信号合成のためのGANアプローチ ECGNet: A generative adversarial network (GAN) approach to the synthesis of 12-lead ECG signals from single lead inputs ( http://arxiv.org/abs/2310.03753v1 ) ライセンス: Link先を確認 | Max Bagga, Hyunbae Jeon, Alex Issokson | (参考訳) 心電図(ECG)信号生成は,12誘導心電図の実装が必ずしも実現可能とは限らないため,GAN(Generative Adversarial Network)を用いて深く研究されている。
GANモデルは、心血管疾患(CVD)予測モデルで使用される生成された信号の制限を受けていないため、複数のリード入力のためにのみ設計されている。
本稿では、双方向長短期メモリ(LSTM)ジェネレータと畳み込みニューラルネットワーク(CNN)識別器を備えたGANフレームワークを用いて、単一のリード入力から12リードECG信号の完全なセットを生成する手順であるECGNetを提案する。
生成した信号の相互相関解析は、信号生成時に保存される特徴、すなわち各信号の特異な構造とCVDの可能性のある指標を特徴付ける特徴を識別する。
最後に, CVD-onset-predictive CNNモデルの入力として, 相関解析により詳細に記述されたCVD-indicative特徴を付加したECG信号を用いることで, 複数CVDターゲットの予測を阻止する課題を克服する。
我々のモデルは、MyoVistaのwavECGを用いて記録された15から12のECGデータセットで実験されている。
各患者の機能結果データをcvd予測モデルに記録して使用する。
我々の最良GANモデルは,V1-V6前コーディアルリードにおけるFrechet Distance(FD)スコアが4.73,4.89,5.18,4.77,4.71,5.55であり,P-QセグメントとRピークを保存する際の強度を示す。
私たちの知る限りでは、ECGNetは1つのリードの入力から残りの11のリードを最初に予測します。 Electrocardiography (ECG) signal generation has been heavily explored using generative adversarial networks (GAN) because the implementation of 12-lead ECGs is not always feasible. The GAN models have achieved remarkable results in reproducing ECG signals but are only designed for multiple lead inputs and the features the GAN model preserves have not been identified-limiting the generated signals use in cardiovascular disease (CVD)-predictive models. This paper presents ECGNet which is a procedure that generates a complete set of 12-lead ECG signals from any single lead input using a GAN framework with a bidirectional long short-term memory (LSTM) generator and a convolutional neural network (CNN) discriminator. Cross and auto-correlation analysis performed on the generated signals identifies features conserved during the signal generation-i.e., features that can characterize the unique-nature of each signal and thus likely indicators of CVD. Finally, by using ECG signals annotated with the CVD-indicative features detailed by the correlation analysis as inputs for a CVD-onset-predictive CNN model, we overcome challenges preventing the prediction of multiple-CVD targets. Our models are experimented on 15s 12-lead ECG dataset recorded using MyoVista's wavECG. Functional outcome data for each patient is recorded and used in the CVD-predictive model. Our best GAN model achieves state-of-the-art accuracy with Frechet Distance (FD) scores of 4.73, 4.89, 5.18, 4.77, 4.71, and 5.55 on the V1-V6 pre-cordial leads respectively and shows strength in preserving the P-Q segments and R-peaks in the generated signals. To the best of our knowledge, ECGNet is the first to predict all of the remaining eleven leads from the input of any single lead. | 翻訳日:2023-10-15 14:58:54 公開日:2023-09-23 |
# l. vaidman 氏の "multitime quantum communication: interesting but not counterfactual'" に対するコメントへの回答 Reply to Comment on "Multitime Quantum Communication: Interesting But Not Counterfactual'' by L. Vaidman ( http://arxiv.org/abs/2310.05968v1 ) ライセンス: Link先を確認 | Robert B. Griffiths | (参考訳) これは、論文『arXiv:2306.16756』におけるヴァイドマンのコメントに対する回答である: R. B. Griffiths, Phys。
A 107, 062219(2023年) This is a Reply to the Comment by Vaidman in arXiv:2306.16756 on the paper: R. B. Griffiths, Phys. Rev. A 107, 062219 (2023) | 翻訳日:2023-10-15 14:26:55 公開日:2023-09-23 |
# 画像テキストマルチモーダルモデルに関する調査 A Survey on Image-text Multimodal Models ( http://arxiv.org/abs/2309.15857v1 ) ライセンス: Link先を確認 | Ruifeng Guo, Jingxuan Wei, Linzhuang Sun, Bihui Yu, Guiyong Chang, Dawei Liu, Sibo Zhang, Zhengbing Yao, Mingjun Xu, Liping Bu | (参考訳) 人工知能の進化する状況の中で、視覚情報とテキスト情報の収束は重要なフロンティアとして浮上し、画像テキストのマルチモーダルモデルの出現につながっている。
本稿では,画像テキストマルチモーダルモデルの進化と現状を概観し,その応用価値,課題,潜在的研究軌道について考察する。
はじめに、我々はこれらのモデルの基本的な概念と開発マイルストーンを再検討し、導入時期とそれに続く規律への影響に基づいて、それらの進化を3つの異なる段階に区分する新しい分類を導入する。
さらに,学習環境における課題の意義と頻度に基づいて,画像テキストマルチモーダルモデルに関連するタスクを5つの主要なタイプに分類し,各カテゴリにおける最近の進歩と重要な技術を明らかにする。
これらのモデルの顕著な成果にもかかわらず、多くの課題と問題が続いている。
本稿では,画像テキスト・マルチモーダルモデルの本質的課題と限界を考察し,今後の研究方向性を探究する。
本研究の目的は,画像テキストマルチモーダルモデルの現在の研究展望を徹底的に概観し,今後の学術的取り組みへの貴重な参考となることにある。
https://github.com/i2vec/a-survey-on-image-text-multimodal-models}{https://github.com/i2vec/a-survey-on-image-text-multimodal-models} を参照。 Amidst the evolving landscape of artificial intelligence, the convergence of visual and textual information has surfaced as a crucial frontier, leading to the advent of image-text multimodal models. This paper provides a comprehensive review of the evolution and current state of image-text multimodal models, exploring their application value, challenges, and potential research trajectories. Initially, we revisit the basic concepts and developmental milestones of these models, introducing a novel classification that segments their evolution into three distinct phases, based on their time of introduction and subsequent impact on the discipline. Furthermore, based on the tasks' significance and prevalence in the academic landscape, we propose a categorization of the tasks associated with image-text multimodal models into five major types, elucidating the recent progress and key technologies within each category. Despite the remarkable accomplishments of these models, numerous challenges and issues persist. This paper delves into the inherent challenges and limitations of image-text multimodal models, fostering the exploration of prospective research directions. Our objective is to offer an exhaustive overview of the present research landscape of image-text multimodal models and to serve as a valuable reference for future scholarly endeavors. We extend an invitation to the broader community to collaborate in enhancing the image-text multimodal model community, accessible at: \href{https://github.com/i2vec/A-survey-on-image-text-multimodal-models}{https://github.com/i2vec/A-survey-on-image-text-multimodal-models}. | 翻訳日:2023-10-01 12:06:48 公開日:2023-09-23 |
# セキュアで効率的な2パーティ量子スカラー製品プロトコルとプライバシ保存行列乗算への応用 Secure and Efficient Two-party Quantum Scalar Product Protocol With Application to Privacy-preserving Matrix Multiplication ( http://arxiv.org/abs/2309.15856v1 ) ライセンス: Link先を確認 | Wen-Jie Liu, Zi-Xian Li | (参考訳) secure two-party scalar product (s2sp) はsecure multiparty computation (smc) における有望な研究領域であり、侵入検出、データ解析、幾何計算といったsmcの様々な問題を解決することができる。
しかし、既存の量子S2SPプロトコルは十分効率的ではなく、複雑さは通常指数レベルに近い。
本稿では,フーリエの絡み合った状態に基づくセキュアな2次元量子スカラー(S2QSP)プロトコルを提案し,高い効率を実現する。
まず、悪意のあるモデルの下での無条件セキュリティの定義が与えられる。
そして, モジュール型サムメーションゲートと併用して悪意のある攻撃に抵抗するために, 絡み合い結合と呼ばれる正直な検証手法を提案する。
フーリエ絡み合った状態の性質は、多項式複雑性を持つスカラー積を計算するために用いられる。
我々のプロトコルの無条件なセキュリティが証明され、すべての当事者のプライバシーが保証される。
さらに,S2QSPプロトコルに基づくプライバシ保護量子行列乗算プロトコルを設計する。
行列の乗法を一連のスカラー積過程に変換することにより、2つのプライベート行列の積はプライバシーを明かさずに計算される。
最後に,IBM Qiskitシミュレータにおけるプロトコルの実現可能性を示す。 Secure two-party scalar product (S2SP) is a promising research area within secure multiparty computation (SMC), which can solve a range of SMC problems, such as intrusion detection, data analysis, and geometric computations. However, existing quantum S2SP protocols are not efficient enough, and the complexity is usually close to exponential level. In this paper, a novel secure two-party quantum scalar product (S2QSP) protocol based on Fourier entangled states is proposed to achieve higher efficiency. Firstly, the definition of unconditional security under malicious models is given. And then, an honesty verification method called Entanglement Bondage is proposed, which is used in conjunction with the modular summation gate to resist malicious attacks. The property of Fourier entangled states is used to calculate the scalar product with polynomial complexity. The unconditional security of our protocol is proved, which guarantees the privacy of all parties. In addition, we design a privacy-preserving quantum matrix multiplication protocol based on S2QSP protocol. By transforming matrix multiplication into a series of scalar product processes, the product of two private matrices is calculated without revealing any privacy. Finally, we show our protocol's feasibility in IBM Qiskit simulator. | 翻訳日:2023-10-01 12:05:45 公開日:2023-09-23 |
# 非局所フェルミオン反発によるハバード・チューレスポンプの安定化 Stabilization of Hubbard-Thouless pumps through nonlocal fermionic repulsion ( http://arxiv.org/abs/2308.13375v2 ) ライセンス: Link先を確認 | Javier Arg\"uello-Luengo and Manfred J. Mark and Francesca Ferlaino and Maciej Lewenstein and Luca Barbiero and Sergi Juli\`a-Farr\'e | (参考訳) チューレスポンピングは量子系における量子化された位相不変量を探索する強力な概念である。
我々は,この機構をライス・ミール・フェルミ・ハバードモデルで探索し,競合するオンサイトおよびインターサイト相互作用の存在を特徴とする。
オンサイト反発による量子化ポンプの崩壊を示す最近の実験および理論的結果とは対照的に, 十分大きなサイト間相互作用により, thoulessポンプの相互作用が引き起こされることを示した。
さらに,大規模相互作用における安定なトポロジカルトランスポートの発生は,モデル基底相図における自然結合秩序波の存在と関係していることを明らかにした。
最後に,光格子内の超低温磁性原子に基づく具体的な実験装置について検討し,新たに導入したthoulessポンプを実現する。
その結果,相互作用量子系におけるThoulessポンプの安定化機構が得られた。 Thouless pumping represents a powerful concept to probe quantized topological invariants in quantum systems. We explore this mechanism in a generalized Rice-Mele Fermi-Hubbard model characterized by the presence of competing onsite and intersite interactions. Contrary to recent experimental and theoretical results, showing a breakdown of quantized pumping induced by the onsite repulsion, we prove that sufficiently large intersite interactions allow for an interaction-induced recovery of Thouless pumps. Our analysis further reveals that the occurrence of stable topological transport at large interactions is connected to the presence of a spontaneous bond-order-wave in the ground-state phase diagram of the model. Finally, we discuss a concrete experimental setup based on ultracold magnetic atoms in an optical lattice to realize the newly introduced Thouless pump. Our results provide a new mechanism to stabilize Thouless pumps in interacting quantum systems. | 翻訳日:2023-09-28 21:44:00 公開日:2023-09-23 |
# Grad DFT: 機械学習強化密度汎関数理論のためのソフトウェアライブラリ Grad DFT: a software library for machine learning enhanced density functional theory ( http://arxiv.org/abs/2309.15127v1 ) ライセンス: Link先を確認 | Pablo A. M. Casares, Jack S. Baker, Matija Medvidovic, Roberto dos Reis, Juan Miguel Arrazola | (参考訳) 密度汎関数理論(dft: density functional theory)は、計算量子化学と材料科学における基礎的な手法である。
しかし、特に強い相関関係のあるシステムを扱う場合、精度の限界に苦しむ。
これらの欠点に対処するため、最近の研究は、機械学習がDFTの能力をいかに拡張できるかを探求し始めている。
本研究では,完全に差別化可能なJAXベースのDFTライブラリであるGrad DFTについて述べる。
grad dftは、エネルギー密度の重み付け和を用いて構築された交換相関関数の先駆的パラメトリゼーションを採用しており、重み付けはニューラルネットワークを用いて決定される。
さらに、Grad DFTは、ジャストインタイムコンパイル可能で完全に差別化可能な自己整合反復手順を特徴とする、包括的な補助関数群を含んでいる。
トレーニングとベンチマーク作業を支援するため、ダイマーの実験的解離エネルギーのデータセットをコンパイルし、その半分は強い電子相関によって特徴づけられる遷移金属原子を含む。
このソフトウェアライブラリーは、潜在的なエネルギー面と原子種をまたいだ神経機能機能の一般化能力や、データノイズのトレーニングがモデル精度に及ぼす影響を研究するために、実験結果に対してテストされている。 Density functional theory (DFT) stands as a cornerstone method in computational quantum chemistry and materials science due to its remarkable versatility and scalability. Yet, it suffers from limitations in accuracy, particularly when dealing with strongly correlated systems. To address these shortcomings, recent work has begun to explore how machine learning can expand the capabilities of DFT; an endeavor with many open questions and technical challenges. In this work, we present Grad DFT: a fully differentiable JAX-based DFT library, enabling quick prototyping and experimentation with machine learning-enhanced exchange-correlation energy functionals. Grad DFT employs a pioneering parametrization of exchange-correlation functionals constructed using a weighted sum of energy densities, where the weights are determined using neural networks. Moreover, Grad DFT encompasses a comprehensive suite of auxiliary functions, notably featuring a just-in-time compilable and fully differentiable self-consistent iterative procedure. To support training and benchmarking efforts, we additionally compile a curated dataset of experimental dissociation energies of dimers, half of which contain transition metal atoms characterized by strong electronic correlations. The software library is tested against experimental results to study the generalization capabilities of a neural functional across potential energy surfaces and atomic species, as well as the effect of training data noise on the resulting model accuracy. | 翻訳日:2023-09-28 18:28:27 公開日:2023-09-23 |
# DreamStone:テキストガイドによる3D形状生成のためのステッピングストーンとしてのイメージ DreamStone: Image as Stepping Stone for Text-Guided 3D Shape Generation ( http://arxiv.org/abs/2303.15181v3 ) ライセンス: Link先を確認 | Zhengzhe Liu, Peng Dai, Ruihui Li, Xiaojuan Qi, Chi-Wing Fu | (参考訳) 本稿では,画像を踏み台として,テキストと形状のギャップを橋渡しし,テキストと3dデータを必要としない3d形状を生成する,テキストガイド付き3d形状生成手法dreamstoneを提案する。
提案手法のコアとなるのは,CLIP 画像の特徴を SVR モデルの詳細な3次元形状空間にマッピングし,CLIP のテキスト特徴を描画画像と入力テキスト間のCLIP 一貫性を奨励することで,CLIP のテキスト特徴を3次元形状空間にマッピングする,事前訓練された単一ビュー再構成(SVR)モデルを活用する2段階の機能空間アライメント戦略である。
さらに,svrモデルの生成能力を超えて,新たな構造やテクスチャで出力形状を向上できるテキスト誘導型3d形状スタイライゼーションモジュールも設計する。
さらに,事前学習したテキストから画像への拡散モデルを用いて,生成的多様性,忠実度,スタイライゼーション能力を高める。
我々のアプローチは汎用的で柔軟でスケーラブルであり、様々なSVRモデルと容易に統合して生成空間を拡大し、生成精度を向上させることができる。
広範な実験結果から,本手法は,生成的品質と入力テキストとの一貫性の観点から,最先端手法よりも優れていることが示された。
コードとモデルはhttps://github.com/liuzhengzhe/DreamStone-ISSで公開されている。 In this paper, we present a new text-guided 3D shape generation approach DreamStone that uses images as a stepping stone to bridge the gap between text and shape modalities for generating 3D shapes without requiring paired text and 3D data. The core of our approach is a two-stage feature-space alignment strategy that leverages a pre-trained single-view reconstruction (SVR) model to map CLIP features to shapes: to begin with, map the CLIP image feature to the detail-rich 3D shape space of the SVR model, then map the CLIP text feature to the 3D shape space through encouraging the CLIP-consistency between rendered images and the input text. Besides, to extend beyond the generative capability of the SVR model, we design a text-guided 3D shape stylization module that can enhance the output shapes with novel structures and textures. Further, we exploit pre-trained text-to-image diffusion models to enhance the generative diversity, fidelity, and stylization capability. Our approach is generic, flexible, and scalable, and it can be easily integrated with various SVR models to expand the generative space and improve the generative fidelity. Extensive experimental results demonstrate that our approach outperforms the state-of-the-art methods in terms of generative quality and consistency with the input text. Codes and models are released at https://github.com/liuzhengzhe/DreamStone-ISS. | 翻訳日:2023-09-27 18:06:27 公開日:2023-09-23 |
# 単視点新規ビュー合成のための光拡散 Light Field Diffusion for Single-View Novel View Synthesis ( http://arxiv.org/abs/2309.11525v2 ) ライセンス: Link先を確認 | Yifeng Xiong, Haoyu Ma, Shanlin Sun, Kun Han, Xiaohui Xie | (参考訳) 単一の参照画像に基づいて新たな視点から画像を生成する単一視点新規ビュー合成は,コンピュータビジョンにおいて重要な課題であるが難しい課題である。
近年,高忠実度画像を生成する能力が強かったため,この領域ではデノイジン拡散確率モデル(ddpm)が普及している。
しかし、現在の拡散に基づく方法は、カメラのポーズ行列を直接観察条件として、グローバルかつ暗黙的に3d制約を導入する。
これらの方法は、特に複雑なテクスチャや構造を持つ領域において、異なる視点から生成された画像間の一貫性に苦しむ可能性がある。
本研究では,単一ビュー新規ビュー合成のための条件付き拡散モデルである光場拡散(LFD)を提案する。
カメラポーズ行列を用いた従来の方法とは異なり、LFDはカメラビュー情報を光フィールド符号化に変換し、参照画像と組み合わせる。
この設計は拡散モデルに局所的な画素幅の制約を導入し、マルチビューの一貫性を向上させる。
いくつかのデータセットの実験では、LFDは高忠実度画像を効率よく生成し、複雑な領域でもより良い3D一貫性を維持することができる。
本手法は,nrfベースモデルよりも高品質な画像を生成することができ,他の拡散ベースモデルと類似したサンプル品質が得られるが,モデルサイズは3分の1に過ぎない。 Single-view novel view synthesis, the task of generating images from new viewpoints based on a single reference image, is an important but challenging task in computer vision. Recently, Denoising Diffusion Probabilistic Model (DDPM) has become popular in this area due to its strong ability to generate high-fidelity images. However, current diffusion-based methods directly rely on camera pose matrices as viewing conditions, globally and implicitly introducing 3D constraints. These methods may suffer from inconsistency among generated images from different perspectives, especially in regions with intricate textures and structures. In this work, we present Light Field Diffusion (LFD), a conditional diffusion-based model for single-view novel view synthesis. Unlike previous methods that employ camera pose matrices, LFD transforms the camera view information into light field encoding and combines it with the reference image. This design introduces local pixel-wise constraints within the diffusion models, thereby encouraging better multi-view consistency. Experiments on several datasets show that our LFD can efficiently generate high-fidelity images and maintain better 3D consistency even in intricate regions. Our method can generate images with higher quality than NeRF-based models, and we obtain sample quality similar to other diffusion-based models but with only one-third of the model size. | 翻訳日:2023-09-27 17:18:34 公開日:2023-09-23 |
# 可変不確かさを考慮したチャンス制約付き部分モジュラー問題の最適化 Optimizing Chance-Constrained Submodular Problems with Variable Uncertainties ( http://arxiv.org/abs/2309.14359v1 ) ライセンス: Link先を確認 | Xiankun Yan, Anh Viet Do, Feng Shi, Xiaoyu Qin, Frank Neumann | (参考訳) 確率的制約は、実世界の最適化問題における制約違反の確率を制限するために頻繁に用いられる。
確率的制約を伴う幅広い最適化問題を捉えた確率制約付き部分モジュラ最適化問題について検討する。
従来の研究では、選択可能な項目ごとに不確かさが同じである場合に、確率的なknapsack制約を伴う部分モジュラー問題を検討した。
しかしながら、不確実性レベルは通常、実世界のシナリオにおける異なる確率的要素に関して可変であり、この設定の厳密な解析は部分モジュラー最適化の文脈では欠落している。
本稿では, アイテムの重量が同じ期待値であるが分散度が異なる場合に, 初めてこのような解析を行う。
本稿では, 与えられた最適解に対する定数近似比を決定論的条件から求めることによって, 高品質な解を得ることのできるグリーディアルゴリズムを提案する。
実験では,最大カバレッジ問題と影響最大化問題の複数インスタンスに対して,アルゴリズムが効果的に動作することを示した。 Chance constraints are frequently used to limit the probability of constraint violations in real-world optimization problems where the constraints involve stochastic components. We study chance-constrained submodular optimization problems, which capture a wide range of optimization problems with stochastic constraints. Previous studies considered submodular problems with stochastic knapsack constraints in the case where uncertainties are the same for each item that can be selected. However, uncertainty levels are usually variable with respect to the different stochastic components in real-world scenarios, and rigorous analysis for this setting is missing in the context of submodular optimization. This paper provides the first such analysis for this case, where the weights of items have the same expectation but different dispersion. We present greedy algorithms that can obtain a high-quality solution, i.e., a constant approximation ratio to the given optimal solution from the deterministic setting. In the experiments, we demonstrate that the algorithms perform effectively on several chance-constrained instances of the maximum coverage problem and the influence maximization problem. | 翻訳日:2023-09-27 17:07:08 公開日:2023-09-23 |
# COCO-Counterfactuals:イメージテキストペアの自動構築 COCO-Counterfactuals: Automatically Constructed Counterfactual Examples for Image-Text Pairs ( http://arxiv.org/abs/2309.14356v1 ) ライセンス: Link先を確認 | Tiep Le and Vasudev Lal and Phillip Howard | (参考訳) 対実例は、自然言語処理(NLP)の分野において、データセットの相関を刺激する言語モデルの堅牢性の評価と改善に有用であることが証明されている。
NLPの実用性が実証されているにもかかわらず、最小限の反ファクト変化を伴うペア画像テキストデータの作成が困難であるため、マルチモーダル・カウンティファクトの例は比較的探索されていない。
この課題に対処するために,テキストから画像への拡散モデルを用いた偽例の自動生成のためのスケーラブルなフレームワークを提案する。
我々は,MS-COCOデータセットをベースとした,ペア画像とテキストキャプションのマルチモーダル・デファクト・データセットであるCOCO-Counterfactualsを作成する。
我々は,COCO-Counterfactualsの品質を人間による評価により検証し,既存のマルチモーダルモデルが対物画像テキストペアによって挑戦されていることを示す。
さらに,COCO-Counterfactualsのトレーニングデータ拡張によるマルチモーダル視覚言語モデルのドメイン外一般化向上に有用であることを示す。 Counterfactual examples have proven to be valuable in the field of natural language processing (NLP) for both evaluating and improving the robustness of language models to spurious correlations in datasets. Despite their demonstrated utility for NLP, multimodal counterfactual examples have been relatively unexplored due to the difficulty of creating paired image-text data with minimal counterfactual changes. To address this challenge, we introduce a scalable framework for automatic generation of counterfactual examples using text-to-image diffusion models. We use our framework to create COCO-Counterfactuals, a multimodal counterfactual dataset of paired image and text captions based on the MS-COCO dataset. We validate the quality of COCO-Counterfactuals through human evaluations and show that existing multimodal models are challenged by our counterfactual image-text pairs. Additionally, we demonstrate the usefulness of COCO-Counterfactuals for improving out-of-domain generalization of multimodal vision-language models via training data augmentation. | 翻訳日:2023-09-27 17:06:51 公開日:2023-09-23 |
# COPA,AES-COPAおよび大理石認証暗号アルゴリズムに対する量子偽造攻撃 Quantum forgery attacks on COPA,AES-COPA and marble authenticated encryption algorithms ( http://arxiv.org/abs/2309.14368v1 ) ライセンス: Link先を確認 | Yinsong Xu, Wenjie Liu, Wenbin Yu | (参考訳) COPA、AES-COPA、マーブル認証暗号アルゴリズムに対する古典的な偽造攻撃は、約2^(n/2)回クエリする必要があるが、その成功確率は高くない。
この問題を解決するために、COPA、AES-COPA、マーブル認証暗号アルゴリズムに対する対応する量子偽造攻撃を示す。
我々は,COPAとAES-COPAに対する量子偽造攻撃において,重畳を問うことでCOPAとAES-COPAのタグ生成関数の周期をシモンのアルゴリズムを用いて探索し,新しいメッセージに対する偽タグを生成する。
コパ、aes-copa、およびマーブルに対する古典的な偽造攻撃と比較して、本攻撃はo(2^(n/2))からo(n)へのクエリ数を削減し、成功確率を100%まで向上させることができる。 The classic forgery attacks on COPA, AES-COPA and Marble authenticated encryption algorithms need to query about 2^(n/2) times, and their success probability is not high. To solve this problem, the corresponding quantum forgery attacks on COPA, AES-COPA and Marble authenticated encryption algorithms are presented. In the quantum forgery attacks on COPA and AES-COPA, we use Simon's algorithm to find the period of the tag generation function in COPA and AES-COPA by querying in superposition, and then generate a forged tag for a new message. In the quantum forgery attack on Marble, Simon's algorithm is used to recover the secret parameter L, and the forged tag can be computed with L. Compared with classic forgery attacks on COPA, AES-COPA and Marble, our attack can reduce the number of queries from O(2^(n/2)) to O(n) and improve success probability close to 100%. | 翻訳日:2023-09-27 16:56:55 公開日:2023-09-23 |
# 非理想的トレーニング集合に対するユニタリ重み付き一文量子パーセプトロンアルゴリズム A Unitary Weights Based One-Iteration Quantum Perceptron Algorithm for Non-Ideal Training Sets ( http://arxiv.org/abs/2309.14366v1 ) ライセンス: Link先を確認 | Wenjie Liu, Peipei Gao, Yuxiang Wang, Wenbin Yu, and Maojun Zhang | (参考訳) 非理想的訓練集合(すなわち、不完全または超完全集合)の問題を解き、単項学習を実現するために、ユニタリ重みに基づく新しい効率的な量子パーセプトロンアルゴリズムを提案し、トレーニング集合から全重み行列の特異値分解を計算し、重み行列をユニタリ化する。
量子ゲート {H, S, T, CNOT, Toffoli, Fredkin} の例は、我々のアルゴリズムが1回の反復で任意の量子ゲートを正確に実装できることを示している。
我々のアルゴリズムと他の量子パーセプトロンアルゴリズムのパフォーマンス比較は、適用性、精度、可用性の観点から、我々のアルゴリズムの利点を示している。
さらに,本アルゴリズムの適用性を検証するため,いくつかの基本量子ゲートからなる量子複合ゲートについても述べる。 In order to solve the problem of non-ideal training sets (i.e., the less-complete or over-complete sets) and implement one-iteration learning, a novel efficient quantum perceptron algorithm based on unitary weights is proposed, where the singular value decomposition of the total weight matrix from the training set is calculated to make the weight matrix to be unitary. The example validation of quantum gates {H, S, T, CNOT, Toffoli, Fredkin} shows that our algorithm can accurately implement arbitrary quantum gates within one iteration. The performance comparison between our algorithm and other quantum perceptron algorithms demonstrates the advantages of our algorithm in terms of applicability, accuracy, and availability. For further validating the applicability of our algorithm, a quantum composite gate which consists of several basic quantum gates is also illustrated. | 翻訳日:2023-09-27 16:56:33 公開日:2023-09-23 |
# 大規模言語モデルに基づく人工知能エージェントの詳細な調査 An In-depth Survey of Large Language Model-based Artificial Intelligence Agents ( http://arxiv.org/abs/2309.14365v1 ) ライセンス: Link先を確認 | Pengyu Zhao and Zijian Jin and Ning Cheng | (参考訳) 大規模言語モデル(llm)によって実証された強力な能力により、パフォーマンス向上のためにaiエージェントと統合する取り組みが最近急増している。
本稿では,LLMベースのAIエージェントと従来のAIエージェントのコアとなる違いと特徴について検討した。
具体的には,まずこれら2種類のエージェントの基本特性を比較し,自然言語処理,知識保存,推論能力におけるllmベースのエージェントの重要な利点を明らかにする。
その後、計画、記憶、ツール使用を含むAIエージェントの重要なコンポーネントの詳細な分析を行った。
特に,メモリの重要な構成要素として,従来の分類手法から脱却するだけでなく,aiエージェントのメモリシステムの設計に関する新たな視点を提供する革新的な分類手法を導入した。
私たちは、これらのコアコンポーネントの詳細な研究と理解が、AIエージェント技術の将来の進歩の確かな基盤となると強く信じています。
論文の最後には、この分野におけるさらなる研究に向けた方向性の提案を行い、この分野の研究者や研究者に貴重な洞察を提供したいと考えています。 Due to the powerful capabilities demonstrated by large language model (LLM), there has been a recent surge in efforts to integrate them with AI agents to enhance their performance. In this paper, we have explored the core differences and characteristics between LLM-based AI agents and traditional AI agents. Specifically, we first compare the fundamental characteristics of these two types of agents, clarifying the significant advantages of LLM-based agents in handling natural language, knowledge storage, and reasoning capabilities. Subsequently, we conducted an in-depth analysis of the key components of AI agents, including planning, memory, and tool use. Particularly, for the crucial component of memory, this paper introduced an innovative classification scheme, not only departing from traditional classification methods but also providing a fresh perspective on the design of an AI agent's memory system. We firmly believe that in-depth research and understanding of these core components will lay a solid foundation for the future advancement of AI agent technology. At the end of the paper, we provide directional suggestions for further research in this field, with the hope of offering valuable insights to scholars and researchers in the field. | 翻訳日:2023-09-27 16:56:18 公開日:2023-09-23 |
# Automata Quest: ゲームライフメカニックとしてのNCA Automata Quest: NCAs as a Video Game Life Mechanic ( http://arxiv.org/abs/2309.14364v1 ) ライセンス: Link先を確認 | Hiroki Sato, Tanner Lund, Takahide Yoshida, Atsushi Masumori | (参考訳) 我々は、ビデオゲームの歴史の過程を、その力学によって表現されるように研究する。
ジャンルや「キャラクタタイプ」によっていくつかのバリエーションがあるが、ほとんどのゲームは同様の表現に収束している。
また,コンウェイのゲーム・オブ・ライフ(最初のゼロプレイヤーゲームの一つ)と関連するオートマトンの開発についても検討した。
この歴史を念頭に置いて,ゲーム設定内での生活をより完全に表現し,新たなゲームメカニクスやゲームプレイループを革新する手段として,ニューラルセルオートマタ(Neural Cellular Automata)と呼ばれる人気オートマタの生存可能性を検討する。 We study life over the course of video game history as represented by their mechanics. While there have been some variations depending on genre or "character type", we find that most games converge to a similar representation. We also examine the development of Conway's Game of Life (one of the first zero player games) and related automata that have developed over the years. With this history in mind, we investigate the viability of one popular form of automata, namely Neural Cellular Automata, as a way to more fully express life within video game settings and innovate new game mechanics or gameplay loops. | 翻訳日:2023-09-27 16:56:02 公開日:2023-09-23 |
# 任意n-量子ビット状態決定論的遠隔準備のための特殊直交行列構築の不可能性 Infeasibility of constructing a special orthogonal matrix for the deterministic remote preparation of arbitrary n-qubit state ( http://arxiv.org/abs/2309.14363v1 ) ライセンス: Link先を確認 | Wenjie Liu, Zixian Li, Gonglin Yuan | (参考訳) 本稿では、任意のn-量子状態の決定論的リモート状態準備(DRSP)のための特別な直交行列を構築し、n>3が存在しないことを証明するための多項式複素性アルゴリズムを提案する。
まず、構成問題は2つのサブプロブレム、すなわち半直交行列の解を見つけ、すべての半直交行列を生成する。
マッチング作用素の定義と性質を与えることにより、特殊行列の直交性は多重マッチング作用素の協力と同値であることが証明され、構成問題はxor線形方程式系を解く問題に還元され、構成複雑性が指数関数から多項式レベルに減少する。
各半直交行列を一意な形式に単純化できることが証明されたので、提案するアルゴリズムを用いて、n>3 のとき一意形式が解を持たないことを確認する。 In this paper, we present a polynomial-complexity algorithm to construct a special orthogonal matrix for the deterministic remote state preparation (DRSP) of an arbitrary n-qubit state, and prove that if n>3, such matrices do not exist. Firstly, the construction problem is split into two sub-problems, i.e., finding a solution of a semi-orthogonal matrix and generating all semi-orthogonal matrices. Through giving the definitions and properties of the matching operators, it is proved that the orthogonality of a special matrix is equivalent to the cooperation of multiple matching operators, and then the construction problem is reduced to the problem of solving an XOR linear equation system, which reduces the construction complexity from exponential to polynomial level. Having proved that each semi-orthogonal matrix can be simplified into a unique form, we use the proposed algorithm to confirm that the unique form does not have any solution when n>3, which means it is infeasible to construct such a special orthogonal matrix for the DRSP of an arbitrary n-qubit state. | 翻訳日:2023-09-27 16:55:48 公開日:2023-09-23 |
# 外部自然質問による知識ベースによる多様な質問生成 Diversifying Question Generation over Knowledge Base via External Natural Questions ( http://arxiv.org/abs/2309.14362v1 ) ライセンス: Link先を確認 | Shasha Guo, Jing Zhang, Xirui Ke, Cuiping Li, Hong Chen | (参考訳) 知識ベース質問生成(KBQG)に関する従来の手法は、主に単一の質問の品質向上に重点を置いている。
ヒトの顕著な言い回し能力を認識し、多様なテキストは様々な表現を通して同じ意味を伝達すべきだと主張する。
上記の知見は、多様性の指標を評価することが第一の課題である、興味をそそる課題である。
現在の測定基準では、生成した質問そのもののユニークなn-グラムの比率を計算するため、上記の多様性を不適切に評価している。
そこで本研究では,各インスタンスに対するtop-k生成質問の多様性を計測し,基礎的真理との関連性を保証する新しい多様性評価指標を考案する。
第2の課題は,質問生成の多様化に関するものだ。
この課題に対処するために,2つの選択戦略が組み合わさった双対モデルフレームワークを導入し,外部の自然問題を活用した多様な質問を生成する。
2つのフレームワークの主なアイデアは、より多様な式を抽出し、それらを生成モデルに統合することで、質問生成の多様化を促進することです。
KBQGのための広範囲なベンチマーク実験により,提案手法は高度に多様な質問を発生させ,質問応答タスクの性能を向上することを示した。 Previous methods on knowledge base question generation (KBQG) primarily focus on enhancing the quality of a single generated question. Recognizing the remarkable paraphrasing ability of humans, we contend that diverse texts should convey the same semantics through varied expressions. The above insights make diversifying question generation an intriguing task, where the first challenge is evaluation metrics for diversity. Current metrics inadequately assess the above diversity since they calculate the ratio of unique n-grams in the generated question itself, which leans more towards measuring duplication rather than true diversity. Accordingly, we devise a new diversity evaluation metric, which measures the diversity among top-k generated questions for each instance while ensuring their relevance to the ground truth. Clearly, the second challenge is how to enhance diversifying question generation. To address this challenge, we introduce a dual model framework interwoven by two selection strategies to generate diverse questions leveraging external natural questions. The main idea of our dual framework is to extract more diverse expressions and integrate them into the generation model to enhance diversifying question generation. Extensive experiments on widely used benchmarks for KBQG demonstrate that our proposed approach generates highly diverse questions and improves the performance of question answering tasks. | 翻訳日:2023-09-27 16:55:28 公開日:2023-09-23 |
# 教師なし領域適応のためのドメイン誘導条件拡散モデル Domain-Guided Conditional Diffusion Model for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2309.14360v1 ) ライセンス: Link先を確認 | Yulong Zhang, Shuhao Chen, Weisen Jiang, Yu Zhang, Jiangang Lu, and James T. Kwok | (参考訳) 限られた転送性は、新しいアプリケーションシナリオに適用した場合、ディープラーニングモデルのパフォーマンスを妨げる。
最近、Unsupervised Domain Adaptation (UDA)はドメイン不変の機能を学ぶことでこの問題に対処する上で大きな進歩を遂げている。
しかし、既存のUDAメソッドの性能は、大きなドメインシフトと限られたターゲットドメインデータによって制約される。
この問題を軽減するために,対象領域に対して高い忠実度と多様性のサンプルを生成するために,dacdm(domain-guided conditional diffusion model)を提案する。
提案したDACDMでは、クラス情報を導入することにより、生成されたサンプルのラベルを制御でき、さらにDACDMにドメイン分類器を導入して、生成されたサンプルを対象ドメインに誘導する。
生成されたサンプルは、既存のUDAメソッドがソースドメインからターゲットドメインへの転送をより容易にするのに役立つ。
様々なベンチマーク実験により、DACDMは既存のUDAメソッドの性能に大きな改善をもたらすことが示された。 Limited transferability hinders the performance of deep learning models when applied to new application scenarios. Recently, Unsupervised Domain Adaptation (UDA) has achieved significant progress in addressing this issue via learning domain-invariant features. However, the performance of existing UDA methods is constrained by the large domain shift and limited target domain data. To alleviate these issues, we propose DomAin-guided Conditional Diffusion Model (DACDM) to generate high-fidelity and diversity samples for the target domain. In the proposed DACDM, by introducing class information, the labels of generated samples can be controlled, and a domain classifier is further introduced in DACDM to guide the generated samples for the target domain. The generated samples help existing UDA methods transfer from the source domain to the target domain more easily, thus improving the transfer performance. Extensive experiments on various benchmarks demonstrate that DACDM brings a large improvement to the performance of existing UDA methods. | 翻訳日:2023-09-27 16:55:09 公開日:2023-09-23 |
# 効率的な畳み込みニューラルネットワークにおける分離可能な畳み込みを加速するための深さ分解 Depth-wise Decomposition for Accelerating Separable Convolutions in Efficient Convolutional Neural Networks ( http://arxiv.org/abs/1910.09455v3 ) ライセンス: Link先を確認 | Yihui He, Jianing Qian, Jianren Wang, Cindy X. Le, Congrui Hetang, Qi Lyu, Wenping Wang, Tianwei Yue | (参考訳) 多くのコンピュータビジョンタスクの主要な手法として、非常に深い畳み込みニューラルネットワーク(CNN)が確立されている。
しかし、ほとんどの最先端CNNは巨大であり、高い推論遅延をもたらす。
近年,ロボットや自動運転車などの限られたプラットフォーム上での画像認識タスクにおいて,奥行き分離可能な畳み込みが提案されている。
通常の畳み込みよりもはるかに速いが、正確さは犠牲になる。
本稿では,SVDに基づく新しい分解手法,すなわち深度分解法を提案し,高精度を維持しつつ,正規畳み込みを深度分離可能な畳み込みに拡張する。
一般化特異値分解(GSVD: Generalized Singular Value Decomposition, GSVD) [59] に基づく多チャンネルおよび多層ケースにさらに一般化できることを示す。
我々は、ランダム合成データセットと大規模画像認識データセットの両方について、最新のShuffleNet V2モデル[47]で徹底的な実験を行う。
我々のアプローチは、すべてのデータセットでチャネル分解[73]を上回ります。
さらに重要なのは、ShuffleNet V2のTop-1精度を約2%向上させることです。 Very deep convolutional neural networks (CNNs) have been firmly established as the primary methods for many computer vision tasks. However, most state-of-the-art CNNs are large, which results in high inference latency. Recently, depth-wise separable convolution has been proposed for image recognition tasks on computationally limited platforms such as robotics and self-driving cars. Though it is much faster than its counterpart, regular convolution, accuracy is sacrificed. In this paper, we propose a novel decomposition approach based on SVD, namely depth-wise decomposition, for expanding regular convolutions into depthwise separable convolutions while maintaining high accuracy. We show our approach can be further generalized to the multi-channel and multi-layer cases, based on Generalized Singular Value Decomposition (GSVD) [59]. We conduct thorough experiments with the latest ShuffleNet V2 model [47] on both random synthesized dataset and a large-scale image recognition dataset: ImageNet [10]. Our approach outperforms channel decomposition [73] on all datasets. More importantly, our approach improves the Top-1 accuracy of ShuffleNet V2 by ~2%. | 翻訳日:2023-09-27 05:29:53 公開日:2023-09-23 |
# 無線リソース割り当てのためのグラフ強化学習 Graph Reinforcement Learning for Radio Resource Allocation ( http://arxiv.org/abs/2203.03906v2 ) ライセンス: Link先を確認 | Jianyu Zhao and Chenyang Yang | (参考訳) 資源配分のための深層強化学習 (DRL) は, モデルフリーとエンドツーエンドの問題に対処できるため, 広く研究されている。
しかし、DRLの高度トレーニングの複雑さは、ダイナミック無線システムにおける実用性を妨げている。
トレーニングコストを削減すべく,無線通信における多くの問題に固有の2種類の関係性,つまりトポロジ情報と置換特性を利用するグラフ強化学習を利用する。
グラフ強化学習フレームワークを体系的に設計することにより,まず状態行列を状態グラフに変換する手法を考え,その後,所望の置換特性を満たすグラフニューラルネットワークの一般的な手法を提案する。
提案手法の適用方法を示すために,2つの代表的な資源配分問題を最適化する例として,Deep Deterministic Policy gradient (DDPG) を用いる。
1つは、ビデオストリーミングを要求する各ユーザのサービス品質を保証するために消費されるエネルギーを最小化する予測電力割り当てである。
もう1つは、デバイス間通信の総和レートを最大化するリンクスケジューリングである。
シミュレーションの結果,グラフDDPGアルゴリズムは既存のDDPGアルゴリズムよりもはるかに高速に収束し,同じ学習性能を実現するためには,空間の複雑さがはるかに低いことがわかった。 Deep reinforcement learning (DRL) for resource allocation has been investigated extensively owing to its ability of handling model-free and end-to-end problems. Yet the high training complexity of DRL hinders its practical use in dynamic wireless systems. To reduce the training cost, we resort to graph reinforcement learning for exploiting two kinds of relational priors inherent in many problems in wireless communications: topology information and permutation properties. To design graph reinforcement learning framework systematically for harnessing the two priors, we first conceive a method to transform state matrix into state graph, and then propose a general method for graph neural networks to satisfy desirable permutation properties. To demonstrate how to apply the proposed methods, we take deep deterministic policy gradient (DDPG) as an example for optimizing two representative resource allocation problems. One is predictive power allocation that minimizes the energy consumed for ensuring the quality-ofservice of each user that requests video streaming. The other is link scheduling that maximizes the sum-rate for device-to-device communications. Simulation results show that the graph DDPG algorithm converges much faster and needs much lower space complexity than existing DDPG algorithms to achieve the same learning performance. | 翻訳日:2023-09-27 05:14:15 公開日:2023-09-23 |
# feddrive:自律運転における連合学習から意味セグメンテーションへの一般化 FedDrive: Generalizing Federated Learning to Semantic Segmentation in Autonomous Driving ( http://arxiv.org/abs/2202.13670v3 ) ライセンス: Link先を確認 | Lidia Fantauzzo, Eros Fan\`i, Debora Caldarola, Antonio Tavera, Fabio Cermelli, Marco Ciccone, Barbara Caputo | (参考訳) セマンティックセグメンテーション(Semantic Segmentation)は、自動運転車を自律的にし、個々のピクセルを既知のカテゴリに割り当てることで周囲を理解できるようにする。
しかし、ユーザの車から収集した賢明なデータに基づいており、クライアントのプライバシ保護が主要な関心事となっている。
同様の理由から、フェデレートラーニング(Federated Learning)は、プライバシを保持し、数百万のリモートデバイス上のデータを活用しながら、グローバルモデルを学ぶことを目的とした、新たな機械学習パラダイムとして最近導入された。
このトピックに対するいくつかの取り組みにもかかわらず、これまでの運転における意味セグメンテーションにおける連合学習の課題を明示的に取り組んだものはない。
このギャップを埋めるために,我々は,統計的異質性とドメインの一般化という現実世界の課題を取り入れた,3つの設定と2つのデータセットからなる新しいベンチマークであるfeeddriveを提案する。
我々は,その一般化能力を向上させるために,そのスタイル伝達手法と組み合わせ,深層分析により,フェデレートされた学習文献から得られた最先端のアルゴリズムをベンチマークする。
上記の課題に対処するためには,正規化統計を正しく扱うことが重要であることを実証する。
さらに、スタイル転送は、大きな外観シフトを扱う際のパフォーマンスを向上させる。
公式ウェブサイト: https://feddrive.github.io Semantic Segmentation is essential to make self-driving vehicles autonomous, enabling them to understand their surroundings by assigning individual pixels to known categories. However, it operates on sensible data collected from the users' cars; thus, protecting the clients' privacy becomes a primary concern. For similar reasons, Federated Learning has been recently introduced as a new machine learning paradigm aiming to learn a global model while preserving privacy and leveraging data on millions of remote devices. Despite several efforts on this topic, no work has explicitly addressed the challenges of federated learning in semantic segmentation for driving so far. To fill this gap, we propose FedDrive, a new benchmark consisting of three settings and two datasets, incorporating the real-world challenges of statistical heterogeneity and domain generalization. We benchmark state-of-the-art algorithms from the federated learning literature through an in-depth analysis, combining them with style transfer methods to improve their generalization ability. We demonstrate that correctly handling normalization statistics is crucial to deal with the aforementioned challenges. Furthermore, style transfer improves performance when dealing with significant appearance shifts. Official website: https://feddrive.github.io. | 翻訳日:2023-09-27 05:13:40 公開日:2023-09-23 |
# 集団コミュニケーションのための効率的な直接接続トポロジー Efficient Direct-Connect Topologies for Collective Communications ( http://arxiv.org/abs/2202.03356v3 ) ライセンス: Link先を確認 | Liangyu Zhao and Siddharth Pal and Tapan Chugh and Weiyang Wang and Jason Fantl and Prithwish Basu and Joud Khoury and Arvind Krishnamurthy | (参考訳) 集団コミュニケーションのための効率的なネットワークトポロジーを蒸留する問題を考える。
ワークロードに関連するレイテンシと帯域幅のトレードオフに最適化された直接接続トポロジを構築するためのアルゴリズムフレームワークを提供する。
提案手法は,与えられたクラスタサイズと度合いの様々なトポロジとスケジュールを合成し,与えられたワークロードの適切なトポロジとスケジュールを特定する。
我々のアルゴリズムは、小さな最適なベーストポロジと関連する通信スケジュールから始まり、より大きなトポロジとスケジュールを導出するために反復的に適用可能な一連のテクニックを使用する。
さらに,新しい多項式時間アルゴリズムを用いて効率的な集合スケジュールを生成することにより,大規模グラフトポロジをアルゴリズムフレームワークに組み込む。
評価では,複数のテストベッドと大規模シミュレーションを用いて,派生したトポロジやスケジュールから大きなパフォーマンス上のメリットを示す。 We consider the problem of distilling efficient network topologies for collective communications. We provide an algorithmic framework for constructing direct-connect topologies optimized for the latency vs. bandwidth trade-off associated with the workload. Our approach synthesizes many different topologies and schedules for a given cluster size and degree and then identifies the appropriate topology and schedule for a given workload. Our algorithms start from small, optimal base topologies and associated communication schedules and use a set of techniques that can be iteratively applied to derive much larger topologies and schedules. Additionally, we incorporate well-studied large-scale graph topologies into our algorithmic framework by producing efficient collective schedules for them using a novel polynomial-time algorithm. Our evaluation uses multiple testbeds and large-scale simulations to demonstrate significant performance benefits from our derived topologies and schedules. | 翻訳日:2023-09-27 05:12:45 公開日:2023-09-23 |
# 古典カオスをシミュレートした量子システムにおけるスケール間絡み合い生成 Interscale entanglement production in a quantum system simulating classical chaos ( http://arxiv.org/abs/2201.09217v3 ) ライセンス: Link先を確認 | Taiki Haga and Shin-ichi Sasa | (参考訳) 古典的カオスの普遍的概念が量子力学の微視的記述からどのように現れるかという根本的な問題である。
ここでは量子力学の枠組みで標準古典カオスを研究する。
特に、適切な連続体極限の後に古典的カオスを正確にシミュレートする量子格子系を設計、これは「ハミルトニアン方程式極限」と呼ばれる。
解析の重要な概念は、格子を等しい大きさの多くのブロックに分割し、各ブロック内の自由度を追跡することによって定義される絡み合いエントロピーである。
このエントロピーを「相互に絡み合うエントロピー」と呼ぶのは、各ブロック内の微小自由度と波動関数の大規模構造を定義する巨視的自由度との間の絡み合いの量を測定するためである。
キックロータのハミルトニアンに対応する量子格子系を数値的にシミュレートすることにより、ハミルトニアン方程式の極限でカオスが発生するときのみ、スケール間エンタングルメントエントロピーの長時間平均は正となり、初期段階におけるエントロピーの成長速度は対応する古典系の粗粒度ギブスエントロピーのそれと比例することがわかった。 It is a fundamental problem how the universal concept of classical chaos emerges from the microscopic description of quantum mechanics. We here study standard classical chaos in a framework of quantum mechanics. In particular, we design a quantum lattice system that exactly simulates classical chaos after an appropriate continuum limit, which is called the "Hamiltonian equation limit". The key concept of our analysis is an entanglement entropy defined by dividing the lattice into many blocks of equal size and tracing out the degrees of freedom within each block. We refer to this entropy as the "interscale entanglement entropy" because it measures the amount of entanglement between the microscopic degrees of freedom within each block and the macroscopic degrees of freedom that define the large-scale structure of the wavefunction. By numerically simulating a quantum lattice system corresponding to the Hamiltonian of the kicked rotor, we find that the long-time average of the interscale entanglement entropy becomes positive only when chaos emerges in the Hamiltonian equation limit, and the growth rate of the entropy in the initial stage is proportional to that of the coarse-grained Gibbs entropy of the corresponding classical system. | 翻訳日:2023-09-27 05:12:30 公開日:2023-09-23 |
# Ta2NiSe5におけるフォノンスクイーズによる時間結晶挙動の理論 Theory of time-crystalline behaviour mediated by phonon squeezing in Ta2NiSe5 ( http://arxiv.org/abs/2207.08851v2 ) ライセンス: Link先を確認 | Marios H. Michael, Sheikh Rubaiat Ul Haque, Lukas Windgaetter, Simone Latini, Yuan Zhang, Angel Rubio, Richard D. Averitt, Eugene Demler | (参考訳) 本稿では,光励起によるフォトニック時間結晶の挙動を,励起絶縁体候補である$\rm{Ta_2 Ni Se_5}$の電子ギャップ上で理論的に検討する。
電子光励起後、電子-フォノンカップリングは、フォノン揺らぎの周期的振動によって特徴づけられる、非慣習的な圧縮フォノン状態をもたらす。
スクイーズ振動はフォトニック時間結晶の挙動を引き起こす。
フォトニック時間結晶の挙動のキーサインは、狭い周波数帯における反射率の THz 増幅である。
この理論は、短いパルスによる光励起が予測された特徴を持つテラヘルツ反射率の向上につながる$\rm{Ta_2 Ni Se_5}$の実験結果によって支持される。
本稿では、アブ・イニシアト DFT 計算によって有効性が支持される単純化ハミルトニアンの観点から THz 増幅に繋がる鍵機構を説明する。
我々の理論は、励起された$\rm{Ta_2 Ni Se_5}$は利得媒質であり、圧縮されたフォノンノイズは、THz通信アプリケーションでTHz増幅器を作成するために用いられることを実証している。 We theoretically investigate photonic time-crystalline behaviour initiated by optical excitation above the electronic gap of the excitonic insulator candidate $\rm{Ta_2 Ni Se_5}$. We show that after electron photoexcitation, electron-phonon coupling leads to an unconventional squeezed phonon state, characterised by periodic oscillations of phonon fluctuations. Squeezing oscillations lead to photonic time crystalline behaviour. The key signature of the photonic time crystalline behaviour is THz amplification of reflectivity in a narrow frequency band. The theory is supported by experimental results on $\rm{Ta_2 Ni Se_5}$ where photoexcitation with short pulses leads to enhanced terahertz reflectivity with the predicted features. We explain the key mechanism leading to THz amplification in terms of a simplified Hamiltonian whose validity is supported by ab-initio DFT calculations. Our theory suggests that the pumped $\rm{Ta_2 Ni Se_5}$ is a gain medium, demonstrating that squeezed phonon noise may be used to create THz amplifiers in THz communication applications. | 翻訳日:2023-09-27 05:04:55 公開日:2023-09-23 |
# 遺伝的ドリフトの理解から分布推定アルゴリズムのスマートリスタート機構へ From Understanding Genetic Drift to a Smart-Restart Mechanism for Estimation-of-Distribution Algorithms ( http://arxiv.org/abs/2206.09090v4 ) ライセンス: Link先を確認 | Weijie Zheng, Benjamin Doerr | (参考訳) 推定分布アルゴリズム(EDAs)は、優れた解を容易にサンプリングできる探索空間上の分布を学習する最適化アルゴリズムである。
ほとんどのEDAのキーパラメータはサンプルサイズ(集団サイズ)である。
集団サイズが小さすぎると、確率モデルの更新は少数のサンプルの上に構築され、遺伝的ドリフトの望ましくない影響をもたらす。
人口が多すぎると遺伝的ドリフトは避けられますが、プロセスは遅くなります。
集団の大きさが遺伝的ドリフトにどのように繋がるかの最近の定量的分析に基づいて、我々はEDAのためのスマートリスタート機構を設計する。
遺伝的ドリフトのリスクが高い場合に実行を停止することで、適切なパラメータで自動的にedaを実行します。
数学的な実行時解析により、このスマートリスタート方式の一般的な性能保証が証明される。
特に、最適パラメータ値が知られている多くの状況において、再起動スキームが自動的にこれらを見つけ出し、漸近的に最適な性能をもたらすことが示されている。
広範な実験分析も行っています。
4つの古典的なベンチマーク問題において,個体群の大きさが性能に与える影響を明らかに観察し,スマートリスタート方式が最適なパラメータ値で得られるものに近い性能をもたらすことを見出した。
また, 最適個体数に対する従来の理論に基づく提案は, 最適個体数とは程遠い可能性を示し, スマートリスタート方式によって得られた提案よりも明らかに性能が劣ることを示した。
また,2つの組合せ最適化問題,最大カット問題,分割問題についてもPBIL(クロスエントロピーアルゴリズム)を用いて実験を行った。
繰り返しになるが、スマートリスタート機構は文献で示唆されているものよりも人口規模に対してはるかに優れた値を見出すので、パフォーマンスが向上する。 Estimation-of-distribution algorithms (EDAs) are optimization algorithms that learn a distribution on the search space from which good solutions can be sampled easily. A key parameter of most EDAs is the sample size (population size). If the population size is too small, the update of the probabilistic model builds on few samples, leading to the undesired effect of genetic drift. Too large population sizes avoid genetic drift, but slow down the process. Building on a recent quantitative analysis of how the population size leads to genetic drift, we design a smart-restart mechanism for EDAs. By stopping runs when the risk for genetic drift is high, it automatically runs the EDA in good parameter regimes. Via a mathematical runtime analysis, we prove a general performance guarantee for this smart-restart scheme. This in particular shows that in many situations where the optimal (problem-specific) parameter values are known, the restart scheme automatically finds these, leading to the asymptotically optimal performance. We also conduct an extensive experimental analysis. On four classic benchmark problems, we clearly observe the critical influence of the population size on the performance, and we find that the smart-restart scheme leads to a performance close to the one obtainable with optimal parameter values. Our results also show that previous theory-based suggestions for the optimal population size can be far from the optimal ones, leading to a performance clearly inferior to the one obtained via the smart-restart scheme. We also conduct experiments with PBIL (cross-entropy algorithm) on two combinatorial optimization problems from the literature, the max-cut problem and the bipartition problem. Again, we observe that the smart-restart mechanism finds much better values for the population size than those suggested in the literature, leading to a much better performance. | 翻訳日:2023-09-27 05:02:26 公開日:2023-09-23 |
# グラフ上のノード注入攻撃のための逆カモフラージュ Adversarial Camouflage for Node Injection Attack on Graphs ( http://arxiv.org/abs/2208.01819v4 ) ライセンス: Link先を確認 | Shuchang Tao, Qi Cao, Huawei Shen, Yunfan Wu, Liang Hou, Fei Sun, Xueqi Cheng | (参考訳) グラフニューラルネットワーク(GNN)に対するノードインジェクション攻撃は、GNNのパフォーマンスを高い攻撃成功率で低下させる能力のため、近年注目を集めている。
しかし,本研究は,本手法が注入されたノードを容易に識別し除去できるため,実際のシナリオではこれらの攻撃が失敗することが多いことを示唆する。
これを解決するため,我々はカモフラージュノードインジェクション攻撃(camouflage node Injection attack)に取り組んだ。
残念ながら、グラフデータの非ユークリッド構造と直感的な事前の欠如は、カモフラージュの形式化、実装、評価に大きな課題をもたらす。
本稿ではまず,注入ノードと正規ノードのエゴネットワーク間の分布類似性としてカモフラージュを提案し,定義する。
そこで,本研究では,ノードインジェクション攻撃のための逆カモフラージュフレームワーク cana を提案する。
新たなカモフラージュ計量はさらに分布類似性のガイドの下で設計されている。
広範囲な実験により、カナは高いカモフラージュまたは非感受性で防御/検出法の下で攻撃性能を著しく向上できることが示されている。
本研究は,実用アプリケーションにおけるGNNのセキュリティ脆弱性の認識を高めることを促す。 Node injection attacks on Graph Neural Networks (GNNs) have received increasing attention recently, due to their ability to degrade GNN performance with high attack success rates. However, our study indicates that these attacks often fail in practical scenarios, since defense/detection methods can easily identify and remove the injected nodes. To address this, we devote to camouflage node injection attack, making injected nodes appear normal and imperceptible to defense/detection methods. Unfortunately, the non-Euclidean structure of graph data and the lack of intuitive prior present great challenges to the formalization, implementation, and evaluation of camouflage. In this paper, we first propose and define camouflage as distribution similarity between ego networks of injected nodes and normal nodes. Then for implementation, we propose an adversarial CAmouflage framework for Node injection Attack, namely CANA, to improve attack performance under defense/detection methods in practical scenarios. A novel camouflage metric is further designed under the guide of distribution similarity. Extensive experiments demonstrate that CANA can significantly improve the attack performance under defense/detection methods with higher camouflage or imperceptibility. This work urges us to raise awareness of the security vulnerabilities of GNNs in practical applications. | 翻訳日:2023-09-27 04:52:55 公開日:2023-09-23 |
# 生成型逆ネットワークモデルによる水中画像の超解像 Underwater Image Super-Resolution using Generative Adversarial Network-based Model ( http://arxiv.org/abs/2211.03550v4 ) ライセンス: Link先を確認 | Alireza Aghelan, Modjtaba Rouhani | (参考訳) 単一画像超解像モデル(SISR)は、水中画像の解像度と視覚的品質を高め、水中環境のより良い理解に寄与する。
これらのモデルをAUV(Autonomous Underwater Vehicles)に統合することで、視覚ベースのタスクのパフォーマンスを向上させることができる。
Real-Enhanced Super-Resolution Generative Adversarial Network (Real-ESRGAN)は、SISRモデル間で顕著な性能を示す効率的なモデルである。
本稿では,水中画像の超解像のための事前訓練されたReal-ESRGANモデルを微調整する。
モデルの性能を微調整し評価するために,USR-248データセットを用いる。
微調整されたモデルは、実際のesrganモデルよりも優れた視覚品質を持つより現実的な画像を生成する。 Single image super-resolution (SISR) models are able to enhance the resolution and visual quality of underwater images and contribute to a better understanding of underwater environments. The integration of these models in Autonomous Underwater Vehicles (AUVs) can improve their performance in vision-based tasks. Real-Enhanced Super-Resolution Generative Adversarial Network (Real-ESRGAN) is an efficient model that has shown remarkable performance among SISR models. In this paper, we fine-tune the pre-trained Real-ESRGAN model for underwater image super-resolution. To fine-tune and evaluate the performance of the model, we use the USR-248 dataset. The fine-tuned model produces more realistic images with better visual quality compared to the Real-ESRGAN model. | 翻訳日:2023-09-27 04:43:35 公開日:2023-09-23 |
# ロボットの事前訓練:オフラインRLで試行錯誤から新しいタスクを学習できる Pre-Training for Robots: Offline RL Enables Learning New Tasks from a Handful of Trials ( http://arxiv.org/abs/2210.05178v3 ) ライセンス: Link先を確認 | Aviral Kumar, Anikait Singh, Frederik Ebert, Mitsuhiko Nakamoto, Yanlai Yang, Chelsea Finn, Sergey Levine | (参考訳) 深層学習の進歩は、効果的な一般化を達成するために多様なロボットデータセットを利用するという驚くべき可能性を浮き彫りにしている。
しかし、実際には、私たちは多くの場合、以前のデータに含まれない新しい環境で新しいスキルを学びたいと思っています。
そこで、我々はどのようにして既存の多様なオフラインデータセットを、少数のタスク固有のデータと組み合わせて新しいタスクを解決し、大量のデータに対するトレーニングの一般化の利点を享受できるか?
本稿では,表現学習や視覚に基づく事前学習を必要とせずに,エンドツーエンドのオフラインRLが効果的に実現可能であることを示す。
我々は、既存のロボットデータセットの事前学習と新しいタスクの迅速な微調整を組み合わせることで、新しいタスクを効果的に学習するオフラインRLに基づくフレームワークであるPTR(Pre-training for Robot)を提案する。
PTRは、既存のオフラインのRLメソッド、保守的Qラーニング(CQL)を使用しているが、PTRが実際に動作し、さまざまな先行メソッドを上回る性能を発揮するための重要な設計決定を含むように拡張されている。
我々の知る限り、PTRは、さまざまなおもちゃのキッチンで収集された多様なマルチタスクロボットデータのデータセットを効果的に活用することで、実際のWidowXロボットの新しいドメインで10個のタスクデモを行うのに成功する最初のRL手法である。
我々はまた、PTRがデモを必要とせずに、少数の試験において効果的な自律的な微調整と改善を可能にすることを実証した。
付随する概要ビデオは補足資料とtiのurlで見ることができる。 https://sites.google.com/view/ptr-final/ Progress in deep learning highlights the tremendous potential of utilizing diverse robotic datasets for attaining effective generalization and makes it enticing to consider leveraging broad datasets for attaining robust generalization in robotic learning as well. However, in practice, we often want to learn a new skill in a new environment that is unlikely to be contained in the prior data. Therefore we ask: how can we leverage existing diverse offline datasets in combination with small amounts of task-specific data to solve new tasks, while still enjoying the generalization benefits of training on large amounts of data? In this paper, we demonstrate that end-to-end offline RL can be an effective approach for doing this, without the need for any representation learning or vision-based pre-training. We present pre-training for robots (PTR), a framework based on offline RL that attempts to effectively learn new tasks by combining pre-training on existing robotic datasets with rapid fine-tuning on a new task, with as few as 10 demonstrations. PTR utilizes an existing offline RL method, conservative Q-learning (CQL), but extends it to include several crucial design decisions that enable PTR to actually work and outperform a variety of prior methods. To our knowledge, PTR is the first RL method that succeeds at learning new tasks in a new domain on a real WidowX robot with as few as 10 task demonstrations, by effectively leveraging an existing dataset of diverse multi-task robot data collected in a variety of toy kitchens. We also demonstrate that PTR can enable effective autonomous fine-tuning and improvement in a handful of trials, without needing any demonstrations. An accompanying overview video can be found in the supplementary material and at thi URL: https://sites.google.com/view/ptr-final/ | 翻訳日:2023-09-27 04:42:39 公開日:2023-09-23 |
# 一般化Permutohedraによる最大プール応答の列挙 Enumeration of max-pooling responses with generalized permutohedra ( http://arxiv.org/abs/2209.14978v2 ) ライセンス: Link先を確認 | Laura Escobar, Patricio Gallardo, Javier Gonz\'alez-Anaya, Jos\'e L. Gonz\'alez, Guido Mont\'ufar and Alejandro H. Morales | (参考訳) 入力座標のシフトウィンドウを最大にすることで入力配列をダウンサンプルし、畳み込みニューラルネットワークでよく使用される関数であるmax-pooling layerの組合せについて検討する。
単純度のあるミンコフスキー和の頂点数を同値に数えることで、これらの関数の線型性領域の数に関する結果を得る。
このようなポリトープの面を特徴付けるとともに、プール窓やストライドの大きさに応じて1Dマックスプーリング層における頂点数と面数の生成関数と閉式を得るとともに、2Dマックスプーリングの特別な場合において頂点数を求める。 We investigate the combinatorics of max-pooling layers, which are functions that downsample input arrays by taking the maximum over shifted windows of input coordinates, and which are commonly used in convolutional neural networks. We obtain results on the number of linearity regions of these functions by equivalently counting the number of vertices of certain Minkowski sums of simplices. We characterize the faces of such polytopes and obtain generating functions and closed formulas for the number of vertices and facets in a 1D max-pooling layer depending on the size of the pooling windows and stride, and for the number of vertices in a special case of 2D max-pooling. | 翻訳日:2023-09-27 04:41:45 公開日:2023-09-23 |
# d次元ベル状態を用いた単一状態多人数半量子秘密共有 Single-state multiparty semiquantum secret sharing with d-dimensional Bell states ( http://arxiv.org/abs/2209.11391v2 ) ライセンス: Link先を確認 | Ying Chen, Zhi-Gang Gan, Tian-Yu Ye | (参考訳) D次元ベル状態を持つ単一状態多人数秘密共有(MSQSS)方式が提案され、全ての受信機が協調して動作する場合にのみ送信者の秘密鍵を復元できるという目標を達成することができる。
このプロトコルは、外部攻撃と参加者攻撃の両方に対して安全であることが検証される。
このプロトコルは、D次元システムに適応し、1種類のD次元ベル状態のみを初期量子資源として使用し、量子エンタングルメントスワッピングもユニタリ演算も必要としない。 A single-state multiparty semiquantum secret sharing (MSQSS) scheme with d-dimensional Bell states is proposed, which can accomplish the goal that only when all receivers work together can they restore the sender's secret key. This protocol is validated to be secure against both the outside attack and the participant attack. This protocol is adaptive for the d-dimensional system, only employs one kind of d-dimensional Bell states as initial quantum resource and needs neither quantum entanglement swapping nor unitary operations. | 翻訳日:2023-09-27 04:41:32 公開日:2023-09-23 |
# ルートフィンディング問題に対するランダム化ブロック座標最適勾配アルゴリズム Randomized Block-Coordinate Optimistic Gradient Algorithms for Root-Finding Problems ( http://arxiv.org/abs/2301.03113v3 ) ライセンス: Link先を確認 | Quoc Tran-Dinh | (参考訳) 本稿では,非線形方程式の大規模解を近似する2つのランダム化ブロック座標勾配アルゴリズムを考案し,これをルートフィンディング問題と呼ぶ。
我々の最初のアルゴリズムは、一定の段数で加速されず、$\mathcal{O}(1/k)$ best-iterate convergence rate on $\mathbb{E}[ \Vert Gx^k\Vert^2]$ となると、基礎作用素 $G$ がリプシッツ連続で弱ミンティ解条件を満たすとき、$\mathbb{E}[\cdot]$ は期待値であり、$k$ は反復カウンタである。
第2の方法は,新しいランダム化ブロック座標勾配アルゴリズムである。
このアルゴリズムに対して,$\mathbb{e}[ \vert gx^k\vert^2]$と$\mathbb{e}[ \vert x^{k+1}x^{k}\vert^2]$の両方において,$\mathcal{o}(1/k^2)$と$o(1/k^2)$とラストイテレート収束率を両立する。
さらに、反復列 $\{x^k\}$ が解にほぼ確実に収束し、$\Vert Gx^k\Vert^2$ が $o(1/k)$ ほぼ確実に収束することを示す。
そこで我々は,機械学習,統計的学習,ネットワーク最適化,特にフェデレート学習における顕著な応用を網羅した大規模有限サム包含のクラスに適用した。
そこで本研究では,2つの連関学習型アルゴリズムと,それらの収束率の保証を得た。 In this paper, we develop two new randomized block-coordinate optimistic gradient algorithms to approximate a solution of nonlinear equations in large-scale settings, which are called root-finding problems. Our first algorithm is non-accelerated with constant stepsizes, and achieves $\mathcal{O}(1/k)$ best-iterate convergence rate on $\mathbb{E}[ \Vert Gx^k\Vert^2]$ when the underlying operator $G$ is Lipschitz continuous and satisfies a weak Minty solution condition, where $\mathbb{E}[\cdot]$ is the expectation and $k$ is the iteration counter. Our second method is a new accelerated randomized block-coordinate optimistic gradient algorithm. We establish both $\mathcal{O}(1/k^2)$ and $o(1/k^2)$ last-iterate convergence rates on both $\mathbb{E}[ \Vert Gx^k\Vert^2]$ and $\mathbb{E}[ \Vert x^{k+1} - x^{k}\Vert^2]$ for this algorithm under the co-coerciveness of $G$. In addition, we prove that the iterate sequence $\{x^k\}$ converges to a solution almost surely, and $\Vert Gx^k\Vert^2$ attains a $o(1/k)$ almost sure convergence rate. Then, we apply our methods to a class of large-scale finite-sum inclusions, which covers prominent applications in machine learning, statistical learning, and network optimization, especially in federated learning. We obtain two new federated learning-type algorithms and their convergence rate guarantees for solving this problem class. | 翻訳日:2023-09-27 04:24:33 公開日:2023-09-23 |
# StitchNet: トレーニング済みフラグメントからニューラルネットワークを構成する StitchNet: Composing Neural Networks from Pre-Trained Fragments ( http://arxiv.org/abs/2301.01947v3 ) ライセンス: Link先を確認 | Surat Teerapittayanon, Marcus Comiter, Brad McDanel, H.T. Kung | (参考訳) 複数のトレーニング済みニューラルネットワークから断片(1つ以上の連続的なネットワーク層)を縫合する新しいニューラルネットワーク生成パラダイムであるStitchNetを提案する。
StitchNetは、バックプロパゲーショントレーニングを通じて、従来のモデル作成プロセスで必要となる大きな計算とデータを必要とすることなく、高性能なニューラルネットワークを作成することができる。
我々はCKA(Centered Kernel Alignment)を互換性尺度として利用し、特定の精度のニーズやリソース制約に合わせたタスクのネットワークを構成する際に、これらのフラグメントの選択を効率的に導く。
そして、これらの断片を縫い合わせることで、従来の訓練されたネットワークに匹敵する精度のニューラルネットワークを、わずかな計算資源とデータ要求で作成できることを示した。
最後に,この新たなパラダイムによって実現されたモデル生成と推論アプリケーションについて検討する。
コードはhttps://github.com/steerapi/stitchnetで入手できる。 We propose StitchNet, a novel neural network creation paradigm that stitches together fragments (one or more consecutive network layers) from multiple pre-trained neural networks. StitchNet allows the creation of high-performing neural networks without the large compute and data requirements needed under traditional model creation processes via backpropagation training. We leverage Centered Kernel Alignment (CKA) as a compatibility measure to efficiently guide the selection of these fragments in composing a network for a given task tailored to specific accuracy needs and computing resource constraints. We then show that these fragments can be stitched together to create neural networks with accuracy comparable to that of traditionally trained networks at a fraction of computing resource and data requirements. Finally, we explore a novel on-the-fly personalized model creation and inference application enabled by this new paradigm. The code is available at https://github.com/steerapi/stitchnet. | 翻訳日:2023-09-27 04:23:50 公開日:2023-09-23 |
# 量子アニール用4軸ネットワーク微小埋め込み 4-clique Network Minor Embedding for Quantum Annealers ( http://arxiv.org/abs/2301.08807v3 ) ライセンス: Link先を確認 | Elijah Pelofske | (参考訳) 組合せ最適化問題の解法として量子アニール法を提案する。
現在の量子アニーリングハードウェアは比較的スパースであり、そのため任意に構成された問題をスパースで比較的小さな量子アニーリングプロセッサにマッピングするためにグラフの小さな埋め込みが必要である。
本論文は, 4-clique minor embeddeding と呼ばれる新しいマイナー埋め込み手法を提案する。
これは、論理変数状態を表すために線形連結キュービットの経路を使用する標準的なマイナー埋め込み手法とは対照的である。
ペガサスグラフ接続(ペガサスグラフ接続、ペガサスグラフ接続)は、現在のD-Wave量子アニールのネイティブなハードウェアグラフである。
ペガサス・ハードウエアグラフは多くの四角形を持ち、接続された四角形からなるグラフを構成することができ、その上で問題に小さな埋め込みが可能である。
4-cliqueチェーンは、ハードウェアグラフにqubitを追加使用するコストがかかるが、各チェーン内の結合性が強くなり、チェーン整合性が向上し、チェーン切断が削減される。
この4軸の小さな埋め込み技術は、ペガサスのハードウェアグラフを持つ2つのD-Wave量子アニールプロセッサの実験により、標準線形パスのマイナー埋め込みと比較される。
4-clique minor embeddedsは弱鎖強度を持つ線形経路マイナー埋め込みとは対照的に、無作為な全対全スピングラス問題例を最小化する計算を成功させながら弱鎖強度を用いることができる。
この研究は、非標準のマイナー埋め込みメソッドが有用であることを示している。
将来の量子アニーリングアーキテクチャでは、線形経路の代わりにハードウェアのより密結合した領域に小さな埋め込みを分散することで、小さな埋め込み問題に対するより堅牢な計算が可能になる。 Quantum annealing is a proposed algorithm for computing solutions to combinatorial optimization problems. Current quantum annealing hardware is relatively sparse and therefore requires graph minor embedding in order to map an arbitrarily structured problem onto the sparse, and relatively small, quantum annealing processor. This paper proposes a new minor embedding method called 4-clique minor embedding. This is in contrast to the standard minor embedding technique of using a path of linearly connected qubits in order to represent a logical variable state. The 4-clique minor embedding is possible because of Pegasus graph connectivity, which is the native hardware graph for some of the current D-Wave quantum annealers. The Pegasus hardware graph has many 4-cliques, and it is possible to form a graph composed entirely of paths of connected 4-cliques, on which a problem can be minor embedded. The 4-clique chains come at the cost of additional qubit usage on the hardware graph, but they allow for stronger coupling within each chain thereby increasing chain integrity and reducing chain breaks. This 4-clique minor embedding technique is described in detail, and is compared against the standard linear path minor embedding with some experiments on two D-Wave quantum annealing processors with Pegasus hardware graphs. 4-clique minor embeddings can use weak chain strengths while successfully carrying out the computation of minimizing random all-to-all spin glass problem instances, in contrast to the linear path minor embeddings which have high chain break frequencies for weak chain strengths. This work shows that non standard minor embedding methods could be useful. For future quantum annealing architectures, distributing minor embeddings over more densely connected regions of hardware instead of linear paths may provide more robust computations for minor embedding problems. | 翻訳日:2023-09-27 04:14:59 公開日:2023-09-23 |
# 一般活性化を伴う深部平衡モデルの大域収束速度 Global Convergence Rate of Deep Equilibrium Models with General Activations ( http://arxiv.org/abs/2302.05797v2 ) ライセンス: Link先を確認 | Lan V. Truong | (参考訳) lingらは最近の論文で、reluアクティベーションを伴う超パラメータ深層平衡モデル(deq)を調査した。
彼らは勾配降下が二次損失関数の線形収束率でグローバルに最適解に収束することを示した。
本稿は、この事実が第一導関数と第二導関数に有界な任意の一般活性化を持つDEQに対して依然として成り立つことを示す。
新しい活性化関数は一般に非線形であるため、平衡点のグラム行列の最小固有値の境界は特に困難である。
この課題を達成するには、新しい人口グラム行列を作成し、エルマイト多項式展開による新しい2重活性化形式を開発する必要がある。 In a recent paper, Ling et al. investigated the over-parametrized Deep Equilibrium Model (DEQ) with ReLU activation. They proved that the gradient descent converges to a globally optimal solution at a linear convergence rate for the quadratic loss function. This paper shows that this fact still holds for DEQs with any general activation that has bounded first and second derivatives. Since the new activation function is generally non-linear, bounding the least eigenvalue of the Gram matrix of the equilibrium point is particularly challenging. To accomplish this task, we need to create a novel population Gram matrix and develop a new form of dual activation with Hermite polynomial expansion. | 翻訳日:2023-09-27 04:03:12 公開日:2023-09-23 |
# 表層水中における水文汚染物質輸送の追跡のためのグラフベースモデリングフレームワーク A Graph-Based Modeling Framework for Tracing Hydrological Pollutant Transport in Surface Waters ( http://arxiv.org/abs/2302.04991v3 ) ライセンス: Link先を確認 | David L. Cole, Gerardo J. Ruiz-Mercado, Victor M. Zavala | (参考訳) 人為的な水系汚染は世界中の多様な地域社会や生態系に影響を及ぼす。
データ分析とモデリングツールは、重要なソースの特定、トレース輸送、複雑な水文学システムにおける影響の定量化に役立つため、この課題と戦う上で重要な役割を果たす。
詳細な物理モデルを用いて汚染物質輸送をシミュレートし、追跡するためのツールがいくつか存在する。これらのツールは強力だが、計算集約性があり、開発するためには大量のデータを必要とし、専門家の知識を必要としている(究極的には適用範囲を制限している)。
本研究では,水域,河川,流域を横断する汚染物質輸送と運命を理解するためのグラフモデリングフレームワーク(${\tt hydrographs}$)を提案する。
このフレームワークは、純粋なオープンソースデータ(National Hydrography DatasetとWatershed Boundary Dataset)に基づいて構築できる、水文システムの簡易表現を使用する。
グラフ表現は、接続性を捉えるための柔軟な直感的なアプローチを提供し、上流の汚染物質源を特定し、小規模で大規模な水文システム内の下流の衝撃をトレースする。
さらにグラフ表現は、グラフ理論、トポロジー、最適化、機械学習などの高度なアルゴリズムとツールを使用して、データ分析と意思決定を支援する。
我々は,ウィスコンシン州におけるケーススタディを用いて,農業慣行から発生する上流の栄養素汚染源を特定し,下流の水域,河川,河川への影響を追跡することを目的とした。
我々のツールは、ステークホルダーが効果的な汚染防止・緩和のプラクティスを設計し、表面の水がそのようなプラクティスにどのように反応するかを評価するのに役立ちます。 Anthropogenic pollution of hydrological systems affects diverse communities and ecosystems around the world. Data analytics and modeling tools play a key role in fighting this challenge, as they can help identify key sources as well as trace transport and quantify impact within complex hydrological systems. Several tools exist for simulating and tracing pollutant transport throughout surface waters using detailed physical models; these tools are powerful, but can be computationally intensive, require significant amounts of data to be developed, and require expert knowledge for their use (ultimately limiting application scope). In this work, we present a graph modeling framework -- which we call ${\tt HydroGraphs}$ -- for understanding pollutant transport and fate across waterbodies, rivers, and watersheds. This framework uses a simplified representation of hydrological systems that can be constructed based purely on open-source data (National Hydrography Dataset and Watershed Boundary Dataset). The graph representation provides an flexible intuitive approach for capturing connectivity and for identifying upstream pollutant sources and for tracing downstream impacts within small and large hydrological systems. Moreover, the graph representation can facilitate the use of advanced algorithms and tools of graph theory, topology, optimization, and machine learning to aid data analytics and decision-making. We demonstrate the capabilities of our framework by using case studies in the State of Wisconsin; here, we aim to identify upstream nutrient pollutant sources that arise from agricultural practices and trace downstream impacts to waterbodies, rivers, and streams. Our tool ultimately seeks to help stakeholders design effective pollution prevention/mitigation practices and evaluate how surface waters respond to such practices. | 翻訳日:2023-09-27 04:02:43 公開日:2023-09-23 |
# 弱依存ランダム過程の漸近下最大値に基づく高次元変動クラスタリング High-dimensional variable clustering based on sub-asymptotic maxima of a weakly dependent random process ( http://arxiv.org/abs/2302.00934v2 ) ライセンス: Link先を確認 | Alexis Boulin, Elena Di Bernardino, Thomas Lalo\"e, Gwladys Toulemonde | (参考訳) 本稿では,多変量定常混合ランダムプロセスの最大値の独立性に基づいて,集団レベルのクラスタを定義したAsymsymotic Independent Block (AI-block)モデルと呼ばれる,変数クラスタリングの新しいクラスを提案する。
このモデルのクラスは識別可能であり、つまり分割の間に部分順序を持つ極大要素が存在し、統計的推論が可能となる。
また,<emph{a priori} のクラスタ数を指定せずに,変数のクラスタを復元するアルゴリズムを提案する。
我々の研究はアルゴリズムの整合性に関する理論的知見を提供し、ある条件下では、次元の多項式である計算複雑性を持つデータのクラスタを効果的に識別できることを示した。
これは、依存過程のブロック極大が亜漸近のみであるような群を非パラメトリックに学習できることを意味する。
本研究の意義を明らかにするため,本手法を神経科学と環境実データに適用した。
これらの応用は提案手法の可能性と汎用性を強調している。 We propose a new class of models for variable clustering called Asymptotic Independent block (AI-block) models, which defines population-level clusters based on the independence of the maxima of a multivariate stationary mixing random process among clusters. This class of models is identifiable, meaning that there exists a maximal element with a partial order between partitions, allowing for statistical inference. We also present an algorithm for recovering the clusters of variables without specifying the number of clusters \emph{a priori}. Our work provides some theoretical insights into the consistency of our algorithm, demonstrating that under certain conditions it can effectively identify clusters in the data with a computational complexity that is polynomial in the dimension. This implies that groups can be learned nonparametrically in which block maxima of a dependent process are only sub-asymptotic. To further illustrate the significance of our work, we applied our method to neuroscience and environmental real-datasets. These applications highlight the potential and versatility of the proposed approach. | 翻訳日:2023-09-27 04:01:51 公開日:2023-09-23 |
# 因果干渉による潜在表現の歪み Disentanglement of Latent Representations via Causal Interventions ( http://arxiv.org/abs/2302.00869v3 ) ライセンス: Link先を確認 | Ga\"el Gendron, Michael Witbrock and Gillian Dobbie | (参考訳) 画像などのデータを生成するプロセスは、独立かつ未知の変動要因によって制御される。
これらの変数の検索は、絡み合い、因果表現学習、独立成分分析分野において広く研究されている。
近年、これらのドメインを結合するアプローチは大きな成功を収めている。
ばらつきの要因を直接表現する代わりに、絡み合いの問題は、1つのイメージに1つの要因に変化をもたらす介入を見つけることと見なすことができる。
この仮定に従い,因果性理論とベクトル量子化変分オートエンコーダを組み合わせた因果動力学に触発された新たな不等角化法を提案する。
本モデルは,量子化されたベクトルを因果変数と考え,それらを因果グラフに関連付ける。
グラフの因果的介入を行い、画像の変動のユニークな要因に影響を与える原子遷移を生成する。
また,2つの画像間の遷移に責任を負う行動を見つけることで,新たな行動検索タスクを導入する。
提案手法は,標準合成および実世界のディコンタングルメントデータセットで検証する。
変動要因を効果的に解き、不均衡なデータ分布であっても画質に影響を与えずに画像の高レベルな意味的属性を正確に介入できることを示す。 The process of generating data such as images is controlled by independent and unknown factors of variation. The retrieval of these variables has been studied extensively in the disentanglement, causal representation learning, and independent component analysis fields. Recently, approaches merging these domains together have shown great success. Instead of directly representing the factors of variation, the problem of disentanglement can be seen as finding the interventions on one image that yield a change to a single factor. Following this assumption, we introduce a new method for disentanglement inspired by causal dynamics that combines causality theory with vector-quantized variational autoencoders. Our model considers the quantized vectors as causal variables and links them in a causal graph. It performs causal interventions on the graph and generates atomic transitions affecting a unique factor of variation in the image. We also introduce a new task of action retrieval that consists of finding the action responsible for the transition between two images. We test our method on standard synthetic and real-world disentanglement datasets. We show that it can effectively disentangle the factors of variation and perform precise interventions on high-level semantic attributes of an image without affecting its quality, even with imbalanced data distributions. | 翻訳日:2023-09-27 04:01:34 公開日:2023-09-23 |
# salesforce causalaiライブラリ:時系列と表データの因果分析のための高速でスケーラブルなフレームワーク Salesforce CausalAI Library: A Fast and Scalable Framework for Causal Analysis of Time Series and Tabular Data ( http://arxiv.org/abs/2301.10859v2 ) ライセンス: Link先を確認 | Devansh Arpit, Matthew Fernandez, Itai Feigenbaum, Weiran Yao, Chenghao Liu, Wenzhuo Yang, Paul Josel, Shelby Heinecke, Eric Hu, Huan Wang, Stephen Hoi, Caiming Xiong, Kun Zhang, Juan Carlos Niebles | (参考訳) 観測データを用いた因果解析のためのオープンソースライブラリであるSalesforce CausalAI Libraryを紹介した。
離散型、連続型、異種型の表データと時系列データの因果発見と因果推論をサポートする。
このライブラリは、変数間の線形および非線形因果関係を扱うアルゴリズムを含み、スピードアップにマルチプロセッシングを使用する。
また、上記のデータ形式や型に対して、所定の構造式モデルで合成データを生成することができるデータ生成装置も備えており、様々なアルゴリズムを調査しながら、利用者が地道因果過程を制御するのに役立つ。
最後に、コーディングせずにデータに対して因果分析を行うことができるユーザインタフェース(ui)を提供する。
このライブラリの目標は、因果関係の領域における様々な問題に対して、迅速かつ柔軟なソリューションを提供することである。
このテクニカルレポートでは、Salesforce CausalAI APIとその機能、サポート対象のアルゴリズムの実装、パフォーマンスとスピードを示す実験について説明している。
私たちのライブラリは \url{https://github.com/salesforce/causalai} で利用可能です。 We introduce the Salesforce CausalAI Library, an open-source library for causal analysis using observational data. It supports causal discovery and causal inference for tabular and time series data, of discrete, continuous and heterogeneous types. This library includes algorithms that handle linear and non-linear causal relationships between variables, and uses multi-processing for speed-up. We also include a data generator capable of generating synthetic data with specified structural equation model for the aforementioned data formats and types, that helps users control the ground-truth causal process while investigating various algorithms. Finally, we provide a user interface (UI) that allows users to perform causal analysis on data without coding. The goal of this library is to provide a fast and flexible solution for a variety of problems in the domain of causality. This technical report describes the Salesforce CausalAI API along with its capabilities, the implementations of the supported algorithms, and experiments demonstrating their performance and speed. Our library is available at \url{https://github.com/salesforce/causalai}. | 翻訳日:2023-09-27 04:00:42 公開日:2023-09-23 |
# 認証ロバスト性に対するグラフ反転免疫 Graph Adversarial Immunization for Certifiable Robustness ( http://arxiv.org/abs/2302.08051v2 ) ライセンス: Link先を確認 | Shuchang Tao, Huawei Shen, Qi Cao, Yunfan Wu, Liang Hou, Xueqi Cheng | (参考訳) 大きな成功にもかかわらず、グラフニューラルネットワーク(GNN)は敵の攻撃に対して脆弱である。
既存の防御は、敵対的な訓練やモデル修正の開発に焦点を当てている。
そこで本研究では,グラフ攻撃に対するグラフの証明可能なロバスト性を改善するために,グラフ攻撃免疫,すなわち,グラフ構造のワクチン化部を提案し,定式化する。
まず,ノード対を接種するためのエッジレベル免疫法を提案する。
残念なことに、このようなエッジレベルの免疫は、既存のノード対のみを免疫するので、新たなノードインジェクション攻撃を防げない。
この目的のために、我々はさらにノードレベルの免疫を提案する。
対向免疫に付随する計算集約的な組合せ最適化を回避するため,AdvImmune-EdgeおよびAdvImmune-Nodeアルゴリズムを開発し,免疫ノード対やノードを効果的に取得する。
大規模な実験はAdvImmune法が優れていることを示す。
特にAdvImmune-Nodeは、わずか5%のノードを免疫した後、ロバストノードの割合を79%、294%、100%改善している。
また、各種攻撃に対して優れた防御性能を示し、最先端の防御を上回っている。
私たちの知る限りでは、クリーングラフのパフォーマンスを損なうことなく、グラフデータの観点から証明可能な堅牢性を改善するための最初の試みである。 Despite achieving great success, graph neural networks (GNNs) are vulnerable to adversarial attacks. Existing defenses focus on developing adversarial training or model modification. In this paper, we propose and formulate graph adversarial immunization, i.e., vaccinating part of graph structure to improve certifiable robustness of graph against any admissible adversarial attack. We first propose edge-level immunization to vaccinate node pairs. Unfortunately, such edge-level immunization cannot defend against emerging node injection attacks, since it only immunizes existing node pairs. To this end, we further propose node-level immunization. To avoid computationally intensive combinatorial optimization associated with adversarial immunization, we develop AdvImmune-Edge and AdvImmune-Node algorithms to effectively obtain the immune node pairs or nodes. Extensive experiments demonstrate the superiority of AdvImmune methods. In particular, AdvImmune-Node remarkably improves the ratio of robust nodes by 79%, 294%, and 100%, after immunizing only 5% of nodes. Furthermore, AdvImmune methods show excellent defensive performance against various attacks, outperforming state-of-the-art defenses. To the best of our knowledge, this is the first attempt to improve certifiable robustness from graph data perspective without losing performance on clean graphs, providing new insights into graph adversarial learning. | 翻訳日:2023-09-27 03:51:45 公開日:2023-09-23 |
# 肺がん患者のCT検査における深部線状コックスモデルの適用 Penalized Deep Partially Linear Cox Models with Application to CT Scans of Lung Cancer Patients ( http://arxiv.org/abs/2303.05341v2 ) ライセンス: Link先を確認 | Yuming Sun, Jian Kang, Chinmay Haridas, Nicholas R. Mayne, Alexandra L. Potter, Chi-Fu Jeffrey Yang, David C. Christiani, Yi Li | (参考訳) 肺がんは世界中のがん死亡の原因であり、効果的な患者中心療法の設計における死亡リスクを理解することの重要性を強調している。
NLST(National Lung Screening Trial)ではCTスキャンのテクスチャパターンを客観的に測定し,肺がん患者の死亡リスクの定量化を目的として,CTテクスチャ解析を行った。
半線形coxモデルは、ハザード関数をパラメトリック成分と非パラメトリック成分に分解することで、生存分析に人気を博し、確立されたリスク因子(年齢や臨床変数など)と新たなリスク因子(画像の特徴など)を統一フレームワーク内で効果的に組み込むことができる。
しかし、パラメトリック成分の次元がサンプルサイズを超えると、非パラメトリックなモデリングが次元の呪いを伴うのに対して、モデルフィッティングのタスクは形成可能となる。
本稿では,SCADペナルティを組み込んで重要なテクスチャ特徴を抽出し,深層ニューラルネットワークを用いてモデルの非パラメトリック成分を推定する,Pentalized Deep partially Linear Cox Model (Penalized DPLC)を提案する。
我々は,推定器の収束性と漸近特性を証明し,リスク予測と特徴選択の性能評価を行い,他の手法と比較した。
本手法はNLST研究データセットに応用され,臨床および画像上の危険因子が患者の生存に及ぼす影響を明らかにする。
以上より,これらの因子と生存率との関係について考察した。 Lung cancer is a leading cause of cancer mortality globally, highlighting the importance of understanding its mortality risks to design effective patient-centered therapies. The National Lung Screening Trial (NLST) employed computed tomography texture analysis, which provides objective measurements of texture patterns on CT scans, to quantify the mortality risks of lung cancer patients. Partially linear Cox models have gained popularity for survival analysis by dissecting the hazard function into parametric and nonparametric components, allowing for the effective incorporation of both well-established risk factors (such as age and clinical variables) and emerging risk factors (e.g., image features) within a unified framework. However, when the dimension of parametric components exceeds the sample size, the task of model fitting becomes formidable, while nonparametric modeling grapples with the curse of dimensionality. We propose a novel Penalized Deep Partially Linear Cox Model (Penalized DPLC), which incorporates the SCAD penalty to select important texture features and employs a deep neural network to estimate the nonparametric component of the model. We prove the convergence and asymptotic properties of the estimator and compare it to other methods through extensive simulation studies, evaluating its performance in risk prediction and feature selection. The proposed method is applied to the NLST study dataset to uncover the effects of key clinical and imaging risk factors on patients' survival. Our findings provide valuable insights into the relationship between these factors and survival outcomes. | 翻訳日:2023-09-27 03:42:57 公開日:2023-09-23 |
# GOATS:カリキュラム強化学習によるスクーピングのためのゴールサンプリング適応 GOATS: Goal Sampling Adaptation for Scooping with Curriculum Reinforcement Learning ( http://arxiv.org/abs/2303.05193v4 ) ライセンス: Link先を確認 | Yaru Niu, Shiyu Jin, Zeqing Zhang, Jiacheng Zhu, Ding Zhao, Liangjun Zhang | (参考訳) 本研究では,まず,目標条件付き強化学習を用いてロボットウォータースクーピングの問題を定式化する。
この課題は流体の複雑なダイナミクスとマルチモーダル目標を達成する必要性のために特に困難である。
この政策は、位置目標と水量目標の両方をうまく達成するために必要であり、大きな畳み込み目標状態空間に繋がる。
これらの課題を克服するために,ロボットスクープタスクの効果的かつ汎用的な方針を学習可能なカリキュラム強化学習手法であるgoats(goats)の目標サンプリング適応を提案する。
具体的には,ゴール分解報酬の定式化と位置目標分布と量目標分布を補間し,学習過程を通してカリキュラムを作成する。
その結果,提案手法はシミュレーションのベースラインを上回ることができ,ボウルスクーピングとバケットスクーピング作業において,タンク内の初期水状態の1000種類以下で5.46%,8.71%の誤差が達成できた。
本手法は,シミュレーション環境において有効であるだけでなく,様々な物理構成と未認識設定のノイズの多い実ロボット水冷シナリオに効率的に適応し,優れた有効性と汎用性を示す。
この作業のビデオはプロジェクトのページで公開されている。 In this work, we first formulate the problem of robotic water scooping using goal-conditioned reinforcement learning. This task is particularly challenging due to the complex dynamics of fluids and the need to achieve multi-modal goals. The policy is required to successfully reach both position goals and water amount goals, which leads to a large convoluted goal state space. To overcome these challenges, we introduce Goal Sampling Adaptation for Scooping (GOATS), a curriculum reinforcement learning method that can learn an effective and generalizable policy for robot scooping tasks. Specifically, we use a goal-factorized reward formulation and interpolate position goal distributions and amount goal distributions to create curriculum throughout the learning process. As a result, our proposed method can outperform the baselines in simulation and achieves 5.46% and 8.71% amount errors on bowl scooping and bucket scooping tasks, respectively, under 1000 variations of initial water states in the tank and a large goal state space. Besides being effective in simulation environments, our method can efficiently adapt to noisy real-robot water-scooping scenarios with diverse physical configurations and unseen settings, demonstrating superior efficacy and generalizability. The videos of this work are available on our project page: https://sites.google.com/view/goatscooping. | 翻訳日:2023-09-27 03:42:29 公開日:2023-09-23 |
# 協調学習によるテキスト生成の強化 Enhancing Text Generation with Cooperative Training ( http://arxiv.org/abs/2303.09075v3 ) ライセンス: Link先を確認 | Tong Wu, Hao Wang, Zhongshen Zeng, Wei Wang, Hai-Tao Zheng, Jiaxing Zhang | (参考訳) 近年,事前学習型言語モデルの進歩により,下流モデルの性能向上のために生成されたデータの利用が急増している。
しかし、ほとんどの一般的な方法は、生成的および差別的なモデルを個別に訓練し、互いに変化に適応できなかった。
これらのアプローチは、真のデータ分布から逸脱しがちな生成モデルをもたらし、差別モデルに限られた利益をもたらす。
いくつかの研究は、生成言語モデルと識別言語モデルの共同訓練を提案したが、離散データの非微分的性質のため、その手法は依然として困難である。
これらの問題を克服するために,テキストフィールドに \textit{self- consistent learning} フレームワークを導入し,スコアリングコンセンサスに達するまで,判別器と生成器をクローズドループ方式で協調的に訓練する。
選択したサンプルから直接学習することで,モード崩壊や非収束といったトレーニング不安定性を軽減できる。
AFQMC、CHIP-STS、QQP、MRPCを含む4つの下流ベンチマークに関する大規模な実験は、提案フレームワークの有効性を実証している。 Recently, there has been a surge in the use of generated data to enhance the performance of downstream models, largely due to the advancements in pre-trained language models. However, most prevailing methods trained generative and discriminative models in isolation, which left them unable to adapt to changes in each other. These approaches lead to generative models that are prone to deviating from the true data distribution and providing limited benefits to discriminative models. While some works have proposed jointly training generative and discriminative language models, their methods remain challenging due to the non-differentiable nature of discrete data. To overcome these issues, we introduce a \textit{self-consistent learning} framework in the text field that involves training a discriminator and generator cooperatively in a closed-loop manner until a scoring consensus is reached. By learning directly from selected samples, our framework are able to mitigate training instabilities such as mode collapse and non-convergence. Extensive experiments on four downstream benchmarks, including AFQMC, CHIP-STS, QQP, and MRPC, demonstrate the efficacy of the proposed framework. | 翻訳日:2023-09-27 03:31:05 公開日:2023-09-23 |
# 移動ロボットの移動群集のリスクを考慮した深層強化学習に基づくマップレス群集ナビゲーション Deep Reinforcement Learning-Based Mapless Crowd Navigation with Perceived Risk of the Moving Crowd for Mobile Robots ( http://arxiv.org/abs/2304.03593v2 ) ライセンス: Link先を確認 | Hafiq Anas, Ong Wee Hong, Owais Ahmed Malik | (参考訳) 現在最先端のクラウドナビゲーションアプローチは、主に深層強化学習(DRL)に基づくものである。
しかし、DRLベースの手法は一般化と拡張性の問題に悩まされている。
そこで,これらの課題を克服するために,観察空間における衝突確率(cp)を含む手法を提案する。
ナビゲーション中に注意を払うために移動障害物の数を変更する効果について検討した。
学習中,報奨密度を高め,システムの学習効率を向上させるために局所的ウェイポイントを作成した。
提案手法は深部強化学習(DRL)を用いて開発され,ランダムな速度と方向で障害物が移動する非協調群集環境下でガゼボシミュレータを用いて訓練された。
そして,4つの異なる行動シナリオでモデルを評価した。
その結果,本手法は全てのテスト環境で100%の成功率を達成した。
我々は、現在のDRLベースのアプローチと比較し、特に社会安全の観点から、我々のアプローチは大幅に改善された。
重要なこととして,本手法は異なる集団行動でナビゲートでき,一度の訓練で微調整は不要である。
さらに,実世界の実験において,モデルの群集ナビゲーション能力を実証した。 Current state-of-the-art crowd navigation approaches are mainly deep reinforcement learning (DRL)-based. However, DRL-based methods suffer from the issues of generalization and scalability. To overcome these challenges, we propose a method that includes a Collision Probability (CP) in the observation space to give the robot a sense of the level of danger of the moving crowd to help the robot navigate safely through crowds with unseen behaviors. We studied the effects of changing the number of moving obstacles to pay attention during navigation. During training, we generated local waypoints to increase the reward density and improve the learning efficiency of the system. Our approach was developed using deep reinforcement learning (DRL) and trained using the Gazebo simulator in a non-cooperative crowd environment with obstacles moving at randomized speeds and directions. We then evaluated our model on four different crowd-behavior scenarios. The results show that our method achieved a 100% success rate in all test settings. We compared our approach with a current state-of-the-art DRL-based approach, and our approach has performed significantly better, especially in terms of social safety. Importantly, our method can navigate in different crowd behaviors and requires no fine-tuning after being trained once. We further demonstrated the crowd navigation capability of our model in real-world tests. | 翻訳日:2023-09-27 03:21:27 公開日:2023-09-23 |
# CRISP:原始インフォームドサブゴの予測を誘導するカリキュラム CRISP: Curriculum inducing Primitive Informed Subgoal Prediction ( http://arxiv.org/abs/2304.03535v3 ) ライセンス: Link先を確認 | Utsav Singh, Vinay P Namboodiri | (参考訳) 階層的強化学習は、複雑な長距離地平線問題を解決するために時間的抽象化を使用する有望なアプローチである。
しかし、低レベルのプリミティブが非定常である場合、高レベルのポリシーを訓練することが難しいため、同時にポリシー階層を学習することは不安定である。
本稿では,強化学習と模倣学習を用いて,低レベルプリミティブを進化させるための,実現可能なサブゴールのカリキュラムを生成するための新しい階層的アルゴリズムを提案する。
低レベルのプリミティブは、非定常性を扱うプリミティブ情報解析アプローチを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーリングを行います。
私たちのアプローチは、いくつかの専門家によるデモを使うので、ほとんどのロボット制御タスクに適している。
複雑なロボット迷路ナビゲーションおよびロボット操作環境における実験評価により,階層的カリキュラム学習の誘導がサンプル効率を大幅に向上し,時間的拡張課題を解決するための効率的な目標条件付きポリシーが得られた。
複雑な操作タスクにおける実世界のロボット実験を行い、CRISPがベースラインを一貫して上回っていることを示す。 Hierarchical reinforcement learning is a promising approach that uses temporal abstraction to solve complex long horizon problems. However, simultaneously learning a hierarchy of policies is unstable as it is challenging to train higher-level policy when the lower-level primitive is non-stationary. In this paper, we propose a novel hierarchical algorithm CRISP to generate a curriculum of achievable subgoals for evolving lower-level primitives using reinforcement learning and imitation learning. The lower level primitive periodically performs data relabeling on a handful of expert demonstrations using our primitive informed parsing approach to handle non-stationarity. Since our approach uses a handful of expert demonstrations, it is suitable for most robotic control tasks. Experimental evaluations on complex robotic maze navigation and robotic manipulation environments show that inducing hierarchical curriculum learning significantly improves sample efficiency, and results in efficient goal conditioned policies for solving temporally extended tasks. We perform real world robotic experiments on complex manipulation tasks and demonstrate that CRISP consistently outperforms the baselines. | 翻訳日:2023-09-27 03:21:05 公開日:2023-09-23 |
# Trimodal Consistencyによる言語誘導型オーディオ・ビジュアル音源分離 Language-Guided Audio-Visual Source Separation via Trimodal Consistency ( http://arxiv.org/abs/2303.16342v2 ) ライセンス: Link先を確認 | Reuben Tan, Arijit Ray, Andrea Burns, Bryan A. Plummer, Justin Salamon, Oriol Nieto, Bryan Russell, Kate Saenko | (参考訳) 学習データとしてラベル付きビデオと音声ペアのみを使用して,自然言語クエリに基づく映像の音源分離を行うための自己教師あり学習手法を提案する。
この課題の重要な課題は、発音対象の言語記述とその視覚的特徴と対応する音響波形の構成要素を、トレーニング中にアノテーションにアクセスせずに関連付けることである。
この課題を克服するために,本研究は,既成の視覚言語基礎モデルを用いて,2つの新たな損失関数による擬似的目標監視を行い,音声,視覚,自然言語との整合性の強化を図る。
提案手法は,テキスト入力,ビデオ入力,音声入力,あるいはテキスト入力と音声入力のみを分離する。
音楽、ソロ、オーディオセットを含む3つの音声・視覚分離データセットにおいて、トレーニング中にオブジェクト検出器やテキストラベルを使用しないにもかかわらず、最先端の教師付きアプローチを上回って、自己教師付きアプローチの有効性を実証する。 We propose a self-supervised approach for learning to perform audio source separation in videos based on natural language queries, using only unlabeled video and audio pairs as training data. A key challenge in this task is learning to associate the linguistic description of a sound-emitting object to its visual features and the corresponding components of the audio waveform, all without access to annotations during training. To overcome this challenge, we adapt off-the-shelf vision-language foundation models to provide pseudo-target supervision via two novel loss functions and encourage a stronger alignment between the audio, visual and natural language modalities. During inference, our approach can separate sounds given text, video and audio input, or given text and audio input alone. We demonstrate the effectiveness of our self-supervised approach on three audio-visual separation datasets, including MUSIC, SOLOS and AudioSet, where we outperform state-of-the-art strongly supervised approaches despite not using object detectors or text labels during training. | 翻訳日:2023-09-27 03:20:28 公開日:2023-09-23 |
# 良いスパース一般化付加モデルによる探索と相互作用 Exploring and Interacting with the Set of Good Sparse Generalized Additive Models ( http://arxiv.org/abs/2303.16047v2 ) ライセンス: Link先を確認 | Chudi Zhong, Zhi Chen, Margo Seltzer, Cynthia Rudin | (参考訳) 実際のアプリケーションでは、機械学習モデルとドメインエキスパートの相互作用が重要であるが、通常は単一のモデルのみを生成する古典的な機械学習パラダイムはそのような相互作用を促進するものではない。
ラショモン集合の近似と探索、すなわちすべての近似最適化モデルの集合は、ドメインの専門家が選択できる多様なモデルの集合を含む検索可能な空間をユーザに提供することで、この実用的な課題に対処できる。
固定支持集合にエリプソイドを付加したスパース・一般化加法モデルを効率よく精度よく近似し、これらのエリプソイドを用いて多数の異なる支持集合にラショウモン集合を近似するアルゴリズムを提案する。
近似ラショモン集合は,(1)モデルクラスにおける変数重要度の研究,(2)ユーザ指定制約(単調性,直接編集)下でのモデルの発見,(3)突然の形状関数の変化など,実用上の課題を解決するための基礎となる。
近似ラショモン集合の忠実性とその実用的課題解決効果を実証する実験を行った。 In real applications, interaction between machine learning models and domain experts is critical; however, the classical machine learning paradigm that usually produces only a single model does not facilitate such interaction. Approximating and exploring the Rashomon set, i.e., the set of all near-optimal models, addresses this practical challenge by providing the user with a searchable space containing a diverse set of models from which domain experts can choose. We present algorithms to efficiently and accurately approximate the Rashomon set of sparse, generalized additive models with ellipsoids for fixed support sets and use these ellipsoids to approximate Rashomon sets for many different support sets. The approximated Rashomon set serves as a cornerstone to solve practical challenges such as (1) studying the variable importance for the model class; (2) finding models under user-specified constraints (monotonicity, direct editing); and (3) investigating sudden changes in the shape functions. Experiments demonstrate the fidelity of the approximated Rashomon set and its effectiveness in solving practical challenges. | 翻訳日:2023-09-27 03:19:45 公開日:2023-09-23 |
# 自然分布シフトに対する低ショットロバスト性ベンチマーク Benchmarking Low-Shot Robustness to Natural Distribution Shifts ( http://arxiv.org/abs/2304.11263v2 ) ライセンス: Link先を確認 | Aaditya Singh, Kartik Sarangmath, Prithvijit Chattopadhyay, Judy Hoffman | (参考訳) 自然分布へのロバストな変化は、最近の事前学習戦略とより良い微調整手法によって顕著に進展した。
しかし、このような微調整は大量のラベル付きデータへのアクセスを前提としており、訓練データの量がそれほど高くない場合の観測の程度は不明である。
このギャップに対処するために,我々は,データセットのスパンニング,アーキテクチャ,事前学習された初期化,最先端のロバストネス介入など,さまざまな低ショット環境における様々な自然分布シフトに対するロバストネスに関する最初の詳細な研究を行った。
最も重要なのは、他のモデルよりもロバストな選択モデルが存在しないことですし、既存の介入は、フルショットのシステムであっても、一部のデータセットのロバスト性を改善するのに失敗する可能性があります。
私たちの仕事がコミュニティに実用的重要性の問題に焦点を当てる動機になることを願っています。 Robustness to natural distribution shifts has seen remarkable progress thanks to recent pre-training strategies combined with better fine-tuning methods. However, such fine-tuning assumes access to large amounts of labelled data, and the extent to which the observations hold when the amount of training data is not as high remains unknown. We address this gap by performing the first in-depth study of robustness to various natural distribution shifts in different low-shot regimes: spanning datasets, architectures, pre-trained initializations, and state-of-the-art robustness interventions. Most importantly, we find that there is no single model of choice that is often more robust than others, and existing interventions can fail to improve robustness on some datasets even if they do so in the full-shot regime. We hope that our work will motivate the community to focus on this problem of practical importance. | 翻訳日:2023-09-27 03:01:48 公開日:2023-09-23 |
# スリランカ・グルデニヤサービスゾーンにおける配水網の最適設計のための遺伝的アルゴリズムに基づく組合せ最適化 Genetic Algorithm Based Combinatorial Optimization for the Optimal Design of Water Distribution Network of Gurudeniya Service Zone, Sri Lanka ( http://arxiv.org/abs/2304.09720v3 ) ライセンス: Link先を確認 | K. H. M. R. N. Senavirathna and C. K. Walgampaya | (参考訳) 本稿では,スリランカのグルデニヤサービスゾーンの配水網(wdn)の最適設計に使用する,詳細な遺伝的アルゴリズム(ga)に基づく組合せ最適化手法を提案する。
遺伝的アルゴリズム(GA)は、探索プロセスを開発するのに最も適した自然原理の生存を模倣する。
方法論は管径のファジィな組み合わせを用いて、コスト効率の良い最適設計ソリューションと見なすための適合性をチェックする。
さらに,グローバル最適解に到達するために,GA内部で油圧制約を暗黙的に評価した。
分析すると、このアプローチの結果は満足できる設計結果をもたらしました。
さらに,Honey Bee Mating Optimization (HBMO)アルゴリズムにインスパイアされた以前の研究結果とGAに基づくアプローチの結果との比較により,スリランカのグルデニヤサービスゾーンにおける配水網の最適設計におけるGAの有効性が証明された。 This paper brings an in detail Genetic Algorithm (GA) based combinatorial optimization method used for the optimal design of the water distribution network (WDN) of Gurudeniya Service Zone, Sri Lanka. Genetic Algorithm (GA) mimics the survival of the fittest principle of nature to develop a search process. Methodology employs fuzzy combinations of pipe diameters to check their suitability to be considered as the cost effective optimal design solutions. Furthermore, the hydraulic constraints were implicitly evaluated within the GA itself in its aim to reaching the global optimum solution. Upon analysis, the results of this approach delivered agreeable design outputs. In addition, the comparison made between the results obtained by a previous study inspired by the Honey Bee Mating Optimization (HBMO) Algorithm and results obtained by the GA based approach, proves competency of GA for the optimal design of water distribution network in Gurudeniya Service Zone, Sri Lanka. | 翻訳日:2023-09-27 03:01:09 公開日:2023-09-23 |
# ArguGPT:GPTモデルによる議論的エッセイの評価、理解、識別 ArguGPT: evaluating, understanding and identifying argumentative essays generated by GPT models ( http://arxiv.org/abs/2304.07666v2 ) ライセンス: Link先を確認 | Yikang Liu, Ziyin Zhang, Wanyang Zhang, Shisen Yue, Xiaojing Zhao, Xinyuan Cheng, Yiwen Zhang, Hai Hu | (参考訳) AI生成コンテンツ(AIGC)は、世界中の教育者に対して大きな課題を提示している。
インストラクターは、裸眼で、あるいはいくつかのツールの助けを借りて、大きな言語モデルによって生成されたテキストを検出できる必要があります。
AIGCの語彙的、構文的、スタイル的特徴を理解する必要も増えている。
英語教育におけるこれらの課題に対処するため,本研究では,(1)授業中あるいは宿題課題,(2)toefl,(3)grライティング課題の3つの資料から,7つのgptモデルで生成した4,038個の議論的エッセイのバランスコーパスであるargugptを提案する。
機械が生成するテキストは、ほぼ同じ数の人間の書いたエッセイと、3つのスコアレベルがエッセイプロンプトで一致している。
そして、機械エッセイと人間のエッセイを区別するために英語のインストラクターを雇います。
その結果, 機械生成エッセイに初めて曝露した場合, インストラクターは61%の精度しか検出できないことがわかった。
しかし、この数字は1回の最小限の自己訓練の後に67%まで上昇する。
次に、これらのエッセイの言語分析を行い、機械がより複雑な構文構造を持つ文を生成する一方で、人間のエッセイは語彙的により複雑であることを示す。
最後に、既存のAIGC検出器を試験し、SVMとRoBERTaを用いて独自の検出器を構築する。
その結果,ArguGPTのトレーニングセットを微調整したRoBERTaは,エッセイレベルと文レベルの両方で90%以上の精度を達成できた。
我々の知る限りでは、これは生成的大言語モデルによって生成された議論的エッセイの包括的分析としては初めてのものである。
ArguGPTと私たちのモデルは、https://github.com/huhailinguist/ArguGPTで公開されます。 AI generated content (AIGC) presents considerable challenge to educators around the world. Instructors need to be able to detect such text generated by large language models, either with the naked eye or with the help of some tools. There is also growing need to understand the lexical, syntactic and stylistic features of AIGC. To address these challenges in English language teaching, we first present ArguGPT, a balanced corpus of 4,038 argumentative essays generated by 7 GPT models in response to essay prompts from three sources: (1) in-class or homework exercises, (2) TOEFL and (3) GRE writing tasks. Machine-generated texts are paired with roughly equal number of human-written essays with three score levels matched in essay prompts. We then hire English instructors to distinguish machine essays from human ones. Results show that when first exposed to machine-generated essays, the instructors only have an accuracy of 61% in detecting them. But the number rises to 67% after one round of minimal self-training. Next, we perform linguistic analyses of these essays, which show that machines produce sentences with more complex syntactic structures while human essays tend to be lexically more complex. Finally, we test existing AIGC detectors and build our own detectors using SVMs and RoBERTa. Results suggest that a RoBERTa fine-tuned with the training set of ArguGPT achieves above 90% accuracy in both essay- and sentence-level classification. To the best of our knowledge, this is the first comprehensive analysis of argumentative essays produced by generative large language models. Machine-authored essays in ArguGPT and our models will be made publicly available at https://github.com/huhailinguist/ArguGPT | 翻訳日:2023-09-27 03:00:52 公開日:2023-09-23 |
# 非決定論的ハイブリッドシステムのためのサンプリングに基づく反応合成 Sampling-based Reactive Synthesis for Nondeterministic Hybrid Systems ( http://arxiv.org/abs/2304.06876v2 ) ライセンス: Link先を確認 | Qi Heng Ho, Zachary N. Sunberg, Morteza Lahijanian | (参考訳) 本稿では,時間的および到達可能性制約下で複雑な連続ダイナミクスを持つ非決定的ハイブリッドシステムに対するサンプリングに基づく戦略合成アルゴリズムを提案する。
我々は,ハイブリッドシステムの進化を,非決定主義が時間的・到達可能性目標達成の防止を目的とした敵プレイヤーである2人プレイヤゲームとみなす。
目的は、敵プレイヤーのあらゆる可能な動きの下でゴールの満足度を保証する、勝利戦略 - 反応性(ロバスト)戦略を合成することである。
このアプローチは、サンプリングベースの計画法と、部分戦略の選択と改善のための新しいバンディットベースの手法を組み合わせたハイブリッドスペースにおける(検索)ゲームツリーの成長に基づいている。
アルゴリズムが確率論的に完備である条件、すなわち、勝利戦略が存在する場合、アルゴリズムはほぼ確実にそれを見つける。
ケーススタディとベンチマークの結果は、アルゴリズムが一般的であり一貫して最先端技術を上回ることを示している。 This paper introduces a sampling-based strategy synthesis algorithm for nondeterministic hybrid systems with complex continuous dynamics under temporal and reachability constraints. We view the evolution of the hybrid system as a two-player game, where the nondeterminism is an adversarial player whose objective is to prevent achieving temporal and reachability goals. The aim is to synthesize a winning strategy -- a reactive (robust) strategy that guarantees the satisfaction of the goals under all possible moves of the adversarial player. The approach is based on growing a (search) game-tree in the hybrid space by combining a sampling-based planning method with a novel bandit-based technique to select and improve on partial strategies. We provide conditions under which the algorithm is probabilistically complete, i.e., if a winning strategy exists, the algorithm will almost surely find it. The case studies and benchmark results show that the algorithm is general and consistently outperforms the state of the art. | 翻訳日:2023-09-27 03:00:22 公開日:2023-09-23 |
# 制御のための一般動力学モデル A Generalist Dynamics Model for Control ( http://arxiv.org/abs/2305.10912v2 ) ライセンス: Link先を確認 | Ingmar Schubert and Jingwei Zhang and Jake Bruce and Sarah Bechtle and Emilio Parisotto and Martin Riedmiller and Jost Tobias Springenberg and Arunkumar Byravan and Leonard Hasenclever and Nicolas Heess | (参考訳) 制御のための動的モデル (TDM) としてのトランスフォーマーシーケンスモデルについて検討する。
対象環境からの少ないデータ量でジェネラリストtdmを微調整し,無傷環境にジェネラリストtdmをそれ以上のトレーニングなしで適用したゼロショット設定において,無傷環境に対して強力な一般化能力を示すことが判明した。
ここでは,システムダイナミクスの一般化が,ポリシーとして直接最適動作を一般化するよりもはるかに優れていることを示す。
さらに,TDMは,多数のベースラインモデルと比較して,単一環境学習環境でも良好に動作することを示す。
これらの性質により、TDMは制御の基礎モデルとして有望な材料となる。 We investigate the use of transformer sequence models as dynamics models (TDMs) for control. We find that TDMs exhibit strong generalization capabilities to unseen environments, both in a few-shot setting, where a generalist TDM is fine-tuned with small amounts of data from the target environment, and in a zero-shot setting, where a generalist TDM is applied to an unseen environment without any further training. Here, we demonstrate that generalizing system dynamics can work much better than generalizing optimal behavior directly as a policy. Additional results show that TDMs also perform well in a single-environment learning setting when compared to a number of baseline models. These properties make TDMs a promising ingredient for a foundation model of control. | 翻訳日:2023-09-27 02:52:31 公開日:2023-09-23 |
# ZeroFlow: 蒸留によるスケーラブルなシーンフロー ZeroFlow: Scalable Scene Flow via Distillation ( http://arxiv.org/abs/2305.10424v6 ) ライセンス: Link先を確認 | Kyle Vedder, Neehar Peri, Nathaniel Chodosh, Ishan Khatri, Eric Eaton, Dinesh Jayaraman, Yang Liu, Deva Ramanan, James Hays | (参考訳) シーンフロー推定は、時間的に連続する点雲間の3次元運動場を記述するタスクである。
State-of-the-artメソッドは強力な事前処理とテストタイム最適化技術を使用するが、大規模なポイントクラウドを処理するには数秒の順序を必要とするため、オープンワールドオブジェクト検出などのリアルタイムアプリケーションではコンピュータビジョンプリミティブとして使用できない。
フィードフォワード法はかなり高速で、大規模なポイントクラウドでは数十から数百ミリ秒の順序で実行されるが、高価な人的監督が必要である。
いずれの制限にも対処すべく,ラベルフリーな最適化手法を用いてフィードフォワードモデルを監督する,簡便でスケーラブルな蒸留フレームワークである蒸留によるシーンフローを提案する。
このフレームワークのインスタンス化であるZeroFlowは、大規模で多様なラベル付きデータをトレーニングすることで、ゼロのラベルを使用しながら、Argoverse 2 Self-Supervised Scene Flow Challengeにおける最先端のパフォーマンスを達成する。
テスト時には、ZeroFlowは、大規模なポイントクラウド上のラベルのない最先端の最適化ベースのメソッドよりも1000$\times$高速で、そのデータの人的アノテーションのコストよりも、ラベル付きデータでトレーニングするコストが1000$\times$以上である。
さらなる研究を容易にするため、Argoverse 2とWaymo Openデータセット用のコード、トレーニング済みモデルウェイト、高品質な擬似ラベルをリリースします。 Scene flow estimation is the task of describing the 3D motion field between temporally successive point clouds. State-of-the-art methods use strong priors and test-time optimization techniques, but require on the order of tens of seconds to process large-scale point clouds, making them unusable as computer vision primitives for real-time applications such as open world object detection. Feed forward methods are considerably faster, running on the order of tens to hundreds of milliseconds for large-scale point clouds, but require expensive human supervision. To address both limitations, we propose Scene Flow via Distillation, a simple, scalable distillation framework that uses a label-free optimization method to produce pseudo-labels to supervise a feed forward model. Our instantiation of this framework, ZeroFlow, achieves state-of-the-art performance on the Argoverse 2 Self-Supervised Scene Flow Challenge while using zero human labels by simply training on large-scale, diverse unlabeled data. At test-time, ZeroFlow is over 1000$\times$ faster than label-free state-of-the-art optimization-based methods on large-scale point clouds and over 1000$\times$ cheaper to train on unlabeled data compared to the cost of human annotation of that data. To facilitate further research, we will release our code, trained model weights, and high quality pseudo-labels for the Argoverse 2 and Waymo Open datasets. | 翻訳日:2023-09-27 02:52:06 公開日:2023-09-23 |
# 生成的検索を伴うレコメンダシステム Recommender Systems with Generative Retrieval ( http://arxiv.org/abs/2305.05065v2 ) ライセンス: Link先を確認 | Shashank Rajput, Nikhil Mehta, Anima Singh, Raghunandan H. Keshavan, Trung Vu, Lukasz Heldt, Lichan Hong, Yi Tay, Vinh Q. Tran, Jonah Samost, Maciej Kula, Ed H. Chi, Maheswaran Sathiamoorthy | (参考訳) 現代のレコメンダシステムは、クエリとアイテム候補を同じ統一空間に最初に埋め込むことで大規模な検索を行い、次いで、クエリ埋め込みが与えられた上位候補を選択するために最寄りの探索を行う。
本稿では,検索モデルが自己回帰的に対象候補の識別子を復号化する,新しい生成的検索手法を提案する。
その目的のために、各項目のセマンティックIDとして機能する意味的に意味のあるコードワードのタプルを作成する。
ユーザセッション内のアイテムに対するセマンティックIDが与えられた場合、Transformerベースのシーケンス・ツー・シーケンスモデルを使用して、ユーザが対話する次のアイテムのセマンティックIDを予測する。
我々の知る限りでは、これはレコメンデーションタスクのための最初のセマンティックIDベースの生成モデルである。
提案手法で学習したレコメンダシステムは,既存のsomaモデルに比較して有意な性能を示した。
また,sequence-to-sequenceモデルにsemantic idを組み込むことで,先行的なインタラクション履歴のない項目で観察された検索性能の向上が示すように,その一般化能力が向上することを示す。 Modern recommender systems perform large-scale retrieval by first embedding queries and item candidates in the same unified space, followed by approximate nearest neighbor search to select top candidates given a query embedding. In this paper, we propose a novel generative retrieval approach, where the retrieval model autoregressively decodes the identifiers of the target candidates. To that end, we create semantically meaningful tuple of codewords to serve as a Semantic ID for each item. Given Semantic IDs for items in a user session, a Transformer-based sequence-to-sequence model is trained to predict the Semantic ID of the next item that the user will interact with. To the best of our knowledge, this is the first Semantic ID-based generative model for recommendation tasks. We show that recommender systems trained with the proposed paradigm significantly outperform the current SOTA models on various datasets. In addition, we show that incorporating Semantic IDs into the sequence-to-sequence model enhances its ability to generalize, as evidenced by the improved retrieval performance observed for items with no prior interaction history. | 翻訳日:2023-09-27 02:50:31 公開日:2023-09-23 |
# QFA2SR: 話者認識システムに対するクエリフリー逆変換攻撃 QFA2SR: Query-Free Adversarial Transfer Attacks to Speaker Recognition Systems ( http://arxiv.org/abs/2305.14097v2 ) ライセンス: Link先を確認 | Guangke Chen, Yedi Zhang, Zhe Zhao, Fu Song | (参考訳) 話者認識システム(SRS)に対する現在の敵対攻撃は、ターゲットSRSへのホワイトボックスアクセスまたは重いブラックボックスクエリを必要とするため、プロプライエタリな商用APIや音声制御デバイスに対する実用的な攻撃には依然として遅れている。
このギャップを埋めるために、敵声の転送可能性を活用することにより、QFA2SRを提案する。
トランスファビリティを向上させるために, 3つの新しい手法, 調整された損失関数, SRSアンサンブル, タイムフレク腐食を提案する。
最初の1つのテーラーは異なる攻撃シナリオで機能を失う。
後者の2つはsrsを2つの異なる方法で拡張する。
SRSアンサンブルは、多様なサロゲートSRSと新しい戦略を組み合わせることで、SRSのユニークなスコアリング特性に対応する。
時間フレック腐食は、標的srsの決定境界をシミュレートし近似するよく設計された時間領域/周波数領域修正関数を組み込むことで、サロゲートsrsを増強する。
QFA2SRは、人気のある4つの商用API(Microsoft Azure、iFlytek、Jingdong、TalentedSoft)において、ターゲット転送可能性を20.9%から70.7%向上させ、クエリフリー環境での既存の攻撃を著しく上回った。
QFA2SRは、Google Assistant、Apple Siri、TMall Genieの3つの広帯域音声アシスタントに対して、それぞれ60%、46%、ターゲット転送性70%に対して、空中起動時に非常に効果的である。 Current adversarial attacks against speaker recognition systems (SRSs) require either white-box access or heavy black-box queries to the target SRS, thus still falling behind practical attacks against proprietary commercial APIs and voice-controlled devices. To fill this gap, we propose QFA2SR, an effective and imperceptible query-free black-box attack, by leveraging the transferability of adversarial voices. To improve transferability, we present three novel methods, tailored loss functions, SRS ensemble, and time-freq corrosion. The first one tailors loss functions to different attack scenarios. The latter two augment surrogate SRSs in two different ways. SRS ensemble combines diverse surrogate SRSs with new strategies, amenable to the unique scoring characteristics of SRSs. Time-freq corrosion augments surrogate SRSs by incorporating well-designed time-/frequency-domain modification functions, which simulate and approximate the decision boundary of the target SRS and distortions introduced during over-the-air attacks. QFA2SR boosts the targeted transferability by 20.9%-70.7% on four popular commercial APIs (Microsoft Azure, iFlytek, Jingdong, and TalentedSoft), significantly outperforming existing attacks in query-free setting, with negligible effect on the imperceptibility. QFA2SR is also highly effective when launched over the air against three wide-spread voice assistants (Google Assistant, Apple Siri, and TMall Genie) with 60%, 46%, and 70% targeted transferability, respectively. | 翻訳日:2023-09-27 02:42:40 公開日:2023-09-23 |
# 条件付き生成逆ネットワークのためのモード認識連続学習 Mode-Aware Continual Learning for Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2305.11400v3 ) ライセンス: Link先を確認 | Cat P. Le, Juncheng Dong, Ahmed Aloui, Vahid Tarokh | (参考訳) 生成モデルの連続学習における主な課題は、以前に学習したものを保存しながら、限られたサンプルでターゲットモードを効果的に学習することである。
そこで本研究では,生成モデル専用に設計されたモードアフィニティスコアを活用し,条件付き生成逆ネットワークのための新しい連続学習手法を提案する。
まず、ジェネレータは、後続の再生のために既存のモードのサンプルを生成する。
判別器は、ターゲットに最も近い既存モードを識別するモード類似度測度を計算するために使用される。
その後、ターゲットモードのラベルを生成し、このセット内のラベルの重み付き平均として付与する。
我々は、新たなラベルでターゲットデータに基づいて学習し、記憶再生を行い、破滅的な忘れ込みのリスクを軽減することで継続学習モデルを拡張する。
ベンチマークデータセットによる実験結果は、トレーニングサンプルが少ない場合でも、最先端の手法に対する継続的な学習アプローチの利点を示す。 The main challenge in continual learning for generative models is to effectively learn new target modes with limited samples while preserving previously learned ones. To this end, we introduce a new continual learning approach for conditional generative adversarial networks by leveraging a mode-affinity score specifically designed for generative modeling. First, the generator produces samples of existing modes for subsequent replay. The discriminator is then used to compute the mode similarity measure, which identifies a set of closest existing modes to the target. Subsequently, a label for the target mode is generated and given as a weighted average of the labels within this set. We extend the continual learning model by training it on the target data with the newly-generated label, while performing memory replay to mitigate the risk of catastrophic forgetting. Experimental results on benchmark datasets demonstrate the gains of our continual learning approach over the state-of-the-art methods, even when using fewer training samples. | 翻訳日:2023-09-27 02:40:58 公開日:2023-09-23 |
# KeyPosS: GPSによるTrue-Range Multilaterationによるプラグアンドプレイ顔画像検出 KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration ( http://arxiv.org/abs/2305.16437v4 ) ライセンス: Link先を確認 | Xu Bao, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Wangmeng Xiang, Jingdong Sun, Hanbing Liu, Wei Liu, Bin Luo, Yifeng Geng, Xuansong Xie | (参考訳) 顔のランドマークの正確な検出は、顔の分析作業には不可欠であるが、熱マップと座標回帰法は、計算コストや量子化エラーに対処する。
包括的理論的分析と実験を通じて,既存の手法の限界を特定し,解明する。
これらの課題を克服するために、当初GPSの局所化のために開発されたTrue-Range Multilaterationの顔のランドマーク検出への応用を開拓した。
完全畳み込みネットワークによって予測される注目点とアンカー点の距離を三角にして正確なランドマーク座標を推定する最初のフレームワークであるKeyPoint Positioning System(KeyPosS)を提案する。
KeyPosSの重要な利点は、様々なデコードパイプラインへの柔軟な統合を可能にする、プラグアンドプレイの性質である。
4つのデータセットに関する広範囲な実験が最先端のパフォーマンスを示している。
顔分析とMultilaterationの統合を先導することで、KeyPosSは顔のランドマーク検出のパラダイムシフトを示す。
コードはhttps://github.com/zhiqic/keypossで入手できる。 Accurate facial landmark detection is critical for facial analysis tasks, yet prevailing heatmap and coordinate regression methods grapple with prohibitive computational costs and quantization errors. Through comprehensive theoretical analysis and experimentation, we identify and elucidate the limitations of existing techniques. To overcome these challenges, we pioneer the application of True-Range Multilateration, originally devised for GPS localization, to facial landmark detection. We propose KeyPoint Positioning System (KeyPosS) - the first framework to deduce exact landmark coordinates by triangulating distances between points of interest and anchor points predicted by a fully convolutional network. A key advantage of KeyPosS is its plug-and-play nature, enabling flexible integration into diverse decoding pipelines. Extensive experiments on four datasets demonstrate state-of-the-art performance, with KeyPosS outperforming existing methods in low-resolution settings despite minimal computational overhead. By spearheading the integration of Multilateration with facial analysis, KeyPosS marks a paradigm shift in facial landmark detection. The code is available at https://github.com/zhiqic/KeyPosS. | 翻訳日:2023-09-27 02:30:15 公開日:2023-09-23 |
# 分布的であることの利点:強化学習のための小損失限度 The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning ( http://arxiv.org/abs/2305.15703v3 ) ライセンス: Link先を確認 | Kaiwen Wang and Kevin Zhou and Runzhe Wu and Nathan Kallus and Wen Sun | (参考訳) 分散強化学習(DistRL)は実験的に有効であるが,バニラよりもいつ,なぜ優れているのかという疑問が残るが,非分布RLは未解決のままである。
本稿では,DistRLの利点を,最適な達成可能なコストでスケールするインスタンス依存境界のレンズを用いて説明する。
特に、最適コストが小さい場合、我々の境界は非分配的アプローチよりもはるかに早く収束する。
ウォームアップとして,分散文脈帯域幅(DistCB)アルゴリズムを提案する。
オンラインRLでは,最大推定値を用いて信頼度を推定するDistRLアルゴリズムを提案する。
提案アルゴリズムは,低ランクMPPにおいて,新しい低損失PAC境界を満足することを示す。
分析の一部として、独立興味を持つかもしれない$\ell_1$ 分布的eluder次元を導入する。
そして,オフラインrlでは,悲観的なdistrlがオフライン設定に新しく,悪質な単一政治カバレッジに対してより強固な小さなパック境界を享受していることを示す。 While distributional reinforcement learning (DistRL) has been empirically effective, the question of when and why it is better than vanilla, non-distributional RL has remained unanswered. This paper explains the benefits of DistRL through the lens of small-loss bounds, which are instance-dependent bounds that scale with optimal achievable cost. Particularly, our bounds converge much faster than those from non-distributional approaches if the optimal cost is small. As warmup, we propose a distributional contextual bandit (DistCB) algorithm, which we show enjoys small-loss regret bounds and empirically outperforms the state-of-the-art on three real-world tasks. In online RL, we propose a DistRL algorithm that constructs confidence sets using maximum likelihood estimation. We prove that our algorithm enjoys novel small-loss PAC bounds in low-rank MDPs. As part of our analysis, we introduce the $\ell_1$ distributional eluder dimension which may be of independent interest. Then, in offline RL, we show that pessimistic DistRL enjoys small-loss PAC bounds that are novel to the offline setting and are more robust to bad single-policy coverage. | 翻訳日:2023-09-27 02:29:25 公開日:2023-09-23 |
# PEAR: 階層的強化学習を促進するための原始的適応的リラベリング PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2306.06394v3 ) ライセンス: Link先を確認 | Utsav Singh, Vinay P Namboodiri | (参考訳) 階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。
しかし、階層的エージェントは本質的に非定常性のために訓練が難しい。
提案手法は,まず数種類の専門家による適応型レザベリングを行い,効率的なサブゴナル・インスペクションを生成するための2段階の手法であるプリミティブ・アダプティブ・アダプティブ・レザベリング(PEAR)を提案し,その後,強化学習(RL)と模倣学習(IL)を用いてHRLエージェントを協調的に最適化する。
理論的な分析を $ にします
(i)$ アプローチのサブ最適性にバインドし、$
(ii)RLとILを用いた共同最適化のための汎用的なプラグアンドプレイフレームワークを導出する。
PEARはいくつかの専門家によるデモンストレーションを使用し、タスク構造に対する最小限の仮定を行う。
さらに、実用的なHRLアルゴリズムを生成するために、典型的なモデルフリーなRLアルゴリズムと容易に統合できる。
我々は,ロボット環境に挑戦する実験を行い,pearが長期的意思決定を必要とする課題を解決できることを示す。
PEARは従来の階層的アプローチや非階層的アプローチよりも性能とサンプル効率が向上していることを実証的に示す。
また、複雑なタスクで現実世界のロボット実験を行い、PEARがベースラインを一貫して上回っていることを示す。 Hierarchical reinforcement learning (HRL) has the potential to solve complex long horizon tasks using temporal abstraction and increased exploration. However, hierarchical agents are difficult to train due to inherent non-stationarity. We present primitive enabled adaptive relabeling (PEAR), a two-phase approach where we first perform adaptive relabeling on a few expert demonstrations to generate efficient subgoal supervision, and then jointly optimize HRL agents by employing reinforcement learning (RL) and imitation learning (IL). We perform theoretical analysis to $(i)$ bound the sub-optimality of our approach, and $(ii)$ derive a generalized plug-and-play framework for joint optimization using RL and IL. PEAR uses a handful of expert demonstrations and makes minimal limiting assumptions on the task structure. Additionally, it can be easily integrated with typical model free RL algorithms to produce a practical HRL algorithm. We perform experiments on challenging robotic environments and show that PEAR is able to solve tasks that require long term decision making. We empirically show that PEAR exhibits improved performance and sample efficiency over previous hierarchical and non-hierarchical approaches. We also perform real world robotic experiments on complex tasks and demonstrate that PEAR consistently outperforms the baselines. | 翻訳日:2023-09-27 02:22:34 公開日:2023-09-23 |
# ネットワークにおける学習強化型分散オンライン凸最適化 Learning-Augmented Decentralized Online Convex Optimization in Networks ( http://arxiv.org/abs/2306.10158v2 ) ライセンス: Link先を確認 | Pengfei Li, Jianyi Yang, Adam Wierman, Shaolei Ren | (参考訳) 本稿では,ネットワーク型マルチエージェントシステムにおける分散オンライン凸最適化について検討し,各エージェントがローカルオンライン情報のみに基づいて行動を選択するための新しいアルゴリズムであるLADOを提案する。
LADOは、ベースラインポリシーを活用して、最悪の場合の堅牢性を保証するためにオンラインアクションを保護しつつ、平均的なパフォーマンス改善のためにマシンラーニング(ML)ポリシーに近づいたままにしている。
集中型設定にフォーカスした既存の学習型オンラインアルゴリズムとは対照的に、ladoは分散環境で強い堅牢性を保証する。
また、LADOの平均コストを実証し、平均性能と最悪の場合のロバスト性の間のトレードオフを明らかにし、ロバスト性要件を明示的に考慮してMLポリシーをトレーニングする利点を示す。 This paper studies decentralized online convex optimization in a networked multi-agent system and proposes a novel algorithm, Learning-Augmented Decentralized Online optimization (LADO), for individual agents to select actions only based on local online information. LADO leverages a baseline policy to safeguard online actions for worst-case robustness guarantees, while staying close to the machine learning (ML) policy for average performance improvement. In stark contrast with the existing learning-augmented online algorithms that focus on centralized settings, LADO achieves strong robustness guarantees in a decentralized setting. We also prove the average cost bound for LADO, revealing the tradeoff between average performance and worst-case robustness and demonstrating the advantage of training the ML policy by explicitly considering the robustness requirement. | 翻訳日:2023-09-27 02:11:02 公開日:2023-09-23 |
# トレーニング中のモジュール化: DNNモデルのモジュール化のための新しいパラダイム Modularizing while Training: A New Paradigm for Modularizing DNN Models ( http://arxiv.org/abs/2306.09376v2 ) ライセンス: Link先を確認 | Binhang Qi, Hailong Sun, Hongyu Zhang, Ruobing Zhao, Xiang Gao | (参考訳) ディープニューラルネットワーク(DNN)モデルは、インテリジェントソフトウェアシステムにおいてますます重要なコンポーネントになりつつある。
しかし、DNNモデルのトレーニングは通常、時間とお金の両方の観点からコストがかかる。
この問題に対処するため、研究者は最近、既存のDNNモデルを再利用することに重点を置いている。
しかし、モデル全体の再利用は、余分なオーバーヘッドを引き起こしたり、望ましくない機能から弱点を継承する可能性がある。
したがって、既存の作業は、既に訓練済みのモデルをモジュール、すなわちモジュール化後のトレーニング、モジュールの再利用に分解することを提案する。
トレーニングされたモデルはモジュール化のために構築されていないため、モジュール化後トレーニングは膨大なオーバーヘッドとモデルの精度の損失をもたらす。
本稿では,モデル学習プロセス,すなわちmodularization-while-training (mwt) にモジュール化を組み込んだ新しい手法を提案する。
我々は、モジュール内凝集とモジュール間結合を最適化する2つの損失関数を通して、構造的にモジュラーとなるモデルを訓練する。
本研究では,畳み込みニューラルネットワーク(CNN)モデルをモジュール化するための提案手法を実装した。
代表モデルによる評価結果は,MwTが最先端アプローチよりも優れていることを示す。
具体的には、MwTによる精度損失は1.13ポイントであり、ベースラインよりも1.76ポイント少ない。
MwTが生成したモジュールのカーネル保持率は14.58%に過ぎず、最先端のアプローチでは74.31%削減された。
さらに、トレーニングとモジュール化に必要な総時間コストは、ベースラインの半分の108分に過ぎない。 Deep neural network (DNN) models have become increasingly crucial components in intelligent software systems. However, training a DNN model is typically expensive in terms of both time and money. To address this issue, researchers have recently focused on reusing existing DNN models - borrowing the idea of code reuse in software engineering. However, reusing an entire model could cause extra overhead or inherits the weakness from the undesired functionalities. Hence, existing work proposes to decompose an already trained model into modules, i.e., modularizing-after-training, and enable module reuse. Since trained models are not built for modularization, modularizing-after-training incurs huge overhead and model accuracy loss. In this paper, we propose a novel approach that incorporates modularization into the model training process, i.e., modularizing-while-training (MwT). We train a model to be structurally modular through two loss functions that optimize intra-module cohesion and inter-module coupling. We have implemented the proposed approach for modularizing Convolutional Neural Network (CNN) models in this work. The evaluation results on representative models demonstrate that MwT outperforms the state-of-the-art approach. Specifically, the accuracy loss caused by MwT is only 1.13 percentage points, which is 1.76 percentage points less than that of the baseline. The kernel retention rate of the modules generated by MwT is only 14.58%, with a reduction of 74.31% over the state-of-the-art approach. Furthermore, the total time cost required for training and modularizing is only 108 minutes, half of the baseline. | 翻訳日:2023-09-27 02:10:09 公開日:2023-09-23 |
# GPTを用いた類似企業識別のための名前付きエンティティ認識 Named entity recognition using GPT for identifying comparable companies ( http://arxiv.org/abs/2307.07420v2 ) ライセンス: Link先を確認 | Eurico Covas | (参考訳) 上場企業と民間企業の両方において、比較会社の分析は企業評価の方法として広く使われている。
特に、この方法はプライベートエクイティ企業の評価額にとって大きな価値があります。
類似する企業の方法に対するいくつかのアプローチは、通常、確立された業界分類スキームやアナリストの直観と知識を使う傾向がある類似した企業を特定するための定性的なアプローチに依存している。
しかし、文学やプライベートエクイティ業界、特に機械学習クラスタリングや自然言語処理(NLP)において、より定量的な手法が使われ始めている。
nlp法の場合、そのプロセスは、例えば、会社のウェブサイトや、いくつかの金融データベースシステムからの企業説明から製品エンティティを抽出し、類似性分析を行う。
ここでは、公開企業のウィキペディアウェブサイトの企業記述や要約を用いて、OpenAIのGPTのような大規模言語モデル(LLM)を使用することで、手動アノテーションを使用する標準的なエンティティ認識(NER)手法よりもはるかに精度と成功率が高いことを示す。
定量的に高い精度を実証し、質的に言えば、適切な競合する企業同士のピアグループを作るのに使用できることを示す。 For both public and private firms, comparable companies' analysis is widely used as a method for company valuation. In particular, the method is of great value for valuation of private equity companies. The several approaches to the comparable companies' method usually rely on a qualitative approach to identifying similar peer companies, which tend to use established industry classification schemes and/or analyst intuition and knowledge. However, more quantitative methods have started being used in the literature and in the private equity industry, in particular, machine learning clustering, and natural language processing (NLP). For NLP methods, the process consists of extracting product entities from e.g., the company's website or company descriptions from some financial database system and then to perform similarity analysis. Here, using companies' descriptions/summaries from publicly available companies' Wikipedia websites, we show that using large language models (LLMs), such as GPT from OpenAI, has a much higher precision and success rate than using the standard named entity recognition (NER) methods which use manual annotation. We demonstrate quantitatively a higher precision rate, and show that, qualitatively, it can be used to create appropriate comparable companies peer groups which could then be used for equity valuation. | 翻訳日:2023-09-27 01:50:24 公開日:2023-09-23 |
# 多粒性トポロジー保護のための差分分離グラフ畳み込み Differentially Private Decoupled Graph Convolutions for Multigranular Topology Protection ( http://arxiv.org/abs/2307.06422v2 ) ライセンス: Link先を確認 | Eli Chien, Wei-Ning Chen, Chao Pan, Pan Li, Ayfer \"Ozg\"ur, Olgica Milenkovic | (参考訳) GNNは、モデル予測を通じて、機密性の高いユーザ情報やインタラクションを不注意に公開することができる。
これらのプライバシー問題に対処するため、差分プライバシー(dp)プロトコルは、証明可能なプライバシー保護とモデルユーティリティの間のトレードオフを制御するために使用される。
2つの主な理由から、GNNに標準のDPアプローチを適用することは推奨できない。
まず、グラフ畳み込みによる隣接ノード属性に依存するノードラベルの予測は、プライバシの漏洩につながる可能性がある。
第2に,実用的なアプリケーションでは,ノード属性とグラフトポロジのプライバシ要件が異なる場合がある。
後者の設定では、既存のDP-GNNモデルは、グラフトポロジのプライバシ、ノード属性のプライバシ、GNNユーティリティ間のマルチグラニュラトレードオフを提供していない。
両制約に対処するため,グラフ学習に適したグラフ微分プライバシー(GDP)という新しいフレームワークを提案する。
GDPは実証可能なプライベートモデルパラメータとプライベート予測の両方を保証する。
さらに、グラフトポロジのプライバシーの異なるレベルにおけるGDPの特性を分析するために、グラフデータセットの隣接性という新たな統一概念について述べる。
その結果,グラフ畳み込みに依存するDP-GNNは,多粒グラフトポロジプライバシーの要件を満たすだけでなく,最大ノード次数に少なくとも線形にスケールするDPノイズの注入も必要であることがわかった。
対照的に、我々の提案した差分分離グラフ畳み込み(DPDGC)は、GDPに必要な保証を提供するグラフ畳み込みよりも柔軟で効率的な代替手段である。
提案手法を検証するために,7つのノード分類ベンチマークとイラストレイティブ合成データセットについて広範な実験を行った。
その結果,PDGCはプライバシ・ユーティリティ・トレードオフの観点から既存のDP-GNNよりも大幅に優れていた。 GNNs can inadvertently expose sensitive user information and interactions through their model predictions. To address these privacy concerns, Differential Privacy (DP) protocols are employed to control the trade-off between provable privacy protection and model utility. Applying standard DP approaches to GNNs directly is not advisable due to two main reasons. First, the prediction of node labels, which relies on neighboring node attributes through graph convolutions, can lead to privacy leakage. Second, in practical applications, the privacy requirements for node attributes and graph topology may differ. In the latter setting, existing DP-GNN models fail to provide multigranular trade-offs between graph topology privacy, node attribute privacy, and GNN utility. To address both limitations, we propose a new framework termed Graph Differential Privacy (GDP), specifically tailored to graph learning. GDP ensures both provably private model parameters as well as private predictions. Additionally, we describe a novel unified notion of graph dataset adjacency to analyze the properties of GDP for different levels of graph topology privacy. Our findings reveal that DP-GNNs, which rely on graph convolutions, not only fail to meet the requirements for multigranular graph topology privacy but also necessitate the injection of DP noise that scales at least linearly with the maximum node degree. In contrast, our proposed Differentially Private Decoupled Graph Convolutions (DPDGCs) represent a more flexible and efficient alternative to graph convolutions that still provides the necessary guarantees of GDP. To validate our approach, we conducted extensive experiments on seven node classification benchmarking and illustrative synthetic datasets. The results demonstrate that DPDGCs significantly outperform existing DP-GNNs in terms of privacy-utility trade-offs. | 翻訳日:2023-09-27 01:50:03 公開日:2023-09-23 |
# MARTA:アトランタでオンデマンドマルチモーダル交通システムを試験中 MARTA Reach: Piloting an On-Demand Multimodal Transit System in Atlanta ( http://arxiv.org/abs/2308.02681v2 ) ライセンス: Link先を確認 | Pascal Van Hentenryck, Connor Riley, Anthony Trasatti, Hongzhao Guan, Tejas Santanam, Jorge A. Huertas, Kevin Dalmeijer, Kari Watkins, Juwon Drake, Samson Baskin | (参考訳) 本報告では,ジョージア州アトランタ市におけるODMTS(On-Demand Multimodal Transit Systems)の潜在的価値を実証することを目的とした,6ヶ月のパイロットMARTA Reachの結果について報告する。
odmtは、最初の/最後のマイル問題に対処するために、オンデマンドサービスと従来の固定ルートを統合することで、交通中心の視点を取る。
ODMTSは、固定ルートとオンデマンドシャトルサービスを(後述ではなく)設計して、完全に統合されたオペレーションと運賃構造を備えたドアツードアのマルチモーダルサービスを提供するトランジットシステムに統合している。
この論文は、ジョージア州アトランタのような複雑な都市にODMTSを配備する際の影響、利益、課題に関する知識ギャップを埋めるものである。
パイロットは4つの異なるゾーンに配備され、輸送オプションは限られており、最初の/最後のマイル問題に対処するために輸送システムと統合されたオンデマンドシャトルを使用していた。
本報告では, パイロットの設計と運用について述べるとともに, 乗務員, サービス品質, 旅行目的, 代替交通手段, 旅行のマルチモーダルな性質, 遭遇した課題, コスト見積の観点から結果を示す。
パイロットの主な発見は、リーチが非常に価値の高いサービスを提供し、それ以外は配車会社、タクシー、あるいは個人車によって提供されるであろう多くの旅行を行ったことである。
さらに、到達距離の大多数はマルチモーダルであり、鉄道との接続が最も顕著であった。 This paper reports on the results of the six-month pilot MARTA Reach, which aimed to demonstrate the potential value of On-Demand Multimodal Transit Systems (ODMTS) in the city of Atlanta, Georgia. ODMTS take a transit-centric view by integrating on-demand services and traditional fixed routes in order to address the first/last mile problem. ODMTS combine fixed routes and on-demand shuttle services by design (not as an after-thought) into a transit system that offers a door-to-door multimodal service with fully integrated operations and fare structure. The paper fills a knowledge gap, i.e., the understanding of the impact, benefits, and challenges of deploying ODMTS in a city as complex as Atlanta, Georgia. The pilot was deployed in four different zones with limited transit options, and used on-demand shuttles integrated with the overall transit system to address the first/last mile problem. The paper describes the design and operations of the pilot, and presents the results in terms of ridership, quality of service, trip purposes, alternative modes of transportation, multimodal nature of trips, challenges encountered, and cost estimates. The main findings of the pilot are that Reach offered a highly valued service that performed a large number of trips that would have otherwise been served by ride-hailing companies, taxis, or personal cars. Moreover, the wide majority of Reach trips were multimodal, with connections to rail being most prominent. | 翻訳日:2023-09-27 01:42:55 公開日:2023-09-23 |
# BEVControl: BEVスケッチレイアウトによる多視点一貫性によるストリートビュー要素の正確な制御 BEVControl: Accurately Controlling Street-view Elements with Multi-perspective Consistency via BEV Sketch Layout ( http://arxiv.org/abs/2308.01661v4 ) ライセンス: Link先を確認 | Kairui Yang, Enhui Ma, Jibin Peng, Qing Guo, Di Lin, Kaicheng Yu | (参考訳) 合成画像を用いて知覚モデルの性能を高めることは、コンピュータビジョンにおける長年の研究課題である。
ロングテールのシナリオは収集できないため、マルチビューカメラを備えた視覚中心の自動運転システムではより魅力的なものになる。
bevのセグメンテーションレイアウトに導かれた既存の生成ネットワークは、シーンレベルのメトリクスのみに基づいて評価すると、フォトリアリスティックなストリートビュー画像を合成するように見える。
しかし、ズームインすると、通常は正確な前景や、方向などの背景の詳細を生成できない。
そこで本研究では,前景と背景コンテンツを高精度に生成できる2段階生成法bevcontrolを提案する。
セグメンテーションのような入力とは対照的に、スケッチスタイルの入力もサポートしている。
さらに,生成シーン,フォアグラウンドオブジェクト,背景幾何の質を十分に比較するための総合的多レベル評価プロトコルを提案する。
我々のBEVControlは最先端の手法であるBEVGenを5.89から26.80の差で上回っている。
また,bevcontrol が生成した画像を用いて下流知覚モデルのトレーニングを行い,平均 1.29 の nds スコア向上を達成した。 Using synthesized images to boost the performance of perception models is a long-standing research challenge in computer vision. It becomes more eminent in visual-centric autonomous driving systems with multi-view cameras as some long-tail scenarios can never be collected. Guided by the BEV segmentation layouts, the existing generative networks seem to synthesize photo-realistic street-view images when evaluated solely on scene-level metrics. However, once zoom-in, they usually fail to produce accurate foreground and background details such as heading. To this end, we propose a two-stage generative method, dubbed BEVControl, that can generate accurate foreground and background contents. In contrast to segmentation-like input, it also supports sketch style input, which is more flexible for humans to edit. In addition, we propose a comprehensive multi-level evaluation protocol to fairly compare the quality of the generated scene, foreground object, and background geometry. Our extensive experiments show that our BEVControl surpasses the state-of-the-art method, BEVGen, by a significant margin, from 5.89 to 26.80 on foreground segmentation mIoU. In addition, we show that using images generated by BEVControl to train the downstream perception model, it achieves on average 1.29 improvement in NDS score. | 翻訳日:2023-09-27 01:42:28 公開日:2023-09-23 |
# 関係指向:知識整合因果aiへ向けて Relation-Oriented: Toward Knowledge-Aligned Causal AI ( http://arxiv.org/abs/2307.16387v6 ) ライセンス: Link先を確認 | Jia Li, Xiang Li | (参考訳) 本研究は、一意な次元の観点から関係モデリングを理解することによって、広く普及している観察指向学習パラダイムの固有の限界を検討する。
このパラダイムは、関係を定義する前にモデリングオブジェクトの識別を必要とし、モデルを観測空間に閉じ込め、動的時間的特徴へのアクセスを制限する。
特異で絶対的なタイムラインに依存することによって、時間的特徴空間の多次元的性質をしばしば無視する。
この監視はモデルの堅牢性と一般化性を妥協し、AIのミスアライメント問題に大きく貢献する。
本研究では,人間認知における関係中心の本質から,その方法論的側面である関係定義表現学習を補完する新たな関係指向パラダイムを提案する。 This study examines the inherent limitations of the prevailing Observation-Oriented learning paradigm by understanding relationship modeling from a unique dimensionality perspective. This paradigm necessitates the identification of modeling objects prior to defining relations, confining models to observational space, and limiting their access to dynamical temporal features. By relying on a singular, absolute timeline, it often neglects the multi-dimensional nature of the temporal feature space. This oversight compromises model robustness and generalizability, contributing significantly to the AI misalignment issue. Drawing from the relation-centric essence of human cognition, this study presents a new Relation-Oriented paradigm, complemented by its methodological counterpart, the relation-defined representation learning, supported by extensive efficacy experiments. | 翻訳日:2023-09-27 01:41:31 公開日:2023-09-23 |
# Fact-Checkingによる生成AIの機械化 - オントロジー駆動型生物グラフによるヒト疾患と遺伝子リンクの検証 Challenging the Machinery of Generative AI with Fact-Checking: Ontology-Driven Biological Graphs for Verifying Human Disease-Gene Links ( http://arxiv.org/abs/2308.03929v3 ) ライセンス: Link先を確認 | Ahmed Abdeen Hamed and Byung Suk Lee and Alessandro Crimi and Magdalena M. Misiak | (参考訳) 背景: 様々な生成AIツールのローンチ以来、科学者たちは、生成能力への信頼を確立するために、その能力と内容の評価に努めてきた。
生成したコンテンツを検証し、新規使用を識別するための規制とガイドラインが生まれている。
目的:ネットワークモデルの厳密性を利用してchatgptクレームを計算的にチェックする方法を実証したい。
本研究の目的は,チャットgptの内容から得られた生体グラフに埋め込まれた知識のファクトチェックを実現することである。
方法:我々はChatGPTの関連エンティティの系統的尋問を可能にする生物学的ネットワークアプローチを採用した。
約20万のPubMed抽象データから構築した生物グラフとChatGPT-3.5ターボモデルを用いて生成したデータセットから構築した生物グラフを比較した。
結果:ランダムに選択された250の10サンプルにおいて,1000項目のChatGPTデータセットは,ファクトチェックリンク精度が70%から86%であった。
その後、IntAct Interaction database と Gene Regulation Network Database (GRNdb) を用いて、計算によって同定されたリンクの有効性を確認する。
また,chatgptグラフのエッジの近さは有意に短く(90~153),文学的距離(236~765)であった。
このパターンは10サンプルすべてに当てはまる。
結論: 本研究は, ChatGPT 生成テキスト中の集合疾患遺伝子関係の高精度な解析を行った。
驚くほど一貫したパターンは、新しい研究機会の扉を開く可能性のある、輝かしい新しい生物学的経路を提供する。 Background: Since the launch of various generative AI tools, scientists have been striving to evaluate their capabilities and contents, in the hope of establishing trust in their generative abilities. Regulations and guidelines are emerging to verify generated contents and identify novel uses. Objective: we aspire to demonstrate how ChatGPT claims are checked computationally using the rigor of network models. We aim to achieve fact-checking of the knowledge embedded in biological graphs that were contrived from ChatGPT contents at the aggregate level. Methods: We adopted a biological networks approach that enables the systematic interrogation of ChatGPT's linked entities. We designed an ontology-driven fact-checking algorithm that compares biological graphs constructed from approximately 200,000 PubMed abstracts with counterparts constructed from a dataset generated using the ChatGPT-3.5 Turbo model. Results: in 10-samples of 250 randomly selected records a ChatGPT dataset of 1000 "simulated" articles, the fact-checking link accuracy ranged from 70% to 86%. The computational process was followed by a manual process using IntAct Interaction database and the Gene regulatory network database (GRNdb) to confirm the validity of the links identified computationally. We also found that the proximity of the edges of ChatGPT graphs were significantly shorter (90 -- 153) while literature distances were (236 -- 765). This pattern held true in all 10-samples. Conclusion: This study demonstrated high accuracy of aggregate disease-gene links relationships found in ChatGPT-generated texts. The strikingly consistent pattern offers an illuminate new biological pathways that may open the door for new research opportunities. | 翻訳日:2023-09-27 01:30:18 公開日:2023-09-23 |
# 不均一ノード特徴と相互作用規則に基づくディジタルツイン配向複合ネットワークシステム Digital Twin-Oriented Complex Networked Systems based on Heterogeneous Node Features and Interaction Rules ( http://arxiv.org/abs/2308.11034v2 ) ライセンス: Link先を確認 | Jiaqi Wen, Bogdan Gabrys, Katarzyna Musial | (参考訳) 本研究では,実システムに忠実なネットワークを生成することを目的とした,Digital Twin-Oriented Complex Networked Systems(DT-CNS)の拡張可能なモデリングフレームワークを提案する。
モデリングプロセスは焦点を絞る
(i)ノードの特徴、及び
(ii)個々のノードの好みに基づいて構築された接続を作成するための相互作用ルール。
我々は,これらのネットワークに広まる流行に関連するネットワーク成長と異なる透過性に関する様々な特徴と規則を取り入れたシミュレーションベースのDT-CNSの実験を行う。
本研究は,特定の時間と社会的距離内で発生した感染状況を調査し,疫病発生時におけるソーシャルネットワークの災害回復性に関するケーススタディである。
実験の結果, 相互作用規則の特徴の多様性と柔軟性をそれぞれ考慮し, 構造的・ダイナミクス的複雑度の違いが, ネットワークの成長と流行にどのように影響するかを示した。
分析の結果,災害のレジリエンスを最大化するためには,感染リスクが高いため望ましい特徴を有するノードを対象とし,流行対策の焦点となるべきと考えられた。 This study proposes an extendable modelling framework for Digital Twin-Oriented Complex Networked Systems (DT-CNSs) with a goal of generating networks that faithfully represent real systems. Modelling process focuses on (i) features of nodes and (ii) interaction rules for creating connections that are built based on individual node's preferences. We conduct experiments on simulation-based DT-CNSs that incorporate various features and rules about network growth and different transmissibilities related to an epidemic spread on these networks. We present a case study on disaster resilience of social networks given an epidemic outbreak by investigating the infection occurrence within specific time and social distance. The experimental results show how different levels of the structural and dynamics complexities, concerned with feature diversity and flexibility of interaction rules respectively, influence network growth and epidemic spread. The analysis revealed that, to achieve maximum disaster resilience, mitigation policies should be targeted at nodes with preferred features as they have higher infection risks and should be the focus of the epidemic control. | 翻訳日:2023-09-27 01:22:39 公開日:2023-09-23 |
# オンライン連続学習に関する総合的実証評価 A Comprehensive Empirical Evaluation on Online Continual Learning ( http://arxiv.org/abs/2308.10328v3 ) ライセンス: Link先を確認 | Albin Soutif--Cormerais, Antonio Carta, Andrea Cossu, Julio Hurtado, Hamed Hemati, Vincenzo Lomonaco, Joost Van de Weijer | (参考訳) オンライン連続学習は、時間的シフトのあるデータストリーム上で直接学習し、そのストリームから最小量のデータを格納することで、ライブ学習体験に近づけることを目的としている。
この経験的評価では、オンライン連続学習に取り組む文献から様々な方法を評価する。
より具体的には、画像分類の文脈におけるクラス増分設定に焦点を当て、学習者はデータストリームから新たなクラスを漸進的に学習しなければならない。
これらの手法をSplit-CIFAR100とSplit-TinyImagenetベンチマークで比較し、それらの平均精度、忘れ、安定性、表現の質を測定し、最後にアルゴリズムの様々な側面を評価する。
ほとんどの手法は安定性と不適合の問題に悩まされている。
しかし、学習された表現は同じ計算予算の下での訓練に匹敵する。
結果から明らかな勝者は現れず、適切に調整され実装された場合、基本的なエクスペリエンスの再生は非常に強力なベースラインです。
私たちは、avalancheフレームワークをベースにした、モジュール化された拡張可能なコードベースをhttps://github.com/albinsou/ocl_surveyでリリースします。 Online continual learning aims to get closer to a live learning experience by learning directly on a stream of data with temporally shifting distribution and by storing a minimum amount of data from that stream. In this empirical evaluation, we evaluate various methods from the literature that tackle online continual learning. More specifically, we focus on the class-incremental setting in the context of image classification, where the learner must learn new classes incrementally from a stream of data. We compare these methods on the Split-CIFAR100 and Split-TinyImagenet benchmarks, and measure their average accuracy, forgetting, stability, and quality of the representations, to evaluate various aspects of the algorithm at the end but also during the whole training period. We find that most methods suffer from stability and underfitting issues. However, the learned representations are comparable to i.i.d. training under the same computational budget. No clear winner emerges from the results and basic experience replay, when properly tuned and implemented, is a very strong baseline. We release our modular and extensible codebase at https://github.com/AlbinSou/ocl_survey based on the avalanche framework to reproduce our results and encourage future research. | 翻訳日:2023-09-27 01:21:43 公開日:2023-09-23 |
# AI Hilbert: データの統一とバックグラウンド知識による科学的発見のための新しいパラダイム AI Hilbert: A New Paradigm for Scientific Discovery by Unifying Data and Background Knowledge ( http://arxiv.org/abs/2308.09474v2 ) ライセンス: Link先を確認 | Ryan Cory-Wright, Bachir El Khadir, Cristina Cornelio, Sanjeeb Dash, Lior Horesh | (参考訳) 自然現象を同義に説明し、既存の背景理論と整合する科学公式の発見は、科学の重要な目標である。
歴史的に、科学者は既存の知識に基づいて方程式を操作し、新しい方程式を作り、実験的に検証することで自然法則を導出してきた。
近年、大量の実験データを持つ環境では、データ駆動科学的発見が有望な競争相手として浮上している。
残念ながら、データ駆動型メソッドは、データがノイズや不足している場合に有効な法則を見つけることができないことが多い。
したがって、最近の研究は、背景理論と矛盾する公式を排除するために回帰と推論を組み合わせる。
しかし、データに最も適するものを見つけるための背景理論と一致する公式の空間を探索する問題はよく解かれていない。
我々は、すべての公理と科学法則が多項式等式と不等式によって表現可能である場合のこの問題に対する解決策を提案し、我々のアプローチが広く適用可能であると主張する。
さらに,バイナリ変数と論理制約を用いた最小複雑性の概念をモデル化し,混合整数線形あるいは半定値最適化による多項式最適化問題を解き,正のstellensatz証明書を用いて科学的発見の有効性を原理的に証明する。
注目すべきことに,本論文で活用した最適化手法は,完全に正しい背景理論を持つ多項式時間,あるいは部分的に正しい背景理論を持つ非決定論的多項式時間(NP)時間で実行することができる。
ケプラーの惑星運動の第3法則、ハゲン・ポワセイユ方程式、放射された重力波パワー方程式など、いくつかの有名な科学法則は、背景公理や実験データから原理的に導出できることを実証する。 The discovery of scientific formulae that parsimoniously explain natural phenomena and align with existing background theory is a key goal in science. Historically, scientists have derived natural laws by manipulating equations based on existing knowledge, forming new equations, and verifying them experimentally. In recent years, data-driven scientific discovery has emerged as a viable competitor in settings with large amounts of experimental data. Unfortunately, data-driven methods often fail to discover valid laws when data is noisy or scarce. Accordingly, recent works combine regression and reasoning to eliminate formulae inconsistent with background theory. However, the problem of searching over the space of formulae consistent with background theory to find one that fits the data best is not well-solved. We propose a solution to this problem when all axioms and scientific laws are expressible via polynomial equalities and inequalities and argue that our approach is widely applicable. We further model notions of minimal complexity using binary variables and logical constraints, solve polynomial optimization problems via mixed-integer linear or semidefinite optimization, and prove the validity of our scientific discoveries in a principled manner using Positivestellensatz certificates. Remarkably, the optimization techniques leveraged in this paper allow our approach to run in polynomial time with fully correct background theory, or non-deterministic polynomial (NP) time with partially correct background theory. We demonstrate that some famous scientific laws, including Kepler's Third Law of Planetary Motion, the Hagen-Poiseuille Equation, and the Radiated Gravitational Wave Power equation, can be derived in a principled manner from background axioms and experimental data. | 翻訳日:2023-09-27 01:20:31 公開日:2023-09-23 |
# 縦断的研究における解剖学的位置マッチングのための階層的記述フレームワーク A Hierarchical Descriptor Framework for On-the-Fly Anatomical Location Matching between Longitudinal Studies ( http://arxiv.org/abs/2308.07337v2 ) ライセンス: Link先を確認 | Halid Ziya Yerebakan, Yoshihisa Shinagawa, Mahesh Ranganath, Simon Allen-Raffl, Gerardo Hermosillo Valadez | (参考訳) 縦断比較において,医療画像の対間の解剖学的位置を一致させる手法を提案する。
位置情報を符号化する画像強度の階層的スパースサンプリングに基づいて、ソース画像内のクエリポイントの記述子を計算することにより、マッチングを可能にする。
そして、階層検索演算は、対象画像中の最も類似した記述子で対応する点を求める。
この単純な強力な戦略は、単一のCPU上でのマッピングポイントの計算時間をミリ秒スケールに短縮する。
したがって、放射線学者は、登録から変形フィールドを事前計算したり保存したりするための追加の建築コストを必要とせずに、ほぼリアルタイムで類似した解剖学的位置を比較することができる。
我々のアルゴリズムは事前のトレーニング、再サンプリング、セグメンテーション、アフィン変換ステップを必要としない。
我々は最近公開されたDeep Lesion Trackingデータセットアノテーションでアルゴリズムをテストした。
深部病変追跡装置と比較してより正確なマッチングが得られたが,最も正確なアルゴリズムよりも24倍高速であった。
また,CTとMRのマッチング精度について検討し,提案アルゴリズムの精度を,複数の放射線科医が統合した地中真実と比較した。 We propose a method to match anatomical locations between pairs of medical images in longitudinal comparisons. The matching is made possible by computing a descriptor of the query point in a source image based on a hierarchical sparse sampling of image intensities that encode the location information. Then, a hierarchical search operation finds the corresponding point with the most similar descriptor in the target image. This simple yet powerful strategy reduces the computational time of mapping points to a millisecond scale on a single CPU. Thus, radiologists can compare similar anatomical locations in near real-time without requiring extra architectural costs for precomputing or storing deformation fields from registrations. Our algorithm does not require prior training, resampling, segmentation, or affine transformation steps. We have tested our algorithm on the recently published Deep Lesion Tracking dataset annotations. We observed more accurate matching compared to Deep Lesion Tracker while being 24 times faster than the most precise algorithm reported therein. We also investigated the matching accuracy on CT and MR modalities and compared the proposed algorithm's accuracy against ground truth consolidated from multiple radiologists. | 翻訳日:2023-09-27 01:19:15 公開日:2023-09-23 |
# 検索エンジン広告システムにおけるプライバシーリスクの理解 Understanding the Privacy Risks of Popular Search Engine Advertising Systems ( http://arxiv.org/abs/2308.15309v3 ) ライセンス: Link先を確認 | Salim Chouaki, Oana Goga, Hamed Haddadi, Peter Snyder | (参考訳) 本稿では,プライバシーに焦点をあてた検索エンジンで使用される広告システムのプライバシー特性を,初めて広範囲に計測する。
広告ベースのビジネスモデルであるStartPage、Qwant、DuckDuckGoの3つの人気のあるプライベート検索エンジン上で、検索広告のクリックが与える影響を、GoogleとBingの2つの主要なデータ共有モデルと比較する自動化手法を提案する。
広告をクリックすると、サードパーティがユーザーを追跡する可能性について、第1のストレージ、ドメインパスのリダイレクト、クリック前後のリクエストを分析して検討する。
その結果,プライバシー重視の検索エンジンは広告クリック時のプライバシー保護に失敗していることがわかった。
ユーザのリクエストは、bingの広告クリックの4%、qwantの広告クリックの86%、google、duckduckgo、startpageの広告クリックの100%のリディレクトリを通じて送信される。
さらに悪いことに、広告システムは、ほとんどの広告クリックで広告主にユニークなIDを渡すことによって、すべての検索エンジンの広告主と衝突する。
これらのIDは、ユーザーがリダイレクトされた時に記録したアクティビティに加えて、リダイレクト者が広告の目的地ウェブサイトでユーザーのアクティビティを集約することを可能にする。
全体として、プライバシー重視の検索エンジンと従来の検索エンジンの両方が、プライバシー強化されたブラウザでさえ、クロスサイトトラッキングを可能にするプライバシー保護行動に関与しているのを観察する。 We present the first extensive measurement of the privacy properties of the advertising systems used by privacy-focused search engines. We propose an automated methodology to study the impact of clicking on search ads on three popular private search engines which have advertising-based business models: StartPage, Qwant, and DuckDuckGo, and we compare them to two dominant data-harvesting ones: Google and Bing. We investigate the possibility of third parties tracking users when clicking on ads by analyzing first-party storage, redirection domain paths, and requests sent before, when, and after the clicks. Our results show that privacy-focused search engines fail to protect users' privacy when clicking ads. Users' requests are sent through redirectors on 4% of ad clicks on Bing, 86% of ad clicks on Qwant, and 100% of ad clicks on Google, DuckDuckGo, and StartPage. Even worse, advertising systems collude with advertisers across all search engines by passing unique IDs to advertisers in most ad clicks. These IDs allow redirectors to aggregate users' activity on ads' destination websites in addition to the activity they record when users are redirected through them. Overall, we observe that both privacy-focused and traditional search engines engage in privacy-harming behaviors allowing cross-site tracking, even in privacy-enhanced browsers. | 翻訳日:2023-09-27 01:10:35 公開日:2023-09-23 |
# 高調波サンプリングによる2次元から3次元再構成のための多面的拡散に基づく次元展開 Multi-plane denoising diffusion-based dimensionality expansion for 2D-to-3D reconstruction of microstructures with harmonized sampling ( http://arxiv.org/abs/2308.14035v2 ) ライセンス: Link先を確認 | Kang-Hyun Lee and Gun Jin Yun | (参考訳) 統合計算材料工学 (icme) のアプローチにより, 信頼性の高い構造データセットの獲得は, 材料体系設計への重要な一歩である。
しかし、3次元(3D)の微細構造データセットの取得は、高い実験コストや技術的な制約のために困難であることが多い。
そこで本研究では,拡散型生成モデル(DGM)を用いてマイクロ3Diffと呼ばれる2次元から3次元の再構成を行う新しいフレームワークを提案する。
具体的には、このアプローチは2Dサンプルの生成のためにのみ訓練済みのDGMを必要とし、次元展開(2D-to-3D)は生成過程(すなわち逆拡散過程)の間だけ行われる。
提案フレームワークは,多面性拡散(multi-plane denoising diffusion)と呼ばれる新しい概念を取り入れ,三次元空間における空間的接続性を維持しつつ,異なる平面から雑音のあるサンプル(潜時変数)をデータ構造に変換する。
さらに,dgmの逆マルコフ連鎖から次元展開中に偏りを解消するために,調和サンプリング法を開発した。
本研究は,2次元画像と形態的に等価なスライスを連結した3次元サンプルの再構成におけるMicro3Diffの実現可能性を示す。
Micro3Diffの性能を評価するため, 各種のミクロ構造(合成および実験的に観察された)を再構成し, 生成した試料の品質を質的に, 定量的に評価した。
再建の成果は、次世代のICMEアプリケーションにおけるMicro3Diffの潜在的利用を促すとともに、DGMの潜伏空間の理解と操作のブレークスルーを達成している。 Acquiring reliable microstructure datasets is a pivotal step toward the systematic design of materials with the aid of integrated computational materials engineering (ICME) approaches. However, obtaining three-dimensional (3D) microstructure datasets is often challenging due to high experimental costs or technical limitations, while acquiring two-dimensional (2D) micrographs is comparatively easier. To deal with this issue, this study proposes a novel framework for 2D-to-3D reconstruction of microstructures called Micro3Diff using diffusion-based generative models (DGMs). Specifically, this approach solely requires pre-trained DGMs for the generation of 2D samples, and dimensionality expansion (2D-to-3D) takes place only during the generation process (i.e., reverse diffusion process). The proposed framework incorporates a new concept referred to as multi-plane denoising diffusion, which transforms noisy samples (i.e., latent variables) from different planes into the data structure while maintaining spatial connectivity in 3D space. Furthermore, a harmonized sampling process is developed to address possible deviations from the reverse Markov chain of DGMs during the dimensionality expansion. Combined, we demonstrate the feasibility of Micro3Diff in reconstructing 3D samples with connected slices that maintain morphologically equivalence to the original 2D images. To validate the performance of Micro3Diff, various types of microstructures (synthetic and experimentally observed) are reconstructed, and the quality of the generated samples is assessed both qualitatively and quantitatively. The successful reconstruction outcomes inspire the potential utilization of Micro3Diff in upcoming ICME applications while achieving a breakthrough in comprehending and manipulating the latent space of DGMs. | 翻訳日:2023-09-27 01:10:10 公開日:2023-09-23 |
# スクイーズドライブによるマクロ遠方マグノンモードの絡み合い Macroscopic distant magnon modes entanglement via a squeezed drive ( http://arxiv.org/abs/2308.13586v2 ) ライセンス: Link先を確認 | Kamran Ullah, Muhammad Tahir Naseem, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu | (参考訳) 量子システムアレイにおけるロバスト絡み合いの発生は、効率的な量子情報処理を実現する上で重要な側面である。
近年、量子マグノニクスの分野は、この方向に進むための有望なプラットフォームとして大きな注目を集めている。
提案手法では, 磁気双極子相互作用により空洞モードに結合した1つのイットリウム鉄ガーネット(YIG)球を各空洞に収容する一次元共振器のアレイを用いた。
我々は、YIG間の絡み合いを誘導するため、圧縮真空駆動を用い、必要な非線形性を提供する。
本研究は, アレイ全体にわたる遠方マグノンモード間の二分極および三分極の絡み合いが, すべて1つの制御ドライブで達成されたことを示す。
さらに、マグノンモード間の定常絡み合いは、マグノン散逸率と環境温度に対して頑健である。
その結果,量子情報処理や量子通信システムにおけるキャビティ・マグノンアレイの応用が期待できる。 The generation of robust entanglement in quantum system arrays is a crucial aspect of realizing efficient quantum information processing. Recently, the field of quantum magnonics has garnered significant attention as a promising platform for advancing in this direction. In our proposed scheme, we utilize a one-dimensional array of coupled cavities, with each cavity housing a single yttrium iron garnet (YIG) sphere coupled to the cavity mode through magnetic dipole interaction. To induce entanglement between YIGs, we employ a squeezed vacuum drive, providing the necessary nonlinearity. Our results demonstrate the successful generation of bipartite and tripartite entanglement between distant magnon modes across the entire array, all achieved through a single control drive. Furthermore, the steady-state entanglement between magnon modes is robust against magnon dissipation rates and environment temperature. Our results may find applications of cavity-magnon arrays in quantum information processing and quantum communication systems. | 翻訳日:2023-09-27 01:09:38 公開日:2023-09-23 |
# 大規模言語モデルを用いたテキストスタイル転送評価 Text Style Transfer Evaluation Using Large Language Models ( http://arxiv.org/abs/2308.13577v2 ) ライセンス: Link先を確認 | Phil Ostheimer, Mayank Nagda, Marius Kloft, Sophie Fellenz | (参考訳) テキストスタイル転送(TST)の評価は、その多面的性質のため複雑なタスクである。
生成したテキストの品質は、スタイル転送精度、コンテンツ保存、全体的な流速といった難易度に基づいて測定される。
人体評価はTST評価における金の基準と考えられているが、コストがかかり、しばしば再現が困難である。
したがって、これらの領域では自動メトリクスが一般的です。
それでも、これらの自動測定が人間の評価と相関するかどうかは不明だ。
近年のLLM(Large Language Models)の進歩は、多様な、目に見えないタスクにおいて、平均的な人的パフォーマンスを上回る能力を示した。
これは、TLMが人間の評価とTST評価における他の自動メトリクスの代替になり得ることを示唆している。
複数の入力プロンプトを用いて、TSTにおける異なるLLMの結果を比較する。
この結果から,LLMが従来の自動測定値より優れていることが示唆された(ゼロショットでも)。
さらに,本研究では,TST評価の堅牢性を高める能力を示す,即時アンサンブルの概念を紹介した。
本研究は,様々なタスクにおけるLCMの継続的な評価に寄与し,成果と限界領域に関する洞察を提供する。 Evaluating Text Style Transfer (TST) is a complex task due to its multifaceted nature. The quality of the generated text is measured based on challenging factors, such as style transfer accuracy, content preservation, and overall fluency. While human evaluation is considered to be the gold standard in TST assessment, it is costly and often hard to reproduce. Therefore, automated metrics are prevalent in these domains. Nevertheless, it remains unclear whether these automated metrics correlate with human evaluations. Recent strides in Large Language Models (LLMs) have showcased their capacity to match and even exceed average human performance across diverse, unseen tasks. This suggests that LLMs could be a feasible alternative to human evaluation and other automated metrics in TST evaluation. We compare the results of different LLMs in TST using multiple input prompts. Our findings highlight a strong correlation between (even zero-shot) prompting and human evaluation, showing that LLMs often outperform traditional automated metrics. Furthermore, we introduce the concept of prompt ensembling, demonstrating its ability to enhance the robustness of TST evaluation. This research contributes to the ongoing evaluation of LLMs in diverse tasks, offering insights into successful outcomes and areas of limitation. | 翻訳日:2023-09-27 01:09:21 公開日:2023-09-23 |
# 多嚢胞性腎臓病の深層学習 : ニューラルネットワークを用いた遺伝子発現解析による精度と早期検出 Deep Learning for Polycystic Kidney Disease: Utilizing Neural Networks for Accurate and Early Detection through Gene Expression Analysis ( http://arxiv.org/abs/2309.03033v2 ) ライセンス: Link先を確認 | Kapil Panda, Anirudh Mazumder | (参考訳) 多嚢胞性腎疾患(PKD)は腎臓の嚢胞形成による致命的な合併症を引き起こす可能性があるため、早期にPKDが検出されることが疾患の効果的な管理に重要である。
しかし、診断に重要な役割を果たしている様々な患者固有の要因は、臨床医が解決すべき複雑なパズルとなり、腎不全につながる可能性がある。
そこで本研究では,遺伝子解析による早期疾患検出のための深層学習アプローチを提案する。
考案されたニューラルネットワークは、腎臓におけるPKDの正確な、堅牢な予測結果を達成することができ、患者の結果を改善することができる。
さらに、遺伝子オントロジー解析を行うことにより、pkdが影響を及ぼす可能性のある最上位の遺伝子過程と機能を予測することができた。 With Polycystic Kidney Disease (PKD) potentially leading to fatal complications in patients due to the formation of cysts in kidneys, early detection of PKD is crucial for effective management of the condition. However, the various patient-specific factors that play a role in the diagnosis make it an intricate puzzle for clinicians to solve, leading to possible kidney failure. Therefore, in this study we aim to utilize a deep learning-based approach for early disease detection through gene expression analysis. The devised neural network is able to achieve accurate and robust prediction results for possible PKD in kidneys, thereby improving patient outcomes. Furthermore, by conducting a gene ontology analysis, we were able to predict the top gene processes and functions that PKD may affect. | 翻訳日:2023-09-27 01:01:00 公開日:2023-09-23 |
# HAE-RAE Bench: 言語モデルにおける韓国語知識の評価 HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models ( http://arxiv.org/abs/2309.02706v4 ) ライセンス: Link先を確認 | Guijin Son, Hanwool Lee, Suwan Kim, Huiseo Kim, Jaecheol Lee, Je Won Yeom, Jihyu Jung, Jung Woo Kim, Songseong Kim | (参考訳) 大規模なコーパスで訓練された大規模言語モデル(LLM)は、幅広いタスクにおいて印象的な能力を示している。
これらのモデルを英語以外の言語に適応する努力が進行中であるが、評価手法への注目は限定的である。
現在の多言語ベンチマークは、しばしば英語のテストの翻訳や再実装に依存し、独自の文化的・言語的なニュアンスを捉える能力を制限する。
このギャップを埋めるために,韓国文化や文脈の深さを欠いたモデルに挑戦するためのデータセットであるhae-rae benchを紹介する。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
トークンやシーケンス分類や特定の数学的あるいは論理的な推論に焦点を当てた従来の評価スイートとは対照的に、hae-rae benchは、韓国固有の知識や文化的文脈を思い出すモデルの適性を強調している。
以前の韓国のベンチマークとの比較分析では、HAE-RAEベンチは、英語から学んだ能力や知識を移譲することで、非ネイティブモデルにより大きな課題をもたらすことを示している。 Large Language Models (LLMs) trained on massive corpora demonstrate impressive capabilities in a wide range of tasks. While there are ongoing efforts to adapt these models to languages beyond English, the attention given to their evaluation methodologies remains limited. Current multilingual benchmarks often rely on back translations or re-implementations of English tests, limiting their capacity to capture unique cultural and linguistic nuances. To bridge this gap for the Korean language, we introduce HAE-RAE Bench, a dataset curated to challenge models lacking Korean cultural and contextual depth. The dataset encompasses six downstream tasks across four domains: vocabulary, history, general knowledge, and reading comprehension. Contrary to traditional evaluation suites focused on token or sequence classification and specific mathematical or logical reasoning, HAE-RAE Bench emphasizes a model's aptitude for recalling Korean-specific knowledge and cultural contexts. Comparative analysis with prior Korean benchmarks indicates that the HAE-RAE Bench presents a greater challenge to non-native models, by disturbing abilities and knowledge learned from English being transferred. | 翻訳日:2023-09-27 01:00:44 公開日:2023-09-23 |
# 3レベルボウティーモデルにおける散逸的ランダウ・ツェナー遷移:ダヴィドフ多重D2アンザッツによる正確な力学 Dissipative Landau-Zener transitions in a three-level bow-tie model: accurate dynamics with the Davydov multi-D2 Ansatz ( http://arxiv.org/abs/2309.01580v2 ) ライセンス: Link先を確認 | Lixing Zhang, Maxim F. Gelin and Yang Zhao | (参考訳) 複数のダヴィドフD2アンサツェの数値的精度を用いて,3レベルボウタイモデル(3L-BTM)におけるランダウ-ツェナー(LZ)遷移について検討した。
まず, 1つの調和モードに結合した3L-TBMについて検討し, モデルパラメータの選択値に対する遷移確率の進化について検討し, エネルギー図法による解析を行った。
次に3L-TBMをボソン浴で探索した。
シミュレーションにより,3L-BTMの動態にはサブオーミック,オーミック,スーパーオーミックのボソン浴が著しく異なる影響があることが示され,標準的なマルコフの単一レート記述では把握できない。
また, 2レベルLZシステムに欠如する新しい入浴現象についても述べる。 We investigate Landau-Zener (LZ) transitions in the three-level bow-tie model (3L-BTM) in a dissipative environment by using the numerically accurate method of multiple Davydov D2 Ansatze. We first consider the 3L-TBM coupled to a single harmonic mode, study evolutions of the transition probabilities for selected values of the model parameters, and interpret the obtained results with the aid of the energy diagram method. We then explore the 3L-TBM coupled to a boson bath. Our simulations demonstrate that sub-Ohmic, Ohmic and super-Ohmic boson baths have substantially different influences on the 3L-BTM dynamics, which cannot be grasped by the standard phenomenological Markovian single-rate descriptions. We also describe novel bath-induced phenomena which are absent in two-level LZ systems. | 翻訳日:2023-09-27 00:59:45 公開日:2023-09-23 |
# 1次元の変換不変 2-局所スピン系に対する動的リー代数の分類 Classification of dynamical Lie algebras for translation-invariant 2-local spin systems in one dimension ( http://arxiv.org/abs/2309.05690v2 ) ライセンス: Link先を確認 | Roeland Wiersema, Efekan K\"okc\"u, Alexander F. Kemper, Bojko N. Bakalov | (参考訳) 1次元スピン鎖について、絡み合いの性質、物理的位相、可積分性の観点から多くのことが理解されている。
しかし、これらの体系を記述したハミルトニアンのリー代数的性質はほとんど解明されていない。
本研究では、変換不変な2-局所スピン鎖ハミルトニアンあるいはいわゆる動的リー代数によって生成されるすべてのリー代数の分類を提供する。
開かつ周期的な境界条件を持つ鎖を考慮し、17のユニークな動的リー代数を求める。
我々の分類では、横場イジングモデルやハイゼンベルク連鎖などのよく知られたモデルも網羅しており、容易に識別できないハミルトン群のよりエキゾチックなクラスも発見できる。
クローズドでオープンなスピンチェーンに加えて、量子機械学習アプローチに関係のある、完全に連結されたトポロジーを持つシステムも検討する。
量子制御,変分量子コンピューティング,スピンチェーン文学といった文脈において,本研究の実際的意義について考察する。 Much is understood about 1-dimensional spin chains in terms of entanglement properties, physical phases, and integrability. However, the Lie algebraic properties of the Hamiltonians describing these systems remain largely unexplored. In this work, we provide a classification of all Lie algebras generated by translation-invariant 2-local spin chain Hamiltonians, or so-called dynamical Lie algebras. We consider chains with open and periodic boundary conditions and find 17 unique dynamical Lie algebras. Our classification covers some well-known models such as the transverse-field Ising model and the Heisenberg chain, and we also find more exotic classes of Hamiltonians that cannot be identified easily. In addition to the closed and open spin chains, we consider systems with a fully connected topology, which may be relevant for quantum machine learning approaches. We discuss the practical implications of our work in the context of quantum control, variational quantum computing, and the spin chain literature. | 翻訳日:2023-09-27 00:49:13 公開日:2023-09-23 |
# カラーコードに基づく実用的フォールトトレラント量子コンピューティング Facilitating Practical Fault-tolerant Quantum Computing Based on Color Codes ( http://arxiv.org/abs/2309.05222v3 ) ライセンス: Link先を確認 | Jiaxuan Zhang, Yu-Chun Wu and Guo-Ping Guo | (参考訳) カラーコードはフォールトトレラント量子コンピューティングにとって有望なトポロジカルコードである。
カラーコードに関する不十分な研究は、その実用化を遅らせた。
本研究では,カラーコードに基づく実用的フォールトトレラント量子コンピューティングを実現するために,いくつかの重要な課題を解決する。
まず,誤り率関連重み付き復号グラフを導入することで,標準回路レベルのノイズモデルにおける三角形色コードの閾値を0.47\%$に改善し,表面符号とのギャップを狭める。
次に,2次元アーキテクチャを持つ量子コンピュータにおいて論理演算を行う上で重要なカラーコード格子手術の回路レベル復号戦略について検討する。
最後に、三角カラーコードの状態注入プロトコルを提案し、CSSコードの他の状態注入プロトコルと比較して最適な論理誤差率を提供し、マジック状態蒸留の効率を高めるのに有用である。 Color code is a promising topological code for fault-tolerant quantum computing. Insufficient research on color code has delayed its practical application. In this work, we address several key issues to facilitate practical fault-tolerant quantum computing based on color codes. First, by introducing decoding graphs with error-rate-related weights, we improve the threshold of the triangular color code under the standard circuit-level noise model to $0.47\%$, narrowing the gap to that of the surface code. Second, we investigate the circuit-level decoding strategy of color code lattice surgery, which is crucial for performing logical operations in a quantum computer with two-dimensional architecture. Lastly, the state injection protocol of triangular color code is proposed, offering an optimal logical error rate compared to any other state injection protocol of the CSS code, which is beneficial for increasing the efficiency of magic state distillation. | 翻訳日:2023-09-27 00:48:25 公開日:2023-09-23 |
# autodiffusion: 自動拡散モデル加速のための時間ステップとアーキテクチャのトレーニングフリー最適化 AutoDiffusion: Training-Free Optimization of Time Steps and Architectures for Automated Diffusion Model Acceleration ( http://arxiv.org/abs/2309.10438v2 ) ライセンス: Link先を確認 | Lijiang Li, Huixia Li, Xiawu Zheng, Jie Wu, Xuefeng Xiao, Rui Wang, Min Zheng, Xin Pan, Fei Chao, Rongrong Ji | (参考訳) 拡散モデルは、単一の画像生成に大量の時間ステップ(参照ステップ)を必要とする表現的生成モデルとして出現している。
このような退屈なプロセスを加速するために、ステップを均一に削減することが拡散モデルの未解決原理であると考えられる。
このような一様仮定は、実際には最適解ではない、すなわち、異なるモデルに対して異なる最適時間ステップを見つけることができる。
そこで本研究では,拡散モデルの効率的な画像生成を実現するために,最適な時間ステップシーケンスと圧縮モデルアーキテクチャを統一されたフレームワークで探索する。
具体的には、まず、可能なすべての時間ステップと様々なアーキテクチャからなる統一検索空間を設計する。
次に,設計した探索空間における最適解を求めるために,二段階進化アルゴリズムを導入する。
さらに探索プロセスを高速化するために,生成したサンプルと実際のサンプルのfidスコアを用いて,サンプルの性能を推定した。
その結果,提案手法が得られた。
(i)。
トレーニングフリーで、トレーニングプロセスなしで最適な時間ステップとモデルアーキテクチャを得る。
(ii)
最も高度な拡散サンプリング装置に直交し、より良い試料品質を得るために統合することができる。
(iii)
一般化され、探索された時間ステップとアーキテクチャが、同じガイダンススケールで異なる拡散モデルに直接適用できる。
実験結果から,ImageNet 64$\times$64の17.86 FIDスコアとDDIMの138.66の4ステップのFIDスコアを用いた場合と比較すると,優れた性能が得られることがわかった。
コードはhttps://github.com/lilijiangg/autodiffusionで入手できる。 Diffusion models are emerging expressive generative models, in which a large number of time steps (inference steps) are required for a single image generation. To accelerate such tedious process, reducing steps uniformly is considered as an undisputed principle of diffusion models. We consider that such a uniform assumption is not the optimal solution in practice; i.e., we can find different optimal time steps for different models. Therefore, we propose to search the optimal time steps sequence and compressed model architecture in a unified framework to achieve effective image generation for diffusion models without any further training. Specifically, we first design a unified search space that consists of all possible time steps and various architectures. Then, a two stage evolutionary algorithm is introduced to find the optimal solution in the designed search space. To further accelerate the search process, we employ FID score between generated and real samples to estimate the performance of the sampled examples. As a result, the proposed method is (i).training-free, obtaining the optimal time steps and model architecture without any training process; (ii). orthogonal to most advanced diffusion samplers and can be integrated to gain better sample quality. (iii). generalized, where the searched time steps and architectures can be directly applied on different diffusion models with the same guidance scale. Experimental results show that our method achieves excellent performance by using only a few time steps, e.g. 17.86 FID score on ImageNet 64 $\times$ 64 with only four steps, compared to 138.66 with DDIM. The code is available at https://github.com/lilijiangg/AutoDiffusion. | 翻訳日:2023-09-27 00:30:12 公開日:2023-09-23 |
# 大規模言語モデルによるプライバシー保護マスクからの回復 Recovering from Privacy-Preserving Masking with Large Language Models ( http://arxiv.org/abs/2309.08628v2 ) ライセンス: Link先を確認 | Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli | (参考訳) モデル適応は、プロキシトレーニングデータと受信した実際のユーザデータとの相違を扱うために不可欠である。
効果的に適応するために、ユーザのテキストデータは、通常サーバーまたはローカルデバイスに格納され、下流自然言語処理(NLP)モデルは、そのようなドメイン内のデータを使って直接訓練することができる。
しかし、これは、相手にユーザー情報を暴露するリスクが余分にあるため、プライバシーとセキュリティの懸念を引き起こす可能性がある。
テキストデータ内の識別情報を汎用マーカーに置き換える手法が近年検討されている。
本研究では,大規模言語モデル(llm)を用いてマスキングトークンの代替案を提案し,その効果を下流言語モデリングタスクで評価する。
具体的には,複数の事前学習および微調整 LLM に基づくアプローチを提案し,これらの手法の比較のために様々なデータセットに関する実証的研究を行う。
実験結果から,難読化コーパスでトレーニングしたモデルは,プライバシ保護トークンマスキングを使わずに,元のデータでトレーニングしたモデルと同等のパフォーマンスを達成できることがわかった。 Model adaptation is crucial to handle the discrepancy between proxy training data and actual users data received. To effectively perform adaptation, textual data of users is typically stored on servers or their local devices, where downstream natural language processing (NLP) models can be directly trained using such in-domain data. However, this might raise privacy and security concerns due to the extra risks of exposing user information to adversaries. Replacing identifying information in textual data with a generic marker has been recently explored. In this work, we leverage large language models (LLMs) to suggest substitutes of masked tokens and have their effectiveness evaluated on downstream language modeling tasks. Specifically, we propose multiple pre-trained and fine-tuned LLM-based approaches and perform empirical studies on various datasets for the comparison of these methods. Experimental results show that models trained on the obfuscation corpora are able to achieve comparable performance with the ones trained on the original data without privacy-preserving token masking. | 翻訳日:2023-09-27 00:28:11 公開日:2023-09-23 |
# 複数のフランクコンドンモードを介する非断熱誘導体結合は近波長および短波長赤外色素分子のエネルギーギャップ則を規定する Nonadiabatic derivative couplings through multiple Franck-Condon modes dictate the energy gap law for near and short-wave infrared dye molecules ( http://arxiv.org/abs/2309.10695v2 ) ライセンス: Link先を確認 | Pablo Ramos, Hannah Friedman, Cesar Garcia, Ellen Sletten, Justin R. Caram, and Seogjoo J. Jang | (参考訳) 近赤外 (nir, 700 - 1000 nm) と短波赤外線 (swir, 10002,000 nm) の色素分子は、最初の一重項励起状態から基底状態までの非放射的減衰率を示す。
これらの傾向は単純なエネルギーギャップ法則によって実証的に説明できるが、ほぼ普遍的な振る舞いの詳細なメカニズムは多くのケースで未解決のままである。
代表的な2つのNIR/SWIR色素分子の理論的および実験的結果は、そのような性質の重要なメカニズムを明らかにする。
第一微分非断熱結合項は、エネルギーギャップ法則の挙動を示す非断熱崩壊過程の主要な結合経路として機能し、最高周波数以外の振動モードもその速度に大きく寄与することを示した。
この評価は、三重項状態への系間交差の可能な代替機構と、重水素化分子の実験データとのさらなる理論的比較によって裏付けられる。 Near infrared (NIR, 700 - 1,000 nm) and short-wave infrared (SWIR, 1,000 - 2,000 nm) dye molecules exhibit significant nonradiative decay rates from the first singlet excited state to the ground state. While these trends can be empirically explained by a simple energy gap law, detailed mechanisms of the nearly universal behavior have remained unsettled for many cases. Theoretical and experimental results for two representative NIR/SWIR dye molecules reported here clarify an important mechanism of such nature. It is shown that the first derivative nonadiabatic coupling terms serve as major coupling pathways for nonadiabatic decay processes exhibiting the energy gap law behavior and that vibrational modes other than the highest frequency ones also make significant contributions to the rate. This assessment is corroborated by further theoretical comparison with possible alternative mechanisms of intersystem crossing to triplet states and also by comparison with experimental data for deuterated molecules. | 翻訳日:2023-09-26 22:44:48 公開日:2023-09-23 |
# 深層学習を用いた性能境界付き確率的局所探索SATソルバの構築 Using deep learning to construct stochastic local search SAT solvers with performance bounds ( http://arxiv.org/abs/2309.11452v2 ) ライセンス: Link先を確認 | Maximilian Kramer, Paul Boes | (参考訳) ブール満足度問題(SAT)は最も原始的なNP完全問題であり、非常に実践的な妥当性がある。
この問題に対する重要な解法の一つは、候補の割り当てを反復的かつランダムに更新する確率的局所探索(sls)アルゴリズムである。
理論計算機科学における最近の画期的な成果は、SLSソルバがSATインスタンスを効率的に解くことが保証される十分な条件を確立している。
これらの結果と、大規模なデータセットで共通構造を学習するニューラルネットワークの確立した能力により、我々はグラフニューラルネットワークを用いてオークルを訓練し、様々な難易度を持つランダムSATインスタンス上で2つのSLSソルバ上で評価する。
GNNベースのオラクルへのアクセスは、両者のパフォーマンスを大幅に向上させ、平均して17%の難解なインスタンス(節と変数の比率によって測定される)を解決し、35%のステップで解決できるようにし、最大8.5%までのステップの中央値の改善を実現した。
そこで本研究は, 理論計算機科学の正式な成果と, 制約満足度問題に対するディープラーニング研究の実践的動機を橋渡しし, 性能保証を伴う目的学習SATソルバの約束を確立する。 The Boolean Satisfiability problem (SAT) is the most prototypical NP-complete problem and of great practical relevance. One important class of solvers for this problem are stochastic local search (SLS) algorithms that iteratively and randomly update a candidate assignment. Recent breakthrough results in theoretical computer science have established sufficient conditions under which SLS solvers are guaranteed to efficiently solve a SAT instance, provided they have access to suitable "oracles" that provide samples from an instance-specific distribution, exploiting an instance's local structure. Motivated by these results and the well established ability of neural networks to learn common structure in large datasets, in this work, we train oracles using Graph Neural Networks and evaluate them on two SLS solvers on random SAT instances of varying difficulty. We find that access to GNN-based oracles significantly boosts the performance of both solvers, allowing them, on average, to solve 17% more difficult instances (as measured by the ratio between clauses and variables), and to do so in 35% fewer steps, with improvements in the median number of steps of up to a factor of 8. As such, this work bridges formal results from theoretical computer science and practically motivated research on deep learning for constraint satisfaction problems and establishes the promise of purpose-trained SAT solvers with performance guarantees. | 翻訳日:2023-09-26 22:35:27 公開日:2023-09-23 |
# DISC-LawLLM: 知的法律サービスのための微調整大型言語モデル DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services ( http://arxiv.org/abs/2309.11325v2 ) ライセンス: Link先を確認 | Shengbin Yue, Wei Chen, Siyuan Wang, Bingxuan Li, Chenchen Shen, Shujun Liu, Yuxuan Zhou, Yao Xiao, Song Yun, Xuanjing Huang, Zhongyu Wei | (参考訳) 本稿では,大規模言語モデル(llms)を活用したインテリジェントな法的システムである disc-lawllm を提案する。
我々は,中国の司法ドメインにおいて教師付き微調整データセットと法的推論能力を備えた微調整llmを構築するための戦略を推し進める法的シロジズムを採用する。
LLMを検索モジュールで拡張し、外部の法的知識にアクセスし活用するモデルの能力を高める。
DISC-Law-Eval(英語版)は、客観的および主観的両方の次元からインテリジェントな法体系を評価するために提示される。
DISC-Law-Evalの定量的および定性的な結果から,多様な法的シナリオにまたがる多様なユーザに対して,システムの有効性が示された。
詳細はhttps://github.com/FudanDISC/DISC-LawLLM.comで確認できる。 We propose DISC-LawLLM, an intelligent legal system utilizing large language models (LLMs) to provide a wide range of legal services. We adopt legal syllogism prompting strategies to construct supervised fine-tuning datasets in the Chinese Judicial domain and fine-tune LLMs with legal reasoning capability. We augment LLMs with a retrieval module to enhance models' ability to access and utilize external legal knowledge. A comprehensive legal benchmark, DISC-Law-Eval, is presented to evaluate intelligent legal systems from both objective and subjective dimensions. Quantitative and qualitative results on DISC-Law-Eval demonstrate the effectiveness of our system in serving various users across diverse legal scenarios. The detailed resources are available at https://github.com/FudanDISC/DISC-LawLLM. | 翻訳日:2023-09-26 22:33:25 公開日:2023-09-23 |
# タスク指向対話評価のための大規模言語モデルによるユーザシミュレーション User Simulation with Large Language Models for Evaluating Task-Oriented Dialogue ( http://arxiv.org/abs/2309.13233v1 ) ライセンス: Link先を確認 | Sam Davidson, Salvatore Romeo, Raphael Shu, James Gung, Arshit Gupta, Saab Mansour, Yi Zhang | (参考訳) 新しいタスク指向対話(TOD)システムの開発における大きな障害の1つは、開発プロセスの複数の段階とイテレーションにおける人間による評価の必要性である。
todの自動評価に向けた取り組みとして,最近開発された大型事前学習言語モデル(llms)を用いた新しいユーザシミュレータを提案する。
本研究は,既存のTODデータセットに基づいてシステムで使用されているLCMを微調整するのではなく,人間の対話者の振る舞いをシミュレートする目的で,LLMに堅牢で言語的に多様な出力を生成するよう促すためにコンテキスト内学習を用いている。
シミュレーション性能の主指標としてゴール成功率(GSR)を最大化しようとする従来の研究とは異なり、我々のゴールはTODシステムと人間のインタラクションで観測されるようなGSRを実現するシステムである。
このアプローチを用いることで,本シミュレータは複数のTODシステム,特に単一意図の対話目標に対して,より微調整されたモデルに依存する従来のシミュレータと比較して,語彙的に,構文的に多様な出力を生成することができる。
最後に、同じTODシステムと対話する人間のHuman2Botデータセットを収集し、これらの成果をより定量化するために実験を行った。 One of the major impediments to the development of new task-oriented dialogue (TOD) systems is the need for human evaluation at multiple stages and iterations of the development process. In an effort to move toward automated evaluation of TOD, we propose a novel user simulator built using recently developed large pretrained language models (LLMs). In order to increase the linguistic diversity of our system relative to the related previous work, we do not fine-tune the LLMs used by our system on existing TOD datasets; rather we use in-context learning to prompt the LLMs to generate robust and linguistically diverse output with the goal of simulating the behavior of human interlocutors. Unlike previous work, which sought to maximize goal success rate (GSR) as the primary metric of simulator performance, our goal is a system which achieves a GSR similar to that observed in human interactions with TOD systems. Using this approach, our current simulator is effectively able to interact with several TOD systems, especially on single-intent conversational goals, while generating lexically and syntactically diverse output relative to previous simulators that rely upon fine-tuned models. Finally, we collect a Human2Bot dataset of humans interacting with the same TOD systems with which we experimented in order to better quantify these achievements. | 翻訳日:2023-09-26 21:26:01 公開日:2023-09-23 |
# 空洞QEDによる半量子プライベート比較 Semiquantum private comparison via cavity QED ( http://arxiv.org/abs/2309.13232v1 ) ライセンス: Link先を確認 | Xin Xu, Jiang-Yuan Lian, Tian-Yu Ye | (参考訳) 本稿では,原子の進化則を利用して空洞量子力学(QED)により実現された最初の半量子プライベート比較(SQPC)プロトコルを設計する。
提案プロトコルは,量子能力に限界がある2つの半量子パーティからのプライベートインプットの等価性を,半高位サードパーティ(TP)の助けを借りて比較することができる。
提案プロトコルは、初期量子資源として製品状態を使用し、ユニタリ演算、量子絡み合いスワップ操作、遅延線を一切使用しない。
セキュリティ証明によると、外部攻撃と内部攻撃の両方を打ち破ることができる。 In this paper, we design the first semiquantum private comparison (SQPC) protocol which is realized via cavity quantum electrodynamics (QED) by making use of the evolution laws of atom. With the help of a semi-honest third party (TP), the proposed protocol can compare the equality of private inputs from two semiquantum parties who only have limited quantum capabilities. The proposed protocol uses product states as initial quantum resource and employs none of unitary operations, quantum entanglement swapping operation or delay lines. Security proof turns out that it can defeat both the external attack and the internal attack. | 翻訳日:2023-09-26 21:25:39 公開日:2023-09-23 |
# WMT2023品質評価共有タスクへのNJUNLPの参加 NJUNLP's Participation for the WMT2023 Quality Estimation Shared Task ( http://arxiv.org/abs/2309.13230v1 ) ライセンス: Link先を確認 | Xiang Geng, Zhejian Lai, Yu Zhang, Shimin Tao, Hao Yang, Jiajun Chen, Shujian Huang | (参考訳) 我々は,WMT 2023 Quality Estimation (QE)共有タスクに対するNJUNLPチームの提案を紹介する。
私たちのチームは2つのサブタスクすべてで、英語とドイツ語のペアの予測を提出しました。
(i)文・語レベルの品質予測、及び
(ii)細粒度エラースパン検出。
NJUQEフレームワーク(https://github.com/NJUNLP/njuqe)に基づくQEの擬似データ手法をさらに検討する。
WMT翻訳タスクから並列データを用いて疑似MQMデータを生成する。
擬似QEデータ上でXLMR大モデルを事前訓練し、実QEデータ上で微調整する。
両段階で文レベルスコアと単語レベルタグを共同で学習する。
実証的に、私たちはパフォーマンスを改善する重要なハイパーパラメータを見つける実験を行います。
技術的には、単語レベルの出力をきめ細かな誤差にカバーする単純な手法を提案する。
全体的に、我々のモデルは単語レベルときめ細かいエラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得ました。 We introduce the submissions of the NJUNLP team to the WMT 2023 Quality Estimation (QE) shared task. Our team submitted predictions for the English-German language pair on all two sub-tasks: (i) sentence- and word-level quality prediction; and (ii) fine-grained error span detection. This year, we further explore pseudo data methods for QE based on NJUQE framework (https://github.com/NJUNLP/njuqe). We generate pseudo MQM data using parallel data from the WMT translation task. We pre-train the XLMR large model on pseudo QE data, then fine-tune it on real QE data. At both stages, we jointly learn sentence-level scores and word-level tags. Empirically, we conduct experiments to find the key hyper-parameters that improve the performance. Technically, we propose a simple method that covert the word-level outputs to fine-grained error span results. Overall, our models achieved the best results in English-German for both word-level and fine-grained error span detection sub-tasks by a considerable margin. | 翻訳日:2023-09-26 21:25:28 公開日:2023-09-23 |
# ディジタル・ツイン指向複合ネットワークシステムのための異種特徴表現 Heterogeneous Feature Representation for Digital Twin-Oriented Complex Networked Systems ( http://arxiv.org/abs/2309.13229v1 ) ライセンス: Link先を確認 | Jiaqi Wen, Bogdan Gabrys, Katarzyna Musial | (参考訳) 現実を正確に表現できる複雑なネットワークシステム(CNS)の構築モデルは重要な研究領域を形成する。
実世界のシステムを反映するためには、モデリングはエンティティ間の相互作用の強度だけでなく、システムのすべての要素の特徴も考慮する必要がある。
本研究の目的は,Digital Twin-Oriented Complex Networked Systems (DT-CNS) におけるノード特徴の表現力を改善することである。
これは特徴値とファジィセットで特徴を表現することを含み、それぞれがノードの特徴と特徴の違いの目的と主観的帰納について記述する。
我々の実証分析は、様々な表現原理と最適化された特徴嗜好に基づく実ノード特徴分布から、各国のリアルな物理的接触ネットワークを再現するDT-CNSを構築している。
また,最も人気のあるノードから発生した感染拡大に対する災害の回復力についても検討した。
その結果,ファジィ集合を用いた特徴表現の柔軟性が高まり,表現力が向上し,より正確なモデリングが可能となった。
さらに、異質な特徴はネットワーク構造や流行の速さに影響を与え、異なる人々を対象とした様々な緩和政策を必要とする。 Building models of Complex Networked Systems (CNS) that can accurately represent reality forms an important research area. To be able to reflect real world systems, the modelling needs to consider not only the intensity of interactions between the entities but also features of all the elements of the system. This study aims to improve the expressive power of node features in Digital Twin-Oriented Complex Networked Systems (DT-CNSs) with heterogeneous feature representation principles. This involves representing features with crisp feature values and fuzzy sets, each describing the objective and the subjective inductions of the nodes' features and feature differences. Our empirical analysis builds DT-CNSs to recreate realistic physical contact networks in different countries from real node feature distributions based on various representation principles and an optimised feature preference. We also investigate their respective disaster resilience to an epidemic outbreak starting from the most popular node. The results suggest that the increasing flexibility of feature representation with fuzzy sets improves the expressive power and enables more accurate modelling. In addition, the heterogeneous features influence the network structure and the speed of the epidemic outbreak, requiring various mitigation policies targeted at different people. | 翻訳日:2023-09-26 21:25:11 公開日:2023-09-23 |
# 弱ラベル学習における負サンプリングの重要性 Importance of negative sampling in weak label learning ( http://arxiv.org/abs/2309.13227v1 ) ライセンス: Link先を確認 | Ankit Shah, Fuyu Tang, Zelin Ye, Rita Singh, Bhiksha Raj | (参考訳) 弱いラベル学習は、ポジティブなインスタンスとネガティブなインスタンスを含むデータ"バッグ"から学ぶ必要がある困難なタスクだが、バッグラベルのみが知られている。
負のインスタンスのプールは通常、正のインスタンスよりも大きいため、パフォーマンスにとって最も有益な負のインスタンスを選択する。
各バッグからの負のインスタンスの選択戦略は、弱いラベル学習のために十分に研究されていないオープンな問題である。
本稿では,弱いラベル学習における負のインスタンスの有用性を計測し,それに応じて選択できるいくつかのサンプリング戦略について検討する。
提案手法をcifar-10およびaudiosetデータセット上でテストし,弱いラベル分類性能を改善し,ランダムサンプリング法と比較して計算コストを低減できることを示した。
私たちの研究は、負のインスタンスがすべて等しく無関係ではないことを明らかにし、それらを賢明に選択することは、弱いラベル学習の恩恵をもたらす。 Weak-label learning is a challenging task that requires learning from data "bags" containing positive and negative instances, but only the bag labels are known. The pool of negative instances is usually larger than positive instances, thus making selecting the most informative negative instance critical for performance. Such a selection strategy for negative instances from each bag is an open problem that has not been well studied for weak-label learning. In this paper, we study several sampling strategies that can measure the usefulness of negative instances for weak-label learning and select them accordingly. We test our method on CIFAR-10 and AudioSet datasets and show that it improves the weak-label classification performance and reduces the computational cost compared to random sampling methods. Our work reveals that negative instances are not all equally irrelevant, and selecting them wisely can benefit weak-label learning. | 翻訳日:2023-09-26 21:24:54 公開日:2023-09-23 |
# Real3D-AD: ポイントクラウド異常検出のデータセット Real3D-AD: A Dataset of Point Cloud Anomaly Detection ( http://arxiv.org/abs/2309.13226v1 ) ライセンス: Link先を確認 | Jiaqi Liu, Guoyang Xie, Ruitao Chen, Xinpeng Li, Jinbao Wang, Yong Liu, Chengjie Wang, Feng Zheng | (参考訳) 高精度点雲異常検出は、加工および精密製造の欠陥を特定するための金の標準である。
この分野の方法論的な進歩にもかかわらず、データセットの不足と体系的なベンチマークの欠如は、その開発を妨げる。
real3d-adは,この分野の制約に対処し,高精度なクラウド異常検出データセットである。
1,254の高解像度3dアイテム(各アイテムの4万点から数百万点まで)を持つreal3d-adは、これまでで最大の高精度3d産業異常検出用データセットである。
Real3D-ADは、ポイントクラウド解像度(0.0010mm-0.0015mm)、360^{\circ}$次カバレッジ、完璧なプロトタイプに関する既存の3D異常検出データセットを上回る。
さらに,real3d-adの総合ベンチマークを行い,高精度点雲異常検出のためのベースライン手法の欠如を明らかにした。
そこで,我々はreg3d-adを提案する。reg3d-adは,局所表現とグローバル表現を保存する新しい特徴記憶バンクを組み込んだ,登録に基づく3次元異常検出手法である。
Real3D-ADデータセットに関する大規模な実験は、Reg3D-ADの有効性を強調している。
再現性とアクセシビリティのために、Real3D-ADデータセット、ベンチマークソースコード、Reg3D-ADをウェブサイトで提供します。 High-precision point cloud anomaly detection is the gold standard for identifying the defects of advancing machining and precision manufacturing. Despite some methodological advances in this area, the scarcity of datasets and the lack of a systematic benchmark hinder its development. We introduce Real3D-AD, a challenging high-precision point cloud anomaly detection dataset, addressing the limitations in the field. With 1,254 high-resolution 3D items (\xgy{from forty thousand to millions of points for each item}), Real3D-AD is the largest dataset for high-precision 3D industrial anomaly detection to date. Real3D-AD surpasses existing 3D anomaly detection datasets available regarding point cloud resolution (0.0010mm-0.0015mm), $360^{\circ}$ degree coverage and perfect prototype. Additionally, we present a comprehensive benchmark for Real3D-AD, revealing the absence of baseline methods for high-precision point cloud anomaly detection. To address this, we propose Reg3D-AD, a registration-based 3D anomaly detection method incorporating a novel feature memory bank that preserves local and global representations. Extensive experiments on the Real3D-AD dataset highlight the effectiveness of Reg3D-AD. For reproducibility and accessibility, we provide the Real3D-AD dataset, benchmark source code, and Reg3D-AD on our website:https://github.com/M-3LAB/Real3D-AD. | 翻訳日:2023-09-26 21:24:38 公開日:2023-09-23 |
# 大規模パッケージ操作のための選択計画戦略 Pick Planning Strategies for Large-Scale Package Manipulation ( http://arxiv.org/abs/2309.13224v1 ) ライセンス: Link先を確認 | Shuai Li, Azarakhsh Keipour, Kevin Jamieson, Nicolas Hudson, Sicong Szhao, Charles Swan and Kostas Bekris | (参考訳) 倉庫業務の自動化は、物流のオーバーヘッドコストを低減し、最終的に消費者の最終的な価格を下げ、配達のスピードを高め、市場の変動に対する回復力を高める。
Amazon Roboticsのロボットインジェクション(Robin)は、1日に最大600万個までのパッケージを拾い、歌い、これまでに20億個以上のパッケージを操作している。
実生産データに基づいて訓練されたピック成功予測器を利用する,時間とともに発達した様々なヒューリスティック手法とその後継者について述べる。
著者の知識を最大限に活用するために,本研究は実運用システムにおける学習された選別品質推定手法の大規模展開である。 Automating warehouse operations can reduce logistics overhead costs, ultimately driving down the final price for consumers, increasing the speed of delivery, and enhancing the resiliency to market fluctuations. This extended abstract showcases a large-scale package manipulation from unstructured piles in Amazon Robotics' Robot Induction (Robin) fleet, which is used for picking and singulating up to 6 million packages per day and so far has manipulated over 2 billion packages. It describes the various heuristic methods developed over time and their successor, which utilizes a pick success predictor trained on real production data. To the best of the authors' knowledge, this work is the first large-scale deployment of learned pick quality estimation methods in a real production system. | 翻訳日:2023-09-26 21:24:09 公開日:2023-09-23 |
# 因果推論:次世代AI-Native Wireless Networkの革命的コースをグラフ化する Causal Reasoning: Charting a Revolutionary Course for Next-Generation AI-Native Wireless Networks ( http://arxiv.org/abs/2309.13223v1 ) ライセンス: Link先を確認 | Christo Kurisummoottil Thomas, Christina Chaccour, Walid Saad, Merouane Debbah and Choong Seon Hong | (参考訳) 次世代無線ネットワーク(例えば6G)が人工知能(AI)ネイティブであるという基本的な前提にもかかわらず、既存の「無線用AI」パラダイムへの定性的または漸進的な拡張は依然として残っている。
実際、AIネイティブな無線ネットワークを作ることは、データ駆動のトレーニング集約型AIの限界のために、重要な技術的課題に直面している。
これらの制限には、aiモデルのブラックボックスの性質、推論と適応の能力を制限する曲線適合性、大量のトレーニングデータへの依存、大規模ニューラルネットワークのエネルギー効率の非効率などが含まれる。
これらの制限に対応するために、この記事では、AIネイティブな無線ネットワークを構築するための新しいフレームワークを導入することで、これらの欠点に対処する包括的で先進的なビジョンを提示します。
因果的発見、因果的表現学習、因果的推論に基づく因果的推論は、説明可能で合理的で持続可能なワイヤレスネットワークを構築するのに役立つ。
このビジョンの実現に向けて、我々はまず、テラヘルツ(THz)システムのための超信頼性ビームフォーミング、ディジタル双生児のためのほぼ正確な物理双対モデリング、トレーニングデータ拡張、セマンティックコミュニケーションなど、因果発見と表現によって対処できるいくつかの無線ネットワーク課題を強調した。
これらの課題に対処する上で,因果的発見が動的適応性,レジリエンス,認知を達成する上でどのように役立つかを紹介する。
さらに,意図管理や動的適応性,人間レベルの認識,推論,時間感受性の重要な要素など,次世代ネットワークの包括的な目標を達成するために因果推論を利用する潜在的なフレームワークについて概説する。 Despite the basic premise that next-generation wireless networks (e.g., 6G) will be artificial intelligence (AI)-native, to date, most existing efforts remain either qualitative or incremental extensions to existing ``AI for wireless'' paradigms. Indeed, creating AI-native wireless networks faces significant technical challenges due to the limitations of data-driven, training-intensive AI. These limitations include the black-box nature of the AI models, their curve-fitting nature, which can limit their ability to reason and adapt, their reliance on large amounts of training data, and the energy inefficiency of large neural networks. In response to these limitations, this article presents a comprehensive, forward-looking vision that addresses these shortcomings by introducing a novel framework for building AI-native wireless networks; grounded in the emerging field of causal reasoning. Causal reasoning, founded on causal discovery, causal representation learning, and causal inference, can help build explainable, reasoning-aware, and sustainable wireless networks. Towards fulfilling this vision, we first highlight several wireless networking challenges that can be addressed by causal discovery and representation, including ultra-reliable beamforming for terahertz (THz) systems, near-accurate physical twin modeling for digital twins, training data augmentation, and semantic communication. We showcase how incorporating causal discovery can assist in achieving dynamic adaptability, resilience, and cognition in addressing these challenges. Furthermore, we outline potential frameworks that leverage causal inference to achieve the overarching objectives of future-generation networks, including intent management, dynamic adaptability, human-level cognition, reasoning, and the critical element of time sensitivity. | 翻訳日:2023-09-26 21:23:54 公開日:2023-09-23 |
# Hindi to English: Transformer-based Neural Machine Translation Hindi to English: Transformer-Based Neural Machine Translation ( http://arxiv.org/abs/2309.13222v1 ) ライセンス: Link先を確認 | Kavit Gangar, Hardik Ruparel, Shreyas Lele | (参考訳) 機械翻訳(MT)は自然言語処理(NLP)において最も顕著なタスクの1つであり、ある自然言語から別の自然言語へのテキストの自動変換を含む。
機械翻訳の研究は数十年前から行われているが、自然言語処理にディープラーニング技術を統合する新たなアプローチにより、翻訳品質が大幅に向上した。
本論文では,インド語ヒンディー語から英語への翻訳のためにトランスフォーマーモデルを訓練し,ニューラルマシン翻訳(NMT)システムを開発した。
ヒンディー語は低資源言語であるため、ニューラルネットワークが言語を理解することが難しくなり、ニューラルネットワークの翻訳者の発展が鈍化した。
そこで我々は,このギャップに対処するため,トレーニングデータを増強するバックトランスレーションを実装し,語彙を作成するために,Byte Pair Encoding (BPE)を用いて単語とサブワードレベルのトークン化実験を行い,10種類の異なる構成でTransformerのトレーニングを終了させた。
これにより、IIT Bombay English-Hindi Corpusの試験セット上で、最先端のBLEUスコア24.53を達成することができた。 Machine Translation (MT) is one of the most prominent tasks in Natural Language Processing (NLP) which involves the automatic conversion of texts from one natural language to another while preserving its meaning and fluency. Although the research in machine translation has been going on since multiple decades, the newer approach of integrating deep learning techniques in natural language processing has led to significant improvements in the translation quality. In this paper, we have developed a Neural Machine Translation (NMT) system by training the Transformer model to translate texts from Indian Language Hindi to English. Hindi being a low resource language has made it difficult for neural networks to understand the language thereby leading to a slow growth in the development of neural machine translators. Thus, to address this gap, we implemented back-translation to augment the training data and for creating the vocabulary, we experimented with both word and subword level tokenization using Byte Pair Encoding (BPE) thereby ending up training the Transformer in 10 different configurations. This led us to achieve a state-of-the-art BLEU score of 24.53 on the test set of IIT Bombay English-Hindi Corpus in one of the configurations. | 翻訳日:2023-09-26 21:23:23 公開日:2023-09-23 |
# 文書レベル情報抽出に関する調査 A Survey of Document-Level Information Extraction ( http://arxiv.org/abs/2309.13249v1 ) ライセンス: Link先を確認 | Hanwen Zheng, Sijia Wang, Lifu Huang | (参考訳) 文書レベルの情報抽出(IE)は自然言語処理(NLP)において重要な課題である。
本稿では,最近の文書レベルのIE文献を体系的にレビューする。
さらに,現在最先端のアルゴリズムを用いて徹底的なエラー解析を行い,その限界と文書レベルのIEの課題を識別する。
その結果,ラベル付けノイズ,エンティティ・コア参照の解決,推論の欠如は文書レベルのIEの性能に大きく影響した。
本研究の目的は,NLP研究者による文書レベルのIE性能の向上を支援することにある。 Document-level information extraction (IE) is a crucial task in natural language processing (NLP). This paper conducts a systematic review of recent document-level IE literature. In addition, we conduct a thorough error analysis with current state-of-the-art algorithms and identify their limitations as well as the remaining challenges for the task of document-level IE. According to our findings, labeling noises, entity coreference resolution, and lack of reasoning, severely affect the performance of document-level IE. The objective of this survey paper is to provide more insights and help NLP researchers to further enhance document-level IE performance. | 翻訳日:2023-09-26 21:14:53 公開日:2023-09-23 |
# 物体中心表現を用いた教師付き信号の学習によるアモーダル映像分割の再考 Rethinking Amodal Video Segmentation from Learning Supervised Signals with Object-centric Representation ( http://arxiv.org/abs/2309.13248v1 ) ライセンス: Link先を確認 | Ke Fan, Jingshi Lei, Xuelin Qian, Miaopeng Yu, Tianjun Xiao, Tong He, Zheng Zhang, Yanwei Fu | (参考訳) ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて特に困難な作業であり、物体の完全な形状をその可視部分から推定する必要がある。
近年, 自己監視環境下でのフレーム間の情報統合にモーションフローを用いることで, 有望な性能を実現する研究が行われている。
しかし、移動カメラと物体変形の2つの要因により、運動流は明らかに制限されている。
本稿では,過去の作品を再考する。
特に、教師付き信号とオブジェクト中心表現を \textit{real-world scenarios} で活用する。
基本的なアイデアは、特定のオブジェクトの監視信号であり、異なるビューの特徴は、特定のフレーム内の完全なマスクの推論に相互に利益をもたらす。
本稿では,効率的なオブジェクト中心表現アモーダルセグメンテーション(eora)を提案する。
特に、監督信号のみに頼らず、現在の特徴品質を改善するために3D情報を導入するバードアイビュー(Bird's-Eye View, BEV)に画像特徴を投影する翻訳モジュールを設計する。
さらに,オブジェクトスロットのセットを備え,アテンション機構により異なるビューの特徴と対話し,十分なオブジェクト表現補完を実現するマルチビュー融合層ベースのテンポラリモジュールを提案する。
その結果、オブジェクトのフルマスクは、オブジェクトスロットによって更新された画像機能からデコードできる。
実世界のベンチマークと合成ベンチマークの両方に対する大規模な実験により,提案手法の優位性を実証し,最先端性能を実現した。
我々のコードは \url{https://github.com/kfan21/EoRaS} でリリースされる。 Video amodal segmentation is a particularly challenging task in computer vision, which requires to deduce the full shape of an object from the visible parts of it. Recently, some studies have achieved promising performance by using motion flow to integrate information across frames under a self-supervised setting. However, motion flow has a clear limitation by the two factors of moving cameras and object deformation. This paper presents a rethinking to previous works. We particularly leverage the supervised signals with object-centric representation in \textit{real-world scenarios}. The underlying idea is the supervision signal of the specific object and the features from different views can mutually benefit the deduction of the full mask in any specific frame. We thus propose an Efficient object-centric Representation amodal Segmentation (EoRaS). Specially, beyond solely relying on supervision signals, we design a translation module to project image features into the Bird's-Eye View (BEV), which introduces 3D information to improve current feature quality. Furthermore, we propose a multi-view fusion layer based temporal module which is equipped with a set of object slots and interacts with features from different views by attention mechanism to fulfill sufficient object representation completion. As a result, the full mask of the object can be decoded from image features updated by object slots. Extensive experiments on both real-world and synthetic benchmarks demonstrate the superiority of our proposed method, achieving state-of-the-art performance. Our code will be released at \url{https://github.com/kfan21/EoRaS}. | 翻訳日:2023-09-26 21:14:41 公開日:2023-09-23 |
# リレーショナルトランスファーによるREGのマルチモーダルドメイン適応 Multi-modal Domain Adaptation for REG via Relation Transfer ( http://arxiv.org/abs/2309.13247v1 ) ライセンス: Link先を確認 | Yifan Ding, Liqiang Wang and Boqing Gong | (参考訳) ドメイン間の知識伝達を目的としたドメイン適応は,画像分類やオブジェクト検出など,多くの分野で研究されている。
しかし、マルチモーダルタスクでは、従来のアプローチは大規模事前トレーニングに依存している。
しかし、マルチモーダルデータの取得が難しいため、大規模な事前学習は現実的ではないことが多い。
したがって、異なるデータセット(ドメイン)からの知識を効率的に活用できるドメイン適応は、マルチモーダルタスクに不可欠である。
本稿では、自然言語表現によって記述された画像領域をローカライズするReferring Expression Grounding (REG)タスクに焦点を当てる。
具体的には,reg問題に対する特殊関係対応アプローチを通じて,マルチモーダル知識を効果的に伝達する新しい手法を提案する。
ドメイン間の関係を同時に強化し,ドメイン間の関係を伝達することで,マルチモーダルなドメイン適応問題に取り組む。
実験の結果,提案手法はマルチモーダル領域の転送性を大幅に向上し,REG問題における適応性能を向上させる。 Domain adaptation, which aims to transfer knowledge between domains, has been well studied in many areas such as image classification and object detection. However, for multi-modal tasks, conventional approaches rely on large-scale pre-training. But due to the difficulty of acquiring multi-modal data, large-scale pre-training is often impractical. Therefore, domain adaptation, which can efficiently utilize the knowledge from different datasets (domains), is crucial for multi-modal tasks. In this paper, we focus on the Referring Expression Grounding (REG) task, which is to localize an image region described by a natural language expression. Specifically, we propose a novel approach to effectively transfer multi-modal knowledge through a specially relation-tailored approach for the REG problem. Our approach tackles the multi-modal domain adaptation problem by simultaneously enriching inter-domain relations and transferring relations between domains. Experiments show that our proposed approach significantly improves the transferability of multi-modal domains and enhances adaptation performance in the REG problem. | 翻訳日:2023-09-26 21:14:16 公開日:2023-09-23 |
# 説明を信用できますか。
単調モデルのための説明可能な機械学習法の検討 Can I Trust the Explanations? Investigating Explainable Machine Learning Methods for Monotonic Models ( http://arxiv.org/abs/2309.13246v1 ) ライセンス: Link先を確認 | Dangxing Chen | (参考訳) 近年、説明可能な機械学習手法は非常に成功している。
その成功にもかかわらず、最も説明可能な機械学習手法は、ドメイン知識のないブラックボックスモデルに適用される。
ドメイン知識を取り入れることで、科学インフォームド機械学習モデルはより良い一般化と解釈を示してきた。
しかし、説明可能な機械学習手法を理科学習モデルに適用すれば、一貫した科学的説明が得られるだろうか?
この問題は、3種類の異なる単調性を示す単調模型の文脈で解決される。
単調性を示すために、3つの公理を提案する。
したがって, 個々の単調性のみが関与する場合, ベースラインシャプリー値がよい説明を与えるが, 強い一調性が関与する場合には, 積分勾配法が平均値について合理的な説明を与える。 In recent years, explainable machine learning methods have been very successful. Despite their success, most explainable machine learning methods are applied to black-box models without any domain knowledge. By incorporating domain knowledge, science-informed machine learning models have demonstrated better generalization and interpretation. But do we obtain consistent scientific explanations if we apply explainable machine learning methods to science-informed machine learning models? This question is addressed in the context of monotonic models that exhibit three different types of monotonicity. To demonstrate monotonicity, we propose three axioms. Accordingly, this study shows that when only individual monotonicity is involved, the baseline Shapley value provides good explanations; however, when strong pairwise monotonicity is involved, the Integrated gradients method provides reasonable explanations on average. | 翻訳日:2023-09-26 21:14:01 公開日:2023-09-23 |
# rbformer:ロバストバイアスによる変圧器の逆ロバスト性向上 RBFormer: Improve Adversarial Robustness of Transformer by Robust Bias ( http://arxiv.org/abs/2309.13245v1 ) ライセンス: Link先を確認 | Hao Cheng, Jinhao Duan, Hui Li, Lyutianyang Zhang, Jiahang Cao, Ping Wang, Jize Zhang, Kaidi Xu, Renjing Xu | (参考訳) 近年、ViT(Vision Transformer)やVMLP(Vision Multilayer Perceptron)といったトランスフォーマーベースの構造に注目が集まっている。
従来の畳み込みベースの構造と比較すると、Transformerベースの構造は、特徴的な注目ベースの入力トークンミキサー戦略の下で同等または優れた性能を示す。
頑健性を考慮した敵の例の導入は、十分に確立された畳み込みに基づく構造の性能に深く、有害な影響を及ぼした。
この敵攻撃に固有の脆弱性は、Transformerベースの構造でも証明されている。
本稿では,敵の攻撃に対する新たな防御策を導入するよりも,構造の本質的ロバスト性を検討することを重視する。
堅牢性問題に対する感受性に対処するために、このような脆弱性を軽減するために合理的な構造設計アプローチを採用する。
具体的には、高周波数構造ロバストバイアスの比を増大させることにより、構造物の対向ロバスト性を高める。
その結果,Robust Bias Transformer-based Structure (RBFormer) と呼ばれる新しい構造を導入し,既存のベースライン構造と比較して頑健な優位性を示した。
RBFormerは一連の大規模な実験を通じて、CIFAR-10とImageNet-1kの異なる評価基準で、それぞれ+16.12%と+5.04%の大幅な改善を実現した。 Recently, there has been a surge of interest and attention in Transformer-based structures, such as Vision Transformer (ViT) and Vision Multilayer Perceptron (VMLP). Compared with the previous convolution-based structures, the Transformer-based structure under investigation showcases a comparable or superior performance under its distinctive attention-based input token mixer strategy. Introducing adversarial examples as a robustness consideration has had a profound and detrimental impact on the performance of well-established convolution-based structures. This inherent vulnerability to adversarial attacks has also been demonstrated in Transformer-based structures. In this paper, our emphasis lies on investigating the intrinsic robustness of the structure rather than introducing novel defense measures against adversarial attacks. To address the susceptibility to robustness issues, we employ a rational structure design approach to mitigate such vulnerabilities. Specifically, we enhance the adversarial robustness of the structure by increasing the proportion of high-frequency structural robust biases. As a result, we introduce a novel structure called Robust Bias Transformer-based Structure (RBFormer) that shows robust superiority compared to several existing baseline structures. Through a series of extensive experiments, RBFormer outperforms the original structures by a significant margin, achieving an impressive improvement of +16.12% and +5.04% across different evaluation criteria on CIFAR-10 and ImageNet-1k, respectively. | 翻訳日:2023-09-26 21:13:49 公開日:2023-09-23 |
# ChEDDAR:EFL書記教育における学生チャットGPT対話 ChEDDAR: Student-ChatGPT Dialogue in EFL Writing Education ( http://arxiv.org/abs/2309.13243v1 ) ライセンス: Link先を確認 | Jieun Han, Haneul Yoo, Junho Myung, Minsun Kim, Tak Yeon Lee, So-Yeon Ahn, Alice Oh | (参考訳) 教育における生成的AIの統合は拡大しているが、学生とAIシステムの間の大規模な実世界の相互作用に関する実証分析はまだ限られている。
本研究では,英語を外国語のランガウジ(efl)の執筆コースとして登録した212人の大学生を対象とした1学期連続実験から得られたエッセイの改訂として,cheddar,chatgpt,efl学習者の対話データセットを提案する。
学生たちはChatGPTとの対話を通じてエッセイの改訂を依頼された。
ChEDDARには、会話ログ、発話レベルのエッセイ編集履歴、自己評価された満足度、学生の意図に加えて、彼らの目的と全体的な経験を文書化するセッションレベルの事前調査が含まれている。
学生の意図と満足度に関して、生成的AIに関する利用パターンと認識を分析する。
基礎的なステップとして、意図の検出と満足度推定という2つのタスク指向対話システムにおける2つの重要なタスクのベースライン結果を確立する。
我々は最終的に、ChEDDARを利用した潜在的なシナリオを概説し、生成的AIを教育環境に統合するためのさらなる研究を提案する。
ChEDDARはhttps://github.com/zeunie/ChEDDARで公開されている。 The integration of generative AI in education is expanding, yet empirical analyses of large-scale, real-world interactions between students and AI systems still remain limited. In this study, we present ChEDDAR, ChatGPT & EFL Learner's Dialogue Dataset As Revising an essay, which is collected from a semester-long longitudinal experiment involving 212 college students enrolled in English as Foreign Langauge (EFL) writing courses. The students were asked to revise their essays through dialogues with ChatGPT. ChEDDAR includes a conversation log, utterance-level essay edit history, self-rated satisfaction, and students' intent, in addition to session-level pre-and-post surveys documenting their objectives and overall experiences. We analyze students' usage patterns and perceptions regarding generative AI with respect to their intent and satisfaction. As a foundational step, we establish baseline results for two pivotal tasks in task-oriented dialogue systems within educational contexts: intent detection and satisfaction estimation. We finally suggest further research to refine the integration of generative AI into education settings, outlining potential scenarios utilizing ChEDDAR. ChEDDAR is publicly available at https://github.com/zeunie/ChEDDAR. | 翻訳日:2023-09-26 21:13:24 公開日:2023-09-23 |
# UniHead: 検出ヘッドのためのマルチパーセプションの統合 UniHead: Unifying Multi-Perception for Detection Heads ( http://arxiv.org/abs/2309.13242v1 ) ライセンス: Link先を確認 | Hantao Zhou, Rui Yang, Yachao Zhang, Haoran Duan, Yawen Huang, Runze Hu, Xiu Li, Yefeng Zheng | (参考訳) 検出ヘッドは、オブジェクト検出器内の重要なコンポーネントを構成し、分類機能と局所機能の両方を実行する。
一般的に使用される並列ヘッドは、変形知覚、大域的知覚、クロスタスク知覚などの全能を欠いていることが多い。
一つの側面からこれらの能力を拡張しようとする多くの手法にもかかわらず、包括的で統一されたソリューションを達成することは大きな課題である。
この課題に対して、我々は3つの知覚能力を同時に統合するUniHeadと呼ばれる革新的な検出ヘッドを開発した。
より正確には,本手法は変形知覚を導入し,モデルがオブジェクトの特徴を適応的にサンプリングすることを可能にし,(2)長距離依存を包括的にモデル化し,大域的知覚を実現するためにDAT(Dual-axial Aggregation Transformer)を提案し,(3)分類と局所化の相互作用を容易にするクロスタスクインタラクショントランスフォーマー(CIT)を考案する。
プラグアンドプレイ法として、提案したUniHeadは既存の検出器と便利に統合できる。
COCOデータセットに関する大規模な実験は、UniHeadが多くの検出器に大幅な改善をもたらすことを示した。
例えば、UniHeadはRetinaNetで+2.7APゲイン、FreeAnchorで+2.9APゲイン、GFLで+2.1APゲインを得ることができる。
コードは公開される予定だ。
コードUrl: https://github.com/zht8506/UniHead The detection head constitutes a pivotal component within object detectors, tasked with executing both classification and localization functions. Regrettably, the commonly used parallel head often lacks omni perceptual capabilities, such as deformation perception, global perception and cross-task perception. Despite numerous methods attempt to enhance these abilities from a single aspect, achieving a comprehensive and unified solution remains a significant challenge. In response to this challenge, we have developed an innovative detection head, termed UniHead, to unify three perceptual abilities simultaneously. More precisely, our approach (1) introduces deformation perception, enabling the model to adaptively sample object features; (2) proposes a Dual-axial Aggregation Transformer (DAT) to adeptly model long-range dependencies, thereby achieving global perception; and (3) devises a Cross-task Interaction Transformer (CIT) that facilitates interaction between the classification and localization branches, thus aligning the two tasks. As a plug-and-play method, the proposed UniHead can be conveniently integrated with existing detectors. Extensive experiments on the COCO dataset demonstrate that our UniHead can bring significant improvements to many detectors. For instance, the UniHead can obtain +2.7 AP gains in RetinaNet, +2.9 AP gains in FreeAnchor, and +2.1 AP gains in GFL. The code will be publicly available. Code Url: https://github.com/zht8506/UniHead. | 翻訳日:2023-09-26 21:13:02 公開日:2023-09-23 |
# ファイントフル視野外挿のためのNeRF強化露光 NeRF-Enhanced Outpainting for Faithful Field-of-View Extrapolation ( http://arxiv.org/abs/2309.13240v1 ) ライセンス: Link先を確認 | Rui Yu, Jiachen Liu, Zihan Zhou, Sharon X. Huang | (参考訳) ロボットナビゲーションや遠隔視覚支援などの様々な応用において、カメラの視野(FOV)を拡大することは環境認識を高めるのに有用である。
美学的に心地よい視覚を作り出すことだけを目的としている画像よりも、これらのアプリケーションはシーンを忠実に表現する拡張ビューを要求する。
そこで本研究では,シーンの事前知識として,事前取得した画像の集合を利用した忠実なFOV外挿の新たな問題を定式化する。
この問題に対処するために,NeRFにより生成された拡張FOV画像を用いてシーン固有の画像出力モデルをトレーニングする,NeRF拡張アウトペイント(NEO)というシンプルなソリューションを提案する。
NEOの性能を評価するため、3つのフォトリアリスティックデータセットと1つの実世界のデータセットを総合的に評価する。
ベンチマークデータセットに対する大規模な実験は、この課題に対処する上での我々の手法の堅牢性と可能性を示している。
我々は,我々の研究が今後の研究コミュニティの基盤となると信じている。 In various applications, such as robotic navigation and remote visual assistance, expanding the field of view (FOV) of the camera proves beneficial for enhancing environmental perception. Unlike image outpainting techniques aimed solely at generating aesthetically pleasing visuals, these applications demand an extended view that faithfully represents the scene. To achieve this, we formulate a new problem of faithful FOV extrapolation that utilizes a set of pre-captured images as prior knowledge of the scene. To address this problem, we present a simple yet effective solution called NeRF-Enhanced Outpainting (NEO) that uses extended-FOV images generated through NeRF to train a scene-specific image outpainting model. To assess the performance of NEO, we conduct comprehensive evaluations on three photorealistic datasets and one real-world dataset. Extensive experiments on the benchmark datasets showcase the robustness and potential of our method in addressing this challenge. We believe our work lays a strong foundation for future exploration within the research community. | 翻訳日:2023-09-26 21:12:32 公開日:2023-09-23 |
# 映像シーングラフ生成のための空間時間知識埋め込み変換器 Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph Generation ( http://arxiv.org/abs/2309.13237v1 ) ライセンス: Link先を確認 | Tao Pu, Tianshui Chen, Hefeng Wu, Yongyi Lu, Liang Lin | (参考訳) video scene graph generation (vidsgg) は、視覚シーン内のオブジェクトを識別し、与えられたビデオの関係を推測することを目的としている。
それぞれの物体が全体像に散らばっていることを包括的に理解するだけでなく、時間的動きや相互作用を深く掘り下げる必要がある。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受し、VidSGGモデル学習と推論を容易にする事前知識として機能する。
本研究では,従来の空間的時間的知識を多面的相互認識機構に組み込んだ空間的時間的知識埋め込み変換器(STKET)を提案する。
具体的には,空間的共起と時間的遷移の相関を統計的に学習する。
次に、空間的および時間的知識埋め込み層をデザインし、視覚表現と知識との相互作用を十分に探究し、空間的および時間的知識埋め込み表現を生成するマルチヘッドクロスアテンション機構を導入する。
最後に、各対象物対にこれらの表現を集約し、最終的な意味ラベルとその関係を予測する。
大規模な実験では、STKETは現在の競合アルゴリズムよりも大きなマージンで、例えばmR@50を8.1%、4.7%、そして2.1%改善している。 Video scene graph generation (VidSGG) aims to identify objects in visual scenes and infer their relationships for a given video. It requires not only a comprehensive understanding of each object scattered on the whole scene but also a deep dive into their temporal motions and interactions. Inherently, object pairs and their relationships enjoy spatial co-occurrence correlations within each image and temporal consistency/transition correlations across different images, which can serve as prior knowledge to facilitate VidSGG model learning and inference. In this work, we propose a spatial-temporal knowledge-embedded transformer (STKET) that incorporates the prior spatial-temporal knowledge into the multi-head cross-attention mechanism to learn more representative relationship representations. Specifically, we first learn spatial co-occurrence and temporal transition correlations in a statistical manner. Then, we design spatial and temporal knowledge-embedded layers that introduce the multi-head cross-attention mechanism to fully explore the interaction between visual representation and the knowledge to generate spatial- and temporal-embedded representations, respectively. Finally, we aggregate these representations for each subject-object pair to predict the final semantic labels and their relationships. Extensive experiments show that STKET outperforms current competing algorithms by a large margin, e.g., improving the mR@50 by 8.1%, 4.7%, and 2.1% on different settings over current algorithms. | 翻訳日:2023-09-26 21:12:15 公開日:2023-09-23 |
# M$^3$CS:学習可能なコードブックとシームズデコーダを用いたマルチターゲットマスキングポイントモデリング M$^3$CS: Multi-Target Masked Point Modeling with Learnable Codebook and Siamese Decoders ( http://arxiv.org/abs/2309.13235v1 ) ライセンス: Link先を確認 | Qibo Qiu, Honghui Yang, Wenxiao Wang, Shun Zhang, Haiming Gao, Haochao Ying, Wei Hua, Xiaofei He | (参考訳) マスク付き点モデリングは、点雲の自己教師型事前学習の有望なスキームとなっている。
既存の方法は、事前学習の目的として原点または関連特徴を再構築する。
しかし、下流タスクの多様性を考慮すると、事前学習中に幾何学的詳細や意味的文脈を捉えるために、低レベルかつ高レベルな表現モデリング機能を持つ必要がある。
この目的のために、M$^3$CS は上記の能力を持つモデルを可能にするために提案される。
具体的には、マスキングポイントクラウドを入力として、m$^3$csは2つのデコーダを導入し、マスクされた表現と元の点を同時に予測する。
余分なデコーダはデコードプロセスのパラメータを2倍にし、オーバーフィッティングにつながる可能性があるが、学習可能なパラメータの量を一定に抑えるためにシムデコーダを提案する。
さらに,マスキングポイントを再構築する前に,連続トークンを個別に投影するオンラインコードブックを提案する。
このようにして、デコーダは各トークンを記憶するのではなく、トークンの組み合わせを通じて効果を発揮することができる。
総合的な実験により、M$^3$CSは分類タスクとセグメンテーションタスクの両方において優れた性能を示し、既存の手法よりも優れていた。 Masked point modeling has become a promising scheme of self-supervised pre-training for point clouds. Existing methods reconstruct either the original points or related features as the objective of pre-training. However, considering the diversity of downstream tasks, it is necessary for the model to have both low- and high-level representation modeling capabilities to capture geometric details and semantic contexts during pre-training. To this end, M$^3$CS is proposed to enable the model with the above abilities. Specifically, with masked point cloud as input, M$^3$CS introduces two decoders to predict masked representations and the original points simultaneously. While an extra decoder doubles parameters for the decoding process and may lead to overfitting, we propose siamese decoders to keep the amount of learnable parameters unchanged. Further, we propose an online codebook projecting continuous tokens into discrete ones before reconstructing masked points. In such way, we can enforce the decoder to take effect through the combinations of tokens rather than remembering each token. Comprehensive experiments show that M$^3$CS achieves superior performance at both classification and segmentation tasks, outperforming existing methods. | 翻訳日:2023-09-26 21:11:47 公開日:2023-09-23 |
# BART-SIMP:ベイズ加法回帰木を用いたフレキシブル空間共変量モデリングと予測のための新しいフレームワーク BART-SIMP: a novel framework for flexible spatial covariate modeling and prediction using Bayesian additive regression trees ( http://arxiv.org/abs/2309.13270v1 ) ライセンス: Link先を確認 | Alex Ziyu Jiang and Jon Wakefield | (参考訳) 予測は空間統計学における古典的な挑戦であり、空間共変量の導入は潜在的な空間効果を持つモデルに組み込んだ場合の予測性能を大幅に改善することができる。
共変量構造における非線形性と相互作用を可能にするフレキシブル回帰モデルを開発することが望ましい。
機械学習モデルは空間的文脈で提案されており、残留物に空間的依存を与えることができるが、確実な不確実性推定は提供できない。
本稿では,ガウス過程空間モデルとベイズ加法回帰木(bart)モデルの新たな組み合わせについて検討する。
マルコフ連鎖モンテカルロ(MCMC)とIntegrated Nested Laplace Approximation(INLA)技術を組み合わせることにより、アプローチの計算負担を低減させる。
本研究では,本手法の性能をシミュレーションを用いて検討し,ケニアの家庭クラスタを用いて収集した人文的応答を予測する。 Prediction is a classic challenge in spatial statistics and the inclusion of spatial covariates can greatly improve predictive performance when incorporated into a model with latent spatial effects. It is desirable to develop flexible regression models that allow for nonlinearities and interactions in the covariate structure. Machine learning models have been suggested in the spatial context, allowing for spatial dependence in the residuals, but fail to provide reliable uncertainty estimates. In this paper, we investigate a novel combination of a Gaussian process spatial model and a Bayesian Additive Regression Tree (BART) model. The computational burden of the approach is reduced by combining Markov chain Monte Carlo (MCMC) with the Integrated Nested Laplace Approximation (INLA) technique. We study the performance of the method via simulations and use the model to predict anthropometric responses, collected via household cluster samples in Kenya. | 翻訳日:2023-09-26 21:05:54 公開日:2023-09-23 |
# 予測IoU誘導品質スコアの生成による局所化精度の認識 Being Aware of Localization Accuracy By Generating Predicted-IoU-Guided Quality Scores ( http://arxiv.org/abs/2309.13269v1 ) ライセンス: Link先を確認 | Pengfei Liu, Weibo Wang, Yuhan Guo, Jiubin Tan | (参考訳) ローカライズ品質推定(lqe)は,分類スコアとローカライズ精度を共同で考慮することで,後処理のメリットを享受できるため,検出性能の向上に寄与する。
この観点から、局所化精度とIoU(Intersection-Over-Union)の密接な関係をさらに活用し、それらの矛盾した予測を抑えるため、予測されたIoUによって導かれる局所化品質スコアを取得するためのエレガントなLQEブランチを設計した。
分類スコアの低さとlqeスコアの高い予測が性能を損なうというトレーニングや推論における分類スコアと局所品質の不整合を緩和するために,lqeブランチを分類ブランチに組み込み,共同分類-局所化品質表現を作成した。
そして、CLQと呼ばれる新しい1段階検出器を提案する。
大規模な実験により、CLQは47.8 APの精度で最先端の性能を達成し、ResNeXt-101をバックボーンとして11.5fpsの速度をCOCOテストデブで達成した。
最後に、clqをatsに拡張し、信頼性のある1.2 apゲインを生成し、モデルの強い適応性とスケーラビリティを示しています。
コードはhttps://github.com/panffeereal/clqでリリースされる。 Localization Quality Estimation (LQE) helps to improve detection performance as it benefits post processing through jointly considering classification score and localization accuracy. In this perspective, for further leveraging the close relationship between localization accuracy and IoU (Intersection-Over-Union), and for depressing those inconsistent predictions, we designed an elegant LQE branch to acquire localization quality score guided by predicted IoU. Distinctly, for alleviating the inconsistency of classification score and localization quality during training and inference, under which some predictions with low classification scores but high LQE scores will impair the performance, instead of separately and independently setting, we embedded LQE branch into classification branch, producing a joint classification-localization-quality representation. Then a novel one stage detector termed CLQ is proposed. Extensive experiments show that CLQ achieves state-of-the-arts' performance at an accuracy of 47.8 AP and a speed of 11.5 fps with ResNeXt-101 as backbone on COCO test-dev. Finally, we extend CLQ to ATSS, producing a reliable 1.2 AP gain, showing our model's strong adaptability and scalability. Codes are released at https://github.com/PanffeeReal/CLQ. | 翻訳日:2023-09-26 21:05:36 公開日:2023-09-23 |
# 三角形探索のための量子アルゴリズムの非ランダム化 Derandomization of quantum algorithm for triangle finding ( http://arxiv.org/abs/2309.13268v1 ) ライセンス: Link先を確認 | Guanzhong Li, Lvzhou Li | (参考訳) ランダム化(英: derandomization)とは、ランダム化アルゴリズムを決定論的アルゴリズムに変える過程であり、古典的計算において大きな注目を集めている。
量子コンピューティングでは、量子力学の固有ランダム性のため、量子アルゴリズムの非ランダム化が困難で興味をそそられる。
量子アルゴリズムの分散化の意義は、量子スピードアップを犠牲にすることなく、成功確率が本質的に1であることを証明するだけでなく、実際の量子コンピュータにアルゴリズムを実装した場合の成功率を実験的に改善することにある。
本稿では,三角形和問題(特別な場合として有名な三角形探索問題を含む)に対する量子量子アルゴリズムの分割に焦点をあて,その辺が与えられた重みに収束するように,n$頂点の辺重み付きグラフに三角形を求める。
エッジウェイト行列オラクルへの$O(n^{9/7})$クエリを生成し、したがって最先端の有界量子アルゴリズムと同じ複雑さを持つ。
このデランドマイゼーションを実現するために、量子データ構造を持つネステッド量子ウォーク、調整可能なパラメータを持つ決定論的量子サーチ、ジョンソングラフ上の量子ウォークサーチの次元化など、いくつかの手法をフル活用する。 Derandomization is the process of taking a randomized algorithm and turning it into a deterministic algorithm, which has attracted great attention in classical computing. In quantum computing, it is challenging and intriguing to derandomize quantum algorithms, due to the inherent randomness of quantum mechanics. The significance of derandomizing quantum algorithms lies not only in theoretically proving that the success probability can essentially be 1 without sacrificing quantum speedups, but also in experimentally improving the success rate when the algorithm is implemented on a real quantum computer. In this paper, we focus on derandomizing quanmtum algorithms for the triangle sum problem (including the famous triangle finding problem as a special case), which asks to find a triangle in an edge-weighted graph with $n$ vertices, such that its edges sum up to a given weight.We show that when the graph is promised to contain at most one target triangle, there exists a deterministic quantum algorithm that either finds the triangle if it exists or outputs ``no triangle'' if none exists. It makes $O(n^{9/7})$ queries to the edge weight matrix oracle, and thus has the same complexity with the state-of-art bounded-error quantum algorithm. To achieve this derandomization, we make full use several techniques:nested quantum walks with quantum data structure, deterministic quantum search with adjustable parameters, and dimensional reduction of quantum walk search on Johnson graph. | 翻訳日:2023-09-26 21:05:10 公開日:2023-09-23 |
# クロスモーダル融合と知識伝達を用いたロバストナビゲーション Robust Navigation with Cross-Modal Fusion and Knowledge Transfer ( http://arxiv.org/abs/2309.13266v1 ) ライセンス: Link先を確認 | Wenzhe Cai, Guangran Cheng, Lingyue Kong, Lu Dong, Changyin Sun | (参考訳) 近年,学習に基づく手法がナビゲーションタスクに有望な結果をもたらしている。
しかし、一般化能力の貧弱さとシミュレーションと現実のギャップは幅広い応用を妨げる。
本研究では,移動ロボットの一般化とナビゲーション能力のシミュレートの実現を課題とする。
そこで我々は,より優れた一般化のためのクロスモーダル融合法と知識伝達フレームワークを提案する。
これは教師による蒸留アーキテクチャによって実現される。
教師は理想的な環境で差別表現とほぼ完全な方針を学ぶ。
教師の行動や表現を模倣することにより、教師はノイズの多いマルチモーダル入力から特徴を整列させ、ナビゲーションポリシーへの影響を低減することができる。
本手法はシミュレーション環境および実環境において評価する。
実験により,本手法はベースラインよりも大きなマージンを達成し,作業条件の異なる堅牢なナビゲーション性能を実現する。 Recently, learning-based approaches show promising results in navigation tasks. However, the poor generalization capability and the simulation-reality gap prevent a wide range of applications. We consider the problem of improving the generalization of mobile robots and achieving sim-to-real transfer for navigation skills. To that end, we propose a cross-modal fusion method and a knowledge transfer framework for better generalization. This is realized by a teacher-student distillation architecture. The teacher learns a discriminative representation and the near-perfect policy in an ideal environment. By imitating the behavior and representation of the teacher, the student is able to align the features from noisy multi-modal input and reduce the influence of variations on navigation policy. We evaluate our method in simulated and real-world environments. Experiments show that our method outperforms the baselines by a large margin and achieves robust navigation performance with varying working conditions. | 翻訳日:2023-09-26 21:04:41 公開日:2023-09-23 |
# randomize to generalize: 滑走路fod検出のためのドメインランダム化 Randomize to Generalize: Domain Randomization for Runway FOD Detection ( http://arxiv.org/abs/2309.13264v1 ) ライセンス: Link先を確認 | Javaria Farooq, Nayyer Aafaq, M Khizer Ali Khan, Ammar Saleem, M Ibraheem Siddiqui | (参考訳) 細い物体検出は、小サイズ、低解像度、オクルージョン、背景クラッタ、照明条件、オブジェクトと画像の比が小さいため、難しい。
さらに、オブジェクト検出手法は、トレーニングデータとテストデータの両方が一致していると仮定することが多い。
しかし、この仮定は、モデルがドメイン外(未処理)データに適用されると、しばしば性能が低下する。
入力データの変動を利用してモデル性能を向上させるために合成画像生成などの技術が用いられている。
このようなアプローチは通常、3Dレンダリングされたデータセットへのアクセスを前提とします。
対照的に,2dデータセットに遭遇するモデルの一般化能力,特に実世界のシナリオでより実用的な低分解能化を念頭において考案した,新しい2段階合成ランダム化画像拡張法(sria)を提案する。
第1段階では、ピクセルレベルのセグメンテーションマスクを生成するために弱制御技術を採用している。
その後、第2段階は、様々な拡張の配列で慎重に設計された人工画像のバッチワイズ合成を生成する。
提案手法の有効性は, 異物デブリ検出法 (fod) への挑戦性を示す。
この結果と,CenterNet,SSD,YOLOv3,YOLOv4,YOLOv5,Outer VitなどのSOTAモデルとの比較を行った。
また、10の共通カテゴリのコーパスを特徴とする800の注釈付き画像を含む分散テストセットを構築した。
特に、ソーストレーニングデータからわずか1.81%のオブジェクトを利用でき、29の滑走路背景画像と照合することで、227の合成画像を生成する。
ドメインランダム化によって生成されたリッチなデータセットを活用するトランスファーラーニングによるその後のモデル再訓練は、検出精度を著しく向上させる。
検出精度は初期41%からOODテストセットの92%に改善した。 Tiny Object Detection is challenging due to small size, low resolution, occlusion, background clutter, lighting conditions and small object-to-image ratio. Further, object detection methodologies often make underlying assumption that both training and testing data remain congruent. However, this presumption often leads to decline in performance when model is applied to out-of-domain(unseen) data. Techniques like synthetic image generation are employed to improve model performance by leveraging variations in input data. Such an approach typically presumes access to 3D-rendered datasets. In contrast, we propose a novel two-stage methodology Synthetic Randomized Image Augmentation (SRIA), carefully devised to enhance generalization capabilities of models encountering 2D datasets, particularly with lower resolution which is more practical in real-world scenarios. The first stage employs a weakly supervised technique to generate pixel-level segmentation masks. Subsequently, the second stage generates a batch-wise synthesis of artificial images, carefully designed with an array of diverse augmentations. The efficacy of proposed technique is illustrated on challenging foreign object debris (FOD) detection. We compare our results with several SOTA models including CenterNet, SSD, YOLOv3, YOLOv4, YOLOv5, and Outer Vit on a publicly available FOD-A dataset. We also construct an out-of-distribution test set encompassing 800 annotated images featuring a corpus of ten common categories. Notably, by harnessing merely 1.81% of objects from source training data and amalgamating with 29 runway background images, we generate 2227 synthetic images. Subsequent model retraining via transfer learning, utilizing enriched dataset generated by domain randomization, demonstrates significant improvement in detection accuracy. We report that detection accuracy improved from an initial 41% to 92% for OOD test set. | 翻訳日:2023-09-26 21:04:29 公開日:2023-09-23 |
# WikiMT++ データセットカード WikiMT++ Dataset Card ( http://arxiv.org/abs/2309.13259v1 ) ライセンス: Link先を確認 | Monan Zhou, Shangda Wu, Yuan Wang, Wei Li | (参考訳) WikiMT++はWikiMusicText(WikiMT)の拡張版であり、ABCの表記で1010枚のキュレートされた鉛シートが使用されている。
wikimtの応用シナリオを拡大するために,目的感 (album, 歌詞, ビデオ) と主観感情 (12感情形容詞) とemo\_4q (russell 4q) 属性を加えて,音楽情報検索, 条件楽曲生成, 自動合成, 感情分類などのユーザビリティを向上させる。
さらに、CLaMPは、WikiMTから受け継いだ属性を補正し、元のデータ収集時に発生するエラーを低減し、データセットの精度と完全性を高めるために実装されている。 WikiMT++ is an expanded and refined version of WikiMusicText (WikiMT), featuring 1010 curated lead sheets in ABC notation. To expand application scenarios of WikiMT, we add both objective (album, lyrics, video) and subjective emotion (12 emotion adjectives) and emo\_4q (Russell 4Q) attributes, enhancing its usability for music information retrieval, conditional music generation, automatic composition, and emotion classification, etc. Additionally, CLaMP is implemented to correct the attributes inherited from WikiMT to reduce errors introduced during original data collection and enhance the accuracy and completeness of our dataset. | 翻訳日:2023-09-26 21:03:56 公開日:2023-09-23 |
# ドメイン適応と一般化のための順序保存一貫性規則化 Order-preserving Consistency Regularization for Domain Adaptation and Generalization ( http://arxiv.org/abs/2309.13258v1 ) ライセンス: Link先を確認 | Mengmeng Jing, Xiantong Zhen, Jingjing Li, Cees Snoek | (参考訳) ディープラーニングモデルは、ライトニング、バックグラウンド、カメラアングルなど、ドメイン固有の属性に過度に敏感なモデルでは、クロスドメインの課題に失敗する。
この問題を軽減するために、整合性正規化と結合したデータ拡張が一般的に採用され、モデルがドメイン固有の属性に敏感になる。
一貫性の正規化は、1つの画像の2つのビューに対して同じ表現や予測を出力するようにモデルを強制する。
しかし、これらの制約は厳密すぎるか、分類確率に対して秩序保存しないかのどちらかである。
本稿では,ドメイン間タスクのための順序保存一貫性規則化(OCR)を提案する。
予測の順序保存特性により、モデルはタスク非関連変換に対して堅牢となる。
その結果、モデルはドメイン固有の属性に対する感度が低下する。
包括的実験により、5つの異なるクロスドメインタスクにおいて明確な利点が得られた。 Deep learning models fail on cross-domain challenges if the model is oversensitive to domain-specific attributes, e.g., lightning, background, camera angle, etc. To alleviate this problem, data augmentation coupled with consistency regularization are commonly adopted to make the model less sensitive to domain-specific attributes. Consistency regularization enforces the model to output the same representation or prediction for two views of one image. These constraints, however, are either too strict or not order-preserving for the classification probabilities. In this work, we propose the Order-preserving Consistency Regularization (OCR) for cross-domain tasks. The order-preserving property for the prediction makes the model robust to task-irrelevant transformations. As a result, the model becomes less sensitive to the domain-specific attributes. The comprehensive experiments show that our method achieves clear advantages on five different cross-domain tasks. | 翻訳日:2023-09-26 21:03:41 公開日:2023-09-23 |
# RTrack: Pseudo-Boxesによるビジュアルオブジェクト追跡の収束の高速化 RTrack: Accelerating Convergence for Visual Object Tracking via Pseudo-Boxes Exploration ( http://arxiv.org/abs/2309.13257v1 ) ライセンス: Link先を確認 | Guotian Zeng, Bi Zeng, Hong Zhang, Jianqi Liu and Qingmao Wei | (参考訳) 単一オブジェクトトラッキング(sot)は、対象オブジェクトをバウンディングボックスとして表現することに大きく依存する。
しかし、追跡対象が経験する潜在的な変形と回転のため、真のバウンディングボックスは外観情報を明示的に捉えず、乱れの背景を導入する。
本稿では,サンプル点の集合を利用して擬似境界ボックスを得る新しいオブジェクト表現ベースライントラッカーRTrackを提案する。
RTrackはこれらの点を自動的に配置して空間範囲を定義し、局所領域をハイライトする。
ベースラインを構築して,トレーニングの可能性の詳細な調査を行い,一対多の指導戦略を導入した。
GOT-10kデータセットの最先端トラッカーと競合する性能を達成し、トレーニング時間を従来の最先端トラッカー(SOTA)のトレーニングコストの10%に削減した点に注意が必要だ。
トレーニングコストの大幅な削減は、単目的追跡(SOT)をオブジェクト検出(OD)タスクに近づける。
提案したRTrackはより高速な収束でSOTA結果が得られることを示した。 Single object tracking (SOT) heavily relies on the representation of the target object as a bounding box. However, due to the potential deformation and rotation experienced by the tracked targets, the genuine bounding box fails to capture the appearance information explicitly and introduces cluttered background. This paper proposes RTrack, a novel object representation baseline tracker that utilizes a set of sample points to get a pseudo bounding box. RTrack automatically arranges these points to define the spatial extents and highlight local areas. Building upon the baseline, we conducted an in-depth exploration of the training potential and introduced a one-to-many leading assignment strategy. It is worth noting that our approach achieves competitive performance to the state-of-the-art trackers on the GOT-10k dataset while reducing training time to just 10% of the previous state-of-the-art (SOTA) trackers' training costs. The substantial reduction in training costs brings single-object tracking (SOT) closer to the object detection (OD) task. Extensive experiments demonstrate that our proposed RTrack achieves SOTA results with faster convergence. | 翻訳日:2023-09-26 21:03:28 公開日:2023-09-23 |
# バックドア攻撃に対する学習者による事前訓練型言語モデルの構築 Defending Pre-trained Language Models as Few-shot Learners against Backdoor Attacks ( http://arxiv.org/abs/2309.13256v1 ) ライセンス: Link先を確認 | Zhaohan Xi, Tianyu Du, Changjiang Li, Ren Pang, Shouling Ji, Jinghui Chen, Fenglong Ma, Ting Wang | (参考訳) プレトレーニング言語モデル(PLM)は、数発の学習者として顕著な性能を示した。
しかし、そのような状況下でのセキュリティリスクは、ほとんど調査されていない。
本研究では,小ショット学習者のplmがバックドア攻撃に対して非常に脆弱であるのに対して,小ショットシナリオのユニークな課題により既存の防御が不十分であることを示すパイロット研究を行った。
このような課題に対処するため,我々は,PLMの軽量でプラガブルで効果的な防御技術であるMDPを,少人数の学習者として提唱する。
特に、MDPは、汚染されたサンプルとクリーンなサンプルのマスキング感度のギャップを生かし、限られた数発のデータを分布アンカーとして、異なるマスキングの下で与えられたサンプルの表現を比較し、有毒なサンプルを有意な変動のあるものとして識別する。
mdpが攻撃効果と検出回避性のいずれかを選択するための興味深いジレンマを生み出すことを解析的に示す。
ベンチマークデータセットと代表攻撃を用いた経験的評価はmdpの有効性を検証する。 Pre-trained language models (PLMs) have demonstrated remarkable performance as few-shot learners. However, their security risks under such settings are largely unexplored. In this work, we conduct a pilot study showing that PLMs as few-shot learners are highly vulnerable to backdoor attacks while existing defenses are inadequate due to the unique challenges of few-shot scenarios. To address such challenges, we advocate MDP, a novel lightweight, pluggable, and effective defense for PLMs as few-shot learners. Specifically, MDP leverages the gap between the masking-sensitivity of poisoned and clean samples: with reference to the limited few-shot data as distributional anchors, it compares the representations of given samples under varying masking and identifies poisoned samples as ones with significant variations. We show analytically that MDP creates an interesting dilemma for the attacker to choose between attack effectiveness and detection evasiveness. The empirical evaluation using benchmark datasets and representative attacks validates the efficacy of MDP. | 翻訳日:2023-09-26 21:03:13 公開日:2023-09-23 |
# Zen:分散DNNトレーニングのためのニア最適スパーステンソル同期 Zen: Near-Optimal Sparse Tensor Synchronization for Distributed DNN Training ( http://arxiv.org/abs/2309.13254v1 ) ライセンス: Link先を確認 | Zhuang Wang, Zhaozhuo Xu, Anshumali Shrivastava, T. S. Eugene Ng | (参考訳) 分散トレーニングは、ディープニューラルネットワーク(DNN)のトレーニングを複数のGPUでスケールアップするデファクトスタンダードである。
分散トレーニングのパフォーマンスボトルネックは、勾配同期のための通信にある。
近年,グラデーションテンソルのばらつきが観測され,通信における交通量削減とエンドツーエンドのトレーニング効率の向上が示唆されている。
しかし、空間性を完全に活用する最適な通信方式はいまだに欠けている。
本稿は,このギャップに対処することを目的とする。
まず,DNNモデルにおけるスパーステンソルの特性を解析し,空間性の基本を理解する。
次に,スパーステンソルのための通信方式の設計空間を体系的に探索し,最適点を求める。
% 設計空間を体系的に探索することで,その特性に基づく最適スキームを求める。
また,スパーステンソルに対してほぼそれを実現する,zenと呼ばれる勾配同期システムを開発した。
我々はzenが通信時間の最大5.9倍のスピードアップとトレーニングスループットの最大2.48倍のスピードアップを達成できることを実証する。 Distributed training is the de facto standard to scale up the training of Deep Neural Networks (DNNs) with multiple GPUs. The performance bottleneck of distributed training lies in communications for gradient synchronization. Recently, practitioners have observed sparsity in gradient tensors, suggesting the potential to reduce the traffic volume in communication and improve end-to-end training efficiency. Yet, the optimal communication scheme to fully leverage sparsity is still missing. This paper aims to address this gap. We first analyze the characteristics of sparse tensors in popular DNN models to understand the fundamentals of sparsity. We then systematically explore the design space of communication schemes for sparse tensors and find the optimal one. % We then find the optimal scheme based on the characteristics by systematically exploring the design space. We also develop a gradient synchronization system called Zen that approximately realizes it for sparse tensors. We demonstrate that Zen can achieve up to 5.09x speedup in communication time and up to 2.48x speedup in training throughput compared to the state-of-the-art methods. | 翻訳日:2023-09-26 21:02:54 公開日:2023-09-23 |
# OATS:アスペクトに基づく知覚分析のためのターゲット4重項抽出データセット OATS: Opinion Aspect Target Sentiment Quadruple Extraction Dataset for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2309.13297v1 ) ライセンス: Link先を確認 | Siva Uday Sampreeth Chebolu and Franck Dernoncourt and Nedim Lipka and Thamar Solorio | (参考訳) アスペクトベースの感情分析(ABSA)は、テキストコンテンツ内の異なる要素に特有の感情を理解する。
ユーザー生成レビューを分析して判断する
a) 審査対象の実体
b)それが属するハイレベルな側面
c) 意見を表現するために用いられる感情語,及び
d) 目標及び側面に対して表現された感情
さまざまなベンチマークデータセットがabsaの発展を促進する一方で、ドメインの制限やデータの粒度の課題がしばしば伴う。
OATSデータセットは3つの新しいドメインを含み、2万の文レベル4倍と13,000のレビューレベルタプルから構成される。
レストランやラップトップなどのおなじみのドメインへの再帰的な集中、複雑な4倍数抽出タスクのための限られたデータ、文章とレビューレベルの感情のシナジーを時々監視するといった、特定のギャップを埋めることを目指しています。
さらに、OATSの潜在能力を解明し、OATSが解決できる様々なABSAサブタスクに光を当てるために、ドメイン内およびドメイン間実験を行い、最初のベースラインを確立した。
OATSデータセットが現在のリソースを増やし、ABSAを包括的に探査する道を開くことを願っています。 Aspect-based sentiment Analysis (ABSA) delves into understanding sentiments specific to distinct elements within textual content. It aims to analyze user-generated reviews to determine a) the target entity being reviewed, b) the high-level aspect to which it belongs, c) the sentiment words used to express the opinion, and d) the sentiment expressed toward the targets and the aspects. While various benchmark datasets have fostered advancements in ABSA, they often come with domain limitations and data granularity challenges. Addressing these, we introduce the OATS dataset, which encompasses three fresh domains and consists of 20,000 sentence-level quadruples and 13,000 review-level tuples. Our initiative seeks to bridge specific observed gaps: the recurrent focus on familiar domains like restaurants and laptops, limited data for intricate quadruple extraction tasks, and an occasional oversight of the synergy between sentence and review-level sentiments. Moreover, to elucidate OATS's potential and shed light on various ABSA subtasks that OATS can solve, we conducted in-domain and cross-domain experiments, establishing initial baselines. We hope the OATS dataset augments current resources, paving the way for an encompassing exploration of ABSA. | 翻訳日:2023-09-26 20:54:57 公開日:2023-09-23 |
# MP-MVS:マルチスケールWindows PatchMatchとPlanar Prior Multi-View Stereo MP-MVS: Multi-Scale Windows PatchMatch and Planar Prior Multi-View Stereo ( http://arxiv.org/abs/2309.13294v1 ) ライセンス: Link先を確認 | Rongxuan Tan, Qing Wang, Xueyan Wang, Chao Yan, Yang Sun and Youyang Feng | (参考訳) マルチビューステレオ(mvs)を用いた3次元再構成の精度向上に重要な進歩が見られた。
しかし、不安定な光度整合性のある非テクスチャ領域は、しばしば不完全に再構成される。
本稿では,レジリエントで効果的なマルチビューステレオアプローチ(MP-MVS)を提案する。
マルチスケールウィンドウPatchMatch (mPM) を設計し, 信頼性の高い非テクスチャ領域の深さを求める。
他のマルチスケールアプローチとは対照的に、高速で、PatchMatchベースのMVSアプローチに容易に拡張できる。
その後,サンプリングを離れた領域に限定して既存のチェッカーボードサンプリングスキームを改善し,異常発生を緩和しながら空間伝搬の効率を効果的に改善する。
最後に,acmp の planar prior assisted patchmatch を紹介し,改善する。
光度整合性に頼る代わりに、多視点間の幾何的整合性情報を用いて、信頼できる三角頂点を選択する。
この戦略は、測光一貫性の測定を正すより正確な平面事前モデルを得ることができる。
提案手法はETH3D High-Res Multi-view ベンチマークでテストされている。
結果は、我々のアプローチが最先端に到達できることを示しています。
関連するコードはhttps://github.com/RongxuanTan/MP-MVSで参照できる。 Significant strides have been made in enhancing the accuracy of Multi-View Stereo (MVS)-based 3D reconstruction. However, untextured areas with unstable photometric consistency often remain incompletely reconstructed. In this paper, we propose a resilient and effective multi-view stereo approach (MP-MVS). We design a multi-scale windows PatchMatch (mPM) to obtain reliable depth of untextured areas. In contrast with other multi-scale approaches, which is faster and can be easily extended to PatchMatch-based MVS approaches. Subsequently, we improve the existing checkerboard sampling schemes by limiting our sampling to distant regions, which can effectively improve the efficiency of spatial propagation while mitigating outlier generation. Finally, we introduce and improve planar prior assisted PatchMatch of ACMP. Instead of relying on photometric consistency, we utilize geometric consistency information between multi-views to select reliable triangulated vertices. This strategy can obtain a more accurate planar prior model to rectify photometric consistency measurements. Our approach has been tested on the ETH3D High-res multi-view benchmark with several state-of-the-art approaches. The results demonstrate that our approach can reach the state-of-the-art. The associated codes will be accessible at https://github.com/RongxuanTan/MP-MVS. | 翻訳日:2023-09-26 20:54:36 公開日:2023-09-23 |
# 年齢のハームレス・パーキンソンの音声による検出 Beyond Fairness: Age-Harmless Parkinson's Detection via Voice ( http://arxiv.org/abs/2309.13292v1 ) ライセンス: Link先を確認 | Yicheng Wang, Xiaotian Han, Leisheng Yu, Na Zou | (参考訳) 神経変性疾患であるパーキンソン病(PD)は、しばしば発声障害や発声障害として現れる。
PD検出のための音声データの利用は臨床応用において大きな可能性を秘めているが、現在広く使われているディープラーニングモデルは、様々な年齢の発症に関する公平性の問題を抱えている。
これらの深層モデルは、高齢者群(年齢: 55ドル)ではよく機能するが、若年層(年齢: 55ドル)では正確ではない。
調査の結果,高齢者と若年者の相違が生じた。
1)不均衡データセットと
2)早期発症患者では軽度の症状が多かった。
しかし、伝統的なデバイアス法は、通常、多数派グループの予測精度を損なうが、相違を最小限に抑えるため、非実用的である。
この問題に対処するために,GradCAMをベースとした特徴マスキングとアンサンブルモデルを組み合わせることで,公平性や精度が損なわれないようにする手法を提案する。
特に、GradCAMベースの特徴マスキングは、PD検出に必要な情報を保持しつつ、入力音声データ中の年齢関連特徴を選択的に隠蔽する。
アンサンブルモデルは、マイノリティ(若いグループ)の予測精度をさらに向上させる。
本手法は高齢者群を犠牲にすることなく早期発症患者の検出精度を効果的に向上させる。
また,若年者に対する2段階検出戦略を提案し,早期発症型PD患者に対する実用的なリスク評価を行った。 Parkinson's disease (PD), a neurodegenerative disorder, often manifests as speech and voice dysfunction. While utilizing voice data for PD detection has great potential in clinical applications, the widely used deep learning models currently have fairness issues regarding different ages of onset. These deep models perform well for the elderly group (age $>$ 55) but are less accurate for the young group (age $\leq$ 55). Through our investigation, the discrepancy between the elderly and the young arises due to 1) an imbalanced dataset and 2) the milder symptoms often seen in early-onset patients. However, traditional debiasing methods are impractical as they typically impair the prediction accuracy for the majority group while minimizing the discrepancy. To address this issue, we present a new debiasing method using GradCAM-based feature masking combined with ensemble models, ensuring that neither fairness nor accuracy is compromised. Specifically, the GradCAM-based feature masking selectively obscures age-related features in the input voice data while preserving essential information for PD detection. The ensemble models further improve the prediction accuracy for the minority (young group). Our approach effectively improves detection accuracy for early-onset patients without sacrificing performance for the elderly group. Additionally, we propose a two-step detection strategy for the young group, offering a practical risk assessment for potential early-onset PD patients. | 翻訳日:2023-09-26 20:54:18 公開日:2023-09-23 |
# USL-Net:unsupervised Skin Lesion Segmentationのための不確実なセルフラーニングネットワーク USL-Net: Uncertainty Self-Learning Network for Unsupervised Skin Lesion Segmentation ( http://arxiv.org/abs/2309.13289v1 ) ライセンス: Link先を確認 | Xiaofan Li, Bo Peng, Daipeng Yang, Zhuyang Xie | (参考訳) 監督されていない皮膚病変のセグメンテーションは、専門家の人的資源の保存、主観的なヒトのラベル付けによる相違の低減、新しい環境への適応など、いくつかの利点を提供する。
しかし,手作業によるラベリング指導を伴わないセグメンテーションデルモスコピック画像は,毛髪ノイズ,ブリスターノイズ,微妙なエッジ差などのデルモスコピック画像アーチファクトに対して大きな課題がある。
これらの課題に対処するために,皮膚病変のセグメント化を目的とした革新的な不確実性自己学習ネットワーク(usl-net)を提案する。
USL-Netは、手動ラベリングガイダンスの必要性をなくし、効果的に範囲の病変を区分することができる。
当初、特徴はコントラスト学習を用いて抽出され、続いてこれらの特徴を用いた唾液マップとしてクラスアクティベーションマップ(CAM)が生成される。
異なるCAM位置は、その唾液度に基づく病変領域の重要性に対応している。
地図内の高濃度領域は病変領域の擬似ラベルとして機能し、低濃度領域は背景を表す。
しかし、中間領域は、しばしば病変の縁に近づいたり、毛髪やブリスターからの干渉のために分類するのが困難である。
疑似ラベル誤りの危険性や、これらの領域を強制的に分類することで混乱を学習する代わりに、疑似ラベルを除外し、ネットワークを自己学習可能にする不確実な領域とみなす。
さらに,前景の擬似ラベルを洗練し,ノイズによる誤差を低減するために,接続検出と集中度検出を用いた。
サイクル精製の適用により、さらに性能が向上する。
提案手法はISIC-2017, ISIC-2018, PH2データセットに対して徹底的な検証を行い, その性能は弱教師付きおよび教師付き手法と同等であり, 既存の教師なし手法よりも優れていることを示した。 Unsupervised skin lesion segmentation offers several benefits, including conserving expert human resources, reducing discrepancies due to subjective human labeling, and adapting to novel environments. However, segmenting dermoscopic images without manual labeling guidance presents significant challenges due to dermoscopic image artifacts such as hair noise, blister noise, and subtle edge differences. To address these challenges, we introduce an innovative Uncertainty Self-Learning Network (USL-Net) designed for skin lesion segmentation. The USL-Net can effectively segment a range of lesions, eliminating the need for manual labeling guidance. Initially, features are extracted using contrastive learning, followed by the generation of Class Activation Maps (CAMs) as saliency maps using these features. The different CAM locations correspond to the importance of the lesion region based on their saliency. High-saliency regions in the map serve as pseudo-labels for lesion regions while low-saliency regions represent the background. However, intermediate regions can be hard to classify, often due to their proximity to lesion edges or interference from hair or blisters. Rather than risk potential pseudo-labeling errors or learning confusion by forcefully classifying these regions, we consider them as uncertainty regions, exempting them from pseudo-labeling and allowing the network to self-learn. Further, we employ connectivity detection and centrality detection to refine foreground pseudo-labels and reduce noise-induced errors. The application of cycle refining enhances performance further. Our method underwent thorough experimental validation on the ISIC-2017, ISIC-2018, and PH2 datasets, demonstrating that its performance is on par with weakly supervised and supervised methods, and exceeds that of other existing unsupervised methods. | 翻訳日:2023-09-26 20:53:58 公開日:2023-09-23 |
# エンド・ツー・エンド深部強化学習を用いたクアドロタースウォームの衝突回避とナビゲーション Collision Avoidance and Navigation for a Quadrotor Swarm Using End-to-end Deep Reinforcement Learning ( http://arxiv.org/abs/2309.13285v1 ) ライセンス: Link先を確認 | Zhehui Huang, Zhaojing Yang, Rahul Krupani, Bask{\i}n \c{S}enba\c{s}lar, Sumeet Batra, Gaurav S. Sukhatme | (参考訳) 四重項制御のためのエンドツーエンドの深層強化学習(DRL)は、デプロイの容易さ、タスクの一般化、リアルタイム実行能力など、多くのメリットを約束する。
従来のDRLベースの手法では、学習したコントローラを単一四角形または四角形に展開する能力を示した。
しかし、障害の追加は、潜在的相互作用の数を指数関数的に増加させ、rlポリシーのトレーニングの困難さを増大させる。
本研究では,障害物のある環境下での四元子群制御のためのエンドツーエンドDRL手法を提案する。
筆者らは, 障害物の多い環境下での性能向上を図るために, 衝突エピソードのカリキュラムと再生バッファを提供する。
我々は、隣接するロボットと障害物の相互作用に対応するための注意機構を実装し、このメカニズムを、厳密な計算制約のあるハードウェア上に展開するスウォーム行動ポリシーに関する最初の成功例を示す。
我々の研究は、ゼロショットを実四重項に転送するエンドツーエンドDRLで訓練された近隣回避および障害物回避制御ポリシーを学習する可能性を示す最初の研究である。
シミュレーションでは障害物密度80%の32ロボット,物理的展開では障害物密度20%の8ロボットにスケールアップした。
ビデオデモはプロジェクトのWebサイト(https://sites.google.com/view/obst-avoid-swarm-rl)で公開されている。 End-to-end deep reinforcement learning (DRL) for quadrotor control promises many benefits -- easy deployment, task generalization and real-time execution capability. Prior end-to-end DRL-based methods have showcased the ability to deploy learned controllers onto single quadrotors or quadrotor teams maneuvering in simple, obstacle-free environments. However, the addition of obstacles increases the number of possible interactions exponentially, thereby increasing the difficulty of training RL policies. In this work, we propose an end-to-end DRL approach to control quadrotor swarms in environments with obstacles. We provide our agents a curriculum and a replay buffer of the clipped collision episodes to improve performance in obstacle-rich environments. We implement an attention mechanism to attend to the neighbor robots and obstacle interactions - the first successful demonstration of this mechanism on policies for swarm behavior deployed on severely compute-constrained hardware. Our work is the first work that demonstrates the possibility of learning neighbor-avoiding and obstacle-avoiding control policies trained with end-to-end DRL that transfers zero-shot to real quadrotors. Our approach scales to 32 robots with 80% obstacle density in simulation and 8 robots with 20% obstacle density in physical deployment. Video demonstrations are available on the project website at: https://sites.google.com/view/obst-avoid-swarm-rl. | 翻訳日:2023-09-26 20:53:25 公開日:2023-09-23 |
# 自動リバースエンジニアリング:多視点画像からコンピュータ支援デザイン(CAD)モデルを作成する Automatic Reverse Engineering: Creating computer-aided design (CAD) models from multi-view images ( http://arxiv.org/abs/2309.13281v1 ) ライセンス: Link先を確認 | Henrik Jobczyk and Hanno Homann | (参考訳) 多視点画像からコンピュータ支援設計(CAD)モデルを生成することは,多くの実用化に有用である。
現在までに、この問題は中間点クラウド再構成で解決されており、最終的なCADモデルを作成するために手作業が必要となる。
本稿では,自動リバースエンジニアリングタスクのための新しいネットワークを提案する。
ネットワークアーキテクチャには,エンコーダステージとしての畳み込みニューラルネットワーク,マルチビュープーリングステージ,トランスフォーマーベースCADシーケンスジェネレータの3つの異なるステージが組み合わされている。
モデルを多数のシミュレーションされた入力画像に基づいて訓練し、評価し、モデルアーキテクチャとハイパーパラメータの広範な最適化を行う。
シミュレーションされたテスト画像データから有効なCADモデルを多数再構成して概念実証を行う。
様々な精度の指標を計算し、最先端のポイントベースネットワークと比較する。
最後に、ネットワークに2つの3次元テストオブジェクトの実際の写真を供給する実世界テストを行う。
トレーニングには純粋に合成トレーニングデータのみが含まれていても,ネットワークの機能の一部をこの領域に移行できることが示されている。
しかし、現在まで、実現可能なモデルの複雑さは基本的な形状に限られている。 Generation of computer-aided design (CAD) models from multi-view images may be useful in many practical applications. To date, this problem is usually solved with an intermediate point-cloud reconstruction and involves manual work to create the final CAD models. In this contribution, we present a novel network for an automated reverse engineering task. Our network architecture combines three distinct stages: A convolutional neural network as the encoder stage, a multi-view pooling stage and a transformer-based CAD sequence generator. The model is trained and evaluated on a large number of simulated input images and extensive optimization of model architectures and hyper-parameters is performed. A proof-of-concept is demonstrated by successfully reconstructing a number of valid CAD models from simulated test image data. Various accuracy metrics are calculated and compared to a state-of-the-art point-based network. Finally, a real world test is conducted supplying the network with actual photographs of two three-dimensional test objects. It is shown that some of the capabilities of our network can be transferred to this domain, even though the training exclusively incorporates purely synthetic training data. However to date, the feasible model complexity is still limited to basic shapes. | 翻訳日:2023-09-26 20:53:00 公開日:2023-09-23 |
# 分散シフトを考慮したオフ・ポリティ・インターバル推定:統一誤差定量化フレームワーク Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework ( http://arxiv.org/abs/2309.13278v1 ) ライセンス: Link先を確認 | Wenzhuo Zhou, Yuhan Li, Ruoqing Zhu, Annie Qu | (参考訳) 本研究では,未知行動政策から事前収集したオフラインデータのみを用いて,目標政策値に対する信頼区間(ci)を確立することを目的とした,無限ホリゾンマルコフ決定過程の文脈における高信頼オフポリシー評価について検討する。
このタスクは,CI推定における包括的かつ厳密なエラー定量化の提供と,ターゲットポリシとオフラインデータ生成プロセスによる分散の相違による分散シフトへの対処という,2つの課題に直面する。
再帰的統一的誤差解析によって得られた2つの推定誤差は, 限界化重みのモデル化における誤特定誤差と, サンプリングによる統計的不確実性である。
この統一されたフレームワークは、ciの厳しさを損なうエラー間の以前の隠れたトレードオフを明らかにする。
慎重に設計された差別化関数に基づいて、提案された推定子は、最も厳しいCIを達成するためにトレードオフの呪いを破り、分散シフトに対する堅牢性を確保するためにCIを適用するという2つの目的を達成する。
本手法は,局所スーパーマーチンゲール/マーチンゲール構造を利用して,弱い依存条件を仮定することなく,時間依存データに適用できる。
理論的には,本アルゴリズムは,非線型関数近似設定においても,サンプリング効率,誤差ローバスト,および有意収束性を示す。
提案手法の数値計算性能は, 合成データセットおよびOttoT1DMモバイルヘルススタディで検証した。 We study high-confidence off-policy evaluation in the context of infinite-horizon Markov decision processes, where the objective is to establish a confidence interval (CI) for the target policy value using only offline data pre-collected from unknown behavior policies. This task faces two primary challenges: providing a comprehensive and rigorous error quantification in CI estimation, and addressing the distributional shift that results from discrepancies between the distribution induced by the target policy and the offline data-generating process. Motivated by an innovative unified error analysis, we jointly quantify the two sources of estimation errors: the misspecification error on modeling marginalized importance weights and the statistical uncertainty due to sampling, within a single interval. This unified framework reveals a previously hidden tradeoff between the errors, which undermines the tightness of the CI. Relying on a carefully designed discriminator function, the proposed estimator achieves a dual purpose: breaking the curse of the tradeoff to attain the tightest possible CI, and adapting the CI to ensure robustness against distributional shifts. Our method is applicable to time-dependent data without assuming any weak dependence conditions via leveraging a local supermartingale/martingale structure. Theoretically, we show that our algorithm is sample-efficient, error-robust, and provably convergent even in non-linear function approximation settings. The numerical performance of the proposed method is examined in synthetic datasets and an OhioT1DM mobile health study. | 翻訳日:2023-09-26 20:52:42 公開日:2023-09-23 |
# LiDARセマンティックセグメンテーションのための離散能動学習 Discwise Active Learning for LiDAR Semantic Segmentation ( http://arxiv.org/abs/2309.13276v1 ) ライセンス: Link先を確認 | Ozan Unal and Dengxin Dai and Ali Tamer Unal and Luc Van Gool | (参考訳) LiDARデータ取得は簡単だが、セマンティックセグメンテーションのラベル付けには時間がかかるため、選択的に行う必要がある。
アクティブラーニング(AL)は、高パフォーマンスと低予算を維持しながらデータセットを反復的かつインテリジェントにラベル付けできるソリューションを提供する。
本稿では,LiDARセマンティックセグメンテーションのためのALについて検討する。
人間の専門家はパイプラインのコンポーネントであるため、実用的なフレームワークはアノテーションの時間を大幅に改善するシーケンシャルラベリングのような一般的なラベリング技術を考慮する必要があります。
そこで我々は,各イテレーションにおいて,ひとつのフレームがグローバル座標をカバーし,すべてのフレームを同時にラベル付けする領域を問合せする,離散的アプローチ(DiAL)を提案する。
次に、ディスクワイドALで現れる2つの大きな課題に取り組む。
まず,位置変化や自走車運動に起因する3次元点密度変化を考慮した新たな取得関数を考案する。
次に,複数フレームの選択に対する汎用的な解法を提供しながら,ディスク交叉の可能性を考慮した混合整数線形プログラムを解く。
最後に,データセット内の全フレームを活用し,パフォーマンスを向上させるための半教師付き学習手法を提案する。 While LiDAR data acquisition is easy, labeling for semantic segmentation remains highly time consuming and must therefore be done selectively. Active learning (AL) provides a solution that can iteratively and intelligently label a dataset while retaining high performance and a low budget. In this work we explore AL for LiDAR semantic segmentation. As a human expert is a component of the pipeline, a practical framework must consider common labeling techniques such as sequential labeling that drastically improve annotation times. We therefore propose a discwise approach (DiAL), where in each iteration, we query the region a single frame covers on global coordinates, labeling all frames simultaneously. We then tackle the two major challenges that emerge with discwise AL. Firstly we devise a new acquisition function that takes 3D point density changes into consideration which arise due to location changes or ego-vehicle motion. Next we solve a mixed-integer linear program that provides a general solution to the selection of multiple frames while taking into consideration the possibilities of disc intersections. Finally we propose a semi-supervised learning approach to utilize all frames within our dataset and improve performance. | 翻訳日:2023-09-26 20:52:16 公開日:2023-09-23 |
# GLOBER: GLOBal Guided Video Decoderによるコヒーレントな非自己回帰ビデオ生成 GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER ( http://arxiv.org/abs/2309.13274v1 ) ライセンス: Link先を確認 | Mingzhen Sun, Weining Wang, Zihan Qin, Jiahui Sun, Sihan Chen, Jing Liu | (参考訳) ビデオ生成は、グローバルコヒーレンスとローカルリアリズムの両方を必要とする。
本研究は、まずグローバルな特徴を生成して包括的なグローバルガイダンスを得るとともに、グローバルな特徴に基づいてビデオフレームを合成してコヒーレントなビデオを生成する、新しい非自己回帰手法GLOBERを提案する。
具体的には,ビデオエンコーダが映像をグローバルな特徴にエンコードするビデオオートエンコーダと,拡散モデル上に構築され,グローバルな特徴をデコードし,ビデオフレームを非自己回帰的に合成するビデオデコーダを提案する。
最大柔軟性を達成するため,ビデオデコーダはフレームインデックスの正規化により時間情報を知覚し,任意のサブビデオクリップを所定の開始と終了のフレームインデックスで合成することができる。
さらに、合成ビデオフレーム間のグローバルコヒーレンスと局所リアリズムを改善するために、新たな対向損失を導入する。
最後に,ビデオエンコーダが出力するグローバル機能をビデオ生成に適合させるために拡散型ビデオジェネレータを用いる。
実験により,提案手法の有効性と有効性が実証され,複数のベンチマークで最新の結果が得られた。 Video generation necessitates both global coherence and local realism. This work presents a novel non-autoregressive method GLOBER, which first generates global features to obtain comprehensive global guidance and then synthesizes video frames based on the global features to generate coherent videos. Specifically, we propose a video auto-encoder, where a video encoder encodes videos into global features, and a video decoder, built on a diffusion model, decodes the global features and synthesizes video frames in a non-autoregressive manner. To achieve maximum flexibility, our video decoder perceives temporal information through normalized frame indexes, which enables it to synthesize arbitrary sub video clips with predetermined starting and ending frame indexes. Moreover, a novel adversarial loss is introduced to improve the global coherence and local realism between the synthesized video frames. Finally, we employ a diffusion-based video generator to fit the global features outputted by the video encoder for video generation. Extensive experimental results demonstrate the effectiveness and efficiency of our proposed method, and new state-of-the-art results have been achieved on multiple benchmarks. | 翻訳日:2023-09-26 20:51:56 公開日:2023-09-23 |
# 要件の形式化のための自然言語処理:新しいアプローチの導出方法 Natural Language Processing for Requirements Formalization: How to Derive New Approaches? ( http://arxiv.org/abs/2309.13272v1 ) ライセンス: Link先を確認 | Viju Sudhi and Libin Kutty and Robin Gr\"opler | (参考訳) ソフトウェア開発とテストのプロセスを可能な限り自動化したい、という業界や研究の長年の願望です。
このプロセスでは、要件エンジニアリング(RE)が、それに基づいて構築される他のすべてのステップに対して、基本的な役割を果たす。
ソフトウェアシステムの複雑さと多様性の増大に対処するモデルベース設計およびテスト手法が開発されている。
しかし、自然言語で提供される大量の機能要件から仕様モデルを作成するには、依然として大きな努力が必要である。
自然言語処理(NLP)に基づく多くのアプローチが、主に構文特性を用いた要求モデルを生成するために文献で提案されている。
nlpの最近の進歩は、意味量も識別でき、要求の形式化プロセスをより良く支援するために使うことができることを示している。
本研究は,nlpの分野から主要なアイデアと最先端の方法論を提示・議論し,読者に対して,要求の半自動形式化のための規則と手法を,それぞれのユースケースとニーズに応じて作成する方法を指導する。
ルールセットの反復的開発について,2つの異なるアプローチを詳細に論じる。
要求モデルは擬似コードの形式で人間と機械で読める形式で表現される。
提案手法は,自動車分野と鉄道分野の2つの産業利用事例で実証された。
これは、既存のトレーニング済みのNLPモデルを使用することで、ルールセットの作成に労力を要せず、特定のユースケースやドメインに容易に適応できることを示しています。
また,本研究領域の発見と欠点が強調され,今後の発展への展望が示された。 It is a long-standing desire of industry and research to automate the software development and testing process as much as possible. In this process, requirements engineering (RE) plays a fundamental role for all other steps that build on it. Model-based design and testing methods have been developed to handle the growing complexity and variability of software systems. However, major effort is still required to create specification models from a large set of functional requirements provided in natural language. Numerous approaches based on natural language processing (NLP) have been proposed in the literature to generate requirements models using mainly syntactic properties. Recent advances in NLP show that semantic quantities can also be identified and used to provide better assistance in the requirements formalization process. In this work, we present and discuss principal ideas and state-of-the-art methodologies from the field of NLP in order to guide the readers on how to create a set of rules and methods for the semi-automated formalization of requirements according to their specific use case and needs. We discuss two different approaches in detail and highlight the iterative development of rule sets. The requirements models are represented in a human- and machine-readable format in the form of pseudocode. The presented methods are demonstrated on two industrial use cases from the automotive and railway domains. It shows that using current pre-trained NLP models requires less effort to create a set of rules and can be easily adapted to specific use cases and domains. In addition, findings and shortcomings of this research area are highlighted and an outlook on possible future developments is given. | 翻訳日:2023-09-26 20:51:34 公開日:2023-09-23 |
# テキストからソースへ:大規模言語モデル生成コンテンツの検出結果 From Text to Source: Results in Detecting Large Language Model-Generated Content ( http://arxiv.org/abs/2309.13322v1 ) ライセンス: Link先を確認 | Wissam Antoun, Beno\^it Sagot, Djam\'e Seddah | (参考訳) 言語モデル(LLM)の広汎な利用は、人間のようなテキストを生成する能力で祝われ、誤情報や倫理的意味に関する懸念を提起している。
これらの懸念に対処するには、LSMによって生成されたテキストを検出し、属性付けするための堅牢な方法の開発が必要である。
本稿では,LLM生成テキストと人文テキストを区別するために訓練された分類器が,それ以上の訓練をすることなく,LLMからテキストを検出することができるかどうかを評価する。
本研究は,LLMのサイズや家族を包括的に調査し,対話型微調整技術が分類器の一般化に与える影響を評価する。
この研究は、ソースモデル識別、モデルファミリー分類、モデルサイズ分類を含むモデル属性についても検討している。
分類器の有効性とモデルサイズとの間には明確な逆関係があり,特により小さなモデルからのデータに基づいて分類器を訓練する場合,より大きなLLMの検出が困難である。
同様のサイズのLLMからのデータによるトレーニングは、より大きなモデルからの検出性能を向上させることができるが、より小さなモデルを扱う場合のパフォーマンスが低下する可能性がある。
さらに、モデル属性実験は、LLM生成テキスト中の検出可能なシグネチャをハイライトし、ソースモデルとモデルファミリーを識別する有望な結果を示す。
本研究は,LLM検出および帰属におけるモデルサイズ,家族,およびトレーニングデータの相互作用に関する貴重な知見を提供する。 The widespread use of Large Language Models (LLMs), celebrated for their ability to generate human-like text, has raised concerns about misinformation and ethical implications. Addressing these concerns necessitates the development of robust methods to detect and attribute text generated by LLMs. This paper investigates "Cross-Model Detection," evaluating whether a classifier trained to distinguish between source LLM-generated and human-written text can also detect text from a target LLM without further training. The study comprehensively explores various LLM sizes and families, and assesses the impact of conversational fine-tuning techniques on classifier generalization. The research also delves into Model Attribution, encompassing source model identification, model family classification, and model size classification. Our results reveal several key findings: a clear inverse relationship between classifier effectiveness and model size, with larger LLMs being more challenging to detect, especially when the classifier is trained on data from smaller models. Training on data from similarly sized LLMs can improve detection performance from larger models but may lead to decreased performance when dealing with smaller models. Additionally, model attribution experiments show promising results in identifying source models and model families, highlighting detectable signatures in LLM-generated text. Overall, our study contributes valuable insights into the interplay of model size, family, and training data in LLM detection and attribution. | 翻訳日:2023-09-26 20:45:24 公開日:2023-09-23 |
# GlotScript: 低リソース記述システム識別のためのリソースとツール GlotScript: A Resource and Tool for Low Resource Writing System Identification ( http://arxiv.org/abs/2309.13320v1 ) ライセンス: Link先を確認 | Amir Hossein Kargaran, Fran\c{c}ois Yvon, Hinrich Sch\"utze | (参考訳) 本稿では,低リソース記述システム識別のためのオープンリソースおよびツールであるGlotScriptを紹介する。
GlotScript-Rは7000以上の言語に対して証明済みの書き込みシステムを提供するリソースである。
既存の書き込みシステムリソースから情報を集約してコンパイルする。
GlotScript-Tは161のUnicode 15.0スクリプトをカバーする記述システム識別ツールである。
入力テキストに対して、ISO 15924コードでスクリプトが識別されるスクリプト配布を返却する。
GlotScriptのユースケースは2つあります。
まず,GlotScriptがmC4やOSCARなどの多言語コーパスのクリーニングをサポートすることを示す。
第2に,GlotScript を用いた GPT-4 などの言語モデルのトークン化を解析し,各言語モデルによる低リソーススクリプトおよび言語カバレッジに関する洞察を提供する。
私たちはGlotScriptがNLPコミュニティで低リソース言語に取り組む上で有用なリソースになることを望んでいます。
GlotScript-RとGlotScript-Tはhttps://github.com/cisnlp/GlotScriptで入手できる。 We present GlotScript, an open resource and tool for low resource writing system identification. GlotScript-R is a resource that provides the attested writing systems for more than 7,000 languages. It is compiled by aggregating information from existing writing system resources. GlotScript-T is a writing system identification tool that covers all 161 Unicode 15.0 scripts. For an input text, it returns its script distribution where scripts are identified by ISO 15924 codes. We also present two use cases for GlotScript. First, we demonstrate that GlotScript supports cleaning multilingual corpora such as mC4 and OSCAR. Second, we analyze the tokenization of a number of language models such as GPT-4 using GlotScript and provide insights on the coverage of low resource scripts and languages by each language model. We hope that GlotScript will become a useful resource for work on low resource languages in the NLP community. GlotScript-R and GlotScript-T are available at https://github.com/cisnlp/GlotScript. | 翻訳日:2023-09-26 20:44:59 公開日:2023-09-23 |
# スペイン語リソース文法バージョン2023 Spanish Resource Grammar version 2023 ( http://arxiv.org/abs/2309.13318v1 ) ライセンス: Link先を確認 | Olga Zamaraeva, Carlos G\'omez-Rodr\'iguez | (参考訳) 本稿では,スペイン資源文法(SRG)の最新版を紹介する。
新しいsrgは、freeling morphological analyzerとtaggerの最新バージョンを使用しており、手動で検証されたツリーバンクと文書化された問題のリストが付属している。
また、SRGに関して全く新しい研究線である学習者コーパスのごく一部に文法のカバレッジとオーバージェネレーションを提示する。
この文法は、経験的に駆動された構文理論の発展のような言語研究や、コンピュータ支援言語学習のような自然言語処理の応用に利用できる。
最後に、ツリーバンクが成長するにつれて、高品質なセマンティックパーサや、正確で詳細なセマンティクスの恩恵を受ける他のシステムのトレーニングに使用できる。 We present the latest version of the Spanish Resource Grammar (SRG). The new SRG uses the recent version of Freeling morphological analyzer and tagger and is accompanied by a manually verified treebank and a list of documented issues. We also present the grammar's coverage and overgeneration on a small portion of a learner corpus, an entirely new research line with respect to the SRG. The grammar can be used for linguistic research, such as for empirically driven development of syntactic theory, and in natural language processing applications such as computer-assisted language learning. Finally, as the treebanks grow, they can be used for training high-quality semantic parsers and other systems which may benefit from precise and detailed semantics. | 翻訳日:2023-09-26 20:44:45 公開日:2023-09-23 |
# 深層学習法を用いた教育における授業参加システム Class Attendance System in Education with Deep Learning Method ( http://arxiv.org/abs/2309.13317v1 ) ライセンス: Link先を確認 | H\"udaverdi Demir, Serkan Sava\c{s} | (参考訳) 技術の進歩により、コンピュータのハードウェアのゲインとプロセッサの処理能力の増大により、瞬時およびリアルタイム画像の処理が容易になった。
顔認識プロセスは画像処理の分野でも研究されている。
顔認識プロセスは、セキュリティアプリケーションや商用アプリケーションで頻繁に使用される。
特に過去20年間、人工知能(AI)研究の高性能化は、これらの研究の様々な分野への普及に寄与してきた。
教育もその一つだ。
教育におけるAIの活用の可能性と利点は、学生、教師、教育機関の3つに分類される。
機関研究の1つは、教育環境の安全性と、教育と訓練プロセスへの自動化の貢献である。
この観点から、AIのサブブランチの一つであるディープラーニング手法が研究に用いられた。
画像からの物体検出のために,学生の教育機関への進入記録を保存し,画像処理アルゴリズムを用いてカメラから撮影した画像を用いて授業出席を行うための先駆的研究が考案され,成功した。
実生活問題への本研究の適用は,2022~2023年度に決定された学校で行われる。 With the advancing technology, the hardware gain of computers and the increase in the processing capacity of processors have facilitated the processing of instantaneous and real-time images. Face recognition processes are also studies in the field of image processing. Facial recognition processes are frequently used in security applications and commercial applications. Especially in the last 20 years, the high performances of artificial intelligence (AI) studies have contributed to the spread of these studies in many different fields. Education is one of them. The potential and advantages of using AI in education; can be grouped under three headings: student, teacher, and institution. One of the institutional studies may be the security of educational environments and the contribution of automation to education and training processes. From this point of view, deep learning methods, one of the sub-branches of AI, were used in this study. For object detection from images, a pioneering study has been designed and successfully implemented to keep records of students' entrance to the educational institution and to perform class attendance with images taken from the camera using image processing algorithms. The application of the study to real-life problems will be carried out in a school determined in the 2022-2023 academic year. | 翻訳日:2023-09-26 20:44:32 公開日:2023-09-23 |
# 航空機エンジンの予測保守のための機械学習モデルの解釈可能なシステムレビュー An Interpretable Systematic Review of Machine Learning Models for Predictive Maintenance of Aircraft Engine ( http://arxiv.org/abs/2309.13310v1 ) ライセンス: Link先を確認 | Abdullah Al Hasib, Ashikur Rahman, Mahpara Khabir and Md. Tanvir Rouf Shawon | (参考訳) 本稿では,各種機械学習モデルと深層学習モデルの解釈可能なレビューを行い,航空機エンジンのメンテナンスを予測し,災害を避ける。
この戦略の利点の1つは、控えめなデータセットで動作できることである。
本研究では, LSTM, Bi-LSTM, RNN, Bi-RNN GRU, Random Forest, KNN, Naive Bayes, Gradient Boostingを用いて, 航空機のエンジン故障の予測にセンサデータを用いた。
本稿では,1つのデータソースで単純なシナリオを用いて,ディープラーニングと機械学習を用いて予測保守の予測を生成する方法について説明する。
機械学習モデルがディープラーニングモデルよりもうまく機能しなかった理由を理解するために、モデルにライムを適用しました。
モデルのブラックボックスシナリオを理解するために、いくつかのテストデータに対して、モデルの振る舞いを広範囲に分析する。
gru, bi-lstm, lstmによって97.8%, 97.14%, 96.42%の利益率を達成し, 早期のメンテナンス予測能力を示す。 This paper presents an interpretable review of various machine learning and deep learning models to predict the maintenance of aircraft engine to avoid any kind of disaster. One of the advantages of the strategy is that it can work with modest datasets. In this study, sensor data is utilized to predict aircraft engine failure within a predetermined number of cycles using LSTM, Bi-LSTM, RNN, Bi-RNN GRU, Random Forest, KNN, Naive Bayes, and Gradient Boosting. We explain how deep learning and machine learning can be used to generate predictions in predictive maintenance using a straightforward scenario with just one data source. We applied lime to the models to help us understand why machine learning models did not perform well than deep learning models. An extensive analysis of the model's behavior is presented for several test data to understand the black box scenario of the models. A lucrative accuracy of 97.8%, 97.14%, and 96.42% are achieved by GRU, Bi-LSTM, and LSTM respectively which denotes the capability of the models to predict maintenance at an early stage. | 翻訳日:2023-09-26 20:44:16 公開日:2023-09-23 |
# LLMを用いたキャリブレーション評価装置 Calibrating LLM-Based Evaluator ( http://arxiv.org/abs/2309.13308v1 ) ライセンス: Link先を確認 | Yuxuan Liu, Tianchi Yang, Shaohan Huang, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang | (参考訳) 近年の言語モデル(LLM)における言語モデリングと創発的能力の進歩は、自然言語生成品質の有望な基準自由評価要因となり、人間による評価の代替となる。
しかし、ホストとチューニングに対するクローズドソースや高い計算要求によって妨げられ、既製のLCMベースの評価器をより優れた人間のアライメントに向けて校正する習慣が欠如している。
本研究では,LLMに基づく評価器を人間の嗜好に合わせて自動調整・調整する多段階勾配のない手法であるAutoCalibrateを提案する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
次に、初期評価基準のセットを言語モデル自体によって起草し、異なる少数ショット例のコンテキスト内学習を活用する。
この基準をさらに校正するために、最高のパフォーマーを選び、自己定義で再描画します。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
総合的質的分析は,効果的な採点基準の本質に関する洞察に富んだ直観と観察を提供する。 Recent advancements in large language models (LLMs) on language modeling and emergent capabilities make them a promising reference-free evaluator of natural language generation quality, and a competent alternative to human evaluation. However, hindered by the closed-source or high computational demand to host and tune, there is a lack of practice to further calibrate an off-the-shelf LLM-based evaluator towards better human alignment. In this work, we propose AutoCalibrate, a multi-stage, gradient-free approach to automatically calibrate and align an LLM-based evaluator toward human preference. Instead of explicitly modeling human preferences, we first implicitly encompass them within a set of human labels. Then, an initial set of scoring criteria is drafted by the language model itself, leveraging in-context learning on different few-shot examples. To further calibrate this set of criteria, we select the best performers and re-draft them with self-refinement. Our experiments on multiple text quality evaluation datasets illustrate a significant improvement in correlation with expert evaluation through calibration. Our comprehensive qualitative analysis conveys insightful intuitions and observations on the essence of effective scoring criteria. | 翻訳日:2023-09-26 20:43:53 公開日:2023-09-23 |
# CORE: 確率的低通信複素量分散最適化のための共通ランダム再構成 CORE: Common Random Reconstruction for Distributed Optimization with Provable Low Communication Complexity ( http://arxiv.org/abs/2309.13307v1 ) ライセンス: Link先を確認 | Pengyun Yue, Hanzhen Zhao, Cong Fang, Di He, Liwei Wang, Zhouchen Lin, Song-chun Zhu | (参考訳) 分散機械学習が大規模な機械学習タスクの顕著なテクニックであるため、通信の複雑さは、トレーニングのスピードアップとマシン番号のスケールアップの大きなボトルネックとなっている。
本稿では,他の厳密な条件を伴わない通信複雑性を低減するために,機械間で送信される情報を圧縮するために,Common randOm Reconstruction (CORE) という新しい手法を提案する。
特に,提案手法のコアは,共通のランダムベクトルを介してベクトル値情報を低次元に投影し,通信後に同じランダムノイズで情報を再構成する。
線形モデルにおける凸最適化と一般凸最適化の2つの分散タスクにCOREを適用し,通信の複雑さを確実に低減する新しい分散アルゴリズムを設計する。
例えば、線形モデルの場合、コアベースアルゴリズムは勾配ベクトルを$\mathcal{o}(1)$-bits($\mathcal{o}(d)$)にエンコードできるが、現在の結果に先立って収束率は悪くない。 With distributed machine learning being a prominent technique for large-scale machine learning tasks, communication complexity has become a major bottleneck for speeding up training and scaling up machine numbers. In this paper, we propose a new technique named Common randOm REconstruction(CORE), which can be used to compress the information transmitted between machines in order to reduce communication complexity without other strict conditions. Especially, our technique CORE projects the vector-valued information to a low-dimensional one through common random vectors and reconstructs the information with the same random noises after communication. We apply CORE to two distributed tasks, respectively convex optimization on linear models and generic non-convex optimization, and design new distributed algorithms, which achieve provably lower communication complexities. For example, we show for linear models CORE-based algorithm can encode the gradient vector to $\mathcal{O}(1)$-bits (against $\mathcal{O}(d)$), with the convergence rate not worse, preceding the existing results. | 翻訳日:2023-09-26 20:43:34 公開日:2023-09-23 |
# 探索訓練によるユニバーサル病変検出タスクにおける不完全アノテーション問題への対処 Tackling the Incomplete Annotation Issue in Universal Lesion Detection Task By Exploratory Training ( http://arxiv.org/abs/2309.13306v1 ) ライセンス: Link先を確認 | Xiaoyu Bai, Benteng Ma, Changyang Li and Yong Xia | (参考訳) 多臓器の各種病変を医療画像上で検出することを目的としているため,普遍的病変検出は臨床に非常に有用である。
ディープラーニング手法は有望な結果を示しているが、トレーニングには大量の注釈付きデータを必要とする。
しかし、医用画像の注釈は費用がかかり、専門知識が必要となる。
医療画像内のオブジェクトの多様な形式とコントラストは、完全なアノテーションをさらに困難にし、不完全なアノテーションをもたらす。
このようなデータセット上で ULD 検出器を直接訓練すると、準最適結果が得られる。
擬似ラベルベースの手法では、トレーニングデータを調べ、ラベルなしのオブジェクトをマイニングして再トレーニングする。
現在、トップパフォーマンスの手法は、ミニバッチレベルで動作する動的ラベルマイニング機構に依存している。
しかし、モデルの性能は異なるイテレーションで変化し、採掘されたラベルの品質に矛盾が生じ、性能の強化が制限される。
深層モデルが複雑化とともに概念を学習する観察に触発されて、時間とともに採掘された病変の信頼性を評価する革新的な探索訓練を導入した。
具体的には,教師の予測と不完全なアノテーションを組み合わさって学生を訓練する教師学生検出モデルを基礎として導入する。
さらに,高信頼度予測を記録するための予測バンクを設計する。
各サンプルは数回トレーニングされ、各サンプルのレコードのシーケンスを取得することができます。
予測が連続的にレコード列に現れると、それは真のオブジェクトになりそうで、そうでなければノイズにすぎません。
これは、再訓練のための信頼できる鉱山病変を選択するための重要な基準となる。
実験の結果,提案手法が2つの医用画像データセットの最先端手法を超え,優れた性能を示した。 Universal lesion detection has great value for clinical practice as it aims to detect various types of lesions in multiple organs on medical images. Deep learning methods have shown promising results, but demanding large volumes of annotated data for training. However, annotating medical images is costly and requires specialized knowledge. The diverse forms and contrasts of objects in medical images make fully annotation even more challenging, resulting in incomplete annotations. Directly training ULD detectors on such datasets can yield suboptimal results. Pseudo-label-based methods examine the training data and mine unlabelled objects for retraining, which have shown to be effective to tackle this issue. Presently, top-performing methods rely on a dynamic label-mining mechanism, operating at the mini-batch level. However, the model's performance varies at different iterations, leading to inconsistencies in the quality of the mined labels and limits their performance enhancement. Inspired by the observation that deep models learn concepts with increasing complexity, we introduce an innovative exploratory training to assess the reliability of mined lesions over time. Specifically, we introduce a teacher-student detection model as basis, where the teacher's predictions are combined with incomplete annotations to train the student. Additionally, we design a prediction bank to record high-confidence predictions. Each sample is trained several times, allowing us to get a sequence of records for each sample. If a prediction consistently appears in the record sequence, it is likely to be a true object, otherwise it may just a noise. This serves as a crucial criterion for selecting reliable mined lesions for retraining. Our experimental results substantiate that the proposed framework surpasses state-of-the-art methods on two medical image datasets, demonstrating its superior performance. | 翻訳日:2023-09-26 20:43:13 公開日:2023-09-23 |
# c$^2$vae:gaussian copula-based vae : 連結表現とコントラスト後方表現の相違 C$^2$VAE: Gaussian Copula-based VAE Differing Disentangled from Coupled Representations with Contrastive Posterior ( http://arxiv.org/abs/2309.13303v1 ) ライセンス: Link先を確認 | Zhangkai Wu and Longbing Cao | (参考訳) 自己教師付き変分オートエンコーダ(vae)を提案し,不等角化および従属化の隠れ要因を共同学習し,自己教師付き分類器による不等角化表現学習を強化し,対照的に結合表現を排除した。
この目的のために、Contrastive Copula VAE (C$^2$VAE) は確率論的原理におけるデータに関する事前の知識に頼ることなく導入され、ニューラルアーキテクチャの後方に強力なモデリング仮定が伴う。
c$^2$vae は、因子化不等角表現を学習するために、後側(evidence lower bound, elbo)と全相関(tc)駆動の分解を同時に分解し、コプラ結合表現のためのニューラルガウスコプラによる隠れ特徴間の依存関係を抽出する。
そして、自己教師付きコントラスト分類器は、このアンタングル表現と結合表現を区別し、コントラスト損失はこのコントラスト分類をTC損失と共に正規化し、アンタングル因子を除去し、アンタングル表現を強化する。
C$^2$VAEは不整合表現学習の強化に強い効果を示す。
C$^2$VAEはさらに、TCベースのVAE不安定性と再構成と表現のトレードオフに対処する最適化の改善に貢献している。 We present a self-supervised variational autoencoder (VAE) to jointly learn disentangled and dependent hidden factors and then enhance disentangled representation learning by a self-supervised classifier to eliminate coupled representations in a contrastive manner. To this end, a Contrastive Copula VAE (C$^2$VAE) is introduced without relying on prior knowledge about data in the probabilistic principle and involving strong modeling assumptions on the posterior in the neural architecture. C$^2$VAE simultaneously factorizes the posterior (evidence lower bound, ELBO) with total correlation (TC)-driven decomposition for learning factorized disentangled representations and extracts the dependencies between hidden features by a neural Gaussian copula for copula coupled representations. Then, a self-supervised contrastive classifier differentiates the disentangled representations from the coupled representations, where a contrastive loss regularizes this contrastive classification together with the TC loss for eliminating entangled factors and strengthening disentangled representations. C$^2$VAE demonstrates a strong effect in enhancing disentangled representation learning. C$^2$VAE further contributes to improved optimization addressing the TC-based VAE instability and the trade-off between reconstruction and representation. | 翻訳日:2023-09-26 20:42:45 公開日:2023-09-23 |
# スパイクニューラルネットワークにおける二元的ロテリチケット探索によるスパースリワード獲得 Gaining the Sparse Rewards by Exploring Binary Lottery Tickets in Spiking Neural Network ( http://arxiv.org/abs/2309.13302v1 ) ライセンス: Link先を確認 | Hao Cheng, Jiahang Cao, Erjia Xiao, Pu Zhao, Mengshu Sun, Jiaxu Wang, Jize Zhang, Xue Lin, Bhavya Kailkhura, Kaidi Xu, Renjing Xu | (参考訳) 脳にインスパイアされた戦略としてのスパイクニューラルネットワーク(snn)は、その固有のスパイク情報状態に由来する高いスパース性と低電力特性のために多くの注目を集めている。
snnの効率をさらに高めるために、人工ニューラルネットワーク(ann)が元のネットワークのパフォーマンスを犠牲にすることなくサブネットワークを含むことを示す宝くじ(lts)仮説もsnsに存在すると宣言する研究もある。
しかし、SNNが処理するスパイク情報は、スパーシフィケーションにおけるバイナライゼーションと自然な類似性と親和性を持っている。
そこで,本研究では,(1)2進SNNにおけるLTの有無,(2)2進SNNにおけるスパイキング機構が,単純なモデルバイナライゼーションに比べて2進情報を扱う上で優れた戦略であるか否かを考察する。
これらの消費を認証するために、異なるネットワーク構造下でのバイナリウェイトスパイキングロッテリティケット(BinW-SLT)を見つけるためのスパーストレーニング手法を提案する。
総合的な評価により、BinW-SLTはCIFAR-10とCIFAR-100で最大5.86%、+3.17%向上し、完全精度のSNNとANNと比較して1.86倍と8.92倍の省エネが得られることを示した。 Spiking Neural Network (SNN) as a brain-inspired strategy receives lots of attention because of the high-sparsity and low-power properties derived from its inherent spiking information state. To further improve the efficiency of SNN, some works declare that the Lottery Tickets (LTs) Hypothesis, which indicates that the Artificial Neural Network (ANN) contains a subnetwork without sacrificing the performance of the original network, also exists in SNN. However, the spiking information handled by SNN has a natural similarity and affinity with binarization in sparsification. Therefore, to further explore SNN efficiency, this paper focuses on (1) the presence or absence of LTs in the binary SNN, and (2) whether the spiking mechanism is a superior strategy in terms of handling binary information compared to simple model binarization. To certify these consumptions, a sparse training method is proposed to find Binary Weights Spiking Lottery Tickets (BinW-SLT) under different network structures. Through comprehensive evaluations, we show that BinW-SLT could attain up to +5.86% and +3.17% improvement on CIFAR-10 and CIFAR-100 compared with binary LTs, as well as achieve 1.86x and 8.92x energy saving compared with full-precision SNN and ANN. | 翻訳日:2023-09-26 20:42:17 公開日:2023-09-23 |
# ブラックボックス最適化問題に対する進化的アルゴリズムの高速化 Speeding-up Evolutionary Algorithms to solve Black-Box Optimization Problems ( http://arxiv.org/abs/2309.13349v1 ) ライセンス: Link先を確認 | Judith Echevarrieta, Etor Arza and Aritz P\'erez | (参考訳) 集団に基づく進化的アルゴリズムは計算コストの高いブラックボックス最適化問題に近付くとしばしば考慮される。
彼らは、目的値を比較した後、与えられた集団から最良の解を選択するために選択メカニズムを使用し、次の集団を生成するために使用される。
この反復的なプロセスは、ソリューション空間を効率的に探索し、時間とともにソリューションを改善します。
しかし、これらのアルゴリズムは、評価コストが高い場合に計算コストがかかるような品質ソリューションを提供するために、多数の評価を必要とする。
場合によっては、元の目的関数をより精度の低いコスト近似で置き換えることが可能である。
これにより、評価コストと精度のトレードオフが生じる。
本稿では,最適化アルゴリズムの実行時に適切な近似関数コストを選択する手法を提案する。
提案手法では, 解が適切にランク付けされている場合の最小評価コストを見いだし, 精度の低下を最小限に抑えながら, 同じ時間内により多くの評価を計算できることを示す。
4つの非常に異なる問題に関する実験セクションでは、提案手法が特定の場合の半数未満の時間で同じ目的値に達することが示されている。 Population-based evolutionary algorithms are often considered when approaching computationally expensive black-box optimization problems. They employ a selection mechanism to choose the best solutions from a given population after comparing their objective values, which are then used to generate the next population. This iterative process explores the solution space efficiently, leading to improved solutions over time. However, these algorithms require a large number of evaluations to provide a quality solution, which might be computationally expensive when the evaluation cost is high. In some cases, it is possible to replace the original objective function with a less accurate approximation of lower cost. This introduces a trade-off between the evaluation cost and its accuracy. In this paper, we propose a technique capable of choosing an appropriate approximate function cost during the execution of the optimization algorithm. The proposal finds the minimum evaluation cost at which the solutions are still properly ranked, and consequently, more evaluations can be computed in the same amount of time with minimal accuracy loss. An experimental section on four very different problems reveals that the proposed approach can reach the same objective value in less than half of the time in certain cases. | 翻訳日:2023-09-26 20:34:06 公開日:2023-09-23 |
# 微分可能なグラフネットワークを用いた粒子・流体シミュレーションによる前方・逆問題の解法 Accelerating Particle and Fluid Simulations with Differentiable Graph Networks for Solving Forward and Inverse Problems ( http://arxiv.org/abs/2309.13348v1 ) ライセンス: Link先を確認 | Krishna Kumar and Yongjin Choi | (参考訳) 物理埋め込み型微分可能グラフネットワークシミュレータ(GNS)を用いて,粒子シミュレーションと流体シミュレーションを高速化し,前方および逆問題を解決する。
GNSは、領域をグラフとして表現し、粒子をノードとして、相互作用をエッジとして学習する。
グローバルダイナミクスのモデリングと比較して、GNSはエッジメッセージを通じて局所的な相互作用法則を学習し、新しい環境への一般化を改善する。
GNSは並列CPUシミュレーションと比較して粒度予測の165倍の高速化を実現している。
本研究では,ngsロールアウトにおけるmpmのインターリーブによる純粋サロゲートモデルの誤差を最小化し,保存則を満たし,24倍の高速化を達成する誤差を最小化する,新しいハイブリッドgsn/material point method(mpm)を提案する。
微分可能なGNSは、自動微分によって逆問題の解決を可能にし、ターゲットのランアウト距離をもたらす材料パラメータを識別する。
そこで本研究では,最終ランアウトと目標ランアウトに基づいて損失関数の勾配を計算することにより,摩擦角(材料特性)を反復的に更新することにより,逆問題を解くgnsの能力を示す。
物理学に埋め込まれた微分可能なシミュレーターは、AIが加速する設計、制御、最適化のためのエキサイティングな新しいパラダイムを開く。 We leverage physics-embedded differentiable graph network simulators (GNS) to accelerate particulate and fluid simulations to solve forward and inverse problems. GNS represents the domain as a graph with particles as nodes and learned interactions as edges. Compared to modeling global dynamics, GNS enables learning local interaction laws through edge messages, improving its generalization to new environments. GNS achieves over 165x speedup for granular flow prediction compared to parallel CPU numerical simulations. We propose a novel hybrid GNS/Material Point Method (MPM) to accelerate forward simulations by minimizing error on a pure surrogate model by interleaving MPM in GNS rollouts to satisfy conservation laws and minimize errors achieving 24x speedup compared to pure numerical simulations. The differentiable GNS enables solving inverse problems through automatic differentiation, identifying material parameters that result in target runout distances. We demonstrate the ability of GNS to solve inverse problems by iteratively updating the friction angle (a material property) by computing the gradient of a loss function based on the final and target runouts, thereby identifying the friction angle that best matches the observed runout. The physics-embedded and differentiable simulators open an exciting new paradigm for AI-accelerated design, control, and optimization. | 翻訳日:2023-09-26 20:33:50 公開日:2023-09-23 |
# MyScience Tutor (MyST) - 子どもの会話音声の大規模コーパス My Science Tutor (MyST) -- A Large Corpus of Children's Conversational Speech ( http://arxiv.org/abs/2309.13347v1 ) ライセンス: Link先を確認 | Sameer S. Pradhan and Ronald A. Cole and Wayne H. Ward | (参考訳) この記事では、My Science Tutorプロジェクトの一環として開発されたMySTコーパスについて説明する。これは、約400時間からなる子供の会話音声の最大コレクションの1つで、約10.5Kのバーチャルチューターセッションで約1.3K、第4、第5の学生によって約230Kの発話にまたがる。
これまでに、すべての発話の100万が転写されている。
コーパスは(https://myst.cemantix.org)フリーで、クリエイティブコモンズライセンスを使用して商用利用することができる。
商用利用も可能である(https://boulderlearning.com/resources/myst-corpus/)。
現在までに10の団体がこのコーパスを商業利用のためにライセンスしており、約40の大学や他の非営利の研究グループがコーパスをダウンロードしている。
このコーパスは、自動音声認識アルゴリズムの改善、教育のための会話型aiエージェントの構築と評価に利用し、子どもの興奮と科学の学習を改善するマルチモーダルアプリケーションの開発を加速し、遠隔で学ぶのに役立つことを期待している。 This article describes the MyST corpus developed as part of the My Science Tutor project -- one of the largest collections of children's conversational speech comprising approximately 400 hours, spanning some 230K utterances across about 10.5K virtual tutor sessions by around 1.3K third, fourth and fifth grade students. 100K of all utterances have been transcribed thus far. The corpus is freely available (https://myst.cemantix.org) for non-commercial use using a creative commons license. It is also available for commercial use (https://boulderlearning.com/resources/myst-corpus/). To date, ten organizations have licensed the corpus for commercial use, and approximately 40 university and other not-for-profit research groups have downloaded the corpus. It is our hope that the corpus can be used to improve automatic speech recognition algorithms, build and evaluate conversational AI agents for education, and together help accelerate development of multimodal applications to improve children's excitement and learning about science, and help them learn remotely. | 翻訳日:2023-09-26 20:33:23 公開日:2023-09-23 |
# BAMBOO:大規模言語モデルの長文モデリング能力評価のための総合ベンチマーク BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models ( http://arxiv.org/abs/2309.13345v1 ) ライセンス: Link先を確認 | Zican Dong, Tianyi Tang, Junyi Li, Wayne Xin Zhao, Ji-Rong Wen | (参考訳) 大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
近年,LLMの文脈長の延長と長文モデリング機能の向上に,複数の研究が取り組んでいる。
LLMの長期コンテキスト能力を総合的に評価するために,マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
BAMBOOは、包括的なキャパシティ評価、データ汚染の回避、正確な自動評価、異なる長さレベルという4つの原則で設計されている。
質問応答、幻覚検出、テキストソート、言語モデリング、コード補完の5つの異なる長文理解タスクから10のデータセットで構成され、中核容量とLLMの様々な領域をカバーする。
BAMBOO上で5つの長期文脈モデルを用いて実験を行い、さらに長文の4つの重要な研究課題について考察する。
また,現在の長文モデルを分析し,長文モデリング能力を向上させるための今後の方向性を指摘する。
データ、プロンプト、コードをhttps://github.com/rucaibox/bambooでリリースします。 Large language models (LLMs) have achieved dramatic proficiency over NLP tasks with normal length. Recently, multiple studies have committed to extending the context length and enhancing the long text modeling capabilities of LLMs. To comprehensively evaluate the long context ability of LLMs, we propose BAMBOO, a multi-task long context benchmark. BAMBOO has been designed with four principles: comprehensive capacity evaluation, avoidance of data contamination, accurate automatic evaluation, and different length levels. It consists of 10 datasets from 5 different long text understanding tasks, i.e. question answering, hallucination detection, text sorting, language modeling, and code completion, to cover core capacities and various domains of LLMs. We conduct experiments with five long context models on BAMBOO and further discuss four key research questions of long text. We also qualitatively analyze current long context models and point out future directions for enhancing long text modeling capacities. We release our data, prompts, and code at https://github.com/RUCAIBox/BAMBOO. | 翻訳日:2023-09-26 20:33:03 公開日:2023-09-23 |
# llms は偽の説明モジュールである: chatgpt はブラックボックスのテキスト分類器を説明できるか? LLMs as Counterfactual Explanation Modules: Can ChatGPT Explain Black-box Text Classifiers? ( http://arxiv.org/abs/2309.13340v1 ) ライセンス: Link先を確認 | Amrita Bhattacharjee, Raha Moraffah, Joshua Garland, Huan Liu | (参考訳) 大規模言語モデル(LLM)は、データラベリングや情報抽出といった複雑なタスクを含む、テキスト生成以外のタスクにますます使われています。
近年,LLMの能力を十分に理解するための研究が盛んに進んでいる中で,本研究では,ブラックボックステキスト分類器の判断を解説するために,LCMを非現実的説明モジュールとしての役割について検討する。
因果的思考に着想を得て,LLMを用いたポストホック・モデル非依存の対実的説明を原理的に生成するパイプラインを提案する。
(i)潜在特徴を識別・抽出するためにllmのテキスト理解機能を活用すること、
2) 抽出した潜伏特徴から得られる入力特徴を摂動することで, 同一LLMの摂動・生成能力を利用して, 対実的説明を生成する。
筆者らはChatGPTやLLaMA 2など,最先端のLLMのスイート上で,多種多様な特異性を持つフレームワークの3つの変種を評価する。
種々のテキスト分類ベンチマークを用いて、生成した偽物説明の有効性と品質を評価する。
その結果,2段階の特徴抽出に基づく変種は,ほとんどの場合,他のモデルよりも優れていることがわかった。
私たちのパイプラインは、自動化された説明システムで使用できます。 Large language models (LLMs) are increasingly being used for tasks beyond text generation, including complex tasks such as data labeling, information extraction, etc. With the recent surge in research efforts to comprehend the full extent of LLM capabilities, in this work, we investigate the role of LLMs as counterfactual explanation modules, to explain decisions of black-box text classifiers. Inspired by causal thinking, we propose a pipeline for using LLMs to generate post-hoc, model-agnostic counterfactual explanations in a principled way via (i) leveraging the textual understanding capabilities of the LLM to identify and extract latent features, and (ii) leveraging the perturbation and generation capabilities of the same LLM to generate a counterfactual explanation by perturbing input features derived from the extracted latent features. We evaluate three variants of our framework, with varying degrees of specificity, on a suite of state-of-the-art LLMs, including ChatGPT and LLaMA 2. We evaluate the effectiveness and quality of the generated counterfactual explanations, over a variety of text classification benchmarks. Our results show varied performance of these models in different settings, with a full two-step feature extraction based variant outperforming others in most cases. Our pipeline can be used in automated explanation systems, potentially reducing human effort. | 翻訳日:2023-09-26 20:32:47 公開日:2023-09-23 |
# 論理による大規模言語モデルにおけるゼロショット・チェーン・オブ・サート推論の強化 Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic ( http://arxiv.org/abs/2309.13339v1 ) ライセンス: Link先を確認 | Xufeng Zhao, Mengdi Li, Wenhao Lu, Cornelius Weber, Jae Hee Lee, Kun Chu, Stefan Wermter | (参考訳) 大規模言語モデルの最近の進歩は、様々な領域で顕著な一般化性を示している。
しかし、その推論能力は、特にマルチステップ推論を必要とするシナリオに直面した場合でも、まだ改善の余地がある。
大きな言語モデルは広い知識を持っているが、その行動、特に推論の観点からは、この知識を効果的に活用して一貫性のある思考パラダイムを確立するのに失敗することが多い。
生成言語モデルは、その推論手順が論理原理によって制約されないため、幻覚を示すことがある。
大規模言語モデルのゼロショット連鎖推論能力の向上を目的として,記号論理の原理を応用して推論プロセスの検証と修正を行う,論理的連鎖論理(LogiCoT)を提案する。
算術,コモンセンス,記号,因果推論,社会問題など多種多様な領域における言語課題に対する実験的評価は,論理による拡張推論パラダイムの有効性を示す。 Recent advancements in large language models have showcased their remarkable generalizability across various domains. However, their reasoning abilities still have significant room for improvement, especially when confronted with scenarios requiring multi-step reasoning. Although large language models possess extensive knowledge, their behavior, particularly in terms of reasoning, often fails to effectively utilize this knowledge to establish a coherent thinking paradigm. Generative language models sometimes show hallucinations as their reasoning procedures are unconstrained by logical principles. Aiming to improve the zero-shot chain-of-thought reasoning ability of large language models, we propose Logical Chain-of-Thought (LogiCoT), a neurosymbolic framework that leverages principles from symbolic logic to verify and revise the reasoning processes accordingly. Experimental evaluations conducted on language tasks in diverse domains, including arithmetic, commonsense, symbolic, causal inference, and social problems, demonstrate the efficacy of the enhanced reasoning paradigm by logic. | 翻訳日:2023-09-26 20:32:22 公開日:2023-09-23 |
# 停電下におけるカーネルリッジ回帰の漸近学習曲線について On the Asymptotic Learning Curves of Kernel Ridge Regression under Power-law Decay ( http://arxiv.org/abs/2309.13337v1 ) ライセンス: Link先を確認 | Yicheng Li, Haobo Zhang, Qian Lin | (参考訳) ニューラルネットワーク文学において広く見られる「良性過剰適合現象」は、統計学習理論における「バイアス分散トレードオフ」理論への挑戦を引き起こす。
ニューラル・タンジェント・カーネル・レグレッション (neural tangent kernel regression) の一般化能力は, ニューラル・タンジェント・カーネル・レグレッション (neural tangent kernel regression) の一般化によりよく近似できるため, カーネルリッジ・レグレッション (kernel ridge regression) の過剰リスク(学習曲線) の曲線が近年注目されている。
しかし、学習曲線に関する最近の議論はヒューリスティックであり、「ガウス設計」の仮定に基づいている。
本稿では, より穏やかで現実的な仮定の下で, 正規化パラメータ, ソース条件, ノイズの選択に対する効果と相互作用について, 学習曲線の完全な特徴付けを行う。
特に,ノイズレベルが小さい場合のみ,非常に広いニューラルネットワークに「良性過剰フィッティング現象」が存在することが示唆された。 The widely observed 'benign overfitting phenomenon' in the neural network literature raises the challenge to the 'bias-variance trade-off' doctrine in the statistical learning theory. Since the generalization ability of the 'lazy trained' over-parametrized neural network can be well approximated by that of the neural tangent kernel regression, the curve of the excess risk (namely, the learning curve) of kernel ridge regression attracts increasing attention recently. However, most recent arguments on the learning curve are heuristic and are based on the 'Gaussian design' assumption. In this paper, under mild and more realistic assumptions, we rigorously provide a full characterization of the learning curve: elaborating the effect and the interplay of the choice of the regularization parameter, the source condition and the noise. In particular, our results suggest that the 'benign overfitting phenomenon' exists in very wide neural networks only when the noise level is small. | 翻訳日:2023-09-26 20:32:04 公開日:2023-09-23 |
# FedDrive v2: 自動運転のためのフェデレーションセマンティックセグメンテーションにおけるラベルスキューネスの影響の分析 FedDrive v2: an Analysis of the Impact of Label Skewness in Federated Semantic Segmentation for Autonomous Driving ( http://arxiv.org/abs/2309.13336v1 ) ライセンス: Link先を確認 | Eros Fan\`i, Marco Ciccone and Barbara Caputo | (参考訳) 我々は,自動運転におけるセマンティックセグメンテーションのためのフェデレーション学習ベンチマークであるFedDrive v2を提案する。
最初のバージョンは、クライアント間での視覚的特徴のドメインシフトの効果を研究することを目的としているが、本研究では、ラベルの分布歪に焦点を当てる。
そこで本研究では,ラベルスキューネスがセグメンテーションモデルの性能に与える影響を検証し,ドメインシフトの効果と比較する6つの新しいフェデレーションシナリオを提案する。
最後に、テスト中のドメイン情報の利用の影響について検討する。 We propose FedDrive v2, an extension of the Federated Learning benchmark for Semantic Segmentation in Autonomous Driving. While the first version aims at studying the effect of domain shift of the visual features across clients, in this work, we focus on the distribution skewness of the labels. We propose six new federated scenarios to investigate how label skewness affects the performance of segmentation models and compare it with the effect of domain shift. Finally, we study the impact of using the domain information during testing. | 翻訳日:2023-09-26 20:31:44 公開日:2023-09-23 |
# 拡散の独立射影:変分推論のための勾配流れと最適平均場近似 Independent projections of diffusions: Gradient flows for variational inference and optimal mean field approximations ( http://arxiv.org/abs/2309.13332v1 ) ライセンス: Link先を確認 | Daniel Lacker | (参考訳) 座標が独立な高次元拡散過程を近似する最適な方法は何ですか。
本稿では,2つの自然条件に最適な構造である \emph{independent projection} を提案する。
第一に、元の拡散が不変測度 $\rho_*$ で可逆であるとき、独立射影は、積測度の空間に制約された相対エントロピー $h(\cdot\,|\,\rho_*)$ のワッサーシュタイン勾配フローとして機能する。
これは、平均場変動推定に関する統計文献で提案されている最近のランゲヴィンに基づくサンプリングスキームに関連している。
さらに、独立射影の長期収束に関する定性的および定量的な結果と、対数的ソボレフ不等式の新しい変種によって導かれる対数凹の場合の定量的結果の両方を提供する。
第二に、独立な座標を持つ全てのプロセスの中で、独立射影は、元の拡散に対する経路空間エントロピーの最も遅い成長速度を示す。
これは、古典的マクキーン・ヴラソフ方程式と、独立射影の特別な場合と見なすことができる非交換可能系に対して提案された最近の変種に新しい光を当てる。 What is the optimal way to approximate a high-dimensional diffusion process by one in which the coordinates are independent? This paper presents a construction, called the \emph{independent projection}, which is optimal for two natural criteria. First, when the original diffusion is reversible with invariant measure $\rho_*$, the independent projection serves as the Wasserstein gradient flow for the relative entropy $H(\cdot\,|\,\rho_*)$ constrained to the space of product measures. This is related to recent Langevin-based sampling schemes proposed in the statistical literature on mean field variational inference. In addition, we provide both qualitative and quantitative results on the long-time convergence of the independent projection, with quantitative results in the log-concave case derived via a new variant of the logarithmic Sobolev inequality. Second, among all processes with independent coordinates, the independent projection is shown to exhibit the slowest growth rate of path-space entropy relative to the original diffusion. This sheds new light on the classical McKean-Vlasov equation and recent variants proposed for non-exchangeable systems, which can be viewed as special cases of the independent projection. | 翻訳日:2023-09-26 20:31:35 公開日:2023-09-23 |
# 機械学習と深層学習による大都市の気温予測 Predicting Temperature of Major Cities Using Machine Learning and Deep Learning ( http://arxiv.org/abs/2309.13330v1 ) ライセンス: Link先を確認 | Wasiou Jaharabi, MD Ibrahim Al Hossain, Rownak Tahmid, Md. Zuhayer Islam, T.M. Saad Rayhan | (参考訳) 現在、世界のリーダーを最も悩ませている問題は、農業、環境、日常生活の経済に影響を及ぼす気候変動である。
そのため、これに対処するためには、強い精度で温度予測が不可欠である。
これまでのところ、このような予測に最も有効な指標は数値天気予報(NWP)であり、これは予測を行うために異なるアプリケーションから幅広いデータを必要とする数学的モデルである。
この高価で時間と労力のかかる作業は、機械学習アルゴリズムを使って予測を行うことで最小化できる。
主要都市における気温変化を表わすデイトン大学のデータベースを用いて時系列解析を行い,既存のデータを将来予測ツールに変換する目的でlstmを用いた。
LSTMは、発生した可能性のある短期的な例外や異常と同様に、長期的なデータを取り、データの傾向、季節性、定常性を計算する。
ARIMA、SARIMA、Prophetといったモデルを使って、RNNやLSTMの概念を使って、あらゆる異常をフィルタリングし、データを以前のトレンドと比較し、将来のトレンドを予測することができます。
また、季節性や定常性は、再帰や1年以上の変動を解析し、データに依存する時間の制約を取り除き、予測される一般的な変化を見るのに役立ちます。
これにより、利用可能なデータに基づいて、将来いつでも異なる都市の温度を予測することができ、正確な予測方法を構築しました。
この文書には、このような予測を行うための方法論が含まれています。 Currently, the issue that concerns the world leaders most is climate change for its effect on agriculture, environment and economies of daily life. So, to combat this, temperature prediction with strong accuracy is vital. So far, the most effective widely used measure for such forecasting is Numerical weather prediction (NWP) which is a mathematical model that needs broad data from different applications to make predictions. This expensive, time and labor consuming work can be minimized through making such predictions using Machine learning algorithms. Using the database made by University of Dayton which consists the change of temperature in major cities we used the Time Series Analysis method where we use LSTM for the purpose of turning existing data into a tool for future prediction. LSTM takes the long-term data as well as any short-term exceptions or anomalies that may have occurred and calculates trend, seasonality and the stationarity of a data. By using models such as ARIMA, SARIMA, Prophet with the concept of RNN and LSTM we can, filter out any abnormalities, preprocess the data compare it with previous trends and make a prediction of future trends. Also, seasonality and stationarity help us analyze the reoccurrence or repeat over one year variable and removes the constrain of time in which the data was dependent so see the general changes that are predicted. By doing so we managed to make prediction of the temperature of different cities during any time in future based on available data and built a method of accurate prediction. This document contains our methodology for being able to make such predictions. | 翻訳日:2023-09-26 20:30:57 公開日:2023-09-23 |
# ナノワイヤ量子ドットを用いた通信用cバンドのオンデマンド単一光子放出 On-demand single photon emission in the telecom C-band from nanowire-based quantum dots ( http://arxiv.org/abs/2309.13381v1 ) ライセンス: Link先を確認 | Andrew N. Wakileh, Lingxi Yu, Do\u{g}a Dokuz, Sofiane Haffouz, Xiaohua Wu, Jean Lapointe, David B. Northeast, Robin L. Williams, Nir Rotenberg, Philip J. Poole, Dan Dalacu | (参考訳) ファイバーベースの量子セキュア通信技術では、通信波長でオンデマンドで動作する単一光子源が必要である。
本研究では、位置制御されたナノワイヤ量子ドットからの単一光子放出を {\lambda} > 1530 nm で実証する。
上記のバンドパルス励起を用いて、g(2)(0) = 0.062の光子純度を得る。
これらの結果は、通信用cバンドの高効率・高速単一光子エミッタをスケーラブルに製造するための重要なステップである。 Single photon sources operating on-demand at telecom wavelengths are required in fiber-based quantum secure communication technologies. In this work we demonstrate single photon emission from position-controlled nanowire quantum dots emitting at {\lambda} > 1530 nm. Using above-band pulsed excitation, we obtain single photon purities of g(2)(0) = 0.062. These results represent an important step towards the scalable manufacture of high efficiency, high rate single photon emitters in the telecom C-band. | 翻訳日:2023-09-26 20:24:29 公開日:2023-09-23 |
# 時空間グラフ予測の解読 : 因果レンズと治療 Deciphering Spatio-Temporal Graph Forecasting: A Causal Lens and Treatment ( http://arxiv.org/abs/2309.13378v1 ) ライセンス: Link先を確認 | Yutong Xia, Yuxuan Liang, Haomin Wen, Xu Liu, Kun Wang, Zhengyang Zhou, Roger Zimmermann | (参考訳) 時空間グラフ(stg)予測は多くの実世界のアプリケーションにおいて基本的なタスクである。
時空間グラフニューラルネットワークはSTG予測の最も一般的な手法であるが、時間外分布(OoD)問題や動的空間因果関係に悩まされることが多い。
本稿では,この2つの課題を因果治療によって解決する,CaSTと呼ばれる新しいフレームワークを提案する。
具体的には,まず因果レンズを用いて,stgのデータ生成過程を解読する構造的因果モデルを構築した。
時間的ood問題に対処するために,新しい異方性ブロックによるバックドア調整を採用し,入力データから不変部分と時間環境を分離する。
さらに,前ドア調整を行い,エッジレベルの畳み込みにhodge-laplacian演算子を適用し,因果関係の波及効果をモデル化した。
実世界の3つのデータセットに対する実験の結果は、キャスタットの有効性と実用性を示している。 Spatio-Temporal Graph (STG) forecasting is a fundamental task in many real-world applications. Spatio-Temporal Graph Neural Networks have emerged as the most popular method for STG forecasting, but they often struggle with temporal out-of-distribution (OoD) issues and dynamic spatial causation. In this paper, we propose a novel framework called CaST to tackle these two challenges via causal treatments. Concretely, leveraging a causal lens, we first build a structural causal model to decipher the data generation process of STGs. To handle the temporal OoD issue, we employ the back-door adjustment by a novel disentanglement block to separate invariant parts and temporal environments from input data. Moreover, we utilize the front-door adjustment and adopt the Hodge-Laplacian operator for edge-level convolution to model the ripple effect of causation. Experiments results on three real-world datasets demonstrate the effectiveness and practicality of CaST, which consistently outperforms existing methods with good interpretability. | 翻訳日:2023-09-26 20:24:13 公開日:2023-09-23 |
# 非パラメトリックなNadaraya-Watsonヘッドによる不変表現の学習 Learning Invariant Representations with a Nonparametric Nadaraya-Watson Head ( http://arxiv.org/abs/2309.13377v1 ) ライセンス: Link先を確認 | Alan Q. Wang, Minh Nguyen, Mert R. Sabuncu | (参考訳) 機械学習モデルは、トレーニングディストリビューションとは異なるデータ分散を備えた環境にデプロイされると、しばしば失敗する。
トレーニング中に複数の環境が利用できる場合、異なるディストリビューション間で不変な表現を学習する多くの方法が存在し、これらの表現が目に見えないドメインに転送できることを期待している。
本研究では,最近発表されたnadaraya-watson (nw) ヘッドに基づく不変表現を学習するための非パラメトリック戦略を提案する。
NWヘッドは、学習したクエリの表現とラベル付きデータからなるサポートセットの要素を比較することで予測を行う。
サポートセットを操作することで、異なる因果仮定をエンコードできることを実証する。
特に、サポートセットをひとつの環境に制限することは、環境に依存しない不変の機能を学ぶことをモデルに促す。
我々は、モデリングとトレーニング戦略の因果的動機づけによる設定を示し、コンピュータビジョンにおける3つの挑戦的な実世界のドメイン一般化タスクを検証する。 Machine learning models will often fail when deployed in an environment with a data distribution that is different than the training distribution. When multiple environments are available during training, many methods exist that learn representations which are invariant across the different distributions, with the hope that these representations will be transportable to unseen domains. In this work, we present a nonparametric strategy for learning invariant representations based on the recently-proposed Nadaraya-Watson (NW) head. The NW head makes a prediction by comparing the learned representations of the query to the elements of a support set that consists of labeled data. We demonstrate that by manipulating the support set, one can encode different causal assumptions. In particular, restricting the support set to a single environment encourages the model to learn invariant features that do not depend on the environment. We present a causally-motivated setup for our modeling and training strategy and validate on three challenging real-world domain generalization tasks in computer vision. | 翻訳日:2023-09-26 20:23:56 公開日:2023-09-23 |
# Asca: オーディオデータの少ない方が洞察力が高い Asca: less audio data is more insightful ( http://arxiv.org/abs/2309.13373v1 ) ライセンス: Link先を確認 | Xiang Li, Junhao Chen, Chao Li, Hongwu Lv | (参考訳) 鳥の鳴き声や潜水艦の音響などの特殊分野における音声認識は、サンプリング環境と特異性要件によって課されるサンプルの制限により、大規模な事前訓練の課題に直面している。
Transformerモデルは音声認識において優れているが、リソース制限設定では大量のデータへの依存が制限される。
そこで我々は,CoAtNetに基づくASCA(Audio Spectrogram Convolution Attention)を導入し,トランスフォーマー-畳み込みハイブリッドアーキテクチャ,新しいネットワーク設計,アテンション技術を統合し,さらにデータ拡張と正規化戦略を付加した。
birdclef2023とaudioset(balanced)では、ascaはそれぞれ81.2%と35.1%の精度で競合手法を上回った。
モデル固有の構造は出力を豊かにし、様々な音声検出タスクの一般化を可能にする。
私たちのコードはhttps://github.com/LeeCiang/ASCA.orgで参照できます。 Audio recognition in specialized areas such as birdsong and submarine acoustics faces challenges in large-scale pre-training due to the limitations in available samples imposed by sampling environments and specificity requirements. While the Transformer model excels in audio recognition, its dependence on vast amounts of data becomes restrictive in resource-limited settings. Addressing this, we introduce the Audio Spectrogram Convolution Attention (ASCA) based on CoAtNet, integrating a Transformer-convolution hybrid architecture, novel network design, and attention techniques, further augmented with data enhancement and regularization strategies. On the BirdCLEF2023 and AudioSet(Balanced), ASCA achieved accuracies of 81.2% and 35.1%, respectively, significantly outperforming competing methods. The unique structure of our model enriches output, enabling generalization across various audio detection tasks. Our code can be found at https://github.com/LeeCiang/ASCA. | 翻訳日:2023-09-26 20:23:40 公開日:2023-09-23 |
# IBMDPにおける決定木ポリシー学習のためのアクタクリティカルアルゴリズムの限界 Limits of Actor-Critic Algorithms for Decision Tree Policies Learning in IBMDPs ( http://arxiv.org/abs/2309.13365v1 ) ライセンス: Link先を確認 | Hecotr Kohler, Riad Akrour, Philippe Preux | (参考訳) AIモデルの解釈可能性により、ユーザーの安全チェックがそのようなAIの信頼を構築することができる。
特に、意思決定木(dts)は、学習したモデルをグローバルに観察し、どの入力の特徴が決定に不可欠か透過的に明らかにします。
しかし、DTが大きすぎると解釈が妨げられる。
小型木を学習するために,近年の強化学習(Reinforcement Learning, RL)フレームワークが提案され, 深いRLを用いてDTの空間を探索する。
このフレームワークは、決定問題(例えば教師付き分類タスク)を、隠された入力の特徴に関する情報を収集する追加のアクションで強化する。
これらの行動を適切にペナルティ化することにより、エージェントはdtsのトレードオフサイズと性能を最適に学習する。
実際には、部分的に観測可能なマルコフ決定プロセス(MDP)のための反応性ポリシーを学ぶ必要があるが、これはまだ未解決の問題である。
本稿では,本クラスにおける単純な玩具作業においても,深部RLは失敗する可能性があることを示す。
しかし, 基本決定問題が教師付き分類課題である場合, 最適木を求めることは, 完全に観察可能なマルコフ決定問題としてキャスティングでき, 効率的に解くことができることを示す。 Interpretability of AI models allows for user safety checks to build trust in such AIs. In particular, Decision Trees (DTs) provide a global look at the learned model and transparently reveal which features of the input are critical for making a decision. However, interpretability is hindered if the DT is too large. To learn compact trees, a recent Reinforcement Learning (RL) framework has been proposed to explore the space of DTs using deep RL. This framework augments a decision problem (e.g. a supervised classification task) with additional actions that gather information about the features of an otherwise hidden input. By appropriately penalizing these actions, the agent learns to optimally trade-off size and performance of DTs. In practice, a reactive policy for a partially observable Markov decision process (MDP) needs to be learned, which is still an open problem. We show in this paper that deep RL can fail even on simple toy tasks of this class. However, when the underlying decision problem is a supervised classification task, we show that finding the optimal tree can be cast as a fully observable Markov decision problem and be solved efficiently, giving rise to a new family of algorithms for learning DTs that go beyond the classical greedy maximization ones. | 翻訳日:2023-09-26 20:23:22 公開日:2023-09-23 |
# MLPST: MLPは時空間予測に必要なもの MLPST: MLP is All You Need for Spatio-Temporal Prediction ( http://arxiv.org/abs/2309.13363v1 ) ライセンス: Link先を確認 | Zijian Zhang, Ze Huang, Zhiwei Hu, Xiangyu Zhao, Wanyu Wang, Zitao Liu, Junbo Zhang, S. Joe Qin and Hongwei Zhao | (参考訳) 交通予測は時空間データマイニングの典型的なタスクであり、公共交通システムにとって非常に重要である。
大規模アプリケーションへの需要を考慮すると、理想的な時空間予測手法の鍵となる要素は、効率的、軽量、効果的である。
しかし、現在の深層モデルに基づく時空間予測ソリューションは、概して複雑なアーキテクチャと面倒な最適化を持っているため、これらの期待を満たせない。
上記の目的を達成するために,直観的で斬新なフレームワークであるmlpstを提案し,トラフィック予測のための純粋多層パーセプトロンアーキテクチャを提案する。
具体的には,まず局所的および大域的受容的分野から空間的関係を捉えた。
そして、異なる間隔の時間依存を包括的に考える。
MLPSTは、コンパクトで高速なMLP処理により、線形計算の複雑さだけを必要としながら、空間的および時間的依存関係をうまくキャプチャし、ベースラインよりも1桁低いモデルパラメータも必要とします。
大規模実験により, 高度ベースラインに対するMLPSTの有効性と効率性が検証され, 最適精度のモデルでは, MLPSTが最適時間と空間効率を達成する。 Traffic prediction is a typical spatio-temporal data mining task and has great significance to the public transportation system. Considering the demand for its grand application, we recognize key factors for an ideal spatio-temporal prediction method: efficient, lightweight, and effective. However, the current deep model-based spatio-temporal prediction solutions generally own intricate architectures with cumbersome optimization, which can hardly meet these expectations. To accomplish the above goals, we propose an intuitive and novel framework, MLPST, a pure multi-layer perceptron architecture for traffic prediction. Specifically, we first capture spatial relationships from both local and global receptive fields. Then, temporal dependencies in different intervals are comprehensively considered. Through compact and swift MLP processing, MLPST can well capture the spatial and temporal dependencies while requiring only linear computational complexity, as well as model parameters that are more than an order of magnitude lower than baselines. Extensive experiments validated the superior effectiveness and efficiency of MLPST against advanced baselines, and among models with optimal accuracy, MLPST achieves the best time and space efficiency. | 翻訳日:2023-09-26 20:22:59 公開日:2023-09-23 |
# カオスストレンジトラクターを用いた機械学習 Machine Learning with Chaotic Strange Attractors ( http://arxiv.org/abs/2309.13361v1 ) ライセンス: Link先を確認 | Bahad{\i}r Utku Kesgin and U\u{g}ur Te\u{g}in | (参考訳) 機械学習の研究は、巨大なデータセットを処理し、ニューラルネットワークを訓練して高い精度に到達するために余剰の力を必要としている。
フォン・ノイマンのボトルネックによって制限された現在のコンピューティングアーキテクチャと方法は、この高消費電力を生かす。
本稿では,カオス非線形アトラクタを用いて低消費電力の機械学習タスクを行うアナログ計算手法を提案する。
ニューロモルフィックコンピューティングにインスパイアされた我々のモデルは、機械学習タスクのためのプログラム可能で汎用的で一般化されたプラットフォームである。
このモードは,カオスアトラクションの非線形マッピングと初期条件に対する感度を利用して,クラスタリングにおける例外的な性能を提供する。
単純なアナログデバイスとしてデプロイする場合は、現在の機械学習技術と同等ながら、ミリワット規模の電力レベルしか必要としない。
回帰学習と分類学習のモデルを用いて,低誤差と高い精度を示す。 Machine learning studies need colossal power to process massive datasets and train neural networks to reach high accuracies, which have become gradually unsustainable. Limited by the von Neumann bottleneck, current computing architectures and methods fuel this high power consumption. Here, we present an analog computing method that harnesses chaotic nonlinear attractors to perform machine learning tasks with low power consumption. Inspired by neuromorphic computing, our model is a programmable, versatile, and generalized platform for machine learning tasks. Our mode provides exceptional performance in clustering by utilizing chaotic attractors' nonlinear mapping and sensitivity to initial conditions. When deployed as a simple analog device, it only requires milliwatt-scale power levels while being on par with current machine learning techniques. We demonstrate low errors and high accuracies with our model for regression and classification-based learning tasks. | 翻訳日:2023-09-26 20:22:39 公開日:2023-09-23 |
# 問題テストの定義による大規模言語モデルの認知的モラル開発 Exploring Large Language Models' Cognitive Moral Development through Defining Issues Test ( http://arxiv.org/abs/2309.13356v1 ) ライセンス: Link先を確認 | Kumar Tanmay, Aditi Khandelwal, Utkarsh Agarwal, Monojit Choudhury | (参考訳) 大規模言語モデルの開発は、その固有の推論と問題解決能力を理解するために研究者の間で広く関心を集めている。
これらの能力を解明するために多くの研究が続けられているが、これらのモデルの道徳的発展と判断を理解するには相応のギャップがある。
これらのモデルの倫理的推論能力を分類タスクとして評価する現在のアプローチは、過度に単純化されたため、多くの不正確さをもたらす。
本研究では,人間心理学とaiの2つの異なる分野を橋渡しすることで,心理的なつながりを構築した。
本研究では,モラル一貫性の観点からモデルの倫理的推論能力とコールバーグのモラル発達段階を,心理計測ツール定義問題テスト(psychometric assessment tool-defining issues test)の助けを借りて一線を画すための効果的な評価フレームワークを提案する。 The development of large language models has instilled widespread interest among the researchers to understand their inherent reasoning and problem-solving capabilities. Despite good amount of research going on to elucidate these capabilities, there is a still an appreciable gap in understanding moral development and judgments of these models. The current approaches of evaluating the ethical reasoning abilities of these models as a classification task pose numerous inaccuracies because of over-simplification. In this study, we built a psychological connection by bridging two disparate fields-human psychology and AI. We proposed an effective evaluation framework which can help to delineate the model's ethical reasoning ability in terms of moral consistency and Kohlberg's moral development stages with the help of Psychometric Assessment Tool-Defining Issues Test. | 翻訳日:2023-09-26 20:22:26 公開日:2023-09-23 |
# lexical squad@multimodal hate speech event detection 2023: fused ensembleによるマルチモーダルヘイトスピーチ検出 Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal Hate Speech Detection using Fused Ensemble Approach ( http://arxiv.org/abs/2309.13354v1 ) ライセンス: Link先を確認 | Mohammad Kashif, Mohammad Zohair, Saquib Ali | (参考訳) ソーシャルメディアの投稿が意見や感情、イデオロギーを表現するために使われるようになったことで、ソーシャルメディアのキャリブレーションは、世界各国の視点や展望を伝える急速なメディアとして大きく変化してきた。
同時に、2つの組織間の多数の対立が出現し、プロパガンダ、ヘイトスピーチ、不合理な見解を含むソーシャルメディアコンテンツの流れが生まれている。
このように、ソーシャルメディアの投稿を監視する問題は急速に増加しており、こうした問題を解決する意思のある人々から大きな注目を集めている。
そのような問題の1つはヘイトスピーチ検出である。
そこで本研究では,テキスト埋め込み画像から「ヘイトスピーチ」と「ヘイトスピーチなし」の2つのラベルに分類し,ヘイトスピーチ検出のための新しいアンサンブル学習手法を提案する。
InceptionV3、BERT、XLNetといった最先端モデルを導入しました。
提案するアンサンブルモデルは75.21,74.96の精度とf-1スコアで有望な結果を得た。
また,テキスト埋め込み画像の実験的評価を行い,モデルの予測と分類の精度について検討した。
コードベースはここでリリースしています(https://github.com/M0hammad-Kashif/MultiModalHateSpeech)。 With a surge in the usage of social media postings to express opinions, emotions, and ideologies, there has been a significant shift towards the calibration of social media as a rapid medium of conveying viewpoints and outlooks over the globe. Concurrently, the emergence of a multitude of conflicts between two entities has given rise to a stream of social media content containing propaganda, hate speech, and inconsiderate views. Thus, the issue of monitoring social media postings is rising swiftly, attracting major attention from those willing to solve such problems. One such problem is Hate Speech detection. To mitigate this problem, we present our novel ensemble learning approach for detecting hate speech, by classifying text-embedded images into two labels, namely "Hate Speech" and "No Hate Speech". We have incorporated state-of-art models including InceptionV3, BERT, and XLNet. Our proposed ensemble model yielded promising results with 75.21 and 74.96 as accuracy and F-1 score (respectively). We also present an empirical evaluation of the text-embedded images to elaborate on how well the model was able to predict and classify. We release our codebase here (https://github.com/M0hammad-Kashif/MultiModalHateSpeech). | 翻訳日:2023-09-26 20:22:10 公開日:2023-09-23 |
# Beyond Grids: ビジョントランスフォーマーのためのElastic Input Smplingの探索 Beyond Grids: Exploring Elastic Input Sampling for Vision Transformers ( http://arxiv.org/abs/2309.13353v1 ) ライセンス: Link先を確認 | Adam Pardyl, Grzegorz Kurzejamski, Jan Olszewski, Tomasz Trzci\'nski, Bartosz Zieli\'nski | (参考訳) ビジョントランスフォーマーは様々なコンピュータビジョンタスクに優れているが、ほとんどは固定サイズのパッチグリッドを使用して厳格な入力サンプリングに依存している。
これにより、ロボット工学やUAVといった実世界の問題に適用性が制限され、より高い入力弾性を利用してモデルの性能と効率を向上させることができる。
本稿では、視覚トランスフォーマーの入力弾性の概念を定式化し、入力弾性を測定するための専用のメトリクスを含む評価プロトコルを導入することで、この制限に対処する。
さらに, トランスアーキテクチャやトレーニング体制の変更も提案し, 弾力性の向上を図っている。
広範な実験を通じて,入力サンプリング戦略に関連する機会と課題に注目する。 Vision transformers have excelled in various computer vision tasks but mostly rely on rigid input sampling using a fixed-size grid of patches. This limits their applicability in real-world problems, such as in the field of robotics and UAVs, where one can utilize higher input elasticity to boost model performance and efficiency. Our paper addresses this limitation by formalizing the concept of input elasticity for vision transformers and introducing an evaluation protocol, including dedicated metrics for measuring input elasticity. Moreover, we propose modifications to the transformer architecture and training regime, which increase its elasticity. Through extensive experimentation, we spotlight opportunities and challenges associated with input sampling strategies. | 翻訳日:2023-09-26 20:21:48 公開日:2023-09-23 |
# 当院における鼻咽喉頭癌手術におけるDual-Reference Source-Free Active Domain Adaptation Dual-Reference Source-Free Active Domain Adaptation for Nasopharyngeal Carcinoma Tumor Segmentation across Multiple Hospitals ( http://arxiv.org/abs/2309.13401v1 ) ライセンス: Link先を確認 | Hongqiu Wang, Jian Chen, Shichen Zhang, Yuan He, Jinfeng Xu, Mengwan Wu, Jinlan He, Wenjun Liao, Xiangde Luo | (参考訳) 鼻咽頭癌 (nasopharyngeal carcinoma, npc) は、主に頭頸部に発生する悪性腫瘍であり、臨床的に有意な悪性腫瘍である。
Gross tumor Volume (GTV) の精密脱線は, NPCの放射線治療において重要な役割を担っている。
近年,gtvセグメンテーションで有望な結果が得られたが,臨床において注意深い注釈付きデータや複数の病院からのアクセスが難しいデータが欠如している。
非教師なし領域適応(UDA)はこの問題を軽減するために提案されているが、分布を無条件にマッピングすることで基盤となる構造情報を歪曲し、性能が低下する。
この課題に対処するため、我々は、GTVセグメンテーションタスクのドメイン適応を容易にする新しいSourece-Free Active Domain Adaptation (SFADA) フレームワークを考案した。
具体的には、特定の対象ドメインからドメイン不変およびドメイン固有代表サンプルを選択して、ソースドメインデータに頼らずにアノテーションおよびモデルの微調整を行うデュアルリファレンス戦略を設計する。
このアプローチはデータのプライバシを保証するだけでなく、ターゲットドメインからいくつかの代表サンプルを注釈付けするだけで、ソースデータにアクセスする必要がなくなるため、オンコロジーの作業量を削減します。
5つの病院から1057人のNPC患者からなる大規模臨床データセットを収集し,そのアプローチを検証した。
実験結果から,本手法はuda法よりも優れており,若干のアノテーションを伴っても,完全な教師付き上界に匹敵する結果が得られ,その医療的有用性が強調された。
さらに、マルチセンターのNPCセグメンテーションに関する公開データセットはなく、将来の研究のためのコードとデータセットをリリースします。 Nasopharyngeal carcinoma (NPC) is a prevalent and clinically significant malignancy that predominantly impacts the head and neck area. Precise delineation of the Gross Tumor Volume (GTV) plays a pivotal role in ensuring effective radiotherapy for NPC. Despite recent methods that have achieved promising results on GTV segmentation, they are still limited by lacking carefully-annotated data and hard-to-access data from multiple hospitals in clinical practice. Although some unsupervised domain adaptation (UDA) has been proposed to alleviate this problem, unconditionally mapping the distribution distorts the underlying structural information, leading to inferior performance. To address this challenge, we devise a novel Sourece-Free Active Domain Adaptation (SFADA) framework to facilitate domain adaptation for the GTV segmentation task. Specifically, we design a dual reference strategy to select domain-invariant and domain-specific representative samples from a specific target domain for annotation and model fine-tuning without relying on source-domain data. Our approach not only ensures data privacy but also reduces the workload for oncologists as it just requires annotating a few representative samples from the target domain and does not need to access the source data. We collect a large-scale clinical dataset comprising 1057 NPC patients from five hospitals to validate our approach. Experimental results show that our method outperforms the UDA methods and achieves comparable results to the fully supervised upper bound, even with few annotations, highlighting the significant medical utility of our approach. In addition, there is no public dataset about multi-center NPC segmentation, we will release code and dataset for future research. | 翻訳日:2023-09-26 20:14:38 公開日:2023-09-23 |
# PET/CT病変分割のためのミラーUnetアーキテクチャ A mirror-Unet architecture for PET/CT lesion segmentation ( http://arxiv.org/abs/2309.13398v1 ) ライセンス: Link先を確認 | Yamila Rotstein Habarnau and Mauro Nam\'ias | (参考訳) FDG PET/CTスキャンは, 形状, サイズ, FDG の取り込み, 位置の多様性に加えて, 生理的摂取も健常な組織に存在しているため, 病変の自動検出とセグメンテーションは難しい課題である。
本研究では,2つのUNet-3Dブランチの組み合わせに基づいて,腫瘍病変の分類を目的とした深層学習手法を提案する。
まず、ネットワークのブランチの1つが、ct画像から組織のグループを分割するように訓練される。
もう一方の枝はPET画像から病変を分離するように訓練されており、すでに訓練済みのCT枝の埋め込み情報をボトルネックと組み合わせている。
私たちはAutoPET MICCAI 2023 Challengeデータセットでネットワークをトレーニングし、検証した。
私たちのコードは、https://github.com/yrotstein/AutoPET2023_Mv1.comで利用可能です。 Automatic lesion detection and segmentation from [${}^{18}$F]FDG PET/CT scans is a challenging task, due to the diversity of shapes, sizes, FDG uptake and location they may present, besides the fact that physiological uptake is also present on healthy tissues. In this work, we propose a deep learning method aimed at the segmentation of oncologic lesions, based on a combination of two UNet-3D branches. First, one of the network's branches is trained to segment a group of tissues from CT images. The other branch is trained to segment the lesions from PET images, combining on the bottleneck the embedded information of CT branch, already trained. We trained and validated our networks on the AutoPET MICCAI 2023 Challenge dataset. Our code is available at: https://github.com/yrotstein/AutoPET2023_Mv1. | 翻訳日:2023-09-26 20:14:07 公開日:2023-09-23 |
# EquiCity Game:空間構成の参加設計のための数学的真剣なゲーム EquiCity Game: A mathematical serious game for participatory design of spatial configurations ( http://arxiv.org/abs/2309.13396v1 ) ライセンス: Link先を確認 | Pirouz Nourian, Shervin Azadi, Nan Bai, Bruno de Andrade, Nour Abu Zaid, Samaneh Rezvani, and Ana Pereira Roders | (参考訳) 本研究では, 都市計画, 市街地再開発, 都市集合住宅の建築設計(大規模化)の意思決定過程を仲介する数学的社会選択ゲームを提案する。
提案するゲームは,選択肢の総合的影響を明らかにする自動評価・スカリング機構を備えたマルチプレイヤー生成型コンフィギュレータであり,空間設計における透過的かつ包括的な意思決定プロセスをサポートし,持続可能な開発目標の公平なバランスを確保するための参加型ディジタルプロセスを備えている。
そのため、このゲームは意思決定者のグループに対して、さまざまな種類の投資に対する関心やコントロールで、意思決定間の多くのトレードオフを数学的にシミュレートすることで、公正な合意に達する権限を効果的に付与する。
Our proposed gamified design process encompasses decision-making about the most idiosyncratic aspects of a site related to its heritage status and cultural significance to the physical aspects such as balancing access to sunlight and the right to sunlight of the neighbours of the site, ensuring coherence of the entire configuration with regards to a network of desired closeness ratings, the satisfaction of a programme of requirements, and intricately balancing individual development goals in conjunction with communal goals and environmental design codes.
NumPyのようなオープンな地理空間データとオープンソースの計算ツールを用いて、我々のデジタルツインニングプラットフォーム上の代数的計算プロセスに基づいて完全に開発されている。
数学的プロセスは、アクターの判断のバランスをとるマルコフ設計機械、ファジィ論理とマルチクリトリア決定解析を備えたマッサージ構成装置、代数グラフ理論アクセシビリティ評価器、地理空間的計算幾何学を用いた自動太陽気候評価器から構成される。 We propose mechanisms for a mathematical social-choice game that is designed to mediate decision-making processes for city planning, urban area redevelopment, and architectural design (massing) of urban housing complexes. The proposed game is effectively a multi-player generative configurator equipped with automated appraisal/scoring mechanisms for revealing the aggregate impact of alternatives; featuring a participatory digital process to support transparent and inclusive decision-making processes in spatial design for ensuring an equitable balance of sustainable development goals. As such, the game effectively empowers a group of decision-makers to reach a fair consensus by mathematically simulating many rounds of trade-offs between their decisions, with different levels of interest or control over various types of investments. Our proposed gamified design process encompasses decision-making about the most idiosyncratic aspects of a site related to its heritage status and cultural significance to the physical aspects such as balancing access to sunlight and the right to sunlight of the neighbours of the site, ensuring coherence of the entire configuration with regards to a network of desired closeness ratings, the satisfaction of a programme of requirements, and intricately balancing individual development goals in conjunction with communal goals and environmental design codes. The game is developed fully based on an algebraic computational process on our own digital twinning platform, using open geospatial data and open-source computational tools such as NumPy. The mathematical process consists of a Markovian design machine for balancing the decisions of actors, a massing configurator equipped with Fuzzy Logic and Multi-Criteria Decision Analysis, algebraic graph-theoretical accessibility evaluators, and automated solar-climatic evaluators using geospatial computational geometry. | 翻訳日:2023-09-26 20:13:50 公開日:2023-09-23 |
# リアルタイム・マルチデータ統合と広域公共配信のためのスマートシティ・デジタル・ツイン・フレームワーク Smart City Digital Twin Framework for Real-Time Multi-Data Integration and Wide Public Distribution ( http://arxiv.org/abs/2309.13394v1 ) ライセンス: Link先を確認 | Lorenzo Adreani, Pierfrancesco Bellini, Marco Fanfani, Paolo Nesi, Gianni Pantaleo | (参考訳) Digital Twinsは実際のエンティティのデジタルレプリカであり、エンティティの状態を監視し制御し、将来の進化を予測し、変化の影響を理解するための代替シナリオをシミュレートする基本的なツールになりつつある。
センサの大規模展開により、情報の増加により、構造データやリアルタイム情報を含む都市環境の正確な再現を構築することができる。
このような解決策は、市議会や意思決定者が都市開発における課題に直面し、実際の状況を分析し、シミュレーションを通じて事前に評価し、インフラや政治の混乱の結果を分析したり、人間や自然現象の影響を予測することで、生活の質を向上させるのに役立つ。
Snap4City Smart City Digital Twinフレームワークは、文献や国際フォーラムで特定された要件に対応することができる。
他のソリューションとは異なり、提案されたアーキテクチャは、snap4city iotプラットフォームが提供するデータ収集、インデックス化、コンピューティング、情報分散のための統合ソリューションを提供する。
3Dビルディングモデル、道路ネットワーク、IoTデバイス、WoTエンティティ、関心点、ルート、パスなどに加えて、交通密度の再構築、汚染物質分散、予測、What-if分析などのデータ分析プロセスの結果はすべて、都市決定プロセスに参加する市民を支援するために、アクセス可能なWebインターフェースに統合されている。
what-if分析は、ユーザがシミュレーションを行い、可能な結果を観察できるようにする。
研究では、フィレンツェ市(イタリア)のDigital Twinが紹介されている。
snap4cityプラットフォームはオープンソースとしてリリースされ、githubとdocker composeから入手できる。 Digital Twins are digital replica of real entities and are becoming fundamental tools to monitor and control the status of entities, predict their future evolutions, and simulate alternative scenarios to understand the impact of changes. Thanks to the large deployment of sensors, with the increasing information it is possible to build accurate reproductions of urban environments including structural data and real-time information. Such solutions help city councils and decision makers to face challenges in urban development and improve the citizen quality of life, by ana-lysing the actual conditions, evaluating in advance through simulations and what-if analysis the outcomes of infrastructural or political chang-es, or predicting the effects of humans and/or of natural events. Snap4City Smart City Digital Twin framework is capable to respond to the requirements identified in the literature and by the international forums. Differently from other solutions, the proposed architecture provides an integrated solution for data gathering, indexing, computing and information distribution offered by the Snap4City IoT platform, therefore realizing a continuously updated Digital Twin. 3D building models, road networks, IoT devices, WoT Entities, point of interests, routes, paths, etc., as well as results from data analytical processes for traffic density reconstruction, pollutant dispersion, predictions of any kind, what-if analysis, etc., are all integrated into an accessible web interface, to support the citizens participation in the city decision processes. What-If analysis to let the user performs simulations and observe possible outcomes. As case of study, the Digital Twin of the city of Florence (Italy) is presented. Snap4City platform, is released as open-source, and made available through GitHub and as docker compose. | 翻訳日:2023-09-26 20:13:20 公開日:2023-09-23 |
# agrisort:精密農業におけるロボットのリアルタイム追跡・検出フレームワーク AgriSORT: A Simple Online Real-time Tracking-by-Detection framework for robotics in precision agriculture ( http://arxiv.org/abs/2309.13393v1 ) ライセンス: Link先を確認 | Leonardo Saraceni, Ionut M. Motoi, Daniele Nardi, Thomas A. Ciarfuglia | (参考訳) マルチオブジェクト追跡(MOT)の問題は、各オブジェクトに固有の識別子を保持しながら、ビデオシーケンス内のすべてのオブジェクトを検出し、追跡することである。
これはロボティクスにとって挑戦的で根本的な問題です。
精密農業では、極端なカメラの動き、突然の照明変化、強い咬合によって、満足のいくソリューションを達成することの難しさが増幅される。
ほとんどの現代のトラッカーは、関連のために動きではなくオブジェクトの出現に依存しているが、ほとんどのターゲットが農業の場合と同じ外観の静的オブジェクトである場合、効果がない。
この目的のために、SORT [5] の軌跡において、我々は、フレーム間のトラックの正確かつ高速な伝播を可能にする動き情報のみに基づく精密農業のための、簡単なオンラインリアルタイム追跡パイプラインであるAgriSORTを提案する。
AgriSORTの主な焦点は、効率性、柔軟性、最小限の依存関係、ロボットプラットフォームへのデプロイの容易さである。
提案したパイプラインを,テーブルグレープのブドウ畑で撮影されたビデオシーケンスに基づいて,特にインスタンスの自己相似性と密度が強いため,農業環境に適した新しいMOTベンチマークで検証した。
コードとデータセットは、将来の比較のために利用できる。 The problem of multi-object tracking (MOT) consists in detecting and tracking all the objects in a video sequence while keeping a unique identifier for each object. It is a challenging and fundamental problem for robotics. In precision agriculture the challenge of achieving a satisfactory solution is amplified by extreme camera motion, sudden illumination changes, and strong occlusions. Most modern trackers rely on the appearance of objects rather than motion for association, which can be ineffective when most targets are static objects with the same appearance, as in the agricultural case. To this end, on the trail of SORT [5], we propose AgriSORT, a simple, online, real-time tracking-by-detection pipeline for precision agriculture based only on motion information that allows for accurate and fast propagation of tracks between frames. The main focuses of AgriSORT are efficiency, flexibility, minimal dependencies, and ease of deployment on robotic platforms. We test the proposed pipeline on a novel MOT benchmark specifically tailored for the agricultural context, based on video sequences taken in a table grape vineyard, particularly challenging due to strong self-similarity and density of the instances. Both the code and the dataset are available for future comparisons. | 翻訳日:2023-09-26 20:12:49 公開日:2023-09-23 |
# 因果自己説明のためのD分離 D-Separation for Causal Self-Explanation ( http://arxiv.org/abs/2309.13391v1 ) ライセンス: Link先を確認 | Wei Liu, Jun Wang, Haozhao Wang, Ruixuan Li, Zhiying Deng, YuanKai Zhang, Yang Qiu | (参考訳) 合理化はNLPモデルの自己説明フレームワークである。
従来の作業では、通常、最大相互情報(MMI)基準を使用して、ターゲットラベルの最も示唆的な根拠を見つける。
しかし、この基準は因果的根拠や対象ラベルと相関する刺激的な特徴に影響される可能性がある。
MMI基準の問題を是正する代わりに, 因果論理による非因果的特徴と対象ラベルが 'emph{d-separated' であることから, 最小条件依存(MCD)基準と呼ばれる因果論理を解明するための新たな基準を提案する。
選択された有理数候補に条件付された入力の未選択部分と対象ラベルとの依存を最小化することにより、ラベルのすべての原因を選択せざるを得ない。
本研究では,提案したMDD基準の検証に,単純かつ実践的な依存度尺度,特にKL偏差を用いた。
実証的に、MCDは従来の最先端のMMI方式と比較して、F1スコアを最大13.7\%改善することを示した。
私たちのコードは、 \url{https://github.com/jugechengzi/rationalization-mcd}で利用可能です。 Rationalization is a self-explaining framework for NLP models. Conventional work typically uses the maximum mutual information (MMI) criterion to find the rationale that is most indicative of the target label. However, this criterion can be influenced by spurious features that correlate with the causal rationale or the target label. Instead of attempting to rectify the issues of the MMI criterion, we propose a novel criterion to uncover the causal rationale, termed the Minimum Conditional Dependence (MCD) criterion, which is grounded on our finding that the non-causal features and the target label are \emph{d-separated} by the causal rationale. By minimizing the dependence between the unselected parts of the input and the target label conditioned on the selected rationale candidate, all the causes of the label are compelled to be selected. In this study, we employ a simple and practical measure of dependence, specifically the KL-divergence, to validate our proposed MCD criterion. Empirically, we demonstrate that MCD improves the F1 score by up to $13.7\%$ compared to previous state-of-the-art MMI-based methods. Our code is available at: \url{https://github.com/jugechengzi/Rationalization-MCD}. | 翻訳日:2023-09-26 20:12:25 公開日:2023-09-23 |
# YOLORE-IDNet: 人物追跡のための効率的なマルチカメラシステム YOLORe-IDNet: An Efficient Multi-Camera System for Person-Tracking ( http://arxiv.org/abs/2309.13387v1 ) ライセンス: Link先を確認 | Vipin Gautam, Shitala Prasad and Sharad Sinha | (参考訳) 公共空間におけるビデオ監視の必要性が高まり、複数のカメラフィードをリアルタイムで追跡できるシステムへの需要が高まっている。
既存のトラッキングシステムは、ディープラーニングモデルを使って素晴らしいパフォーマンスを達成しているが、被疑者の画像や過去のデータに依存することが多い。
しかし、疑わしい個人をリアルタイムで特定し、事前の知識がなければ、必ずしも実現不可能ではない。
本稿では、相関フィルタとIOU(Intersection Over Union)の制約と、YOLOv5上のカメラ間人物再識別(Re-ID)の深層学習モデルを組み合わせた人物追跡システムを提案する。
提案システムは、複数のカメラでリアルタイムに被疑者を識別し追跡し、完全または部分的な閉塞後に回復し、セキュリティおよび監視アプリケーションに適している。
計算効率は高く,otb-100データセットの公開評価で示されたように,f1-scoreが79%,iouが59%と既存の最先端アルゴリズムに匹敵する。
提案するシステムは、複数のカメラフィードにまたがる個人をリアルタイムに追跡するロバストで効率的なソリューションを提供する。
事前の知識や履歴データなしでターゲットを追跡できる能力は、既存のシステムよりも大幅に改善され、公共の安全や監視アプリケーションに適している。 The growing need for video surveillance in public spaces has created a demand for systems that can track individuals across multiple cameras feeds in real-time. While existing tracking systems have achieved impressive performance using deep learning models, they often rely on pre-existing images of suspects or historical data. However, this is not always feasible in cases where suspicious individuals are identified in real-time and without prior knowledge. We propose a person-tracking system that combines correlation filters and Intersection Over Union (IOU) constraints for robust tracking, along with a deep learning model for cross-camera person re-identification (Re-ID) on top of YOLOv5. The proposed system quickly identifies and tracks suspect in real-time across multiple cameras and recovers well after full or partial occlusion, making it suitable for security and surveillance applications. It is computationally efficient and achieves a high F1-Score of 79% and an IOU of 59% comparable to existing state-of-the-art algorithms, as demonstrated in our evaluation on a publicly available OTB-100 dataset. The proposed system offers a robust and efficient solution for the real-time tracking of individuals across multiple camera feeds. Its ability to track targets without prior knowledge or historical data is a significant improvement over existing systems, making it well-suited for public safety and surveillance applications. | 翻訳日:2023-09-26 20:12:03 公開日:2023-09-23 |
# 等式をもつ量子相関の多ガミー関係 Polygamy relation of quantum correlations with equality ( http://arxiv.org/abs/2309.13386v1 ) ライセンス: Link先を確認 | Zhi-Xiang Jin, Bing Yu, Xue-Na Zhu, Shao-Ming Fei, Cong-Feng Qiao | (参考訳) 任意の量子相関測度に対する多元関係の一般化定義を提供する。
通常のポリガミー不等式の代わりに、ポリガミー重みを導入することにより、等式とのポリガミー関係が与えられる。
等式との多ガミー関係から、量子相関測度の$\beta$th $(\beta>0)$パワーで満たされる多ガミー不等式を示す。
援助の一致を例として、これらの関係の意義と利点をさらに説明します。
また、ポリガミー関係を満足しない任意の量子エンタングルメント測度に対する1対グループエンタングルメントを考慮し、等式を持つポリガミー関係を得る。
このような三部類状態の関係を多部類系に一般化できることを実証する。 We provide a generalized definition of polygamy relations for any quantum correlation measures. Instead of the usual polygamy inequality, a polygamy relation with equality is given by introducing the polygamy weight. From the polygamy relation with equality, we present polygamy inequalities satisfied by the $\beta$th $(\beta>0)$ power of the quantum correlation measures. Taking concurrence of assistance as an example, we further illustrate the significance and advantages of these relations. We also obtain a polygamy relation with equality by considering the one-to-group entanglements for any quantum entanglement measures that do not satisfy the polygamy relations. We demonstrate that such relations for tripartite states can be generalized to multipartite systems. | 翻訳日:2023-09-26 20:11:40 公開日:2023-09-23 |
# 拡張型畳み込みリカレントネットワークを用いたイヌ心臓MRI再建術 Cine cardiac MRI reconstruction using a convolutional recurrent network with refinement ( http://arxiv.org/abs/2309.13385v1 ) ライセンス: Link先を確認 | Yuyang Xue, Yuning Du, Gianluca Carloni, Eva Pachetti, Connor Jordan, and Sotirios A. Tsaftaris | (参考訳) Cine Magnetic Resonance Imaging (MRI)は、心臓の機能と状態を非侵襲的に理解することができる。
k$-spaceのアンサンプは、スキャン期間を短縮し、患者の快適性を高め、画像品質の低下を犠牲にして、運動アーチファクトのリスクを低減させる。
本稿では,脳磁図再構成における時間的相関を利用した畳み込みリカレントニューラルネットワーク(CRNN)アーキテクチャについて検討する。
これは単一画像の超高解像度化モジュールと組み合わせて、構造的類似度が4.4 %、正規化平均二乗誤差が3.9 %向上する。
私たちは、元のデータに欠けている高周波の詳細をより強調するために、$\ell_1$の損失にハイパスフィルタをデプロイします。
提案モデルでは, ベースライン症例と比較して有意に拡張され, 心臓MRI再建のさらなる改善に有望な可能性を秘めている。 Cine Magnetic Resonance Imaging (MRI) allows for understanding of the heart's function and condition in a non-invasive manner. Undersampling of the $k$-space is employed to reduce the scan duration, thus increasing patient comfort and reducing the risk of motion artefacts, at the cost of reduced image quality. In this challenge paper, we investigate the use of a convolutional recurrent neural network (CRNN) architecture to exploit temporal correlations in supervised cine cardiac MRI reconstruction. This is combined with a single-image super-resolution refinement module to improve single coil reconstruction by 4.4\% in structural similarity and 3.9\% in normalised mean square error compared to a plain CRNN implementation. We deploy a high-pass filter to our $\ell_1$ loss to allow greater emphasis on high-frequency details which are missing in the original data. The proposed model demonstrates considerable enhancements compared to the baseline case and holds promising potential for further improving cardiac MRI reconstruction. | 翻訳日:2023-09-26 20:11:30 公開日:2023-09-23 |
# 知識向上のためのコントラスト視点のスイートスポットについて On the Sweet Spot of Contrastive Views for Knowledge-enhanced Recommendation ( http://arxiv.org/abs/2309.13384v1 ) ライセンス: Link先を確認 | Haibo Ye, Xinjie Li, Yuan Yao and Hanghang Tong | (参考訳) 推薦システムでは、知識グラフ(KG)は、元のユーザ・イテム相互作用グラフ(IG)に欠けている重要な情報を提供することができる。
最近のプロセスでは、この方向を探索し、対照的な学習が両方を統合する有望な方法であることを示す。
しかし,既存のkg-enhancedレコメンダは,igとkgの2つのコントラストビューのバランスに苦慮しているため,単にkgを使わずにigにコントラスト学習を施すよりも効果が低くなることもある。
本稿では,KG強化レコメンデーションのための新しいコントラスト学習フレームワークを提案する。
具体的には、知識をフル活用するために、KGとIGの2つの異なるコントラスト的視点を構築し、それらの相互情報を最大化し、2つの視点のコントラスト的学習を容易にするため、KG情報をIGに一方向的に融合させる。
我々のコードは匿名リンクで利用できる。https://figshare.com/articles/conference_contribution/SimKGCL/22783382 In recommender systems, knowledge graph (KG) can offer critical information that is lacking in the original user-item interaction graph (IG). Recent process has explored this direction and shows that contrastive learning is a promising way to integrate both. However, we observe that existing KG-enhanced recommenders struggle in balancing between the two contrastive views of IG and KG, making them sometimes even less effective than simply applying contrastive learning on IG without using KG. In this paper, we propose a new contrastive learning framework for KG-enhanced recommendation. Specifically, to make full use of the knowledge, we construct two separate contrastive views for KG and IG, and maximize their mutual information; to ease the contrastive learning on the two views, we further fuse KG information into IG in a one-direction manner.Extensive experimental results on three real-world datasets demonstrate the effectiveness and efficiency of our method, compared to the state-of-the-art. Our code is available through the anonymous link:https://figshare.com/articles/conference_contribution/SimKGCL/22783382 | 翻訳日:2023-09-26 20:11:10 公開日:2023-09-23 |
# DenMune:互いに近接した隣人を用いた密度ピークに基づくクラスタリング DenMune: Density peak based clustering using mutual nearest neighbors ( http://arxiv.org/abs/2309.13420v1 ) ライセンス: Link先を確認 | Mohamed Abbas, Adel El-Zoghobi, Amin Shoukry | (参考訳) 多くのクラスタリングアルゴリズムは、クラスタが任意の形状、密度の異なる場合、あるいはデータクラスが2次元であっても不均衡で互いに近接している場合、フェールする。
この課題を克服するために,新たなクラスタリングアルゴリズムであるdenmuneを提案する。
これは、k がユーザから要求される唯一のパラメータであるサイズ k の互いに最も近い近傍を用いて密度の高い領域を特定することに基づく。
アルゴリズムはKの幅広い値に対して安定しており、さらに、クラスタリングプロセスからノイズを自動的に検出および除去し、ターゲットクラスタを検出することができる。
これは、いくつかの既知の最先端クラスタリングアルゴリズムと比較して、さまざまな低次元および高次元データセットで堅牢な結果を生成する。 Many clustering algorithms fail when clusters are of arbitrary shapes, of varying densities, or the data classes are unbalanced and close to each other, even in two dimensions. A novel clustering algorithm, DenMune is presented to meet this challenge. It is based on identifying dense regions using mutual nearest neighborhoods of size K, where K is the only parameter required from the user, besides obeying the mutual nearest neighbor consistency principle. The algorithm is stable for a wide range of values of K. Moreover, it is able to automatically detect and remove noise from the clustering process as well as detecting the target clusters. It produces robust results on various low and high-dimensional datasets relative to several known state-of-the-art clustering algorithms. | 翻訳日:2023-09-26 20:04:26 公開日:2023-09-23 |
# 航空量子通信の実際的課題 A Review on Practical Challenges of Aerial Quantum Communication ( http://arxiv.org/abs/2309.13417v1 ) ライセンス: Link先を確認 | Umang Dubey, Prathamesh Bhole, Arindam Dutta, Dibya Prakash Behera, Vethonulu Losu, Guru Satya Dattatreya Pandeeti, Abhir Raj Metkar, Anindita Banerjee, Anirban Pathak | (参考訳) グローバル規模の量子通信サービスの実現に対する需要の増加は、フルタイムのオールロケーションカバレッジに依存する実用的な量子セキュア通信ネットワークに関する重要な調査を必要としている。
この方向では、非地上の量子鍵分布は、アジリティ、操作性、中継リンク、オンデマンドネットワーク、ラストマイルカバレッジを提供する上で重要な役割を果たすことが期待されている。
本研究では、これまで地球外プラットフォームを用いた量子通信の領域において、関連する課題と関連するモデルに特に焦点をあててきた研究と開発について要約した。
さらに、既存のノウハウを超えて分析を拡張するために、Vasylyev et al. modelとLiorni et al. modelの特徴を含むハイブリッドモデルを紹介した。
ハイブリッドモデルでは,球面ビームを楕円ビーム近似に適応させ,高湿度および低高度における透過率特性を効果的に捉える。
さらに,大気の減衰に及ぼす地域の気象条件の影響を明らかにするために,2021年から2022年の間に,プーン市の月間平均可視度を分析した。
さらに,NetSquidにおけるドローン群を用いた遠隔者間の量子テレポーテーションをシミュレーションする,ソフトウェア定義ネットワークパラダイムを用いて汎用モデルのシミュレーションを行う。 The increasing demand for the realization of global-scale quantum communication services necessitates critical investigation for a practical quantum secure communication network that relies on full-time all-location coverage. In this direction, the non-terrestrial quantum key distribution is expected to play an important role in providing agility, maneuverability, relay link, on-demand network, and last-mile coverage. In this work, we have summarized the research and development that has happened until now in the domain of quantum communication using non-terrestrial platforms with a specific focus on the associated challenges and the relevant models. Further, to extend the analysis beyond the existing know-how, a hybrid model involving the features of Vasylyev et al. model and Liorni et al. model is introduced here. The hybrid model entails us adapting a spherical beam to an elliptic beam approximation and effectively capturing the characteristics of transmittance in densely humid weather conditions and at low altitudes. Further, to understand the potential impact of the weather conditions of a region on atmospheric attenuation, as an example the average monthly visibility of Pune city was analyzed for the years 2021 and 2022. In addition, a simulation of a generic model is performed using a software-defined network paradigm where quantum teleportation is simulated between distant parties using a swarm of drones in NetSquid. | 翻訳日:2023-09-26 20:04:15 公開日:2023-09-23 |
# 不可能な夢:拡散モデルによる外乱イマジネーション Dream the Impossible: Outlier Imagination with Diffusion Models ( http://arxiv.org/abs/2309.13415v1 ) ライセンス: Link先を確認 | Xuefeng Du, Yiyou Sun, Xiaojin Zhu, Yixuan Li | (参考訳) 機械学習モデルの正規化に補助的外れ値データセットを利用することで、out-of-distribution (ood) 検出と安全な予測が期待できる。
データ収集とクリーニングの労力の激しさから、異常データ生成の自動化は長い間望んでいた代替手段だった。
この魅力にも拘わらず、高次元画素空間における光現実的外周の生成は、この分野にとってオープンな課題である。
そこで本稿では, 拡散モデルを用いて, 分布内データとクラスのみを具体化する, フォトリアリスティックな異常値の想像を可能にする新しいフレームワークdream-oodを提案する。
具体的には、dream-oodはidデータに基づいてテキスト条件付き潜伏空間を学習し、拡散モデルによって画像にデコードできる潜伏領域の異常値をサンプリングする。
以前の作品とは異なり、dream-oodはピクセル空間から直接想像上の外れ値の可視化と理解を可能にする。
我々は、DREAM-OODの有効性を理解するために、総合的な定量的および定性的な研究を行い、DREAM-OODによって生成されたサンプルを用いたトレーニングは、OOD検出性能に有用であることを示す。
コードはhttps://github.com/deeplearning-wisc/dream-oodで公開されている。 Utilizing auxiliary outlier datasets to regularize the machine learning model has demonstrated promise for out-of-distribution (OOD) detection and safe prediction. Due to the labor intensity in data collection and cleaning, automating outlier data generation has been a long-desired alternative. Despite the appeal, generating photo-realistic outliers in the high dimensional pixel space has been an open challenge for the field. To tackle the problem, this paper proposes a new framework DREAM-OOD, which enables imagining photo-realistic outliers by way of diffusion models, provided with only the in-distribution (ID) data and classes. Specifically, DREAM-OOD learns a text-conditioned latent space based on ID data, and then samples outliers in the low-likelihood region via the latent, which can be decoded into images by the diffusion model. Different from prior works, DREAM-OOD enables visualizing and understanding the imagined outliers, directly in the pixel space. We conduct comprehensive quantitative and qualitative studies to understand the efficacy of DREAM-OOD, and show that training with the samples generated by DREAM-OOD can benefit OOD detection performance. Code is publicly available at https://github.com/deeplearning-wisc/dream-ood. | 翻訳日:2023-09-26 20:03:54 公開日:2023-09-23 |
# 層次非線形性をもつ状態空間モデルは指数減少メモリを持つ普遍近似器である State-space Models with Layer-wise Nonlinearity are Universal Approximators with Exponential Decaying Memory ( http://arxiv.org/abs/2309.13414v1 ) ライセンス: Link先を確認 | Shida Wang, Beichen Xue | (参考訳) 状態空間モデルは、単純で効率的なネットワーク構造のためにシーケンスモデリングで人気を博している。
しかし、時間方向に沿った非線形活性化が存在しないため、モデルの能力は制限される。
本稿では, 階層的非線形アクティベーションを伴う状態空間モデルの積み重ねが, 連続シーケンスとシーケンスの関係を近似するのに十分であることを示す。
本研究は,層状非線形活性化を付加することで,複雑なシーケンスパターンを学習するモデルの能力を高めることを示す。
一方、理論的にも経験的にも、状態空間モデルが指数的減衰するメモリ問題を根本的に解決していないことが分かる。
理論的結果は数値検証によって正当化される。 State-space models have gained popularity in sequence modelling due to their simple and efficient network structures. However, the absence of nonlinear activation along the temporal direction limits the model's capacity. In this paper, we prove that stacking state-space models with layer-wise nonlinear activation is sufficient to approximate any continuous sequence-to-sequence relationship. Our findings demonstrate that the addition of layer-wise nonlinear activation enhances the model's capacity to learn complex sequence patterns. Meanwhile, it can be seen both theoretically and empirically that the state-space models do not fundamentally resolve the exponential decaying memory issue. Theoretical results are justified by numerical verifications. | 翻訳日:2023-09-26 20:03:30 公開日:2023-09-23 |
# 連帯における入力変数の属性 Towards Attributions of Input Variables in a Coalition ( http://arxiv.org/abs/2309.13411v1 ) ライセンス: Link先を確認 | Xinhao Zheng, Huiqi Deng, Quanshi Zhang | (参考訳) 本稿では,各変数の帰属と連立の帰属の対立を,全く新しい視点から説明するための新しい帰属法を開発することを目的とする。
まず、Shapleyの値はAIモデルで符号化されたHarsanyi相互作用の割り当てとして再構成できる。
第2に、相互作用の再調整に基づいて、Shapleyの価値を連立の帰属にまで広げます。
第3に 誘惑的だ
紛争の背後にある基本的なメカニズムを 導き出します
この対立は、連立関係に部分変数を含む相互作用から生じる。 This paper aims to develop a new attribution method to explain the conflict between individual variables' attributions and their coalition's attribution from a fully new perspective. First, we find that the Shapley value can be reformulated as the allocation of Harsanyi interactions encoded by the AI model. Second, based the re-alloction of interactions, we extend the Shapley value to the attribution of coalitions. Third we ective. We derive the fundamental mechanism behind the conflict. This conflict come from the interaction containing partial variables in their coalition. | 翻訳日:2023-09-26 20:03:18 公開日:2023-09-23 |
# 時系列予測: 差分データによる長期依存の解放 Time-Series Forecasting: Unleashing Long-Term Dependencies with Fractionally Differenced Data ( http://arxiv.org/abs/2309.13409v1 ) ライセンス: Link先を確認 | Sarit Maitra, Vivek Mishra, Srashti Dwivedi, Sukanya Kundu, Goutam Kumar Kundu | (参考訳) 本研究では,分数差分(FD)のパワーを利用して時系列データにおける短期的および長期的依存関係を捉える新しい予測手法を提案する。
従来の整数差分法とは異なり、FDはメモリを連続的に保存し、モデリングのために安定化する。
スパイ指標からの金融データにfdを適用し,ニュースレポートからの感情分析を組み込むことで,fdの有効性を目標変数のバイナリ分類と組み合わせて検討する。
教師付き分類アルゴリズムを用いてFDシリーズの性能を検証した。
その結果, 整数差に対するFDの優位性を示し, 受信器動作特性/Area Under the Curve (ROCAUC) とMathews correlation Coefficient (MCC) の評価で確認された。 This study introduces a novel forecasting strategy that leverages the power of fractional differencing (FD) to capture both short- and long-term dependencies in time series data. Unlike traditional integer differencing methods, FD preserves memory in series while stabilizing it for modeling purposes. By applying FD to financial data from the SPY index and incorporating sentiment analysis from news reports, this empirical analysis explores the effectiveness of FD in conjunction with binary classification of target variables. Supervised classification algorithms were employed to validate the performance of FD series. The results demonstrate the superiority of FD over integer differencing, as confirmed by Receiver Operating Characteristic/Area Under the Curve (ROCAUC) and Mathews Correlation Coefficient (MCC) evaluations. | 翻訳日:2023-09-26 20:03:09 公開日:2023-09-23 |
# オープン量子力学の解き放ちについて On the unraveling of open quantum dynamics ( http://arxiv.org/abs/2309.13408v1 ) ライセンス: Link先を確認 | Brecht I. C Donvil and Paolo Muratore-Ginanneschi | (参考訳) 開量子系の状態作用素は、時間局所方程式(量子マスター方程式)の解として一般表現できることはよく知られている。
量子軌道の展開は、マスター方程式の解法と双対な開系力学の図式を提供する。
未開の図では、物理的指標はシステムのヒルベルト空間で評価される確率過程上のモンテカルロ平均として計算される。
このアプローチは、特に大きなヒルベルト空間の系をシミュレートするために適応する。
%であった(Nat Commun 13, 4140 (2022))。
開量子システムのダイナミクスは、厳密な濃度推定が可能となる通常の確率微分方程式によって生成されるマルコフ過程によって記述されるシステムのヒルベルト空間の未開を一般的に認める。
アンラベリングはノルム保存状態ベクトルの項や、平均でしか保存されない線形 \textquotedblleft ostensible\textquotedblright\ プロセスの項で等価に定式化することができる。
本稿では,単純なボゾン環境における2レベルシステムの場合の結果について述べる。
次に、モデル問題の文脈におけるDi\'osi-Gisin-Strunz Gaussianランダム拡張状態方程式の最先端形式を導出する。
この方程式はガウス環境における開系の正確な展開を与える。
我々は,2つのアンレーブリングと量子誤差軽減への応用の可能性を比較して比較する。 It is well known that the state operator of an open quantum system can be generically represented as the solution of a time-local equation -- a quantum master equation. Unraveling in quantum trajectories offers a picture of open system dynamics dual to solving master equations. In the unraveling picture, physical indicators are computed as Monte-Carlo averages over a stochastic process valued in the Hilbert space of the system. This approach is particularly adapted to simulate systems in large Hilbert spaces. %Drawing from our recent [Nat Commun 13, 4140 (2022)]. We show that the dynamics of an open quantum system generically admits an unraveling in the Hilbert space of the system described by a Markov process generated by ordinary stochastic differential equations for which rigorous concentration estimates are available. The unraveling can be equivalently formulated in terms of norm-preserving state vectors or in terms of linear \textquotedblleft ostensible\textquotedblright\ processes trace preserving only on average. We illustrate the results in the case of a two level system in a simple boson environment. Next, we derive the state-of-the-art form of the Di\'osi-Gisin-Strunz Gaussian random ostensible state equation in the context of a model problem. This equation provides an exact unraveling of open systems in Gaussian environments. We compare and contrast the two unravelings and their potential for applications to quantum error mitigation. | 翻訳日:2023-09-26 20:02:55 公開日:2023-09-23 |
# ブリッジブロック分解による大規模mtp2ガウス図形モデルの学習 Learning Large-Scale MTP2 Gaussian Graphical Models via Bridge-Block Decomposition ( http://arxiv.org/abs/2309.13405v1 ) ライセンス: Link先を確認 | Xiwen Wang, Jiaxi Ying, Daniel P. Palomar | (参考訳) 本稿では,階数2 (\text{mtp}_2$) の完全正の多変量ガウス図形モデルを学習する問題について検討する。
大規模なスパースグラフによく存在するブリッジの概念を導入することにより、(1)閾値付きサンプル共分散グラフ上で \emph{bridge-block decomposition} によって誘導されるいくつかの小さなサブプロブレムと(2) 対応するエントリに対する明示的な解の集合を通して、問題全体が等価に最適化可能であることを示す。
現実的な側面から、この単純で証明可能な規律は、大きな問題を小さなトラクタブルなものに分解するために適用することができ、計算複雑性の大幅な削減と既存のアルゴリズムの大幅な改善につながる。
合成および実世界の実験により,提案手法は最先端のベンチマークと比較すると,大幅な高速化を示した。 This paper studies the problem of learning the large-scale Gaussian graphical models that are multivariate totally positive of order two ($\text{MTP}_2$). By introducing the concept of bridge, which commonly exists in large-scale sparse graphs, we show that the entire problem can be equivalently optimized through (1) several smaller-scaled sub-problems induced by a \emph{bridge-block decomposition} on the thresholded sample covariance graph and (2) a set of explicit solutions on entries corresponding to \emph{bridges}. From practical aspect, this simple and provable discipline can be applied to break down a large problem into small tractable ones, leading to enormous reduction on the computational complexity and substantial improvements for all existing algorithms. The synthetic and real-world experiments demonstrate that our proposed method presents a significant speed-up compared to the state-of-the-art benchmarks. | 翻訳日:2023-09-26 20:02:35 公開日:2023-09-23 |
# WS-YOLO:鏡視下手術用ツールローカライゼーション用ヨロネットワーク WS-YOLO: Weakly Supervised Yolo Network for Surgical Tool Localization in Endoscopic Videos ( http://arxiv.org/abs/2309.13404v1 ) ライセンス: Link先を確認 | Rongfeng Wei, Jinlin Wu, You Pang, and Zhen Chen | (参考訳) 内視鏡的ビデオ記録で手術器具を自動的に検出し追跡できることは、手術のさまざまな側面を変換できる多くの有用な応用を可能にする。
ロボット支援手術では、手術ツールのカテゴリのような潜在的な情報的データをキャプチャすることができる。
そこで我々は,ダヴィンチ手術ロボットが出力する粗粒度意味情報から,位置とカテゴリの細粒度意味情報を生成するために,手動注記データの量と検出性能の最適なバランスを保ちながら,必要な注釈作業を大幅に減らした,内視鏡画像における手術ツールの局所化のための弱監督ヨーロネットワーク(WS-YOLO)を提案した。
ソースコードはhttps://github.com/Breezewrf/Weakly-Supervised-Yolov8で公開されている。 Being able to automatically detect and track surgical instruments in endoscopic video recordings would allow for many useful applications that could transform different aspects of surgery. In robot-assisted surgery, the potentially informative data like categories of surgical tool can be captured, which is sparse, full of noise and without spatial information. We proposed a Weakly Supervised Yolo Network (WS-YOLO) for Surgical Tool Localization in Endoscopic Videos, to generate fine-grained semantic information with location and category from coarse-grained semantic information outputted by the da Vinci surgical robot, which significantly diminished the necessary human annotation labor while striking an optimal balance between the quantity of manually annotated data and detection performance. The source code is available at https://github.com/Breezewrf/Weakly-Supervised-Yolov8. | 翻訳日:2023-09-26 20:02:17 公開日:2023-09-23 |
# 真菌胞子濃度予測のための領域知識合成mlアルゴリズム ML Algorithm Synthesizing Domain Knowledge for Fungal Spores Concentration Prediction ( http://arxiv.org/abs/2309.13402v1 ) ライセンス: Link先を確認 | Md Asif Bin Syed, Azmine Toushik Wasi and Imtiaz Ahmed | (参考訳) パルプおよび紙製造産業は、様々な用途に適した純汚染のない最終製品を確保するために、精密な品質管理を必要としている。
真菌胞濃度は紙の使いやすさに影響を与える重要な指標であり、現在の試験方法は遅れた結果に労働集約的であり、リアルタイム制御戦略を妨げる。
そこで,時系列データとドメイン知識を利用した機械学習アルゴリズムを提案する。
最適モデルは、訓練データと検証データで2.90mseを達成するリッジ回帰を用いた。
このアプローチは、真菌胞子濃度のリアルタイム予測を提供することで、効率と持続可能性を大幅に改善する可能性がある。
本稿では, 紙パルプ産業における厳密な品質管理を可能とし, リアルタイム菌胞濃度予測のための有望な方法を示す。 The pulp and paper manufacturing industry requires precise quality control to ensure pure, contaminant-free end products suitable for various applications. Fungal spore concentration is a crucial metric that affects paper usability, and current testing methods are labor-intensive with delayed results, hindering real-time control strategies. To address this, a machine learning algorithm utilizing time-series data and domain knowledge was proposed. The optimal model employed Ridge Regression achieving an MSE of 2.90 on training and validation data. This approach could lead to significant improvements in efficiency and sustainability by providing real-time predictions for fungal spore concentrations. This paper showcases a promising method for real-time fungal spore concentration prediction, enabling stringent quality control measures in the pulp-and-paper industry. | 翻訳日:2023-09-26 20:01:58 公開日:2023-09-23 |
# 混合交通でドライバーはラウンドアバウンドでどのように振る舞うのか?
機械学習を用いた事例研究 How Do Drivers Behave at Roundabouts in a Mixed Traffic? A Case Study Using Machine Learning ( http://arxiv.org/abs/2309.13442v1 ) ライセンス: Link先を確認 | Farah Abu Hamad, Rama Hasiba, Deema Shahwan, and Huthaifa I. Ashqar | (参考訳) 運転行動は各運転者の独特の運転習慣と考えられており、道路安全に大きな影響を及ぼす。
運転行動の分類と結果に基づくポリシーの導入は、道路上の事故の深刻度を低減することができる。
ラウンドアバウンドは、ラウンドアバウンド領域における異なる道路利用者間の相互の相互作用により、異なる運転行動が仮定されるため、特に興味深い。
本研究では、データ駆動型教師なし機械学習を用いて、混合交通環境におけるラウンドアバウンド時の運転行動を調査し、ドイツの3つのラウンドアバウンドにおける運転行動の分類を行った。
車両キネマティクスのデータセットを、ラウンドアバウンドで異なる車両と脆弱な道路利用者(VRU)のグループに使用し、それらを3つのカテゴリ(保守的、正常、攻撃的)に分類した。
その結果, ラウンドアバウンドを走行する運転者は, ほぼ2つの運転形態に分類できることがわかった。
また、歩行者やサイクリストと交流したドライバーの約77%が保守ドライバーに分類され、非接触の保守ドライバーの約42%、全ドライバーから約51%であった。
ドライバはラウンドアバウンドでVRUと対話するときに異常に振る舞う傾向にあり、交差点がマルチモーダルである場合のクラッシュのリスクが増大する。
本研究は, 政策立案者が効果的かつ適切な安全対策を決定することによって, 道路の安全性向上に有効であると考えられる。
また、技術が混在した交通環境に展開されているため、Advanced Driver Assistance System(ADAS)にもメリットがある。 Driving behavior is considered a unique driving habit of each driver and has a significant impact on road safety. Classifying driving behavior and introducing policies based on the results can reduce the severity of crashes on the road. Roundabouts are particularly interesting because of the interconnected interaction between different road users at the area of roundabouts, which different driving behavior is hypothesized. This study investigates driving behavior at roundabouts in a mixed traffic environment using a data-driven unsupervised machine learning to classify driving behavior at three roundabouts in Germany. We used a dataset of vehicle kinematics to a group of different vehicles and vulnerable road users (VRUs) at roundabouts and classified them into three categories (i.e., conservative, normal, and aggressive). Results showed that most of the drivers proceeding through a roundabout can be mostly classified into two driving styles: conservative and normal because traffic speeds in roundabouts are relatively lower than in other signalized and unsignalized intersections. Results also showed that about 77% of drivers who interacted with pedestrians or cyclists were classified as conservative drivers compared to about 42% of conservative drivers that did not interact or about 51% from all drivers. It seems that drivers tend to behave abnormally as they interact with VRUs at roundabouts, which increases the risk of crashes when an intersection is multimodal. Results of this study could be helpful in improving the safety of roads by allowing policymakers to determine the effective and suitable safety countermeasures. Results will also be beneficial for the Advanced Driver Assistance System (ADAS) as the technology is being deployed in a mixed traffic environment. | 翻訳日:2023-09-26 19:55:02 公開日:2023-09-23 |
# 北エフ量子二重モデルの境界代数 Boundary algebras of the Kitaev Quantum Double model ( http://arxiv.org/abs/2309.13440v1 ) ライセンス: Link先を確認 | Mario Tomba and Shuqi Wei and Brett Hungar and Daniel Wallick and Kyle Kawagoe and Chian Yeong Chuah and David Penneys | (参考訳) 最近の論文 [arxiv:2307.12552] は、量子スピン系に対する局所位相秩序 (lto) 公理を与え、それらはキタエフのトーリック符号とレヴィン=ウェン弦ネットモデルで成立し、代数の境界ネットの観点からバルク励起を記述するためにバルク境界対応を与えることを示した。
本稿では、有限群$G$に対して、北エフの量子二重モデルに対するLTO公理を証明する。
境界カットが粗いか滑らかであるかによって、それぞれ$(\mathsf{hilb}(g),\mathbb{c}[g])$または$(\mathsf{rep}(g),\mathbb{c}^g)$に関連付けられた融合圏を持つ代数の境界ネットを同定する。
これにより、代数量子場論のトポロジカル超選択セクターへのアプローチにおけるコーン・フォン・ノイマン代数のタイプ上で、オガタの作用に接続することができる。
境界代数は自明な$G$対称性保護位相(G$-SPT)から計算することもでき、ゲージ写像が境界代数を保存することを示す。
最後に、アーベル群に付随する (3+1)d 量子二重モデルの境界代数を計算する。 The recent article [arXiv:2307.12552] gave local topological order (LTO) axioms for a quantum spin system, showed they held in Kitaev's Toric Code and in Levin-Wen string net models, and gave a bulk boundary correspondence to describe bulk excitations in terms of the boundary net of algebras. In this article, we prove the LTO axioms for Kitaev's Quantum Double model for a finite group $G$. We identify the boundary nets of algebras with fusion categorical nets associated to $(\mathsf{Hilb}(G),\mathbb{C}[G])$ or $(\mathsf{Rep}(G),\mathbb{C}^G)$ depending on whether the boundary cut is rough or smooth respectively. This allows us to make connections to work of Ogata on the type of the cone von Neumann algebras in the algebraic quantum field theory approach to topological superselection sectors. We show that the boundary algebras can also be calculated from a trivial $G$-symmetry protected topological phase ($G$-SPT), and that the gauging map preserves the boundary algebras. Finally, we compute the boundary algebras for the (3+1)D Quantum Double model associated to an abelian group. | 翻訳日:2023-09-26 19:54:08 公開日:2023-09-23 |
# カオスにおける順序を見つける: コントラスト学習における時系列の新しいデータ拡張法 Finding Order in Chaos: A Novel Data Augmentation Method for Time Series in Contrastive Learning ( http://arxiv.org/abs/2309.13439v1 ) ライセンス: Link先を確認 | Berken Utku Demirel and Christian Holz | (参考訳) コントラスト学習の成功は、データ拡張に依存することがよく知られている。
視覚などの領域で予め定義された技術を利用することで、データ拡張の程度は十分に制御されているが、時系列データ拡張の探求は少なく、心血管系に関わる複雑なメカニズムのようなデータ生成メカニズムの複雑さにより、依然として課題となっている。
さらに、異なるタスクにまたがって適用可能な、広く認識され、一般的な時系列拡張方法は存在しない。
本稿では,クラス内サンプルを結合し,潜在空間における順序を求めることを目的とした,準周期時系列タスクのための新しいデータ拡張手法を提案する。
本手法は,非定常時間系列の周期的性質を考慮に入れた新しい手法を取り入れた,よく知られた混合手法に基づく。
また,データ拡張によって生じるカオスの度合いを制御することにより,下流タスクにおける特徴表現の改善と性能向上につながる。
提案手法は心拍数推定,ヒューマンアクティビティ認識,心血管疾患検出の3つの課題について検討した。
提案手法は, 提案手法の有効性を反映して, 3つのタスクにおいて, 最適データ生成および既知のデータ拡張技術に関する先行研究より優れていることを示す。
ソースコード: https://github.com/eth-siplab/finding_order_in_chaos The success of contrastive learning is well known to be dependent on data augmentation. Although the degree of data augmentations has been well controlled by utilizing pre-defined techniques in some domains like vision, time-series data augmentation is less explored and remains a challenging problem due to the complexity of the data generation mechanism, such as the intricate mechanism involved in the cardiovascular system. Moreover, there is no widely recognized and general time-series augmentation method that can be applied across different tasks. In this paper, we propose a novel data augmentation method for quasi-periodic time-series tasks that aims to connect intra-class samples together, and thereby find order in the latent space. Our method builds upon the well-known mixup technique by incorporating a novel approach that accounts for the periodic nature of non-stationary time-series. Also, by controlling the degree of chaos created by data augmentation, our method leads to improved feature representations and performance on downstream tasks. We evaluate our proposed method on three time-series tasks, including heart rate estimation, human activity recognition, and cardiovascular disease detection. Extensive experiments against state-of-the-art methods show that the proposed approach outperforms prior works on optimal data generation and known data augmentation techniques in the three tasks, reflecting the effectiveness of the presented method. Source code: https://github.com/eth-siplab/Finding_Order_in_Chaos | 翻訳日:2023-09-26 19:53:43 公開日:2023-09-23 |
# バイオインスピレーションによるスーパーピクセルセグメンテーションの再考 Rethinking superpixel segmentation from biologically inspired mechanisms ( http://arxiv.org/abs/2309.13438v1 ) ライセンス: Link先を確認 | TingYu Zhao, Bo Peng, Yuan Sun, DaiPeng Yang, ZhenGuang Zhange, and Xi Wu | (参考訳) 近年,深層学習に基づくスーパーピクセルセグメンテーション法の進歩により,セグメンテーションの効率と性能が向上している。
しかし、特に表面上の色相関が物体に干渉する可能性がある場合、オブジェクトの境界に厳密に準拠するスーパーピクセルを生成することには、大きな課題が残っている。
神経構造と視覚機構からインスピレーションを得て,スーパーピクセルセグメンテーションのための拡張スクリーニングモジュール (ESM) と新しい境界認識ラベル (BAL) からなる生体ネットワークアーキテクチャを提案する。
ESMは視覚野の対話的投射機構をシミュレートすることで意味情報を強化する。
さらに、BALは視覚皮質細胞の空間周波数特性をエミュレートし、強い境界付着を持つスーパーピクセルの生成を促進する。
BSDS500データセットとNYUv2データセットの両方で評価を行い,本手法の有効性を示す。 Recently, advancements in deep learning-based superpixel segmentation methods have brought about improvements in both the efficiency and the performance of segmentation. However, a significant challenge remains in generating superpixels that strictly adhere to object boundaries while conveying rich visual significance, especially when cross-surface color correlations may interfere with objects. Drawing inspiration from neural structure and visual mechanisms, we propose a biological network architecture comprising an Enhanced Screening Module (ESM) and a novel Boundary-Aware Label (BAL) for superpixel segmentation. The ESM enhances semantic information by simulating the interactive projection mechanisms of the visual cortex. Additionally, the BAL emulates the spatial frequency characteristics of visual cortical cells to facilitate the generation of superpixels with strong boundary adherence. We demonstrate the effectiveness of our approach through evaluations on both the BSDS500 dataset and the NYUv2 dataset. | 翻訳日:2023-09-26 19:53:21 公開日:2023-09-23 |
# テキスト生成による視覚対話における参照の解消 Resolving References in Visually-Grounded Dialogue via Text Generation ( http://arxiv.org/abs/2309.13430v1 ) ライセンス: Link先を確認 | Bram Willemsen, Livia Qian, Gabriel Skantze | (参考訳) 視覚言語モデル(VLM)は、単純なテキストクエリに基づく画像検索に有効であることが示されているが、会話入力に基づくテキスト画像検索は依然として課題である。
したがって、視覚接地対話における参照解像度にvlmsを使用する場合、これらのモデルの談話処理能力を高める必要がある。
この問題に対処するために,言語コンテキストにおける中核的情報を要約した明確な記述を生成するために,因果的大言語モデル(LLM)の微調整を提案する。
次に、予め訓練されたVLMを使用して、生成された記述、ゼロショットに基づいて参照を識別する。
我々は,視覚的に接地した対話を手作業でアノテートしたデータセット上でのアプローチを評価し,平均して比較したベースラインのパフォーマンスを上回った結果を得る。
さらに,より大きなコンテキストウインドウに基づく参照記述を用いることで,より高いリターンが得られる可能性が示唆された。 Vision-language models (VLMs) have shown to be effective at image retrieval based on simple text queries, but text-image retrieval based on conversational input remains a challenge. Consequently, if we want to use VLMs for reference resolution in visually-grounded dialogue, the discourse processing capabilities of these models need to be augmented. To address this issue, we propose fine-tuning a causal large language model (LLM) to generate definite descriptions that summarize coreferential information found in the linguistic context of references. We then use a pretrained VLM to identify referents based on the generated descriptions, zero-shot. We evaluate our approach on a manually annotated dataset of visually-grounded dialogues and achieve results that, on average, exceed the performance of the baselines we compare against. Furthermore, we find that using referent descriptions based on larger context windows has the potential to yield higher returns. | 翻訳日:2023-09-26 19:53:06 公開日:2023-09-23 |
# ゲーム学習環境における学生のパフォーマンスのモデル化 Modeling Student Performance in Game-Based Learning Environments ( http://arxiv.org/abs/2309.13429v1 ) ライセンス: Link先を確認 | Hyunbae Jeon, Harry He, Anthony Wang, Susanna Spooner | (参考訳) 本研究は,k-nearest neighbors(knn),multi-layer perceptron(mlp),random forest(ランダムフォレスト)など,様々な機械学習モデルを用いた学生のパフォーマンス予測に着目し,教育ゲーム「ジョー・ワイルダーとキャピトルケース」の文脈におけるゲームベース学習について検討した。
本研究の目的は,学生のパフォーマンスを最も予測し,正しい質問応答を行うことである。
ゲームプレイデータを活用することで,これらのモデルの完全なベンチマークを確立し,適切なデータアグリゲーション手法を適用することの重要性を検討する。
我々は,すべての数値データをmin/max/mean/sumおよびカテゴリデータに圧縮することにより,最初のトレーニングデータのサイズを4.6GBから48MBまで小さくし,高いF1スコアと精度を維持した。
以上より,非深層学習モデルの性能向上には,適切な前処理技術が不可欠であることが示唆された。
MLPモデルは現在の最先端のフレンチタッチモデルより優れており、F-1スコアは0.83、精度は0.74であり、このデータセットに適合する可能性が示唆された。
将来の研究は、より大きなデータセット、他の前処理技術、より高度なディープラーニング技術、そして、予測したパフォーマンスに基づいて、学生にパーソナライズされた学習推奨を提供する実世界のアプリケーションを使用することを検討すべきである。
本論文は,ゲームベース学習の理解に寄与し,学生の成績向上とスキル開発のための教育ゲーム体験の最適化に関する洞察を提供する。 This study investigates game-based learning in the context of the educational game "Jo Wilder and the Capitol Case," focusing on predicting student performance using various machine learning models, including K-Nearest Neighbors (KNN), Multi-Layer Perceptron (MLP), and Random Forest. The research aims to identify the features most predictive of student performance and correct question answering. By leveraging gameplay data, we establish complete benchmarks for these models and explore the importance of applying proper data aggregation methods. By compressing all numeric data to min/max/mean/sum and categorical data to first, last, count, and nunique, we reduced the size of the original training data from 4.6 GB to 48 MB of preprocessed training data, maintaining high F1 scores and accuracy. Our findings suggest that proper preprocessing techniques can be vital in enhancing the performance of non-deep-learning-based models. The MLP model outperformed the current state-of-the-art French Touch model, achieving an F-1 score of 0.83 and an accuracy of 0.74, suggesting its suitability for this dataset. Future research should explore using larger datasets, other preprocessing techniques, more advanced deep learning techniques, and real-world applications to provide personalized learning recommendations to students based on their predicted performance. This paper contributes to the understanding of game-based learning and provides insights into optimizing educational game experiences for improved student outcomes and skill development. | 翻訳日:2023-09-26 19:52:49 公開日:2023-09-23 |
# krylovアプローチによる状態進化におけるカオス遷移の可積分性 Integrability to chaos transition through Krylov approach for state evolution ( http://arxiv.org/abs/2309.13427v1 ) ライセンス: Link先を確認 | Gast\'on F. Scialchi, Augusto J. Roncaglia and Diego A. Wisniacki | (参考訳) 量子進化の複雑さは、それらの分散を選択的に調べることで理解することができる。
最近の研究では、krylov基底がこの分散を最小化するのに特に適していることを強調している [v. balasubramanian et al, physical review d 106, 046007 (2022)]。
この性質は、量子カオスの研究においてクリロフ基底に中心的な役割を割り当てる。
ここでは,イジングスピンチェーンとバンドドランダム行列モデルをテストモデルとして用いた,krylovアプローチによる積分可能性からカオスへの移行について検討した。
以上の結果から,クリロフ複雑性の飽和とランチョス係数の分散は初期条件に有意な依存を示すことが示唆された。
しかし、どちらの量も初期状態の適切な選択で動的量子カオスを測定することができる。 The complexity of quantum evolutions can be understood by examining their dispersion in a chosen basis. Recent research has stressed the fact that the Krylov basis is particularly adept at minimizing this dispersion [V. Balasubramanian et al, Physical Review D 106, 046007 (2022)]. This property assigns a central role to the Krylov basis in the investigation of quantum chaos. Here, we delve into the transition from integrability to chaos using the Krylov approach, employing an Ising spin chain and a banded random matrix model as our testing models. Our findings indicate that both the saturation of Krylov complexity and the dispersion of the Lanczos coefficients can exhibit a significant dependence on the initial condition. However, both quantities can gauge dynamical quantum chaos with a proper choice of the initial state. | 翻訳日:2023-09-26 19:52:19 公開日:2023-09-23 |
# 借入問題に関するチャット:GPTに基づくテキスト正規化の研究 A Chat About Boring Problems: Studying GPT-based text normalization ( http://arxiv.org/abs/2309.13426v1 ) ライセンス: Link先を確認 | Yang Zhang, Travis M. Bartley, Mariana Graterol-Fuenmayor, Vitaly Lavrukhin, Evelina Bakhturina, Boris Ginsburg | (参考訳) テキスト正規化(英: text normalization)とは、伝統的に、言語モデルにおける不整形タスクであると考えられている。
この作品では、そうでなければ議論する。
数ショットシナリオにおけるテキスト正規化のためのLarge-Language Models (LLM) の能力を実証的に示す。
自己矛盾推論と言語型プロンプトエンジニアリングを組み合わせることで,llmに基づくテキスト正規化により,上位正規化システムよりも約40%低い誤り率を達成できることがわかった。
さらに,誤り解析を行う際に,従来のテキスト正規化タスクの設計において重要な制約を指摘する。
テキスト正規化エラーの新しい分類法を作成し、GPT-3.5-TurboとGPT-4.0の結果に適用する。
この新たなフレームワークにより、GPTベースのTNの長所と短所を特定し、今後の作業の機会を開くことができる。 Text normalization - the conversion of text from written to spoken form - is traditionally assumed to be an ill-formed task for language models. In this work, we argue otherwise. We empirically show the capacity of Large-Language Models (LLM) for text normalization in few-shot scenarios. Combining self-consistency reasoning with linguistic-informed prompt engineering, we find LLM based text normalization to achieve error rates around 40\% lower than top normalization systems. Further, upon error analysis, we note key limitations in the conventional design of text normalization tasks. We create a new taxonomy of text normalization errors and apply it to results from GPT-3.5-Turbo and GPT-4.0. Through this new framework, we can identify strengths and weaknesses of GPT-based TN, opening opportunities for future work. | 翻訳日:2023-09-26 19:52:05 公開日:2023-09-23 |
# MiliPoint: mmWave Radar用のポイントクラウドデータセット MiliPoint: A Point Cloud Dataset for mmWave Radar ( http://arxiv.org/abs/2309.13425v1 ) ライセンス: Link先を確認 | Han Cui, Shu Zhong, Jiacheng Wu, Zichao Shen, Naim Dahnoun, Yiren Zhao | (参考訳) ミリ波(mmWave)レーダーは、従来のカメラベースシステムと比較して、人間の活動検知に魅力的な、費用対効果のある代替手段として登場した。
mmWaveレーダーも邪魔にならないので、ユーザーのプライバシーを保護できます。
しかし、RF(Radio Frequency)ベースの技術として、mmWaveレーダーは物体からの反射信号を捉えることに依存しており、カメラに比べてノイズが強い。
このような魅力的なセンサーのためのより効果的なポイントセットベースのディープラーニング手法を開発することができるだろうか?
この質問に答えるために、我々の研究はMiliPointと呼ばれ、コミュニティのために大規模でオープンなデータセットを提供し、どのようにmmWaveレーダーを人間の活動認識に利用できるかを探求することで、このアイデアを掘り下げた。
さらに、milipointは、既存のデータセットよりもサイズが大きく、より多様なヒューマンアクションが表現され、人間のアクティビティ認識において3つの重要なタスクをすべて包含している点を際立たせている。
また、milipoint上では、dgcnn、pointnet++、pointtransformerといった、ポイントベースのディープニューラルネットワークも構築しました。 Millimetre-wave (mmWave) radar has emerged as an attractive and cost-effective alternative for human activity sensing compared to traditional camera-based systems. mmWave radars are also non-intrusive, providing better protection for user privacy. However, as a Radio Frequency (RF) based technology, mmWave radars rely on capturing reflected signals from objects, making them more prone to noise compared to cameras. This raises an intriguing question for the deep learning community: Can we develop more effective point set-based deep learning methods for such attractive sensors? To answer this question, our work, termed MiliPoint, delves into this idea by providing a large-scale, open dataset for the community to explore how mmWave radars can be utilised for human activity recognition. Moreover, MiliPoint stands out as it is larger in size than existing datasets, has more diverse human actions represented, and encompasses all three key tasks in human activity recognition. We have also established a range of point-based deep neural networks such as DGCNN, PointNet++ and PointTransformer, on MiliPoint, which can serve to set the ground baseline for further development. | 翻訳日:2023-09-26 19:51:51 公開日:2023-09-23 |
# Paired Kidney Exchange Programにおける公正学習の罰則と償還 Penalties and Rewards for Fair Learning in Paired Kidney Exchange Programs ( http://arxiv.org/abs/2309.13421v1 ) ライセンス: Link先を確認 | Margarida Carvalho and Alison Caulfield and Yi Lin and Adrian Vetta | (参考訳) 腎臓交換プログラム(neil paired donation program とも呼ばれる)は、反復的かつ動的な取引と配分のメカニズムと見なすことができる。
このことは, 静的アルゴリズムの繰り返し使用と比較して, 移植交換選択のための動的アルゴリズムが優れた性能を持つ可能性が示唆された。
この仮説をカナダ腎臓対献金プログラムのフルスケールシミュレーションを用いて検証した。学習アルゴリズムは、動的シミュレーションによって最適な患者対体重を事前に学習し、結果を改善する。
具体的には、公平性(すなわち、cPRAグループ間の移植アクセシビリティの面での公平性)を目標として設計された学習アルゴリズムは、移植回数の増加と平均待ち時間の短縮につながる。
実際、当社の最高性能学習アルゴリズムは、Egalitarian Fairnessを10%改善する一方、移植回数は6%増加し、待ち時間は24%減少する。
しかし、私たちの主な結果はもっと驚きです。
腎交換プログラムの性能を決定する上で最も重要な要因は, 患者とドナーのペアに対する正の重み(後向き)の公平な割り当てではない。
むしろ、移植数を増加させ、待ち時間を短縮し、グループの公平性を改善する上で重要な要因は、腎臓交換プログラムにおいて少数の非向ドナーに負の重量(ペナルティ)を割り当てることである。 A kidney exchange program, also called a kidney paired donation program, can be viewed as a repeated, dynamic trading and allocation mechanism. This suggests that a dynamic algorithm for transplant exchange selection may have superior performance in comparison to the repeated use of a static algorithm. We confirm this hypothesis using a full scale simulation of the Canadian Kidney Paired Donation Program: learning algorithms, that attempt to learn optimal patient-donor weights in advance via dynamic simulations, do lead to improved outcomes. Specifically, our learning algorithms, designed with the objective of fairness (that is, equity in terms of transplant accessibility across cPRA groups), also lead to an increased number of transplants and shorter average waiting times. Indeed, our highest performing learning algorithm improves egalitarian fairness by 10% whilst also increasing the number of transplants by 6% and decreasing waiting times by 24%. However, our main result is much more surprising. We find that the most critical factor in determining the performance of a kidney exchange program is not the judicious assignment of positive weights (rewards) to patient-donor pairs. Rather, the key factor in increasing the number of transplants, decreasing waiting times and improving group fairness is the judicious assignment of a negative weight (penalty) to the small number of non-directed donors in the kidney exchange program. | 翻訳日:2023-09-26 19:51:32 公開日:2023-09-23 |
# SUDS: ユニバーサルおよび依存性ステガノグラフィーの衛生化 SUDS: Sanitizing Universal and Dependent Steganography ( http://arxiv.org/abs/2309.13467v1 ) ライセンス: Link先を確認 | Preston K. Robinette, Hanchen D. Wang, Nishan Shehadeh, Daniel Moyer, Taylor T. Johnson | (参考訳) ステガノグラフィー(英: Steganography)は、隠蔽通信に最もよく用いられる情報隠蔽の一種である。
現代のステガノグラフィー媒体には画像、テキスト、オーディオ、ビデオが含まれるため、このコミュニケーション手法は悪役によってマルウェアの伝播、データの流出、不適切なコミュニケーションにますます利用されている。
現在の保護機構は、ステグアナリシス、またはステガノグラフィの検出に依存しているが、これらのアプローチは、公開ツールからのステガノグラフィーのシグネチャや既知の隠れ方に関する統計的知識など、事前の知識に依存する。
これらの依存関係は、新たなあるいはユニークな隠蔽方法に対してステガナリシスを役に立たないものにします。
ステグアナリシスの欠点を緩和するため,本研究は,ステガノグラフィの知識に依存しず,普遍的および従属的なステガノグラフィをサニタイズできるsudsと呼ばれる深層学習用サニタイズ技術に注目した。
SUDSは、最小ビット法(LSB)、依存深度隠蔽(DDH)、普遍深度隠蔽(UDH)を用いて試験される。
ベースライン比較とアブレーション研究を含む5つの研究課題に答えることで,SUDSの能力と限界を実証する。
さらに,sudを実世界のシナリオに適用することで,有毒な分類器による攻撃に対する耐性を1375%高めることができる。 Steganography, or hiding messages in plain sight, is a form of information hiding that is most commonly used for covert communication. As modern steganographic mediums include images, text, audio, and video, this communication method is being increasingly used by bad actors to propagate malware, exfiltrate data, and discreetly communicate. Current protection mechanisms rely upon steganalysis, or the detection of steganography, but these approaches are dependent upon prior knowledge, such as steganographic signatures from publicly available tools and statistical knowledge about known hiding methods. These dependencies render steganalysis useless against new or unique hiding methods, which are becoming increasingly common with the application of deep learning models. To mitigate the shortcomings of steganalysis, this work focuses on a deep learning sanitization technique called SUDS that is not reliant upon knowledge of steganographic hiding techniques and is able to sanitize universal and dependent steganography. SUDS is tested using least significant bit method (LSB), dependent deep hiding (DDH), and universal deep hiding (UDH). We demonstrate the capabilities and limitations of SUDS by answering five research questions, including baseline comparisons and an ablation study. Additionally, we apply SUDS to a real-world scenario, where it is able to increase the resistance of a poisoned classifier against attacks by 1375%. | 翻訳日:2023-09-26 19:45:41 公開日:2023-09-23 |
# パーソナライズおよび調整可能なインターバルタイプ2ファジィベースPPGによるエッジ品質評価 Personalised and Adjustable Interval Type-2 Fuzzy-Based PPG Quality Assessment for the Edge ( http://arxiv.org/abs/2309.13464v1 ) ライセンス: Link先を確認 | Jose A. Miranda, Celia L\'opez-Ongil, Javier Andreu-Perez | (参考訳) 今日のウェアラブル技術のほとんどは、シームレスな心臓活動監視を提供する。
特に、大半は、血液量脈波情報を取得するためにフォトプレチモグラフィ(ppg)センサーを使用しており、これはさらに分析され、有用で生理学的に関連した特徴を抽出する。
それにもかかわらず、ppgベースの信号信頼性は、このようなデータ処理に強い影響を与える様々な課題を示している。
これは主に運動アーチファクトによるppg形態的波動歪みの事実に関連しており、抽出された心関連特徴の誤った解釈につながる可能性がある。
そこで本稿では,ppg信号の品質評価を行うための,パーソナライズ・調整可能な区間間タイプ2ファジィ論理システム(it2fls)を提案する。
提案システムでは,IT2FLSパラメータを各個人のPSG信号の特異な特性に適応するためのパーソナライズされたアプローチを採用しており,さらに,医療提供者が異なるアプリケーションに対する特定の要件を満たすように調整可能なパーソナライズレベルを提供する。
提案システムでは,検証中の平均精度が93.72\%まで向上した。
本システムでは,超低複雑性とリアルタイムppg品質評価が可能となり,最先端のppgベースの健康モニタリングシステムの精度と信頼性が向上する。 Most of today's wearable technology provides seamless cardiac activity monitoring. Specifically, the vast majority employ Photoplethysmography (PPG) sensors to acquire blood volume pulse information, which is further analysed to extract useful and physiologically related features. Nevertheless, PPG-based signal reliability presents different challenges that strongly affect such data processing. This is mainly related to the fact of PPG morphological wave distortion due to motion artefacts, which can lead to erroneous interpretation of the extracted cardiac-related features. On this basis, in this paper, we propose a novel personalised and adjustable Interval Type-2 Fuzzy Logic System (IT2FLS) for assessing the quality of PPG signals. The proposed system employs a personalised approach to adapt the IT2FLS parameters to the unique characteristics of each individual's PPG signals.Additionally, the system provides adjustable levels of personalisation, allowing healthcare providers to adjust the system to meet specific requirements for different applications. The proposed system obtained up to 93.72\% for average accuracy during validation. The presented system has the potential to enable ultra-low complexity and real-time PPG quality assessment, improving the accuracy and reliability of PPG-based health monitoring systems at the edge. | 翻訳日:2023-09-26 19:45:14 公開日:2023-09-23 |
# 絡み合いのないポーリチャネル学習の厳密な境界 Tight bounds on Pauli channel learning without entanglement ( http://arxiv.org/abs/2309.13461v1 ) ライセンス: Link先を確認 | Senrui Chen, Changhun Oh, Sisi Zhou, Hsin-Yuan Huang, Liang Jiang | (参考訳) 絡み合いは学習に有用な資源であるが、その利点の正確な特徴付けは困難である。
本研究では,絡み合いのない学習アルゴリズムを,メインシステムとアシラリーシステムの間の分離可能な状態,測定,操作のみを利用するものと考える。
これらのアルゴリズムは、主系に量子回路を適用し、中間回路測定や古典フィードフォワードとインターリーブするアルゴリズムと等価である。
我々は、最もよく知られた上界と下界の間の立方体ギャップを閉じる絡み合いなくポーリチャネルを学ぶための厳密な下界を証明している。
特に、$n$-qubit pauliチャネルの固有値から$\varepsilon$の誤差を、絡み合いのない学習時に高い確率で推定するには、$\theta(2^n\varepsilon^{-2})$ラウンドの計測が必要となる。
対照的に、絡み合う学習アルゴリズムは、$\theta(\varepsilon^{-2})$の計測ラウンドしか必要としない。
厳密な下界は、パウリノイズを特徴づけるための絡み合い強化された利点の実験的実証の基礎を強化する。 Entanglement is a useful resource for learning, but a precise characterization of its advantage can be challenging. In this work, we consider learning algorithms without entanglement to be those that only utilize separable states, measurements, and operations between the main system of interest and an ancillary system. These algorithms are equivalent to those that apply quantum circuits on the main system interleaved with mid-circuit measurements and classical feedforward. We prove a tight lower bound for learning Pauli channels without entanglement that closes a cubic gap between the best-known upper and lower bound. In particular, we show that $\Theta(2^n\varepsilon^{-2})$ rounds of measurements are required to estimate each eigenvalue of an $n$-qubit Pauli channel to $\varepsilon$ error with high probability when learning without entanglement. In contrast, a learning algorithm with entanglement only needs $\Theta(\varepsilon^{-2})$ rounds of measurements. The tight lower bound strengthens the foundation for an experimental demonstration of entanglement-enhanced advantages for characterizing Pauli noise. | 翻訳日:2023-09-26 19:44:54 公開日:2023-09-23 |
# 局所・グローバル情報統合のためのモデル非依存グラフニューラルネットワーク A Model-Agnostic Graph Neural Network for Integrating Local and Global Information ( http://arxiv.org/abs/2309.13459v1 ) ライセンス: Link先を確認 | Wenzhuo Zhou, Annie Qu, Keiland W. Cooper, Norbert Fortin, Babak Shahbaba | (参考訳) グラフニューラルネットワーク(gnns)は、さまざまなグラフ指向タスクで有望なパフォーマンスを達成している。
その成功にもかかわらず、既存のGNNには、ブラックボックスの性質による結果の解釈可能性の欠如と、さまざまな順序の表現を学べない2つの大きな制限がある。
これらの課題に対処するために,様々な順序の情報を逐次統合し,高次隣人から知識を抽出し,影響力のあるコンパクトグラフ構造を同定して有意義かつ解釈可能な結果を提供する,新しいモデル非依存グラフニューラルネットワーク(MaGNet)フレームワークを提案する。
特に、マグネットは、グラフトポロジーの下での複素関係の潜在表現の推定モデルと、影響のあるノード、エッジ、重要なノード特徴を識別する解釈モデルという2つのコンポーネントで構成されている。
理論的には、経験的ラデマッハ複雑性によりMaGNetの一般化誤差を確立し、その層状近傍混合を表現する力を示す。
シミュレーションデータを用いて総合的な数値実験を行い, 最新技術と比較し, マグネットの性能を実証した。
さらに,脳活動データからタスククリティカル情報を抽出することを目的とした実世界のケーススタディにMaGNetを適用し,科学研究の進展におけるその効果を明らかにする。 Graph Neural Networks (GNNs) have achieved promising performance in a variety of graph-focused tasks. Despite their success, existing GNNs suffer from two significant limitations: a lack of interpretability in results due to their black-box nature, and an inability to learn representations of varying orders. To tackle these issues, we propose a novel Model-agnostic Graph Neural Network (MaGNet) framework, which is able to sequentially integrate information of various orders, extract knowledge from high-order neighbors, and provide meaningful and interpretable results by identifying influential compact graph structures. In particular, MaGNet consists of two components: an estimation model for the latent representation of complex relationships under graph topology, and an interpretation model that identifies influential nodes, edges, and important node features. Theoretically, we establish the generalization error bound for MaGNet via empirical Rademacher complexity, and showcase its power to represent layer-wise neighborhood mixing. We conduct comprehensive numerical studies using simulated data to demonstrate the superior performance of MaGNet in comparison to several state-of-the-art alternatives. Furthermore, we apply MaGNet to a real-world case study aimed at extracting task-critical information from brain activity data, thereby highlighting its effectiveness in advancing scientific research. | 翻訳日:2023-09-26 19:44:36 公開日:2023-09-23 |
# blastnet 2.0データを用いた3次元ボリューム分解能のベンチマークスケーリング挙動 Turbulence in Focus: Benchmarking Scaling Behavior of 3D Volumetric Super-Resolution with BLASTNet 2.0 Data ( http://arxiv.org/abs/2309.13457v1 ) ライセンス: Link先を確認 | Wai Tong Chung, Bassem Akoush, Pushan Sharma, Alex Tamkin, Ki Sung Jung, Jacqueline Chen, Jack Guo, Davy Brouzet, Mohsen Talei, Bruno Savard, Alexei Y Poludnenko, Matthias Ihme | (参考訳) 圧縮性乱流の解析は、推進、エネルギー発生、環境に関する応用に不可欠である。
本稿では,34個の高忠実度直接数値シミュレーションから得られた744個のフルドメインサンプルを含む2.2tbのネットワーク・オブ・データセットである blastnet 2.0 について述べる。
このデータを用いて,3次元超解像のための5つのディープラーニングアプローチの49種類のバリエーションをベンチマークし,科学画像,シミュレーション,乱流モデル,コンピュータビジョンの応用に応用できることを示した。
これらのモデルを用いてニューラルスケーリング分析を行い、2つの科学的ML技術を含む異なる機械学習(ML)アプローチの性能を調べる。
私たちはそれを証明します
(i)予測性能はモデルのサイズとコストでスケールできる。
(ii)建築は、特に小型モデルにおいて著しく重要であり、
(iii)モデルサイズが大きくなると、物理学的損失の利点が持続する。
本研究の結果は3次元超解像モデル,特に乱流モデルの設計に役立つ知見を提供するとともに,幅広い流れ物理応用のためのML手法の育成が期待されている。
このデータは、https://blastnet.github.ioで統合されたダウンロードリンクとブラウジングツールで公開されている。 Analysis of compressible turbulent flows is essential for applications related to propulsion, energy generation, and the environment. Here, we present BLASTNet 2.0, a 2.2 TB network-of-datasets containing 744 full-domain samples from 34 high-fidelity direct numerical simulations, which addresses the current limited availability of 3D high-fidelity reacting and non-reacting compressible turbulent flow simulation data. With this data, we benchmark a total of 49 variations of five deep learning approaches for 3D super-resolution - which can be applied for improving scientific imaging, simulations, turbulence models, as well as in computer vision applications. We perform neural scaling analysis on these models to examine the performance of different machine learning (ML) approaches, including two scientific ML techniques. We demonstrate that (i) predictive performance can scale with model size and cost, (ii) architecture matters significantly, especially for smaller models, and (iii) the benefits of physics-based losses can persist with increasing model size. The outcomes of this benchmark study are anticipated to offer insights that can aid the design of 3D super-resolution models, especially for turbulence models, while this data is expected to foster ML methods for a broad range of flow physics applications. This data is publicly available with download links and browsing tools consolidated at https://blastnet.github.io. | 翻訳日:2023-09-26 19:44:12 公開日:2023-09-23 |
# 単調神経常微分方程式:累積データに対する時系列予測 Monotonic Neural Ordinary Differential Equation: Time-series Forecasting for Cumulative Data ( http://arxiv.org/abs/2309.13452v1 ) ライセンス: Link先を確認 | Zhichao Chen, Leilei Ding, Zhixuan Chu, Yucheng Qi, Jianmin Huang, Hao Wang | (参考訳) 累積データ(TSFCD)に基づく時系列予測は,様々な産業シナリオにおける意思決定において重要な問題である。
しかし、既存の時系列予測手法は、しばしば累積データの2つの重要な特徴、すなわち単調性と不規則性を見落とし、実用性を制限する。
この制限に対処するため、ニューラル常微分方程式の枠組みの中でモノトニックニューラル正規微分方程式(MODE)と呼ばれる原理的アプローチを提案する。
モードを利用することで,実用的な累積データの単調性と不規則性を効果的に捉え,表現することができる。
ボーナス割当シナリオで行った広範囲な実験を通じて,modeが最先端の手法を上回り,累積データの単調性と不規則性の両方を処理し,優れた予測性能を提供する能力を示すことを実証した。 Time-Series Forecasting based on Cumulative Data (TSFCD) is a crucial problem in decision-making across various industrial scenarios. However, existing time-series forecasting methods often overlook two important characteristics of cumulative data, namely monotonicity and irregularity, which limit their practical applicability. To address this limitation, we propose a principled approach called Monotonic neural Ordinary Differential Equation (MODE) within the framework of neural ordinary differential equations. By leveraging MODE, we are able to effectively capture and represent the monotonicity and irregularity in practical cumulative data. Through extensive experiments conducted in a bonus allocation scenario, we demonstrate that MODE outperforms state-of-the-art methods, showcasing its ability to handle both monotonicity and irregularity in cumulative data and delivering superior forecasting performance. | 翻訳日:2023-09-26 19:43:52 公開日:2023-09-23 |
# 知識参照ターンを用いたグルーディング記述駆動対話状態追跡 Grounding Description-Driven Dialogue State Trackers with Knowledge-Seeking Turns ( http://arxiv.org/abs/2309.13448v1 ) ライセンス: Link先を確認 | Alexandru Coca, Bo-Hsiang Tseng, Jinghong Chen, Weizhe Lin, Weixuan Zhang, Tisha Anders, Bill Byrne | (参考訳) スキーマ誘導型対話状態トラッカーは、さらなるトレーニングなしに新しいドメインに一般化することができるが、スキーマの書き込みスタイルに敏感である。
人間または合成スキーマのパラフレーズによるトレーニングセットの強化は、これらのバリエーションに対するモデルの堅牢性を改善するが、コストがかかるか制御が難しいかのいずれかである。
本稿では,対話コーパスとスキーマから収集した知識探索ターンの状態追跡モデルに基づいて,これらの問題を回避することを提案する。
微調整および推論中のこれらの旋回を含むと、SGDとSGD-Xにおける平均目標精度とスキーマ感度の改善により、モデルロバスト性が著しく向上する。 Schema-guided dialogue state trackers can generalise to new domains without further training, yet they are sensitive to the writing style of the schemata. Augmenting the training set with human or synthetic schema paraphrases improves the model robustness to these variations but can be either costly or difficult to control. We propose to circumvent these issues by grounding the state tracking model in knowledge-seeking turns collected from the dialogue corpus as well as the schema. Including these turns in prompts during finetuning and inference leads to marked improvements in model robustness, as demonstrated by large average joint goal accuracy and schema sensitivity improvements on SGD and SGD-X. | 翻訳日:2023-09-26 19:43:36 公開日:2023-09-23 |
# ニュースストーリー理解のためのビデオタイムラインモデリング Video Timeline Modeling For News Story Understanding ( http://arxiv.org/abs/2309.13446v1 ) ライセンス: Link先を確認 | Meng Liu, Mingda Zhang, Jialu Liu, Hanjun Dai, Ming-Hsuan Yang, Shuiwang Ji, Zheyun Feng, Boqing Gong | (参考訳) 本稿では,ビデオタイムラインモデリングという新たな問題を提案する。
我々の目的は、特定の話題に関連する一連のビデオからビデオ関連タイムラインを作成し、話されているストーリーの内容や構造を理解しやすくすることである。
この問題は、ニュースストーリーの要約など、様々な現実世界の応用において大きな可能性を秘めている。
この分野での研究をブートストラップするために、12ドル以上のタイムラインと300ドル以上のYouTubeニュースビデオからなる、現実的なベンチマークデータセットであるYouTube-News-Timelineをキュレートした。
さらに,方法論を総合的に評価・比較するためのプロトコルとして,定量的指標のセットを提案する。
このようなテストベッドを用いて,探索的深層学習アプローチをさらに開発・ベンチマークし,この問題に取り組みます。
我々は、この探索的な研究が、ビデオタイムラインモデリングにおけるさらなる研究の道を開くことを期待する。
資産はhttps://github.com/google-research/google-research/tree/master/video_timeline_modelingで入手できる。 In this paper, we present a novel problem, namely video timeline modeling. Our objective is to create a video-associated timeline from a set of videos related to a specific topic, thereby facilitating the content and structure understanding of the story being told. This problem has significant potential in various real-world applications, such as news story summarization. To bootstrap research in this area, we curate a realistic benchmark dataset, YouTube-News-Timeline, consisting of over $12$k timelines and $300$k YouTube news videos. Additionally, we propose a set of quantitative metrics as the protocol to comprehensively evaluate and compare methodologies. With such a testbed, we further develop and benchmark exploratory deep learning approaches to tackle this problem. We anticipate that this exploratory work will pave the way for further research in video timeline modeling. The assets are available via https://github.com/google-research/google-research/tree/master/video_timeline_modeling. | 翻訳日:2023-09-26 19:43:20 公開日:2023-09-23 |
# AxOMaP:数学的プログラミングを用いたFPGAに基づく近似演算子の設計 AxOMaP: Designing FPGA-based Approximate Arithmetic Operators using Mathematical Programming ( http://arxiv.org/abs/2309.13445v1 ) ライセンス: Link先を確認 | Siva Satyendra Sahoo and Salim Ullah and Akash Kumar | (参考訳) 組み込みシステムにおける機械学習(ml)アルゴリズムの適用が増えているため、これらのリソース制約のあるシステムに対して低コストなコンピュータ演算を設計する必要性が高まっている。
その結果、資源制約付きシステム上でML推論を実装するために、そのようなアルゴリズムの固有の誤り耐性を利用する近似計算や確率計算などの新しい計算モデルが活発に検討されている。
近似コンピューティング(AxC)は、動作精度(BEHAV)のある程度の低下を許容することにより、アプリケーションのパワー、パフォーマンス、領域(PPA)における不均等なゲインを提供することを目的としている。
コンピュータ演算に近似演算子(AxOs)を使用すると、AxCを実装する最も一般的な方法の1つとなる。
AxOsは、コンピュータ算術の精度スケーリングにのみ比較して、最適化の粒度の細かい追加のスコープを提供する。
この目的のために、プラットフォーム固有でコスト効率の良い近似演算子の設計が重要な研究目標となっている。
近年、新しいFPGAベースのAxOsの合成にAI/MLベースのアプローチを用いて、複数の研究が報告されている。
しかし、そのような作業のほとんどは、反復最適化プロセスで使用されるMLベースの代理関数の設計にAI/MLの使用を制限する。
そこで本研究では,fpgaの近似演算子を合成する新しいデータ解析駆動数理計画法を提案する。
具体的には,特徴付けデータの相関解析結果に基づいて,混合整数2次制約付きプログラムを定式化し,その解を用いて,進化的最適化アルゴリズムに対するより有向な探索手法を実現する。
従来の進化アルゴリズムに基づく最適化と比較して,ppaとbehavの共同最適化では,符号付き8ビット乗算器の設計において,ハイパーボリュームが最大21%改善されていることを報告した。 With the increasing application of machine learning (ML) algorithms in embedded systems, there is a rising necessity to design low-cost computer arithmetic for these resource-constrained systems. As a result, emerging models of computation, such as approximate and stochastic computing, that leverage the inherent error-resilience of such algorithms are being actively explored for implementing ML inference on resource-constrained systems. Approximate computing (AxC) aims to provide disproportionate gains in the power, performance, and area (PPA) of an application by allowing some level of reduction in its behavioral accuracy (BEHAV). Using approximate operators (AxOs) for computer arithmetic forms one of the more prevalent methods of implementing AxC. AxOs provide the additional scope for finer granularity of optimization, compared to only precision scaling of computer arithmetic. To this end, designing platform-specific and cost-efficient approximate operators forms an important research goal. Recently, multiple works have reported using AI/ML-based approaches for synthesizing novel FPGA-based AxOs. However, most of such works limit usage of AI/ML to designing ML-based surrogate functions used during iterative optimization processes. To this end, we propose a novel data analysis-driven mathematical programming-based approach to synthesizing approximate operators for FPGAs. Specifically, we formulate mixed integer quadratically constrained programs based on the results of correlation analysis of the characterization data and use the solutions to enable a more directed search approach for evolutionary optimization algorithms. Compared to traditional evolutionary algorithms-based optimization, we report up to 21% improvement in the hypervolume, for joint optimization of PPA and BEHAV, in the design of signed 8-bit multipliers. | 翻訳日:2023-09-26 19:43:07 公開日:2023-09-23 |
# ニューラルネットワークの動的推論のための初期分類 Early Classification for Dynamic Inference of Neural Networks ( http://arxiv.org/abs/2309.13443v1 ) ライセンス: Link先を確認 | Jingcun Wang, Bing Li, Grace Li Zhang | (参考訳) ディープニューラルネットワーク(DNN)は様々な分野に適用されている。
DNNでは、多数の乗算累積(MAC)操作が実行され、エッジデバイスなどのリソース制約のあるプラットフォームに適用する上で重要な課題を提起する。
動的ニューラルネットワークは、dnnの計算コストを削減するために、異なる入力に応じて構造的適応を可能にするために導入された。
既存のアーリーエグジット技術は、DNNの中間層に分類器を配置し、できるだけ早く分類決定するように強制する。
しかし、初期のレイヤで学習された機能は、すべての無関係なクラスを除外して正しいクラスを決定するのに十分ではないかもしれない。
本稿では,この課題に対処するために,動的推論のためのクラスベースアーリーエクイットを提案する。
中間層で動的に決定するようにDNNをプッシュする代わりに、これらの層で学習した機能の利点を可能な限り多くの無関係なクラスを除外するために利用します。
1つの層が残るまで、このクラスは対応する分類結果である。
このクラスベースの排除を実現するために、各クラスに中間層に分類器を割り当て、これらの分類器と共にネットワークを訓練する。
その後、初期層の無関係なクラスを除外するために排除戦略が開発される。
実験により、推論におけるDNNの計算コストを大幅に削減できることを示した。 Deep neural networks (DNNs) have been successfully applied in various fields. In DNNs, a large number of multiply-accumulate (MAC) operations is required to be performed, posing critical challenges in applying them in resource-constrained platforms, e.g., edge devices. Dynamic neural networks have been introduced to allow a structural adaption, e.g., early-exit, according to different inputs to reduce the computational cost of DNNs. Existing early-exit techniques deploy classifiers at intermediate layers of DNNs to push them to make a classification decision as early as possible. However, the learned features at early layers might not be sufficient to exclude all the irrelevant classes and decide the correct class, leading to suboptimal results. To address this challenge, in this paper, we propose a class-based early-exit for dynamic inference. Instead of pushing DNNs to make a dynamic decision at intermediate layers, we take advantages of the learned features in these layers to exclude as many irrelevant classes as possible, so that later layers only have to determine the target class among the remaining classes. Until at a layer only one class remains, this class is the corresponding classification result. To realize this class-based exclusion, we assign each class with a classifier at intermediate layers and train the networks together with these classifiers. Afterwards, an exclusion strategy is developed to exclude irrelevant classes at early layers. Experimental results demonstrate the computational cost of DNNs in inference can be reduced significantly. | 翻訳日:2023-09-26 19:42:40 公開日:2023-09-23 |
# SCRODパイプラインを用いた物体検出器の系統誤差の同定 Identifying Systematic Errors in Object Detectors with the SCROD Pipeline ( http://arxiv.org/abs/2309.13489v1 ) ライセンス: Link先を確認 | Valentyn Boreiko, Matthias Hein, Jan Hendrik Metzen | (参考訳) 物体検出装置における系統的エラーの同定と除去は、自動運転やロボット工学のような安全クリティカルなアプリケーションへの展開の前提条件となる。
このような体系的なエラーは、例えば、非常に特定のオブジェクトのポーズ(位置、スケール、方向)、オブジェクトの色/テクスチャ、バックグラウンドで起こりうる。
実際の画像だけでは、すべての関連する組み合わせをカバーできない。
粒度制御による合成画像の生成により,この制限を克服する。
物理シミュレータと手作りの3dアセットで合成画像を生成すると、生成された画像に対するきめ細かい制御が可能になるが、このアプローチはリソース集約的でスケーラビリティに制限がある。
対照的に、生成モデルの使用はよりスケーラブルだが、きめ細かい制御では信頼性が低い。
本稿では,両アプローチの強みを組み合わせた新しい枠組みを提案する。
念入りに設計されたパイプラインとカスタムモデルにより、完全に自動化されたスケーラブルな方法で、きめ細かい制御でストリートシーンを生成することができます。
さらに,同様のパイプラインのベンチマークとして機能する評価設定を導入する。
この評価設定は、フィールドの前進と標準化されたテスト手順の促進に寄与する。 The identification and removal of systematic errors in object detectors can be a prerequisite for their deployment in safety-critical applications like automated driving and robotics. Such systematic errors can for instance occur under very specific object poses (location, scale, orientation), object colors/textures, and backgrounds. Real images alone are unlikely to cover all relevant combinations. We overcome this limitation by generating synthetic images with fine-granular control. While generating synthetic images with physical simulators and hand-designed 3D assets allows fine-grained control over generated images, this approach is resource-intensive and has limited scalability. In contrast, using generative models is more scalable but less reliable in terms of fine-grained control. In this paper, we propose a novel framework that combines the strengths of both approaches. Our meticulously designed pipeline along with custom models enables us to generate street scenes with fine-grained control in a fully automated and scalable manner. Moreover, our framework introduces an evaluation setting that can serve as a benchmark for similar pipelines. This evaluation setting will contribute to advancing the field and promoting standardized testing procedures. | 翻訳日:2023-09-26 19:35:51 公開日:2023-09-23 |
# 自律走行車のための解釈可能でフレキシブルなターゲット型ニューラルプランナー Interpretable and Flexible Target-Conditioned Neural Planners For Autonomous Vehicles ( http://arxiv.org/abs/2309.13485v1 ) ライセンス: Link先を確認 | Haolan Liu, Jishen Zhao, Liangjun Zhang | (参考訳) 自動運転車プランナーに対する学習ベースのアプローチは、膨大な数のドライバーデモを活用することで、多くの複雑な現実の運転シナリオにスケールする可能性がある。
しかし、事前の作業は単一の計画軌道を推定することのみを学習し、現実世界のシナリオには複数の許容可能な計画が存在するかもしれない。
そこで本研究では,自律走行車両の鳥眼視における複数の潜在的目標を効果的に表現する,熱マップを回帰する解釈可能なニューラルプランナーを提案する。
プランナーは適応ガウス核を採用し、砂時計の損失を緩和し、計画問題の不確実性をよりよく捉える。
また、負のガウス核を用いてヒートマップ回帰に監督を加え、モデルが衝突回避を効果的に学習できるようにする。
lyft open datasetをさまざまな実世界の運転シナリオで体系的に評価した結果、私たちのモデルは以前の作業よりも安全で柔軟な運転性能を実現しています。 Learning-based approaches to autonomous vehicle planners have the potential to scale to many complicated real-world driving scenarios by leveraging huge amounts of driver demonstrations. However, prior work only learns to estimate a single planning trajectory, while there may be multiple acceptable plans in real-world scenarios. To solve the problem, we propose an interpretable neural planner to regress a heatmap, which effectively represents multiple potential goals in the bird's-eye view of an autonomous vehicle. The planner employs an adaptive Gaussian kernel and relaxed hourglass loss to better capture the uncertainty of planning problems. We also use a negative Gaussian kernel to add supervision to the heatmap regression, enabling the model to learn collision avoidance effectively. Our systematic evaluation on the Lyft Open Dataset across a diverse range of real-world driving scenarios shows that our model achieves a safer and more flexible driving performance than prior works. | 翻訳日:2023-09-26 19:35:22 公開日:2023-09-23 |
# aiを用いた英国道路交通事故の予測と分析の強化--公衆衛生研究における機械学習、計量的手法、時系列予測の統合 Enhancing Prediction and Analysis of UK Road Traffic Accident Severity Using AI: Integration of Machine Learning, Econometric Techniques, and Time Series Forecasting in Public Health Research ( http://arxiv.org/abs/2309.13483v1 ) ライセンス: Link先を確認 | Md Abu Sufian, Jayasree Varadarajan | (参考訳) 本研究は,英国における道路交通事故の重大度について,機械学習,計量,統計手法を併用して検討する。
我々は,相関解析,回帰モデル,エラー項問題に対するGMM,VARモデルとARIMAモデルを用いた時系列予測など,様々な手法を用いた。
提案手法は,maase 0.800とme-73.80のナイーブ予測よりも優れている。
また、73%の精度、78%のリコール、73%のF1スコアを備えたランダム森林分類器を構築した。
H2O AutoMLの最適化により、RMSE 0.176 と MAE 0.087 の XGBoost モデルが導入された。
因子分析によって重要な変数が特定され,説明可能なAIにSHAPを使用して, Driver_Home_Area_Type や Road_Type などの影響要因を強調した。
本研究は,事故重大性の理解を深め,エビデンスに基づく道路安全政策の洞察を提供する。 This research investigates road traffic accident severity in the UK, using a combination of machine learning, econometric, and statistical methods on historical data. We employed various techniques, including correlation analysis, regression models, GMM for error term issues, and time-series forecasting with VAR and ARIMA models. Our approach outperforms naive forecasting with an MASE of 0.800 and ME of -73.80. We also built a random forest classifier with 73% precision, 78% recall, and a 73% F1-score. Optimizing with H2O AutoML led to an XGBoost model with an RMSE of 0.176 and MAE of 0.087. Factor Analysis identified key variables, and we used SHAP for Explainable AI, highlighting influential factors like Driver_Home_Area_Type and Road_Type. Our study enhances understanding of accident severity and offers insights for evidence-based road safety policies. | 翻訳日:2023-09-26 19:34:52 公開日:2023-09-23 |
# ResNetとSoftmaxの統一スキーム A Unified Scheme of ResNet and Softmax ( http://arxiv.org/abs/2309.13482v1 ) ライセンス: Link先を確認 | Zhao Song, Weixin Wang, Junze Yin | (参考訳) 大きな言語モデル(LLM)は、人間の社会に大きな変化をもたらした。
ソフトマックス回帰と残留ニューラルネットワーク(ResNet)は、深層学習において重要な技術であり、LLMの機能をサポートする重要な理論的構成要素として機能するだけでなく、画像分類、オブジェクト検出、セマンティックセグメンテーション、テンソルなど、他の多くの機械学習および理論的コンピュータ科学分野とも関係がある。
以前の研究はこれら2つの概念を別々に研究した。
本稿では、回帰問題の理論的解析について述べる: $\| \langle \exp(ax) + ax , {\bf 1}_n \rangle^{-1} ( \exp(ax) + ax ) - b \|_2^2$, ここで$a$ は$\mathbb{r}^{n \times d}$, $b$ は$\mathbb{r}^n$ のベクトル、${\bf 1}_n$ は$n$ のベクトルである。
この回帰問題はsoftmax回帰とresnetを組み合わせた統一スキームであり、これまで一度も行われなかった。
損失関数の勾配、ヘッセン、リプシッツの性質を導出する。
ヘッセンは正の半定値であることが示され、その構造はローランク行列と対角行列の和として特徴づけられる。
これにより、効率的な近似ニュートン法が可能になる。
結果として、この統一的なスキームは、以前考えられていた2つの無関係な分野をつなぐのに役立ち、ディープラーニングモデルの将来的な研究に意味のある、新たな超パラメータニューラルネットワークの損失の展望と最適化に関する新たな洞察を提供する。 Large language models (LLMs) have brought significant changes to human society. Softmax regression and residual neural networks (ResNet) are two important techniques in deep learning: they not only serve as significant theoretical components supporting the functionality of LLMs but also are related to many other machine learning and theoretical computer science fields, including but not limited to image classification, object detection, semantic segmentation, and tensors. Previous research works studied these two concepts separately. In this paper, we provide a theoretical analysis of the regression problem: $\| \langle \exp(Ax) + A x , {\bf 1}_n \rangle^{-1} ( \exp(Ax) + Ax ) - b \|_2^2$, where $A$ is a matrix in $\mathbb{R}^{n \times d}$, $b$ is a vector in $\mathbb{R}^n$, and ${\bf 1}_n$ is the $n$-dimensional vector whose entries are all $1$. This regression problem is a unified scheme that combines softmax regression and ResNet, which has never been done before. We derive the gradient, Hessian, and Lipschitz properties of the loss function. The Hessian is shown to be positive semidefinite, and its structure is characterized as the sum of a low-rank matrix and a diagonal matrix. This enables an efficient approximate Newton method. As a result, this unified scheme helps to connect two previously thought unrelated fields and provides novel insight into loss landscape and optimization for emerging over-parameterized neural networks, which is meaningful for future research in deep learning models. | 翻訳日:2023-09-26 19:34:05 公開日:2023-09-23 |
# オフライン専門家による実時間帯域幅推定 Real-time Bandwidth Estimation from Offline Expert Demonstrations ( http://arxiv.org/abs/2309.13481v1 ) ライセンス: Link先を確認 | Aashish Gottipati, Sami Khairy, Gabriel Mittag, Vishak Gopal, Ross Cutler | (参考訳) 本研究では、リアルタイム通信システムにおける帯域幅推定(BWE)の問題に取り組むが、従来の研究とは対照的に、従来のヒューリスティックなBWE手法の膨大な努力を生かし、これらのアプローチをディープラーニングベースの手法でシナジする。
本研究は,データ駆動型帯域幅推定器をリアルタイムシステムに組み込む際の課題である,ネットワークダイナミクスの一般化と,事前経験から豊かな表現を抽出することの課題に対処する。
そこで本研究では,BWE ポリシーの抽出に先立つヒューリスティックな手法を応用した,BWE の最初の純粋オフラインデータ駆動型ソリューションである Merlin を提案する。
一連の実験により、Merlinは、経験指標の客観的な品質の観点から、最先端のヒューリスティックベースおよびディープラーニングベースの帯域幅推定器を超越し、オフラインの世界を超えて、Merlinが大陸間ビデオ会議におけるWebRTCと比較して、パケット損失と遅延の42.85%と12.8%の削減を達成した、Wildネットワークデプロイメントに一般化した。
Merlinのオフライン指向設計が、リアルタイムネットワーク制御の新しい戦略を促進することを期待しています。 In this work, we tackle the problem of bandwidth estimation (BWE) for real-time communication systems; however, in contrast to previous works, we leverage the vast efforts of prior heuristic-based BWE methods and synergize these approaches with deep learning-based techniques. Our work addresses challenges in generalizing to unseen network dynamics and extracting rich representations from prior experience, two key challenges in integrating data-driven bandwidth estimators into real-time systems. To that end, we propose Merlin, the first purely offline, data-driven solution to BWE that harnesses prior heuristic-based methods to extract an expert BWE policy. Through a series of experiments, we demonstrate that Merlin surpasses state-of-the-art heuristic-based and deep learning-based bandwidth estimators in terms of objective quality of experience metrics while generalizing beyond the offline world to in-the-wild network deployments where Merlin achieves a 42.85% and 12.8% reduction in packet loss and delay, respectively, when compared against WebRTC in inter-continental videoconferencing calls. We hope that Merlin's offline-oriented design fosters new strategies for real-time network control. | 翻訳日:2023-09-26 19:33:18 公開日:2023-09-23 |
# CA-PCA:曲率に適応したマニフォールド次元推定 CA-PCA: Manifold Dimension Estimation, Adapted for Curvature ( http://arxiv.org/abs/2309.13478v1 ) ライセンス: Link先を確認 | Anna C. Gilbert and Kevin O'Neill | (参考訳) 高次元データの解析におけるアルゴリズムの成功は、しばしば、このデータがより低次元の多様体上または近くにあると仮定する多様体仮説に起因している。
例えば、次元還元を行う前に、この多様体の次元を決定または推定することはしばしば有用である。
既存の次元推定法は平らな単位球を用いて校正する。
本稿では,2次埋め込みのキャリブレーションに基づく局所PCAのバージョンであるCA-PCAを開発し,基礎となる多様体の曲率を認識する。
多数の注意深い実験により、この適応が幅広い設定で推定器を改善できることが示されている。 The success of algorithms in the analysis of high-dimensional data is often attributed to the manifold hypothesis, which supposes that this data lie on or near a manifold of much lower dimension. It is often useful to determine or estimate the dimension of this manifold before performing dimension reduction, for instance. Existing methods for dimension estimation are calibrated using a flat unit ball. In this paper, we develop CA-PCA, a version of local PCA based instead on a calibration of a quadratic embedding, acknowledging the curvature of the underlying manifold. Numerous careful experiments show that this adaptation improves the estimator in a wide range of settings. | 翻訳日:2023-09-26 19:32:52 公開日:2023-09-23 |
# 階層的注意解釈:バイモーダル抑うつ検出のための解釈可能な音声レベルトランスフォーマー Hierarchical attention interpretation: an interpretable speech-level transformer for bi-modal depression detection ( http://arxiv.org/abs/2309.13476v1 ) ライセンス: Link先を確認 | Qingkun Deng, Saturnino Luz, Sofia de la Fuente Garcia | (参考訳) うつ病は一般的な精神疾患です。
機械学習によって実現される音声を用いた自動うつ病検出ツールは、うつ病の早期スクリーニングに役立つ。
本稿では, セグメントレベルのラベリングによるノイズとモデル解釈性の欠如という, 臨床実装を妨げる可能性のある2つの制限について述べる。
本稿では,セグメント単位のラベリングを回避し,全ての注意層から導かれた勾配重み付き注意マップに基づく音声レベルと文レベルの両方の解釈を行い,入力特徴間の相互作用を追跡する階層的解釈手法を提案する。
提案モデルは,セグメントレベルで学習するモデル(p$=0.854,$r$=0.947,$f1$=0.947,$p$=0.732,$r$=0.808,$f1$=0.768)よりも優れていることを示す。
モデル解釈では、一つの正のサンプルを用いて、どの文が抑うつ検出に最も関連しているか、どのテキストトークンとメルスペクトログラム領域が抑うつ検出に最も関係しているかを示す。
これらの解釈により、臨床医はうつ病検出ツールによる予測の有効性を検証でき、臨床実施を促進することができる。 Depression is a common mental disorder. Automatic depression detection tools using speech, enabled by machine learning, help early screening of depression. This paper addresses two limitations that may hinder the clinical implementations of such tools: noise resulting from segment-level labelling and a lack of model interpretability. We propose a bi-modal speech-level transformer to avoid segment-level labelling and introduce a hierarchical interpretation approach to provide both speech-level and sentence-level interpretations, based on gradient-weighted attention maps derived from all attention layers to track interactions between input features. We show that the proposed model outperforms a model that learns at a segment level ($p$=0.854, $r$=0.947, $F1$=0.947 compared to $p$=0.732, $r$=0.808, $F1$=0.768). For model interpretation, using one true positive sample, we show which sentences within a given speech are most relevant to depression detection; and which text tokens and Mel-spectrogram regions within these sentences are most relevant to depression detection. These interpretations allow clinicians to verify the validity of predictions made by depression detection tools, promoting their clinical implementations. | 翻訳日:2023-09-26 19:32:40 公開日:2023-09-23 |
# ビジョンベースコントローラのシステムレベル異常の検出と緩和 Detecting and Mitigating System-Level Anomalies of Vision-Based Controllers ( http://arxiv.org/abs/2309.13475v1 ) ライセンス: Link先を確認 | Aryaman Gupta, Kaustav Chakraborty, Somil Bansal | (参考訳) 自動運転車やドローンのような自律システムは、近年、意思決定と制御に視覚入力と機械学習を活用することで大きな進歩を遂げている。
その印象的な性能にもかかわらず、これらのビジョンベースのコントローラーは、新規またはアウト・オブ・ディストリビューション入力に直面すると誤った予測をすることができる。
このようなエラーは、壊滅的なシステム障害とシステムの安全性を損なう可能性がある。
本研究では,そのような閉ループ,システムレベルの障害を検知・緩和する実行時異常モニタを提案する。
具体的には、リーチビリティベースのフレームワークを活用して、視覚ベースのコントローラをオフラインでテストし、システムレベルの障害をマイニングします。
このデータは、システムの故障を引き起こす可能性のある入力にフラグを付けるためにオンラインで活用される分類器のトレーニングに使用される。
異常検知器は、個々のモジュールを超越し、システム全体の安全性に関わる問題を強調する。
また、検知された異常を確実に処理し、システムの安全性を維持するフォールバックコントローラを設計する。
本研究では,視覚制御を用いた自律型タクシーシステムにおいて提案手法を検証する。
提案手法は,システムレベルの異常を同定し処理し,予測誤差に基づく検出やセンシングなどの手法を上回り,自律システムの総合的安全性とロバスト性を高める効果を示す。 Autonomous systems, such as self-driving cars and drones, have made significant strides in recent years by leveraging visual inputs and machine learning for decision-making and control. Despite their impressive performance, these vision-based controllers can make erroneous predictions when faced with novel or out-of-distribution inputs. Such errors can cascade to catastrophic system failures and compromise system safety. In this work, we introduce a run-time anomaly monitor to detect and mitigate such closed-loop, system-level failures. Specifically, we leverage a reachability-based framework to stress-test the vision-based controller offline and mine its system-level failures. This data is then used to train a classifier that is leveraged online to flag inputs that might cause system breakdowns. The anomaly detector highlights issues that transcend individual modules and pertain to the safety of the overall system. We also design a fallback controller that robustly handles these detected anomalies to preserve system safety. We validate the proposed approach on an autonomous aircraft taxiing system that uses a vision-based controller for taxiing. Our results show the efficacy of the proposed approach in identifying and handling system-level anomalies, outperforming methods such as prediction error-based detection, and ensembling, thereby enhancing the overall safety and robustness of autonomous systems. | 翻訳日:2023-09-26 19:32:18 公開日:2023-09-23 |
# 3dポイントクラウドのためのエッジ認識学習 Edge Aware Learning for 3D Point Cloud ( http://arxiv.org/abs/2309.13472v1 ) ライセンス: Link先を確認 | Lei Li | (参考訳) 本稿では,エッジ機能に着目し,エッジ認識とセグメンテーションの改善を目的とした階層型エッジ認識3dポイントクラウドラーニング(hea-net)の革新的アプローチを提案する。
本研究では,ポイントクラウドの分類とセグメンテーションの強化を目的とした,革新的なエッジアウェア学習手法を提案する。
人間の視覚システムからインスピレーションを得たエッジ認識の概念がこの手法に組み込まれ、オブジェクト認識の改善に寄与し、同時に計算時間を短縮した。
私たちの研究は、オブジェクトの分類とセグメンテーションタスクを効果的に管理する高度な3dポイントクラウド学習フレームワークの開発につながった。
ローカルおよびグローバルネットワーク学習パラダイムのユニークな融合が採用され、エッジにフォーカスしたローカルおよびグローバル埋め込みによって強化され、モデルの解釈能力が大幅に向上した。
さらに,ポイントクラウドの処理効率を高めるために階層的トランスフォーマアーキテクチャを適用し,構造理解への微妙な洞察を提供する。
当社のアプローチは,ノイズの多いポイントクラウドデータ管理において大きな可能性を秘めており,3Dポイントクラウド学習におけるエッジアウェア戦略の可能性を強調している。
提案手法は,modelnet40 と shapenet データセットを用いた実験で示されたように,オブジェクト分類やセグメンテーションタスクにおける既存の手法を上回っている。 This paper proposes an innovative approach to Hierarchical Edge Aware 3D Point Cloud Learning (HEA-Net) that seeks to address the challenges of noise in point cloud data, and improve object recognition and segmentation by focusing on edge features. In this study, we present an innovative edge-aware learning methodology, specifically designed to enhance point cloud classification and segmentation. Drawing inspiration from the human visual system, the concept of edge-awareness has been incorporated into this methodology, contributing to improved object recognition while simultaneously reducing computational time. Our research has led to the development of an advanced 3D point cloud learning framework that effectively manages object classification and segmentation tasks. A unique fusion of local and global network learning paradigms has been employed, enriched by edge-focused local and global embeddings, thereby significantly augmenting the model's interpretative prowess. Further, we have applied a hierarchical transformer architecture to boost point cloud processing efficiency, thus providing nuanced insights into structural understanding. Our approach demonstrates significant promise in managing noisy point cloud data and highlights the potential of edge-aware strategies in 3D point cloud learning. The proposed approach is shown to outperform existing techniques in object classification and segmentation tasks, as demonstrated by experiments on ModelNet40 and ShapeNet datasets. | 翻訳日:2023-09-26 19:31:55 公開日:2023-09-23 |
# HAVE-Net:一様クイズを用いたハロゲン化オーディオ・ビジュアル・エンベディング HAVE-Net: Hallucinated Audio-Visual Embeddings for Few-Shot Classification with Unimodal Cues ( http://arxiv.org/abs/2309.13470v1 ) ライセンス: Link先を確認 | Ankit Jha, Debabrata Pal, Mainak Singha, Naman Agarwal, Biplab Banerjee | (参考訳) リモートセンシング(RS)や空中画像の認識は、現在大きな関心を集めており、近年の深層学習アルゴリズムの進歩にフレーバーが加えられている。
不定形RS視覚入力を用いてニューラルネットワークをトレーニング中に、閉塞、クラス内分散、照明などが発生する可能性がある。
音声・視覚的モダリティの併用訓練は低データ状態における分類性能を向上させるが,RS領域では十分に研究されていない。
本稿では,数発学習(fsl)分類器のメタトレーニング中に音声と視覚のモダリティが共存する新しい問題を解決することを目的としているが,メタテスト段階ではモダリティが欠落している可能性がある。
この問題の定式化は、データ取得やセンサーの誤動作の難しさから、rsドメインに関係している。
そこで本稿では,Halucinated Audio-Visual Embeddings-Network (HAVE-Net) という,複数ショット生成フレームワークを提案する。
正確には、これらの幻覚的な特徴はベースクラスからメタ学習され、推論フェーズの間、新しいクラスで少数ショットの分類に使用される。
ADVANCEとAudioSetZSLのベンチマークによる実験結果から,実マルチモーダル情報を用いて訓練した分類器の性能を少なくとも0.8-2%向上させることができた。 Recognition of remote sensing (RS) or aerial images is currently of great interest, and advancements in deep learning algorithms added flavor to it in recent years. Occlusion, intra-class variance, lighting, etc., might arise while training neural networks using unimodal RS visual input. Even though joint training of audio-visual modalities improves classification performance in a low-data regime, it has yet to be thoroughly investigated in the RS domain. Here, we aim to solve a novel problem where both the audio and visual modalities are present during the meta-training of a few-shot learning (FSL) classifier; however, one of the modalities might be missing during the meta-testing stage. This problem formulation is pertinent in the RS domain, given the difficulties in data acquisition or sensor malfunctioning. To mitigate, we propose a novel few-shot generative framework, Hallucinated Audio-Visual Embeddings-Network (HAVE-Net), to meta-train cross-modal features from limited unimodal data. Precisely, these hallucinated features are meta-learned from base classes and used for few-shot classification on novel classes during the inference phase. The experimental results on the benchmark ADVANCE and AudioSetZSL datasets show that our hallucinated modality augmentation strategy for few-shot classification outperforms the classifier performance trained with the real multimodal information at least by 0.8-2%. | 翻訳日:2023-09-26 19:31:34 公開日:2023-09-23 |
# SGNN-LLM構文を用いた学習教材質問に対する学生のパフォーマンス予測 Enhancing Student Performance Prediction on Learnersourced Questions with SGNN-LLM Synergy ( http://arxiv.org/abs/2309.13500v1 ) ライセンス: Link先を確認 | Lin Ni, Sijie Wang, Zeyu Zhang, Xiaoxuan Li, Xianda Zheng, Paul Denny, and Jiamou Liu | (参考訳) 新しい教育戦略として、ラーナーソーシングはパーソナライズされた学習コンテンツ作成の可能性を秘めているが、生徒が生成したデータに固有のノイズがあるため、生徒のパフォーマンスを予測するという課題にも対処している。
グラフベースの手法は、密集した学習者要求の相互作用を捉えるのに優れているが、質問が十分な学習者応答を欠いている場合のように、限られた相互作用を特徴とするコールドスタートのシナリオではフェールする。
そこで我々は,SGNN(Signed Graph Neural Networks)とLLM(Large Language Model)を組み込む可能性を実現する革新的な戦略を提案する。
提案手法は,学生の回答を総合的にモデル化する2部グラフを用いて,雑音のレジリエンスを高めるコントラスト学習フレームワークを補完する。
さらに、LLMの貢献は基礎的な質問の埋め込みの生成であり、特にグラフデータ相互作用が限定されたコールドスタートシナリオに対処する上で有利である。
PeerWiseプラットフォームからソースされた5つの実世界のデータセットに対する検証は、このアプローチの有効性を裏付けるものだ。
提案手法は,予測精度とロバスト性を向上し,ベースラインを向上する。 As an emerging education strategy, learnersourcing offers the potential for personalized learning content creation, but also grapples with the challenge of predicting student performance due to inherent noise in student-generated data. While graph-based methods excel in capturing dense learner-question interactions, they falter in cold start scenarios, characterized by limited interactions, as seen when questions lack substantial learner responses. In response, we introduce an innovative strategy that synergizes the potential of integrating Signed Graph Neural Networks (SGNNs) and Large Language Model (LLM) embeddings. Our methodology employs a signed bipartite graph to comprehensively model student answers, complemented by a contrastive learning framework that enhances noise resilience. Furthermore, LLM's contribution lies in generating foundational question embeddings, proving especially advantageous in addressing cold start scenarios characterized by limited graph data interactions. Validation across five real-world datasets sourced from the PeerWise platform underscores our approach's effectiveness. Our method outperforms baselines, showcasing enhanced predictive accuracy and robustness. | 翻訳日:2023-09-26 19:23:21 公開日:2023-09-23 |
# ポートレートスタイリゼーション:人間の顔スタイリゼーションのための補助ネットワークを用いたアートスタイルトランスファー Portrait Stylization: Artistic Style Transfer with Auxiliary Networks for Human Face Stylization ( http://arxiv.org/abs/2309.13492v1 ) ライセンス: Link先を確認 | Thiago Ambiel | (参考訳) 今日のイメージスタイルの転送手法は、全体のスタイリングプロセスの後、人間の個々の特徴に直面するのが困難である。
これは、顔の幾何学や人の表情のような特徴が、vgg-19事前訓練されたモデルのような汎用画像分類器によって捉えられないためである。
本稿では,コンテンツ画像から最終スタイル化結果への人間の顔特徴の伝播を促すために,補助訓練済みの顔認識モデルからの埋め込みの利用を提案する。 Today's image style transfer methods have difficulty retaining humans face individual features after the whole stylizing process. This occurs because the features like face geometry and people's expressions are not captured by the general-purpose image classifiers like the VGG-19 pre-trained models. This paper proposes the use of embeddings from an auxiliary pre-trained face recognition model to encourage the algorithm to propagate human face features from the content image to the final stylized result. | 翻訳日:2023-09-26 19:22:59 公開日:2023-09-23 |
# 原子層堆積法により成長したTiO$_2$薄膜中のErのナノキャビティによるパーセル増強 Nanocavity-mediated Purcell enhancement of Er in TiO$_2$ thin films grown via atomic layer deposition ( http://arxiv.org/abs/2309.13490v1 ) ライセンス: Link先を確認 | Cheng Ji, Michael T. Solomon, Gregory D. Grant, Koichi Tanaka, Muchuan Hua, Jianguo Wen, Sagar K. Seth, Connor P. Horn, Ignas Masiulionis, Manish K. Singh, Sean E. Sullivan, F. Joseph Heremans, David D. Awschalom, Supratik Guha, and Alan M. Dibos | (参考訳) 三価エルビウム(Er$^{3+}$)の使用は、一般に固体の原子欠陥として埋め込まれ、電気通信デバイスにおいてドーパントとして広く採用されており、量子通信のためのスピンベースの量子メモリとして期待されている。
特に、自然な通信用cバンド光遷移とスピン光子インタフェースは、量子周波数変換を必要とせずに既存の光ファイバネットワークへの統合の理想的な候補となる。
しかし、スケーリングの成功には、固有の核スピンが少ないホスト材料、半導体鋳造プロセスとの互換性、シリコンフォトニクスとの直接的な統合が必要である。
本稿では,Er添加二酸化チタン(TiO$_2$)薄膜の成長過程について,Er濃度のドーピング制御を広範囲に行う鋳造性原子層堆積法を用いて述べる。
as成長膜はアモルファスであるが、酸素アニール後は比較的大きな結晶粒を示し、埋め込まれたerイオンはアナターゼtio$_2$から特徴的な発光スペクトルを示す。
この成長およびアニール過程は、ナノフォトニック集積に必要な低表面粗さを維持する。
最後に、エバネッセントカップリングにより高品質なsiナノフォトニックキャビティを有するerアンサンブルをインターフェースさせ、その光寿命の大幅なパーセル増強(300)を示す。
本研究は,erドープ材料とシリコンフォトニクスを統合するための低温・非破壊・基板非依存プロセスを示す。
高ドーピング密度では、このプラットフォームはオンチップ増幅器やレーザーのような統合フォトニックコンポーネントを可能にし、希薄濃度は単一のイオン量子メモリを実現できる。 The use of trivalent erbium (Er$^{3+}$), typically embedded as an atomic defect in the solid-state, has widespread adoption as a dopant in telecommunications devices and shows promise as a spin-based quantum memory for quantum communication. In particular, its natural telecom C-band optical transition and spin-photon interface makes it an ideal candidate for integration into existing optical fiber networks without the need for quantum frequency conversion. However, successful scaling requires a host material with few intrinsic nuclear spins, compatibility with semiconductor foundry processes, and straightforward integration with silicon photonics. Here, we present Er-doped titanium dioxide (TiO$_2$) thin film growth on silicon substrates using a foundry-scalable atomic layer deposition process with a wide range of doping control over the Er concentration. Even though the as-grown films are amorphous, after oxygen annealing they exhibit relatively large crystalline grains, and the embedded Er ions exhibit the characteristic optical emission spectrum from anatase TiO$_2$. Critically, this growth and annealing process maintains the low surface roughness required for nanophotonic integration. Finally, we interface Er ensembles with high quality factor Si nanophotonic cavities via evanescent coupling and demonstrate a large Purcell enhancement (300) of their optical lifetime. Our findings demonstrate a low-temperature, non-destructive, and substrate-independent process for integrating Er-doped materials with silicon photonics. At high doping densities this platform can enable integrated photonic components such as on-chip amplifiers and lasers, while dilute concentrations can realize single ion quantum memories. | 翻訳日:2023-09-26 19:22:50 公開日:2023-09-23 |