このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231217となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 葉系植物病検出と説明可能なAI
Leaf-Based Plant Disease Detection and Explainable AI ( http://arxiv.org/abs/2404.16833v1 ) ライセンス: Link先を確認 | Saurav Sagar, Mohammed Javed, David S Doermann, | (参考訳) 農業部門は国の経済成長に不可欠な役割を担っている。
特にインドでは、農村部に住む何百万人もの人々の生活の重要源となっている。
植物病は農業に影響を及ぼす重要な要因の1つである。
植物は、有機肥料、古風な慣行、環境条件など様々な理由で病気に感染し、農作物の収量に影響を及ぼし、経済を阻害する。
この問題に対処するため、研究者は、植物病を検出するAIと機械学習技術に基づく多くのアプリケーションを調査してきた。
本研究は,一般的な植物葉病の包括的理解を提供し,疾患検出のための従来的および深層学習技術を評価し,利用可能なデータセットを要約する。
また、ディープラーニングモデルのエンドユーザに対する解釈可能性を高めるために、説明可能なAI(XAI)についても検討している。
この知識を統合することで、この調査は農業分野の研究者、実践者、ステークホルダーに貴重な洞察を与え、植物病と闘うための効率的で透明なソリューションの開発を促進し、持続可能な農業慣行を促進する。
The agricultural sector plays an essential role in the economic growth of a country. Specifically, in an Indian context, it is the critical source of livelihood for millions of people living in rural areas. Plant Disease is one of the significant factors affecting the agricultural sector. Plants get infected with diseases for various reasons, including synthetic fertilizers, archaic practices, environmental conditions, etc., which impact the farm yield and subsequently hinder the economy. To address this issue, researchers have explored many applications based on AI and Machine Learning techniques to detect plant diseases. This research survey provides a comprehensive understanding of common plant leaf diseases, evaluates traditional and deep learning techniques for disease detection, and summarizes available datasets. It also explores Explainable AI (XAI) to enhance the interpretability of deep learning models' decisions for end-users. By consolidating this knowledge, the survey offers valuable insights to researchers, practitioners, and stakeholders in the agricultural sector, fostering the development of efficient and transparent solutions for combating plant diseases and promoting sustainable agricultural practices. | 翻訳日:2024-07-01 11:49:01 公開日:2023-12-17 |
# ブロック次数可変行列暗号化アルゴリズムに基づく新しいRFID認証プロトコル
A Novel RFID Authentication Protocol Based on A Block-Order-Modulus Variable Matrix Encryption Algorithm ( http://arxiv.org/abs/2312.10593v1 ) ライセンス: Link先を確認 | Yan Wang, Ruiqi Liu, Tong Gao, Feng Shu, Xuemei Lei, Guan Gui, Jiangzhou Wang, | (参考訳) 本稿では,低コストなタグ付き移動無線周波数識別システム(RFID)の認証について検討する。
まず、対角ブロック鍵行列(DBKM)暗号化アルゴリズムを提案し、鍵空間の実行可能な領域を効果的に拡張する。
その後、セキュリティを強化するために、自己更新暗号化順序(SUEO)アルゴリズムが考案される。
さらに、平文と暗号文の相関を弱めるために、自己更新係数(SUM)アルゴリズムを構築する。
上記の3つのアルゴリズムに基づいて,新たなDBKM-SUEO-SUM行列暗号アルゴリズムが確立された。
提案手法の利点をフル活用して,モバイルRFIDシステムにおいて,DBKM-SUEO-SUM-RFIDと呼ばれる双方向RFID認証プロトコルを提案する。
加えて、Burrows-Abadi-Needham (BAN) 論理とセキュリティ分析により、新たに提案されたDBKM-SUEO-SUM-RFIDプロトコルは、リプレイアタックやデシンクロナイゼーションなど、様々な典型的な攻撃に対して効果的に抵抗できることが示されている。
最後に、DBKM-SUEO-SUMアルゴリズムは、従来のアルゴリズムと比較して少なくとも90.46倍のタグストレージを節約できることを示す。
In this paper, authentication for mobile radio frequency identification (RFID) systems with low-cost tags is studied. Firstly, a diagonal block key matrix (DBKM) encryption algorithm is proposed, which effectively expands the feasible domain of the key space. Subsequently, in order to enhance the security, a self updating encryption order (SUEO) algorithm is conceived. To further weaken the correlation between plaintext and ciphertext, a self updating modulus (SUM) algorithm is constructed. Based on the above three algorithms, a new joint DBKM-SUEO-SUM matrix encryption algorithm is established, which intends to enhance security without the need of additional storage for extra key matrices. Making full use of the advantages of the proposed joint algorithm, a two-way RFID authentication protocol named DBKM-SUEO-SUM-RFID is proposed for mobile RFID systems. In addition, the Burrows-Abadi-Needham (BAN) logic and security analysis indicate that the newly proposed DBKM-SUEO-SUM-RFID protocol can effectively resist various typical attacks, such as replay attacks and de-synchronization. Finally, numerical results demonstrate that the DBKM-SUEO-SUM algorithm can save at least 90.46\% of tag storage compared to traditional algorithms, and thus, is friendly to be employed with low-cost RFID tags. | 翻訳日:2024-03-18 11:57:39 公開日:2023-12-17 |
# UltraClean: バックドア攻撃に対してロバストニューラルネットワークをトレーニングするためのシンプルなフレームワーク
UltraClean: A Simple Framework to Train Robust Neural Networks against Backdoor Attacks ( http://arxiv.org/abs/2312.10657v1 ) ライセンス: Link先を確認 | Bingyin Zhao, Yingjie Lao, | (参考訳) バックドア攻撃は、ディープニューラルネットワークに対する脅威として浮上している。
入力画像にトリガーを提示することで、推論中に注入されたバックドアをアクティベートすることができる。
従来は、汚染されたサンプルのラベルが誤ってラベル付けされている汚いラベルのバックドア攻撃に対して、防衛手法は顕著な成功を収めてきた。
しかし、これらのアプローチは最近の新しいタイプのバックドア -- 汚染データを修正し、一貫性のあるラベルを保持するクリーンラベルバックドア攻撃には有効ではない。
より複雑で強力なアルゴリズムは、このようなステルスな攻撃から守るために要求される。
本稿では, 汚染試料の同定を簡略化し, 汚れラベルとクリーンラベルの両方のバックドア攻撃を防御する汎用フレームワークであるUltraCleanを提案する。
バックドアトリガーがフィードフォワード伝播を増強する対向ノイズを発生させることを考えると、UltraCleanはまずオフザシェルフデノナイジング機能を使って2種類のトレーニングサンプルを生成する。
次に、DNNの誤り増幅効果を利用したトレーニングサンプルの感受性を測定し、元の画像と識別された変種とのノイズ差を拡大する。
最後に、バックドアの移植を妨害する感受性に基づいて、毒を盛ったサンプルをろ過する。
その単純さにもかかわらず、UltraCleanはさまざまなデータセット間で優れた検出率を実現し、クリーンなデータに対する適切なモデル精度を維持しながらバックドア攻撃の成功率を著しく低減し、既存の防御手法よりも大きなマージンを達成している。
コードはhttps://github.com/bxz9200/UltraCleanで入手できる。
Backdoor attacks are emerging threats to deep neural networks, which typically embed malicious behaviors into a victim model by injecting poisoned samples. Adversaries can activate the injected backdoor during inference by presenting the trigger on input images. Prior defensive methods have achieved remarkable success in countering dirty-label backdoor attacks where the labels of poisoned samples are often mislabeled. However, these approaches do not work for a recent new type of backdoor -- clean-label backdoor attacks that imperceptibly modify poisoned data and hold consistent labels. More complex and powerful algorithms are demanded to defend against such stealthy attacks. In this paper, we propose UltraClean, a general framework that simplifies the identification of poisoned samples and defends against both dirty-label and clean-label backdoor attacks. Given the fact that backdoor triggers introduce adversarial noise that intensifies in feed-forward propagation, UltraClean first generates two variants of training samples using off-the-shelf denoising functions. It then measures the susceptibility of training samples leveraging the error amplification effect in DNNs, which dilates the noise difference between the original image and denoised variants. Lastly, it filters out poisoned samples based on the susceptibility to thwart the backdoor implantation. Despite its simplicity, UltraClean achieves a superior detection rate across various datasets and significantly reduces the backdoor attack success rate while maintaining a decent model accuracy on clean data, outperforming existing defensive methods by a large margin. Code is available at https://github.com/bxz9200/UltraClean. | 翻訳日:2024-03-18 11:57:39 公開日:2023-12-17 |
# HE-DKSAP: 付加同型暗号化によるプライバシ保護ステルスアドレスプロトコル
HE-DKSAP: Privacy-Preserving Stealth Address Protocol via Additively Homomorphic Encryption ( http://arxiv.org/abs/2312.10698v1 ) ライセンス: Link先を確認 | Yuping Yan, George Shao, Dennis Song, Mason Song, Yaochu Jin, | (参考訳) ブロックチェーントランザクションは、さまざまな業界で広く採用されている。
それでもこのテクニックでは、匿名性やSybil攻撃、量子コンピューティングに対する潜在的な感受性など、さまざまなプライバシ上の懸念が導入されている。
これらの課題に対応するため、ゼロ知識証明、同型暗号化、ステルスアドレス(SA)といった革新的なプライバシー強化ソリューションが開発されている。
さまざまなスキームの中で、SAはブロックチェーントランザクションのアウトプットと受信者のパブリックアドレスとの関連を防ぎ、トランザクションの匿名性を確保するために際立っている。
しかしながら、基本的なSAスキームは、キーリークや量子コンピューティング攻撃の脆弱性を示している。
これらの欠点に対処するため,同型暗号化ベースのデュアルキーステルスアドレスプロトコル (HE-DKSAP) を先駆的に提案し,さらにFully HE-DKSAP (FHE-DKSAP) まで拡張できる。
HE-DKSAPは、同型暗号化のパワーを活用することで、トランザクションのプライバシ保護と潜在的な量子コンピューティング攻撃の防止に新たなアプローチを導入している。
本稿では、HE-DKSAPの中核となる原則を掘り下げ、プログラム可能なブロックチェーンにおけるプライバシ、スケーラビリティ、セキュリティを強化する能力を強調します。
設計アーキテクチャ、セキュリティ分析、実用的な実装の包括的な調査を通じて、この研究は、付加的同型暗号化によるプライバシー保護、実用的で効率的なステルスアドレスプロトコルを確立する。
Blockchain transactions have gained widespread adoption across various industries, largely attributable to their unparalleled transparency and robust security features. Nevertheless, this technique introduces various privacy concerns, including pseudonymity, Sybil attacks, and potential susceptibilities to quantum computing, to name a few. In response to these challenges, innovative privacy-enhancing solutions like zero-knowledge proofs, homomorphic encryption, and stealth addresses (SA) have been developed. Among the various schemes, SA stands out as it prevents the association of a blockchain transaction's output with the recipient's public address, thereby ensuring transactional anonymity. However, the basic SA schemes have exhibited vulnerabilities to key leakage and quantum computing attacks. To address these shortcomings, we present a pioneering solution - Homomorphic Encryption-based Dual-Key Stealth Address Protocol (HE-DKSAP), which can be further extended to Fully HE-DKSAP (FHE-DKSAP). By leveraging the power of homomorphic encryption, HE-DKSAP introduces a novel approach to safeguarding transaction privacy and preventing potential quantum computing attacks. This paper delves into the core principles of HE-DKSAP, highlighting its capacity to enhance privacy, scalability, and security in programmable blockchains. Through a comprehensive exploration of its design architecture, security analysis, and practical implementations, this work establishes a privacy-preserving, practical, and efficient stealth address protocol via additively homomorphic encryption. | 翻訳日:2024-03-18 11:57:39 公開日:2023-12-17 |
# 差分プライバシーと信頼できないアグリゲータによるフェデレーション学習
Federated learning with differential privacy and an untrusted aggregator ( http://arxiv.org/abs/2312.10789v1 ) ライセンス: Link先を確認 | Kunlong Liu, Trinabh Gupta, | (参考訳) モバイルデバイス上でのトレーニングモデルのフェデレーション学習が人気を集めている。
このタスクの現在のシステムは、モデル精度、プライバシ保証、デバイス効率の間の大きなトレードオフを示す。
例えば、Oort (OSDI 2021) は優れた精度と効率を提供するが、信頼できる中央サーバーを必要とする。
一方、Orchard(OSDI 2020)は、信頼できないサーバ上での差分プライバシーの厳格な保証を提供するが、デバイスに大きなオーバーヘッドをもたらす。
本稿では,このトレードオフを大幅に改善する新しいフェデレーション学習システムであるAeroについて述べる。
Aeroは、信頼性を保証し、信頼できないサーバ上での差分プライバシを保証し、デバイスのオーバーヘッドを低く保つ。
Aeroのキーとなるアイデアは、システムアーキテクチャと設計を、人気の高いフェデレートされた学習アルゴリズムの特定のセットにチューニングすることだ。
このチューニングには、デバイスからの更新を安全に集約する新しいプロトコルなど、新しい最適化とテクニックが必要です。
Aeroの評価では、(差分プライバシーなしで)通常のフェデレーション学習に匹敵する精度を提供し、Orchard上の効率(CPUとネットワーク)を最大10^5\times$で改善している。
Federated learning for training models over mobile devices is gaining popularity. Current systems for this task exhibit significant trade-offs between model accuracy, privacy guarantee, and device efficiency. For instance, Oort (OSDI 2021) provides excellent accuracy and efficiency but requires a trusted central server. On the other hand, Orchard (OSDI 2020) provides good accuracy and the rigorous guarantee of differential privacy over an untrusted server, but creates huge overhead for the devices. This paper describes Aero, a new federated learning system that significantly improves this trade-off. Aero guarantees good accuracy, differential privacy over an untrusted server, and keeps the device overhead low. The key idea of Aero is to tune system architecture and design to a specific set of popular, federated learning algorithms. This tuning requires novel optimizations and techniques, e.g., a new protocol to securely aggregate updates from devices. An evaluation of Aero demonstrates that it provides comparable accuracy to plain federated learning (without differential privacy), and it improves efficiency (CPU and network) over Orchard by up to $10^5\times$. | 翻訳日:2024-03-18 11:57:39 公開日:2023-12-17 |
# プライバシー保護型トランスアクティブエネルギーシステム-鍵となるトピックとオープンな研究課題-
Privacy-preserving transactive energy systems: Key topics and open research challenges ( http://arxiv.org/abs/2312.11564v1 ) ライセンス: Link先を確認 | Daniel Gerbi Duguma, Juliana Zhang, Meysam Aboutalebi, Shiliang Zhang, Catherine Banet, Cato Bjørkli, Chinmayi Baramashetru, Frank Eliassen, Hui Zhang, Jonathan Muringani, Josef Noll, Knut Inge Fostervold, Lars Böcker, Lee Andrew Bygrave, Matin Bagherpour, Maunya Doroudi Moghadam, Olaf Owe, Poushali Sengupta, Roman Vitenberg, Sabita Maharjan, Thiago Garrett, Yushuai Li, Zhengyu Shan, | (参考訳) この写本は、2023年3月22-23日のプリTEMワークショップで始まった議論を形式化し、結論付けることを目的としている。
本稿では,過渡的エネルギーシステムの文脈における重要なアイデアと議論のトピックについて述べる。
さらに、この議論から得られた結論は、将来のエネルギー管理研究において検討すべき潜在的な側面を具現化したものである。
特に、これらの結論は、再生可能エネルギー資源のシームレスな統合と、ピアツーピア(P2P)エネルギートレーディングのような分散フレームワークに焦点をあてた、推移的エネルギーシステムに関わるエネルギー技術とエネルギー情報学、エネルギー法、データ法、エネルギー市場、社会心理学の研究トピックをカバーしている。
我々は、問題を明確にし、障壁を特定し、ブロックチェーンの相互運用性、消費者プライバシとデータ共有、インセンティブ化への参加など、さまざまなトピックにおけるオープンな質問に対する解決策を提案する。
さらに、我々は、超活性エネルギーシステムにおける学際的協調と協調に関する課題を詳述し、これまでの研究から学んだ教訓を列挙する。
This manuscript aims to formalize and conclude the discussions initiated during the PriTEM workshop 22-23 March 2023. We present important ideas and discussion topics in the context of transactive energy systems. Moreover, the conclusions from the discussions articulate potential aspects to be explored in future studies on transactive energy management. Particularly, these conclusions cover research topics in energy technology and energy informatics, energy law, data law, energy market and socio-psychology that are relevant to the seamless integration of renewable energy resources and the transactive energy systems-in smart microgrids-focusing on distributed frameworks such as peer-to-peer (P2P) energy trading. We clarify issues, identify barriers, and suggest possible solutions to open questions in diversified topics, such as block-chain interoperability, consumer privacy and data sharing, and participation incentivization. Furthermore, we also elaborate challenges associated with cross-disciplinary collaboration and coordination for transactive energy systems, and enumerate the lessons learned from our work so far. | 翻訳日:2024-03-18 11:47:54 公開日:2023-12-17 |
# 浸透試験とレガシーシステム
Penetration Testing and Legacy Systems ( http://arxiv.org/abs/2402.10217v1 ) ライセンス: Link先を確認 | Sandra Smyth, | (参考訳) Adusumilli (2015)によると、今日の企業ビジネスシステムの70%はレガシーアプリケーションである。
最近の統計によると、IT予算の60%以上がレガシーシステムの保守に費やされている。
「通常、テストは、製品をリリースする前に単体テスト、統合テスト、システムテストのようなテスト技術を使用して、ソフトウェア開発サイクル中に含まれます。
ソフトウェア製品が本番環境にリリースされた後、追加のテストは行われません。
回帰テストのようなテクニックは、変更が既存の機能に影響を与えないようにするために含まれますが、そのような回帰テストのスコープにはめったに含まれない機能のテストです。
Schrader (2021) は、「レガシシステムは機能を保証するためにのみ維持される」と断言し、IT組織はサイバーセキュリティの観点からも安全を維持することができないかもしれないと述べた。
レガシーシステムは、サイバーセキュリティ戦略を構築する際に慎重に考慮する必要がある組織にとって、リスクの高いコンポーネントである。
本稿は,レガシシステムのセキュリティを確保する上で有効な対策を読者に理解することを目的としており,このテスト手法がレガシシステムのセキュリティにどのように役立つかを説明する。
キーワード: テスト、レガシー、セキュリティ、リスク、予防、緩和、ペンテスティング。
As per Adusumilli (2015),'70% of corporate business systems today are legacy applications. Recent statistics prove that over 60% of IT budget is spent on maintaining these Legacy systems, showing the rigidity and the fragile nature of these systems.' Usually, testing is included during the software development cycle, using testing techniques such as unit testing, integration testing, and system testing before releasing the product. After the software product is released to production, no additional testing is done; the testing process is back to the table only when modifications are made. Techniques such as regression testing are included to ensure the changes do not affect existing functionality, but testing nonfunctional features that are rarely included in such regression tests' scope. Schrader (2021) affirms that 'legacy systems are often maintained only to ensure function,' and IT organizations may fail to consider the cybersecurity perspective to remain secure. Legacy systems are a high-risk component for the organization that must be carefully considered when structuring a cyber security strategy. This paper aims to help the reader understand some measures that can be taken to secure legacy systems, explaining what penetration testing is and how this testing technique can help secure legacy systems. Keywords: Testing, legacy, security, risks, prevention, mitigation, pentesting. | 翻訳日:2024-03-18 07:28:31 公開日:2023-12-17 |
# RoleCraft-GLM: 大規模言語モデルにおけるパーソナライズされたロールプレイングの改善 RoleCraft-GLM: Advancing Personalized Role-Playing in Large Language Models ( http://arxiv.org/abs/2401.09432v1 ) ライセンス: Link先を確認 | Meiling Tao, Xuechen Liang, Tianyu Shi, Lei Yu, Yiting Xie | (参考訳) 本研究では,Large Language Models (LLM) を用いたパーソナライズされたロールプレイングの促進を目的とした,革新的なフレームワークであるRoleCraft-GLMを提案する。
RoleCraft-GLMは、対話型AIにおけるパーソナライズされたインタラクションの欠如という重要な問題に対処し、詳細で感情的にニュアンスのある人物描写を備えたソリューションを提供する。
従来の有名人中心のキャラクターから多様な非セレブリティパーソナラへと変化し,言語モデリングインタラクションのリアリズムと複雑性を高める,ユニークな対話型データセットを提供する。
さらに,本手法では,直感的なキャラクタ開発や,対話が現実的かつ感情的に共鳴することを保証する。
RoleCraft-GLMの有効性は、さまざまなケーススタディを通じて検証され、さまざまなシナリオにおけるその汎用性とスキルを強調している。
本フレームワークは,キャラクターの性格特性や感情を正確に反映した対話生成に優れ,ユーザのエンゲージメントを高める。
結論として、RoleCraft-GLMはパーソナライズされたAIインタラクションの大きな飛躍であり、よりニュアンスで感情に富んだ対話を可能にすることで、より正確で没入的なAI支援型ロールプレイングエクスペリエンスの道を開く。 This study presents RoleCraft-GLM, an innovative framework aimed at enhancing personalized role-playing with Large Language Models (LLMs). RoleCraft-GLM addresses the key issue of lacking personalized interactions in conversational AI, and offers a solution with detailed and emotionally nuanced character portrayals. We contribute a unique conversational dataset that shifts from conventional celebrity-centric characters to diverse, non-celebrity personas, thus enhancing the realism and complexity of language modeling interactions. Additionally, our approach includes meticulous character development, ensuring dialogues are both realistic and emotionally resonant. The effectiveness of RoleCraft-GLM is validated through various case studies, highlighting its versatility and skill in different scenarios. Our framework excels in generating dialogues that accurately reflect characters' personality traits and emotions, thereby boosting user engagement. In conclusion, RoleCraft-GLM marks a significant leap in personalized AI interactions, and paves the way for more authentic and immersive AI-assisted role-playing experiences by enabling more nuanced and emotionally rich dialogues | 翻訳日:2024-01-22 09:25:28 公開日:2023-12-17 |
# l1サポートベクトルマシンの平滑化アルゴリズム A Smoothing Algorithm for l1 Support Vector Machines ( http://arxiv.org/abs/2401.09431v1 ) ライセンス: Link先を確認 | Ibrahim Emirahmetoglu, Jeffrey Hajewski, Suely Oliveira, and David E. Stewart | (参考訳) ソフトマージン支援ベクトルマシン(SVM)最適化問題を$\ell^{1}$ペナルティで解くための平滑化アルゴリズムを提案する。
このアルゴリズムは、非常に大きなデータセットのコストの重要な尺度であるデータに対するわずかな数のパスを必要とするように設計されている。
このアルゴリズムはヒンジ損失関数の平滑化と$\ell^{1}$ペナルティのアクティブなセットアプローチを使用している。
滑らか化パラメータ $\alpha$ は最初は大きいが、スムーズ化された問題が十分正確に解けると半減する。
収束理論は、_\mathcal{o}(1+\log(1+\log_+(1/\alpha))$ガードされたニュートンステップが、漸近的バンドを除いて$\alpha$の値を示す。$\alpha=\theta(1)$と$\alpha=\theta(1/n)$であり、そのニュートンステップは$\eta\alpha\gg1/n$であり、ここで$n$はデータポイントの数であり、予測された還元が$\eta\alpha$以下である。
実験結果から,本アルゴリズムはトレーニング速度を犠牲にすることなく,試験精度を向上できることがわかった。 A smoothing algorithm is presented for solving the soft-margin Support Vector Machine (SVM) optimization problem with an $\ell^{1}$ penalty. This algorithm is designed to require a modest number of passes over the data, which is an important measure of its cost for very large datasets. The algorithm uses smoothing for the hinge-loss function, and an active set approach for the $\ell^{1}$ penalty. The smoothing parameter $\alpha$ is initially large, but typically halved when the smoothed problem is solved to sufficient accuracy. Convergence theory is presented that shows $\mathcal{O}(1+\log(1+\log_+(1/\alpha)))$ guarded Newton steps for each value of $\alpha$ except for asymptotic bands $\alpha=\Theta(1)$ and $\alpha=\Theta(1/N)$, with only one Newton step provided $\eta\alpha\gg1/N$, where $N$ is the number of data points and the stopping criterion that the predicted reduction is less than $\eta\alpha$. The experimental results show that our algorithm is capable of strong test accuracy without sacrificing training speed. | 翻訳日:2024-01-22 09:25:04 公開日:2023-12-17 |
# 畳み込みニューラルネットワークアーキテクチャの最適化 Optimizing Convolutional Neural Network Architecture ( http://arxiv.org/abs/2401.01361v1 ) ライセンス: Link先を確認 | Luis Balderas, Miguel Lastra and Jos\'e M. Ben\'itez | (参考訳) 畳み込みニューラルネットワーク(CNN)は、音声認識や自然言語処理、コンピュータビジョンといった課題に直面するために広く使われている。
CNNアーキテクチャがより大きく複雑になるにつれて、その計算要求は増加し、かなりのエネルギーコストが発生し、リソース制限されたデバイスへのデプロイメントに挑戦する。
本稿では,畳み込みと知識蒸留に基づく新しいcnn最適化手法である畳み込みニューラルネットワークアーキテクチャ(ocnna)を提案する。
この提案は、最もよく知られたデータセット(CIFAR-10、CIFAR-100、Imagenet)とCNNアーキテクチャ(VGG-16、ResNet-50、DenseNet-40、MobileNet)、精度低下とパラメータの保持率を客観的な指標として設定し、OCNNAと他の最先端のアプローチと比較する、徹底的な実証研究として評価されている。
本手法は20以上の畳み込みニューラルネットワーク簡易化アルゴリズムと比較され,優れた結果を得た。
その結果、OCNNAは、IoTやリソース制限されたデバイスへのニューラルネットワークのデプロイを容易にする、競争力のあるCNN構築方法である。 Convolutional Neural Networks (CNN) are widely used to face challenging tasks like speech recognition, natural language processing or computer vision. As CNN architectures get larger and more complex, their computational requirements increase, incurring significant energetic costs and challenging their deployment on resource-restricted devices. In this paper, we propose Optimizing Convolutional Neural Network Architecture (OCNNA), a novel CNN optimization and construction method based on pruning and knowledge distillation designed to establish the importance of convolutional layers. The proposal has been evaluated though a thorough empirical study including the best known datasets (CIFAR-10, CIFAR-100 and Imagenet) and CNN architectures (VGG-16, ResNet-50, DenseNet-40 and MobileNet), setting Accuracy Drop and Remaining Parameters Ratio as objective metrics to compare the performance of OCNNA against the other state-of-art approaches. Our method has been compared with more than 20 convolutional neural network simplification algorithms obtaining outstanding results. As a result, OCNNA is a competitive CNN constructing method which could ease the deployment of neural networks into IoT or resource-limited devices. | 翻訳日:2024-01-15 10:08:59 公開日:2023-12-17 |
# 深層学習による単誘導ECGからのQT延長の検出 Detecting QT prolongation From a Single-lead ECG With Deep Learning ( http://arxiv.org/abs/2401.05378v1 ) ライセンス: Link先を確認 | Ridwan Alam, Aaron Aguirre, and Collin Stultz | (参考訳) 多くの抗不整脈薬には、qt延長のモニタリングを伴う3日間の入院が必要となる。
ウェアラブルECGモニターによるQT自動監視は、院外ケアを促進する。
我々は,心電図モニターから最も多く取得されるリードである心電図リードIからQT間隔を推定する深層学習モデルを開発し,ドフェチリド薬物負荷中に臨床的に有意なQT延長現象を検出する。
マサチューセッツ総合病院の903.6万の患者から4.22百万回の心電図記録を用いて、鉛IからQT間隔を推定する深層学習モデルQTNetを開発した。
モデルのトレーニングには653万人の患者から300万人以上のecgが、テストには135万人の患者から633万のecgを含む内部テストセットが使用された。
qtnetは、他施設の667万人の患者から3100万のecgを含む外部評価セットでさらに評価される。
QTNetは、抗不整脈薬の効果を評価する臨床試験に登録された被験者の心電図を含む公用データベース(ECGRDVQ-dataset)において、ドフェチリドによるQT延長を検出するために使用された。
QTNetは、絶対QT間隔を推定するための平均絶対誤差を12.63ms(内部検定)と12.30ms(外部検定)とする。
ピアソン相関係数は0.91(内部検定)と0.92(外部検定)である。
ECGRDVQデータセットでは、QTNetはドフェチリドによるQTc延長を87%の感度と77%の特異性で検出する。
このモデルの負の予測値は、薬物誘発QTc伸長の事前試験確率が25%未満である場合、95%以上である。
薬物によるQT延長リスクは、ディープラーニングを用いてECGリードIから追跡することができる。 For a number of antiarrhythmics, drug loading requires a 3 day hospitalization with monitoring for QT prolongation. Automated QT monitoring with wearable ECG monitors would facilitate out-of-hospital care. We develop a deep learning model that infers QT intervals from ECG lead-I - the lead most often acquired from ambulatory ECG monitors - and to use this model to detect clinically meaningful QT-prolongation episodes during Dofetilide drug loading. Using 4.22 million 12-lead ECG recordings from 903.6 thousand patients at the Massachusetts General Hospital, we develop a deep learning model, QTNet, that infers QT intervals from lead-I. Over 3 million ECGs from 653 thousand patients are used to train the model and an internal-test set containing 633 thousand ECGs from 135 thousand patients was used for testing. QTNet is further evaluated on an external-validation set containing 3.1 million ECGs from 667 thousand patients at another institution. QTNet was used to detect Dofetilide-induced QT prolongation in a publicly available database (ECGRDVQ-dataset) containing ECGs from subjects enrolled in a clinical trial evaluating the effects of antiarrhythmic drugs. QTNet achieves mean absolute errors of 12.63ms (internal-test) and 12.30ms (external-validation) for estimating absolute QT intervals. The associated Pearson correlation coefficients are 0.91 (internal-test) and 0.92 (external-validation). For the ECGRDVQ-dataset, QTNet detects Dofetilide-induced QTc prolongation with 87% sensitivity and 77% specificity. The negative predictive value of the model is greater than 95% when the pre-test probability of drug-induced QTc prolongation is below 25%. Drug-induced QT prolongation risk can be tracked from ECG lead-I using deep learning. | 翻訳日:2024-01-15 09:00:25 公開日:2023-12-17 |
# ADF & TransApp: スマートメータ消費系列を用いたアプライアンス検出のためのトランスフォーマーベースのフレームワーク ADF & TransApp: A Transformer-Based Framework for Appliance Detection Using Smart Meter Consumption Series ( http://arxiv.org/abs/2401.05381v1 ) ライセンス: Link先を確認 | Adrien Petralia, Philippe Charpentier, Themis Palpanas | (参考訳) 過去10年間で、世界中の電力供給業者によって数百万のスマートメーターがインストールされ、低周波数(30分毎に1ポイント)でサンプリングされた大量の電力消費データを収集できるようになった。
これらのサプライヤーが直面する重要な課題の1つは、これらのデータを顧客家庭におけるさまざまな家電の有無を検出する方法である。
この貴重な情報は、顧客のエネルギー移行を支援するパーソナライズされたオファーやレコメンデーションを提供するのに役立つ。
時系列分類問題としてアプライアンス検出を行うことができる。
しかし、大量のデータと消費系列の長と可変長を組み合わせると、分類器を訓練する際の課題が生じる。
本稿では,アプライアンスの存在/存在を検出するためにクライアント消費系列のサブシーケンスを利用するフレームワークであるAFFを提案する。
また、Transformerベースの時系列分類器であるTransAppを導入し、まず自己教師付きで事前訓練を行い、アプライアンス検出タスクの性能を向上させる。
当社のアプローチは、公開データセットを含む2つの実際のデータセットでテストしています。
2つの大きな実データセットによる実験結果から,提案手法は,アプライアンス検出に適用した最先端の時系列分類器を含む,現在のソリューションよりも優れていることが示された。
この論文はVLDB 2024に登場した。 Over the past decade, millions of smart meters have been installed by electricity suppliers worldwide, allowing them to collect a large amount of electricity consumption data, albeit sampled at a low frequency (one point every 30min). One of the important challenges these suppliers face is how to utilize these data to detect the presence/absence of different appliances in the customers' households. This valuable information can help them provide personalized offers and recommendations to help customers towards the energy transition. Appliance detection can be cast as a time series classification problem. However, the large amount of data combined with the long and variable length of the consumption series pose challenges when training a classifier. In this paper, we propose ADF, a framework that uses subsequences of a client consumption series to detect the presence/absence of appliances. We also introduce TransApp, a Transformer-based time series classifier that is first pretrained in a self-supervised way to enhance its performance on appliance detection tasks. We test our approach on two real datasets, including a publicly available one. The experimental results with two large real datasets show that the proposed approach outperforms current solutions, including state-of-the-art time series classifiers applied to appliance detection. This paper appeared in VLDB 2024. | 翻訳日:2024-01-15 08:43:32 公開日:2023-12-17 |
# バイオインスパイアされた特徴選択を用いた慢性疾患予測のためのデータセット最適化 Dataset Optimization for Chronic Disease Prediction with Bio-Inspired Feature Selection ( http://arxiv.org/abs/2401.05380v1 ) ライセンス: Link先を確認 | Abeer Dyoub, Ivan Letteri | (参考訳) 本研究では, 遺伝アルゴリズム, 粒子群最適化, クジラ最適化アルゴリズムなどの生物インスパイアされた最適化アルゴリズムの慢性疾患予測における特徴選択への応用について検討した。
第一の目標は、モデルの予測精度を高め、データの次元を合理化し、予測をより解釈可能で実用的なものにすることであった。
この研究は、糖尿病、癌、腎臓、心血管疾患を含む、さまざまな慢性疾患にまたがる3つの生体インスパイアされた特徴選択アプローチの比較分析を含んでいる。
精度、精度、リコール、f1スコアなどのパフォーマンス指標は、正確な分類に必要な特徴の数を減らすアルゴリズムの有効性を評価するために使用される。
その結果, バイオインスパイアされた最適化アルゴリズムは, 正確な分類に必要な特徴数を削減できることを示した。
しかし、異なるデータセットにおけるアルゴリズムの性能は様々である。
この研究は、データの事前処理とクリーニングの重要性を強調し、分析の信頼性と有効性を保証する。
本研究は慢性疾患の分野における予測分析の進歩に寄与する。
この研究の潜在的影響は、早期介入、精密医療、そして患者の成果の改善にまで及んでおり、個々のニーズに合わせて医療サービスを届けるための新たな道を提供する。
この結果は、慢性疾患の予測における特徴選択にバイオインスパイアされた最適化アルゴリズムを使用することの潜在的な利点を強調し、医療結果を改善するための貴重な洞察を提供する。 In this study, we investigated the application of bio-inspired optimization algorithms, including Genetic Algorithm, Particle Swarm Optimization, and Whale Optimization Algorithm, for feature selection in chronic disease prediction. The primary goal was to enhance the predictive accuracy of models streamline data dimensionality, and make predictions more interpretable and actionable. The research encompassed a comparative analysis of the three bio-inspired feature selection approaches across diverse chronic diseases, including diabetes, cancer, kidney, and cardiovascular diseases. Performance metrics such as accuracy, precision, recall, and f1 score are used to assess the effectiveness of the algorithms in reducing the number of features needed for accurate classification. The results in general demonstrate that the bio-inspired optimization algorithms are effective in reducing the number of features required for accurate classification. However, there have been variations in the performance of the algorithms on different datasets. The study highlights the importance of data pre-processing and cleaning in ensuring the reliability and effectiveness of the analysis. This study contributes to the advancement of predictive analytics in the realm of chronic diseases. The potential impact of this work extends to early intervention, precision medicine, and improved patient outcomes, providing new avenues for the delivery of healthcare services tailored to individual needs. The findings underscore the potential benefits of using bio-inspired optimization algorithms for feature selection in chronic disease prediction, offering valuable insights for improving healthcare outcomes. | 翻訳日:2024-01-15 08:43:12 公開日:2023-12-17 |
# autovisual fusion suite: huggingfaceプラットフォームにおける画像分割と音声変換ツールの包括的評価 AutoVisual Fusion Suite: A Comprehensive Evaluation of Image Segmentation and Voice Conversion Tools on HuggingFace Platform ( http://arxiv.org/abs/2401.05379v1 ) ライセンス: Link先を確認 | Amirreza Hashemi | (参考訳) 本研究では,HuggingFaceプラットフォーム上で利用可能なツールについて,画像分割と音声変換の2つの重要な応用について総合評価を行った。
主な目的は、各カテゴリの上位3つのツールを特定し、その後これらのツールをLinuxシステムにインストールして設定することであった。
画像分割のためのresnet-50バックボーンと音声変換のためのso-vits-svc-forkモデルを用いたsamおよびdetrモデルなどの事前学習されたセグメンテーションモデルのパワーを活用した。
本稿では,実装プロセス中に遭遇した方法論と課題を考察し,autovisual fusion suite という統一プロジェクトにおいて,映像分割と音声変換の組み合わせが成功したことを示す。 This study presents a comprehensive evaluation of tools available on the HuggingFace platform for two pivotal applications in artificial intelligence: image segmentation and voice conversion. The primary objective was to identify the top three tools within each category and subsequently install and configure these tools on Linux systems. We leveraged the power of pre-trained segmentation models such as SAM and DETR Model with ResNet-50 backbone for image segmentation, and the so-vits-svc-fork model for voice conversion. This paper delves into the methodologies and challenges encountered during the implementation process, and showcases the successful combination of video segmentation and voice conversion in a unified project named AutoVisual Fusion Suite. | 翻訳日:2024-01-15 08:42:47 公開日:2023-12-17 |
# 量子フーリエ変換回路のコンパイル Quantum Fourier Transformation Circuits Compilation ( http://arxiv.org/abs/2312.16114v1 ) ライセンス: Link先を確認 | Yuwei Jin, Xiangyu Gao, Minghao Guo, Henry Chen, Fei Hua, Chi Zhang, Eddy Z. Zhang | (参考訳) 本稿では,量子フーリエ変換(QFT)回路に適した,ドメイン固有のハードウェアマッピング戦略に主眼を置いている。
これまでは、SWAPゲートを物理量子ビットを持つ論理量子ビットに挿入することで、ハードウェア互換QFT回路を生成するためのSATソルバやヒューリスティック手法に大きく依存していたが、大きな課題に遭遇した。
これらの課題には、satソルバの探索空間の拡大によるコンパイル時間の延長と、全てのゲート操作を効率的に実行するのに必要なサイクル数という観点での最適化結果が含まれる。
本研究では,技術的直観(しばしば「教育的推測」と呼ばれる)と高度なプログラム合成ツールを組み合わせた新しい手法を採用する。
我々の目標は、アフィンループやモジュラ関数といった概念を活用するQFTマッピングソリューションを明らかにすることである。
我々の研究の画期的な成果は、Google Sycamore, IBM Heavy-hex, and the conventional 2-dimensional (2D) grid configurationsのために設計された最初の線形深度変換QFT回路の導入である。
さらに,これらのソリューションの正確性を検証し,その中の潜在的な障害に対処するための戦略を開発するため,包括的な分析を行った。 In this research paper, our primary focus revolves around the domain-specific hardware mapping strategy tailored for Quantum Fourier Transformation (QFT) circuits. While previous approaches have heavily relied on SAT solvers or heuristic methods to generate hardware-compatible QFT circuits by inserting SWAP gates to realign logical qubits with physical qubits at various stages, they encountered significant challenges. These challenges include extended compilation times due to the expansive search space for SAT solvers and suboptimal outcomes in terms of the number of cycles required to execute all gate operations efficiently. In our study, we adopt a novel approach that combines technical intuition, often referred to as "educated guesses," and sophisticated program synthesis tools. Our objective is to uncover QFT mapping solutions that leverage concepts such as affine loops and modular functions. The groundbreaking outcome of our research is the introduction of the first set of linear-depth transformed QFT circuits designed for Google Sycamore, IBM heavy-hex, and the conventional 2-dimensional (2D) grid configurations, accommodating an arbitrary number of qubits denoted as 'N'. Additionally, we have conducted comprehensive analyses to verify the correctness of these solutions and to develop strategies for handling potential faults within them. | 翻訳日:2023-12-31 03:16:27 公開日:2023-12-17 |
# 拡散モデルにおけるunetの時間ダイナミクスの解法 Unraveling the Temporal Dynamics of the Unet in Diffusion Models ( http://arxiv.org/abs/2312.14965v1 ) ライセンス: Link先を確認 | Vidya Prasad, Chen Zhu-Tian, Anna Vilanova, Hanspeter Pfister, Nicola Pezzotti, Hendrik Strobelt | (参考訳) 拡散モデルは、複雑な多変量ガウス分布を効果的に学習できるため、様々な高品質な結果をもたらすため、大きな注目を集めている。
トレーニングデータにガウスノイズを導入し、元のデータを反復的に再構築する。
この反復プロセスの中心は単一のunetであり、生成を容易にするために時間ステップにまたがって適応する。
最近の研究は、この生成過程における構成と装飾段階の存在を明らかにし、ユニッツの様々な役割に関する疑問を提起した。
本研究は,拡散確率モデル(DDPM)におけるUnetsの動的挙動を考察し,(de)畳み込みブロックに着目し,時間ステップをまたいだ接続をスキップする。
本稿では,最終出力に対する時間ステップとコアunetコンポーネントの影響を体系的に評価する分析手法を提案する。
この方法は因果関係を研究する成分を取り除き、その出力変化への影響を調べる。
主な目的は、時間的ダイナミクスを理解し、推論中に潜在的ショートカットを特定することである。
本研究は推論中の様々な生成段階について貴重な知見を与え,これらの段階におけるユニツの利用パターンを明らかにした。
これらの知見を生かして、GLIDE(DDPMの改善)における冗長性を同定し、出力品質の低下を最小限に抑えながら、推論時間を約27%改善する。
最終的な目標は、推論のためのよりインフォームドな最適化戦略をガイドし、新しいモデル設計に影響を与えることです。 Diffusion models have garnered significant attention since they can effectively learn complex multivariate Gaussian distributions, resulting in diverse, high-quality outcomes. They introduce Gaussian noise into training data and reconstruct the original data iteratively. Central to this iterative process is a single Unet, adapting across time steps to facilitate generation. Recent work revealed the presence of composition and denoising phases in this generation process, raising questions about the Unets' varying roles. Our study dives into the dynamic behavior of Unets within denoising diffusion probabilistic models (DDPM), focusing on (de)convolutional blocks and skip connections across time steps. We propose an analytical method to systematically assess the impact of time steps and core Unet components on the final output. This method eliminates components to study causal relations and investigate their influence on output changes. The main purpose is to understand the temporal dynamics and identify potential shortcuts during inference. Our findings provide valuable insights into the various generation phases during inference and shed light on the Unets' usage patterns across these phases. Leveraging these insights, we identify redundancies in GLIDE (an improved DDPM) and improve inference time by ~27% with minimal degradation in output quality. Our ultimate goal is to guide more informed optimization strategies for inference and influence new model designs. | 翻訳日:2023-12-31 03:12:45 公開日:2023-12-17 |
# LightGCN: 評価と拡張 LightGCN: Evaluated and Enhanced ( http://arxiv.org/abs/2312.16183v1 ) ライセンス: Link先を確認 | Milena Kapralova, Luca Pantea and Andrei Blahovici | (参考訳) 本稿では,グラフレコメンデーションアルゴリズムを用いてLightGCNを解析する。
グラフ分類のためのグラフ畳み込みネットワークの初期設計にもかかわらず、非線形演算は必ずしも必須ではない。
LightGCNは埋め込みの線形伝播を可能にし、性能を向上させる。
元の結果を再現し、多様なデータセットやメトリクスに対するLightGCNの堅牢性を評価し、LightGCNにおける信号伝搬の増大としてグラフ拡散を探索する。 This paper analyses LightGCN in the context of graph recommendation algorithms. Despite the initial design of Graph Convolutional Networks for graph classification, the non-linear operations are not always essential. LightGCN enables linear propagation of embeddings, enhancing performance. We reproduce the original findings, assess LightGCN's robustness on diverse datasets and metrics, and explore Graph Diffusion as an augmentation of signal propagation in LightGCN. | 翻訳日:2023-12-31 03:00:10 公開日:2023-12-17 |
# 次元音声感情分析におけるサルエント表現とラベル分散の検討 Investigating salient representations and label Variance in Dimensional Speech Emotion Analysis ( http://arxiv.org/abs/2312.16180v1 ) ライセンス: Link先を確認 | Vikramjit Mitra, Jingping Nie, Erdrin Azemi | (参考訳) BERT (Bidirectional Encoder Representations from Transformers) や HuBERT (Hidden Unit BERT) といったモデルから派生した表現は、三次元音声の感情認識において最先端のパフォーマンスを達成するのに役立っている。
これらの表現は感情認識のタスクには適していないが、大きな音声感情モデルを高いメモリと計算コストで訓練するのに頻繁に使用される。
本研究では, 感情推定の性能を犠牲にすることなく, 下流モデルの複雑性を低減できる, 事前学習された表現空間内に低次元部分空間が存在することを示す。
さらに,ラベルの不確かさをグレーダーの意見分散の形でモデル化し,その情報によって一般化能力と頑健性が向上することを示す。
最後に, 音響劣化に対する感情モデルのロバスト性を比較し, 縮小次元表現は, 実次元表現と同等の性能を保ちながら, 次元感情性能を著しく低下させることなく維持できることを示した。 Representations derived from models such as BERT (Bidirectional Encoder Representations from Transformers) and HuBERT (Hidden units BERT), have helped to achieve state-of-the-art performance in dimensional speech emotion recognition. Despite their large dimensionality, and even though these representations are not tailored for emotion recognition tasks, they are frequently used to train large speech emotion models with high memory and computational costs. In this work, we show that there exist lower-dimensional subspaces within the these pre-trained representational spaces that offer a reduction in downstream model complexity without sacrificing performance on emotion estimation. In addition, we model label uncertainty in the form of grader opinion variance, and demonstrate that such information can improve the models generalization capacity and robustness. Finally, we compare the robustness of the emotion models against acoustic degradations and observed that the reduced dimensional representations were able to retain the performance similar to the full-dimensional representations without significant regression in dimensional emotion performance. | 翻訳日:2023-12-31 03:00:01 公開日:2023-12-17 |
# 低高度航空機によるバードストライク防止のための長期短期記憶ネットワークを用いた鳥の移動予測 Bird Movement Prediction Using Long Short-Term Memory Networks to Prevent Bird Strikes with Low Altitude Aircraft ( http://arxiv.org/abs/2312.12461v1 ) ライセンス: Link先を確認 | Elaheh Sabziyan Varnousfaderani, Syed A. M. Shihab | (参考訳) 空域での航空機と鳥の衝突は、鳥の個体数の増加、航空交通量の増加、静かな航空機の使用などにより、過去10年間に急増している。
新型のアドバンスト・エアモビリティ(Advanced Air Mobility)航空機が低高度空域で飛行を開始すると、航空機による鳥の攻撃は劇的に増加すると予想されている。
このようなバードストライクは人間や鳥の死亡事故を引き起こすだけでなく、航空機業界に毎年何百万ドルもの損害を与えている。
鳥による攻撃の原因と影響をよりよく理解するために、これまでの研究は、鳥による攻撃の確率を増大させる要因の分析、異なる場所における高いリスクを持つ鳥の特定、鳥による攻撃の今後の数の予測、鳥による攻撃の損害の見積もりに重点を置いてきた。
しかし,鳥が飛来する確率を最小化するための飛行計画アルゴリズムにおける鳥の動き予測に関する研究は非常に限られている。
このギャップに対処するため,鳥の動きの緯度と経度を予測するために,LSTM(Long Short-Term Memory)モデルを4種類実装した。
ハトの動きに関する公開データセットを使用して、モデルをトレーニングし、パフォーマンスを評価する。
鳥の飛行軌道予測を用いて、クリーブランドホプキンス空港からの航空機の出発は、離陸中に航空機による鳥の攻撃を避けるために、様々な量で遅延するようシミュレーションされる。
その結果、LSTMモデルは、100m未満の平均絶対誤差を達成し、線形回帰モデルや非線形回帰モデルよりも高い精度で鳥の動きを予測できることを示した。
以上の結果から,飛行計画に鳥の動き予測を組み込むことが極めて有益であることが示唆された。 The number of collisions between aircraft and birds in the airspace has been increasing at an alarming rate over the past decade due to increasing bird population, air traffic and usage of quieter aircraft. Bird strikes with aircraft are anticipated to increase dramatically when emerging Advanced Air Mobility aircraft start operating in the low altitude airspace where probability of bird strikes is the highest. Not only do such bird strikes can result in human and bird fatalities, but they also cost the aviation industry millions of dollars in damages to aircraft annually. To better understand the causes and effects of bird strikes, research to date has mainly focused on analyzing factors which increase the probability of bird strikes, identifying high risk birds in different locations, predicting the future number of bird strike incidents, and estimating cost of bird strike damages. However, research on bird movement prediction for use in flight planning algorithms to minimize the probability of bird strikes is very limited. To address this gap in research, we implement four different types of Long Short-Term Memory (LSTM) models to predict bird movement latitudes and longitudes. A publicly available data set on the movement of pigeons is utilized to train the models and evaluate their performances. Using the bird flight track predictions, aircraft departures from Cleveland Hopkins airport are simulated to be delayed by varying amounts to avoid potential bird strikes with aircraft during takeoff. Results demonstrate that the LSTM models can predict bird movement with high accuracy, achieving a Mean Absolute Error of less than 100 meters, outperforming linear and nonlinear regression models. Our findings indicate that incorporating bird movement prediction into flight planning can be highly beneficial. | 翻訳日:2023-12-21 18:40:22 公開日:2023-12-17 |
# 機械学習に基づくソフトウェアシステムのセキュリティ:脅威,プラクティス,課題に関する調査 Security for Machine Learning-based Software Systems: a survey of threats, practices and challenges ( http://arxiv.org/abs/2201.04736v2 ) ライセンス: Link先を確認 | Huaming Chen, M. Ali Babar | (参考訳) 機械学習(ML)の急速な発展は、コンピュータビジョン、ビデオ、音声認識など、多くの分野で優れたパフォーマンスを示している。
今では、コアタスクを自動化するソフトウェアシステムでますます活用されている。
しかし、機械学習ベースのモダンソフトウェアシステム(MLBSS)をセキュアに開発する方法は依然として大きな課題であり、十分に考慮されていないため、安全クリティカルなドメインへの適用がほとんど制限される。
懸念の1つは、現在のMLBSS開発は急いでいる傾向にあり、外部ユーザやアタッカーに暴露される潜在的な脆弱性とプライバシ問題は、ほとんど無視され、特定が難しいことである。
さらに、機械学習ベースのソフトウェアシステムは、モデルとデータと外部の敵能力に固有の制限があるため、要件分析からシステムメンテナンスまで、開発段階の異なる新しい脆弱性に対する異なる負債を示す。
このようなインテリジェントなシステムの成功は、ソフトウェア工学、システムセキュリティ、機械学習など、さまざまな研究分野から、共同で専門的な取り組みを募ることになる。
mlのセキュリティ問題に関する最近の研究の多くは、データとモデルに強く焦点を合わせており、敵の攻撃が考慮されている。
本研究では,機械学習に基づくソフトウェアシステムのセキュリティは,システム固有の欠陥や外部の敵の攻撃から生じる可能性があり,ライフサイクル全体を通じてセキュアな開発プラクティスが採用されるべきであると考える。
機械学習は既存のソフトウェアエンジニアリングプラクティスの新たな脅威領域となっているが、そのトピックをカバーするレビュー作業は存在しない。
全体として、MLBSSのセキュリティに関する総合的なレビューを提示し、セキュリティの脅威という3つの異なる側面の構造的レビューから体系的な理解を網羅する。 The rapid development of Machine Learning (ML) has demonstrated superior performance in many areas, such as computer vision, video and speech recognition. It has now been increasingly leveraged in software systems to automate the core tasks. However, how to securely develop the machine learning-based modern software systems (MLBSS) remains a big challenge, for which the insufficient consideration will largely limit its application in safety-critical domains. One concern is that the present MLBSS development tends to be rush, and the latent vulnerabilities and privacy issues exposed to external users and attackers will be largely neglected and hard to be identified. Additionally, machine learning-based software systems exhibit different liabilities towards novel vulnerabilities at different development stages from requirement analysis to system maintenance, due to its inherent limitations from the model and data and the external adversary capabilities. The successful generation of such intelligent systems will thus solicit dedicated efforts jointly from different research areas, i.e., software engineering, system security and machine learning. Most of the recent works regarding the security issues for ML have a strong focus on the data and models, which has brought adversarial attacks into consideration. In this work, we consider that security for machine learning-based software systems may arise from inherent system defects or external adversarial attacks, and the secure development practices should be taken throughout the whole lifecycle. While machine learning has become a new threat domain for existing software engineering practices, there is no such review work covering the topic. Overall, we present a holistic review regarding the security for MLBSS, which covers a systematic understanding from a structure review of three distinct aspects in terms of security threats... | 翻訳日:2023-12-21 03:51:30 公開日:2023-12-17 |
# 機械学習による人間の判断における相対的公正性テスト Testing Relative Fairness in Human Decisions With Machine Learning ( http://arxiv.org/abs/2112.11279v2 ) ライセンス: Link先を確認 | Zhe Yu, Xiaoyin Xi | (参考訳) 意思決定の公平性は、我々の社会における長年の問題である。
アルゴリズムの公平性と比較して、人間が最終決定を下すプロセスや、トレーニングされた人間の決定から機械学習モデルがバイアスを継承するプロセスがあるため、人間の決定の公平性はさらに重要である。
しかし、人間の決定における公平さの基準は、非常に主観的かつ文脈的である。
これは、人間の決定において「絶対的」公平さをテストするのが困難になる。
この問題を回避するため、この研究は人間の決定における相対的公平性をテストすることを目的としている。
つまり、"絶対的な"公平な決定を定義する代わりに、ある決定セットの相対的公平性をチェックするのです。
An example outcome can be: Decision Set A favors female over male more than Decision Set B. Such relative fairness has the following benefits: (1) it avoids the ambiguous and contradictory definition of "absolute" fair decisions; (2) it reveals the relative preference and bias between different human decisions; (3) if a reference set of decisions is provided, relative fairness of other decision sets against this reference set can reflect whether those decision sets are fair by the standard of that reference set.
我々は,各センシティブグループにおける決定差の統計的テスト(ヌル仮説と効果サイズテスト)における相対的公平性を定義する。
さらに、人間の判断に基づいて訓練された機械学習モデルは、バイアス/プリファレンスを継承できるため、異なるデータに基づいてなされる2つの決定セット間の相対的公平さを推定できることを示した。 Fairness in decision-making has been a long-standing issue in our society. Compared to algorithmic fairness, fairness in human decisions is even more important since there are processes where humans make the final decisions and that machine learning models inherit bias from the human decisions they were trained on. However, the standard for fairness in human decisions are highly subjective and contextual. This leads to the difficulty for testing "absolute" fairness in human decisions. To bypass this issue, this work aims to test relative fairness in human decisions. That is, instead of defining what are "absolute" fair decisions, we check the relative fairness of one decision set against another. An example outcome can be: Decision Set A favors female over male more than Decision Set B. Such relative fairness has the following benefits: (1) it avoids the ambiguous and contradictory definition of "absolute" fair decisions; (2) it reveals the relative preference and bias between different human decisions; (3) if a reference set of decisions is provided, relative fairness of other decision sets against this reference set can reflect whether those decision sets are fair by the standard of that reference set. We define the relative fairness with statistical tests (null hypothesis and effect size tests) of the decision differences across each sensitive group. Furthermore, we show that a machine learning model trained on the human decisions can inherit the bias/preference and therefore can be utilized to estimate the relative fairness between two decision sets made on different data. | 翻訳日:2023-12-21 03:50:45 公開日:2023-12-17 |
# 最適輸送蒸留による言語教師付きゼロショット認識 Data Efficient Language-supervised Zero-shot Recognition with Optimal Transport Distillation ( http://arxiv.org/abs/2112.09445v3 ) ライセンス: Link先を確認 | Bichen Wu, Ruizhe Cheng, Peizhao Zhang, Tianren Gao, Peter Vajda, Joseph E. Gonzalez | (参考訳) 従来のコンピュータビジョンモデルは、予め定義されたカテゴリの固定セットを予測するように訓練される。
近年、自然言語は、監督された「ゴールド」ラベルよりも視覚的概念に詳細な記述を提供する、より広範にリッチな監督源であることが示されている。
CLIPのような以前の作業では、InfoNCE損失を使用して、イメージとテキストキャプションのペアリングを予測するモデルをトレーニングしている。
しかしclipはデータに飢えており、トレーニングには画像とテキストのペアが400万以上必要だ。
非効率性は、画像とテキストのペアがノイズであるという事実によって部分的に説明できる。
そこで本研究では,オンラインエントロピー最適化トランスポートを用いたotter(optimal transport distillation for efficient zero-shot recognition)を提案する。
事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。
InfoNCEの損失、ラベルのスムーズ化、知識の蒸留と比較すると、OTTERは、Tencent ML-ImagesのGoogle Open Images (19,958クラス)とマルチラベルのImageNet 10K (10032クラス)のゼロショット評価において、これらのベースラインを一貫して上回っている。
7つの異なるデータセット/アーキテクチャ設定 x 6 メトリクス、OTTER のパフォーマンス (32) または ties (2) に関する42以上の評価。 Traditional computer vision models are trained to predict a fixed set of predefined categories. Recently, natural language has been shown to be a broader and richer source of supervision that provides finer descriptions to visual concepts than supervised "gold" labels. Previous works, such as CLIP, use InfoNCE loss to train a model to predict the pairing between images and text captions. CLIP, however, is data hungry and requires more than 400M image-text pairs for training. The inefficiency can be partially attributed to the fact that the image-text pairs are noisy. To address this, we propose OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition), which uses online entropic optimal transport to find a soft image-text match as labels for contrastive learning. Based on pretrained image and text encoders, models trained with OTTER achieve strong performance with only 3M image text pairs. Compared with InfoNCE loss, label smoothing, and knowledge distillation, OTTER consistently outperforms these baselines in zero shot evaluation on Google Open Images (19,958 classes) and multi-labeled ImageNet 10K (10032 classes) from Tencent ML-Images. Over 42 evaluations on 7 different dataset/architecture settings x 6 metrics, OTTER outperforms (32) or ties (2) all baselines in 34 of them. | 翻訳日:2023-12-21 03:49:51 公開日:2023-12-17 |
# SAMP:自己適応混合精度によるテキスト処理のための後処理量子化モデル推論ツールキット SAMP: A Model Inference Toolkit of Post-Training Quantization for Text Processing via Self-Adaptive Mixed-Precision ( http://arxiv.org/abs/2209.09130v2 ) ライセンス: Link先を確認 | Rong Tian, Zijing Zhao, Weijie Liu, Haoyan Liu, Weiquan Mao, Zhe Zhao, Kan Zhou | (参考訳) FasterTransformerやTurboTransformersのような最新の産業推論エンジンは、半精度浮動小数点 (FP16) と8ビット整数 (INT8) の量子化がモデル推論速度を大幅に改善することを示した。
しかし、既存のINT8量子化手法は複雑すぎるため、不適切な使用によりモデルの性能が大幅に損なわれる。
本稿では,自己適応混合精度(SAMP)がモデル精度と効率のバランスをとるために,混合精度アーキテクチャによる量子化率を自動的に制御する手法を提案する。
実験の結果,我々のSAMPツールキットはPyTorchやFasterTransformerよりも高速であり,必要な精度を確保していることがわかった。
さらに、SAMPはモジュール設計に基づいており、トークンライザ、埋め込み、エンコーダ、ターゲット層を分離することで、ユーザは様々な下流タスクを処理でき、PyTorchにシームレスに統合できる。 The latest industrial inference engines, such as FasterTransformer and TurboTransformers, have verified that half-precision floating point (FP16) and 8-bit integer (INT8) quantization can greatly improve model inference speed. However, the existing INT8 quantization methods are too complicated, and improper usage will lead to model performance damage greatly. In this paper, we develop a toolkit for users to easily quantize their models for inference, in which Self-Adaptive Mixed-Precision (SAMP) is proposed to automatically control quantization rate by a mixed-precision architecture to balance model accuracy and efficiency. Experimental results show that our SAMP toolkit has a higher speedup than PyTorch and FasterTransformer while ensuring the required accuracy. In addition, SAMP is based on a modular design, decoupling the tokenizer, embedding, encoder and target layers, which allows users to handle various downstream tasks and can be seamlessly integrated into PyTorch. | 翻訳日:2023-12-21 03:24:54 公開日:2023-12-17 |
# ニューラルネットワークの最終層出力の変動予測 Variational Inference on the Final-Layer Output of Neural Networks ( http://arxiv.org/abs/2302.02420v4 ) ライセンス: Link先を確認 | Yadi Wei, Roni Khardon | (参考訳) 従来のニューラルネットワークは訓練が簡単だが、通常は過信的な予測を生成する。
対照的に、ベイズニューラルネットワークは不確かさを定量化するが、最適化はパラメータ空間が大きいため時間がかかる。
本稿では、パラメータ空間よりも出力空間がはるかに小さいため、最終層出力空間(VIFO)において変分推論を行うことにより、両方のアプローチの利点を組み合わせることを提案する。
ニューラルネットワークを用いて確率出力の平均と分散を学習する。
標準的な非ベイズモデルと同様に、vifoは単純なトレーニングを楽しめ、rademacherの複雑さを使ってモデルにリスクバウンダリを提供することができる。
一方, ベイジアン定式化を用いて, VIFO による崩壊変分推論を組み込んだ結果, 実際の性能が著しく向上した。
vifoとvifoのアンサンブルが実行時間と不確かさの定量化、特に分散データとの良好なトレードオフをもたらすことが実験で示されている。 Traditional neural networks are simple to train but they typically produce overconfident predictions. In contrast, Bayesian neural networks provide good uncertainty quantification but optimizing them is time consuming due to the large parameter space. This paper proposes to combine the advantages of both approaches by performing Variational Inference in the Final layer Output space (VIFO), because the output space is much smaller than the parameter space. We use neural networks to learn the mean and the variance of the probabilistic output. Like standard, non-Beyesian models, VIFO enjoys simple training and one can use Rademacher complexity to provide risk bounds for the model. On the other hand, using the Bayesian formulation we incorporate collapsed variational inference with VIFO which significantly improves the performance in practice. Experiments show that VIFO and ensembles of VIFO provide a good tradeoff in terms of run time and uncertainty quantification, especially for out of distribution data. | 翻訳日:2023-12-21 03:04:10 公開日:2023-12-17 |
# SUREL+:スケーラブルなグラフ表現学習のためのウォークからセットへの移行 SUREL+: Moving from Walks to Sets for Scalable Subgraph-based Graph Representation Learning ( http://arxiv.org/abs/2303.03379v2 ) ライセンス: Link先を確認 | Haoteng Yin, Muhan Zhang, Jianguo Wang, Pan Li | (参考訳) グラフを用いたグラフ表現学習(SGRL)は、モデル表現性と一般化能力の優位性から、最近、グラフ上の多くの予測タスクにおいて強力なツールとして登場した。
従来のsgrlモデルのほとんどは、トレーニングやテストクエリごとにサブグラフ抽出のコストが高くなるという計算問題に直面している。
最近、SURELはSGRLの高速化を提案され、ランダムウォークをオフラインでサンプリングし、これらのウォークを表現学習のためのサブグラフのプロキシとしてオンラインで結合する。
異なるクエリにわたるサンプルウォークの再利用性のおかげで、SURELはスケーラビリティと予測精度の点で最先端のパフォーマンスを実現している。
しかし、SURELは、サンプリングされたウォークにおけるノードの冗長性に起因する高い計算オーバーヘッドに悩まされている。
本研究では,ウォークの代わりにノードセットを用いてSURELをアップグレードし,サブグラフを表現する新しいフレームワークSUREL+を提案する。
このセットベースの表現は、繰り返しノードの定義を避けるが、ノードセットのサイズは不規則である。
この問題に対処するため,ノード集合を効率的に保存およびインデックス化するためのスパースデータ構造を設計し,並列バッチでそれらを結合するための特別な演算子を提供する。
SUREL+は、複数のタイプのセットサンプル、構造的特徴、ニューラルエンコーダをサポートし、ウォークからセットへの縮小後の構造情報損失を補完するようにモジュール化されている。
リンク,関係型,高次パターンの予測タスクにおいて,SUREL+を検証するための大規模な実験が行われた。
SUREL+は他のSGRLベースラインと比較して、SUREL+は$\sim$20$\times$スピードアップを達成し、予測精度を大幅に改善している。 Subgraph-based graph representation learning (SGRL) has recently emerged as a powerful tool in many prediction tasks on graphs due to its advantages in model expressiveness and generalization ability. Most previous SGRL models face computational issues associated with the high cost of subgraph extraction for each training or test query. Recently, SUREL was proposed to accelerate SGRL, which samples random walks offline and joins these walks online as a proxy of subgraphs for representation learning. Thanks to the reusability of sampled walks across different queries, SUREL achieves state-of-the-art performance in terms of scalability and prediction accuracy. However, SUREL still suffers from high computational overhead caused by node redundancy in sampled walks. In this work, we propose a novel framework SUREL+ that upgrades SUREL by using node sets instead of walks to represent subgraphs. This set-based representation avoids repeated nodes by definition, but node sets can be irregular in size. To address this issue, we design a customized sparse data structure to efficiently store and index node sets, and provide a specialized operator to join them in parallel batches. SUREL+ is modularized to support multiple types of set samplers, structural features, and neural encoders to complement the structure information loss after the reduction from walks to sets. Extensive experiments have been performed to validate SUREL+ in the prediction tasks of links, relation types, and higher-order patterns. SUREL+ achieves 3-11$\times$ speedups of SUREL while maintaining comparable or even better prediction performance; compared to other SGRL baselines, SUREL+ achieves $\sim$20$\times$ speedups and significantly improves the prediction accuracy. | 翻訳日:2023-12-21 02:52:44 公開日:2023-12-17 |
# ロバストな平滑化器による単一画像バックドアインバージョン Single Image Backdoor Inversion via Robust Smoothed Classifiers ( http://arxiv.org/abs/2303.00215v2 ) ライセンス: Link先を確認 | Mingjie Sun, J. Zico Kolter | (参考訳) バックドアインバージョン(backdoor inversion)は、多くのバックドア防御の中心的なステップであり、マシンラーニングモデルに挿入された隠れバックドアトリガーを復元するリバースエンジニアリングプロセスである。
既存のアプローチでは、クリーンなイメージのセットをターゲットクラスに切り替えることのできるバックドアパターンを探索することでこの問題に対処するが、このサポートセットの正確なサイズを調査することは滅多にない。
本研究では,1枚の画像で隠れたバックドアを復元できる,バックドア・インバージョンのための新しいアプローチを提案する。
近年の対向ロバスト化の進展により,SmoothInv法は1つのクリーンな画像から始まり,元のバックドア型分類器の頑健なスムーズなバージョンを用いて,対象クラスへの投射勾配降下を行う。
このような最適化プロセスからバックドアパターンが自然に現れることが分かりました。
既存のバックドア反転法と比較して、SmoothInvは最小最適化変数を導入し、複雑な正規化スキームを必要としない。
既存のバックドア攻撃から得られたバックドア分類器の定量的・質的研究を行った。
バックドアのImageNet分類器の場合、再構築されたバックドアは100%の攻撃成功率を持つ。
また、真のバックドアに対して高い忠実性を維持していることも示しています。
最後に,本手法に対する2つの対策を提案し分析し,適応型攻撃者に対してsmoothinvが頑健であることを示す。
私たちのコードはhttps://github.com/locuslab/smoothinvで利用可能です。 Backdoor inversion, a central step in many backdoor defenses, is a reverse-engineering process to recover the hidden backdoor trigger inserted into a machine learning model. Existing approaches tackle this problem by searching for a backdoor pattern that is able to flip a set of clean images into the target class, while the exact size needed of this support set is rarely investigated. In this work, we present a new approach for backdoor inversion, which is able to recover the hidden backdoor with as few as a single image. Insipired by recent advances in adversarial robustness, our method SmoothInv starts from a single clean image, and then performs projected gradient descent towards the target class on a robust smoothed version of the original backdoored classifier. We find that backdoor patterns emerge naturally from such optimization process. Compared to existing backdoor inversion methods, SmoothInv introduces minimum optimization variables and does not require complex regularization schemes. We perform a comprehensive quantitative and qualitative study on backdoored classifiers obtained from existing backdoor attacks. We demonstrate that SmoothInv consistently recovers successful backdoors from single images: for backdoored ImageNet classifiers, our reconstructed backdoors have close to 100% attack success rates. We also show that they maintain high fidelity to the underlying true backdoors. Last, we propose and analyze two countermeasures to our approach and show that SmoothInv remains robust in the face of an adaptive attacker. Our code is available at https://github.com/locuslab/smoothinv. | 翻訳日:2023-12-21 02:51:02 公開日:2023-12-17 |
# 量子ビットのカイラル基底 Chiral basis for qubits ( http://arxiv.org/abs/2303.14056v2 ) ライセンス: Link先を確認 | Vladislav Popkov, Xin Zhang, Frank G\"ohmann and Andreas Kl\"umper | (参考訳) 我々は,横スピンヘリックスとキンクからなる量子ビット基底を提案する。
このキラル基底は、通常の計算基底とは対照的に、異なる位相的性質を持ち、非自明な位相を持つ量子状態を記述するのに特に適している。
適切なパラメータを選択することで、横スピン成分を含む演算子、例えば$\sigma_n^x$または$\sigma_n^y$はキラルベースで対角化され、横スピン成分に焦点を当てた問題の研究が容易になる。
本研究では,近年の寒冷原子実験で測定されたxxモデルにおけるスピンヘリックスの横偏極の減衰について検討する。
任意の波長のヘリックスの緩和を記述する明示的な普遍関数を得る。 We propose a qubit basis composed of transverse spin helices with kinks. This chiral basis, in contrast to the usual computational basis, possesses distinct topological properties and is particularly suited for describing quantum states with nontrivial topology. By choosing appropriate parameters, operators containing transverse spin components, such as $\sigma_n^x$ or $\sigma_n^y$, become diagonal in the chiral basis, facilitating the study of problems focused on transverse spin components. As an application, we study the decay of the transverse polarization of a spin helix in the XX model, which has been measured in recent cold atom experiments. We obtain an explicit universal function describing the relaxation of helices of arbitrary wavelength. | 翻訳日:2023-12-21 02:41:50 公開日:2023-12-17 |
# 自然環境におけるAI駆動型統合的エミッションモニタリングと管理を目指して Towards AI-driven Integrative Emissions Monitoring & Management for Nature-Based Climate Solutions ( http://arxiv.org/abs/2312.11566v1 ) ライセンス: Link先を確認 | Olamide Oladeji, Seyed Shahabeddin Mousavi | (参考訳) AIは、森林や植生に基づくオフセットに影響を与える山火事の検出など、自然に基づく気候ソリューションに関連するいくつかの取り組みを支援する重要なツールとして提案されている。
この他のユースケースは、気候変動の緩和においてAIの力の重要な実証的価値を提供するが、そのような取り組みは、現実の気候政策の統合的な性質を意識せずにサイロで行われてきた。
本稿では,自然的気候意思決定のさまざまな側面に対する,ai支援による総合的総合的・総合的な意思決定支援のための新しい包括的枠組みを提案する。
森林などの植生ベースのソリューションに着目し,ai支援ワイルドファイア検出,ai支援植生炭素ストックアセスメント,リバースリスク緩和,災害対応計画といったai支援意思決定支援モデルが,総合的な枠組みに統合可能であることを示す。
異質な要素ではなく、フレームワークの要素間でのデータ交換や分析結果の交換、不確実性伝播の慎重な緩和は、現実の気候政策における現状に対する大きな価値をもたらすと仮定する。 AI has been proposed as an important tool to support several efforts related to nature-based climate solutions such as the detection of wildfires that affect forests and vegetation-based offsets. While this and other use-cases provide important demonstrative value of the power of AI in climate change mitigation, such efforts have typically been undertaken in silos, without awareness of the integrative nature of real-world climate policy-making. In this paper, we propose a novel overarching framework for AI-aided integrated and comprehensive decision support for various aspects of nature-based climate decision-making. Focusing on vegetation-based solutions such as forests, we demonstrate how different AI-aided decision support models such as AI-aided wildfire detection, AI-aided vegetation carbon stock assessment, reversal risk mitigation, and disaster response planning can be integrated into a comprehensive framework. Rather than being disparate elements, we posit that the exchange of data and analytical results across elements of the framework, and careful mitigation of uncertainty propagation will provide tremendous value relative to the status-quo for real-world climate policy-making. | 翻訳日:2023-12-20 18:34:53 公開日:2023-12-17 |
# 異なるテキスト音声技術に関するレビューベース研究 A review-based study on different Text-to-Speech technologies ( http://arxiv.org/abs/2312.11563v1 ) ライセンス: Link先を確認 | Md. Jalal Uddin Chowdhury, Ashab Hussan | (参考訳) 本研究は,TTS(Text-to-Speech)技術に関する総合的なレビューに基づく研究である。
TTS技術は人間とコンピュータの相互作用の重要な側面であり、機械はテキストを可聴音声に変換することができる。
本稿では, 共役TS, ホルマント合成TS, 統計パラメトリックTSなど, 利用可能なTS技術について検討する。
この研究は、これらの技術の利点と限界を、音声の自然性、システムの複雑さのレベル、異なるアプリケーションに適合する可能性の観点から比較することに焦点を当てている。
さらに、ニューラルTSとハイブリッドTSを含むTTS技術の最新の進歩について検討する。
この研究の結果は、研究者、開発者、そして様々なTS技術と特定のアプリケーションに適合する可能性を理解したいユーザに対して貴重な洞察を提供する。 This research paper presents a comprehensive review-based study on various Text-to-Speech (TTS) technologies. TTS technology is an important aspect of human-computer interaction, enabling machines to convert written text into audible speech. The paper examines the different TTS technologies available, including concatenative TTS, formant synthesis TTS, and statistical parametric TTS. The study focuses on comparing the advantages and limitations of these technologies in terms of their naturalness of voice, the level of complexity of the system, and their suitability for different applications. In addition, the paper explores the latest advancements in TTS technology, including neural TTS and hybrid TTS. The findings of this research will provide valuable insights for researchers, developers, and users who want to understand the different TTS technologies and their suitability for specific applications. | 翻訳日:2023-12-20 18:34:35 公開日:2023-12-17 |
# 基礎モデルによる推論に関する調査 A Survey of Reasoning with Foundation Models ( http://arxiv.org/abs/2312.11562v1 ) ライセンス: Link先を確認 | Jiankai Sun, Chuanyang Zheng, Enze Xie, Zhengying Liu, Ruihang Chu, Jianing Qiu, Jiaqi Xu, Mingyu Ding, Hongyang Li, Mengzhe Geng, Yue Wu, Wenhai Wang, Junsong Chen, Zhangyue Yin, Xiaozhe Ren, Jie Fu, Junxian He, Wu Yuan, Qi Liu, Xihui Liu, Yu Li, Hao Dong, Yu Cheng, Ming Zhang, Pheng Ann Heng, Jifeng Dai, Ping Luo, Jingdong Wang, Ji-Rong Wen, Xipeng Qiu, Yike Guo, Hui Xiong, Qun Liu, Zhenguo Li | (参考訳) 複雑な問題解決において重要な能力である推論は、交渉、医療診断、刑事捜査など、現実世界の様々な場面で重要な役割を果たしている。
人工知能(AGI)の分野における基本的な方法論として機能する。
基礎モデルの開発が進み、推論タスクの能力を探究することへの関心が高まっている。
本稿では,様々な推論タスク,メソッド,ベンチマークの最新の進歩を浮き彫りにして,推論に適応可能な基礎モデルを提案する。
次に、基礎モデルにおける推論能力の出現の背後にある潜在的な将来方向を掘り下げる。
また,マルチモーダル学習,自律エージェント,スーパーアライメントとの関連性についても論じる。
これらの今後の研究の方向性を議論することで、この分野の探索に研究者を刺激し、基礎モデルによる推論のさらなる進歩を刺激し、agiの開発に貢献することを望んでいる。 Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI. | 翻訳日:2023-12-20 18:34:21 公開日:2023-12-17 |
# COPD-FlowNet: CFD シミュレーションによる非侵襲型 COPD 診断の高次化 COPD-FlowNet: Elevating Non-invasive COPD Diagnosis with CFD Simulations ( http://arxiv.org/abs/2312.11561v1 ) ライセンス: Link先を確認 | Aryan Tyagi, Aryaman Rao, Shubhanshu Rao, Raj Kumar Singh | (参考訳) 慢性閉塞性肺障害 (COPD) は、感染した患者の生活の質に大きな影響を及ぼす呼吸器疾患である。
本稿では, COPD患者の気道に特異的なCFD速度場画像を生成するために, GAN(Generative Adversarial Network)を利用した新しいディープラーニングフレームワークであるCOPDFlowNetを提案する。
これらの合成画像は、データ拡張とモデルトレーニングのための貴重なリソースとなる。
さらに、COPDFlowNetは独自の畳み込みニューラルネットワーク(CNN)アーキテクチャを導入し、障害サイトの位置を予測する。 Chronic Obstructive Pulmonary Disorder (COPD) is a prevalent respiratory disease that significantly impacts the quality of life of affected individuals. This paper presents COPDFlowNet, a novel deep-learning framework that leverages a custom Generative Adversarial Network (GAN) to generate synthetic Computational Fluid Dynamics (CFD) velocity flow field images specific to the trachea of COPD patients. These synthetic images serve as a valuable resource for data augmentation and model training. Additionally, COPDFlowNet incorporates a custom Convolutional Neural Network (CNN) architecture to predict the location of the obstruction site. | 翻訳日:2023-12-20 18:34:09 公開日:2023-12-17 |
# 創発学習:創発能力の上昇方向と単意味性に基づく研究 Emergence Learning: A Rising Direction from Emergent Abilities and a Monosemanticity-Based Study ( http://arxiv.org/abs/2312.11560v1 ) ライセンス: Link先を確認 | Jiachuan Wang, Shimin Di, Lei Chen, Charles Wang Wai Ng | (参考訳) 過去20年間で、ニューラルネットワークはさまざまな領域で支配的になり、規模を拡大している。
しかし、現在の大規模モデルの分析は主に機能に焦点を当てており、その特性に対するスケール差の影響を軽視している。
そこで本稿では,スケールの重要性を強調する創発学習の概念を提案する。
異なるスケールのモデルを研究することで、大きなモデルにおいて高い性能を達成するための重要な要因を特定できた。
この知見に基づいて,性能向上のための一様性抑制のための積極的なアプローチを提案する。
本ソリューションは,理論解析によって支持される単発ニューロンの検出と抑制を含む2相プロセスを含む。
様々なタスクやニューラルネットワークの実験結果から,提案手法の有効性が示された。
創発学習の考え方に従い,スケーリング現象から着想を得たが,本手法の適用性は大規模に限定するものではない。
したがって、実験は自己完結である。
しかし、この研究を非常に大規模なデータセットに拡張することは、限られた資源のために研究部門にとって魅力的である。
私たちは、最初の共著者を共有し、提出前にあらゆるai企業からの協力を熱心に待ち望んでいます。 In the past 20 years, artificial neural networks have become dominant in various areas, continually growing in scale. However, the current analysis of large models has mainly focused on functionality, overlooking the influence of scale differences on their properties. To address this, we propose the concept of Emergence Learning, which emphasizes the significance of scale. By studying models of different scales, we have identified a key factor in achieving higher performance in large models: the decrease of monosemantic neurons. Building on this insight, we propose a proactive approach to inhibit monosemanticity for improved performance. Our solution involves a two-phase process that includes monosemantic neuron detection and inhibition, supported by theoretical analysis. Experimental results on various tasks and neural networks demonstrate the effectiveness of our proposed method. Following the idea of Emergence Learning, though drawing inspiration from scaling phenomena, the applicability of our method is not restricted to large scale alone. Therefore, the experiment is self-contained. However, extending this research to very large-scale datasets is appealing yet impossible for research departments due to limited resources. We are delighted to share the first co-authorship and eagerly await collaboration from any AI company before submission. | 翻訳日:2023-12-20 18:33:59 公開日:2023-12-17 |
# unbiased confidencesによるandroidマルウェア検出 Android Malware Detection with Unbiased Confidence Guarantees ( http://arxiv.org/abs/2312.11559v1 ) ライセンス: Link先を確認 | Harris Papadopoulos and Nestoras Georgiou and Charalambos Eliades and Andreas Konstantinidis | (参考訳) スマートフォンの驚くべき成長と、インターネットバンキングのようなセンシティブなアプリケーションのためのモバイルプラットフォームの利用のユビキタス化が相まって、モバイルマルウェアが急速に増加している。
近年の文献では、モバイルマルウェア検出の最も有望なアプローチとして機械学習技術が研究されているが、その検出に関わる不確実性は定量化されていない。
本稿では,各マルウェア検出において有効な信頼性保証を提供する機械学習動的解析手法を提案することで,この問題に対処する。
さらに、特定の保証は、悪意のあるクラスと良性クラスの両方を独立に保持し、データのいかなるバイアスにも影響を受けない。
提案されたアプローチは、ランダムフォレスト分類器と組み合わせた共形予測と呼ばれる新しい機械学習フレームワークに基づいている。
1866の悪意のあるアプリケーションと4816の良質なアプリケーションを実際のandroidデバイスにインストールして収集した大規模データセットでそのパフォーマンスを調べる。
我々は,この動的解析データの収集を研究コミュニティに公開する。
得られた実験結果は,提案手法により得られた出力の実証的妥当性,有用性,偏りのない性質を示す。 The impressive growth of smartphone devices in combination with the rising ubiquity of using mobile platforms for sensitive applications such as Internet banking, have triggered a rapid increase in mobile malware. In recent literature, many studies examine Machine Learning techniques, as the most promising approach for mobile malware detection, without however quantifying the uncertainty involved in their detections. In this paper, we address this problem by proposing a machine learning dynamic analysis approach that provides provably valid confidence guarantees in each malware detection. Moreover the particular guarantees hold for both the malicious and benign classes independently and are unaffected by any bias in the data. The proposed approach is based on a novel machine learning framework, called Conformal Prediction, combined with a random forests classifier. We examine its performance on a large-scale dataset collected by installing 1866 malicious and 4816 benign applications on a real android device. We make this collection of dynamic analysis data available to the research community. The obtained experimental results demonstrate the empirical validity, usefulness and unbiased nature of the outputs produced by the proposed approach. | 翻訳日:2023-12-20 18:33:40 公開日:2023-12-17 |
# SAI3D:3Dシーンで任意のインスタンスをセグメント化 SAI3D: Segment Any Instance in 3D Scenes ( http://arxiv.org/abs/2312.11557v1 ) ライセンス: Link先を確認 | Yingda Yin, Yuzheng Liu, Yang Xiao, Daniel Cohen-Or, Jingwei Huang, Baoquan Chen | (参考訳) 3Dインスタンスセグメンテーションの進歩は、伝統的にアノテーション付きデータセットの可用性に結び付けられており、その適用範囲はオブジェクトカテゴリの狭い範囲に限られている。
近年、CLIPのような視覚言語モデルを用いて、オープンセットのセマンティック推論を行っているが、これらの手法は同じカテゴリのオブジェクトを区別し、普遍的に適用できない特定のプロンプトに依存するのに苦労している。
本稿では,SAI3Dについて述べる。SAI3Dは,Segment Anything Model(SAM)から得られる幾何学的先行と意味的手がかりを相乗的に活用する,新しいゼロショット3Dインスタンスセグメンテーション手法である。
本手法では, 3次元シーンを幾何学的プリミティブに分割し, 多視点SAMマスクと整合した3次元インスタンスセグメンテーションに段階的にマージする。
さらに,動的しきい値機構を用いた階層的領域成長アルゴリズムの設計を行い,細粒度3次元シーン解析のロバスト性を大幅に改善した。
Scan-Netとより挑戦的なScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
特に、SAI3Dは既存のオープン語彙ベースラインよりも優れており、ScanNet++のクラスに依存しないセグメンテーションにおいて完全に教師されたメソッドよりも優れている。 Advancements in 3D instance segmentation have traditionally been tethered to the availability of annotated datasets, limiting their application to a narrow spectrum of object categories. Recent efforts have sought to harness vision-language models like CLIP for open-set semantic reasoning, yet these methods struggle to distinguish between objects of the same categories and rely on specific prompts that are not universally applicable. In this paper, we introduce SAI3D, a novel zero-shot 3D instance segmentation approach that synergistically leverages geometric priors and semantic cues derived from Segment Anything Model (SAM). Our method partitions a 3D scene into geometric primitives, which are then progressively merged into 3D instance segmentations that are consistent with the multi-view SAM masks. Moreover, we design a hierarchical region-growing algorithm with a dynamic thresholding mechanism, which largely improves the robustness of finegrained 3D scene parsing. Empirical evaluations on Scan-Net and the more challenging ScanNet++ datasets demonstrate the superiority of our approach. Notably, SAI3D outperforms existing open-vocabulary baselines and even surpasses fully-supervised methods in class-agnostic segmentation on ScanNet++. | 翻訳日:2023-12-20 18:33:22 公開日:2023-12-17 |
# StarVector:画像からスケーラブルなベクターグラフィックスコードを生成する StarVector: Generating Scalable Vector Graphics Code from Images ( http://arxiv.org/abs/2312.11556v1 ) ライセンス: Link先を確認 | Juan A. Rodriguez, Shubham Agarwal, Issam H. Laradji, Pau Rodriguez, David Vazquez, Christopher Pal, and Marco Pedersoli | (参考訳) スケーラビリティベクターグラフィックス(SVG)は、解像度の無限のスケーラビリティ、汎用性、編集能力のために、現代の画像レンダリングアプリケーションに不可欠なものになっている。
SVGは特にウェブ開発やグラフィックデザインの分野で人気がある。
ディープラーニングを用いた既存のSVGモデリングのアプローチは、複雑なSVGの生成に苦しむことが多く、広範囲な処理と単純化を必要とする単純なものに制限されている。
本稿では,コード生成大規模言語モデル(codellm)と視覚モデルを統合するマルチモーダルsvg生成モデルであるstarvectorを紹介する。
提案手法では,CLIP画像エンコーダを用いて画素ベースの画像から視覚表現を抽出し,アダプタモジュールを介して視覚トークンに変換する。
これらのビジュアルトークンはsvgトークンの埋め込みに事前設定され、シーケンスは次の予測を使ってstarcoderモデルによってモデル化され、視覚的トークンとコードトークンの整合を効果的に学習する。
これによりStarVectorは、ピクセルイメージを正確に表現する無制限のSVGを生成することができる。
starvectorのパフォーマンスを評価するために、複数のデータセットと関連するメトリクスにわたってsvgメソッドを評価するための包括的なベンチマークであるsvg-benchを提案する。
本ベンチマークでは,実世界のSVGサンプルの大規模データセットであるSVG-Stackなどの新しいデータセットを導入し,SVGの大規模基盤モデルとしてStarVectorを事前学習する。
以上の結果から,現在の手法よりも視覚的品質と複雑性の取り扱いが著しく向上し,SVG生成技術の進歩が目覚ましいことが示唆された。
コードとモデル: https://github.com/joanrod/star-vector Scalable Vector Graphics (SVGs) have become integral in modern image rendering applications due to their infinite scalability in resolution, versatile usability, and editing capabilities. SVGs are particularly popular in the fields of web development and graphic design. Existing approaches for SVG modeling using deep learning often struggle with generating complex SVGs and are restricted to simpler ones that require extensive processing and simplification. This paper introduces StarVector, a multimodal SVG generation model that effectively integrates Code Generation Large Language Models (CodeLLMs) and vision models. Our approach utilizes a CLIP image encoder to extract visual representations from pixel-based images, which are then transformed into visual tokens via an adapter module. These visual tokens are pre-pended to the SVG token embeddings, and the sequence is modeled by the StarCoder model using next-token prediction, effectively learning to align the visual and code tokens. This enables StarVector to generate unrestricted SVGs that accurately represent pixel images. To evaluate StarVector's performance, we present SVG-Bench, a comprehensive benchmark for evaluating SVG methods across multiple datasets and relevant metrics. Within this benchmark, we introduce novel datasets including SVG-Stack, a large-scale dataset of real-world SVG examples, and use it to pre-train StarVector as a large foundation model for SVGs. Our results demonstrate significant enhancements in visual quality and complexity handling over current methods, marking a notable advancement in SVG generation technology. Code and models: https://github.com/joanrod/star-vector | 翻訳日:2023-12-20 18:32:59 公開日:2023-12-17 |
# CR-SFP:ソフトフィルタの学習一貫性表現 CR-SFP: Learning Consistent Representation for Soft Filter Pruning ( http://arxiv.org/abs/2312.11555v1 ) ライセンス: Link先を確認 | Jingyang Xiang, Zhuangzhi Chen, Jianbiao Mei, Siqi Li, Jun Chen, Yong Liu | (参考訳) soft filter pruning~(sfp)は、pruned filterの更新を可能にする効果的なpruningテクニックとして登場し、ネットワークに復帰する機会となった。
しかし、このプルーニング戦略はトレーニングとプルーニングを別の方法で適用し、トレーニング時に再構成ネットワーク〜(R-NN)と推論時にプルーンドネットワーク〜(P-NN)との間に不整合表現が生じ、性能が低下する。
本稿では,CR-SFPと呼ばれるソフトフィルタプルーニングにおける一貫した表現を学習することで,このギャップを軽減することを提案する。
具体的には、各トレーニングステップにおいて、CR-SFPはR-NNとP-NNを同一トレーニングデータの異なる歪みバージョンで同時に最適化するとともに、双方向KL分割損失による後部分布の最小化を強制する。
一方、R-NNとP-NNはバックボーンパラメータを共有するため、追加の分類器パラメータのみが導入された。
トレーニング後、推測のためにP-NNをエクスポートできます。
CR-SFPは、追加の推論コストを導入することなくP-NNの精度を向上させるための、シンプルで効果的なトレーニングフレームワークである。
また、様々なプルーニング基準や損失関数と組み合わせることができる。
CR-SFPは様々なCNNアーキテクチャで一貫した改善を実現しています。
ImageNetでは、私たちのCR-SFPは、ResNet18上の41.8\%のFLOPを69.2\%のトップ-1精度で削減し、同じトレーニング設定下でSFPを2.1\%改善しています。
コードはGitHubで公開されている。 Soft filter pruning~(SFP) has emerged as an effective pruning technique for allowing pruned filters to update and the opportunity for them to regrow to the network. However, this pruning strategy applies training and pruning in an alternative manner, which inevitably causes inconsistent representations between the reconstructed network~(R-NN) at the training and the pruned network~(P-NN) at the inference, resulting in performance degradation. In this paper, we propose to mitigate this gap by learning consistent representation for soft filter pruning, dubbed as CR-SFP. Specifically, for each training step, CR-SFP optimizes the R-NN and P-NN simultaneously with different distorted versions of the same training data, while forcing them to be consistent by minimizing their posterior distribution via the bidirectional KL-divergence loss. Meanwhile, the R-NN and P-NN share backbone parameters thus only additional classifier parameters are introduced. After training, we can export the P-NN for inference. CR-SFP is a simple yet effective training framework to improve the accuracy of P-NN without introducing any additional inference cost. It can also be combined with a variety of pruning criteria and loss functions. Extensive experiments demonstrate our CR-SFP achieves consistent improvements across various CNN architectures. Notably, on ImageNet, our CR-SFP reduces more than 41.8\% FLOPs on ResNet18 with 69.2\% top-1 accuracy, improving SFP by 2.1\% under the same training settings. The code will be publicly available on GitHub. | 翻訳日:2023-12-20 18:32:33 公開日:2023-12-17 |
# 抽出と説明によるテキスト記述との相性関係の解読 Deciphering Compatibility Relationships with Textual Descriptions via Extraction and Explanation ( http://arxiv.org/abs/2312.11554v1 ) ライセンス: Link先を確認 | Yu Wang, Zexue He, Zhankui He, Hao Xu, Julian McAuley | (参考訳) ファッションアイテム間の互換性関係を理解し、正確に説明することは、AI駆動のファッションレコメンデーションの急成長する領域において難しい問題である。
現在のモデルは、この領域で前進する一方で、時折不足し、初等的で反復的な説明を提供する。
この研究は、Pair Fashion Explanation (PFE)データセットを導入することでこれらの欠点に対処することを目的としている。
さらに,このデータセットを活用した革新的な2段階パイプラインモデルを提案する。
この微調整により、モデルはアイテム間の互換性関係を伝える説明を生成することができる。
実験では,知識に富み,地対面の相関関係と一致し,理解可能かつ情報に富む記述を生成できる記述を,自動計測と人的評価の両方で評価するモデルの可能性を示す。
私たちのコードとデータはhttps://github.com/wangyu-ustc/pairfashionexplanationでリリースされます。 Understanding and accurately explaining compatibility relationships between fashion items is a challenging problem in the burgeoning domain of AI-driven outfit recommendations. Present models, while making strides in this area, still occasionally fall short, offering explanations that can be elementary and repetitive. This work aims to address these shortcomings by introducing the Pair Fashion Explanation (PFE) dataset, a unique resource that has been curated to illuminate these compatibility relationships. Furthermore, we propose an innovative two-stage pipeline model that leverages this dataset. This fine-tuning allows the model to generate explanations that convey the compatibility relationships between items. Our experiments showcase the model's potential in crafting descriptions that are knowledgeable, aligned with ground-truth matching correlations, and that produce understandable and informative descriptions, as assessed by both automatic metrics and human evaluation. Our code and data are released at https://github.com/wangyu-ustc/PairFashionExplanation | 翻訳日:2023-12-20 18:32:02 公開日:2023-12-17 |
# SeGA: Twitter上の異常なユーザ検出のためのプロンプトによる自己コントラスト学習 SeGA: Preference-Aware Self-Contrastive Learning with Prompts for Anomalous User Detection on Twitter ( http://arxiv.org/abs/2312.11553v1 ) ライセンス: Link先を確認 | Ying-Ying Chang, Wei-Yao Wang, Wen-Chih Peng | (参考訳) ソーシャルメディアのダイナミックで急速に進化する世界では、誤情報やサイバーいじめといった悪意ある活動に対処する上で、異常なユーザを検出することが重要な課題となっている。
異常ユーザの増加により、通常のユーザを模倣し、検出を回避できる能力が向上する一方、ボット検出のみに焦点を当てた既存の方法では、ユーザ間の微妙な区別を捉えることは不可能である。
これらの課題に対処するために,我々は,不均一なエンティティとtwittersphereにおけるそれらの関係を利用して,異なる悪意のある戦略を持つ異常ユーザを検出する,異常ユーザ検出のための選好認識型自己一貫性学習であるsegaを提案した。
SeGAは大規模言語モデルの知識を利用して、投稿を通じてユーザの好みを要約する。
さらに、ユーザの好みとプロンプトを統合することで、ユーザの振る舞いを記述するための多面的な側面を学習することができる。
提案したTwBNTベンチマークにおいて、SeGAは最先端の手法(+3.5\% ~ 27.6\%)を大幅に上回り、モデル設計と事前学習戦略の有効性を実証的に検証している。
私たちのコードとデータはhttps://github.com/ying0409/SeGAで公開されています。 In the dynamic and rapidly evolving world of social media, detecting anomalous users has become a crucial task to address malicious activities such as misinformation and cyberbullying. As the increasing number of anomalous users improves the ability to mimic normal users and evade detection, existing methods only focusing on bot detection are ineffective in terms of capturing subtle distinctions between users. To address these challenges, we proposed SeGA, preference-aware self-contrastive learning for anomalous user detection, which leverages heterogeneous entities and their relations in the Twittersphere to detect anomalous users with different malicious strategies. SeGA utilizes the knowledge of large language models to summarize user preferences via posts. In addition, integrating user preferences with prompts as pseudo-labels for preference-aware self-contrastive learning enables the model to learn multifaceted aspects for describing the behaviors of users. Extensive experiments on the proposed TwBNT benchmark demonstrate that SeGA significantly outperforms the state-of-the-art methods (+3.5\% ~ 27.6\%) and empirically validate the effectiveness of the model design and pre-training strategies. Our code and data are publicly available at https://github.com/ying0409/SeGA. | 翻訳日:2023-12-20 18:31:43 公開日:2023-12-17 |
# 近似ベイズ計算による確率的オフライン政策ランキング Probabilistic Offline Policy Ranking with Approximate Bayesian Computation ( http://arxiv.org/abs/2312.11551v1 ) ライセンス: Link先を確認 | Longchao Da, Porter Jenkins, Trevor Schwantes, Jeffrey Dotson, Hua Wei | (参考訳) 実際、安全と信頼性のために、実際の配備の前に、候補ポリシーをオフラインで比較・ランク付けすることが不可欠である。
事前の作業は、オフポリシー評価(op)のような価値ベースの手法によって、このオフラインポリシーランキング(opr)問題を解決することを目指している。
しかし、ポリシーパフォーマンスの全体論的特徴が欠如しているため、特別なケースのパフォーマンス(最悪のケースやベストケースなど)の分析に失敗している。
厳密な設定で報酬が完全にアクセスできない場合、正確なポリシー値を推定することはさらに困難である。
本稿では,専門家データを利用して専門家のように振る舞う候補政策の確率を特徴付け,その性能の後方分布を近似してランキングを支援する,確率的オフライン政策ランキング(popr)を提案する。
POPRは値推定に依存せず、導出された性能後部は、最悪の、最も良い、平均的なケースの候補を区別するために使用できる。
後部推定のために,エネルギーに基づく近似ベイズ計算(ABC)手法であるPOPR-EABCを提案する。
POPR-EABCはABCのヒューリスティックな性質をスムーズなエネルギー関数によって低減し、擬似的類似度によるサンプリング効率を向上させる。
我々は,POPR-EABCが様々な実験環境における離散的かつ連続的な行動空間のポリシーを評価するのに十分であることを示す。 In practice, it is essential to compare and rank candidate policies offline before real-world deployment for safety and reliability. Prior work seeks to solve this offline policy ranking (OPR) problem through value-based methods, such as Off-policy evaluation (OPE). However, they fail to analyze special cases performance (e.g., worst or best cases), due to the lack of holistic characterization of policies performance. It is even more difficult to estimate precise policy values when the reward is not fully accessible under sparse settings. In this paper, we present Probabilistic Offline Policy Ranking (POPR), a framework to address OPR problems by leveraging expert data to characterize the probability of a candidate policy behaving like experts, and approximating its entire performance posterior distribution to help with ranking. POPR does not rely on value estimation, and the derived performance posterior can be used to distinguish candidates in worst, best, and average-cases. To estimate the posterior, we propose POPR-EABC, an Energy-based Approximate Bayesian Computation (ABC) method conducting likelihood-free inference. POPR-EABC reduces the heuristic nature of ABC by a smooth energy function, and improves the sampling efficiency by a pseudo-likelihood. We empirically demonstrate that POPR-EABC is adequate for evaluating policies in both discrete and continuous action spaces across various experiment environments, and facilitates probabilistic comparisons of candidate policies before deployment. | 翻訳日:2023-12-20 18:31:18 公開日:2023-12-17 |
# ネットワーク侵入検出のための深層学習モデルの転送性に関する研究 A Study on Transferability of Deep Learning Models for Network Intrusion Detection ( http://arxiv.org/abs/2312.11550v1 ) ライセンス: Link先を確認 | Shreya Ghosh, Abu Shafin Mohammad Mahdee Jameel and Aly El Gamal | (参考訳) 本稿では,ネットワーク侵入検知装置における異なる攻撃クラス間の学習における伝達可能性について検討する。
特定の攻撃クラスでディープラーニングモデルをトレーニングし、別の攻撃クラスでテストすることで、攻撃クラスの転送可能性を評価する。
実データおよび合成データ拡張技術が転送性に及ぼす影響を観察した。
我々は、対称性または非対称性を持つ観測された移動可能性関係の性質について検討する。
また,再帰的特徴除去アルゴリズムを用いて,伝達可能性関係の説明可能性について検討した。
モデル性能を向上させるためのデータ前処理技術について検討する。
この作業のコードはhttps://github.com/ghosh64/transferabilityにある。 In this paper, we explore transferability in learning between different attack classes in a network intrusion detection setup. We evaluate transferability of attack classes by training a deep learning model with a specific attack class and testing it on a separate attack class. We observe the effects of real and synthetically generated data augmentation techniques on transferability. We investigate the nature of observed transferability relationships, which can be either symmetric or asymmetric. We also examine explainability of the transferability relationships using the recursive feature elimination algorithm. We study data preprocessing techniques to boost model performance. The code for this work can be found at https://github.com/ghosh64/transferability. | 翻訳日:2023-12-20 18:30:50 公開日:2023-12-17 |
# ラベルなし多変量時系列異常検出 Label-Free Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2312.11549v1 ) ライセンス: Link先を確認 | Qihang Zhou, Shibo He, Haoyu Liu, Jiming Chen, Wenchao Meng | (参考訳) 多変量時系列(MTS)における異常検出は、一級分類(OCC)において広く研究されている。
OCCのトレーニングサンプルは正常であると考えられており、実際の状況では保証が難しい。
このような場合、訓練分布を正規分布とするoccに基づく異常検出法の性能を低下させることができる。
本稿では,mts異常検出のための動的グラフとエンティティ認識正規化フローを用いた教師なし異常検出手法であるmtgflowを提案する。
MTGFlowはまずトレーニングサンプル全体の密度を推定し、その後、適合分布内のテストサンプルの密度に基づいて異常なインスタンスを識別する。
これは、異常なインスタンスが通常のインスタンスよりも疎密度を示し、クリーンなトレーニングデータセットに依存しないという広く受け入れられた仮定に依存している。
しかし、エンティティ間の複雑な依存関係と、その多様な特性による密度を直接推定することは困難である。
そこで我々は,mtsの複雑かつ正確な分布パターンを効果的に捉えるために,グラフ構造学習モデルを用いてエンティティ間の相互依存的および進化的関係を学習する。
さらに,このアプローチでは,エンティティ認識正規化フローを用いることで,個々のエンティティのユニークな特性を取り入れている。
これにより、各エンティティをパラメータ化正規分布として表現することができる。
さらに, 類似した特徴を持つエンティティについても考慮し, 類似した特徴を持つエンティティの共通性を活かしたクラスタ戦略を提案し, より正確かつ詳細な密度推定を行う。
このクラスタ対応拡張をMTGFlow_clusterと呼ぶ。
mtgflowとmtgflowクラスタが優れた検出性能を示す6つのベンチマークデータセットについて,広範な実験を行った。 Anomaly detection in multivariate time series (MTS) has been widely studied in one-class classification (OCC) setting. The training samples in OCC are assumed to be normal, which is difficult to guarantee in practical situations. Such a case may degrade the performance of OCC-based anomaly detection methods which fit the training distribution as the normal distribution. In this paper, we propose MTGFlow, an unsupervised anomaly detection approach for MTS anomaly detection via dynamic Graph and entity-aware normalizing Flow. MTGFlow first estimates the density of the entire training samples and then identifies anomalous instances based on the density of the test samples within the fitted distribution. This relies on a widely accepted assumption that anomalous instances exhibit more sparse densities than normal ones, with no reliance on the clean training dataset. However, it is intractable to directly estimate the density due to complex dependencies among entities and their diverse inherent characteristics. To mitigate this, we utilize the graph structure learning model to learn interdependent and evolving relations among entities, which effectively captures complex and accurate distribution patterns of MTS. In addition, our approach incorporates the unique characteristics of individual entities by employing an entity-aware normalizing flow. This enables us to represent each entity as a parameterized normal distribution. Furthermore, considering that some entities present similar characteristics, we propose a cluster strategy that capitalizes on the commonalities of entities with similar characteristics, resulting in more precise and detailed density estimation. We refer to this cluster-aware extension as MTGFlow_cluster. Extensive experiments are conducted on six widely used benchmark datasets, in which MTGFlow and MTGFlow cluster demonstrate their superior detection performance. | 翻訳日:2023-12-20 18:30:43 公開日:2023-12-17 |
# プログラミングのための生成的人工知能フィードバックの学生の認識と評価 Students' Perceptions and Preferences of Generative Artificial Intelligence Feedback for Programming ( http://arxiv.org/abs/2312.11567v1 ) ライセンス: Link先を確認 | Zhengdong Zhang, Zihan Dong, Yang Shi, Noboru Matsuda, Thomas Price, Dongkuan Xu | (参考訳) 人工知能(AI)の急速な進化、特に大きな言語モデル(LLM)は、様々な教育応用の機会を開いた。
本稿では、最も人気のあるLCMであるChatGPTを用いて、導入型コンピュータサイエンス(CS1)クラスにおけるJavaプログラミング課題のフィードバックを自動化する可能性について検討する。
具体的には,3つの質問に焦点をあてる。
1) 学生はLLM生成フィードバックを形式的と考えるか?
2) 学生はコードを含むフィードバックプロンプトとそれを除くプロンプトの相対的な余裕をどのように見ているだろうか?
3) 学生はAIによるフィードバックを改善するためにどのような改善を提案するか?
これらの問題に対処するため、CS1クラスで4つの実験室割り当てのためのChatGPT APIを使用して自動フィードバックを生成した。
調査の結果,学生はフィードバックがShuteが確立した形式的フィードバックガイドラインとよく一致していると感じた。
さらに,LLMプロンプトの一部として学生のコードを含めることによるフィードバックの嗜好が明確であり,本研究は,フィードバックの特異性,明快性,補正性に起因することが示唆された。
さらに, 学生は, 十分なコード例で, 特定の, 訂正的なフィードバックを期待する傾向を示したが, フィードバックのトーンに関する意見は異なっていた。
本研究は,ChatGPTがJavaプログラム代入フィードバックを生成できることを示した。
また、ChatGPTが生成するフィードバックを学生に有用なものにする、特定の改善に関する洞察も提供した。 The rapid evolution of artificial intelligence (AI), specifically large language models (LLMs), has opened opportunities for various educational applications. This paper explored the feasibility of utilizing ChatGPT, one of the most popular LLMs, for automating feedback for Java programming assignments in an introductory computer science (CS1) class. Specifically, this study focused on three questions: 1) To what extent do students view LLM-generated feedback as formative? 2) How do students see the comparative affordances of feedback prompts that include their code, vs. those that exclude it? 3) What enhancements do students suggest for improving AI-generated feedback? To address these questions, we generated automated feedback using the ChatGPT API for four lab assignments in the CS1 class. The survey results revealed that students perceived the feedback as aligning well with formative feedback guidelines established by Shute. Additionally, students showed a clear preference for feedback generated by including the students' code as part of the LLM prompt, and our thematic study indicated that the preference was mainly attributed to the specificity, clarity, and corrective nature of the feedback. Moreover, this study found that students generally expected specific and corrective feedback with sufficient code examples, but had diverged opinions on the tone of the feedback. This study demonstrated that ChatGPT could generate Java programming assignment feedback that students perceived as formative. It also offered insights into the specific improvements that would make the ChatGPT-generated feedback useful for students. | 翻訳日:2023-12-20 18:19:17 公開日:2023-12-17 |
# 無限に多くの腕のバンディットを腐らせる Rotting Infinitely Many-armed Bandits ( http://arxiv.org/abs/2201.12975v3 ) ライセンス: Link先を確認 | Jung-hun Kim, Milan Vojnovic, Se-Young Yun | (参考訳) 我々は,最大ロッティングレート$\varrho=o(1)$ の任意の傾向に従って腕の平均報酬が減少する,ロッティング報酬を伴う無限多腕バンディット問題を考える。
この学習問題には$\omega(\max\{\varrho^{1/3}t,\sqrt{t}\})$の最悪の場合の後悔の上限があり、ここで$t$は地平線時間である。
多対数係数の最大値まで一致する上限$\tilde{o}(\max\{\varrho^{1/3}t,\sqrt{t}\})$は、各腕に対してucbインデックスとしきい値を使って、最大回転率$\varrho$の値を知っているアルゴリズムが、腕を引っ張り続けるか、腕を外すかを判断するアルゴリズムによって達成できることを示す。
また、適応的 UCB 指数と適応的しきい値を用いて、$\tilde{O}(\max\{\varrho^{1/3}T,T^{3/4}\})$ regret upper bound が $\varrho$ の値を知らないアルゴリズムによって達成可能であることを示す。 We consider the infinitely many-armed bandit problem with rotting rewards, where the mean reward of an arm decreases at each pull of the arm according to an arbitrary trend with maximum rotting rate $\varrho=o(1)$. We show that this learning problem has an $\Omega(\max\{\varrho^{1/3}T,\sqrt{T}\})$ worst-case regret lower bound where $T$ is the horizon time. We show that a matching upper bound $\tilde{O}(\max\{\varrho^{1/3}T,\sqrt{T}\})$, up to a poly-logarithmic factor, can be achieved by an algorithm that uses a UCB index for each arm and a threshold value to decide whether to continue pulling an arm or remove the arm from further consideration, when the algorithm knows the value of the maximum rotting rate $\varrho$. We also show that an $\tilde{O}(\max\{\varrho^{1/3}T,T^{3/4}\})$ regret upper bound can be achieved by an algorithm that does not know the value of $\varrho$, by using an adaptive UCB index along with an adaptive threshold value. | 翻訳日:2023-12-19 21:42:48 公開日:2023-12-17 |
# 超伝導量子プロセッサにおける熱変動量子シミュレーション Thermal variational quantum simulation on a superconducting quantum processor ( http://arxiv.org/abs/2107.06234v2 ) ライセンス: Link先を確認 | Xue-Yi Guo, Shang-Shu Li, Xiao Xiao, Zhong-Cheng Xiang, Zi-Yong Ge, He-Kang Li, Peng-Tao Song, Yi Peng, Kai Xu, Pan Zhang, Lei Wang, Dong-Ning Zheng, and Heng Fan | (参考訳) 量子多体系の有限温度特性の解法は、計算の複雑さが高いため、古典的コンピュータでは一般に困難である。
本稿では,熱量子状態のハイブリッド量子古典シミュレーションを実証する実験を行う。
古典的確率モデルと5量子ビットのプログラム可能な超伝導量子プロセッサを組み合わせることで、ハイゼンベルクXYおよびXXZモデルのギブス状態と励起状態とを高忠実で、変動自由エネルギー、エネルギー、エントロピーを含む熱的性質を小さな統計的誤差で生成する。
我々の手法は、サンプリングのための古典的確率モデルとユニタリ変換のための量子コプロセッサの利点を組み合わせたものである。
提案手法は量子ビット数でスケーラブルであり,自己検証可能な特徴を持ち,短期中規模量子コンピュータにおける大規模量子統計力学問題の解法の可能性を明らかにする。 Solving finite-temperature properties of quantum many-body systems is generally challenging to classical computers due to their high computational complexities. In this article, we present experiments to demonstrate a hybrid quantum-classical simulation of thermal quantum states. By combining a classical probabilistic model and a 5-qubit programmable superconducting quantum processor, we prepare Gibbs states and excited states of Heisenberg XY and XXZ models with high fidelity and compute thermal properties including the variational free energy, energy, and entropy with a small statistical error. Our approach combines the advantage of classical probabilistic models for sampling and quantum co-processors for unitary transformations. We show that the approach is scalable in the number of qubits, and has a self-verifiable feature, revealing its potentials in solving large-scale quantum statistical mechanics problems on near-term intermediate-scale quantum computers. | 翻訳日:2023-12-19 21:41:14 公開日:2023-12-17 |
# 多様体の観点から見た可換性と絡み合い Commutativity and Disentanglement from the Manifold Perspective ( http://arxiv.org/abs/2210.07857v4 ) ライセンス: Link先を確認 | Frank Qiu | (参考訳) 本稿では,データ多様体の局所チャートの発見として非絡合を解釈し,この定義が自然に非絡合の等価条件(変動因子間の可換性)を導出する方法を追究する。
本研究では, 行列指数演算子の学習とデータ生成モデルの圧縮という2つの問題に対する多様体フレームワークの影響について検討する。
それぞれの問題において、多様体的視点は、その解の実現可能性と実りあるアプローチについて興味深い結果をもたらす。
我々はまた、多様体のフレームワークを、群論と確率論的アプローチの2つの共通の非絡み合いパラダイムにリンクする。
いずれの場合も、これらのフレームワークが多様体の観点とどのように統合できるかを示す。
重要なことに、我々は両代替フレームワークの中心的な特性として可換性を回復し、不連続におけるその重要性をさらに強調する。 In this paper, we interpret disentanglement as the discovery of local charts of the data manifold and trace how this definition naturally leads to an equivalent condition for disentanglement: commutativity between factors of variation. We study the impact of this manifold framework to two classes of problems: learning matrix exponential operators and compressing data-generating models. In each problem, the manifold perspective yields interesting results about the feasibility and fruitful approaches their solutions. We also link our manifold framework to two other common disentanglement paradigms: group theoretic and probabilistic approaches to disentanglement. In each case, we show how these frameworks can be merged with our manifold perspective. Importantly, we recover commutativity as a central property in both alternative frameworks, further highlighting its importance in disentanglement. | 翻訳日:2023-12-19 21:31:05 公開日:2023-12-17 |
# 有限1次元系の測度に基づく量子計算:弦順序は計算力を意味する Measurement-based quantum computation in finite one-dimensional systems: string order implies computational power ( http://arxiv.org/abs/2210.05089v3 ) ライセンス: Link先を確認 | Robert Raussendorf, Wang Yang, and Arnab Adhikary | (参考訳) 本研究では,空間次元1において,近距離対称資源状態における測定ベース量子計算(MBQC)のパワーを評価するための新しい枠組みを提案する。
既知よりも少ない仮定を必要とする。
形式主義は有限拡張系(熱力学の極限とは対照的に)を扱うことができ、翻訳不変性を必要としない。
さらに,MBQC計算パワーと文字列順序との接続性を強化する。
すなわち、適切な文字列順序パラメータの集合が 0 でないとき、対応するユニタリゲートの集合が任意にユニタリに近い忠実度で実現可能であることを確かめる。 We present a new framework for assessing the power of measurement-based quantum computation (MBQC) on short-range entangled symmetric resource states, in spatial dimension one. It requires fewer assumptions than previously known. The formalism can handle finitely extended systems (as opposed to the thermodynamic limit), and does not require translation-invariance. Further, we strengthen the connection between MBQC computational power and string order. Namely, we establish that whenever a suitable set of string order parameters is non-zero, a corresponding set of unitary gates can be realized with fidelity arbitrarily close to unity. | 翻訳日:2023-12-19 21:30:51 公開日:2023-12-17 |
# Transformer-CNNコホート:両学生のベストによる半教師付きセマンティックセマンティックセグメンテーション Transformer-CNN Cohort: Semi-supervised Semantic Segmentation by the Best of Both Students ( http://arxiv.org/abs/2209.02178v2 ) ライセンス: Link先を確認 | Xu Zheng, Yunhao Luo, Chong Fu, Kangcheng Liu and Lin Wang | (参考訳) 半教師付きセマンティックセグメンテーションの一般的な方法は、主に畳み込みニューラルネットワーク(CNN)を用いたユニタリネットワークモデルを採用し、入力やモデルに適用された摂動に対するモデルの予測の一貫性を強制する。
しかし、そのような学習パラダイムには2つの限界がある。
a) ラベルなしデータの識別的特徴を学習すること
b) 全体像からグローバル及びローカル情報の両方を学ぶこと。
本稿では,Transformer-CNN Cohort(TCC)と呼ばれる,視覚変換器(ViT)とCNN(CNN)をベースとした2人の学生からなる,新しい半教師あり学習(SSL)手法を提案する。
提案手法は,ラベルなしデータの擬似ラベル付けにより,予測値と異種特徴空間の多レベル整合性正規化を補足的に行う。
まず、vit学生の入力は画像パッチであるため、抽出された特徴マップは重要なクラス毎の統計情報をエンコードする。
そこで本研究では,まず各学生の出力を擬似ラベルとして活用し,各学生間の知識伝達のためのクラス認識特徴量(CF)マップを生成するCFCDを提案する。
第二に、ViT学生は全ての層に対してより均一な表現を持つので、コホートからピクセルワイズ予測の間で知識を伝達するための一貫性を考慮したクロス蒸留(CCD)を提案する。
我々はCityscapesとPascal VOC 2012データセットのTCCフレームワークを検証する。 The popular methods for semi-supervised semantic segmentation mostly adopt a unitary network model using convolutional neural networks (CNNs) and enforce consistency of the model's predictions over perturbations applied to the inputs or model. However, such a learning paradigm suffers from two critical limitations: a) learning the discriminative features for the unlabeled data; b) learning both global and local information from the whole image. In this paper, we propose a novel Semi-supervised Learning (SSL) approach, called Transformer-CNN Cohort (TCC), that consists of two students with one based on the vision transformer (ViT) and the other based on the CNN. Our method subtly incorporates the multi-level consistency regularization on the predictions and the heterogeneous feature spaces via pseudo-labeling for the unlabeled data. First, as the inputs of the ViT student are image patches, the feature maps extracted encode crucial class-wise statistics. To this end, we propose class-aware feature consistency distillation (CFCD) that first leverages the outputs of each student as the pseudo labels and generates class-aware feature (CF) maps for knowledge transfer between the two students. Second, as the ViT student has more uniform representations for all layers, we propose consistency-aware cross distillation (CCD) to transfer knowledge between the pixel-wise predictions from the cohort. We validate the TCC framework on Cityscapes and Pascal VOC 2012 datasets, which outperforms existing SSL methods by a large margin. | 翻訳日:2023-12-19 21:30:40 公開日:2023-12-17 |
# 部分マトリックスコンプリート Partial Matrix Completion ( http://arxiv.org/abs/2208.12063v2 ) ライセンス: Link先を確認 | Elad Hazan, Adam Tauman Kalai, Varun Kanade, Clara Mohri, Y. Jennifer Sun | (参考訳) 行列完備問題は、明らかに騒がしい項目の集合に基づいて、低ランク行列を再構築することを目的としている。
事前の作業では、一般化エラー保証で行列全体の完備化を検討する。
しかし、その完了精度は異なる項目で大きく異なる可能性がある。
この作業は部分行列補完の新たなフレームワークを確立し、高い信頼性で完了できるエントリの大きなサブセットを特定することを目的としている。
我々は,以下の保証付き効率的なアルゴリズムを提案する。
未知の任意の分布からサンプルにアクセスすると、次のことが保証される。
(a)完成品よりも精度が高いこと、及び
b) 基礎となる分布を高い範囲でカバーする。
また,この問題のオンライン学習変種についても検討し,反復的勾配更新に基づく低regretアルゴリズムを提案する。
予備的な評価も含む。 The matrix completion problem aims to reconstruct a low-rank matrix based on a revealed set of possibly noisy entries. Prior works consider completing the entire matrix with generalization error guarantees. However, the completion accuracy can be drastically different over different entries. This work establishes a new framework of partial matrix completion, where the goal is to identify a large subset of the entries that can be completed with high confidence. We propose an efficient algorithm with the following provable guarantees. Given access to samples from an unknown and arbitrary distribution, it guarantees: (a) high accuracy over completed entries, and (b) high coverage of the underlying distribution. We also consider an online learning variant of this problem, where we propose a low-regret algorithm based on iterative gradient updates. Preliminary empirical evaluations are included. | 翻訳日:2023-12-19 21:30:10 公開日:2023-12-17 |
# 作曲学習行動学習のためのメタレファレンシャルゲーム Meta-Referential Games to Learn Compositional Learning Behaviours ( http://arxiv.org/abs/2207.08012v4 ) ライセンス: Link先を確認 | Kevin Denamgana\"i, Sondess Missaoui, and James Alfred Walker | (参考訳) 人間は構成性を使って過去の経験から新しい経験へと一般化する。
我々は、経験を基本原子要素に分離し、新しい経験に携わる能力を支援するために、新しい方法で組み換えることができると仮定する。
我々は、これを作曲を一般化する能力として捉え、これを作曲学習行動(CLB)として活用する行動について述べる。
CLBの学習における中心的な問題は、結合問題(BP)の解決である。
人間は容易に行動できるという別の知能の偉業であるが、最先端の人工エージェントには当てはまらない。
そこで我々は,人間と協調できる人工エージェントを構築するために,BPのドメインに依存しないバージョンを解くことにより,CLBを展示するエージェントの能力を調べる新しいベンチマークを開発することを提案する。
我々は,参照ゲームの言語台頭と基盤フレームワークからインスピレーションを得て,メタ参照ゲーム(Meta-Referential Games)と題するメタラーニングゲームの拡張を提案し,このフレームワークを用いてベンチマーク,シンボリックビヘイビアベンチマーク(S2B)を構築した。
ベースラインの結果とエラー分析を提供し、ベンチマークが魅力的な課題であることを示し、研究コミュニティがより有能な人工エージェントを開発することを促すことを期待しています。 Human beings use compositionality to generalise from past experiences to novel experiences. We assume a separation of our experiences into fundamental atomic components that can be recombined in novel ways to support our ability to engage with novel experiences. We frame this as the ability to learn to generalise compositionally, and we will refer to behaviours making use of this ability as compositional learning behaviours (CLBs). A central problem to learning CLBs is the resolution of a binding problem (BP). While it is another feat of intelligence that human beings perform with ease, it is not the case for state-of-the-art artificial agents. Thus, in order to build artificial agents able to collaborate with human beings, we propose to develop a novel benchmark to investigate agents' abilities to exhibit CLBs by solving a domain-agnostic version of the BP. We take inspiration from the language emergence and grounding framework of referential games and propose a meta-learning extension of referential games, entitled Meta-Referential Games, and use this framework to build our benchmark, the Symbolic Behaviour Benchmark (S2B). We provide baseline results and error analysis showing that our benchmark is a compelling challenge that we hope will spur the research community towards developing more capable artificial agents. | 翻訳日:2023-12-19 21:29:18 公開日:2023-12-17 |
# 効率的な代理学習者によるアクティブラーニング Active Learning Guided by Efficient Surrogate Learners ( http://arxiv.org/abs/2301.02761v2 ) ライセンス: Link先を確認 | Yunpyo An, Suyeong Park, Kwang In Kim | (参考訳) 単一のデータポイントが新しいラベルを受け取るたびにディープラーニングモデルを再トレーニングすることは、トレーニングプロセスの固有の複雑さのために実用的ではない。
その結果、既存のアクティブラーニング(AL)アルゴリズムはバッチベースのアプローチを採用する傾向がある。
しかし、この戦略はしばしば冗長なサンプリングにつながり、最終的にラベリング手順の有効性を損なう。
本稿では,ニューラルネットワークの主学習者とともに,ガウス過程の力を利用する新しいALアルゴリズムを提案する。
提案モデルでは,新たなデータインスタンス毎にサロゲート学習者を更新することで,各ラベルに対する主モデルの完全な再トレーニングを必要とせずに,ニューラルネットワークの継続的学習ダイナミクスをエミュレートし,活用することができる。
4つのベンチマークデータセットの実験では、このアプローチが最先端技術のパフォーマンスに匹敵する、あるいは適合するなど、大幅な拡張をもたらすことが示されている。 Re-training a deep learning model each time a single data point receives a new label is impractical due to the inherent complexity of the training process. Consequently, existing active learning (AL) algorithms tend to adopt a batch-based approach where, during each AL iteration, a set of data points is collectively chosen for annotation. However, this strategy frequently leads to redundant sampling, ultimately eroding the efficacy of the labeling procedure. In this paper, we introduce a new AL algorithm that harnesses the power of a Gaussian process surrogate in conjunction with the neural network principal learner. Our proposed model adeptly updates the surrogate learner for every new data instance, enabling it to emulate and capitalize on the continuous learning dynamics of the neural network without necessitating a complete retraining of the principal model for each individual label. Experiments on four benchmark datasets demonstrate that this approach yields significant enhancements, either rivaling or aligning with the performance of state-of-the-art techniques. | 翻訳日:2023-12-19 21:18:47 公開日:2023-12-17 |
# 均一シーケンスの改善:シーケンス推薦のための時間間隔アウェアデータ拡張 Uniform Sequence Better: Time Interval Aware Data Augmentation for Sequential Recommendation ( http://arxiv.org/abs/2212.08262v2 ) ライセンス: Link先を確認 | Yizhou Dang, Enneng Yang, Guibing Guo, Linying Jiang, Xingwei Wang, Xiaoxiao Xu, Qinghui Sun, Hong Liu | (参考訳) シーケンスレコメンデーションは、対話された項目のシーケンスに基づいて、アクセスする次の項目を予測する重要なタスクである。
ほとんどの既存の作品は、前の項目から次の項目への遷移パターンとしてユーザーの好みを学習し、これら2つの項目の間の時間間隔を無視している。
しかし, シーケンス内の時間間隔は, 異なる場合があるため, ユーザ・モデリングの非効率性は \emph{preference drift} の問題により生じる。
実際、この観察を検証するために実証実験を行い、均一に分布する時間間隔(一様列と呼ばれる)のシーケンスは、時間間隔を大きく変化させるよりも性能向上に有益であることを示した。
そこで本研究では,文献では研究されていない時間間隔の観点から,シーケンスデータの拡張を提案する。
具体的には,Ti-Crop,Ti-Reorder,Ti-Mask,Ti-Substitute,Ti-Insertの5つの演算子を設計し,時間間隔の分散を考慮した一様列に変換する。
そこで我々は,異なる長さの項目列でデータ拡張を実行する制御戦略を考案した。
最後に、最先端モデルであるCoSeRec上でこれらの改善を実装し、実際の4つのデータセットに対するアプローチを検証する。
実験結果から,本手法は他の11種類の競合手法よりもはるかに優れた性能を示した。
実装はhttps://github.com/kinggugu/ticoserec。 Sequential recommendation is an important task to predict the next-item to access based on a sequence of interacted items. Most existing works learn user preference as the transition pattern from the previous item to the next one, ignoring the time interval between these two items. However, we observe that the time interval in a sequence may vary significantly different, and thus result in the ineffectiveness of user modeling due to the issue of \emph{preference drift}. In fact, we conducted an empirical study to validate this observation, and found that a sequence with uniformly distributed time interval (denoted as uniform sequence) is more beneficial for performance improvement than that with greatly varying time interval. Therefore, we propose to augment sequence data from the perspective of time interval, which is not studied in the literature. Specifically, we design five operators (Ti-Crop, Ti-Reorder, Ti-Mask, Ti-Substitute, Ti-Insert) to transform the original non-uniform sequence to uniform sequence with the consideration of variance of time intervals. Then, we devise a control strategy to execute data augmentation on item sequences in different lengths. Finally, we implement these improvements on a state-of-the-art model CoSeRec and validate our approach on four real datasets. The experimental results show that our approach reaches significantly better performance than the other 11 competing methods. Our implementation is available: https://github.com/KingGugu/TiCoSeRec. | 翻訳日:2023-12-19 21:17:56 公開日:2023-12-17 |
# 線形光回路のアウトカム確率近似 Approximating outcome probabilities of linear optical circuits ( http://arxiv.org/abs/2211.07184v2 ) ライセンス: Link先を確認 | Youngrong Lim and Changhun Oh | (参考訳) 準確率表現は、量子状態や量子回路などの量子システムを解析するための重要なツールである。
本研究では,線形光回路の出力確率を$s$-parameterized quasiprobability分布を用いて近似する古典的アルゴリズムを提案する。
特に、線形光学変換のノルム保存特性により準確率分布の形状を変調することにより、特定の場合において回路の負性境界を指数関数から最大多項式に減らすことができる。
その結果、回路の古典性に応じて精度の高い結果確率を効率的に推定する。
驚くべきことに、古典性が十分高い場合、乗算誤差内で多項式時間推定アルゴリズムに到達する。
この結果から,様々な行列関数を近似する量子インスピレーションアルゴリズムが得られた。
さらに,ポリスパース条件下での任意の(疑似)結果確率に対する近似アルゴリズムを用いて,ガウスボソンサンプリングの古典的シミュラビリティについて十分な条件を与える。
我々の研究は線形光学のパワーに光を当て、計算複雑性の問題に多くの量子インスパイアされたアルゴリズムを提供する。 Quasiprobability representation is an important tool for analyzing a quantum system, such as a quantum state or a quantum circuit. In this work, we propose classical algorithms specialized for approximating outcome probabilities of a linear optical circuit using $s$-parameterized quasiprobability distributions. Notably, we can reduce the negativity bound of a circuit from exponential to at most polynomial for specific cases by modulating the shapes of quasiprobability distributions thanks to the norm-preserving property of a linear optical transformation. Consequently, our scheme renders an efficient estimation of outcome probabilities with precision depending on the classicality of the circuit. Surprisingly, when the classicality is high enough, we reach a polynomial-time estimation algorithm within a multiplicative error. Our results provide quantum-inspired algorithms for approximating various matrix functions beating best-known results. Moreover, we give sufficient conditions for the classical simulability of Gaussian boson sampling using the approximating algorithm for any (marginal) outcome probability under the poly-sparse condition. Our study sheds light on the power of linear optics, providing plenty of quantum-inspired algorithms for problems in computational complexity. | 翻訳日:2023-12-19 21:16:14 公開日:2023-12-17 |
# 誘導・無秩序ボースガス中のサブ拡散動的スケーリングの観察 Observation of subdiffusive dynamic scaling in a driven and disordered Bose gas ( http://arxiv.org/abs/2304.06697v2 ) ライセンス: Link先を確認 | Gevorg Martirosyan, Christopher J. Ho, Ji\v{r}\'i Etrych, Yansheng Zhang, Alec Cao, Zoran Hadzibabic, Christoph Eigen | (参考訳) 弱い障害の存在下での強い周期的強制下での調律可能なボックストラッピングボース気体のダイナミクスについて検討する。
粒子間相互作用がなければ、駆動と乱れの相互作用は等方性非熱運動量分布となり、非拡散的動的スケーリングを示す。
運動量空間におけるこの部分拡散は、自然にエネルギー空間におけるランダムウォークと解釈できる。
また, 相互作用強度を増大させるためには, パワーロー運動量分布を特徴とする波動乱流にガスの挙動が円滑に交差し, 駆動量子系における乱れと相互作用の系統的研究の新たな可能性を開くことを実験的に示した。 We explore the dynamics of a tuneable box-trapped Bose gas under strong periodic forcing in the presence of weak disorder. In absence of interparticle interactions, the interplay of the drive and disorder results in an isotropic nonthermal momentum distribution that shows subdiffusive dynamic scaling, with sublinear energy growth and the universal scaling function captured well by a compressed exponential. We explain that this subdiffusion in momentum space can naturally be understood as a random walk in energy space. We also experimentally show that for increasing interaction strength, the gas behavior smoothly crosses over to wave turbulence characterized by a power-law momentum distribution, which opens new possibilities for systematic studies of the interplay of disorder and interactions in driven quantum systems. | 翻訳日:2023-12-19 21:08:58 公開日:2023-12-17 |
# DeepAccident: V2X自動運転の動作と事故予測ベンチマーク DeepAccident: A Motion and Accident Prediction Benchmark for V2X Autonomous Driving ( http://arxiv.org/abs/2304.01168v5 ) ライセンス: Link先を確認 | Tianqi Wang, Sukmin Kim, Wenxuan Ji, Enze Xie, Chongjian Ge, Junsong Chen, Zhenguo Li, Ping Luo | (参考訳) 安全は自動運転の優先事項である。
それでも、現在公表されているデータセットは、自律運転の直接的かつ説明可能な安全性評価をサポートしていない。
本研究では,実世界の運転時に頻繁に発生する多様な事故シナリオを含む現実的なシミュレータを用いて生成された大規模データセットであるdeepaccidentを提案する。
提案したDeepAccidentデータセットは,57Kの注釈付きフレームと285Kの注釈付きサンプルを含む。
さらに,異なる自律運転アルゴリズムの事故予測能力を直接評価するために,エンド・ツー・エンド動作と事故予測という新たなタスクを提案する。
さらに,各シナリオに対して,データ記録のための4台の車両と1台のインフラを設定し,事故シナリオの多様な視点を提供し,V2X(車間通信)による知覚と予測タスクの実現を可能にした。
最後に,V2XFormerと呼ばれるベースラインV2Xモデルを提案する。 Safety is the primary priority of autonomous driving. Nevertheless, no published dataset currently supports the direct and explainable safety evaluation for autonomous driving. In this work, we propose DeepAccident, a large-scale dataset generated via a realistic simulator containing diverse accident scenarios that frequently occur in real-world driving. The proposed DeepAccident dataset includes 57K annotated frames and 285K annotated samples, approximately 7 times more than the large-scale nuScenes dataset with 40k annotated samples. In addition, we propose a new task, end-to-end motion and accident prediction, which can be used to directly evaluate the accident prediction ability for different autonomous driving algorithms. Furthermore, for each scenario, we set four vehicles along with one infrastructure to record data, thus providing diverse viewpoints for accident scenarios and enabling V2X (vehicle-to-everything) research on perception and prediction tasks. Finally, we present a baseline V2X model named V2XFormer that demonstrates superior performance for motion and accident prediction and 3D object detection compared to the single-vehicle model. | 翻訳日:2023-12-19 21:08:24 公開日:2023-12-17 |
# GLT-T++:3次元シームズ追跡のためのグローバルローカルトランスフォーマー GLT-T++: Global-Local Transformer for 3D Siamese Tracking with Ranking Loss ( http://arxiv.org/abs/2304.00242v2 ) ライセンス: Link先を確認 | Jiahao Nie, Zhiwei He, Yuxiang Yang, Xudong Lv, Mingyu Gao, Jing Zhang | (参考訳) 3D領域提案ネットワーク(RPN)に基づくシームズトラッカーは、深いハフ投票で顕著な成功を収めている。
しかし、投票のキューとして1つのシードポイント機能を使用することで、高品質な3D提案が得られない。
さらに、投票過程におけるシードポイントの平等な処理は、その重要性にかかわらず、この制限を悪化させる。
これらの課題に対処するために,より優れた提案を生成するための新しいトランスフォーマーベースの投票方式を提案する。
特に、グローバルローカルトランスフォーマー(glt)モジュールは、オブジェクトとパッチ対応の幾何学的プリエントをシードポイントの特徴に統合するために考案され、結果として、シードポイントのオフセット学習のためのロバストで正確なヒントが得られる。
GLTモジュールをトレーニングするために,シードポイントの潜在的重要性重みをトレーニング制約として学習する重要予測分岐を導入する。
この変圧器を用いた投票方式を3D RPNに組み込んで,GLT-Tと呼ばれる新しいシームズ法を開発した。
さらに,シアームパラダイムにおける最上位の提案は,追従性能を制限した最も正確な提案ではないことを明らかにする。
そこで本研究では,二進数予測タスクをランキング問題としてアプローチし,目標対応ランキング損失とローカライズ対応ランキング損失を設計し,提案手法の正確なランキングを作成する。
GLT-T++はGLT-Tの強化版である。
複数のベンチマークにおいて、GLT-TとGLT-T++は、リアルタイムの推論速度を維持しながら、トラッキング精度において最先端の手法より優れていることを示す。
ソースコードはhttps://github.com/haooozi/glt-tで入手できる。 Siamese trackers based on 3D region proposal network (RPN) have shown remarkable success with deep Hough voting. However, using a single seed point feature as the cue for voting fails to produce high-quality 3D proposals. Additionally, the equal treatment of seed points in the voting process, regardless of their significance, exacerbates this limitation. To address these challenges, we propose a novel transformer-based voting scheme to generate better proposals. Specifically, a global-local transformer (GLT) module is devised to integrate object- and patch-aware geometric priors into seed point features, resulting in robust and accurate cues for offset learning of seed points. To train the GLT module, we introduce an importance prediction branch that learns the potential importance weights of seed points as a training constraint. Incorporating this transformer-based voting scheme into 3D RPN, a novel Siamese method dubbed GLT-T is developed for 3D single object tracking on point clouds. Moreover, we identify that the highest-scored proposal in the Siamese paradigm may not be the most accurate proposal, which limits tracking performance. Towards this concern, we approach the binary score prediction task as a ranking problem, and design a target-aware ranking loss and a localization-aware ranking loss to produce accurate ranking of proposals. With the ranking losses, we further present GLT-T++, an enhanced version of GLT-T. Extensive experiments on multiple benchmarks demonstrate that our GLT-T and GLT-T++ outperform state-of-the-art methods in terms of tracking accuracy while maintaining a real-time inference speed. The source code will be made available at https://github.com/haooozi/GLT-T. | 翻訳日:2023-12-19 21:08:06 公開日:2023-12-17 |
# EPro-PnP:一眼的対象推定のための一般化エンドツーエンド確率的視点n点 EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation ( http://arxiv.org/abs/2303.12787v3 ) ライセンス: Link先を確認 | Hansheng Chen, Wei Tian, Pichao Wang, Fan Wang, Lu Xiong, Hao Li | (参考訳) Perspective-n-Point (PnP) による単一のRGB画像からの3Dオブジェクトの配置は、コンピュータビジョンにおける長年の問題である。
エンドツーエンドのディープラーニングによって駆動される最近の研究は、PnPを微分可能な層として解釈し、ポーズ損失の勾配を逆伝播させることで2D-3D点対応の部分的学習を可能にすることを示唆している。
しかし、スクラッチからすべての対応を学ぶことは極めて困難であり、特に不明瞭なポーズ解では、大域的最適ポーズは理論上は微分不可能である。
本稿では,SE(3)多様体上の確率密度の異なるポーズの分布を出力する一般エンドツーエンドのポーズ推定のための確率的PnP層であるEPro-PnPを提案する。
2D-3D座標と対応する重みは、予測されたポーズ分布と目標ポーズ分布とのKL分散を最小化して学習した中間変数として扱われる。
基本原理は以前のアプローチを一般化し、注意機構に似ている。
EPro-PnPは既存の通信網を強化し、PnPベースの手法とLineMOD 6DoFのポーズ推定ベンチマークにおけるタスク固有のリーダーとのギャップを埋める。
さらに、EPro-PnPは、nuScenes 3Dオブジェクト検出ベンチマーク上で、最先端のポーズ精度を持つ新しい変形可能な対応ネットワークを実証し、ネットワーク設計の新たな可能性を探るのに役立つ。
私たちのコードはhttps://github.com/tjiiv-cprg/epro-pnp-v2で利用可能です。 Locating 3D objects from a single RGB image via Perspective-n-Point (PnP) is a long-standing problem in computer vision. Driven by end-to-end deep learning, recent studies suggest interpreting PnP as a differentiable layer, allowing for partial learning of 2D-3D point correspondences by backpropagating the gradients of pose loss. Yet, learning the entire correspondences from scratch is highly challenging, particularly for ambiguous pose solutions, where the globally optimal pose is theoretically non-differentiable w.r.t. the points. In this paper, we propose the EPro-PnP, a probabilistic PnP layer for general end-to-end pose estimation, which outputs a distribution of pose with differentiable probability density on the SE(3) manifold. The 2D-3D coordinates and corresponding weights are treated as intermediate variables learned by minimizing the KL divergence between the predicted and target pose distribution. The underlying principle generalizes previous approaches, and resembles the attention mechanism. EPro-PnP can enhance existing correspondence networks, closing the gap between PnP-based method and the task-specific leaders on the LineMOD 6DoF pose estimation benchmark. Furthermore, EPro-PnP helps to explore new possibilities of network design, as we demonstrate a novel deformable correspondence network with the state-of-the-art pose accuracy on the nuScenes 3D object detection benchmark. Our code is available at https://github.com/tjiiv-cprg/EPro-PnP-v2. | 翻訳日:2023-12-19 21:06:44 公開日:2023-12-17 |
# DeblurSR:スパイク表現の下のイベントベースの動き DeblurSR: Event-Based Motion Deblurring Under the Spiking Representation ( http://arxiv.org/abs/2303.08977v2 ) ライセンス: Link先を確認 | Chen Song, Chandrajit Bajaj, Qixing Huang | (参考訳) 本稿では,ぼやけた映像をシャープな映像に変換する新しい動きデブラリング手法であるdeblursrを提案する。
DeblurSRはイベントデータを利用して動きのあいまいさを補償し、スパイキング表現を利用してシャープな出力ビデオを時間から強度へのマッピングとしてパラメータ化する。
私たちの重要な貢献であるスパイキング表現(SR)は、生物において生物学的ニューロンがどのように相互に通信するかを決定する神経型原理にインスパイアされています。
スパイクが鋭いエッジを表現できる理由と、スパイクパラメータがニューロモルフィックな視点からどのように解釈されるかについて議論する。
DeblurSRは出力品質が高く、最先端のイベントベースのモーションデブロア法よりも少ない計算資源を必要とする。
さらに,我々のアプローチは,暗黙的神経表現の最近の進歩と相まって,ビデオの超解像まで容易に拡張できることを示した。
DeblurSRの実装と視覚化はhttps://github.com/chensong1995/DeblurSRで公開されている。 We present DeblurSR, a novel motion deblurring approach that converts a blurry image into a sharp video. DeblurSR utilizes event data to compensate for motion ambiguities and exploits the spiking representation to parameterize the sharp output video as a mapping from time to intensity. Our key contribution, the Spiking Representation (SR), is inspired by the neuromorphic principles determining how biological neurons communicate with each other in living organisms. We discuss why the spikes can represent sharp edges and how the spiking parameters are interpreted from the neuromorphic perspective. DeblurSR has higher output quality and requires fewer computing resources than state-of-the-art event-based motion deblurring methods. We additionally show that our approach easily extends to video super-resolution when combined with recent advances in implicit neural representation. The implementation and animated visualization of DeblurSR are available at https://github.com/chensong1995/DeblurSR. | 翻訳日:2023-12-19 21:06:15 公開日:2023-12-17 |
# パスとしてのレーングラフ:オンラインレーングラフ構築のための連続保存パスワイズモデリング Lane Graph as Path: Continuity-preserving Path-wise Modeling for Online Lane Graph Construction ( http://arxiv.org/abs/2303.08815v2 ) ライセンス: Link先を確認 | Bencheng Liao, Shaoyu Chen, Bo Jiang, Tianheng Cheng, Qian Zhang, Wenyu Liu, Chang Huang, Xinggang Wang | (参考訳) オンラインレーングラフの構築は、自動運転において有望だが挑戦的なタスクである。
従来の方法は、通常、レーングラフをピクセルまたはピースレベルでモデル化し、レーングラフをピクセル単位またはセグメント単位の接続で復元し、レーンの連続性を壊す。
人間のドライバーは車線ではなく、連続した経路と完全な経路に焦点を合わせ、運転する。
自動運転車は軌道計画のために車線グラフからの経路特定ガイダンスも必要である。
我々は、交通の流れを示す経路がレーングラフの原始であると主張する。
そこで本研究では,レーンの連続性をよく保ち,計画のための交通情報をエンコードする新しいパスワイズ方式でレーングラフをモデル化することを提案する。
本稿では,パスに基づくオンラインレーングラフ構築手法であるLaneGAPを提案し,パスをエンドツーエンドで学習し,Path2Graphアルゴリズムを用いてレーングラフを復元する。
我々は,従来のピクセルベースおよびピースベース手法であるnuSceneとArgoverse2データセットに対するLaneGAPの優位性を質的に定量的に検証した。
LaneGAPは様々な交通状況に対処できる。
コードとモデルは将来の研究を促進するために \url{https://github.com/hustvl/lanegap}でリリースされる。 Online lane graph construction is a promising but challenging task in autonomous driving. Previous methods usually model the lane graph at the pixel or piece level, and recover the lane graph by pixel-wise or piece-wise connection, which breaks down the continuity of the lane. Human drivers focus on and drive along the continuous and complete paths instead of considering lane pieces. Autonomous vehicles also require path-specific guidance from lane graph for trajectory planning. We argue that the path, which indicates the traffic flow, is the primitive of the lane graph. Motivated by this, we propose to model the lane graph in a novel path-wise manner, which well preserves the continuity of the lane and encodes traffic information for planning. We present a path-based online lane graph construction method, termed LaneGAP, which end-to-end learns the path and recovers the lane graph via a Path2Graph algorithm. We qualitatively and quantitatively demonstrate the superiority of LaneGAP over conventional pixel-based and piece-based methods on challenging nuScenes and Argoverse2 datasets. Abundant visualizations show LaneGAP can cope with diverse traffic conditions. Code and models will be released at \url{https://github.com/hustvl/LaneGAP} for facilitating future research. | 翻訳日:2023-12-19 21:05:58 公開日:2023-12-17 |
# FFTを用いた視覚用ダイナミックトケミキサー FFT-based Dynamic Token Mixer for Vision ( http://arxiv.org/abs/2303.03932v2 ) ライセンス: Link先を確認 | Yuki Tatsunami, Masato Taki | (参考訳) MHSA(Multi-head-self-attention)搭載モデルはコンピュータビジョンにおいて顕著な性能を発揮している。
その計算の複雑さは入力特徴マップの2乗数に比例し、特に高解像度画像を扱う場合には処理が遅くなる。
FFTベースのトークンミキサーは、MHSAに似ているが計算複雑性の低い大域的な操作を含む。
しかし、その魅力的な特性にもかかわらず、fftベースのトークンミキサーは急速に進化するメタフォーマーアーキテクチャとの互換性に関して慎重に検討されていない。
本稿では,新しいトークンミキサーであるDynamic Filterと,新しい画像認識モデルであるDFFormerとCDFFormerを提案し,そのギャップを埋める。
画像分類と下流タスク,分析,可視化の結果から,モデルが有効であることが示された。
特に,高解像度画像認識におけるスループットとメモリ効率は顕著である。
我々の結果は、Dynamic Filterが、真剣に検討すべきトークン-ミキサーオプションの1つであることを示唆している。
コードはhttps://github.com/okojoalg/dfformerで入手できる。 Multi-head-self-attention (MHSA)-equipped models have achieved notable performance in computer vision. Their computational complexity is proportional to quadratic numbers of pixels in input feature maps, resulting in slow processing, especially when dealing with high-resolution images. New types of token-mixer are proposed as an alternative to MHSA to circumvent this problem: an FFT-based token-mixer involves global operations similar to MHSA but with lower computational complexity. However, despite its attractive properties, the FFT-based token-mixer has not been carefully examined in terms of its compatibility with the rapidly evolving MetaFormer architecture. Here, we propose a novel token-mixer called Dynamic Filter and novel image recognition models, DFFormer and CDFFormer, to close the gaps above. The results of image classification and downstream tasks, analysis, and visualization show that our models are helpful. Notably, their throughput and memory efficiency when dealing with high-resolution image recognition is remarkable. Our results indicate that Dynamic Filter is one of the token-mixer options that should be seriously considered. The code is available at https://github.com/okojoalg/dfformer | 翻訳日:2023-12-19 21:05:16 公開日:2023-12-17 |
# ParrotTTS:自己教師付き表現を利用した音声合成 ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised representations ( http://arxiv.org/abs/2303.01261v3 ) ライセンス: Link先を確認 | Neil Shah, Saiteja Kosgi, Vishal Tambrahalli, Neha Sahipjohn, Niranjan Pedanekar, Vineet Gandhi | (参考訳) 本稿では,不規則な自己教師付き音声表現を活用するモジュール化テキスト音声合成モデルであるParrotTTSを提案する。
単一の話者からの書き起こしを使って、効果的にマルチスピーカーの変種を訓練することができる。
ParrotTTSは低リソース設定で新しい言語に適応し、自己管理バックボーンのトレーニング中に見えない言語に一般化する。
さらに、パラレルな例やバイリンガルな例を訓練せずに、ParrotTTSはフランス語話者の声とアクセントを使って、流れるヒンディー語を合成するなど、話者固有の特徴を保ちながら、言語間で音声を転送することができる。
単言語および多言語シナリオにおける広範な結果を示す。
ParrotTTSは、ペアデータのごく一部を後者として、最先端の多言語TSモデルより優れている。 We present ParrotTTS, a modularized text-to-speech synthesis model leveraging disentangled self-supervised speech representations. It can train a multi-speaker variant effectively using transcripts from a single speaker. ParrotTTS adapts to a new language in low resource setup and generalizes to languages not seen while training the self-supervised backbone. Moreover, without training on bilingual or parallel examples, ParrotTTS can transfer voices across languages while preserving the speaker specific characteristics, e.g., synthesizing fluent Hindi speech using a French speaker's voice and accent. We present extensive results in monolingual and multi-lingual scenarios. ParrotTTS outperforms state-of-the-art multi-lingual TTS models using only a fraction of paired data as latter. | 翻訳日:2023-12-19 21:04:59 公開日:2023-12-17 |
# dsd$^2$: スパース二重降下を回避し、ニューラルネットワークを心配なく圧縮できるか? DSD$^2$: Can We Dodge Sparse Double Descent and Compress the Neural Network Worry-Free? ( http://arxiv.org/abs/2303.01213v2 ) ライセンス: Link先を確認 | Victor Qu\'etu, Enzo Tartaglione | (参考訳) ネオテリックな研究は、現代のディープラーニングモデルがスパース二重降下現象を示すことができることを示した。
実際、モデルのスパーシティが増加すると、モデルがトレーニングデータを過剰にフィッティングしているため、テストパフォーマンスがまず悪化し、オーバーフィッティングが減少し、パフォーマンスが向上し、最終的にモデルが重要な情報を忘れ始め、過フィッティングが発生する。
このような行動は、伝統的な早期停止基準の使用を妨げる。
この作業には3つの重要な貢献があります。
まず,そのような現象を回避し,一般化を改善する学習フレームワークを提案する。
第2に,この現象の持続性に関する洞察を提供し,従来の停止基準の活用を可能にするエントロピー尺度を導入する。
第3に,再初期化法,モデル幅と深さ,データセットノイズといった事象要因の包括的定量的解析を行う。
この貢献は、典型的なセットアップでの実証的な証拠によって裏付けられる。
私たちのコードはhttps://github.com/vgcq/dsd2で利用可能です。 Neoteric works have shown that modern deep learning models can exhibit a sparse double descent phenomenon. Indeed, as the sparsity of the model increases, the test performance first worsens since the model is overfitting the training data; then, the overfitting reduces, leading to an improvement in performance, and finally, the model begins to forget critical information, resulting in underfitting. Such a behavior prevents using traditional early stop criteria. In this work, we have three key contributions. First, we propose a learning framework that avoids such a phenomenon and improves generalization. Second, we introduce an entropy measure providing more insights into the insurgence of this phenomenon and enabling the use of traditional stop criteria. Third, we provide a comprehensive quantitative analysis of contingent factors such as re-initialization methods, model width and depth, and dataset noise. The contributions are supported by empirical evidence in typical setups. Our code is available at https://github.com/VGCQ/DSD2. | 翻訳日:2023-12-19 21:04:47 公開日:2023-12-17 |
# globe-ce:グローバル反事実説明のための翻訳に基づくアプローチ GLOBE-CE: A Translation-Based Approach for Global Counterfactual Explanations ( http://arxiv.org/abs/2305.17021v2 ) ライセンス: Link先を確認 | Dan Ley, Saumitra Mishra, Daniele Magazzeni | (参考訳) 対物的説明は、公正性、リコース、モデル理解に顕著な様々な応用依存手法を用いて、説明可能性において広く研究されてきた。
しかし、これらのメソッドに関連する主な欠点は、ローカルレベルやインスタンスレベルで説明できないことである。
多くの研究がグローバルな説明の概念に触れており、典型的にはグローバルな性質を確かめるために局所的な説明の大量を集約することを示唆しているが、信頼性と計算的に抽出可能なフレームワークを提供するものはほとんどない。
一方、実践者はより効率的でインタラクティブな説明ツールを求めている。
我々はこの機会を生かして,現在の最先端,特に高次元データセットや継続的機能の存在に伴う信頼性とスケーラビリティの問題に対処する,フレキシブルなフレームワークであるGLOBE-CE(Global & Efficient Counterfactual Explanations)を提案する。
さらに,分類的特徴翻訳のユニークな数学的解析を行い,本手法で活用する。
公開データセットとユーザスタディによる実験的評価では、GLOBE-CEは複数のメトリクス(例えば、速度、信頼性)にわたる現在の最先端よりもはるかに優れたパフォーマンスを示している。 Counterfactual explanations have been widely studied in explainability, with a range of application dependent methods prominent in fairness, recourse and model understanding. The major shortcoming associated with these methods, however, is their inability to provide explanations beyond the local or instance-level. While many works touch upon the notion of a global explanation, typically suggesting to aggregate masses of local explanations in the hope of ascertaining global properties, few provide frameworks that are both reliable and computationally tractable. Meanwhile, practitioners are requesting more efficient and interactive explainability tools. We take this opportunity to propose Global & Efficient Counterfactual Explanations (GLOBE-CE), a flexible framework that tackles the reliability and scalability issues associated with current state-of-the-art, particularly on higher dimensional datasets and in the presence of continuous features. Furthermore, we provide a unique mathematical analysis of categorical feature translations, utilising it in our method. Experimental evaluation with publicly available datasets and user studies demonstrate that GLOBE-CE performs significantly better than the current state-of-the-art across multiple metrics (e.g., speed, reliability). | 翻訳日:2023-12-19 20:56:42 公開日:2023-12-17 |
# ZeroSCROLLS: 長文理解のためのゼロショットベンチマーク ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding ( http://arxiv.org/abs/2305.14196v3 ) ライセンス: Link先を確認 | Uri Shaham and Maor Ivgi and Avia Efrat and Jonathan Berant and Omer Levy | (参考訳) 我々は、テストセットと小さな検証セットのみを含む、長いテキストに対する自然言語理解のためのゼロショットベンチマークであるZeroSCROLLSを紹介した。
scrollsベンチマークから6つのタスクを適応させ、ポジティブレビューのパーセンテージを集約するなど、2つの新しい情報融合タスクを含む4つの新しいデータセットを追加します。
ZeroSCROLLS を用いて,オープンソースおよびクローズドな大言語モデルの総合評価を行い,Claude が ChatGPT を上回り,GPT-4 が最高スコアを達成していることを確認した。
しかし、アグリゲーションタスクのようなゼロスクロールにおける複数のオープンチャレンジを改善する余地はまだ残っており、モデルが単純なベースラインを通すのに苦労している。
現状は動きのターゲットであり、ZeroSCROLLSのリーダーボード上で彼らのアイデアを評価するために研究者を招待する。 We introduce ZeroSCROLLS, a zero-shot benchmark for natural language understanding over long texts, which contains only test and small validation sets, without training data. We adapt six tasks from the SCROLLS benchmark, and add four new datasets, including two novel information fusing tasks, such as aggregating the percentage of positive reviews. Using ZeroSCROLLS, we conduct a comprehensive evaluation of both open-source and closed large language models, finding that Claude outperforms ChatGPT, and that GPT-4 achieves the highest average score. However, there is still room for improvement on multiple open challenges in ZeroSCROLLS, such as aggregation tasks, where models struggle to pass the naive baseline. As the state of the art is a moving target, we invite researchers to evaluate their ideas on the live ZeroSCROLLS leaderboard. | 翻訳日:2023-12-19 20:55:31 公開日:2023-12-17 |
# 言語間移動のための機械翻訳ユニバーサル言語 Machine-Created Universal Language for Cross-lingual Transfer ( http://arxiv.org/abs/2305.13071v2 ) ライセンス: Link先を確認 | Yaobo Liang, Quanzhi Zhu, Junhe Zhao and Nan Duan | (参考訳) 言語間移動に対処する主なアプローチは、多言語事前学習(英語版)と、様々な言語の隠された表現を暗黙的に調整する翻訳テスト(英語版)である。
Translate-testは、多言語事前学習よりも解釈性が高い。
しかし、多言語事前学習(Conneau and Lample, 2019; Conneau et al, 2020)よりもパフォーマンスが低く、単語順の変換による単語レベルのタスクに苦労している。
その結果、代替中間言語として新たな機械生成ユニバーサル言語(mul)を提案する。
MULは、複数の自然言語をMULに変換するためのMULトランスレータに、普遍的な語彙と自然言語を形成する独立したシンボルからなる。
mulは、様々な言語からの共有概念を単一の普遍語に統一し、言語間の転送を促進する。
さらに、MULは言語固有の単語と単語の順序を保持しており、モデルが単語レベルのタスクに容易に適用できる。
実験により,MULへの翻訳は多言語事前学習と比較して性能が向上し,MULは高い解釈性を有することが示された。
コードは以下の通り:https://github.com/microsoft/Unicoder/tree/master/MCUL。 There are two primary approaches to addressing cross-lingual transfer: multilingual pre-training, which implicitly aligns the hidden representations of various languages, and translate-test, which explicitly translates different languages into an intermediate language, such as English. Translate-test offers better interpretability compared to multilingual pre-training. However, it has lower performance than multilingual pre-training(Conneau and Lample, 2019; Conneau et al, 2020) and struggles with word-level tasks due to translation altering word order. As a result, we propose a new Machine-created Universal Language (MUL) as an alternative intermediate language. MUL comprises a set of discrete symbols forming a universal vocabulary and a natural language to MUL translator for converting multiple natural languages to MUL. MUL unifies shared concepts from various languages into a single universal word, enhancing cross-language transfer. Additionally, MUL retains language-specific words and word order, allowing the model to be easily applied to word-level tasks. Our experiments demonstrate that translating into MUL yields improved performance compared to multilingual pre-training, and our analysis indicates that MUL possesses strong interpretability. The code is at: https://github.com/microsoft/Unicoder/tree/master/MCUL. | 翻訳日:2023-12-19 20:55:08 公開日:2023-12-17 |
# 2d/3d医用画像登録のためのパラメータ初期化による埋め込み特徴類似度最適化 Embedded Feature Similarity Optimization with Specific Parameter Initialization for 2D/3D Medical Image Registration ( http://arxiv.org/abs/2305.06252v4 ) ライセンス: Link先を確認 | Minheng Chen, Zhirun Zhang, Shuheng Gu, Youyong Kong | (参考訳) 2次元/3次元医用画像登録のための組込みパラメータ初期化(SOPI)による特徴類似性最適化は、次元ミスマッチ、重計算負荷、黄金評価基準の欠如など、最も困難な問題である。
我々が設計したフレームワークには、初期化ポーズパラメータを効率的に選択するパラメータ仕様モジュールと、画像を整列する微登録モジュールが含まれる。
提案フレームワークは, 特殊な訓練手法を用いた新しい複合接続エンコーダを用いて, マルチスケールの特徴を抽出する。
本手法を社内のct/x線データを用いた学習法と最適化法の両方と比較し,性能評価を行う。
本実験により,本手法は登録性能を向上し,既存の手法よりも精度と実行時間に優れることを示した。
また,初期ポーズ推定器として提案手法の可能性を示す。
コードはhttps://github.com/m1nhengChen/SOPIで公開されている。 We present a novel deep learning-based framework: Embedded Feature Similarity Optimization with Specific Parameter Initialization (SOPI) for 2D/3D medical image registration which is a most challenging problem due to the difficulty such as dimensional mismatch, heavy computation load and lack of golden evaluation standard. The framework we design includes a parameter specification module to efficiently choose initialization pose parameter and a fine-registration module to align images. The proposed framework takes extracting multi-scale features into consideration using a novel composite connection encoder with special training techniques. We compare the method with both learning-based methods and optimization-based methods on a in-house CT/X-ray dataset as well as simulated data to further evaluate performance. Our experiments demonstrate that the method in this paper has improved the registration performance, and thereby outperforms the existing methods in terms of accuracy and running time. We also show the potential of the proposed method as an initial pose estimator. The code is available at https://github.com/m1nhengChen/SOPI | 翻訳日:2023-12-19 20:53:35 公開日:2023-12-17 |
# 対話型テキストゲームのための知識強化エージェント Knowledge-enhanced Agents for Interactive Text Games ( http://arxiv.org/abs/2305.05091v2 ) ライセンス: Link先を確認 | Prateek Chhikara, Jiarui Zhang, Filip Ilievski, Jonathan Francis and Kaixin Ma | (参考訳) 自然言語によるコミュニケーションは、機械知能の重要な側面であり、様々なレベルの監督の下で、世界の概念を学習し推論するために計算モデルが必要である。
質問応答や手続き的テキスト理解など、完全に教師なしの非対話的なタスクで大きな進歩を遂げている。
しかし、テキストベースのゲームのような様々な逐次的インタラクティブなタスクは、コヒーレンス、文脈認識、環境から効果的に学習する能力の点で、既存のアプローチの限界を明らかにしている。
本稿では,テキストゲームにおけるエージェントの機能的グラウンド化を改善するための知識注入フレームワークを提案する。
具体的には、学習に基づくエージェントに注入するドメイン知識の2つの形態について考察する。
本フレームワークは強化学習エージェントと言語モデルエージェントという2つの代表的なモデルクラスをサポートする。
さらに、上記のドメイン知識型およびエージェントアーキテクチャに対する複数のインジェクション戦略を考案し、知識グラフによるインジェクションや既存の入力エンコーディング戦略の強化を行う。
我々は、ScienceWorldのテキストベースのゲーム環境における10のタスクに関する4つのモデル実験を行い、知識注入が様々なモデル構成や課題設定に与える影響を解説した。
本研究は,タスク特性,モデルアーキテクチャ,対話型コンテキストに対するドメイン知識の相互作用に関する重要な知見を提供する。 Communication via natural language is a key aspect of machine intelligence, and it requires computational models to learn and reason about world concepts, with varying levels of supervision. Significant progress has been made on fully-supervised non-interactive tasks, such as question-answering and procedural text understanding. Yet, various sequential interactive tasks, as in text-based games, have revealed limitations of existing approaches in terms of coherence, contextual awareness, and their ability to learn effectively from the environment. In this paper, we propose a knowledge-injection framework for improved functional grounding of agents in text-based games. Specifically, we consider two forms of domain knowledge that we inject into learning-based agents: memory of previous correct actions and affordances of relevant objects in the environment. Our framework supports two representative model classes: reinforcement learning agents and language model agents. Furthermore, we devise multiple injection strategies for the above domain knowledge types and agent architectures, including injection via knowledge graphs and augmentation of the existing input encoding strategies. We experiment with four models on the 10 tasks in the ScienceWorld text-based game environment, to illustrate the impact of knowledge injection on various model configurations and challenging task settings. Our findings provide crucial insights into the interplay between task properties, model architectures, and domain knowledge for interactive contexts. | 翻訳日:2023-12-19 20:53:17 公開日:2023-12-17 |
# 深部非制限文書画像整形 Deep Unrestricted Document Image Rectification ( http://arxiv.org/abs/2304.08796v2 ) ライセンス: Link先を確認 | Hao Feng, Shaokai Liu, Jiajun Deng, Wengang Zhou, Houqiang Li | (参考訳) 近年、文書画像の修正に多大な努力が払われているが、既存の高度なアルゴリズムは制限された文書画像の処理に限られており、入力画像は完全な文書を組み込まなければならない。
キャプチャされた画像が単にローカルテキスト領域を含むと、その補正品質は劣化し不満足になる。
以前提案したDocTrは、文書画像修正のためのトランスフォーマー支援ネットワークであり、この制限に悩まされている。
本稿では,入力された歪み画像の制約を伴わずに,文書画像修正のための新しい統一フレームワークであるdoctr++を提案する。
私たちの主要な技術的改善は3つの側面でまとめられます。
まず,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
次に,歪みのない文書画像と歪みのない文書画像との画素間マッピング関係を再構成する。
得られたデータはDocTr++をトレーニングするために使われます。
第3に,実世界のテストセットと,修正品質評価に適用可能なメトリクスをコントリビュートする。
我々の知る限り、これは制約なしの文書画像の修正のための学習に基づく最初の方法である。
大規模な実験を行い,本手法の有効性と優位性を実証した。
DocTr++が汎用的なドキュメントイメージの修正の強力なベースラインとして機能し、学習ベースのアルゴリズムのさらなる進歩と適用を促進することを願っています。
ソースコードと提案されたデータセットはhttps://github.com/fh2019ustc/DocTr-Plusで公開されている。 In recent years, tremendous efforts have been made on document image rectification, but existing advanced algorithms are limited to processing restricted document images, i.e., the input images must incorporate a complete document. Once the captured image merely involves a local text region, its rectification quality is degraded and unsatisfactory. Our previously proposed DocTr, a transformer-assisted network for document image rectification, also suffers from this limitation. In this work, we present DocTr++, a novel unified framework for document image rectification, without any restrictions on the input distorted images. Our major technical improvements can be concluded in three aspects. Firstly, we upgrade the original architecture by adopting a hierarchical encoder-decoder structure for multi-scale representation extraction and parsing. Secondly, we reformulate the pixel-wise mapping relationship between the unrestricted distorted document images and the distortion-free counterparts. The obtained data is used to train our DocTr++ for unrestricted document image rectification. Thirdly, we contribute a real-world test set and metrics applicable for evaluating the rectification quality. To our best knowledge, this is the first learning-based method for the rectification of unrestricted document images. Extensive experiments are conducted, and the results demonstrate the effectiveness and superiority of our method. We hope our DocTr++ will serve as a strong baseline for generic document image rectification, prompting the further advancement and application of learning-based algorithms. The source code and the proposed dataset are publicly available at https://github.com/fh2019ustc/DocTr-Plus. | 翻訳日:2023-12-19 20:52:56 公開日:2023-12-17 |
# DIAS:DSA配列における頭蓋内動脈分割のためのデータセットとベンチマーク DIAS: A Dataset and Benchmark for Intracranial Artery Segmentation in DSA sequences ( http://arxiv.org/abs/2306.12153v3 ) ライセンス: Link先を確認 | Wentao Liu, Tong Tian, Lemeng Wang, Weijin Xu, Lei Li, Haoyuan Li, Wenyi Zhao, Siyu Tian, Xipeng Pan, Huihua Yang, Feng Gao, Yiming Deng, and Ruisheng Su | (参考訳) digital subtraction angiography (dsa) は病変血管構築、動脈血行動態の解明、血管内インターベンションの誘導のためのゴールドスタンダードとして広く認められている。
血管形態の定量化に重要なDSAにおける頭蓋内動脈の自動分節は、コンピュータ支援脳卒中研究や臨床実践において重要な役割を担っている。
しかしながら、この特定の領域の研究は、主に研究コミュニティ内でIAセグメンテーションのための公開データセットが利用できないため、制約が残っている。
現在、方法論の主な焦点は、社内データセットを使用した単一フレームDSAのセグメンテーションにある。
これらの方法は、単一フレームdsaにおけるコントラストの部分的包含によって制限され、血管構造を正確に表現する上での課題に直面する。
本稿では,DSAシークエンスにおけるIAセグメンテーションのためのデータセットであるDIASを紹介する。
DIASを評価するための総合的なベンチマークが確立されており、完全に、弱く、半教師付きセグメンテーション手法を網羅している。
具体的には, dsa配列における血管内コントラストの時空間的表現をキャプチャする血管配列分割ネットワークを提案する。
弱教師付き学習のために,scribble監督と一貫性規則化の両方を組み込んだ新しいscribble learningベースの画像セグメンテーションフレームワークを提案する。
さらに,ラベルなしのdsaシーケンスを利用してセグメンテーション性能を向上させるランダムパッチベースの自己学習フレームワークを提案する。
DIASデータセットに関する広範な実験により,これらの手法が今後の研究および臨床応用の基盤となる可能性を示す。 Digital subtraction angiography (DSA) is universally acknowledged as the gold standard for examining lesion angioarchitecture, elucidating arterial blood supply dynamics, and guiding endovascular interventions. The automatic segmentation of intracranial arteries (IA) in DSA, which is pivotal for quantifying vascular morphology, plays an essential role in computer-assisted stroke research and clinical practices. Nevertheless, research in this specific domain remains constrained, primarily owing to the unavailability of publicly datasets for IA segmentation within the research community. Currently, the predominant focus of methodologies lies in the segmentation of single-frame DSA using in-house datasets. These methods, limited by the partial inclusion of contrast in single-frame DSA, encounters challenges in rendering a precise representation of vascular structures. In this paper, we introduces DIAS, a dataset specifically developed for IA segmentation in DSA sequences. A comprehensive benchmark has been established for evaluating DIAS, covering fully, weakly, and semi-supervised segmentation methods. Specifically, we propose a vessel sequence segmentation network that captures the spatiotemporal representation of intravascular contrast for segmenting vessels in DSA sequences. For weakly-supervised learning, we propose a novel scribble learning-based image segmentation framework, incorporating both scribble supervision and consistency regularization. Furthermore, we introduce a random patch-based self-training framework that harnesses unlabeled DSA sequences to improve segmentation performance. Our extensive experiments on the DIAS dataset demonstrate the effectiveness of these methods as potential baselines for future research and clinical applications. | 翻訳日:2023-12-19 20:45:05 公開日:2023-12-17 |
# 2クラス依存サイクルのアンタングリングパターンに関する実証的研究 An Empirical Study of Untangling Patterns of Two-Class Dependency Cycles ( http://arxiv.org/abs/2306.10599v3 ) ライセンス: Link先を確認 | Qiong Feng, Shuwen Liu, Huan Ji, Xiaotian Ma, Peng Liang | (参考訳) 依存性のサイクルは、ソフトウェアの品質と保守性に大きな課題をもたらします。
しかし、実際のシナリオにおいて、実践者が依存性のサイクルをどのように解決するかの理解は限られている。
本稿では,ソフトウェア開発者が2つのクラス間の依存性サイクルを実際に解決するための繰り返しパターンについて,実証的研究を行った。
さまざまなドメインにわたる38のオープンソースプロジェクトのデータを分析し,数百のサイクルアンタングリングケースを手作業で調査した。
私たちの調査によると、開発者は依存性サイクルに対処するために5つの繰り返しパターンを使う傾向があります。
選択されたパターンは、巡回クラス間の依存関係関係によって決定されるだけでなく、その設計コンテキスト、すなわち、巡回クラスが隣のクラスに依存するか、あるいは依存するかに非常に関係している。
この経験的研究を通じて、開発者がサイクルのハンドリングで通常採用する3つの一般的な直感的ソリューションを発見した。
これらの繰り返しのパターンと、依存性サイクルのプラクティスに見られる一般的な直観に反する解決策は、開発者の意識を高めるための分類法となり、ソフトウェア工学の学生や経験の浅い開発者のための教材としても使われる。
また,依存性サイクルの内部構造を考慮することに加えて,自動ツールが依存関係サイクルのリファクタリングを支援するために,サイクルの設計コンテキストを考慮する必要があることも示唆した。 Dependency cycles pose a significant challenge to software quality and maintainability. However, there is limited understanding of how practitioners resolve dependency cycles in real-world scenarios. This paper presents an empirical study investigating the recurring patterns employed by software developers to resolve dependency cycles between two classes in practice. We analyzed the data from 38 open-source projects across different domains and manually inspected hundreds of cycle untangling cases. Our findings reveal that developers tend to employ five recurring patterns to address dependency cycles. The chosen patterns are not only determined by dependency relations between cyclic classes, but also highly related to their design context, i.e., how cyclic classes depend on or are depended by their neighbor classes. Through this empirical study, we also discovered three common counterintuitive solutions developers usually adopted during cycles' handling. These recurring patterns and common counterintuitive solutions observed in dependency cycles' practice can serve as a taxonomy to improve developers' awareness and also be used as learning materials for students in software engineering and inexperienced developers. Our results also suggest that, in addition to considering the internal structure of dependency cycles, automatic tools need to consider the design context of cycles to provide better support for refactoring dependency cycles. | 翻訳日:2023-12-19 20:44:39 公開日:2023-12-17 |
# コミュニケーションを伴う逐次主エージェント問題:効率的な計算と学習 Sequential Principal-Agent Problems with Communication: Efficient Computation and Learning ( http://arxiv.org/abs/2306.03832v2 ) ライセンス: Link先を確認 | Jiarui Gan, Rupak Majumdar, Debmalya Mandal, Goran Radanovic | (参考訳) 両端に不完全な情報を持つ主要因とエージェント間の逐次的意思決定問題について検討する。
このモデルでは、プリンシパルとエージェントは確率的な環境で相互作用し、それぞれが互いに利用できない状態に関する観察を優先する。
校長は、エージェントから情報を引き出すことと、自身の情報に関する信号を提供するという、コミットメントの力を持っている。
プリンシパルとエージェントは互いにシグナルを伝達し、この通信に基づいて独立して行動を選択する。
各プレイヤーは、状態と共同動作に基づいてペイオフを受け取り、環境は新しい状態に移動する。
相互作用は有限時間水平線上で継続し、双方のプレイヤーは水平線上での合計ペイオフを最適化する。
本モデルでは,不完全情報とPOMDPの確率ゲーム,シーケンシャルベイズパースと機構設計の問題を含む。
我々は,最適政策の計算と学習の両方について検討する。
一般的な問題は計算に難解であるが、基礎となる状態観測分布の条件付き独立性仮定の下でアルゴリズム解を考察する。
本稿では,主成分の最適ポリシを加法近似まで計算する多項式時間アルゴリズムを提案する。
さらに,遷移確率が事前に分かっていない場合に,効率的な学習アルゴリズムを示す。
このアルゴリズムは両プレイヤーに対してサブ線形後悔を保証する。 We study a sequential decision making problem between a principal and an agent with incomplete information on both sides. In this model, the principal and the agent interact in a stochastic environment, and each is privy to observations about the state not available to the other. The principal has the power of commitment, both to elicit information from the agent and to provide signals about her own information. The principal and the agent communicate their signals to each other, and select their actions independently based on this communication. Each player receives a payoff based on the state and their joint actions, and the environment moves to a new state. The interaction continues over a finite time horizon, and both players act to optimize their own total payoffs over the horizon. Our model encompasses as special cases stochastic games of incomplete information and POMDPs, as well as sequential Bayesian persuasion and mechanism design problems. We study both computation of optimal policies and learning in our setting. While the general problems are computationally intractable, we study algorithmic solutions under a conditional independence assumption on the underlying state-observation distributions. We present a polynomial-time algorithm to compute the principal's optimal policy up to an additive approximation. Additionally, we show an efficient learning algorithm in the case where the transition probabilities are not known beforehand. The algorithm guarantees sublinear regret for both players. | 翻訳日:2023-12-19 20:42:35 公開日:2023-12-17 |
# figgen: テキストから科学的な図形生成 FigGen: Text to Scientific Figure Generation ( http://arxiv.org/abs/2306.00800v3 ) ライセンス: Link先を確認 | Juan A Rodriguez, David Vazquez, Issam Laradji, Marco Pedersoli, Pau Rodriguez | (参考訳) 生成的モデリングのランドスケープは近年、特に自然画像や芸術の創造において、大きな成長を遂げている。
最近の技術は、印象的なリアリズムと品質を提供しながら、複雑な視覚的構成を作成する素晴らしい可能性を示している。
しかし、最先端の手法は自然画像の狭い領域に焦点を当てているが、他の分布は未探索のままである。
本稿では,テキスト記述から論文の科学的図形を作成するテキストから図形への生成の問題を紹介する。
本稿では,テキストから図形への拡散に基づくアプローチであるfiggenについて述べる。
コードとモデルはhttps://github.com/joanrod/graphic-diffusionで入手できる。 The generative modeling landscape has experienced tremendous growth in recent years, particularly in generating natural images and art. Recent techniques have shown impressive potential in creating complex visual compositions while delivering impressive realism and quality. However, state-of-the-art methods have been focusing on the narrow domain of natural images, while other distributions remain unexplored. In this paper, we introduce the problem of text-to-figure generation, that is creating scientific figures of papers from text descriptions. We present FigGen, a diffusion-based approach for text-to-figure as well as the main challenges of the proposed task. Code and models are available at https://github.com/joanrod/figure-diffusion | 翻訳日:2023-12-19 20:42:16 公開日:2023-12-17 |
# ConceptLab: VLM誘導拡散事前制約を用いた創造的概念生成 ConceptLab: Creative Concept Generation using VLM-Guided Diffusion Prior Constraints ( http://arxiv.org/abs/2308.02669v2 ) ライセンス: Link先を確認 | Elad Richardson, Kfir Goldberg, Yuval Alaluf, Daniel Cohen-Or | (参考訳) 近年のテキストから画像への生成モデルにより、私たちの言葉を活気満載の画像に変換することが可能になった。
その後のパーソナライズ技術の増加により、私たちは新たなシーンでユニークな概念を想像できるようになった。
しかし、興味深い疑問が残る: 今まで見たことのない新しい想像上の概念をどうやって生成できるか?
本稿では,幅広いカテゴリ(例えば,既存のペットと異なるペットの生成)の新たなメンバの生成を目指す,クリエイティブなテキストから画像への生成という課題について述べる。
我々は拡散前駆モデルを用いて, 創造的生成問題を拡散前駆の出力空間上の最適化過程として定式化できることを示し, 結果として「優先的制約」の集合を導出する。
生成した概念を既存のメンバに収束させないために,最適化問題に新たな制約を適応的に付加する質問応答型ビジョンランゲージモデル(VLM)を導入し,よりユニークな生成の発見を促す。
最後に、私たちの以前の制約は、生成する概念間のハイブリッドを作成できる強力な混合メカニズムとしても機能し、創造的プロセスにさらに柔軟性をもたらすことも示します。 Recent text-to-image generative models have enabled us to transform our words into vibrant, captivating imagery. The surge of personalization techniques that has followed has also allowed us to imagine unique concepts in new scenes. However, an intriguing question remains: How can we generate a new, imaginary concept that has never been seen before? In this paper, we present the task of creative text-to-image generation, where we seek to generate new members of a broad category (e.g., generating a pet that differs from all existing pets). We leverage the under-studied Diffusion Prior models and show that the creative generation problem can be formulated as an optimization process over the output space of the diffusion prior, resulting in a set of "prior constraints". To keep our generated concept from converging into existing members, we incorporate a question-answering Vision-Language Model (VLM) that adaptively adds new constraints to the optimization problem, encouraging the model to discover increasingly more unique creations. Finally, we show that our prior constraints can also serve as a strong mixing mechanism allowing us to create hybrids between generated concepts, introducing even more flexibility into the creative process. | 翻訳日:2023-12-19 20:34:55 公開日:2023-12-17 |
# ether: 先見性リプレイのための創発的コミュニケーションの調整 ETHER: Aligning Emergent Communication for Hindsight Experience Replay ( http://arxiv.org/abs/2307.15494v2 ) ライセンス: Link先を確認 | Kevin Denamgana\"i, Daniel Hernandez, Ozan Vardal, Sondess Missaoui, James Alfred Walker | (参考訳) 自然言語による指示は、人工エージェントと人間との協調を可能にするために最重要である。
自然言語条件強化学習(RL)エージェントは、構成性などの自然言語の性質が、複雑な政策を学ぶための強い帰納バイアスをもたらすことを示した。
Hindsight Experience Replay (HER)と言語コンディショニングの利点を組み合わせたHIGhERのような以前のアーキテクチャは、スパース報酬環境に対処する。
しかし、彼女のように、higherはoracleの述語関数に依存し、どの言語記述がどの状態に対して有効であるかを示すフィードバック信号を提供する。
このoracleへの依存はアプリケーションを制限する。
さらに、HIGhERはRL軌道に含まれる言語情報のみを活用し、最終的な性能とデータ効率を損なう。
初期の軌道が成功しなかったため、HIGhERはDQNに勝っている。
本稿では,より高次に構築され,両者の限界に対処できる創発的後見体験リプレイ(ether)エージェントを提案する。
i)エマージェント・コミュニケーション(EC)のサブフィールドで一般的に研究されている識別的視覚的参照ゲームであって、非監督的補助業務として用いられるもの
(ii)命令追従ベンチマークの自然言語と創発言語を整合させるための意味的接地方式。
本研究では,参照ゲームのエージェントが,BabyAIベンチマークの目標記述に使用される自然言語と一致した人工言語を出現させるとともに,RLの軌道の失敗を記述できるほど表現力があり,RLエージェントにフィードバックを与えて,すべての軌道に含まれる言語的,構造化された情報を活用することを示す。
我々の研究は、ECがRLの有効な教師なし補助タスクであり、HERをより広く適用するための欠片を提供することを示している。 Natural language instruction following is paramount to enable collaboration between artificial agents and human beings. Natural language-conditioned reinforcement learning (RL) agents have shown how natural languages' properties, such as compositionality, can provide a strong inductive bias to learn complex policies. Previous architectures like HIGhER combine the benefit of language-conditioning with Hindsight Experience Replay (HER) to deal with sparse rewards environments. Yet, like HER, HIGhER relies on an oracle predicate function to provide a feedback signal highlighting which linguistic description is valid for which state. This reliance on an oracle limits its application. Additionally, HIGhER only leverages the linguistic information contained in successful RL trajectories, thus hurting its final performance and data-efficiency. Without early successful trajectories, HIGhER is no better than DQN upon which it is built. In this paper, we propose the Emergent Textual Hindsight Experience Replay (ETHER) agent, which builds on HIGhER and addresses both of its limitations by means of (i) a discriminative visual referential game, commonly studied in the subfield of Emergent Communication (EC), used here as an unsupervised auxiliary task and (ii) a semantic grounding scheme to align the emergent language with the natural language of the instruction-following benchmark. We show that the referential game's agents make an artificial language emerge that is aligned with the natural-like language used to describe goals in the BabyAI benchmark and that it is expressive enough so as to also describe unsuccessful RL trajectories and thus provide feedback to the RL agent to leverage the linguistic, structured information contained in all trajectories. Our work shows that EC is a viable unsupervised auxiliary task for RL and provides missing pieces to make HER more widely applicable. | 翻訳日:2023-12-19 20:34:25 公開日:2023-12-17 |
# PIGEON:画像位置情報の予測 PIGEON: Predicting Image Geolocations ( http://arxiv.org/abs/2307.05845v4 ) ライセンス: Link先を確認 | Lukas Haas, Michal Skreta, Silas Alberti, Chelsea Finn | (参考訳) 惑星規模の画像のジオローカライゼーションは、世界中のどこから来た画像の多様性のため、依然として困難な問題である。
視覚変換器をベースとした手法は地理的局所化の精度を大幅に向上させたが、先行文学の成功はランドマークの画像の狭い分布に制約され、性能は目に見えない場所に一般化されていない。
本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。
さらに,推定精度向上のため,位置情報クラスタ上での検索を初めて実施した。
まず,Geoguessrのゲームから得られたデータに基づいてトレーニングを行い,目標地点から25km以内に推定値の40%以上を世界規模で配置することができる。
また、ロボットを開発し、人間に対する盲点実験でPIGEONをデプロイし、プレイヤーの上位0.01%にランク付けした。
我々はまた、世界有数のプロであるGeoguessrプレーヤーの1人に対して、数百万人の視聴者と6試合に挑戦し、6試合全てで勝利した。
第2のモデルである pigeotto は,flickr と wikipedia の画像データセット上でトレーニングを行い,広範な画像ジオロカライズベンチマークで最新結果を達成し,都市の正確度レベルでは最大 7.7 ポイント,国レベルでは 38.8 ポイントの sota を上回っている点が異なる。
この結果から,PIGEOTTOは未知の場所に効果的に一般化する最初の画像ジオローカライゼーションモデルであり,高精度で惑星規模の画像ジオローカライゼーションシステムを実現するための道を開くことができることが示唆された。
コードはgithubから入手できます。 Planet-scale image geolocalization remains a challenging problem due to the diversity of images originating from anywhere in the world. Although approaches based on vision transformers have made significant progress in geolocalization accuracy, success in prior literature is constrained to narrow distributions of images of landmarks, and performance has not generalized to unseen places. We present a new geolocalization system that combines semantic geocell creation, multi-task contrastive pretraining, and a novel loss function. Additionally, our work is the first to perform retrieval over location clusters for guess refinements. We train two models for evaluations on street-level data and general-purpose image geolocalization; the first model, PIGEON, is trained on data from the game of Geoguessr and is capable of placing over 40% of its guesses within 25 kilometers of the target location globally. We also develop a bot and deploy PIGEON in a blind experiment against humans, ranking in the top 0.01% of players. We further challenge one of the world's foremost professional Geoguessr players to a series of six matches with millions of viewers, winning all six games. Our second model, PIGEOTTO, differs in that it is trained on a dataset of images from Flickr and Wikipedia, achieving state-of-the-art results on a wide range of image geolocalization benchmarks, outperforming the previous SOTA by up to 7.7 percentage points on the city accuracy level and up to 38.8 percentage points on the country level. Our findings suggest that PIGEOTTO is the first image geolocalization model that effectively generalizes to unseen places and that our approach can pave the way for highly accurate, planet-scale image geolocalization systems. Our code is available on GitHub. | 翻訳日:2023-12-19 20:32:39 公開日:2023-12-17 |
# 経験的予測統計の制約による新しいカテゴリー発見 Novel Categories Discovery Via Constraints on Empirical Prediction Statistics ( http://arxiv.org/abs/2307.03856v2 ) ライセンス: Link先を確認 | Zahid Hasan, Abu Zaher Md Faridee, Masud Ahmed, Sanjay Purushotham, Heesung Kwon, Hyungtae Lee, Nirmalya Roy | (参考訳) novel categories discovery (ncd) はopen-world partial class space annotated datasetを使用して、既知のクラスのクラスセマンティクスに基づいて新しいデータをクラスタすることを目的としている。
従来の擬似ラベルベースアプローチの代替として,データサンプリングと新規クラスの多元的(カテゴリー的)分布との関係を活用した。
予測される新しいクラス確率の個人統計と集団統計の制約を導入し,暗黙的に意味ベースのクラスタリングを実現する。
具体的には,実験的一階 (mean) と二階 (covariance) の統計量とラベルのマルチヌーリ分布を一致させ, ラベル保存によるインスタンス情報制約と予測一貫性を適用して, 大規模バッチにおける新規クラスのモンテカルロサンプリング下でのクラスニューロン活性化分布を調整した。
次に、単位超球面におけるクラスラベルのvon mises-fisher分布の混合を学習する方向統計に基づく確率形成について検討する。
画像, ビデオ, 時系列モダリティにおける新しいサンプルのセマンティッククラスタリングを実現するための, 提案手法の識別能力を示す。
データ、ネットワーク、フレームワークコンポーネントに関する広範なアブレーション研究を行い、より良い洞察を与えます。
ラベル付きデータでは94%,93%,85%,93% (ほぼ) の分類精度を維持しつつ,cifar10, ucf101, mpsc-arl, sharの新たなカテゴリでは,外部クラスタリングを伴わずに90%, 84%, 72%, 75% (約75%) のクラスタリング精度を達成している。 Novel Categories Discovery (NCD) aims to cluster novel data based on the class semantics of known classes using the open-world partial class space annotated dataset. As an alternative to the traditional pseudo-labeling-based approaches, we leverage the connection between the data sampling and the provided multinoulli (categorical) distribution of novel classes. We introduce constraints on individual and collective statistics of predicted novel class probabilities to implicitly achieve semantic-based clustering. More specifically, we align the class neuron activation distributions under Monte-Carlo sampling of novel classes in large batches by matching their empirical first-order (mean) and second-order (covariance) statistics with the multinoulli distribution of the labels while applying instance information constraints and prediction consistency under label-preserving augmentations. We then explore a directional statistics-based probability formation that learns the mixture of Von Mises-Fisher distribution of class labels in a unit hypersphere. We demonstrate the discriminative ability of our approach to realize semantic clustering of novel samples in image, video, and time-series modalities. We perform extensive ablation studies regarding data, networks, and framework components to provide better insights. Our approach maintains 94%, 93%, 85%, and 93% (approx.) classification accuracy in labeled data while achieving 90%, 84%, 72%, and 75% (approx.) clustering accuracy for novel categories in Cifar10, UCF101, MPSC-ARL, and SHAR datasets that match state-of-the-art approaches without any external clustering. | 翻訳日:2023-12-19 20:31:54 公開日:2023-12-17 |
# STS-CCL:都市交通予測のための時空間同時コントラスト学習 STS-CCL: Spatial-Temporal Synchronous Contextual Contrastive Learning for Urban Traffic Forecasting ( http://arxiv.org/abs/2307.02507v2 ) ライセンス: Link先を確認 | Lincan Li, Kaixiang Yang, Fengji Luo, Jichao Bi | (参考訳) 大規模ラベルなしの交通データから複雑な時空間表現を効率的にキャプチャすることは難しい課題である。
このジレンマを考慮して,高度なコントラスト学習を行い,新しい空間-時間同期コントラスト学習(sts-ccl)モデルを提案する。
まず,グラフ構造や時間特性の観点からデータを摂動させるだけでなく,学習に基づく動的グラフビュー生成器を用いて適応的な拡張を行う,時空間グラフデータの基本および強増強手法を詳述する。
次に,空間-時間同期コントラストモジュール(sts-cm)を導入し,適切な空間-時間依存性を同時に捉え,グラフレベルのコントラストを実現する。
負フィルタリングにおけるノード個人をさらに識別するために、意味的特徴と空間的不均一性に基づいて意味的コンテクストコントラスト法を設計し、負フィルタリングとともにノードレベルのコントラスト学習を実現する。
最後に,強固な相互視型コントラストトレーニングスキームを示し,従来のコントラスト損失を統合目的関数に拡張することで,優れたパフォーマンスを実現する。
STS-CCLコントラスト学習モデルに基づく予測器の構築は,既存のトラフィック予測ベンチマークよりも優れた性能を示す。
提案したSTS-CCLは、ラベル付きデータとデータ不足問題のある時空間タスクのみを持つ大規模なデータセットに非常に適している。 Efficiently capturing the complex spatiotemporal representations from large-scale unlabeled traffic data remains to be a challenging task. In considering of the dilemma, this work employs the advanced contrastive learning and proposes a novel Spatial-Temporal Synchronous Contextual Contrastive Learning (STS-CCL) model. First, we elaborate the basic and strong augmentation methods for spatiotemporal graph data, which not only perturb the data in terms of graph structure and temporal characteristics, but also employ a learning-based dynamic graph view generator for adaptive augmentation. Second, we introduce a Spatial-Temporal Synchronous Contrastive Module (STS-CM) to simultaneously capture the decent spatial-temporal dependencies and realize graph-level contrasting. To further discriminate node individuals in negative filtering, a Semantic Contextual Contrastive method is designed based on semantic features and spatial heterogeneity, achieving node-level contrastive learning along with negative filtering. Finally, we present a hard mutual-view contrastive training scheme and extend the classic contrastive loss to an integrated objective function, yielding better performance. Extensive experiments and evaluations demonstrate that building a predictor upon STS-CCL contrastive learning model gains superior performance than existing traffic forecasting benchmarks. The proposed STS-CCL is highly suitable for large datasets with only a few labeled data and other spatiotemporal tasks with data scarcity issue. | 翻訳日:2023-12-19 20:31:19 公開日:2023-12-17 |
# グラフニューラルネットワークのためのマルチタスクプロンプト All in One: Multi-task Prompting for Graph Neural Networks ( http://arxiv.org/abs/2307.01504v2 ) ライセンス: Link先を確認 | Xiangguo Sun, Hong Cheng, Jia Li, Bo Liu, Jihong Guan | (参考訳) 近年、「事前学習と微調整」は、各アプリケーションからのグラフアノテーションの欠如を緩和するために一般的なグラフ知識を活用できるため、多くのグラフタスクの標準ワークフローとして採用されている。
しかし、ノードレベル、エッジレベル、グラフレベルのグラフタスクは、はるかに多様化しており、事前トレーニングされたプリテキストは、これらの複数のタスクと互換性がないことが多い。
このギャップは、特定のアプリケーションに対して'負の転送'を引き起こす可能性があり、その結果は乏しい。
自然言語処理(NLP)の素早い学習にインスパイアされ,様々なNLPタスクに事前知識を活用する上で,事前学習されたモデルと各種グラフタスクのギャップを埋める動機付けとして,グラフの素早いトピックについて検討した。
本稿では,グラフモデルのための新しいマルチタスクプロンプト手法を提案する。
具体的には、最初にグラフプロンプトと言語プロンプトのフォーマットをプロンプトトークン、トークン構造、挿入パターンで統一しました。
このようにして、NLPからのプロンプトアイデアをグラフ領域にシームレスに導入することができる。
次に,グラフ処理と最先端事前学習戦略のギャップをさらに狭めるため,様々なグラフアプリケーションのタスク空間をさらに調査し,ダウンストリーム問題をグラフレベルのタスクに再構成する。
その後、我々はメタラーニングを導入し、グラフのマルチタスクプロンプトのより優れた初期化を効果的に学習し、異なるタスクに対してより信頼性と一般的なプロンプトフレームワークを実現する。
我々は広範囲な実験を行い、その結果、本手法の優位性を実証した。 Recently, ''pre-training and fine-tuning'' has been adopted as a standard workflow for many graph tasks since it can take general graph knowledge to relieve the lack of graph annotations from each application. However, graph tasks with node level, edge level, and graph level are far diversified, making the pre-training pretext often incompatible with these multiple tasks. This gap may even cause a ''negative transfer'' to the specific application, leading to poor results. Inspired by the prompt learning in natural language processing (NLP), which has presented significant effectiveness in leveraging prior knowledge for various NLP tasks, we study the prompting topic for graphs with the motivation of filling the gap between pre-trained models and various graph tasks. In this paper, we propose a novel multi-task prompting method for graph models. Specifically, we first unify the format of graph prompts and language prompts with the prompt token, token structure, and inserting pattern. In this way, the prompting idea from NLP can be seamlessly introduced to the graph area. Then, to further narrow the gap between various graph tasks and state-of-the-art pre-training strategies, we further study the task space of various graph applications and reformulate downstream problems to the graph-level task. Afterward, we introduce meta-learning to efficiently learn a better initialization for the multi-task prompt of graphs so that our prompting framework can be more reliable and general for different tasks. We conduct extensive experiments, results from which demonstrate the superiority of our method. | 翻訳日:2023-12-19 20:30:54 公開日:2023-12-17 |
# ドメイン一般化都市-シーンセグメンテーションのための学習コンテンツエンハンスドマスクトランス Learning Content-enhanced Mask Transformer for Domain Generalized Urban-Scene Segmentation ( http://arxiv.org/abs/2307.00371v5 ) ライセンス: Link先を確認 | Qi Bi, Shaodi You, Theo Gevers | (参考訳) ドメイン一般化都市シーンセマンティックセマンティックセグメンテーション (USSS) は,様々な都市シーンスタイルの汎用セマンティックセマンティックセグメンテーションを学習することを目的としている。
ドメインギャップの課題とは異なり、usssは、意味的なカテゴリが異なる都市シーンでよく似ているのに対して、都市景観の変化、気象条件、照明、その他の要因によりスタイルが著しく異なる点が特徴である。
既存のアプローチは通常、都市シーンの内容を学ぶために畳み込みニューラルネットワーク(CNN)に依存している。
本稿では、ドメイン一般化USSSのためのコンテンツ強化Mask TransFormer(CMFormer)を提案する。
主な考え方は、コンテンツ情報に対するトランスフォーマーセグメンテーションモデルにおける基本的なコンポーネントであるマスアテンション機構の焦点を強化することである。
そこで本研究では,新しいマスキング機構を提案する。
低解像度の画像機能は、通常より堅牢なコンテンツ情報を含み、スタイルのバリエーションに敏感でないため、イメージ機能とダウンサンプルの両方からマスククエリを学習する。
これらの機能はTransformerデコーダに融合され、マルチ解像度のコンテンツ強調学習スキームに統合される。
様々な領域一般化都市・シーンセグメンテーションデータセットを用いて行った大規模な実験により、提案したCMFormerは、ドメイン一般化セグメンテーションの既存のCNN手法を著しく上回っており、mIoUの点において最大14.00\%の改善が達成されている。
ソースコードは \url{https://github.com/BiQiWHU/CMFormer} で公開されている。 Domain-generalized urban-scene semantic segmentation (USSS) aims to learn generalized semantic predictions across diverse urban-scene styles. Unlike domain gap challenges, USSS is unique in that the semantic categories are often similar in different urban scenes, while the styles can vary significantly due to changes in urban landscapes, weather conditions, lighting, and other factors. Existing approaches typically rely on convolutional neural networks (CNNs) to learn the content of urban scenes. In this paper, we propose a Content-enhanced Mask TransFormer (CMFormer) for domain-generalized USSS. The main idea is to enhance the focus of the fundamental component, the mask attention mechanism, in Transformer segmentation models on content information. To achieve this, we introduce a novel content-enhanced mask attention mechanism. It learns mask queries from both the image feature and its down-sampled counterpart, as lower-resolution image features usually contain more robust content information and are less sensitive to style variations. These features are fused into a Transformer decoder and integrated into a multi-resolution content-enhanced mask attention learning scheme. Extensive experiments conducted on various domain-generalized urban-scene segmentation datasets demonstrate that the proposed CMFormer significantly outperforms existing CNN-based methods for domain-generalized semantic segmentation, achieving improvements of up to 14.00\% in terms of mIoU (mean intersection over union). The source code is publicly available at \url{https://github.com/BiQiWHU/CMFormer}. | 翻訳日:2023-12-19 20:29:46 公開日:2023-12-17 |
# フェデレーション学習における分散資源管理のための価格差別ゲーム Price-Discrimination Game for Distributed Resource Management in Federated Learning ( http://arxiv.org/abs/2308.13838v2 ) ライセンス: Link先を確認 | Han Zhang, Halvin Yang and Guopeng Zhang | (参考訳) FedAvgのようなバニラ連合学習(FL)では、パラメータサーバ(PS)と複数の分散クライアントが典型的な買い手市場を形成し、FLサービスのPS/購入者数はクライアント/販売者数よりもはるかに少ない。
本稿では、FLの性能向上と、FLに参加するクライアントの動機付けコストの低減を図るため、異なるクライアントに対して同じサービス価格を提供するのではなく、異なるクライアントが提供するサービスの価格を区別することを提案する。
価格の差は、flがもたらした性能改善と、コンピューティングと通信能力の多様性に基づいている。
この目的のために、多目的トレードオフ、クライアント選択、インセンティブ機構を含むFLの分散リソース管理問題に包括的に対処する価格判別ゲーム(PDG)を策定する。
PDGは混合整数非線形プログラミング(MINLP)問題であるため、計算複雑性が低く通信オーバーヘッドの少ない分散半ヒューリスティックアルゴリズムがこの問題を解決するために設計されている。
シミュレーション結果は,提案手法の有効性を検証する。 In vanilla federated learning (FL) such as FedAvg, the parameter server (PS) and multiple distributed clients can form a typical buyer's market, where the number of PS/buyers of FL services is far less than the number of clients/sellers. In order to improve the performance of FL and reduce the cost of motivating clients to participate in FL, this paper proposes to differentiate the pricing for services provided by different clients rather than simply providing the same service pricing for different clients. The price is differentiated based on the performance improvements brought to FL and their heterogeneity in computing and communication capabilities. To this end, a price-discrimination game (PDG) is formulated to comprehensively address the distributed resource management problems in FL, including multi-objective trade-off, client selection, and incentive mechanism. As the PDG is a mixed-integer nonlinear programming (MINLP) problem, a distributed semi-heuristic algorithm with low computational complexity and low communication overhead is designed to solve it. The simulation result verifies the effectiveness of the proposed approach. | 翻訳日:2023-12-19 20:23:03 公開日:2023-12-17 |
# スクイズド貯水池による巨視的遠方マグノンモードの絡み合い Macroscopic distant magnon modes entanglement via a squeezed reservoir ( http://arxiv.org/abs/2308.13586v3 ) ライセンス: Link先を確認 | Kamran Ullah, Muhammad Tahir Naseem, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu | (参考訳) 量子系アレイにおける堅牢な絡み合いの生成は、効率的な量子情報処理の実現の重要な側面である。
近年、量子マグノニクスの分野は、この方向に進むための有望なプラットフォームとして大きな注目を集めている。
提案手法では, 磁気双極子相互作用により空洞モードに結合した1つのイットリウム鉄ガーネット(YIG)球を各空洞に収容する一次元共振器のアレイを用いた。
我々は,YIG間の絡み合いを誘導するために,絡み合い発生に必要となる非線形性を提供する局部圧縮型貯水池を用いる。
以上の結果から, 遠方マグノンモード間の二分極および三分極の絡み合いは, いずれも単一量子貯水池で達成された。
さらに、マグノンモード間の定常絡み合いは、マグノン散逸率と環境温度に対して頑健である。
量子情報処理や量子通信システムにおけるキャビティ-マグノンアレイの応用が期待できる。 The generation of robust entanglement in quantum system arrays is a crucial aspect of the realization of efficient quantum information processing. Recently, the field of quantum magnonics has garnered significant attention as a promising platform for advancing in this direction. In our proposed scheme, we utilize a one-dimensional array of coupled cavities, with each cavity housing a single yttrium iron garnet (YIG) sphere coupled to the cavity mode through magnetic dipole interaction. To induce entanglement between YIGs, we employ a local squeezed reservoir, which provides the necessary nonlinearity for entanglement generation. Our results demonstrate the successful generation of bipartite and tripartite entanglement between distant magnon modes, all achieved through a single quantum reservoir. Furthermore, the steady-state entanglement between magnon modes is robust against magnon dissipation rates and environment temperature. Our results may lead to applications of cavity-magnon arrays in quantum information processing and quantum communication systems. | 翻訳日:2023-12-19 20:22:12 公開日:2023-12-17 |
# より表現力のあるグラフニューラルネットワークは生成タスクを改善するか? Will More Expressive Graph Neural Networks do Better on Generative Tasks? ( http://arxiv.org/abs/2308.11978v3 ) ライセンス: Link先を確認 | Xiandong Zou, Xiangyu Zhao, Pietro Li\`o, Yiren Zhao | (参考訳) グラフ生成は、与えられたラベルに基づいて、複数のノードとエッジを持つ完全なグラフを予測するため、大きな課題となる。
この課題は、デノボ薬や分子設計を含む多くの現実世界の応用にも根本的な重要性を持っている。
近年,グラフ生成分野においていくつかの手法が成功している。
しかしながら、これらの手法は、(1)基礎となるグラフニューラルネットワーク(GNN)アーキテクチャがしばしば過小評価され、(2)限られた数のメトリクスで評価されることの2つの重大な欠点に悩まされている。
このギャップを埋めるために、グラフ生成モデルの基盤となるGNNをより表現力のあるGNNに置き換えることで、分子グラフ生成タスクの文脈下でのGNNの表現性を調査する。
具体的には、ZINC-250kデータセット上の6つの分子生成目標に対する6つのGNNの性能を、GCPNやGraphAFのような自己回帰生成モデルと、GraphEBMのような1ショット生成モデルという2つの異なる生成フレームワークで分析する。
GNNは,分子生成タスクにおけるGCPN,GraphAF,GraphEBMの性能を向上させることができるが,GNN表現性は優れたGNN生成モデルに必要な条件ではない。
さらに,提案する分子生成目標 (DRD2, Median1, Median2) に基づいて, 変分オートエンコーダやベイズ最適化モデルなどの非GNNグラフ生成手法を用いて, 高度GNNを用いたGCPNとGraphAFの最先端結果が得られることを示す。 Graph generation poses a significant challenge as it involves predicting a complete graph with multiple nodes and edges based on simply a given label. This task also carries fundamental importance to numerous real-world applications, including de-novo drug and molecular design. In recent years, several successful methods have emerged in the field of graph generation. However, these approaches suffer from two significant shortcomings: (1) the underlying Graph Neural Network (GNN) architectures used in these methods are often underexplored; and (2) these methods are often evaluated on only a limited number of metrics. To fill this gap, we investigate the expressiveness of GNNs under the context of the molecular graph generation task, by replacing the underlying GNNs of graph generative models with more expressive GNNs. Specifically, we analyse the performance of six GNNs on six different molecular generative objectives on the ZINC-250k dataset in two different generative frameworks: autoregressive generation models, such as GCPN and GraphAF, and one-shot generation models, such as GraphEBM. Through our extensive experiments, we demonstrate that advanced GNNs can indeed improve the performance of GCPN, GraphAF, and GraphEBM on molecular generation tasks, but GNN expressiveness is not a necessary condition for a good GNN-based generative model. Moreover, we show that GCPN and GraphAF with advanced GNNs can achieve state-of-the-art results across 17 other non-GNN-based graph generative approaches, such as variational autoencoders and Bayesian optimisation models, on the proposed molecular generative objectives (DRD2, Median1, Median2), which are important metrics for de-novo molecular design. | 翻訳日:2023-12-19 20:21:33 公開日:2023-12-17 |
# 複数条件拡散モデルによる音声生成 Audio Generation with Multiple Conditional Diffusion Model ( http://arxiv.org/abs/2308.11940v3 ) ライセンス: Link先を確認 | Zhifang Guo, Jianguo Mao, Rui Tao, Long Yan, Kazushige Ouchi, Hong Liu, Xiangdong Wang | (参考訳) テキストベースの音声生成モデルは、音声中のすべての情報を包含できないため制限があり、テキストのみに依存する場合の制御性を制限する。
そこで本研究では,テキストの補足として,コンテンツ(タイムスタンプ)やスタイル(ピッチ輪郭,エネルギー輪郭)などの追加条件を組み込むことで,既存の事前学習テキスト・オーディオモデルの制御性を向上する新しいモデルを提案する。
このアプローチは、生成された音声の時間的順序、ピッチ、エネルギーを細かく制御する。
生成の多様性を維持するため,大規模な言語モデルとFusion-Netによって強化された訓練可能な制御条件エンコーダを用いて,事前学習されたテキスト・オーディオモデルの重みを凍結させながら追加条件を符号化・融合する。
適切なデータセットと評価指標が欠如しているため、既存のデータセットを音声および対応する条件を含む新しいデータセットに統合し、一連の評価指標を用いて制御性の評価を行う。
実験結果から,制御可能な音声生成を実現するための粒度制御が得られた。
オーディオサンプルとデータセットはhttps://conditionaudiogen.github.io/conditionaudiogen/で公開されています。 Text-based audio generation models have limitations as they cannot encompass all the information in audio, leading to restricted controllability when relying solely on text. To address this issue, we propose a novel model that enhances the controllability of existing pre-trained text-to-audio models by incorporating additional conditions including content (timestamp) and style (pitch contour and energy contour) as supplements to the text. This approach achieves fine-grained control over the temporal order, pitch, and energy of generated audio. To preserve the diversity of generation, we employ a trainable control condition encoder that is enhanced by a large language model and a trainable Fusion-Net to encode and fuse the additional conditions while keeping the weights of the pre-trained text-to-audio model frozen. Due to the lack of suitable datasets and evaluation metrics, we consolidate existing datasets into a new dataset comprising the audio and corresponding conditions and use a series of evaluation metrics to evaluate the controllability performance. Experimental results demonstrate that our model successfully achieves fine-grained control to accomplish controllable audio generation. Audio samples and our dataset are publicly available at https://conditionaudiogen.github.io/conditionaudiogen/ | 翻訳日:2023-12-19 20:21:01 公開日:2023-12-17 |
# テンソル表現による逆流補正の再検討:Fermi-Hubbard型モデルのベンチマーク Revisiting Backflow Corrections by Tensor Representations: Benchmarks on Fermi-Hubbard-type Models ( http://arxiv.org/abs/2308.11823v4 ) ライセンス: Link先を確認 | Yu-Tong Zhou, Zheng-Wei Zhou, Xiao Liang | (参考訳) 量子多体問題は凝縮物質物理学において重要なトピックである。
この問題を解決するために波動関数の表現能力を向上させるためにいくつかの手法が開発され、Fermi-Hubbardモデルでは現在の最先端の手法はニューラルネットワークのバックフローと隠れフェルミオンSlater行列式である。
逆流補正は、自由粒子のスレーター決定性を改善する効率的な方法である。
本研究では,バックフロー補正された波動関数のテンソル表現を提案する。ここでは,スピンのない$t$-$v$モデルにおいて,現在のテンソルネットワーク法よりも,エネルギー精度が競合的であるか,あるいはさらに低いことを示す。
スピンを持つモデルでは、軌道と粒子の間の異なるスピンの非ゼロ逆流補正を考慮し、表現能力をさらに向上する。
我々は,STO-3Gに基づく分子と周期的および円筒的ボーダリー条件を持つフェルミ・ハッバードモデルについてベンチマークを行った。
提案手法は, 現状の手法よりも, 競争力やエネルギー効率の低下が期待できることを示す。 The quantum many-body problem is an important topic in condensed matter physics. To efficiently solve the problem, several methods have been developped to improve the representation ability of wave-functions.For the Fermi-Hubbard model, current state-of-the-art methods are neural network backflows and the hidden fermion Slater determinant. The backflow correction is an efficient way to improve the Slater determinant of free-particles. In this work we propose a tensor representation of the backflow corrected wave-function, we show that for the spinless $t$-$V$ model, the energy precision is competitive or even lower than current state-of-the-art tensor network methods. For models with spin, we further improve the representation ability by considering non-zero backflow corrections on different spins between the orbital and the particle. We benchmark on molecules under STO-3G basis and the Fermi-Hubbard model with periodic and cylindrical boudary conditions. We show that our methods achieve competitive or even lower energy results than current state-of-the-art methods. | 翻訳日:2023-12-19 20:20:36 公開日:2023-12-17 |
# 多文書質問応答のための知識グラフプロンプト Knowledge Graph Prompting for Multi-Document Question Answering ( http://arxiv.org/abs/2308.11730v2 ) ライセンス: Link先を確認 | Yu Wang, Nedim Lipka, Ryan A. Rossi, Alexa Siu, Ruiyi Zhang, Tyler Derr | (参考訳) 大規模言語モデル(LLM)の'pre-train, prompt, predict'パラダイムは,オープンドメイン質問応答(OD-QA)において顕著な成功を収めた。
しかし、多文書質問応答(MD-QA)のシナリオにおいて、異なる文書の内容と構造間の論理的関連を徹底的に理解するタスクにおいて、このパラダイムを探求する研究はほとんどない。
この重要なギャップを埋めるために,我々は,グラフ構築モジュールとグラフトラバーサルモジュールからなるMD-QA用LLMの適切なコンテキストを定式化するための知識グラフプロンプト法(KGP)を提案する。
グラフ構築のために、複数の文書に、通路や文書構造(例えば、ページ/テーブル)を象徴するノードと、通路や文書内構造関係間の意味的・語彙的類似性を表すエッジを持つ知識グラフ(KG)を作成する。
グラフトラバーサルでは,ノードを横断するグラフトラバーサルエージェントを設計し,MD-QA で LLM を支援する支援通路を収集する。
構築されたグラフは、通路間の遷移空間を規制し、検索遅延を減少させる大域的定規として機能する。
同時に、グラフトラバーサルエージェントは、関連するコンテキストを収集し、質問に徐々にアプローチし、検索品質を保証するローカルナビゲータとして機能する。
MD-QAに対するKGPの有効性は、LLMの迅速な設計を強化するためにグラフを活用する可能性を示している。
コード:https://github.com/YuWVandy/KG-LLM-MDQA。 The `pre-train, prompt, predict' paradigm of large language models (LLMs) has achieved remarkable success in open-domain question answering (OD-QA). However, few works explore this paradigm in the scenario of multi-document question answering (MD-QA), a task demanding a thorough understanding of the logical associations among the contents and structures of different documents. To fill this crucial gap, we propose a Knowledge Graph Prompting (KGP) method to formulate the right context in prompting LLMs for MD-QA, which consists of a graph construction module and a graph traversal module. For graph construction, we create a knowledge graph (KG) over multiple documents with nodes symbolizing passages or document structures (e.g., pages/tables), and edges denoting the semantic/lexical similarity between passages or intra-document structural relations. For graph traversal, we design an LLM-based graph traversal agent that navigates across nodes and gathers supporting passages assisting LLMs in MD-QA. The constructed graph serves as the global ruler that regulates the transitional space among passages and reduces retrieval latency. Concurrently, the graph traversal agent acts as a local navigator that gathers pertinent context to progressively approach the question and guarantee retrieval quality. Extensive experiments underscore the efficacy of KGP for MD-QA, signifying the potential of leveraging graphs in enhancing the prompt design for LLMs. Our code: https://github.com/YuWVandy/KG-LLM-MDQA. | 翻訳日:2023-12-19 20:20:18 公開日:2023-12-17 |
# Far3D:3Dオブジェクト検出のためのHorizonの拡張 Far3D: Expanding the Horizon for Surround-view 3D Object Detection ( http://arxiv.org/abs/2308.09616v2 ) ライセンス: Link先を確認 | Xiaohui Jiang, Shuailin Li, Yingfei Liu, Shihao Wang, Fan Jia, Tiancai Wang, Lijin Han, Xiangyu Zhang | (参考訳) 近年,サラウンドビュー画像からの3次元物体検出は,低コストで顕著な進歩を遂げている。
しかし、ほとんどの作品は主に近視範囲に焦点を合わせているが、長距離検出の探求は少ない。
距離を直接カバーするために既存の手法を拡張することは、重い計算コストや不安定な収束といった課題を引き起こす。
これらの制限に対処するため,本稿では,far3dと呼ばれる新しいスパースクエリベースのフレームワークを提案する。
高品質な2Dオブジェクトの事前利用により、3Dグローバルクエリを補完する3D適応クエリを生成する。
長距離オブジェクトに対する様々なビューやスケールの識別的特徴を効率的に捉えるために,視点認識集約モジュールを導入する。
さらに,クエリエラーの伝搬に対処し,長距離タスクにおける収束問題を緩和するレンジ変調型3D復調手法を提案する。
Far3Dは、挑戦的なArgoverse 2データセットでSoTAのパフォーマンスを示し、150mの範囲をカバーし、LiDARベースのアプローチを数回越えている。
一方、Far3DはnuScenesデータセットの以前の方法よりも優れたパフォーマンスを示している。
コードはhttps://github.com/megvii-research/far3dで入手できる。 Recently 3D object detection from surround-view images has made notable advancements with its low deployment cost. However, most works have primarily focused on close perception range while leaving long-range detection less explored. Expanding existing methods directly to cover long distances poses challenges such as heavy computation costs and unstable convergence. To address these limitations, this paper proposes a novel sparse query-based framework, dubbed Far3D. By utilizing high-quality 2D object priors, we generate 3D adaptive queries that complement the 3D global queries. To efficiently capture discriminative features across different views and scales for long-range objects, we introduce a perspective-aware aggregation module. Additionally, we propose a range-modulated 3D denoising approach to address query error propagation and mitigate convergence issues in long-range tasks. Significantly, Far3D demonstrates SoTA performance on the challenging Argoverse 2 dataset, covering a wide range of 150 meters, surpassing several LiDAR-based approaches. Meanwhile, Far3D exhibits superior performance compared to previous methods on the nuScenes dataset. The code is available at https://github.com/megvii-research/Far3D. | 翻訳日:2023-12-19 20:19:28 公開日:2023-12-17 |
# 変圧器は未知系の最適フィルタリングを学習できるか? Can Transformers Learn Optimal Filtering for Unknown Systems? ( http://arxiv.org/abs/2308.08536v2 ) ライセンス: Link先を確認 | Haldun Balim, Zhe Du, Samet Oymak, Necmiye Ozay | (参考訳) トランスフォーマーモデルは自然言語処理において大きな成功をおさめてきたが、そのポテンシャルは力学系では未解明のままである。
本研究では,過去の全ての出力予測を生成するトランスを用いた最適出力推定問題について検討する。
特に,様々な異なるシステムを用いて変圧器を訓練し,未知のダイナミクスを持つ未知システムの性能を評価する。
経験的に、訓練された変圧器は異なる未知の系に非常によく適応し、線形系に対してカルマンフィルタが与える最適性能にさえ適合する。
非d.d.ノイズ、時間変化力学、未知のパラメータを持つ四元数系のような非線形力学のより複雑な設定では、トランスフォーマーも有望な結果を示す。
実験結果を支援するため,変圧器に必要なトレーニングデータ量を定量化し,所望の余剰リスクを達成する統計的保証を提供する。
最後に,性能低下につながる2つの問題のクラスを特定し,制御と推定にトランスフォーマーを使用する場合の注意点を強調した。 Transformer models have shown great success in natural language processing; however, their potential remains mostly unexplored for dynamical systems. In this work, we investigate the optimal output estimation problem using transformers, which generate output predictions using all the past ones. Particularly, we train the transformer using various distinct systems and then evaluate the performance on unseen systems with unknown dynamics. Empirically, the trained transformer adapts exceedingly well to different unseen systems and even matches the optimal performance given by the Kalman filter for linear systems. In more complex settings with non-i.i.d. noise, time-varying dynamics, and nonlinear dynamics like a quadrotor system with unknown parameters, transformers also demonstrate promising results. To support our experimental findings, we provide statistical guarantees that quantify the amount of training data required for the transformer to achieve a desired excess risk. Finally, we point out some limitations by identifying two classes of problems that lead to degraded performance, highlighting the need for caution when using transformers for control and estimation. | 翻訳日:2023-12-19 20:19:11 公開日:2023-12-17 |
# 自動ラベルと合成データを用いた畳み込みネットワークによる音声ピッチ推定 Human Voice Pitch Estimation: A Convolutional Network with Auto-Labeled and Synthetic Data ( http://arxiv.org/abs/2308.07170v2 ) ライセンス: Link先を確認 | Jeremy Cochoy | (参考訳) 音楽と音処理の分野では、ピッチ抽出が重要な役割を果たす。
本研究では,特にアカペラ演奏における人間の歌声からピッチ抽出のために設計された畳み込みニューラルネットワークを提案する。
特に,合成データと自動ラベル付きアカペラ歌唱音声を組み合わせることで,ロバストなトレーニング環境を実現する。
合成音、オペラ録音、時間伸長母音からなるデータセット間の評価は、その有効性を示す。
この作品は、音楽と音声の両方の設定でピッチ抽出を強化している。 In the domain of music and sound processing, pitch extraction plays a pivotal role. Our research presents a specialized convolutional neural network designed for pitch extraction, particularly from the human singing voice in acapella performances. Notably, our approach combines synthetic data with auto-labeled acapella sung audio, creating a robust training environment. Evaluation across datasets comprising synthetic sounds, opera recordings, and time-stretched vowels demonstrates its efficacy. This work paves the way for enhanced pitch extraction in both music and voice settings. | 翻訳日:2023-12-19 20:18:53 公開日:2023-12-17 |
# 複数言語用音声発話ペアを用いたゼロ資源符号切り換え音声ベンチマーク Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages ( http://arxiv.org/abs/2310.03018v2 ) ライセンス: Link先を確認 | Kuan-Po Huang, Chih-Kai Yang, Yu-Kuan Fu, Ewan Dunbar, Hung-yi Lee | (参考訳) 自己教師付き音声エンコーダのコードスイッチ機能を直接評価するゼロリソース符号切替音声ベンチマークを提案する。
本稿では,音声エンコーダのコードスイッチング能力がゼロリソース方式でどのように評価できるかを示すために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
我々の実験は、Wav2vec 2.0、HuBERT、XLSRなど、よく知られた音声エンコーダを含む。
事前学習言語とモデルサイズがベンチマーク性能に与える影響について検討する。
特に,XLSRで実証した多言語事前学習による音声エンコーダは,コードスイッチングシナリオにおける単言語変種(Wav2vec 2.0, HuBERT)よりも優れているが,コードスイッチング言語能力の改善の余地は十分にある。 We introduce a new zero resource code-switched speech benchmark designed to directly assess the code-switching capabilities of self-supervised speech encoders. We showcase a baseline system of language modeling on discrete units to demonstrate how the code-switching abilities of speech encoders can be assessed in a zero-resource manner. Our experiments encompass a variety of well-known speech encoders, including Wav2vec 2.0, HuBERT, XLSR, etc. We examine the impact of pre-training languages and model size on benchmark performance. Notably, though our results demonstrate that speech encoders with multilingual pre-training, exemplified by XLSR, outperform monolingual variants (Wav2vec 2.0, HuBERT) in code-switching scenarios, there is still substantial room for improvement in their code-switching linguistic abilities. | 翻訳日:2023-12-19 20:11:39 公開日:2023-12-17 |
# プラグアンドプレイ演算子の収縮性について On the Contractivity of Plug-and-Play Operators ( http://arxiv.org/abs/2309.16899v3 ) ライセンス: Link先を確認 | Chirayu D. Athalye, Kunal N. Chaudhury, and Bhartendu Kumar | (参考訳) プラグ・アンド・プレイ(PnP)正則化では、ISTAやADMMといったアルゴリズムの近似演算子を強力なデノイザに置き換える。
この形式的な置換は実際驚くほどうまく機能する。
実際、PnPは様々なイメージング応用に最先端の結果をもたらすことが示されている。
pnpの実証的な成功は、研究者がその理論的基盤、特に収束を理解する動機となった。
先行研究において、非局所的な手段のようなカーネルのノイズに対して、pnp-istaは前方モデル上のいくつかの強い仮定の下で確実に収束することを示した。
フォワードモデルにおける仮定を緩和できるか?
収束解析はPnP-ADMMに拡張できるのか?
収束率を推定できますか?
本文では, 縮尺写像定理を用いてこれらの問題を解く。
i) 対称雑音に対するPnP-ISTAとPnP-ADMMが線形収束を示すことを示す。
(II) カーネルデノイザでは, PnP-ISTA と PnP-ADMM がイメージインペイントに対して直線的に収束することを示す。
再建実験を用いて理論的知見を検証した。 In plug-and-play (PnP) regularization, the proximal operator in algorithms such as ISTA and ADMM is replaced by a powerful denoiser. This formal substitution works surprisingly well in practice. In fact, PnP has been shown to give state-of-the-art results for various imaging applications. The empirical success of PnP has motivated researchers to understand its theoretical underpinnings and, in particular, its convergence. It was shown in prior work that for kernel denoisers such as the nonlocal means, PnP-ISTA provably converges under some strong assumptions on the forward model. The present work is motivated by the following questions: Can we relax the assumptions on the forward model? Can the convergence analysis be extended to PnP-ADMM? Can we estimate the convergence rate? In this letter, we resolve these questions using the contraction mapping theorem: (i) for symmetric denoisers, we show that (under mild conditions) PnP-ISTA and PnP-ADMM exhibit linear convergence; and (ii) for kernel denoisers, we show that PnP-ISTA and PnP-ADMM converge linearly for image inpainting. We validate our theoretical findings using reconstruction experiments. | 翻訳日:2023-12-19 20:10:16 公開日:2023-12-17 |
# 深層学習ネットワークの幾何学的構造とグローバル${\mathcal L}^2$ミニマの構築 Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers ( http://arxiv.org/abs/2309.10639v3 ) ライセンス: Link先を確認 | Thomas Chen, Patricia Mu\~noz Ewald | (参考訳) 本稿では,L$隠れ層,ReLUランプ活性化関数,$\mathcal{L}^2$Schattenクラス(あるいはHilbert-Schmidt)コスト関数,および等次元$Q\geq1$の入力および出力空間$\mathbb{R}^Q$を特徴とする,ディープラーニング(DL)ネットワークの構造を幾何学的に解釈する。
隠れたレイヤは$\mathbb{r}^{q}$で定義され、トレーニング入力サイズ$n$は任意に大きい可能性がある。
我々は,最近の浅層ニューラルネットワークに関する結果を適用し,l\geq q$の場合のコスト関数の最小最小値に対する最小値の明示的な族を構築する。
ここで示した文脈では、dlネットワークの隠れた層は、トレーニング入力のノイズと信号比を最小化するトランザクションマップの再帰的適用により、トレーニング入力を「キュレート」する。
さらに,コスト関数の縮退型局所最小値の集合を2^Q-1$で決定する。
我々の構造は勾配降下アルゴリズムを全く利用しない。 In this paper, we provide a geometric interpretation of the structure of Deep Learning (DL) networks, characterized by $L$ hidden layers, a ReLU ramp activation function, an $\mathcal{L}^2$ Schatten class (or Hilbert-Schmidt) cost function, and input and output spaces $\mathbb{R}^Q$ with equal dimension $Q\geq1$. The hidden layers are also defined on $\mathbb{R}^{Q}$; the training input size $N$ can be arbitrarily large - thus, we are considering the underparametrized regime. We apply our recent results on shallow neural networks to construct an explicit family of minimizers for the global minimum of the cost function in the case $L\geq Q$, which we show to be degenerate. In the context presented here, the hidden layers of the DL network "curate" the training inputs by recursive application of a truncation map that minimizes the noise to signal ratio of the training inputs. Moreover, we determine a set of $2^Q-1$ distinct degenerate local minima of the cost function. Our constructions make no use of gradient descent algorithms at all. | 翻訳日:2023-12-19 20:08:26 公開日:2023-12-17 |
# フルオロベンゼン中の電子ウェーブレットのイオン化と励起によるアトケミカル量子干渉のシグナル Signature of attochemical quantum interference upon ionization and excitation of an electronic wavepacket in fluoro-benzene ( http://arxiv.org/abs/2309.08269v2 ) ライセンス: Link先を確認 | Anthony Fert\'e, Dane Austin, Allan S. Johnson, Felicity McGrath, Jo\~ao Pedro Malhado, Jon P. Marangos, and Morgane Vacher | (参考訳) 超短パルスは分子を励起またはイオン化し、コヒーレントな電子ウェーブパックを投入し、複雑なダイナミクスを誘導する。
本研究では, ベンゼンとフッ化ベンゼン分子の異なる電子波束へのイオン化に伴う結合電子核動力学を, 量子力学的および全次元でシミュレートする。
フルオロベンゼンでは、アトケミカルの明確なサインと自己相関関数の形に電荷方向の反応性を残す状態間および状態内量子干渉の両方を解き放つ。
後者はベンゼンとフルオロベンゼンの実験的な高調波分光測定と一致している。 Ultrashort pulses can excite or ionize molecules and populate coherent electronic wavepackets, inducing complex dynamics. In this work, we simulate the coupled electron-nuclear dynamics upon ionization to different electronic wavepackets of (deuterated) benzene and fluoro-benzene molecules, quantum mechanically and in full dimensionality. In fluoro-benzene, the calculations unravel both inter-state and intra-state quantum interferences that leave clear signatures of attochemistry and charge-directed reactivity in the shape of the autocorrelation function. The latter are in agreement with experimental high harmonic spectroscopy measurements of benzenes and fluoro-benzene. | 翻訳日:2023-12-19 20:07:58 公開日:2023-12-17 |
# 深層学習支援サブスペースに基づくスパースアレイのDOA復元 Deep Learning-Aided Subspace-Based DOA Recovery for Sparse Arrays ( http://arxiv.org/abs/2309.05109v2 ) ライセンス: Link先を確認 | Yoav Amiel, Dor H. Shmuel, Nir Shlezinger, and Wasim Huleihel | (参考訳) スパース配列は、非一様配列を用いたアンテナ要素よりも多くの到着方向(doas)を解決することができる。
これは典型的には、仮想大一様線形アレイ(ULA)の共分散を再構成し、サブスペースDoA推定器によって処理される。
しかし、これらの方法は信号が非一貫性で配列が校正されていると仮定し、後者は仮想配列要素にアクセスできないスパース配列で達成することがしばしば困難である。
本研究では,Sparse-SubspaceNetを提案する。このSparse-SubspaceNetは,Sparse-Subspace-based DoA recovery from sparse miscallibrated arrays with coherent sources。
Sparse-SubspaceNetは専用のディープネットワークを使用して、区別可能なサブスペースに分割可能な仮想配列共分散の計算方法を学ぶ。
これにより、モデルベース部分空間DoA推定器の解釈可能性と適合性を保ちながら、コヒーレントソースやスパースアレイの誤校正に対処することを学ぶ。 Sparse arrays enable resolving more direction of arrivals (DoAs) than antenna elements using non-uniform arrays. This is typically achieved by reconstructing the covariance of a virtual large uniform linear array (ULA), which is then processed by subspace DoA estimators. However, these method assume that the signals are non-coherent and the array is calibrated; the latter often challenging to achieve in sparse arrays, where one cannot access the virtual array elements. In this work, we propose Sparse-SubspaceNet, which leverages deep learning to enable subspace-based DoA recovery from sparse miscallibrated arrays with coherent sources. Sparse- SubspaceNet utilizes a dedicated deep network to learn from data how to compute a surrogate virtual array covariance that is divisible into distinguishable subspaces. By doing so, we learn to cope with coherent sources and miscalibrated sparse arrays, while preserving the interpretability and the suitability of model-based subspace DoA estimators. | 翻訳日:2023-12-19 20:07:24 公開日:2023-12-17 |
# SAM-Deblur: 画像の劣化を加速させるセグメンテーション SAM-Deblur: Let Segment Anything Boost Image Deblurring ( http://arxiv.org/abs/2309.02270v2 ) ライセンス: Link先を確認 | Siwei Li, Mingxuan Liu, Yating Zhang, Shu Chen, Haoxiang Li, Zifei Dou and Hong Chen | (参考訳) 画像のデブラリングは画像復元の分野において重要な課題であり、ぼやけたアーティファクトを取り除くことを目的としている。
しかし、不均一な曖昧化に対処することの課題は、既存のデブロワーリングモデルの一般化性能を制限する不適切な問題に繋がる。
そこで本研究では,Segment Anything Model (SAM) からの事前知識を初めてデブロア処理に組み込んだ SAM-Deblur フレームワークを提案する。
特にSAM-Deblurは3つの段階に分けられる。
まず,ぼやけた画像の事前処理,samによるセグメントマスクの取得,モデルのロバスト性向上のためのトレーニングのためのマスクドロップアウト手法を提案する。
そこで本研究では,SAM が生成する構造的前提をフル活用するために,SAM 生成したセグメント領域の平均化を目的とした Mask Average Pooling (MAP) ユニットを提案する。
最後に、MAPユニットが生成した融合特徴をデブロアリングモデルに供給し、シャープな画像を得る。
RealBlurJ, ReloBlur, REDSデータセットによる実験結果から, GoProでトレーニングしたNAFNetのPSNRをそれぞれ0.05, 0.96, 7.03に改善した。
プロジェクトページはgithub \href{https://hplqaq.github.io/projects/sam-deblur}{hplqaq/sam-deblur}にある。 Image deblurring is a critical task in the field of image restoration, aiming to eliminate blurring artifacts. However, the challenge of addressing non-uniform blurring leads to an ill-posed problem, which limits the generalization performance of existing deblurring models. To solve the problem, we propose a framework SAM-Deblur, integrating prior knowledge from the Segment Anything Model (SAM) into the deblurring task for the first time. In particular, SAM-Deblur is divided into three stages. First, we preprocess the blurred images, obtain segment masks via SAM, and propose a mask dropout method for training to enhance model robustness. Then, to fully leverage the structural priors generated by SAM, we propose a Mask Average Pooling (MAP) unit specifically designed to average SAM-generated segmented areas, serving as a plug-and-play component which can be seamlessly integrated into existing deblurring networks. Finally, we feed the fused features generated by the MAP Unit into the deblurring model to obtain a sharp image. Experimental results on the RealBlurJ, ReloBlur, and REDS datasets reveal that incorporating our methods improves GoPro-trained NAFNet's PSNR by 0.05, 0.96, and 7.03, respectively. Project page is available at GitHub \href{https://hplqaq.github.io/projects/sam-deblur}{HPLQAQ/SAM-Deblur}. | 翻訳日:2023-12-19 20:07:06 公開日:2023-12-17 |
# ULTRA-DP:マルチタスクグラフデュアルプロンプトによるグラフ事前学習の統合 ULTRA-DP: Unifying Graph Pre-training with Multi-task Graph Dual Prompt ( http://arxiv.org/abs/2310.14845v2 ) ライセンス: Link先を確認 | Mouxiang Chen, Zemin Liu, Chenghao Liu, Jundong Li, Qiheng Mao, Jianling Sun | (参考訳) 近年,gnn(pre-training graph neural network)がトランスファー可能なグラフセマンティクスをキャプチャし,ダウンストリームタスクの性能を向上させる効果が実証されている。
しかし、プレテキストタスクから学んだセマンティック知識は下流タスクとは無関係であり、グラフ事前学習の適用を制限するセマンティックギャップにつながる。
このギャップを軽減するために、従来のアプローチでは、様々なプリテキストタスクをマルチタスク学習の方法で結合し、複数の粒度の知識を学習するハイブリッド事前学習を提案しているが、タスクを区別することはできず、タスク固有の知識歪みを相互に伝達させることができる。
さらに、ほとんどのGNNはグラフの異なる部分に位置するノードを区別できないため、位置特化知識を習得できず、最適以下のパフォーマンスをもたらす。
本稿では,自然言語処理におけるプロンプトベースのチューニングに着想を得て,マルチタスクグラフ二重プロンプト(ULTRA-DP)を介し,タスク識別と位置識別をGNNに注入するグラフハイブリッド事前学習フレームワークを提案する。
このフレームワークに基づいて, 意味的ギャップを減らすために, もっとも適切なプリテキストタスクを見つけるための, プロンプトベースの転送可能性テストを提案する。
従来のエッジ予測タスク(ノード-ノードレベル)を超えて,ハイブリッド事前学習タスクを実現するために,さらに,$k$-nearest近傍(ノード-グループレベル)のグループに基づく新しい事前学習パラダイムを提案する。
異なるスケールで組み合わせることで、より構造的な意味論を包括的に表現し、よりリッチな多義的な知識を導き出すことができる。
広汎な実験により,提案したULTRA-DPは,ハイブリッドプレトレーニング手法の性能を大幅に向上し,他の事前トレーニングタスクやバックボーンアーキテクチャへの一般化可能性を示す。 Recent research has demonstrated the efficacy of pre-training graph neural networks (GNNs) to capture the transferable graph semantics and enhance the performance of various downstream tasks. However, the semantic knowledge learned from pretext tasks might be unrelated to the downstream task, leading to a semantic gap that limits the application of graph pre-training. To reduce this gap, traditional approaches propose hybrid pre-training to combine various pretext tasks together in a multi-task learning fashion and learn multi-grained knowledge, which, however, cannot distinguish tasks and results in some transferable task-specific knowledge distortion by each other. Moreover, most GNNs cannot distinguish nodes located in different parts of the graph, making them fail to learn position-specific knowledge and lead to suboptimal performance. In this work, inspired by the prompt-based tuning in natural language processing, we propose a unified framework for graph hybrid pre-training which injects the task identification and position identification into GNNs through a prompt mechanism, namely multi-task graph dual prompt (ULTRA-DP). Based on this framework, we propose a prompt-based transferability test to find the most relevant pretext task in order to reduce the semantic gap. To implement the hybrid pre-training tasks, beyond the classical edge prediction task (node-node level), we further propose a novel pre-training paradigm based on a group of $k$-nearest neighbors (node-group level). The combination of them across different scales is able to comprehensively express more structural semantics and derive richer multi-grained knowledge. Extensive experiments show that our proposed ULTRA-DP can significantly enhance the performance of hybrid pre-training methods and show the generalizability to other pre-training tasks and backbone architectures. | 翻訳日:2023-12-19 20:00:11 公開日:2023-12-17 |
# ボトルネックモデルにおけるクロスモーダル概念化 Cross-Modal Conceptualization in Bottleneck Models ( http://arxiv.org/abs/2310.14805v2 ) ライセンス: Link先を確認 | Danis Alukaev, Semen Kiselev, Ilya Pershin, Bulat Ibragimov, Vladimir Ivanov, Alexey Kornaev, Ivan Titov | (参考訳) 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、訓練例(例えば、X線画像)は高レベルな概念(例えば、異常の種類)でアノテートされ、まず概念を予測し、次にこれらの概念に依存するラベルを予測する。
CBMを使うことの最大の難しさは、ラベルの予測可能な概念を選択し、これらの概念でトレーニング例をラベル付けすることにある。
このアプローチでは、より穏健な仮定を採用し、代わりに、訓練中の画像に付随するテキスト記述(例えば、放射線学レポート)を使用して概念の導出を導く。
我々のクロスモーダルアプローチは,概念を離散潜在変数として扱い,(1)ラベルの予測,(2)画像とテキストの両方から確実に予測できる概念を促進する。
合成データセット(例えば、生成した記述を伴う合成画像)から現実的な医用画像データセット(英語版)までのデータセットで実施された実験を通じて、クロスモーダル学習は解釈可能な概念の誘導を促進するとともに、解離を促進することを実証する。
また,このガイダンスはショートカット機能への依存を抑えることで,堅牢性の向上につながることが示唆された。 Concept Bottleneck Models (CBMs) assume that training examples (e.g., x-ray images) are annotated with high-level concepts (e.g., types of abnormalities), and perform classification by first predicting the concepts, followed by predicting the label relying on these concepts. The main difficulty in using CBMs comes from having to choose concepts that are predictive of the label and then having to label training examples with these concepts. In our approach, we adopt a more moderate assumption and instead use text descriptions (e.g., radiology reports), accompanying the images in training, to guide the induction of concepts. Our cross-modal approach treats concepts as discrete latent variables and promotes concepts that (1) are predictive of the label, and (2) can be predicted reliably from both the image and text. Through experiments conducted on datasets ranging from synthetic datasets (e.g., synthetic images with generated descriptions) to realistic medical imaging datasets, we demonstrate that cross-modal learning encourages the induction of interpretable concepts while also facilitating disentanglement. Our results also suggest that this guidance leads to increased robustness by suppressing the reliance on shortcut features. | 翻訳日:2023-12-19 19:59:37 公開日:2023-12-17 |
# 気候変動下の南洋のダイナミクス:物理誘導機械学習による新しい知識 Southern Ocean Dynamics Under Climate Change: New Knowledge Through Physics-Guided Machine Learning ( http://arxiv.org/abs/2310.13916v2 ) ライセンス: Link先を確認 | William Yik, Maike Sonnewald, Mariana C. A. Clare, Redouane Lguensat | (参考訳) 南極圏極性海流のような複雑な海洋システムは、気候において重要な役割を担い、現在のモデルでは、気候変動下でのその強度と面積の変化を予測している。
しかし、これらの変化の根底にある物理過程は、複雑なモデルにおける海洋物理学の変化の特徴付けと追跡が難しいため、よく理解されていない。
南極圏極性潮流をケーススタディとして、海洋レジーム(THOR)による地球規模の暖房を追跡する手法をメソスケールの渦状気候モデルに拡張し、気候モデルから容易にアクセス可能なフィールドを用いて、同様の物理現象によって特徴づけられる海の地域を特定する。
この目的のために、グリッドセルを動的レジームにクラスタリングし、不確実性定量化を可能にするニューラルネットワークのアンサンブルをトレーニングし、これらのレジームを予測し、気候変動下で追跡します。
最後に,この新たな知識を活かして,神経回路の同定されたレジームシフトの動的要因を,'説明可能性'法と層間相関伝播法を用いて解明する。
南極圏の極性海流は、炭素の減少と漁業にとって重要な地域である太平洋-南極海リッジと交差している。
この領域では、THORは風の応力の変化と水浴測定との相互作用によって引き起こされる気候変動による動的体制の変化を特に明らかにしている。
この知識を活かしてさらなる探査を導くことで,南極の周極流が風応力の増大に伴って北へ移動するにつれて,水圧計の力学的な役割が弱まり,流れが強まることが判明した。 Complex ocean systems such as the Antarctic Circumpolar Current play key roles in the climate, and current models predict shifts in their strength and area under climate change. However, the physical processes underlying these changes are not well understood, in part due to the difficulty of characterizing and tracking changes in ocean physics in complex models. Using the Antarctic Circumpolar Current as a case study, we extend the method Tracking global Heating with Ocean Regimes (THOR) to a mesoscale eddy permitting climate model and identify regions of the ocean characterized by similar physics, called dynamical regimes, using readily accessible fields from climate models. To this end, we cluster grid cells into dynamical regimes and train an ensemble of neural networks, allowing uncertainty quantification, to predict these regimes and track them under climate change. Finally, we leverage this new knowledge to elucidate the dynamical drivers of the identified regime shifts as noted by the neural network using the 'explainability' methods SHAP and Layer-wise Relevance Propagation. A region undergoing a profound shift is where the Antarctic Circumpolar Current intersects the Pacific-Antarctic Ridge, an area important for carbon draw-down and fisheries. In this region, THOR specifically reveals a shift in dynamical regime under climate change driven by changes in wind stress and interactions with bathymetry. Using this knowledge to guide further exploration, we find that as the Antarctic Circumpolar Current shifts north under intensifying wind stress, the dominant dynamical role of bathymetry weakens and the flow intensifies. | 翻訳日:2023-12-19 19:59:12 公開日:2023-12-17 |
# remax: 大きな言語モデルを調整するためのシンプルで効果的で効率的な強化学習法 ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models ( http://arxiv.org/abs/2310.10505v3 ) ライセンス: Link先を確認 | Ziniu Li, Tian Xu, Yushun Zhang, Zhihang Lin, Yang Yu, Ruoyu Sun, Zhi-Quan Luo | (参考訳) アライメントは、大きな言語モデルのトレーニングに不可欠です。
主な戦略はRLHF(Reinforcement Learning from Human Feedback)であり、PPO(Proximal Policy Optimization)がデファクトアルゴリズムである。
しかし、PPOは計算の非効率性に苦しむことで知られており、これは本論文が目指す課題である。
PPOでは利用できない高速シミュレーション、決定論的遷移、軌道レベルの報酬の3つの重要な特性を同定する。
これらの特性に基づいて、RLHFに適した新しいアルゴリズムReMaxを開発する。
remaxの設計は、有名なアルゴリズム強化に基づいているが、新しい分散還元法によって強化されている。
remaxはppoよりも3倍の利点を提供している。
さらに、チューニングに苦労しているppoの4つ以上のハイパーパラメータを取り除きます。
次に、ReMaxはメモリ使用量を約50%削減する。
説明として、PPOはA100-80GBのGPU上でLlama2-7Bモデルを微調整する際にメモリが切れている。
メモリ効率のよい技術(ZeROやオフロードなど)がPPOのトレーニングに使われているが、ReMaxはより大きなバッチサイズを使用してスループットを向上させることができる。
第3に、ウォールクロック時間に関しては、PPOはイテレーション毎のReMaxの約2倍の速度である。
重要なことに、これらの改善はタスクパフォーマンスを犠牲にしません。
これらの利点はより大規模なモデルで維持できるという仮説を立てる。 Alignment is crucial for training large language models. The predominant strategy is Reinforcement Learning from Human Feedback (RLHF), with Proximal Policy Optimization (PPO) as the de-facto algorithm. Yet, PPO is known to struggle with computational inefficiency, a challenge that this paper aims to address. We identify three important properties of RLHF tasks: fast simulation, deterministic transitions, and trajectory-level rewards, which are not leveraged in PPO. Based on these properties, we develop ReMax, a new algorithm tailored for RLHF. The design of ReMax builds on the celebrated algorithm REINFORCE but is enhanced with a new variance-reduction technique. ReMax offers threefold advantages over PPO: first, it is simple to implement with just 6 lines of code. It further eliminates more than 4 hyper-parameters in PPO, which are laborious to tune. Second, ReMax reduces memory usage by about 50%. To illustrate, PPO runs out of memory when fine-tuning a Llama2-7B model on A100-80GB GPUs, whereas ReMax can support the training. Even though memory-efficient techniques (e.g., ZeRO and offload) are employed for PPO to afford training, ReMax can utilize a larger batch size to increase throughput. Third, in terms of wall-clock time, PPO is about twice as slow as ReMax per iteration. Importantly, these improvements do not sacrifice task performance. We hypothesize that these advantages can be maintained in larger-scale models. | 翻訳日:2023-12-19 19:58:18 公開日:2023-12-17 |
# マイクロ波ジョセフソン光増倍器を用いた光子数分解能 Photon-number resolution with microwave Josephson photomultipliers ( http://arxiv.org/abs/2310.05604v2 ) ライセンス: Link先を確認 | E. V. Stolyarov, O. V. Kliushnichenko, V. S. Kovtoniuk, A. A. Semenov | (参考訳) マイクロ波共振器のモードに閉じ込められた光子をジョセフソン光増倍器(JPM)による繰り返し測定により計数する。
JPMは基本的に1光子検出器として動作するフラックスバイアス位相量子ビットである。
所定範囲内で光子数分解能を最大化する最適操作条件を同定する。
2つの計数技術が研究されている。
1つ目は、測定シーケンスにおけるクリックの総数を数えることである。
2つ目は、最初のノークリックイベントまたは測定シーケンスの終了が発生するまでクリック数をカウントすることである。
提案手法では, 導出した正の演算子値測定値を用いて光子数分解能の測定を行った。
その結果, 両症例の分解能低下は主にJPM緩和が原因であることが判明した。
例えば、マイクロ波共振器における電磁放射の非古典的特性を実用的にテストするために、得られた結果が利用できることを示す。 We study counting photons confined in a mode of a microwave resonator via repeated measurements by a Josephson photomultiplier (JPM). The considered JPM is essentially a flux-biased phase qubit operating as a single-photon detector. We identify optimal operational regimes that maximize photon-number resolution within a predetermined range. Two counting techniques are studied. The first is to count the total number of clicks in the measurement sequence. The second involves counting the number of clicks until the occurrence of either the first no-click event or the end of the measurement sequence. Our theoretical methods employ the derived positive operator-valued measures for the considered photocounting techniques and the introduced measure of the photon-number resolution. The results reveal that the resolution decrease in both cases is mainly caused by the JPM relaxation. As an example, we show how the obtained results can be used for practical testing nonclassical properties of electromagnetic radiation in a microwave resonator. | 翻訳日:2023-12-19 19:56:52 公開日:2023-12-17 |
# hypoCompass: 初心者のデバッグにおける仮説構築のための大規模言語モデルベースのチュータ HypoCompass: Large-Language-Model-based Tutor for Hypothesis Construction in Debugging for Novices ( http://arxiv.org/abs/2310.05292v2 ) ライセンス: Link先を確認 | Qianou Ma, Hua Shen, Kenneth Koedinger, Tongshuang Wu | (参考訳) ソフトウェア開発における不完全だが有能なLLMの普及に伴い、ヒューマンコードとAIペアプログラマのコードの両方のエラーの原因に関する仮説を形成するために、デバッグスキルの開発がますます重要になる。
その必要性にもかかわらず、デバッグにおける仮説構築はほとんど教えられません。
本研究では,理論的な動機づけのある llm-augmented tutor -- hypocompass を設計することにより,仮説構築の初心者を訓練するために llm が使用できるかどうかを検討する。
hypocompassはllmを使って学習原則に導かれた豊富なトレーニング教材を生成し、llmはバグを書く学生として働き、人間の初心者はコードのデバッグと修正を助けるアシスタントの役割を担います。
評価によると、‘sysname’は高品質なトレーニング材料を人間よりも4倍効率よく製造し、大きな学習効果をもたらす。19人の初心者がテスト前のパフォーマンスを12%改善し、完了時間が14%短縮された。 With the prevalence of imperfect but capable LLMs in software development, it becomes increasingly important to develop debugging skills -- to form hypotheses about the source of error in both human codes and codes from their AI pair programmers. Despite the necessity, hypothesis construction in debugging is rarely taught. In this work, we explore whether LLMs can be used to train novices on hypothesis construction, by designing a theoretically motivated, LLM-augmented tutor -- HypoCompass. HypoCompass uses LLMs to generate rich training materials guided by learning principles and presents them in a learning-by-teaching environment, where LLMs act as students who write bugs, and human novices play the role of Teaching Assistants to help debug and fix the code. Evaluations show that \sysname makes high-quality training materials four times more efficiently than humans and brings significant learning gain: 19 novices improved their pre-to-post test performances by 12%, with a reduced completion time of 14%. | 翻訳日:2023-12-19 19:56:38 公開日:2023-12-17 |
# デジタル量子コンピュータにおける非エルミート皮膚効果とフェルミ皮膚の観察 Observation of the non-Hermitian skin effect and Fermi skin on a digital quantum computer ( http://arxiv.org/abs/2311.10143v2 ) ライセンス: Link先を確認 | Ruizhe Shen, Tianqi Chen, Bo Yang, Ching Hua Lee | (参考訳) 非エルミート物理学は近年、特に極度感度と非局所性に対する非エルミート皮膚効果(NHSE)に大きな注目を集めている。
NHSEは様々な古典的メタマテリアルや超低温原子配列で物理的に観察されているが、多体力学における非常に非自明な影響は実験的に研究されていない。
本研究では,汎用量子プロセッサ上でnhseを初めて観測し,その特性について報告する。
量子コンピュータ上でnhseダイナミクスを実装するには、有効な時間発展回路は非相反的かつ非ユニタリであるだけでなく、空間的非局所性を達成するために十分な数の格子量子ビットまでスケールする必要がある。
本稿では,無対称空間伝搬と多体フェルミ皮膚の蓄積の明確なシグネチャを持つ,うるさいibm量子プロセッサ上の2つのパラダイム的非相反モデルを用いて,複数のアンシラキュービットを後選択することにより,そのような非ユニタリ操作が系統的に実現可能であることを示す。
不可避なデバイスノイズからの誤差を最小限に抑えるために、変分量子アルゴリズムで生成された学習可能な最適化量子回路を用いて時間発展を行う。
本研究は、現在の量子コンピュータにおける非エルミート格子現象の量子シミュレーションにおける重要なマイルストーンであり、量子コンピュータの顕著なプログラム性を持つより洗練された多体モデルに容易に一般化することができる。 Non-Hermitian physics has attracted considerable attention in the recent years, in particular the non-Hermitian skin effect (NHSE) for its extreme sensitivity and non-locality. While the NHSE has been physically observed in various classical metamaterials and even ultracold atomic arrays, its highly-nontrivial implications in many-body dynamics have never been experimentally investigated. In this work, we report the first observation of the NHSE on a universal quantum processor, as well as its characteristic but elusive Fermi skin from many-fermion statistics. To implement NHSE dynamics on a quantum computer, the effective time-evolution circuit not only needs to be non-reciprocal and non-unitary, but must also be scaled up to a sufficient number of lattice qubits to achieve spatial non-locality. We show how such a non-unitary operation can be systematically realized by post-selecting multiple ancilla qubits, as demonstrated through two paradigmatic non-reciprocal models on a noisy IBM quantum processor, with clear signatures of asymmetric spatial propagation and many-body Fermi skin accumulation. To minimize errors from inevitable device noise, time evolution is performed using a trainable optimized quantum circuit produced with variational quantum algorithms. Our study represents a critical milestone in the quantum simulation of non-Hermitian lattice phenomena on present-day quantum computers, and can be readily generalized to more sophisticated many-body models with the remarkable programmability of quantum computers. | 翻訳日:2023-12-19 19:49:27 公開日:2023-12-17 |
# 多言語ピアレビューによる大規模言語モデルの推論に向けて Towards Reasoning in Large Language Models via Multi-Agent Peer Review Collaboration ( http://arxiv.org/abs/2311.08152v2 ) ライセンス: Link先を確認 | Zhenran Xu, Senbao Shi, Baotian Hu, Jindi Yu, Dongfang Li, Min Zhang, Yuxiang Wu | (参考訳) 大規模言語モデル(LLM)は、一般的な自然言語処理タスクにおいて顕著な能力を示しているが、複雑な推論タスクでは不足することが多い。
近年の研究では、単モデル推論能力の境界をさらに押し上げるために、自己修正のような人間的な問題解決戦略が研究されている。
この作業では、複数のモデルを互いに修正することで、1つのモデルを"ボックスの外へステップ"させます。
学術的ピアレビュープロセスをエミュレートするマルチエージェント・コラボレーション戦略を提案する。
各エージェントは独立して独自のソリューションを構築し、他人のソリューションに関するレビューを提供し、信頼性レベルをレビューに割り当てる。
ピアレビューを受けると、エージェントは初期ソリューションを改訂する。
3種類の推論タスクに関する大規模な実験は、我々のコラボレーションアプローチが既存の方法と比較して10のデータセットすべてに優れた精度を提供することを示している。
さらなる研究は、レビューにおける信頼性の統合の有効性を強調し、単なるソリューション共有よりもフィードバック交換の方が優れていることを示し、コラボレーションを成功させる上での能力と多様性の役割を強調している。 Large Language Models (LLMs) have shown remarkable capabilities in general natural language processing tasks but often fall short in complex reasoning tasks. Recent studies have explored human-like problem-solving strategies, such as self-correct, to push further the boundary of single-model reasoning ability. In this work, we let a single model "step outside the box" by engaging multiple models to correct each other. We introduce a multi-agent collaboration strategy that emulates the academic peer review process. Each agent independently constructs its own solution, provides reviews on the solutions of others, and assigns confidence levels to its reviews. Upon receiving peer reviews, agents revise their initial solutions. Extensive experiments on three different types of reasoning tasks show that our collaboration approach delivers superior accuracy across all ten datasets compared to existing methods. Further study underscores the effectiveness of integrating confidence in reviews, demonstrates the superiority of feedback exchange over mere solution sharing, and highlights the role of capability and diversity in fostering successful collaboration. | 翻訳日:2023-12-19 19:48:58 公開日:2023-12-17 |
# 一般化アナロジー:aiの監視を測定困難領域に一般化するためのテストベッド Generalization Analogies: A Testbed for Generalizing AI Oversight to Hard-To-Measure Domains ( http://arxiv.org/abs/2311.07723v3 ) ライセンス: Link先を確認 | Joshua Clymer, Garrett Baker, Rohan Subramani, Sam Wang | (参考訳) aiシステムがよりインテリジェントになり、その行動がより評価が難しくなるにつれ、彼らは指示に従うのではなく、人間のフィードバックの欠陥を競うことを学ぶことができるが、このリスクは、llmが人間のフィードバックを信頼できない状況に一般化する方法を制御することによって軽減できる。
報酬モデルをいかに一般化するかをよりよく理解するために、私たちは8つのカテゴリにまたがる69の分布シフトを作成します。
報酬モデルでは,「インストラクション・フォロー」の評価をデフォルトでは学ばず,代わりにインターネットテキストに似たペルソナを好んでいる。
報酬モデルの内部表現を解釈する技術は、標準的な微調整よりも優れた一般化を実現するが、それでもしばしば、複雑な振る舞いと命令追従を区別することができない。
我々は、最も難しい15の分散シフトをジェネラライゼーションアナログIES(GENIES)ベンチマークに統合し、報酬モデル一般化の制御に向けた進歩を期待する。 As AI systems become more intelligent and their behavior becomes more challenging to assess, they may learn to game the flaws of human feedback instead of genuinely striving to follow instructions; however, this risk can be mitigated by controlling how LLMs generalize human feedback to situations where it is unreliable. To better understand how reward models generalize, we craft 69 distribution shifts spanning 8 categories. We find that reward models do not learn to evaluate `instruction-following' by default and instead favor personas that resemble internet text. Techniques for interpreting reward models' internal representations achieve better generalization than standard fine-tuning, but still frequently fail to distinguish instruction-following from conflated behaviors. We consolidate the 15 most challenging distribution shifts into the GENeralization analogIES (GENIES) benchmark, which we hope will enable progress toward controlling reward model generalization. | 翻訳日:2023-12-19 19:48:21 公開日:2023-12-17 |
# 部分絡み合いエントロピーの測地:PEEスレッドからビットスレッドへ Geometrizing the Partial Entanglement Entropy: from PEE Threads to Bit Threads ( http://arxiv.org/abs/2311.02301v3 ) ライセンス: Link先を確認 | Jiong Lin, Yizhou Lu, Qiang Wen | (参考訳) ホログラフィックCFTにおける部分絡み合いエントロピー(PEE)をAdS/CFTの文脈で測る手法を提案する。
より具体的には、ある点 $\textbf{x}$ が与えられたとき、これらの2点を接続するバルク測地学の観点で、$\textbf{x}$ と他の任意の点の間の2点 PEE を測地する。
我々はこれらの測地線を \textit{pee threads} と呼び、これは自然に分岐のないベクトル場 $v_{\textbf{x}}^{\mu}$ の積分曲線と見なすことができ、これは我々が \emph{pee thread flow} と呼ぶ。
PEEスレッドの密度を特徴付ける$V_{\textbf{x}}^{\mu}$のノルムは、PEEの物理的要求によって決定できる。
任意の静的区間または球面領域$A$に対して、状態によって決定されるPEEスレッド構成からユニークなビットスレッド構成を生成することができることを示す。
したがって、中性でないビットスレッドは、内在的なpeスレッドから発生する。
静的非連結区間の場合、分散のない流れを記述するベクトル場はRT式を再現するのにより適している。
我々は、PEEスレッドを任意のホモロジー曲面と交差する回数で重み付けする。
代わりに、RT式は、全ての重みの割り当てが可能なPEEスレッドの和の最小化として完全に再構成される。 We give a scheme to geometrize the partial entanglement entropy (PEE) for holographic CFT in the context of AdS/CFT. More explicitly, given a point $\textbf{x}$ we geometrize the two-point PEEs between $\textbf{x}$ and any other points in terms of the bulk geodesics connecting these two points. We refer to these geodesics as the \textit{PEE threads}, which can be naturally regarded as the integral curves of a divergenceless vector field $V_{\textbf{x}}^{\mu}$, which we call \emph{PEE thread flow}. The norm of $V_{\textbf{x}}^{\mu}$ that characterizes the density of the PEE threads can be determined by some physical requirements of the PEE. We show that, for any static interval or spherical region $A$, a unique bit thread configuration can be generated from the PEE thread configuration determined by the state. Hence, the non-intrinsic bit threads are emergent from the intrinsic PEE threads. For static disconnected intervals, the vector fields describing a divergenceless flow is are longer suitable to reproduce the RT formula. We weight the PEE threads with the number of times it intersects with any homologous surface. Instead the RT formula is perfectly reformulated to be the minimization of the summation of the PEE threads with all possible assignment of weights. | 翻訳日:2023-12-19 19:47:47 公開日:2023-12-17 |
# RayDF:マルチビュー整合性を持つニューラルな地表面距離場 RayDF: Neural Ray-surface Distance Fields with Multi-view Consistency ( http://arxiv.org/abs/2310.19629v2 ) ライセンス: Link先を確認 | Zhuoman Liu, Bo Yang, Yan Luximon, Ajay Kumar, Jinxi Li | (参考訳) 本稿では,連続3次元形状表現の問題について検討する。
既存の成功手法の大半は座標に基づく暗黙的神経表現である。
しかし、新しいビューを描画したり、明示的な表面点を復元するのに非効率である。
少数の研究がレイベースの神経関数として3次元形状を定式化し始めたが、多視点幾何整合性の欠如により学習された構造は劣っている。
これらの課題に対処するために、RayDFと呼ばれる新しいフレームワークを提案する。
主な構成要素は3つある。
1)単純光線面距離場。
2)新しい2線視認性分類器,及び
3) 学習された線面距離を多視点形状に整合させるマルチビュー一貫性最適化モジュール。
提案手法を3つの公開データセット上で広範に評価し,既存の座標ベースおよびレイベースベースラインを明らかに超越した,合成および挑戦的な実世界の3Dシーンにおける3次元表面点再構成における顕著な性能を示した。
最も注目すべきは,800x800深度の画像を描画する座標ベースの手法よりも1000倍高速で,3次元形状表現の精度が向上している点である。
私たちのコードとデータはhttps://github.com/vlar-group/raydfで入手できます。 In this paper, we study the problem of continuous 3D shape representations. The majority of existing successful methods are coordinate-based implicit neural representations. However, they are inefficient to render novel views or recover explicit surface points. A few works start to formulate 3D shapes as ray-based neural functions, but the learned structures are inferior due to the lack of multi-view geometry consistency. To tackle these challenges, we propose a new framework called RayDF. It consists of three major components: 1) the simple ray-surface distance field, 2) the novel dual-ray visibility classifier, and 3) a multi-view consistency optimization module to drive the learned ray-surface distances to be multi-view geometry consistent. We extensively evaluate our method on three public datasets, demonstrating remarkable performance in 3D surface point reconstruction on both synthetic and challenging real-world 3D scenes, clearly surpassing existing coordinate-based and ray-based baselines. Most notably, our method achieves a 1000x faster speed than coordinate-based methods to render an 800x800 depth image, showing the superiority of our method for 3D shape representation. Our code and data are available at https://github.com/vLAR-group/RayDF | 翻訳日:2023-12-19 19:47:24 公開日:2023-12-17 |
# FormalGeo:人間ライクなIMOレベルの自動推論への第一歩 FormalGeo: The First Step Toward Human-like IMO-level Geometric Automated Reasoning ( http://arxiv.org/abs/2310.18021v4 ) ライセンス: Link先を確認 | Xiaokai Zhang, Na Zhu, Yiming He, Jia Zou, Qike Huang, Xiaoxiao Jin, Yanjun Guo, Chenyang Mao, Zhe Zhu, Dengfeng Yue, Fangzhen Zhu, Yang Li, Yifan Wang, Yiwen Huang, Runan Wang, Cheng Qin, Zhenbing Zeng, Shaorong Xie, Xiangfeng Luo, Tuo Leng | (参考訳) これは、私たちが過去3年間に達成した一連の研究における最初の論文です。
本稿では,完全かつ互換性のある形式平面幾何システムを構築した。
これは、IMOレベルの平面形状問題と可読性AI自動推論の間に重要な橋渡しとなる。
このフォーマルなフレームワークでは、最新のAIモデルをフォーマルなシステムとシームレスに統合することができます。
aiは、他の自然言語を扱うのと同じように、imoレベルの平面幾何問題に対する推論的推論ソリューションを提供することができ、これらの証明は可読性、トレース性、検証可能である。
本稿では,幾何形式体系の発展を導くために,幾何形式化理論(GFT)を提案する。
GFTに基づいて、88の幾何述語と196の定理からなるフォーマルジオを確立した。
IMOレベルの幾何学問題を表現、検証、解決することができる。
また、PythonでFGPS(形式幾何学問題の解法)も作成しました。
問題解決プロセスを検証するための対話型アシスタントと自動問題解決ツールの両方として機能する。
formalgeo7k と formalgeo-imo データセットにアノテートしました。
前者は6,981 (データ拡張による133,818) の幾何学問題を含み、後者は18 (2,627) の IMO レベルの挑戦幾何学問題を含んでいる。
注釈付き問題には、詳細な形式的な言語記述と解決策が含まれる。
形式システムの実装と実験は、GFTの正当性と有用性を検証する。
奥行き優先探索法は2.42%の問題解決失敗率しか生み出せず,より低い解を得るために深層学習手法を組み込むことができる。
FGPSとデータセットのソースコードはhttps://github.com/BitSecret/FGPSで入手できる。 This is the first paper in a series of work we have accomplished over the past three years. In this paper, we have constructed a complete and compatible formal plane geometry system. This will serve as a crucial bridge between IMO-level plane geometry challenges and readable AI automated reasoning. Within this formal framework, we have been able to seamlessly integrate modern AI models with our formal system. AI is now capable of providing deductive reasoning solutions to IMO-level plane geometry problems, just like handling other natural languages, and these proofs are readable, traceable, and verifiable. We propose the geometry formalization theory (GFT) to guide the development of the geometry formal system. Based on the GFT, we have established the FormalGeo, which consists of 88 geometric predicates and 196 theorems. It can represent, validate, and solve IMO-level geometry problems. we also have crafted the FGPS (formal geometry problem solver) in Python. It serves as both an interactive assistant for verifying problem-solving processes and an automated problem solver. We've annotated the formalgeo7k and formalgeo-imo datasets. The former contains 6,981 (expand to 133,818 through data augmentation) geometry problems, while the latter includes 18 (expand to 2,627 and continuously increasing) IMO-level challenging geometry problems. All annotated problems include detailed formal language descriptions and solutions. Implementation of the formal system and experiments validate the correctness and utility of the GFT. The backward depth-first search method only yields a 2.42% problem-solving failure rate, and we can incorporate deep learning techniques to achieve lower one. The source code of FGPS and datasets are available at https://github.com/BitSecret/FGPS. | 翻訳日:2023-12-19 19:45:21 公開日:2023-12-17 |
# synfundus:数百万のサンプルとマルチディセーゼアノテーションを備えた合成ファンドイメージデータセット SynFundus: A synthetic fundus images dataset with millions of samples and multi-disease annotations ( http://arxiv.org/abs/2312.00377v3 ) ライセンス: Link先を確認 | Fangxin Shang, Jie Fu, Yehui Yang, Haifeng Huang, Junwei Liu, Lei Ma | (参考訳) 医療画像の分野では、データのプライバシとアノテーションコストのために、高品質なアノテーションを備えた大規模な公開データセットがほとんどありません。
この問題に対処するため、私たちはSynFundus-1Mをリリースした。SynFundus-1Mは、textbf{100 million} Fundusイメージを含む高品質な合成データセットである。
さらに,画像の読みやすさを意図的に多様化させ,画像ごとに4種類の品質スコアを提供する。
我々の知る限り、SynFundus-1Mは現在、最も洗練されたアノテーションを備えた最大のファンドデータセットです。
すべての画像は拡散確率モデルsynfundus-generatorによって生成される。
我々のSynFundus-Generatorは、13万以上のプライベートファンドイメージで訓練されており、最近のいくつかの関連する作品と比較して、ベースイメージの生成において優れたパフォーマンスを実現している。
さらに,SynFundus-1Mの合成画像と実際の眼底画像とをブレンドし,眼科医は合成画像と実際の画像とを区別することができない。
広範にわたる実験により、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の両方が、SynFundus-1Mの事前トレーニングやトレーニングによって恩恵を受けることを示した。
ImageNetやEyePACSのようなデータセットと比較して、SynFundus-1Mでトレーニングされたモデルは、より良いパフォーマンスを達成するだけでなく、さまざまな下流タスクへのより速い収束も達成している。 In the field of medical imaging, there are seldom large-scale public datasets with high-quality annotations due to data privacy and annotation cost. To address this issue, we release SynFundus-1M, a high-quality synthetic dataset containing over \textbf{1 million} fundus images w.r.t. 11 disease types. Moreover, we intentionally diversify the readability of the images and accordingly provide 4 types of the quality score for each image. To the best of our knowledge, SynFundus-1M is currently the largest fundus dataset with the most sophisticated annotations. All the images are generated by a Denoising Diffusion Probabilistic Model, named SynFundus-Generator. Trained with over 1.3 million private fundus images, our SynFundus-Generator achieves significant superior performance in generating fundus images compared to some recent related works. Furthermore, we blend some synthetic images from SynFundus-1M with real fundus images, and ophthalmologists can hardly distinguish the synthetic images from real ones. Through extensive experiments, we demonstrate that both convolutional neural networs (CNN) and Vision Transformer (ViT) can benefit from SynFundus-1M by pretraining or training directly. Compared to datasets like ImageNet or EyePACS, models trained on SynFundus-1M not only achieve better performance but also faster convergence on various downstream tasks. | 翻訳日:2023-12-19 19:37:21 公開日:2023-12-17 |
# 検索は依然として重要だ: 生成ai時代の情報検索 Search Still Matters: Information Retrieval in the Era of Generative AI ( http://arxiv.org/abs/2311.18550v2 ) ライセンス: Link先を確認 | William R. Hersh | (参考訳) 目的: 情報検索システム(IR、検索とも呼ばれる)は、現代においてユビキタスである。
大規模言語モデル(LLM)に基づく生成人工知能(AI)の出現は、IRプロセスにどのように適合するのか?
プロセス: この視点は、そのようなシステムの学術的利用に焦点を当てたIRプロセスのモチベーション、考慮、成果の文脈における生成的AIの使用を探求する。
結論: 単純なものから複雑なものまで、irの使用を動機付ける多くの情報ニーズがあります。
このようなシステム、特に学者のユーザーは、権威性、タイムライン、検索の文脈化に懸念を持っている。
LLMはIRプロセスを支援する機能を提供しているが、検索システムへの継続的なニーズと改善の研究は依然として不可欠である。 Objective: Information retrieval (IR, also known as search) systems are ubiquitous in modern times. How does the emergence of generative artificial intelligence (AI), based on large language models (LLMs), fit into the IR process? Process: This perspective explores the use of generative AI in the context of the motivations, considerations, and outcomes of the IR process with a focus on the academic use of such systems. Conclusions: There are many information needs, from simple to complex, that motivate use of IR. Users of such systems, particularly academics, have concerns for authoritativeness, timeliness, and contextualization of search. While LLMs may provide functionality that aids the IR process, the continued need for search systems, and research into their improvement, remains essential. | 翻訳日:2023-12-19 19:36:31 公開日:2023-12-17 |
# 最も便利なクラスタリング: 運用決定のための集約データ Mostly Beneficial Clustering: Aggregating Data for Operational Decision Making ( http://arxiv.org/abs/2311.17326v2 ) ライセンス: Link先を確認 | Chengzhang Li, Zhenkang Peng, and Ying Rong | (参考訳) 市場の不安定な状況と急速な製品革新により、大規模システムの運用上の意思決定は、限られたデータで数千の問題を解決します。
データアグリゲーションは、これらの問題を個別に解決することで得られる決定を改善するために、問題間でデータを組み合わせるために提案されている。
本稿では,データ集約手法を実装する際に問題のうちクラスタ構造を活用できる,新しいクラスタベースshrunken-saa手法を提案する。
問題の数が増えるにつれて、与えられたクラスタ構造を問題間で活用することで、そのような構造を無視するデータ集約アプローチに対するさらなるメリットが得られます。
クラスタ構造が不明な場合には,いくつかのデータポイントを犠牲にしても,クラスタ構造を明かすことは,特に問題クラスタ間の距離が大きい場合には有益であることを示す。
提案手法は軽度条件下での一般的なコスト関数に拡張することができる。
問題数が大きくなると,クラスタ間距離において,提案手法の最適性ギャップが指数関数的に減少する。
提案手法の性能を,数値実験によるニューズベンダーシステム管理の適用を通して検討する。
クラスタベースShrunken-SAA手法の性能に及ぼす問題インスタンス間の距離測定値の影響を合成データを用いて検討する。
さらに,提案手法を実データで検証し,既存のアプローチと比較して,特に小規模データ大規模システムにおいて,クラスタベースのデータ集約の利点を強調する。 With increasingly volatile market conditions and rapid product innovations, operational decision-making for large-scale systems entails solving thousands of problems with limited data. Data aggregation is proposed to combine the data across problems to improve the decisions obtained by solving those problems individually. We propose a novel cluster-based Shrunken-SAA approach that can exploit the cluster structure among problems when implementing the data aggregation approaches. We prove that, as the number of problems grows, leveraging the given cluster structure among problems yields additional benefits over the data aggregation approaches that neglect such structure. When the cluster structure is unknown, we show that unveiling the cluster structure, even at the cost of a few data points, can be beneficial, especially when the distance between clusters of problems is substantial. Our proposed approach can be extended to general cost functions under mild conditions. When the number of problems gets large, the optimality gap of our proposed approach decreases exponentially in the distance between the clusters. We explore the performance of the proposed approach through the application of managing newsvendor systems via numerical experiments. We investigate the impacts of distance metrics between problem instances on the performance of the cluster-based Shrunken-SAA approach with synthetic data. We further validate our proposed approach with real data and highlight the advantages of cluster-based data aggregation, especially in the small-data large-scale regime, compared to the existing approaches. | 翻訳日:2023-12-19 19:35:53 公開日:2023-12-17 |
# 微妙な選択と深層学習:ドメイン一般化のためのCLIPによる選択的クロスモーダル蒸留 Choosing Wisely and Learning Deeply: Selective Cross-Modality Distillation via CLIP for Domain Generalization ( http://arxiv.org/abs/2311.15145v2 ) ライセンス: Link先を確認 | Jixuan Leng, Yijiang Li, Haohan Wang | (参考訳) ドメインの一般化(DG)は重要な研究領域であり、複数のドメインにまたがるモデルをトレーニングし、目に見えない領域でテストすることを目指している。
本稿では、ドメイン一般化のための選択的クロスモダリティ蒸留(scmd)という新しいアプローチを提案する。
SCMDは、大きな視覚言語モデル、特にCLIPモデルの能力を活用して、より効率的なモデルをトレーニングし、目に見えない領域にわたって堅牢な一般化能力を取得する。
我々の主な貢献は、蒸留の難しいサンプルを特定するために戦略的に設計されたユニークな選択フレームワークである。
並行して、新しいクロスモダリティモジュールを導入する。
このモジュールは、学生モデルの投影された特徴とCLIPからのテキスト埋め込みをシームレスに組み合わせ、類似度分布のアライメントを保証する。
SCMDの性能を様々なベンチマークで評価し、ResNet50が既存のドメイン一般化手法を超越して最先端のパフォーマンスを提供できるようにします。
さらに、我々は選択戦略の理論分析を行い、DG分野におけるその有効性と可能性について深い洞察を提供する。 Domain Generalization (DG), a crucial research area, seeks to train models across multiple domains and test them on unseen ones. In this paper, we introduce a novel approach, namely, Selective Cross-Modality Distillation for Domain Generalization (SCMD). SCMD leverages the capabilities of large vision-language models, specifically the CLIP model, to train a more efficient model, ensuring it acquires robust generalization capabilities across unseen domains. Our primary contribution is a unique selection framework strategically designed to identify hard-to-learn samples for distillation. In parallel, we introduce a novel cross-modality module. This module seamlessly combines the projected features of the student model with the text embeddings from CLIP, ensuring the alignment of similarity distributions. We assess SCMD's performance on various benchmarks, where it empowers a ResNet50 to deliver state-of-the-art performance, surpassing existing domain generalization methods. Furthermore, we provide a theoretical analysis of our selection strategy, offering deeper insight into its effectiveness and potential in the field of DG. | 翻訳日:2023-12-19 19:35:18 公開日:2023-12-17 |
# 感情知識を用いたクロスドメインヘイトスピーチの一般化 Improving Cross-Domain Hate Speech Generalizability with Emotion Knowledge ( http://arxiv.org/abs/2311.14865v2 ) ライセンス: Link先を確認 | Shi Yin Hong and Susan Gauch | (参考訳) 信頼度の高い自動ヘイトスピーチ(HS)検出システムは、ヘイトスピーチを抑えるために、多様な新しいデータの流入に適応する必要がある。
しかし、ヘイトスピーチ検出システムは一般的に、トレーニングで使用されるデータと異なるヘイトスピーチを特定するための汎用性を欠いている。
本研究では,マルチタスクアーキテクチャにおける感情知識を活用し,クロスドメイン環境でのヘイトスピーチ検出の一般化性を向上させる,ヘイトスピーチ一般化フレームワークを提案する。
感情のカテゴリー範囲が異なる感情コーパスを調査し,感情知識の提供のための最善のコーパススコープを決定し,一般的なヘイトスピーチ検出を促進する。
さらに,ヘイトスピーチに適応した事前学習型トランスフォーマーモデルと,その感情に富んだヘイトスピーチ一般化モデルへの影響について検討した。
我々は、異なるオンラインドメインから得られる6つの公開データセットについて広範な実験を行い、我々の感情に富んだHS検出一般化手法が、クロスドメイン評価における一貫した一般化改善を示し、一般化性能を18.1%、平均クロスドメイン性能を8.5%向上させることを示した。 Reliable automatic hate speech (HS) detection systems must adapt to the in-flow of diverse new data to curtail hate speech. However, hate speech detection systems commonly lack generalizability in identifying hate speech dissimilar to data used in training, impeding their robustness in real-world deployments. In this work, we propose a hate speech generalization framework that leverages emotion knowledge in a multitask architecture to improve the generalizability of hate speech detection in a cross-domain setting. We investigate emotion corpora with varying emotion categorical scopes to determine the best corpus scope for supplying emotion knowledge to foster generalized hate speech detection. We further assess the relationship between using pretrained Transformers models adapted for hate speech and its effect on our emotion-enriched hate speech generalization model. We perform extensive experiments on six publicly available datasets sourced from different online domains and show that our emotion-enriched HS detection generalization method demonstrates consistent generalization improvement in cross-domain evaluation, increasing generalization performance up to 18.1% and average cross-domain performance up to 8.5%, according to the F1 measure. | 翻訳日:2023-12-19 19:34:57 公開日:2023-12-17 |
# 展開可能な生涯学習のための事前学習モデルの評価 Evaluating Pretrained models for Deployable Lifelong Learning ( http://arxiv.org/abs/2311.13648v2 ) ライセンス: Link先を確認 | Kiran Lekkala, Eshan Bhargava, Yunhao Ge, Laurent Itti | (参考訳) 本稿では、学習済みデータセット上で事前訓練された視覚強化学習のための展開可能寿命学習システム(RL)を評価するための新しいベンチマークを作成し、学習済みのRLタスクから知識を保持することができる新しいスケーラブル寿命学習システムを提案する。
本ベンチマークは,スケーラビリティ,性能,資源利用について評価した,デプロイ可能な生涯学習システムの有効性を測定した。
提案するシステムは,データセット上で事前訓練された後,目に見えないタスクに対して連続的な学習を行うためにデプロイすることができる。
提案手法は,FSCILをベースとしたタスクマップと,事前訓練データセットを用いて学習したエンコーダ/バックボーンから構成される。
そして、認識されたタスクに対応するポリシーパラメータをロードしてタスクを実行する。
本システムでは,メモリフットプリントが小さく,計算資源も少ないため,多数のタスクを組み込むことができることを示す。
我々は,Atariゲーム上で,DeLL(Deployment for Lifelong Learning)ベンチマークを用いてシステムの有効性を判定する実験を行った。 We create a novel benchmark for evaluating a Deployable Lifelong Learning system for Visual Reinforcement Learning (RL) that is pretrained on a curated dataset, and propose a novel Scalable Lifelong Learning system capable of retaining knowledge from the previously learnt RL tasks. Our benchmark measures the efficacy of a deployable Lifelong Learning system that is evaluated on scalability, performance and resource utilization. Our proposed system, once pretrained on the dataset, can be deployed to perform continual learning on unseen tasks. Our proposed method consists of a Few Shot Class Incremental Learning (FSCIL) based task-mapper and an encoder/backbone trained entirely using the pretrain dataset. The policy parameters corresponding to the recognized task are then loaded to perform the task. We show that this system can be scaled to incorporate a large number of tasks due to the small memory footprint and fewer computational resources. We perform experiments on our DeLL (Deployment for Lifelong Learning) benchmark on the Atari games to determine the efficacy of the system. | 翻訳日:2023-12-19 19:34:35 公開日:2023-12-17 |
# 違法な信号に注意を喚起するCNN Targeted Activation Penalties Help CNNs Ignore Spurious Signals ( http://arxiv.org/abs/2311.12813v2 ) ライセンス: Link先を確認 | Dekai Zhang, Matthew Williams, Francesca Toni | (参考訳) ニューラルネットワーク(nns)は、トレーニングデータ内のスプリアス信号に依存することを学び、一般化を損なう。
近年の手法では、これらの信号の接地的アノテーションを追加してNNを訓練することでこの問題に対処している。
しかし、これらの方法では、深層畳み込みnn(cnns)にスプリアス信号が再出現する可能性がある。
我々は,深部CNNにおける刺激信号の再帰を制御し,トレーニング時間とメモリ使用量を低減し,同じ問題に対処する新たな手法であるTargeted Activation Penalty (TAP)を提案する。
また、地味な注釈を得るのにも費用がかかる。
我々は,TAPがまだ,事前訓練されたモデルによって生成されたアノテーションと相性が良いことを示す。
我々は,4つのCNNアーキテクチャを用いて,MNISTベンチマークと2つの臨床画像データセットに基づく2つの最先端ベースラインに対するTAPのパワーを実証した。 Neural networks (NNs) can learn to rely on spurious signals in the training data, leading to poor generalisation. Recent methods tackle this problem by training NNs with additional ground-truth annotations of such signals. These methods may, however, let spurious signals re-emerge in deep convolutional NNs (CNNs). We propose Targeted Activation Penalty (TAP), a new method tackling the same problem by penalising activations to control the re-emergence of spurious signals in deep CNNs, while also lowering training times and memory usage. In addition, ground-truth annotations can be expensive to obtain. We show that TAP still works well with annotations generated by pre-trained models as effective substitutes of ground-truth annotations. We demonstrate the power of TAP against two state-of-the-art baselines on the MNIST benchmark and on two clinical image datasets, using four different CNN architectures. | 翻訳日:2023-12-19 19:34:04 公開日:2023-12-17 |
# Fair Enough?
フェア」アルゴリズムを持つための要件の現在の限界の地図 Fair Enough? A map of the current limitations of the requirements to have "fair" algorithms ( http://arxiv.org/abs/2311.12435v2 ) ライセンス: Link先を確認 | Alessandro Castelnovo, Nicole Inverardi, Gabriele Nanino, Ilaria Giuseppina Penco, Daniele Regoli | (参考訳) 近年、人工知能の利用と効率の向上、そしてより一般的には、自動意思決定システムの利用が増加し、そのようなシステムに関連するリスクに対する認識が高まり、歓迎されている。
そのようなリスクの1つは、これらのシステムの多くが自分たちの決定を調整し最適化することを学ぶデータに存在するバイアスや不当な不一致を永久にまたは増幅することである。
この認識は、いくつかの科学コミュニティが、より適切な方法や方法を考え出し、そのバイアスや格差を評価、定量化し、そして軽減することを奨励している。
一方で、政策立案者を含む社会の層が「公正」なアルゴリズムを呼び出すように促している。
現在、優れた多分野の研究が数多く行われているが、いまだに欠けているのは、"フェア"アルゴリズムがほとんど無意味な要件であり、行動可能な社会的な選択肢を数多く追加して補う必要がある、という認識である、と私たちは信じている。
すなわち、社会が自動意思決定システムから要求しているものと、現実のシナリオにおいて実際にこの要求が意味するものとの間には、行き詰まりがある。
本研究は,このような施設の要点を概説し,自動意思決定システムにおける公正性の増大に具体的な意味を与えるために,社会として対応すべき基本的な曖昧さと注意点の一覧を示す。 In the recent years, the raise in the usage and efficiency of Artificial Intelligence and, more in general, of Automated Decision-Making systems has brought with it an increasing and welcome awareness of the risks associated with such systems. One of such risks is that of perpetuating or even amplifying bias and unjust disparities present in the data from which many of these systems learn to adjust and optimise their decisions. This awareness has on one side encouraged several scientific communities to come up with more and more appropriate ways and methods to assess, quantify, and possibly mitigate such biases and disparities. On the other hand, it has prompted more and more layers of society, including policy makers, to call for "fair" algorithms. We believe that while a lot of excellent and multidisciplinary research is currently being conducted, what is still fundamentally missing is the awareness that having "fair" algorithms is per se a nearly meaningless requirement, that needs to be complemented with a lot of additional societal choices to become actionable. Namely, there is a hiatus between what the society is demanding from Automated Decision-Making systems, and what this demand actually means in real-world scenarios. In this work, we outline the key features of such a hiatus, and pinpoint a list of fundamental ambiguities and attention points that we as a society must address in order to give a concrete meaning to the increasing demand of fairness in Automated Decision-Making systems. | 翻訳日:2023-12-19 19:33:46 公開日:2023-12-17 |
# メンタルヘルスアプリケーションにおける大規模言語モデルの再考 Rethinking Large Language Models in Mental Health Applications ( http://arxiv.org/abs/2311.11267v2 ) ライセンス: Link先を確認 | Shaoxiong Ji and Tianlin Zhang and Kailai Yang and Sophia Ananiadou and Erik Cambria | (参考訳) 大規模言語モデル(LLM)はメンタルヘルスにおいて貴重な資産となり、分類タスクとカウンセリングアプリケーションの両方において有望である。
本稿では,精神保健分野におけるLSMの利用について考察する。
予測のための生成モデルの不安定性と幻覚的なアウトプットを生成する可能性について論じ、その信頼性と信頼性を維持するために継続する監査と評価の必要性を強調する。
この論文は、しばしば交換可能な『説明可能性』と『解釈可能性』を区別し、LLMが生み出す潜在的幻覚的自己説明に頼るのではなく、本質的に解釈可能な方法を開発することを提唱している。
LLMの進歩にもかかわらず、人間のカウンセラーの共感的理解、ニュアンスド解釈、文脈認識は、精神保健カウンセリングのセンシティブで複雑な領域では相容れないままである。
LLMの使用は、それを置き換えようとするのではなく、人間の専門知識を補完するツールと見なして、司法的かつ思慮深い考え方でアプローチされるべきである。 Large Language Models (LLMs) have become valuable assets in mental health, showing promise in both classification tasks and counseling applications. This paper offers a perspective on using LLMs in mental health applications. It discusses the instability of generative models for prediction and the potential for generating hallucinatory outputs, underscoring the need for ongoing audits and evaluations to maintain their reliability and dependability. The paper also distinguishes between the often interchangeable terms ``explainability'' and ``interpretability'', advocating for developing inherently interpretable methods instead of relying on potentially hallucinated self-explanations generated by LLMs. Despite the advancements in LLMs, human counselors' empathetic understanding, nuanced interpretation, and contextual awareness remain irreplaceable in the sensitive and complex realm of mental health counseling. The use of LLMs should be approached with a judicious and considerate mindset, viewing them as tools that complement human expertise rather than seeking to replace it. | 翻訳日:2023-12-19 19:33:22 公開日:2023-12-17 |
# 新しい国に一般化するAI CADeポリプ検出器の理にかなわない効果 The unreasonable effectiveness of AI CADe polyp detectors to generalize to new countries ( http://arxiv.org/abs/2312.06833v2 ) ライセンス: Link先を確認 | Joel Shor, Hiro-o Yamano, Daisuke Tsurumaru, Yotami Intrator, Hiroki Kayama, Joe Ledsam, Atsushi Hamabe, Koji Ando, Mitsuhiko Ota, Haruei Ogino, Hiroshi Nakase, Kaho Kobayashi, Eiji Oki, Roman Goldenberg, Ehud Rivlin, Ichiro Takemasa | (参考訳) $\textbf{Background and aim}$: Artificial Intelligence (AI) Computer-Aided Detection (CADe) は一般的にポリープ検出に使用されるが、臨床設定で見られるデータはモデルトレーニングとは異なる場合がある。
CADe検出器がトレーニング中に見られていない国々の大腸内視鏡にどの程度効果があるかを評価する研究はほとんどなく、高価で時間を要するラベルを収集することなく性能を評価することはできない。
イスラエルの大腸内視鏡ビデオ(5004本、1106時間)でCADeポリープ検出装置を訓練し、日本の動画(354本、128時間)で1分あたりの真陽性率(TPR)と偽アラーム(FAPM)を測定した。
大腸内視鏡検査の異同度尺度であるmace(masked medical embedded distance)を施行し,大腸内視鏡検査を施行した。
本研究は,全日本動画および最も高いMACE動画でCADeを評価した。
$\textbf{Results}$: MACEは、狭帯域イメージング(NBI)とクロモエンドスコープ(CE)フレームが日本のホワイトライト(bootstrapped z-test, |z| > 690, p < 10^{-8}$)よりもイスラエルのデータに似ていないことを正確に定量化する。
このデータの違いにもかかわらず、日本におけるコロンコピーのCADの成績は、追加訓練を伴わないイスラエルの成績(0.5 FAPM:0.957と0.972、1.0 FAPM:0.972と0.989、優越試験 t > 45.2, p < 10^{-8}$)には劣っていた。
NBIやCEで訓練を受けていないにもかかわらず、これらのサブセットのTPRは日本全体の非劣等試験である(非劣等試験 t > 47.3, p < 10^{-8}$, $\delta$ = 1.5%)。
$\textbf{Conclusion}$: 医療的でない環境でCADe検出器が正常に動作することを防ぐ差異は、新しい国のデータに適用した場合、私たちのAI CADeポリプ検出器のパフォーマンスを低下させません。
MACEは、モデルを評価する上で最も「異なる」データを特定することで、医療AIモデルを国際化するのに役立つ。 $\textbf{Background and aims}$: Artificial Intelligence (AI) Computer-Aided Detection (CADe) is commonly used for polyp detection, but data seen in clinical settings can differ from model training. Few studies evaluate how well CADe detectors perform on colonoscopies from countries not seen during training, and none are able to evaluate performance without collecting expensive and time-intensive labels. $\textbf{Methods}$: We trained a CADe polyp detector on Israeli colonoscopy videos (5004 videos, 1106 hours) and evaluated on Japanese videos (354 videos, 128 hours) by measuring the True Positive Rate (TPR) versus false alarms per minute (FAPM). We introduce a colonoscopy dissimilarity measure called "MAsked mediCal Embedding Distance" (MACE) to quantify differences between colonoscopies, without labels. We evaluated CADe on all Japan videos and on those with the highest MACE. $\textbf{Results}$: MACE correctly quantifies that narrow-band imaging (NBI) and chromoendoscopy (CE) frames are less similar to Israel data than Japan whitelight (bootstrapped z-test, |z| > 690, p < $10^{-8}$ for both). Despite differences in the data, CADe performance on Japan colonoscopies was non-inferior to Israel ones without additional training (TPR at 0.5 FAPM: 0.957 and 0.972 for Israel and Japan; TPR at 1.0 FAPM: 0.972 and 0.989 for Israel and Japan; superiority test t > 45.2, p < $10^{-8}$). Despite not being trained on NBI or CE, TPR on those subsets were non-inferior to Japan overall (non-inferiority test t > 47.3, p < $10^{-8}$, $\delta$ = 1.5% for both). $\textbf{Conclusion}$: Differences that prevent CADe detectors from performing well in non-medical settings do not degrade the performance of our AI CADe polyp detector when applied to data from a new country. MACE can help medical AI models internationalize by identifying the most "dissimilar" data on which to evaluate models. | 翻訳日:2023-12-19 19:26:16 公開日:2023-12-17 |
# 量子電池の実現のための実践的スキーム Practical Scheme for Realization of a Quantum Battery ( http://arxiv.org/abs/2312.06389v2 ) ライセンス: Link先を確認 | Maryam Hadipour, Soroush Haseli, Dong Wang, Saeed Haddadi | (参考訳) 非マルコフ状態における構造的貯留層下での原子空洞相互作用系からなる量子電池の実用化手法を提案する。
キャビティ-保存結合のマルチパラメータレジームを調査し,これらのパラメータが量子バッテリの性能に与える影響を明らかにする。
提案手法は単純であり,実用的な実現と実装を実現することができる。 We propose a practical scheme for a quantum battery consisting of an atom-cavity interacting system under a structured reservoir in the non-Markovian regime. We investigate a multi-parameter regime for the cavity-reservoir coupling and reveal how these parameters affect the performance of the quantum battery. Our proposed scheme is simple and may be achievable for practical realization and implementation. | 翻訳日:2023-12-19 19:25:25 公開日:2023-12-17 |
# 三元スパイク:スパイクニューラルネットワークのための三元スパイクの学習 Ternary Spike: Learning Ternary Spikes for Spiking Neural Networks ( http://arxiv.org/abs/2312.06372v2 ) ライセンス: Link先を確認 | Yufei Guo, Yuanpei Chen, Xiaode Liu, Weihang Peng, Yuhan Zhang, Xuhui Huang, Zhe Ma | (参考訳) 生物学的にインスパイアされたニューラルネットワークインフラストラクチャの1つであるspyking neural network(snn)は、近年注目を集めている。
情報伝達にはバイナリスパイクアクティベーションを採用するため、活性化と重みの乗算は加算によって代用され、エネルギー効率が高い。
しかし,本稿では,バイナリスパイク活性化マップが十分な情報を運ぶことができず,情報損失が生じ,精度が低下することが理論的に実験的に証明されている。
この問題に対処するため,情報伝達のための3次スパイクニューロンを提案する。
三元スパイクニューロンは、二元スパイクニューロンのイベント駆動および乗算フリーな操作の利点を享受できるが、情報容量を増加させる。
さらに、学習可能な因子を3次スパイクニューロンに埋め込み、適切なスパイク振幅を学習することで、snは異なるスパイク振幅を層に沿って導入し、膜電位分布が層に沿って異なる現象に適合させることができる。
バニラ3次スパイクの効率を維持するため、トレーニング可能な3次スパイクSNNは推論における再パラメータ化手法により、標準スパイクに再変換される。
静的および動的データセット上のいくつかの一般的なネットワーク構造に関する広範囲な実験は、サーナリースパイクが最先端のメソッドを一貫して上回ることができることを示している。
私たちのコードはhttps://github.com/yfguo91/ternary-spikeでオープンソースです。 The Spiking Neural Network (SNN), as one of the biologically inspired neural network infrastructures, has drawn increasing attention recently. It adopts binary spike activations to transmit information, thus the multiplications of activations and weights can be substituted by additions, which brings high energy efficiency. However, in the paper, we theoretically and experimentally prove that the binary spike activation map cannot carry enough information, thus causing information loss and resulting in accuracy decreasing. To handle the problem, we propose a ternary spike neuron to transmit information. The ternary spike neuron can also enjoy the event-driven and multiplication-free operation advantages of the binary spike neuron but will boost the information capacity. Furthermore, we also embed a trainable factor in the ternary spike neuron to learn the suitable spike amplitude, thus our SNN will adopt different spike amplitudes along layers, which can better suit the phenomenon that the membrane potential distributions are different along layers. To retain the efficiency of the vanilla ternary spike, the trainable ternary spike SNN will be converted to a standard one again via a re-parameterization technique in the inference. Extensive experiments with several popular network structures over static and dynamic datasets show that the ternary spike can consistently outperform state-of-the-art methods. Our code is open-sourced at https://github.com/yfguo91/Ternary-Spike. | 翻訳日:2023-12-19 19:25:20 公開日:2023-12-17 |
# 多視点ディフューザからの最適ビューと幾何蒸留 Optimized View and Geometry Distillation from Multi-view Diffuser ( http://arxiv.org/abs/2312.06198v2 ) ライセンス: Link先を確認 | Youjia Zhang, Junqing Yu, Zikai Song, Wei Yang | (参考訳) イメージコンディショニング拡散モデルを用いた単一入力ビューからのマルチビュー画像生成は,近年の進歩であり,かなりの可能性を示している。
しかし、合成されたビューの一貫性の欠如や抽出された幾何における過剰なスムーシングといった問題は続いている。
従来の手法では、マルチビュー一貫性モジュールを統合するか、カメラ位置決めの柔軟性とビュー合成の汎用性を制限しながら、ビュー一貫性を高めるために追加の監督を課していた。
本研究では, 幾何抽出時に最適化された放射場を, 以前の研究で用いた体積や光の凝集よりも, より厳密な一貫性とみなす。
マルチビューディフューザからのスコア蒸留により,従来の放射界最適化プロセスにおける臨界バイアスを同定し,補正する。
本研究では,2次元拡散モデルによる無条件雑音を利用した非バイアススコア蒸留法(usd)を導入する。
最適化された放射光フィールドからのレンダリングビューをベースとし、オブジェクト固有のノイズ処理や高品質のマルチビュー画像の生成に適した2次元拡散モデルの2段階の特殊化プロセスを開発する。
最後に,改良された多視点画像から直接忠実な形状とテクスチャを復元する。
経験的評価は、我々の最適化した幾何およびビュー蒸留技術が、広範囲のデータセットでトレーニングされた最先端のモデルに匹敵する結果をもたらし、カメラ位置決めの自由を維持していることを示している。
プロジェクトページはhttps://youjiazhang.github.io/USD/。 Generating multi-view images from a single input view using image-conditioned diffusion models is a recent advancement and has shown considerable potential. However, issues such as the lack of consistency in synthesized views and over-smoothing in extracted geometry persist. Previous methods integrate multi-view consistency modules or impose additional supervisory to enhance view consistency while compromising on the flexibility of camera positioning and limiting the versatility of view synthesis. In this study, we consider the radiance field optimized during geometry extraction as a more rigid consistency prior, compared to volume and ray aggregation used in previous works. We further identify and rectify a critical bias in the traditional radiance field optimization process through score distillation from a multi-view diffuser. We introduce an Unbiased Score Distillation (USD) that utilizes unconditioned noises from a 2D diffusion model, greatly refining the radiance field fidelity. we leverage the rendered views from the optimized radiance field as the basis and develop a two-step specialization process of a 2D diffusion model, which is adept at conducting object-specific denoising and generating high-quality multi-view images. Finally, we recover faithful geometry and texture directly from the refined multi-view images. Empirical evaluations demonstrate that our optimized geometry and view distillation technique generates comparable results to the state-of-the-art models trained on extensive datasets, all while maintaining freedom in camera positioning. Please see our project page at https://youjiazhang.github.io/USD/. | 翻訳日:2023-12-19 19:24:32 公開日:2023-12-17 |
# オンライン教育におけるマルチモーダリティ : 比較研究 Multimodality in Online Education: A Comparative Study ( http://arxiv.org/abs/2312.05797v2 ) ライセンス: Link先を確認 | Praneeta Immadisetty, Pooja Rajesh, Akshita Gupta, Anala M R, Soumya A, K. N. Subramanya | (参考訳) 十年が経つと、それは重大なパンデミックとなり、教育フォーラムがオンラインの世界へと大きく移行した。
生徒の理解を深めるためのオンラインビデオ会議プラットフォームやツールの利用が急増しているため、教官が生徒が対象と教育的刺激に対する反応を理解する程度を把握できるかどうかを評価するためのメカニズムが必要である。
現在のシステムは、教育分野に焦点をあてていない単一のキューのみを考慮する。
したがって、対象物に対する学生の反応の全体的概観を総合的に測定する必要性がある。
本稿では, 姿勢・ジェスチャー, 顔, 視線追跡, 言語認識の4つの手がかりを考慮しつつ, 認識とオンライン教室への展開に影響を与えるマルチモーダルアプローチの必要性を強調した。
各キューで利用可能なさまざまな機械学習モデルを比較し、利用可能なデータセットと教室映像のパラメータを考えると、最も適切なアプローチを提供する。
重み付けされた多数決投票から導かれるマルチモーダル手法は, 精度, 調達容易性, 感度, 主要な欠点に基づいて, 個々の手がかりから最も適合したモデルを組み合わせることによって提案される。 The commencement of the decade brought along with it a grave pandemic and in response the movement of education forums predominantly into the online world. With a surge in the usage of online video conferencing platforms and tools to better gauge student understanding, there needs to be a mechanism to assess whether instructors can grasp the extent to which students understand the subject and their response to the educational stimuli. The current systems consider only a single cue with a lack of focus in the educational domain. Thus, there is a necessity for the measurement of an all-encompassing holistic overview of the students' reaction to the subject matter. This paper highlights the need for a multimodal approach to affect recognition and its deployment in the online classroom while considering four cues, posture and gesture, facial, eye tracking and verbal recognition. It compares the various machine learning models available for each cue and provides the most suitable approach given the available dataset and parameters of classroom footage. A multimodal approach derived from weighted majority voting is proposed by combining the most fitting models from this analysis of individual cues based on accuracy, ease of procuring data corpus, sensitivity and any major drawbacks. | 翻訳日:2023-12-19 19:24:06 公開日:2023-12-17 |
# SCLIP:Dense Vision-Language推論のための自己意識の再考 SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference ( http://arxiv.org/abs/2312.01597v2 ) ライセンス: Link先を確認 | Feng Wang, Jieru Mei, Alan Yuille | (参考訳) 近年のコントラスト言語画像事前学習(CLIP)の進歩は,画像レベルでの視覚表現とテキスト埋め込みを整列させることにより,ゼロショット分類における強力な能力を示している。
しかし、密集した予測タスクでは、CLIPは画像内の視覚的特徴のローカライズに苦慮し、正確なピクセルレベルの予測を与えることができず、一般化された視覚基盤モデルとして機能しない。
本研究では,CLIPのセマンティックセグメンテーションの可能性を高めることを目的として,事前訓練されたモデルに最小限の変更を加える。
自己注意を再考することによって、CLIPは、単に新しい相関自己意識(CSA)メカニズムを導入することで、密集した予測タスクに適応できることがわかった。
具体的には、従来のCLIPビジョンエンコーダの自己アテンションブロックをCSAモジュールで置き換え、事前訓練されたクエリ、キー、値のプロジェクション行列を再利用することで、CLIPのゼロショットセマンティックセマンティックセグメンテーションに対するトレーニング不要な適応アプローチを実現した。
この論文で強調された8つのセマンティックセグメンテーションベンチマークの38.2%の平均ゼロショットmIoUは、既存のSoTAの33.9%とバニラCLIPの14.1%を大きく上回っている。 Recent advances in contrastive language-image pretraining (CLIP) have demonstrated strong capabilities in zero-shot classification by aligning visual representations with target text embeddings in an image level. However, in dense prediction tasks, CLIP often struggles to localize visual features within an image and fails to give accurate pixel-level predictions, which prevents it from functioning as a generalized visual foundation model. In this work, we aim to enhance CLIP's potential for semantic segmentation with minimal modifications to its pretrained models. By rethinking self-attention, we surprisingly find that CLIP can adapt to dense prediction tasks by simply introducing a novel Correlative Self-Attention (CSA) mechanism. Specifically, we replace the traditional self-attention block of CLIP vision encoder's last layer by our CSA module and reuse its pretrained projection matrices of query, key, and value, leading to a training-free adaptation approach for CLIP's zero-shot semantic segmentation. Extensive experiments show the advantage of CSA: we obtain a 38.2% average zero-shot mIoU across eight semantic segmentation benchmarks highlighted in this paper, significantly outperforming the existing SoTA's 33.9% and the vanilla CLIP's 14.1%. | 翻訳日:2023-12-19 19:21:08 公開日:2023-12-17 |
# 政策誘導軌道拡散による世界モデル World Models via Policy-Guided Trajectory Diffusion ( http://arxiv.org/abs/2312.08533v2 ) ライセンス: Link先を確認 | Marc Rigter, Jun Yamada, Ingmar Posner | (参考訳) 世界モデルは知的エージェントを開発するための強力なツールです。
一連のアクションの結果を予測することによって、世界モデルは、合成データ、すなわち「想像力」を用いて、オンポリシー強化学習(rl)を通じてポリシーを最適化することができる。
既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。
軌道長が大きくなるにつれて予測誤差は必然的に化合物となる。
本研究では, 自己回帰的ではなく, 拡散モデルを通して1つのパスでオン・ポリティカル・トラジェクタ全体を生成する, 新たな世界モデリング手法を提案する。
ポリシ誘導軌道拡散(polygrad, policy-guided orbital diffusion)というアプローチでは,方針の動作分布の勾配に加えて,ノイズモデルを用いて初期ランダム状態と動作の軌道をオンポリシー合成軌道に拡散する。
我々は,PolyGRAD,スコアベース生成モデル,および分類器誘導拡散モデル間の関係を分析する。
以上の結果から,PolyGRADは自己回帰拡散を除いて,中程度の軌跡の軌跡予測誤差において,最先端のベースラインよりも優れていた。
短期的には、PolyGRADは自己回帰拡散に匹敵する誤差を得るが、計算要求は著しく低い。
また,PolyGRADは,MuJoCo連続制御ドメインのイマジネーションにおいて,オンラインRLを介して実行ポリシーをトレーニングできることを示した。
このように、PolyGRADはスケーラブルで非自己回帰的なオン・ポリシーの世界モデリングのための新しいパラダイムを導入している。 World models are a powerful tool for developing intelligent agents. By predicting the outcome of a sequence of actions, world models enable policies to be optimised via on-policy reinforcement learning (RL) using synthetic data, i.e. in "in imagination". Existing world models are autoregressive in that they interleave predicting the next state with sampling the next action from the policy. Prediction error inevitably compounds as the trajectory length grows. In this work, we propose a novel world modelling approach that is not autoregressive and generates entire on-policy trajectories in a single pass through a diffusion model. Our approach, Policy-Guided Trajectory Diffusion (PolyGRAD), leverages a denoising model in addition to the gradient of the action distribution of the policy to diffuse a trajectory of initially random states and actions into an on-policy synthetic trajectory. We analyse the connections between PolyGRAD, score-based generative models, and classifier-guided diffusion models. Our results demonstrate that PolyGRAD outperforms state-of-the-art baselines in terms of trajectory prediction error for moderate-length trajectories, with the exception of autoregressive diffusion. At short horizons, PolyGRAD obtains comparable errors to autoregressive diffusion, but with significantly lower computational requirements. Our experiments also demonstrate that PolyGRAD enables performant policies to be trained via on-policy RL in imagination for MuJoCo continuous control domains. Thus, PolyGRAD introduces a new paradigm for scalable and non-autoregressive on-policy world modelling. | 翻訳日:2023-12-19 19:15:37 公開日:2023-12-17 |
# 決定変換器によるリアルタイムネットワーク侵入検出 Real-time Network Intrusion Detection via Decision Transformers ( http://arxiv.org/abs/2312.07696v2 ) ライセンス: Link先を確認 | Jingdi Chen, Hanhan Zhou, Yongsheng Mei, Gina Adam, Nathaniel D. Bastian, Tian Lan | (参考訳) 時間的観測に基づくリアルタイムな意思決定を必要とする多くのサイバーセキュリティ問題は、例えば、到着したパケットのシーケンスからネットワーク侵入を検出するようなシーケンスモデリング問題として抽象化できる。
強化学習のような既存のアプローチは、マルコフの性質が必ずしも保持されず、基盤となるネットワーク状態が観測できないため、そのようなサイバーセキュリティ決定問題には適していない。
本稿では,リアルタイムネットワーク侵入検出の問題をカジュアルシーケンスモデリングとしてキャストし,リアルタイム意思決定のためのトランスフォーマーアーキテクチャのパワーを浮き彫りにする。
提案手法では, 報酬, ネットワークパケット, 検出決定からなる過去の経路に因果決定変換器を条件付けすることで, 所望のリターンを達成するために将来の検出決定を生成する。
これにより、リアルタイムネットワーク侵入検出に決定トランスフォーマーを適用でき、検出の精度とタイムラインの新たなトレードオフが可能になる。
提案手法は,公開ネットワーク侵入検出データセット上で評価され,強化学習とシーケンスモデリングを用いた複数のベースラインアルゴリズムよりも精度が高い。 Many cybersecurity problems that require real-time decision-making based on temporal observations can be abstracted as a sequence modeling problem, e.g., network intrusion detection from a sequence of arriving packets. Existing approaches like reinforcement learning may not be suitable for such cybersecurity decision problems, since the Markovian property may not necessarily hold and the underlying network states are often not observable. In this paper, we cast the problem of real-time network intrusion detection as casual sequence modeling and draw upon the power of the transformer architecture for real-time decision-making. By conditioning a causal decision transformer on past trajectories, consisting of the rewards, network packets, and detection decisions, our proposed framework will generate future detection decisions to achieve the desired return. It enables decision transformers to be applied to real-time network intrusion detection, as well as a novel tradeoff between the accuracy and timeliness of detection. The proposed solution is evaluated on public network intrusion detection datasets and outperforms several baseline algorithms using reinforcement learning and sequence modeling, in terms of detection accuracy and timeliness. | 翻訳日:2023-12-19 19:13:06 公開日:2023-12-17 |
# LLMEval: 大規模言語モデルの評価方法に関する予備的研究 LLMEval: A Preliminary Study on How to Evaluate Large Language Models ( http://arxiv.org/abs/2312.07398v2 ) ライセンス: Link先を確認 | Yue Zhang, Ming Zhang, Haipeng Yuan, Shichun Liu, Yongyao Shi, Tao Gui, Qi Zhang and Xuanjing Huang | (参考訳) 近年,大規模言語モデルの評価が研究分野として注目されている。
LLM評価の3つの重要な質問は、'What, where, and How to evaluate'である。
しかし、既存の研究は、主に最初の2つの質問に焦点を当てている。これは基本的に、テスト中にllmを与えるべきタスクと、それが扱うべき知識である。
第3の質問は、どの標準を使うべきか、評価のタイプ、スコアの方法、ランク付けの方法に関するものだが、あまり議論は行われていない。
本稿では,様々な基準を手動評価と自動評価とを比較し,現場,クラウドソーシング,公開アノテータ,GPT-4を異なるスコアリング手法とランキングシステムを用いて分析する。
LLMEval という新たなデータセットを提案し,20 LLM 上で評価を行う。
合計2,186人が参加し、243,337人の手動アノテーションと57,511件の自動評価結果が得られた。
我々は異なる設定の比較と分析を行い、将来LSMを評価するための洞察を提供する10の結論を導いた。
データセットと結果はhttps://github.com/llmeval で公開されている。 Recently, the evaluation of Large Language Models has emerged as a popular area of research. The three crucial questions for LLM evaluation are ``what, where, and how to evaluate''. However, the existing research mainly focuses on the first two questions, which are basically what tasks to give the LLM during testing and what kind of knowledge it should deal with. As for the third question, which is about what standards to use, the types of evaluators, how to score, and how to rank, there hasn't been much discussion. In this paper, we analyze evaluation methods by comparing various criteria with both manual and automatic evaluation, utilizing onsite, crowd-sourcing, public annotators and GPT-4, with different scoring methods and ranking systems. We propose a new dataset, LLMEval and conduct evaluations on 20 LLMs. A total of 2,186 individuals participated, leading to the generation of 243,337 manual annotations and 57,511 automatic evaluation results. We perform comparisons and analyses of different settings and conduct 10 conclusions that can provide some insights for evaluating LLM in the future. The dataset and the results are publicly available at https://github.com/llmeval . | 翻訳日:2023-12-19 19:11:03 公開日:2023-12-17 |
# ReRoGCRL:ゴール・コンディション強化学習における表現に基づくロバスト性 ReRoGCRL: Representation-based Robustness in Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2312.07392v2 ) ライセンス: Link先を確認 | Xiangyu Yin, Sihao Wu, Jiaxu Liu, Meng Fang, Xingyu Zhao, Xiaowei Huang, Wenjie Ruan | (参考訳) Goal-Conditioned Reinforcement Learning (GCRL) は注目されているが、敵の摂動に対するアルゴリズム的堅牢性はいまだ解明されていない。
GCRLに適用すると、従来のRL用に設計された攻撃や堅牢な表現訓練方法がより効果的になる。
この課題に対処するために,我々はまず,敵対的コントラスト攻撃に触発された新しいアプローチである半矛盾表現攻撃を提案する。
RLの既存の攻撃とは異なり、ポリシー関数からの情報を必要とせず、デプロイ中にシームレスに実装できる。
そして、既存のGCRLアルゴリズムの脆弱性を軽減するために、各種の摂動に対するRLエージェントの対向ロバスト性を改善するために、セミコントラスト対応強化と感性認識正則化を組み合わせたAdversarial Representation Tacticsを導入する。
複数の最先端GCRLアルゴリズムにまたがる攻撃・防御手法の性能評価を行った。
私たちのツールであるReRoGCRLはhttps://github.com/TrustAI/ReRoGCRLで利用可能です。 While Goal-Conditioned Reinforcement Learning (GCRL) has gained attention, its algorithmic robustness against adversarial perturbations remains unexplored. The attacks and robust representation training methods that are designed for traditional RL become less effective when applied to GCRL. To address this challenge, we first propose the Semi-Contrastive Representation attack, a novel approach inspired by the adversarial contrastive attack. Unlike existing attacks in RL, it only necessitates information from the policy function and can be seamlessly implemented during deployment. Then, to mitigate the vulnerability of existing GCRL algorithms, we introduce Adversarial Representation Tactics, which combines Semi-Contrastive Adversarial Augmentation with Sensitivity-Aware Regularizer to improve the adversarial robustness of the underlying RL agent against various types of perturbations. Extensive experiments validate the superior performance of our attack and defence methods across multiple state-of-the-art GCRL algorithms. Our tool ReRoGCRL is available at https://github.com/TrustAI/ReRoGCRL. | 翻訳日:2023-12-19 19:10:44 公開日:2023-12-17 |
# MWSIS: 自律運転のための2Dボックスアノテーション付きマルチモーダル弱修正インスタンスセグメンテーション MWSIS: Multimodal Weakly Supervised Instance Segmentation with 2D Box Annotations for Autonomous Driving ( http://arxiv.org/abs/2312.06988v4 ) ライセンス: Link先を確認 | Guangfeng Jiang, Jun Liu, Yuzhi Wu, Wenlong Liao, Tao He, Pai Peng | (参考訳) インスタンス分割はコンピュータビジョン、特に自動運転における基本的な研究である。
しかし、インスタンスセグメンテーションのための手動マスクアノテーションはかなり時間がかかり、コストがかかる。
この問題に対処するために、いくつかの先行研究は2dまたは3dボックスを探索することで、弱い監督の方法を適用しようとする。
しかし、誰も2Dボックスアノテーションだけで2Dと3Dのインスタンスを同時に分割することに成功していないため、アノテーションのコストは桁違いに削減できる。
そこで,本稿では,mwsis(multimodal weakly supervised instance segmentation)と呼ばれる新しいフレームワークを提案する。このフレームワークは,疑似ラベルの品質を向上させるために,様々な細粒度ラベル生成および修正モジュールを2dおよび3dモダリティの両方に組み込んで,一貫性スパースクロスモーダル監督(consistency sparse cross-modal supervisor, cscs)という新しい手法とともに,応答蒸留によるマルチモーダル予測の不一致を低減する。
特に、3dバックボーンを下流タスクに移すと、3d検出器の性能が向上するだけでなく、5%の完全教師付きアノテーションで完全に教師付きインスタンスセグメンテーションを上回ってしまう。
Waymoデータセットでは、提案されたフレームワークがベースラインを大幅に改善し、特に2Dと3Dのインスタンスセグメンテーションタスクで2.59%のmAPと12.75%のmAPを達成した。
コードはhttps://github.com/jiangxb98/mwsis-pluginで入手できる。 Instance segmentation is a fundamental research in computer vision, especially in autonomous driving. However, manual mask annotation for instance segmentation is quite time-consuming and costly. To address this problem, some prior works attempt to apply weakly supervised manner by exploring 2D or 3D boxes. However, no one has ever successfully segmented 2D and 3D instances simultaneously by only using 2D box annotations, which could further reduce the annotation cost by an order of magnitude. Thus, we propose a novel framework called Multimodal Weakly Supervised Instance Segmentation (MWSIS), which incorporates various fine-grained label generation and correction modules for both 2D and 3D modalities to improve the quality of pseudo labels, along with a new multimodal cross-supervision approach, named Consistency Sparse Cross-modal Supervision (CSCS), to reduce the inconsistency of multimodal predictions by response distillation. Particularly, transferring the 3D backbone to downstream tasks not only improves the performance of the 3D detectors, but also outperforms fully supervised instance segmentation with only 5% fully supervised annotations. On the Waymo dataset, the proposed framework demonstrates significant improvements over the baseline, especially achieving 2.59% mAP and 12.75% mAP increases for 2D and 3D instance segmentation tasks, respectively. The code is available at https://github.com/jiangxb98/mwsis-plugin. | 翻訳日:2023-12-19 19:09:47 公開日:2023-12-17 |
# ELSA: オーバーヘッドフリーのスパースネットワーク展開のための部分凍結 ELSA: Partial Weight Freezing for Overhead-Free Sparse Network Deployment ( http://arxiv.org/abs/2312.06872v2 ) ライセンス: Link先を確認 | Paniz Halvachi, Alexandra Peste, Dan Alistarh, Christoph H. Lampert | (参考訳) 本稿では,異なるレベルの空間に容易に展開可能な深層ネットワーク構築のための実用的ソリューションELSAを提案する。
中心となる考え方は、1つの高密度ネットワークに1つ以上のスパースネットワークを埋め込むことである。
予測時には、任意のスパースモデルを、予め定義されたマスクに従って単純に重みをゼロにすることができる。
ELSAはシンプルで強力で柔軟です。
ネットワークのスパーシフィケーションやネットワークトレーニングに、既存のあらゆるテクニックを使用できる。
特に、損失関数、アーキテクチャ、最適化技術を制限するものではない。
私たちの実験では、elsaの柔軟なデプロイメントの利点は、独立してトレーニングされ保存される複数のスパースネットワークを使用する標準的な方法と比べて、予測品質をまったくあるいはまったく減らさないことを示しています。 We present ELSA, a practical solution for creating deep networks that can easily be deployed at different levels of sparsity. The core idea is to embed one or more sparse networks within a single dense network as a proper subset of the weights. At prediction time, any sparse model can be extracted effortlessly simply be zeroing out weights according to a predefined mask. ELSA is simple, powerful and highly flexible. It can use essentially any existing technique for network sparsification and network training. In particular, it does not restrict the loss function, architecture or the optimization technique. Our experiments show that ELSA's advantages of flexible deployment comes with no or just a negligible reduction in prediction quality compared to the standard way of using multiple sparse networks that are trained and stored independently. | 翻訳日:2023-12-19 19:09:17 公開日:2023-12-17 |
# 大規模言語モデルに基づくMathAgentによる複雑な数学的推論のモデル化 Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent ( http://arxiv.org/abs/2312.08926v2 ) ライセンス: Link先を確認 | Haoran Liao, Qinyi Du, Shaohua Hu, Hao He, Yanyan Xu, Jidong Tian, Yaohui Jin | (参考訳) 大規模言語モデル(LLM)は、文を解析し、ドメイン知識を関連づけ、複雑な論理的推論を行い、中間的論理的理性を統合するために包括的な能力を必要とする複雑な数学的問題の解決に直面する。
これらの問題に一度に対処することはLLMにとって困難であり、世代によって混乱を招いた。
本研究では, 数学的推論過程の精密な分解とモデリングにより, LLMをエージェントで拡張する可能性について検討する。
具体的には、数学的解法を形式的に記述し、エージェントベースのゼロショットフレームワークである$\bf{P}$lanner-$\bf{R}$easoner-$\bf{E}$xecutor-$\bf{R}$eflector (PRER) で拡張する。
MathAgent-MはLSMに適応し、MathAgent-Hは人間と協調する。
miniF2F と MATH の実験では PreR と MathAgents の有効性を実証し、MiniF2F 上の $112.3\%$($53.9\%\xrightarrow{}66.2\%$)、MATH 上の 9.2\%$$$$49.8\%\xrightarrow{}59.0\%$)、GPT-4 に対する MATH のレベル5問題に対する $13.2\%$($23.2\%\xrightarrow{}35.4\%$) を達成している。
さらなる分析結果は、LSMの挙動をエージェントとして活用する上で、より洞察に富む視点を提供する。 Large language models (LLMs) face challenges in solving complex mathematical problems that require comprehensive capacities to parse the statements, associate domain knowledge, perform compound logical reasoning, and integrate the intermediate rationales. Tackling all these problems once could be arduous for LLMs, thus leading to confusion in generation. In this work, we explore the potential of enhancing LLMs with agents by meticulous decomposition and modeling of mathematical reasoning process. Specifically, we propose a formal description of the mathematical solving and extend LLMs with an agent-based zero-shot framework named $\bf{P}$lanner-$\bf{R}$easoner-$\bf{E}$xecutor-$\bf{R}$eflector (PRER). We further provide and implement two MathAgents that define the logical forms and inherent relations via a pool of actions in different grains and orientations: MathAgent-M adapts its actions to LLMs, while MathAgent-H aligns with humankind. Experiments on miniF2F and MATH have demonstrated the effectiveness of PRER and proposed MathAgents, achieving an increase of $12.3\%$($53.9\%\xrightarrow{}66.2\%$) on the MiniF2F, $9.2\%$ ($49.8\%\xrightarrow{}59.0\%$) on MATH, and $13.2\%$($23.2\%\xrightarrow{}35.4\%$) for level-5 problems of MATH against GPT-4. Further analytical results provide more insightful perspectives on exploiting the behaviors of LLMs as agents. | 翻訳日:2023-12-19 19:01:34 公開日:2023-12-17 |
# ドリームドロン DreamDrone ( http://arxiv.org/abs/2312.08746v2 ) ライセンス: Link先を確認 | Hanyang Kong, Dongze Lian, Michael Bi Mi, Xinchao Wang | (参考訳) テキストプロンプトから未公開のフライスルーシーンを生成するための,革新的な手法であるdreamdroneを紹介する。
本手法の中心は,拡散モデルにおける中間的特徴の強い対応を利用した特徴対応誘導拡散プロセスである。
さらに,この指導戦略を活かして,中間的潜在コード編集のための高度な手法を提案し,幾何学的一貫性を持つ新たなビューの生成を可能にした。
大規模な実験により、DreamDroneは既存の手法をはるかに上回り、優れた視覚的品質のシーンを生成することがわかった。
このアプローチは、テキストプロンプトからゼロショットの永続ビュー生成において重要なステップであり、オースや洞窟などの自然景観や、レゴスタイルのストリートビューのような複雑な都市環境など、多様なシーンを作成できる。
私たちのコードは公開されています。 We introduce DreamDrone, an innovative method for generating unbounded flythrough scenes from textual prompts. Central to our method is a novel feature-correspondence-guidance diffusion process, which utilizes the strong correspondence of intermediate features in the diffusion model. Leveraging this guidance strategy, we further propose an advanced technique for editing the intermediate latent code, enabling the generation of subsequent novel views with geometric consistency. Extensive experiments reveal that DreamDrone significantly surpasses existing methods, delivering highly authentic scene generation with exceptional visual quality. This approach marks a significant step in zero-shot perpetual view generation from textual prompts, enabling the creation of diverse scenes, including natural landscapes like oases and caves, as well as complex urban settings such as Lego-style street views. Our code is publicly available. | 翻訳日:2023-12-19 19:00:02 公開日:2023-12-17 |
# 天文学論文における惑星名同定 : マルチステップアプローチ Identifying Planetary Names in Astronomy Papers: A Multi-Step Approach ( http://arxiv.org/abs/2312.08579v2 ) ライセンス: Link先を確認 | Golnaz Shapurian, Michael J Kurtz, and Alberto Accomazzi | (参考訳) 天文学出版物における惑星名の自動識別には多くの課題がある。
これらの特徴は、衝突や火山活動によって生じる概ね円形の凹凸として定義されるクレーター、長く伸びた構造物やひび割れの尾根、月面の暗い滑らかな物質の小さな不規則な斑点、すなわち「ラク」(Planetary Names Working Group, n.d.)である。
多くの特徴名はシリア、テンペ、アインシュタイン、セーガンといった地名に因んで命名された場所や人々の名前と重なり合い、いくつかの地名(アメリカ合衆国地質調査所)を冠している。
例えばアポロは、月上のクレーターに加えて、ミッション、プログラム、サンプル、宇宙飛行士、地震計、地震計、コア、時代、データ、収集、機器、ステーションなど、様々な場面で使われている。
いくつかの特徴名は、月のクレーターである黒、緑、白などの形容詞としてテキストに現れる。
他の文脈でのいくつかの特徴名は、月の西と南のクレーターのような方向として機能する。
さらに、いくつかの特徴は、月と火星の両方に存在するアダムズクレーターのような曖昧さをなくすために、異なる天体に同じ名前を持つ。
本稿では,ルールに基づくフィルタリング,統計的関連分析,部分音声(pos)タグ付け,名前付きエンティティ認識(ner)モデル,ハイブリッドキーワード抽出,知識グラフ(kg)マッチング,および局所的に設置された大規模言語モデル(llm)による推論を組み合わせた多段階パイプラインを提案する。
ADS(Astrophysics Data System)の天文学論文のデータセットで評価すると、この手法は惑星の特徴を曖昧にするために0.97以上のF1スコアを達成する。 The automatic identification of planetary feature names in astronomy publications presents numerous challenges. These features include craters, defined as roughly circular depressions resulting from impact or volcanic activity; dorsas, which are elongate raised structures or wrinkle ridges; and lacus, small irregular patches of dark, smooth material on the Moon, referred to as "lake" (Planetary Names Working Group, n.d.). Many feature names overlap with places or people's names that they are named after, for example, Syria, Tempe, Einstein, and Sagan, to name a few (U.S. Geological Survey, n.d.). Some feature names have been used in many contexts, for instance, Apollo, which can refer to mission, program, sample, astronaut, seismic, seismometers, core, era, data, collection, instrument, and station, in addition to the crater on the Moon. Some feature names can appear in the text as adjectives, like the lunar craters Black, Green, and White. Some feature names in other contexts serve as directions, like craters West and South on the Moon. Additionally, some features share identical names across different celestial bodies, requiring disambiguation, such as the Adams crater, which exists on both the Moon and Mars. We present a multi-step pipeline combining rule-based filtering, statistical relevance analysis, part-of-speech (POS) tagging, named entity recognition (NER) model, hybrid keyword harvesting, knowledge graph (KG) matching, and inference with a locally installed large language model (LLM) to reliably identify planetary names despite these challenges. When evaluated on a dataset of astronomy papers from the Astrophysics Data System (ADS), this methodology achieves an F1-score over 0.97 in disambiguating planetary feature names. | 翻訳日:2023-12-19 18:57:47 公開日:2023-12-17 |
# 連続的治療効果推定のための逆バランス表現 Adversarially Balanced Representation for Continuous Treatment Effect Estimation ( http://arxiv.org/abs/2312.10570v1 ) ライセンス: Link先を確認 | Amirreza Kazemi, Martin Ester | (参考訳) 個々の治療効果(ite)の推定には、異なる治療法を持つ集団間の共変量シフトの調整が必要であり、深部表現学習は共変量のバランスのとれた表現を学ぶことに大きな期待が持たれている。
しかし、既存の手法はバイナリ処理のシナリオを主に考慮している。
本稿では,治療が持続的変動(例えば薬の服用)である,より実践的で困難なシナリオについて考察し,この設定の2つの主な課題に対処する。
我々は,KLの分散性の観点から表現の不均衡を対角的に最小化し,また注意機構を利用して処理値が結果予測に与える影響を維持できる対向反事実回帰ネットワーク(ACFR)を提案する。
理論的には、ACFRの目的関数は、対実結果予測誤差の上限にある。
半合成データセットに対する実験的な評価は、ACFRの最先端手法に対する経験的優位性を示すものである。 Individual treatment effect (ITE) estimation requires adjusting for the covariate shift between populations with different treatments, and deep representation learning has shown great promise in learning a balanced representation of covariates. However the existing methods mostly consider the scenario of binary treatments. In this paper, we consider the more practical and challenging scenario in which the treatment is a continuous variable (e.g. dosage of a medication), and we address the two main challenges of this setup. We propose the adversarial counterfactual regression network (ACFR) that adversarially minimizes the representation imbalance in terms of KL divergence, and also maintains the impact of the treatment value on the outcome prediction by leveraging an attention mechanism. Theoretically we demonstrate that ACFR objective function is grounded in an upper bound on counterfactual outcome prediction error. Our experimental evaluation on semi-synthetic datasets demonstrates the empirical superiority of ACFR over a range of state-of-the-art methods. | 翻訳日:2023-12-19 15:56:39 公開日:2023-12-17 |
# ウェアラブル・センサ・分布データ解析のための解釈可能な因果推論 Interpretable Causal Inference for Analyzing Wearable, Sensor, and Distributional Data ( http://arxiv.org/abs/2312.10569v1 ) ライセンス: Link先を確認 | Srikar Katta, Harsh Parikh, Cynthia Rudin, Alexander Volfovsky | (参考訳) 現代の因果問題の多くは、ウェアラブルデバイスやセンサーを用いて測定される複雑な結果にどのように影響するかを問うものである。
現在の分析アプローチでは、これらのデータをスカラー統計(例えば平均)に要約する必要があるが、これらの要約は誤解を招く可能性がある。
例えば、異なる分布は同じ手段、分散、その他の統計を持つことができる。
研究者は、データを分散として表現することで、情報の損失を克服することができる。
我々は,分散データ分析のための解釈可能な手法を開発し,信頼性と堅牢な意思決定を保証する。
私たち
(i)推定戦略の正確性に関する分析的保証を提供する。
(ii)治療効果を推定する他の分布データ解析法に勝るモルトを付加するシミュレーションによる実証
3) ADD MALTS がサブポピュレーション内の処理単位と制御単位との間に十分な結合性があることを検証し,治療効果を信頼性に推定する能力を示す。
ADD MALTSの有用性について,糖尿病リスク軽減のための連続グルコースモニターの有効性を検討した。 Many modern causal questions ask how treatments affect complex outcomes that are measured using wearable devices and sensors. Current analysis approaches require summarizing these data into scalar statistics (e.g., the mean), but these summaries can be misleading. For example, disparate distributions can have the same means, variances, and other statistics. Researchers can overcome the loss of information by instead representing the data as distributions. We develop an interpretable method for distributional data analysis that ensures trustworthy and robust decision-making: Analyzing Distributional Data via Matching After Learning to Stretch (ADD MALTS). We (i) provide analytical guarantees of the correctness of our estimation strategy, (ii) demonstrate via simulation that ADD MALTS outperforms other distributional data analysis methods at estimating treatment effects, and (iii) illustrate ADD MALTS' ability to verify whether there is enough cohesion between treatment and control units within subpopulations to trustworthily estimate treatment effects. We demonstrate ADD MALTS' utility by studying the effectiveness of continuous glucose monitors in mitigating diabetes risks. | 翻訳日:2023-12-19 15:56:22 公開日:2023-12-17 |
# IntraSeismic: 座標に基づく地震インバージョン学習手法 IntraSeismic: a coordinate-based learning approach to seismic inversion ( http://arxiv.org/abs/2312.10568v1 ) ライセンス: Link先を確認 | Juan Romero, Wolfgang Heidrich, Nick Luiken, Matteo Ravasi | (参考訳) 地震イメージングは、地球表面で記録された弾性波から地下の地質構造を体積的に表現する数値的なプロセスである。
そのため、石油・ガス探査、地熱生産、炭素捕獲・貯蔵監視、インフラの地学的評価など、エネルギー・建設分野で広く利用されている。
しかし, 音響インピーダンスモデルなどの地震記録から定量的情報を抽出することは, 帯域制限とノイズの性質のため, 非常に不適切な逆問題である。
本稿では,協調学習とポストスタックモデリング演算子の物理をシームレスに組み合わせた新しいハイブリッド地震インバージョン手法であるIntraSeismicを紹介する。
IntraSeismicの主な特徴
i)2次元および3次元後地震インバージョンにおける非並列性能
二 急速な収束率
三 ハード制約(井戸データという。)をシームレスに含み、不確実性定量化を行う能力、及び
四 潜在的データ圧縮及び逆モデルの一部への高速ランダム化アクセス
本手法の有効性を検証するため,intraseismicの合成およびフィールドデータ応用を行った。 Seismic imaging is the numerical process of creating a volumetric representation of the subsurface geological structures from elastic waves recorded at the surface of the Earth. As such, it is widely utilized in the energy and construction sectors for applications ranging from oil and gas prospection, to geothermal production and carbon capture and storage monitoring, to geotechnical assessment of infrastructures. Extracting quantitative information from seismic recordings, such as an acoustic impedance model, is however a highly ill-posed inverse problem, due to the band-limited and noisy nature of the data. This paper introduces IntraSeismic, a novel hybrid seismic inversion method that seamlessly combines coordinate-based learning with the physics of the post-stack modeling operator. Key features of IntraSeismic are i) unparalleled performance in 2D and 3D post-stack seismic inversion, ii) rapid convergence rates, iii) ability to seamlessly include hard constraints (i.e., well data) and perform uncertainty quantification, and iv) potential data compression and fast randomized access to portions of the inverted model. Synthetic and field data applications of IntraSeismic are presented to validate the effectiveness of the proposed method. | 翻訳日:2023-12-19 15:56:05 公開日:2023-12-17 |
# 軽量cnnベースvvcインターパーティショニング加速 Light-weight CNN-based VVC Inter Partitioning Acceleration ( http://arxiv.org/abs/2312.10567v1 ) ライセンス: Link先を確認 | Yiqun Liu, Mohsen Abdoli, Thomas Guionnet, Christine Guillemot, Aline Roumy | (参考訳) Versatile Video Coding(VVC)標準は、2020年にJVET(Joint Video Exploration Team)によって確定した。
高効率ビデオ符号化(HEVC)標準と比較して、VVCはBjontegaard Delta-Rate (BD-rate)の約50%の圧縮効率向上を提供し、エンコーダの複雑さは約10倍である。
本稿では,VVCにおけるインターパーティショニングを高速化する畳み込みニューラルネットワーク(CNN)を用いた手法を提案する。
本手法は,各CTUを8×8ブロックの固定格子に分割することにより,CTUレベルで動作する。
このグリッド内の各セルは、その領域内の分割深さに関する情報に関連付けられている。
このグリッドを予測するための軽量ネットワークは、第4次木分割探索(QT)を制限し、選択できないパーティションを避けるために、レート歪み最適化中に使用される。
実験により,vvcテストモデル(vtm)10における画像のランダムアクセス群(ragop32)の17%から30%までの加速が可能であり,bdレートの増加による効率低下は0.37%から1.18%であった。 The Versatile Video Coding (VVC) standard has been finalized by Joint Video Exploration Team (JVET) in 2020. Compared to the High Efficiency Video Coding (HEVC) standard, VVC offers about 50% compression efficiency gain, in terms of Bjontegaard Delta-Rate (BD-rate), at the cost of about 10x more encoder complexity. In this paper, we propose a Convolutional Neural Network (CNN)-based method to speed up inter partitioning in VVC. Our method operates at the Coding Tree Unit (CTU) level, by splitting each CTU into a fixed grid of 8x8 blocks. Then each cell in this grid is associated with information about the partitioning depth within that area. A lightweight network for predicting this grid is employed during the rate-distortion optimization to limit the Quaternary Tree (QT)-split search and avoid partitions that are unlikely to be selected. Experiments show that the proposed method can achieve acceleration ranging from 17% to 30% in the RandomAccess Group Of Picture 32 (RAGOP32) mode of VVC Test Model (VTM)10 with a reasonable efficiency drop ranging from 0.37% to 1.18% in terms of BD-rate increase. | 翻訳日:2023-12-19 15:55:49 公開日:2023-12-17 |
# プロフェッショナルテストによるAI職業スキルの評価 Evaluating AI Vocational Skills Through Professional Testing ( http://arxiv.org/abs/2312.10603v1 ) ライセンス: Link先を確認 | David Noever, Matt Ciolino | (参考訳) GPT-3とTurbo-GPT3.5の2つの高度に引用されたAIモデルの職業スキルを評価することに焦点を当てた。
このアプローチは、1149のプロフェッショナル認定からなるベンチマークデータセット上で、モデルのパフォーマンスを調べることによって、学術的パフォーマンスよりも実用的な準備の重要性を強調する。
この研究は、人間のテストスコアとの比較も含み、専門家の認定試験においてAIモデルが人間のパフォーマンスにマッチしたり、上回ったりすることの可能性を展望する。
GPT-3は、微調整や試験の準備がなくても、プロ認定の39%で合格点(70%以上)を達成できた。
クラウドや仮想化、ビジネス分析、サイバーセキュリティ、ネットワークのセットアップと修復、データ分析など、コンピュータ関連分野の熟練度が紹介された。
一方、Turbo-GPT3.5は、高い評価を受けたOffensive Security Certified Professional(OSCP)試験で100%のスコアを獲得した。
このモデルはまた、看護、認可カウンセリング、薬局、航空など様々な専門分野において能力を示した。
Turbo-GPT3.5は、カスタマーサービスタスクに強いパフォーマンスを示し、コールセンタや定期的なアドバイスサービスのためのチャットボットを強化する潜在的なユースケースを示した。
どちらのモデルも、ワインソムリエ、ビールのテイスティング、感情的な引用、ボディランゲージの読書など、機械の伝統的な役割以外の感覚や経験に基づくテストでよく評価された。
研究の結果、openaiのモデルがバベッジからターボへと改良され、数年でグレーディングスケールで60%パフォーマンスが向上したことがわかった。
この進歩は、現在のモデルの制限に対処することで、最も厳格なプロフェッショナル認定をパスできるAIが得られることを示している。 Using a novel professional certification survey, the study focuses on assessing the vocational skills of two highly cited AI models, GPT-3 and Turbo-GPT3.5. The approach emphasizes the importance of practical readiness over academic performance by examining the models' performances on a benchmark dataset consisting of 1149 professional certifications. This study also includes a comparison with human test scores, providing perspective on the potential of AI models to match or even surpass human performance in professional certifications. GPT-3, even without any fine-tuning or exam preparation, managed to achieve a passing score (over 70% correct) on 39% of the professional certifications. It showcased proficiency in computer-related fields, including cloud and virtualization, business analytics, cybersecurity, network setup and repair, and data analytics. Turbo-GPT3.5, on the other hand, scored a perfect 100% on the highly regarded Offensive Security Certified Professional (OSCP) exam. This model also demonstrated competency in diverse professional fields, such as nursing, licensed counseling, pharmacy, and aviation. Turbo-GPT3.5 exhibited strong performance on customer service tasks, indicating potential use cases in enhancing chatbots for call centers and routine advice services. Both models also scored well on sensory and experience-based tests outside a machine's traditional roles, including wine sommelier, beer tasting, emotional quotient, and body language reading. The study found that OpenAI's model improvement from Babbage to Turbo led to a 60% better performance on the grading scale within a few years. This progress indicates that addressing the current model's limitations could yield an AI capable of passing even the most rigorous professional certifications. | 翻訳日:2023-12-19 15:46:45 公開日:2023-12-17 |
# データサブセット選択のための重み付きk中心アルゴリズム A Weighted K-Center Algorithm for Data Subset Selection ( http://arxiv.org/abs/2312.10602v1 ) ライセンス: Link先を確認 | Srikumar Ramalingam, Pranjal Awasthi, Sanjiv Kumar | (参考訳) ディープラーニングの成功は、膨大なデータと巨大なモデルに基づいており、労働集約的なアノテーションと重い計算コストを必要とする。
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす基本的な問題である。
1)不確実性の高い点の選択に焦点を当てたマージンサンプリング,(2)情報的および多様な部分集合のためのk-centerのようなコアセットやクラスタリング手法である。
これらの手法を原則的に組み合わせた作業は、私たちは知りません。
そこで本研究では,k中心および不確実性サンプリング対象関数の重み付け和に基づいてサブセットを計算するための,新しい,効率的な係数3近似アルゴリズムを開発した。
大規模データセットを扱うために,複数のマシン上で動作する並列アルゴリズムを近似保証で示す。
提案アルゴリズムは、CIFAR-10, CIFAR-100, ImageNetなどのビジョンデータセット上の他の強力なベースラインと比較して、類似またはより良い性能を実現する。 The success of deep learning hinges on enormous data and large models, which require labor-intensive annotations and heavy computation costs. Subset selection is a fundamental problem that can play a key role in identifying smaller portions of the training data, which can then be used to produce similar models as the ones trained with full data. Two prior methods are shown to achieve impressive results: (1) margin sampling that focuses on selecting points with high uncertainty, and (2) core-sets or clustering methods such as k-center for informative and diverse subsets. We are not aware of any work that combines these methods in a principled manner. To this end, we develop a novel and efficient factor 3-approximation algorithm to compute subsets based on the weighted sum of both k-center and uncertainty sampling objective functions. To handle large datasets, we show a parallel algorithm to run on multiple machines with approximation guarantees. The proposed algorithm achieves similar or better performance compared to other strong baselines on vision datasets such as CIFAR-10, CIFAR-100, and ImageNet. | 翻訳日:2023-12-19 15:46:17 公開日:2023-12-17 |
# アノテーションコストを削減する:セグメンテーションネットワークトレーニングにおける弱、雑音、SAM生成アノテーションの使用に関する実証的研究 Cut your annotation cost: An empirical study on the use of weak, noisy, and SAM-generated annotations for segmentation network training ( http://arxiv.org/abs/2312.10600v1 ) ライセンス: Link先を確認 | Yixin Zhang, Shen Zhao, Hanxue Gu, Maciej A. Mazurowski | (参考訳) ディープニューラルネットワーク(DNN)は多くのイメージセグメンテーションタスクにデプロイされ、優れたパフォーマンスを実現している。
しかし、DNNのセグメンテーションをトレーニングするためのデータセットの作成は、通常、興味のあるオブジェクトごとにピクセルレベルのアノテーションが提供されるため、面倒でコストがかかる。
この問題を軽減するために、バウンディングボックスやスクリブルのような弱いラベルしか提供できないし、オブジェクトの正確な(ノイズの多い)アノテーションも提供できない。
これらは生成が大幅に速くなり、結果として同じ時間予算でより注釈付きの画像が得られる。
しかし、品質の低下は結果モデルのセグメンテーション性能に悪影響を及ぼす可能性がある。
本研究では,弱音ラベルと雑音ラベルの費用対効果を徹底的に評価する。
11種類のアノテーション戦略と4つのデータセットを検討した。
注記時間が限られている場合(注記時間10秒)に、興味のある対象を正確にアウトラインする一般的な方法は、事実上最適なアプローチではないと結論付けている。
このようなシナリオで際立ったアノテーションアプローチは、(1)頂点がほとんどないポリゴンベースのアノテーション、(2)ボックスアノテーションとSAM(Segment Anything Model)の組み合わせである。
無制限のアノテーション時間が利用できる状況では、正確なアノテーションは最も高いセグメンテーションモデルのパフォーマンスをもたらす。 Deep neural networks (DNNs) have been deployed for many image segmentation tasks and achieved outstanding performance. However, preparing a dataset for training segmentation DNNs is laborious and costly since typically pixel-level annotations are provided for each object of interest. To alleviate this issue, one can provide only weak labels such as bounding boxes or scribbles, or less accurate (noisy) annotations of the objects. These are significantly faster to generate and thus result in more annotated images given the same time budget. However, the reduction in quality might negatively affect the segmentation performance of the resulting model. In this study, we perform a thorough cost-effectiveness evaluation of several weak and noisy labels. We considered 11 variants of annotation strategies and 4 datasets. We conclude that the common practice of accurately outlining the objects of interest is virtually never the optimal approach when the annotation time is limited, even if notable annotation time is available (10s of hours). Annotation approaches that stood out in such scenarios were (1) polygon-based annotation with few vertices, and (2) box annotations combined with the Segment Anything Model (SAM). In situations where unlimited annotation time was available, precise annotations still lead to the highest segmentation model performance. | 翻訳日:2023-12-19 15:45:58 公開日:2023-12-17 |
# NN-Steiner:rectilinear Steiner Minimum Tree問題に対する混合ニューラルネットワークアルゴリズム NN-Steiner: A Mixed Neural-algorithmic Approach for the Rectilinear Steiner Minimum Tree Problem ( http://arxiv.org/abs/2312.10589v1 ) ライセンス: Link先を確認 | Andrew B. Kahng, Robert R. Nerem, Yusu Wang, Chien-Yi Yang | (参考訳) 近年、組合せ最適化の問題を解決するためにニューラルネットワークを使うことが急速に進歩している。
それでも、与えられた最適化問題を効果的に処理できる「正しい」ニューラルモデルの設計は困難であり、しばしば結果のニューラルモデルの理論的理解や正当化は存在しない。
本稿では,ICレイアウト設計において重要な問題であるリチ線形スタイナー最小木(RSMT)問題に着目し,その結果,VLSI文学において多くのヒューリスティックなアプローチを惹きつけている。
私たちの貢献は2倍です。
本稿では,この問題を解決するために,Arora の PTAS アルゴリズムフレームワークを活用した RSMT 計算のための新しい混合ニューラルネットワークアルゴリズムフレームワークである NN-Steiner を提案する。
私たちのNN-Steinerは、AroraのPTAS内の重要なアルゴリズムコンポーネントを、適切なニューラルネットワークコンポーネントで置き換えます。
特にNN-Steinerは、アルゴリズムフレームワーク内で繰り返し呼び出される4つのニューラルネットワーク(NN)コンポーネントのみを必要とする。
重要なことに、4つのNNコンポーネントはそれぞれ、入力サイズに依存しない境界サイズでしかなく、訓練が容易である。
さらに、NNコンポーネントが一般的なアルゴリズムステップを学んでいるため、一度学習されると、結果として得られる混合ニューラルネットワークアルゴリズムフレームワークは、トレーニングで見られないはるかに大きなインスタンスに一般化される。
NN-Steinerは、私たちの知る限り、RSMT(および変種)をほぼ解く能力を持つ境界サイズの最初のニューラルネットワークアーキテクチャです。
経験的観点からは、NN-Steinerがどのように実装され、特に、最先端の手法(ニューラルベースと非ニューラルベースの両方)と比較することにより、一般化の観点から、結果のアプローチの有効性を示す。 Recent years have witnessed rapid advances in the use of neural networks to solve combinatorial optimization problems. Nevertheless, designing the "right" neural model that can effectively handle a given optimization problem can be challenging, and often there is no theoretical understanding or justification of the resulting neural model. In this paper, we focus on the rectilinear Steiner minimum tree (RSMT) problem, which is of critical importance in IC layout design and as a result has attracted numerous heuristic approaches in the VLSI literature. Our contributions are two-fold. On the methodology front, we propose NN-Steiner, which is a novel mixed neural-algorithmic framework for computing RSMTs that leverages the celebrated PTAS algorithmic framework of Arora to solve this problem (and other geometric optimization problems). Our NN-Steiner replaces key algorithmic components within Arora's PTAS by suitable neural components. In particular, NN-Steiner only needs four neural network (NN) components that are called repeatedly within an algorithmic framework. Crucially, each of the four NN components is only of bounded size independent of input size, and thus easy to train. Furthermore, as the NN component is learning a generic algorithmic step, once learned, the resulting mixed neural-algorithmic framework generalizes to much larger instances not seen in training. Our NN-Steiner, to our best knowledge, is the first neural architecture of bounded size that has capacity to approximately solve RSMT (and variants). On the empirical front, we show how NN-Steiner can be implemented and demonstrate the effectiveness of our resulting approach, especially in terms of generalization, by comparing with state-of-the-art methods (both neural or non-neural based). | 翻訳日:2023-12-19 15:45:36 公開日:2023-12-17 |
# 粗度・細度分割による再パラメータ化のためのポストトレーニング量子化 Post-Training Quantization for Re-parameterization via Coarse & Fine Weight Splitting ( http://arxiv.org/abs/2312.10588v1 ) ライセンス: Link先を確認 | Dawei Yang, Ning He, Xing Hu, Zhihang Yuan, Jiangyong Yu, Chen Xu, Zhe Jiang | (参考訳) ニューラルネットワークは様々な応用において顕著な進歩を遂げているが、かなりの計算資源とメモリ資源を必要とする。
ネットワーク量子化はニューラルネットワークを圧縮する強力な技術であり、より効率的でスケーラブルなAIデプロイメントを可能にする。
近年,様々なコンピュータビジョンタスクにおける計算負荷を軽減すると同時に,モデル性能を向上させる有望な手法として再パラメータ化が登場している。
しかし、再パラメータ化されたネットワークに量子化を適用すると、精度は大幅に低下する。
第一の課題は, 分枝全体の重量分布のばらつきから生じていることを明らかにする。
この問題に対処するために,重量の量子化誤差を低減し,活性化のための最適量子化スケールを決定するための改良klメトリックを開発した。
私たちの知る限りでは、我々のアプローチは再パラメータネットワークに適用可能なトレーニング後の量子化を可能にする最初の作業です。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
コードはhttps://github.com/NeonHo/Coarse-Fine-Weight-Split.gitにある。 Although neural networks have made remarkable advancements in various applications, they require substantial computational and memory resources. Network quantization is a powerful technique to compress neural networks, allowing for more efficient and scalable AI deployments. Recently, Re-parameterization has emerged as a promising technique to enhance model performance while simultaneously alleviating the computational burden in various computer vision tasks. However, the accuracy drops significantly when applying quantization on the re-parameterized networks. We identify that the primary challenge arises from the large variation in weight distribution across the original branches. To address this issue, we propose a coarse & fine weight splitting (CFWS) method to reduce quantization error of weight, and develop an improved KL metric to determine optimal quantization scales for activation. To the best of our knowledge, our approach is the first work that enables post-training quantization applicable on re-parameterized networks. For example, the quantized RepVGG-A1 model exhibits a mere 0.3% accuracy loss. The code is in https://github.com/NeonHo/Coarse-Fine-Weight-Split.git | 翻訳日:2023-12-19 15:45:05 公開日:2023-12-17 |
# E2E-AT:タスク対応エンドツーエンド学習における不確実性に対処するための統一フレームワーク E2E-AT: A Unified Framework for Tackling Uncertainty in Task-aware End-to-end Learning ( http://arxiv.org/abs/2312.10587v1 ) ライセンス: Link先を確認 | Wangkun Xu and Jianhong Wang and Fei Teng | (参考訳) 成功した機械学習には、データ、モデル、下流アプリケーションの完全なパイプラインが含まれる。
それらを別々に扱う代わりに、予測と最適化モデルを組み合わせるための制約付き最適化(co)と機械学習(ml)のコミュニティで注目が集まっている。
いわゆるエンドツーエンド(E2E)学習は、意思決定に使用するタスクベースの目的を捉えます。
様々なE2Eアルゴリズムが提案されているが、そのようなモデルにまつわる不確実性に体系的に対処する方法は十分に研究されていない。
既存の研究の多くは、入力空間におけるMLの不確実性を考慮し、敵の訓練を通じて堅牢性を向上させる。
同じアイデアをe2e学習に適用し、拡張整数プログラミングを解いて堅牢性証明手順があることを証明する。
さらに,訓練中にCOの不確かさを無視することが,一般化エラーの新たな引き金となることを示す。
これらすべてのコンポーネントを含めるために、MLモデルとCOの入力特徴空間に現れる不確実性をカバーする統一的なフレームワークを提案する。
このフレームワークは堅牢な最適化問題として説明され、エンドツーエンドの対角訓練(E2E-AT)によって実際に解決されている。
最後に、負荷予測や逐次スケジューリングタスクを含む実世界のエンドツーエンド電力系統運用問題により、e2e-atの性能を評価する。 Successful machine learning involves a complete pipeline of data, model, and downstream applications. Instead of treating them separately, there has been a prominent increase of attention within the constrained optimization (CO) and machine learning (ML) communities towards combining prediction and optimization models. The so-called end-to-end (E2E) learning captures the task-based objective for which they will be used for decision making. Although a large variety of E2E algorithms have been presented, it has not been fully investigated how to systematically address uncertainties involved in such models. Most of the existing work considers the uncertainties of ML in the input space and improves robustness through adversarial training. We apply the same idea to E2E learning and prove that there is a robustness certification procedure by solving augmented integer programming. Furthermore, we show that neglecting the uncertainty of COs during training causes a new trigger for generalization errors. To include all these components, we propose a unified framework that covers the uncertainties emerging in both the input feature space of the ML models and the COs. The framework is described as a robust optimization problem and is practically solved via end-to-end adversarial training (E2E-AT). Finally, the performance of E2E-AT is evaluated by a real-world end-to-end power system operation problem, including load forecasting and sequential scheduling tasks. | 翻訳日:2023-12-19 15:44:47 公開日:2023-12-17 |
# bongard-hoiにおけるラベル未確認クエリによるマイノリティ学習 Few-Shot Learning from Augmented Label-Uncertain Queries in Bongard-HOI ( http://arxiv.org/abs/2312.10586v1 ) ライセンス: Link先を確認 | Qinqian Lei, Bo Wang, Robby T. Tan | (参考訳) 数ショットで人間と物体の相互作用(HOI)を検出することは、依然として課題である。
既存のメタ学習手法では、限られたデータのために分類のための代表的特徴を抽出するのに苦労し、既存の数ショットHOIモデルは分類のためのHOIテキストラベルに依存している。
さらに、クエリイメージの中には、異なるhoiクラス間の類似のバックグラウンドなど、クラス外のものと視覚的に類似性を示すものもある。
これにより、特に限られたサンプルで学習がより困難になる。
Bongard-HOI (Jiang et al. 2022) は、このHOIの少数ショット問題を要約し、本論文で注目しているベンチマークである。
提案手法では,クエリ入力の多様性を高めるためにラベルなしのクエリ拡張手法を導入し,正のhoiクラスと負のhoiクラスを区別することを目的としている。
これらの拡張された入力は、元の入力と同じクラスラベルを持つかもしれないし、持たないかもしれないので、それらのクラスラベルは未知である。
異なるクラスに属するものは、元のものと視覚的に類似しているため、硬いサンプルとなる。
また,新しい擬似ラベル生成手法を導入することで,平均教師モデルがラベル未確認入力から学ぶことができる。
本稿では,学生モデルに対するネガティブサポートセットを充実させ,課題となる多様性を育成し,学習を促進することを提案する。
実験の結果,既存のSOTAの66.59%よりも大幅に向上したBongard-HOIベンチマークにおいて,68.74%の精度で新しいSOTA(State-of-the-art)性能が得られた。
より一般的なショット認識データセットであるHICO-FSの評価では、73.27%の精度を達成し、5-way 5-shotタスクにおいて、以前のSOTAの71.20%を上回った。 Detecting human-object interactions (HOI) in a few-shot setting remains a challenge. Existing meta-learning methods struggle to extract representative features for classification due to the limited data, while existing few-shot HOI models rely on HOI text labels for classification. Moreover, some query images may display visual similarity to those outside their class, such as similar backgrounds between different HOI classes. This makes learning more challenging, especially with limited samples. Bongard-HOI (Jiang et al. 2022) epitomizes this HOI few-shot problem, making it the benchmark we focus on in this paper. In our proposed method, we introduce novel label-uncertain query augmentation techniques to enhance the diversity of the query inputs, aiming to distinguish the positive HOI class from the negative ones. As these augmented inputs may or may not have the same class label as the original inputs, their class label is unknown. Those belonging to a different class become hard samples due to their visual similarity to the original ones. Additionally, we introduce a novel pseudo-label generation technique that enables a mean teacher model to learn from the augmented label-uncertain inputs. We propose to augment the negative support set for the student model to enrich the semantic information, fostering diversity that challenges and enhances the student's learning. Experimental results demonstrate that our method sets a new state-of-the-art (SOTA) performance by achieving 68.74% accuracy on the Bongard-HOI benchmark, a significant improvement over the existing SOTA of 66.59%. In our evaluation on HICO-FS, a more general few-shot recognition dataset, our method achieves 73.27% accuracy, outperforming the previous SOTA of 71.20% in the 5-way 5-shot task. | 翻訳日:2023-12-19 15:44:24 公開日:2023-12-17 |
# ESDMR-Net:医療画像セグメンテーションのための拡張スクイーズとデュアルマルチスケール残差接続による軽量ネットワーク ESDMR-Net: A Lightweight Network With Expand-Squeeze and Dual Multiscale Residual Connections for Medical Image Segmentation ( http://arxiv.org/abs/2312.10585v1 ) ライセンス: Link先を確認 | Tariq M Khan, Syed S. Naqvi, Erik Meijering | (参考訳) セグメンテーションは、医療画像分析を含む幅広いコンピュータビジョンアプリケーションにおいて重要なタスクである。
近年、複雑な畳み込みニューラルネットワークアーキテクチャに基づく医用画像分割アプローチの複雑さが増大している。
この進歩は、広く認識されたベンチマークデータセットのパフォーマンスの段階的な向上につながった。
しかし、既存のアプローチのほとんどは計算上必要であり、実用的適用性は制限されている。
本稿では,モバイル機器などのリソース制約のある計算ハードウェアに適した,完全畳み込み型ネットワークである拡張スケーズデュアルマルチスケール残差ネットワーク(esdmr-net)を提案する。
ESDMR-Netは、意味的に異なる特徴間のコンテキスト依存の学習を可能にする、マルチスケール機能の抽出に焦点を当てている。
ESDMR-Netアーキテクチャはエンコーダとデコーダのペア内でのデュアルストリーム情報フローを可能にする。
拡張操作(奥行き分離可能な畳み込み)は、スクイーズ操作(ボトルネック層)に利用可能なマルチスケール情報を備えたリッチな機能をすべて提供し、セグメンテーションタスクに必要な情報を抽出する。
Expand-Squeeze(ES)ブロックは、表現不足のクラスにネットワークがより多くの注意を払うのに役立つ。
複数の解像度やスケールにまたがる情報の流れを改善するために,2つのマルチスケール残差ブロック(DMR)をスキップ接続に統合した。
この統合により、デコーダは様々なレベルの抽象化から機能にアクセスでき、最終的にはより包括的な機能表現をもたらす。
5つの異なる応用例から7つのデータセットについて実験を行った。
私たちのモデルは、トレーニング可能なパラメータがかなり少なく、マグニチュードが2~3桁減ったにもかかわらず、最高の結果を得ました。 Segmentation is an important task in a wide range of computer vision applications, including medical image analysis. Recent years have seen an increase in the complexity of medical image segmentation approaches based on sophisticated convolutional neural network architectures. This progress has led to incremental enhancements in performance on widely recognised benchmark datasets. However, most of the existing approaches are computationally demanding, which limits their practical applicability. This paper presents an expand-squeeze dual multiscale residual network (ESDMR-Net), which is a fully convolutional network that is particularly well-suited for resource-constrained computing hardware such as mobile devices. ESDMR-Net focuses on extracting multiscale features, enabling the learning of contextual dependencies among semantically distinct features. The ESDMR-Net architecture allows dual-stream information flow within encoder-decoder pairs. The expansion operation (depthwise separable convolution) makes all of the rich features with multiscale information available to the squeeze operation (bottleneck layer), which then extracts the necessary information for the segmentation task. The Expand-Squeeze (ES) block helps the network pay more attention to under-represented classes, which contributes to improved segmentation accuracy. To enhance the flow of information across multiple resolutions or scales, we integrated dual multiscale residual (DMR) blocks into the skip connection. This integration enables the decoder to access features from various levels of abstraction, ultimately resulting in more comprehensive feature representations. We present experiments on seven datasets from five distinct examples of applications. Our model achieved the best results despite having significantly fewer trainable parameters, with a reduction of two or even three orders of magnitude. | 翻訳日:2023-12-19 15:43:51 公開日:2023-12-17 |
# RLHFにおける政策最適化:予測外データの影響 Policy Optimization in RLHF: The Impact of Out-of-preference Data ( http://arxiv.org/abs/2312.10584v1 ) ライセンス: Link先を確認 | Ziniu Li, Tian Xu, Yang Yu | (参考訳) 知的エージェントを人間の好みや価値観に合わせることは重要です。
本稿では、DPO(Direct Preference Optimization)とRMB-PO(Reward-Model-Based Policy Optimization)の2つの一般的なアライメント手法について検討する。
RMB-PO+とも呼ばれるRMB-POの変種も検討されている。
これらの方法は、明示的または暗黙的に、選好データから報酬モデルを学習し、ポリシー最適化に使用されるデータによって報酬モデルの一般化能力を解き放つ。
特に、DPOと比較して、RMB-POはポリシー生成データを使用し、RMB-PO+は新たな好みのないデータを活用する。
このような予測外データの影響について検討する。
制御および合成実験により実施した本研究では, DPOが低性能であるのに対し, RMB-PO+は最高性能を示した。
特に,適切な特徴表現をポリシモデルに提供しても,適切な外部参照データを用いたポリシー最適化は,報奨モデルの一般化機能を活用することで,性能を大幅に向上させることがわかった。 Aligning intelligent agents with human preferences and values is important. This paper examines two popular alignment methods: Direct Preference Optimization (DPO) and Reward-Model-Based Policy Optimization (RMB-PO). A variant of RMB-PO, referred to as RMB-PO+ is also considered. These methods, either explicitly or implicitly, learn a reward model from preference data and differ in the data used for policy optimization to unlock the generalization ability of the reward model. In particular, compared with DPO, RMB-PO additionally uses policy-generated data, and RMB-PO+ further leverages new, preference-free data. We examine the impact of such out-of-preference data. Our study, conducted through controlled and synthetic experiments, demonstrates that DPO performs poorly, whereas RMB-PO+ performs the best. In particular, even when providing the policy model with a good feature representation, we find that policy optimization with adequate out-of-preference data significantly improves performance by harnessing the reward model's generalization capabilities. | 翻訳日:2023-12-19 15:43:24 公開日:2023-12-17 |
# twitterにおけるcovid-19とmpoxに関する公開談話の感情分析とテキスト分析 Sentiment Analysis and Text Analysis of the Public Discourse on Twitter about COVID-19 and MPox ( http://arxiv.org/abs/2312.10580v1 ) ライセンス: Link先を確認 | Nirmalya Thakur | (参考訳) Mining and analysis of the big data of Twitter conversations have been of significant interest to the scientific community in the fields of healthcare, epidemiology, big data, data science, computer science, and their related areas, as can be seen from several works in the last few years that focused on sentiment analysis and other forms of text analysis of tweets related to Ebola, E-Coli, Dengue, Human Papillomavirus, Middle East Respiratory Syndrome, Measles, Zika virus, H1N1, influenza like illness, swine flu, flu, Cholera, Listeriosis, cancer, Liver Disease, Inflammatory Bowel Disease, kidney disease, lupus, Parkinsons, Diphtheria, and West Nile virus.
最近のcovid-19とmpoxの流行は、これらのウイルスの両方に関する情報、見解、意見、感情の検索と共有に関連するtwitterの利用の触媒となった。
この分野での以前の研究は、COVID-19とMPoxの両方に焦点を当てたツイートを同時に分析することはなかった。
この研究ギャップに対処するため、2022年5月7日から2023年3月3日までに、MPoxとCOVID-19を同時に対象とする合計61,862のツイートが調査された。
この研究の発見と貢献は多様体である。
まず、VADERアプローチによる感情分析の結果、約半数のツイートが否定的な感情を持つことが示された。
続いてポジティブな感情を持つツイートと、中立的な感情を持つツイートが続いた。
第2に、これらのツイートで使われる上位50のハッシュタグを紹介する。
第3に、トークン化、ストップワードの削除、単語頻度分析を行った後、これらのツイートで最も頻繁に使われる単語のトップ100を表示する。
最後に,本論文のコントリビューションと,本分野における49点の先行研究を総合的に比較し,本研究の意義と新規性をさらに裏付ける。 Mining and analysis of the big data of Twitter conversations have been of significant interest to the scientific community in the fields of healthcare, epidemiology, big data, data science, computer science, and their related areas, as can be seen from several works in the last few years that focused on sentiment analysis and other forms of text analysis of tweets related to Ebola, E-Coli, Dengue, Human Papillomavirus, Middle East Respiratory Syndrome, Measles, Zika virus, H1N1, influenza like illness, swine flu, flu, Cholera, Listeriosis, cancer, Liver Disease, Inflammatory Bowel Disease, kidney disease, lupus, Parkinsons, Diphtheria, and West Nile virus. The recent outbreaks of COVID-19 and MPox have served as catalysts for Twitter usage related to seeking and sharing information, views, opinions, and sentiments involving both of these viruses. None of the prior works in this field analyzed tweets focusing on both COVID-19 and MPox simultaneously. To address this research gap, a total of 61,862 tweets that focused on MPox and COVID-19 simultaneously, posted between 7 May 2022 and 3 March 2023, were studied. The findings and contributions of this study are manifold. First, the results of sentiment analysis using the VADER approach show that nearly half the tweets had a negative sentiment. It was followed by tweets that had a positive sentiment and tweets that had a neutral sentiment, respectively. Second, this paper presents the top 50 hashtags used in these tweets. Third, it presents the top 100 most frequently used words in these tweets after performing tokenization, removal of stopwords, and word frequency analysis. Finally, a comprehensive comparative study that compares the contributions of this paper with 49 prior works in this field is presented to further uphold the relevance and novelty of this work. | 翻訳日:2023-12-19 15:43:07 公開日:2023-12-17 |
# der-gcn:マルチモーダル対話感情認識のための対話とイベント関係認識グラフ畳み込みニューラルネットワーク DER-GCN: Dialogue and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Dialogue Emotion Recognition ( http://arxiv.org/abs/2312.10579v1 ) ライセンス: Link先を確認 | Wei Ai, Yuntao Shou, Tao Meng and Keqin Li | (参考訳) ディープラーニング(dl)の継続的な発展に伴い、マルチモーダル対話感情認識(mder)のタスクは、dlの重要な分野である広範な研究の注目を集めている。
MDERは、異なる対話シーンにおいて、テキスト、ビデオ、オーディオなど、様々なモードに含まれる感情情報を識別することを目的としている。
しかし、既存の研究は、感情に対する事象関係の影響を無視しながら、文脈的意味情報と話者間の対話関係のモデル化に焦点を当てている。
そこで本研究では,マルチモーダル感情認識(der-gcn)手法のための対話型グラフ畳み込みニューラルネットワークを提案する。
話者間の対話関係をモデル化し、潜在イベント関係情報をキャプチャする。
具体的には、対話における話者とイベントの関係の依存関係を同時にキャプチャする重み付きマルチリレーショナルグラフを構築する。
さらに,SMGAE(Self-Supervised Masked Graph Autoencoder)を導入し,特徴と構造の融合表現性を向上させる。
次に、異なる関係間の相関を捉えるための新しい多重情報変換器(MIT)を設計し、関係間の多変量情報をよりよく融合させる。
最後に,少数クラス特徴の表現学習能力を高めるために,コントラスト学習に基づく損失最適化戦略を提案する。
DER-GCNモデルの有効性を検証したIEMOCAPおよびMELDベンチマークデータセットについて広範な実験を行った。
その結果,本モデルは感情認識の平均精度とf1値の両方を著しく向上させることがわかった。 With the continuous development of deep learning (DL), the task of multimodal dialogue emotion recognition (MDER) has recently received extensive research attention, which is also an essential branch of DL. The MDER aims to identify the emotional information contained in different modalities, e.g., text, video, and audio, in different dialogue scenes. However, existing research has focused on modeling contextual semantic information and dialogue relations between speakers while ignoring the impact of event relations on emotion. To tackle the above issues, we propose a novel Dialogue and Event Relation-Aware Graph Convolutional Neural Network for Multimodal Emotion Recognition (DER-GCN) method. It models dialogue relations between speakers and captures latent event relations information. Specifically, we construct a weighted multi-relationship graph to simultaneously capture the dependencies between speakers and event relations in a dialogue. Moreover, we also introduce a Self-Supervised Masked Graph Autoencoder (SMGAE) to improve the fusion representation ability of features and structures. Next, we design a new Multiple Information Transformer (MIT) to capture the correlation between different relations, which can provide a better fuse of the multivariate information between relations. Finally, we propose a loss optimization strategy based on contrastive learning to enhance the representation learning ability of minority class features. We conduct extensive experiments on the IEMOCAP and MELD benchmark datasets, which verify the effectiveness of the DER-GCN model. The results demonstrate that our model significantly improves both the average accuracy and the f1 value of emotion recognition. | 翻訳日:2023-12-19 15:42:42 公開日:2023-12-17 |
# モデル抽出攻撃に対するサンプル再構成 SAME: Sample Reconstruction Against Model Extraction Attacks ( http://arxiv.org/abs/2312.10578v1 ) ライセンス: Link先を確認 | Yi Xie, Jie Zhang, Shiqian Zhao, Tianwei Zhang, Xiaofeng Chen | (参考訳) ディープラーニングモデルはさまざまなドメインで大きなパフォーマンスを示しているが、デプロイメントには広範なリソースと高度なコンピューティングインフラストラクチャが必要である。
ソリューションとして、MLaaS(Machine Learning as a Service)が登場し、ユーザがディープラーニングモデルをリリースまたは製品化するための障壁を低くする。
しかし、以前の研究はMLaaSに関連する潜在的なプライバシーとセキュリティ上の懸念を強調しており、主要な脅威はモデル抽出攻撃である。
これに対処するために、多くの防御ソリューションが存在するが、それらは非現実的な仮定と一般化の問題に苦しんでおり、信頼性の高い保護には実用的でない。
これらの制約を前提として,サンプル再構成の概念に基づく新しい防御機構であるhetを紹介した。
この戦略はディフェンダーの能力に最小限の前提条件を課し、補助的なout-of-Distribution(OOD)データセット、ユーザクエリ履歴、ホワイトボックスモデルアクセス、モデルトレーニング中の追加介入の必要性を排除している。
既存の防御方法と互換性がある。
我々の広範な実験は、最先端のソリューションよりもITTの優れた効果を裏付けるものである。
私たちのコードはhttps://github.com/xythink/sameで利用可能です。 While deep learning models have shown significant performance across various domains, their deployment needs extensive resources and advanced computing infrastructure. As a solution, Machine Learning as a Service (MLaaS) has emerged, lowering the barriers for users to release or productize their deep learning models. However, previous studies have highlighted potential privacy and security concerns associated with MLaaS, and one primary threat is model extraction attacks. To address this, there are many defense solutions but they suffer from unrealistic assumptions and generalization issues, making them less practical for reliable protection. Driven by these limitations, we introduce a novel defense mechanism, SAME, based on the concept of sample reconstruction. This strategy imposes minimal prerequisites on the defender's capabilities, eliminating the need for auxiliary Out-of-Distribution (OOD) datasets, user query history, white-box model access, and additional intervention during model training. It is compatible with existing active defense methods. Our extensive experiments corroborate the superior efficacy of SAME over state-of-the-art solutions. Our code is available at https://github.com/xythink/SAME. | 翻訳日:2023-12-19 15:42:14 公開日:2023-12-17 |
# クラス不均衡問題におけるランダムフォレスト変数重要度に基づく選択アルゴリズム Random Forest Variable Importance-based Selection Algorithm in Class Imbalance Problem ( http://arxiv.org/abs/2312.10573v1 ) ライセンス: Link先を確認 | Yunbi Nam and Sunwoo Han | (参考訳) Random Forestは、変数の重要度を簡単に測定する機能を含む、多くの利点を提供する機械学習手法である。
クラスバランシングテクニックは、クラス不均衡問題に対処するためのよく知られたソリューションです。
しかし、RF変数の重要性について活発に研究されていない。
本稿では,クラスバランスがRF変動重要度に及ぼす影響について検討する。
シミュレーションの結果,アンダーサンプリングは重要変数と非情報変数の区別に失敗する一方で,クラス不均衡状況における変数重要度を小サンプルサイズで正確に測定する上で有効であることが示された。
次に、RF変数の重要度とその信頼区間を利用した変数選択アルゴリズムを提案する。
多くの実データと人工データを用いた実験により,提案アルゴリズムは最適な特徴集合を効率よく選択し,クラス不均衡問題における予測性能を向上することを示した。 Random Forest is a machine learning method that offers many advantages, including the ability to easily measure variable importance. Class balancing technique is a well-known solution to deal with class imbalance problem. However, it has not been actively studied on RF variable importance. In this paper, we study the effect of class balancing on RF variable importance. Our simulation results show that over-sampling is effective in correctly measuring variable importance in class imbalanced situations with small sample size, while under-sampling fails to differentiate important and non-informative variables. We then propose a variable selection algorithm that utilizes RF variable importance and its confidence interval. Through an experimental study using many real and artificial datasets, we demonstrate that our proposed algorithm efficiently selects an optimal feature set, leading to improved prediction performance in class imbalance problem. | 翻訳日:2023-12-19 15:41:54 公開日:2023-12-17 |
# 匿名型マルチエージェントパス探索アルゴリズムの改良 Improved Anonymous Multi Agent Path Finding Algorithm ( http://arxiv.org/abs/2312.10572v1 ) ライセンス: Link先を確認 | Zain Alabedeen Ali and Konstantin Yakovlev | (参考訳) 我々は、エージェントの集合がグラフに制限され、ゴール頂点の集合が与えられ、これらの頂点のそれぞれがあるエージェントによって到達されなければならない匿名のマルチエージェントパス探索(amapf)問題を考える。
問題となるのは、エージェントへの目標の割り当てと衝突のない経路を見つけることであり、我々は最適メイスパンによる解を見つけることに興味を持っている。
この問題を解決するための確立されたアプローチは、グラフ探索問題の特別なタイプ、すなわち入力されたグラフによって誘導される補助グラフ上の最大フローを見つける問題に還元することである。
前のグラフのサイズは非常に大きくなり、検索がボトルネックになる可能性がある。
そこで本研究では,検索空間を探索するアイデアを,個別の検索状態ではなく,同時にバルク化する,特定の検索アルゴリズムを提案する。
つまり、検索状態の大部分を単一の状態として暗黙的に圧縮し、保存し、拡張することで、ランタイムとメモリの大幅な削減を実現します。
実証的に、結果のAMAPFソルバは最先端の競合と比較して優れたパフォーマンスを示し、よく知られた movingAIベンチマークから利用可能なMAPFインスタンスを30秒未満で解決することができる。 We consider an Anonymous Multi-Agent Path-Finding (AMAPF) problem where the set of agents is confined to a graph, a set of goal vertices is given and each of these vertices has to be reached by some agent. The problem is to find an assignment of the goals to the agents as well as the collision-free paths, and we are interested in finding the solution with the optimal makespan. A well-established approach to solve this problem is to reduce it to a special type of a graph search problem, i.e. to the problem of finding a maximum flow on an auxiliary graph induced by the input one. The size of the former graph may be very large and the search on it may become a bottleneck. To this end, we suggest a specific search algorithm that leverages the idea of exploring the search space not through considering separate search states but rather bulks of them simultaneously. That is, we implicitly compress, store and expand bulks of the search states as single states, which results in high reduction in runtime and memory. Empirically, the resultant AMAPF solver demonstrates superior performance compared to the state-of-the-art competitor and is able to solve all publicly available MAPF instances from the well-known MovingAI benchmark in less than 30 seconds. | 翻訳日:2023-12-19 15:41:39 公開日:2023-12-17 |
# ロボット組立のためのマルチレベル推論:シーケンス推論から接触選択まで Multi-level Reasoning for Robotic Assembly: From Sequence Inference to Contact Selection ( http://arxiv.org/abs/2312.10571v1 ) ライセンス: Link先を確認 | Xinghao Zhu, Devesh K. Jha, Diego Romeres, Lingfeng Sun, Masayoshi Tomizuka, Anoop Cherian | (参考訳) 部品からオブジェクトの組み立てを自動化することは、製造、保守、リサイクルにおける無数の応用において複雑な問題である。
対象のセグメンテーション,ポーズレグレッション,あるいは固定対象の青写真の使用に限定した既存研究とは異なり,本研究は,部品組立シーケンス推論,部品動作計画,ロボット接触最適化からなる部品組立計画のための総合的多段階フレームワークを提案する。
対象の青写真から再帰的にアセンブリシーケンスを推測するために、part assembly sequence transformer (past) -- sequence-to-sequence neural network -- を提案する。
次に、モーションプランナーと最適化を使用して、部品の動きと接触を生成する。
PASTのトレーニングにはD4PAS(D4PAS: Large-scale Dataset for Part Assembly Sequences, D4PAS)を導入する。
実験の結果,提案手法は従来の手法よりも一般化し,計算時間を大幅に削減できることがわかった。 Automating the assembly of objects from their parts is a complex problem with innumerable applications in manufacturing, maintenance, and recycling. Unlike existing research, which is limited to target segmentation, pose regression, or using fixed target blueprints, our work presents a holistic multi-level framework for part assembly planning consisting of part assembly sequence inference, part motion planning, and robot contact optimization. We present the Part Assembly Sequence Transformer (PAST) -- a sequence-to-sequence neural network -- to infer assembly sequences recursively from a target blueprint. We then use a motion planner and optimization to generate part movements and contacts. To train PAST, we introduce D4PAS: a large-scale Dataset for Part Assembly Sequences (D4PAS) consisting of physically valid sequences for industrial objects. Experimental results show that our approach generalizes better than prior methods while needing significantly less computational time for inference. | 翻訳日:2023-12-19 15:41:17 公開日:2023-12-17 |
# データ駆動要求エンジニアリングのためにオフラインA/Bテストは自動化できるか? Can Offline A/B Testing Be Automated for Data-Driven Requirement Engineering? ( http://arxiv.org/abs/2312.10624v1 ) ライセンス: Link先を確認 | Jie JW Wu | (参考訳) オンラインA/Bテストは、ソフトウェア企業がユーザグループに提供し、修正されていない製品と比較することによって、新しいテクノロジの影響を評価するために広く利用されている。
しかし、オンラインA/Bテストを実行するには、設計、実装、ステークホルダーの承認が本番環境で提供されるだけでなく、イテレーションでデータを収集する数週間もかかる。
これらの問題に対処するため、最近の話題である‘textit{offline A/B testing} が注目されている。
このアプローチは、実装の労力が減り、ターンアラウンド時間が短縮され、潜在的なユーザ被害がないため、現実的な要件として効果的に優先順位付けする必要があるが、オンラインA/Bテスト結果との相違、新しいデータの体系的な更新の欠如など、いくつかの制限に対処する必要がある。
そこで本稿では,近年のログに対するオフラインa/bテストの変種の自動実行と,要件の信頼性と体系的決定に使用されるオフライン評価結果の更新を行うautooffabを提案する。 Online A/B testing has been widely used by software companies to evaluate the impact of new technologies by offering it to a groups of users and comparing against the unmodified product. However, running online A/B testing needs not only efforts in design, implementation and stakeholders' approval to be served in production, but also several weeks to collect the data in iterations. To address these issues, a recent emerging topic, called \textit{offline A/B testing}, is getting increasing attention, with the goal to conduct offline evaluation of a new technology by estimating historical logged data. Although this approach is promising due to lower implementation effort, faster turnaround time and no potential user harm, for it to be effectively prioritized as requirements in practice, several limitations need to be addressed, including its discrepancy with online A/B test results, and lack of systematic updates on new data. In response, in this vision paper, we introduce AutoOffAB, an idea to automatically runs variants of offline A/B testing against recent logging and update the offline evaluation results, which are used to make decisions on requirements more reliably and systematically. | 翻訳日:2023-12-19 15:35:05 公開日:2023-12-17 |
# クエリベースのAPIレコメンデーションに関する調査 A Survey on Query-based API Recommendation ( http://arxiv.org/abs/2312.10623v1 ) ライセンス: Link先を確認 | Moshi Wei, Nima Shiri Harzevili, Alvine Boaye Belle, Junjie Wang, Lin Shi, Song Wang, Zhen Ming Jiang | (参考訳) アプリケーションプログラミングインタフェース(API)は、開発者がより効率的にソフトウェアを構築するのを助けるように設計されている。
近年,特定のタスクに対する適切なAPIの再推奨が研究者や開発者の間で注目を集めている。
この研究領域を包括的に理解するため,過去10年間に公開されたAPIレコメンデーション研究を分析した。
私たちの研究は、apiレコメンデーションツールの構造の概要から始まります。
その後,先行研究を体系的に分析し,4つの重要な研究課題を提起する。
RQ1では,これらの論文がAPIレコメンデーション分野に出現する論文の量と会場について検討する。
RQ2では、APIレコメンデーション研究で使われる一般的なデータソースとコレクションメソッドを分類し、まとめる。
RQ3では、APIレコメンデーションアプローチが利用するデータの種類と共通データ表現について検討する。
また,既存の手法による典型的なデータ抽出手法と収集手法についても検討する。
RQ4は、統計モデルとディープラーニングモデルの両方を含む、APIレコメンデーションアプローチが採用するモデリングテクニックを掘り下げている。
さらに,apiレコメンデーションツールの評価に使用される,一般的なランキング戦略と評価指標の概要をまとめる。
調査結果から,さらなる探索を保証し,今後の研究の道筋を示すため,APIレコメンデーション研究における現在の課題を特定した。 Application Programming Interfaces (APIs) are designed to help developers build software more effectively. Recommending the right APIs for specific tasks has gained increasing attention among researchers and developers in recent years. To comprehensively understand this research domain, we have surveyed to analyze API recommendation studies published in the last 10 years. Our study begins with an overview of the structure of API recommendation tools. Subsequently, we systematically analyze prior research and pose four key research questions. For RQ1, we examine the volume of published papers and the venues in which these papers appear within the API recommendation field. In RQ2, we categorize and summarize the prevalent data sources and collection methods employed in API recommendation research. In RQ3, we explore the types of data and common data representations utilized by API recommendation approaches. We also investigate the typical data extraction procedures and collection approaches employed by the existing approaches. RQ4 delves into the modeling techniques employed by API recommendation approaches, encompassing both statistical and deep learning models. Additionally, we compile an overview of the prevalent ranking strategies and evaluation metrics used for assessing API recommendation tools. Drawing from our survey findings, we identify current challenges in API recommendation research that warrant further exploration, along with potential avenues for future research. | 翻訳日:2023-12-19 15:34:13 公開日:2023-12-17 |
# 生成AIを用いた単体テスト生成 : 自動生成ツールの比較性能解析 Unit Test Generation using Generative AI : A Comparative Performance Analysis of Autogeneration Tools ( http://arxiv.org/abs/2312.10622v1 ) ライセンス: Link先を確認 | Shreya Bhatia, Tarushi Gandhi, Dhruv Kumar, Pankaj Jalote | (参考訳) ユニットテストの生成は、ソフトウェア開発において重要なタスクであり、プログラマにかなりの時間と労力を要求する。
LLM(Large Language Models)の出現は、単体テストスクリプト生成のための新しい道を導入する。
本研究では,Python プログラムの単体テストスクリプト生成における LLM の有効性と,既存の単体テストジェネレータ (Pynguin) が生成した単体テストジェネレータ (Pynguin) との比較を実験的に検討することを目的とする。
実験では、3種類のコードユニットを検討します。
1)手続き書,
2)関数ベースのモジュラコード,及び
3) クラスベースのコード。
生成されたテストケースは、カバレッジ、正確性、可読性などの基準に基づいて評価される。
以上の結果から,ChatGPTの性能はPynguinに匹敵することがわかった。
同時に、chatgptがテストを生成する能力は、カテゴリ1のテストケースを生成することができないため、pynguinよりも優れている。
また,カテゴリー2とカテゴリー3に対してchatgptが生成したアサーションの約39%と28%が誤りであることがわかった。
また,chatgpt と pynguin の文の重複は最小であり,これらのツールの組み合わせによってユニットテスト生成性能が向上する可能性が示唆された。
最後に、プロンプトエンジニアリングはchatgptのパフォーマンスを改善し、カテゴリ2で平均28%、カテゴリー3で約4回のイテレーションで15%改善した。 Generating unit tests is a crucial task in software development, demanding substantial time and effort from programmers. The advent of Large Language Models (LLMs) introduces a novel avenue for unit test script generation. This research aims to experimentally investigate the effectiveness of LLMs, specifically exemplified by ChatGPT, for generating unit test scripts for Python programs, and how the generated test cases compare with those generated by an existing unit test generator (Pynguin). For experiments, we consider three types of code units: 1) Procedural scripts, 2) Function-based modular code, and 3) Class-based code. The generated test cases are evaluated based on criteria such as coverage, correctness, and readability. Our results show that ChatGPT's performance is comparable with Pynguin in terms of coverage. At the same time, ChatGPT's ability to generate tests is superior to Pynguin, as the latter is not able to generate test cases for Category 1. We also find that about 39% and 28% of assertions generated by ChatGPT for Category 2 and 3, respectively, were incorrect. Our results also show that there is minimal overlap in missed statements between ChatGPT and Pynguin, thus, suggesting that a combination of both tools may enhance unit test generation performance. Finally, prompt engineering improved ChatGPT's performance, achieving an average 28% coverage improvement in Category 2 and 15% improvement in Category 3 after about 4 iterations. | 翻訳日:2023-12-19 15:33:54 公開日:2023-12-17 |
# ソフトウェアエンジニアリングにおけるヒューマンAIコラボレーション - 手動ワークショップから学んだ教訓 Human AI Collaboration in Software Engineering: Lessons Learned from a Hands On Workshop ( http://arxiv.org/abs/2312.10620v1 ) ライセンス: Link先を確認 | Muhammad Hamza, Dominik Siemon, Muhammad Azeem Akbar, Tahsinur Rahman | (参考訳) 本稿では,ソフトウェア工学におけるヒューマンaiコラボレーションのダイナミクスを,chatgptの利用に焦点をあてて検討する。
ワークショップのテーマ分析を通じて,22人のプロソフトウェアエンジニアがchatgptと3時間コラボレーションし,aiの単なるツールからコラボレーションパートナへの移行について検討した。
この研究は、人間のAIインタラクションの進化する性質、ソフトウェアエンジニアリングタスクにおけるAIの能力、この領域にAIを統合することの課題と制限など、重要なテーマを特定している。
この結果は、AI、特にChatGPTがコード生成と最適化の効率を改善する一方で、特に複雑な問題解決とセキュリティ上の考慮を必要とする領域において、人間の監視は依然として重要であることを示している。
この研究は、ソフトウェア工学におけるヒューマンAIコラボレーションの理論的理解に貢献し、AIツールを開発プロセスに効果的に統合するための実践的な洞察を提供する。
ソフトウェアエンジニアリングにおけるAIの潜在能力を実現するために、明確な役割割り当て、効果的なコミュニケーション、バランスの取れたAIヒューマンコラボレーションの必要性を強調します。 This paper investigates the dynamics of human AI collaboration in software engineering, focusing on the use of ChatGPT. Through a thematic analysis of a hands on workshop in which 22 professional software engineers collaborated for three hours with ChatGPT, we explore the transition of AI from a mere tool to a collaborative partner. The study identifies key themes such as the evolving nature of human AI interaction, the capabilities of AI in software engineering tasks, and the challenges and limitations of integrating AI in this domain. The findings show that while AI, particularly ChatGPT, improves the efficiency of code generation and optimization, human oversight remains crucial, especially in areas requiring complex problem solving and security considerations. This research contributes to the theoretical understanding of human AI collaboration in software engineering and provides practical insights for effectively integrating AI tools into development processes. It highlights the need for clear role allocation, effective communication, and balanced AI human collaboration to realize the full potential of AI in software engineering. | 翻訳日:2023-12-19 15:33:27 公開日:2023-12-17 |
# srfe12o19における非古典指数と磁気二誘電カップリングを有する多ガラス相による共役量子常電状態の証拠 Evidence for reentrant quantum paraelectric state preceded by a multiglass phase with non-classical exponent and magnetodielectric coupling in SrFe12O19 ( http://arxiv.org/abs/2312.10619v1 ) ライセンス: Link先を確認 | Keshav Kumar and Dhananjai Pandey | (参考訳) SrFe12O19の量子臨界状態における非古典的な指数を持つ双極子ガラス(DG)相に先行する再入射量子常電(QPE)状態の証拠を示す。
DG遷移にはスピンガラス(SG)遷移と2つの異なる順序パラメータ場の2重結合の存在が伴うことが示されている。
さらに、DGおよびSG遷移のエルゴード対称性の破断温度は+/-1Kの範囲内で(TDG〜TSG)一致し、SrFe12O19は正準多ガラス状態を示す。
双極子ガラス状態の安定性は磁場(h)による凍結温度の増加によって証明されるように磁気的に向上する。
一方、再入射QPE状態は、誘電率の温度依存性における別の周波数依存性ピーク(おそらくはDG相)に一定のHで遷移する。
この相の遷移温度は、高温のdg遷移とは異なり一定周波数の磁場の増加とともに低下する。
これにより、このシステム内の量子臨界点(QCP)を、現在の研究よりも高い磁場で見つけることが可能となる。
これらの結果は、マルチフェロティック遷移の量子臨界モデルに照らして議論される。
以上の結果から,マルチグラス系におけるマルチフェロティック量子臨界性に特有な理論研究の必要性が浮き彫りになった。 Evidence for a re-entrant quantum paraelectric (QPE) state preceded by a dipole glass (DG) phase with a non-classical exponent in the quantum critical regime of SrFe12O19 is presented. It is shown that the DG transition is accompanied with a spin glass (SG) transition and presence of a biquadratic coupling of two diverse order parameter fields. Further, the ergodic symmetry breaking temperatures for the DG and SG transitions coincide (TDG ~ TSG) within +/- 1K suggesting that SrFe12O19 exhibits a canonical multiglass state. The stability of the dipole glass state is enhanced magnetically as evidenced by the increase in the freezing temperature with magnetic field (H). The re-entrant QPE state, on the other hand, is found to give way to another frequency dependent peak in the temperature dependence of dielectric constant, most likely a DG phase, at a constant H. Further, this transition is not linked to any magnetic transition in sharp contrast to the higher temperature multiglass transition. The transition temperature of this phase decreases with increasing magnetic field for a fixed frequency unlike the higher temperature DG transition. This raises the possibility of locating a quantum critical point (QCP) in this system at higher magnetic fields than that used in the present work. These results are discussed in the light of quantum critical models of multiferroic transitions. Our results highlight the need for more theoretical studies specific to multiferroic quantum criticality in a multiglass system. | 翻訳日:2023-12-19 15:33:10 公開日:2023-12-17 |
# 重み付きサポートベクトルマシンを用いたスパース学習とクラス確率推定 Sparse Learning and Class Probability Estimation with Weighted Support Vector Machines ( http://arxiv.org/abs/2312.10618v1 ) ライセンス: Link先を確認 | Liyun Zeng and Hao Helen Zhang | (参考訳) 分類と確率推定は、生物学、医学、工学、コンピュータ科学を含む現代の機械学習やデータサイエンスの応用に広く応用されている。
重み付きサポートベクトルマシン(wSVM)の最近の開発は、クラス確率を頑健に予測し、様々な問題を高精度に分類する上で大きな価値を示している。
現在のフレームワークは$\ell^2$-norm正規化されたバイナリwsvms最適化問題に基づいている。
スパース学習プロセスでは、ペアの条件付き確率を正確に推定するために、各バイナリwSVMに対する重要な変数のプレスクリーンが必要である。
本稿では,スパース学習問題に対する精度の高い確率推定と自動変数選択を組み込んだ新しいwSVMフレームワークを提案する。
我々は,$\ell^1$-normあるいは弾性ネット正規化バイナリwSVMの最適化問題を解くための効率的な変数選択アルゴリズムを開発した。
バイナリクラスの確率は、選択された変数を持つ$\ell^2$-norm正規化wsvmsフレームワークか、直接elastic net正規化wsvmsによって見積もられる。
2段階の $\ell^1$-norm と $\ell^2$-norm wSVM のアプローチは、最も効率的な時間で自動変数選択と信頼性確率推定の両方において大きな利点を示す。
弾性ネット正規化wSVMは、高次元問題に対するより計算時間を補償する変数グループ化の利点を付加して、変数選択と確率推定の点で最高の性能を提供する。
提案したwSVMsベースのスパース学習手法は幅広い応用があり、アンサンブル学習によりさらに$K$クラスに拡張できる。 Classification and probability estimation have broad applications in modern machine learning and data science applications, including biology, medicine, engineering, and computer science. The recent development of a class of weighted Support Vector Machines (wSVMs) has shown great values in robustly predicting the class probability and classification for various problems with high accuracy. The current framework is based on the $\ell^2$-norm regularized binary wSVMs optimization problem, which only works with dense features and has poor performance at sparse features with redundant noise in most real applications. The sparse learning process requires a prescreen of the important variables for each binary wSVMs for accurately estimating pairwise conditional probability. In this paper, we proposed novel wSVMs frameworks that incorporate automatic variable selection with accurate probability estimation for sparse learning problems. We developed efficient algorithms for effective variable selection for solving either the $\ell^1$-norm or elastic net regularized binary wSVMs optimization problems. The binary class probability is then estimated either by the $\ell^2$-norm regularized wSVMs framework with selected variables or by elastic net regularized wSVMs directly. The two-step approach of $\ell^1$-norm followed by $\ell^2$-norm wSVMs show a great advantage in both automatic variable selection and reliable probability estimators with the most efficient time. The elastic net regularized wSVMs offer the best performance in terms of variable selection and probability estimation with the additional advantage of variable grouping in the compensation of more computation time for high dimensional problems. The proposed wSVMs-based sparse learning methods have wide applications and can be further extended to $K$-class problems through ensemble learning. | 翻訳日:2023-12-19 15:32:48 公開日:2023-12-17 |
# AI生成抽象化の言語特性を深く掘り下げる Deep dive into language traits of AI-generated Abstracts ( http://arxiv.org/abs/2312.10617v1 ) ライセンス: Link先を確認 | Vikas Kumar, Amisha Bharti, Devanshu Verma, Vasudha Bhatnagar | (参考訳) chatgptのような生成言語モデルは、学術研究を含む様々な分野で人間のような文章を生成する能力に注目を集めている。
生成テキストの急速な普及により、情報の透明性と信頼を維持するための自動識別の必要性が高まっている。
しかし、これらの生成したテキストは人間の文章と密接に似ており、しばしば文法構造、音色、パターンに微妙な違いがあるため、体系的な精査が難しい。
本研究では,ChatGPTが生成する抽象概念を,長さとバウンドがはるかに短い方法で検出する。
テキストのセマンティクスと語彙特性を抽出し、従来の機械学習モデルがこれらの抽象を自信を持って検出できることを観察します。 Generative language models, such as ChatGPT, have garnered attention for their ability to generate human-like writing in various fields, including academic research. The rapid proliferation of generated texts has bolstered the need for automatic identification to uphold transparency and trust in the information. However, these generated texts closely resemble human writing and often have subtle differences in the grammatical structure, tones, and patterns, which makes systematic scrutinization challenging. In this work, we attempt to detect the Abstracts generated by ChatGPT, which are much shorter in length and bounded. We extract the texts semantic and lexical properties and observe that traditional machine learning models can confidently detect these Abstracts. | 翻訳日:2023-12-19 15:32:17 公開日:2023-12-17 |
# distilvpr : 視覚位置認識のためのクロスモーダル知識蒸留 DistilVPR: Cross-Modal Knowledge Distillation for Visual Place Recognition ( http://arxiv.org/abs/2312.10616v1 ) ライセンス: Link先を確認 | Sijie Wang, Rui She, Qiyu Kang, Xingchao Jian, Kai Zhao, Yang Song, Wee Peng Tay | (参考訳) 視覚的位置認識(VPR)におけるマルチモーダルセンサデータの利用は,単一モーダルセンサに比べて高い性能を示した。
それでも、追加のセンサーの統合はコストの増大を伴うため、軽量な運用を必要とするシステムでは実現不可能であり、vprの実用的な展開に影響を与える可能性がある。
この問題に対処するために,単モードの学生が推論中に追加のセンサーを導入することなく,クロスモーダルの教師から学ぶことができる知識蒸留を利用する。
現在の蒸留アプローチによる顕著な進歩にもかかわらず、特徴関係の探求は未開発の領域である。
VPRにおけるクロスモーダル蒸留の課題に対処するために,新しいVPR蒸留パイプラインであるDistilVPRを提案する。
本稿では,教師と学生のニューラルネットワークにおいて,自己エージェントやクロスエージェントを含む複数のエージェントの機能的関係を活用することを提案する。
さらに、特徴関係を探索するための異なる空間曲率によって特徴づけられる様々な多様体を統合する。
このアプローチはユークリッド、球状、双曲的関係加群を含む特徴関係の多様性を高め、全体的な表現能力を高める。
実験により,提案パイプラインは他の蒸留基線と比較して最先端の性能が得られることを確認した。
また,設計効果を示すためのアブレーション研究も行う。
コードは、https://github.com/sijieaaa/DistilVPRでリリースされる。 The utilization of multi-modal sensor data in visual place recognition (VPR) has demonstrated enhanced performance compared to single-modal counterparts. Nonetheless, integrating additional sensors comes with elevated costs and may not be feasible for systems that demand lightweight operation, thereby impacting the practical deployment of VPR. To address this issue, we resort to knowledge distillation, which empowers single-modal students to learn from cross-modal teachers without introducing additional sensors during inference. Despite the notable advancements achieved by current distillation approaches, the exploration of feature relationships remains an under-explored area. In order to tackle the challenge of cross-modal distillation in VPR, we present DistilVPR, a novel distillation pipeline for VPR. We propose leveraging feature relationships from multiple agents, including self-agents and cross-agents for teacher and student neural networks. Furthermore, we integrate various manifolds, characterized by different space curvatures for exploring feature relationships. This approach enhances the diversity of feature relationships, including Euclidean, spherical, and hyperbolic relationship modules, thereby enhancing the overall representational capacity. The experiments demonstrate that our proposed pipeline achieves state-of-the-art performance compared to other distillation baselines. We also conduct necessary ablation studies to show design effectiveness. The code is released at: https://github.com/sijieaaa/DistilVPR | 翻訳日:2023-12-19 15:32:04 公開日:2023-12-17 |
# 生成的事前訓練された視覚言語モデルに対するp-ラプラシアン適応 p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models ( http://arxiv.org/abs/2312.10613v1 ) ライセンス: Link先を確認 | Haoyuan Wu, Xinyun Zhang, Peng Xu, Peiyu Liao, Xufeng Yao, Bei Yu | (参考訳) 大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
プレトレーニングVLMのサイズが急速に大きくなる中、パラメータ効率変換学習(PETL)は完全な微調整の代替手段として注目されている。
そのようなアプローチのひとつにアダプタがあり、トレーニング可能なパラメータを事前トレーニングしたモデルに導入しながら、適応時に元のパラメータを保存できる。
本稿では,アテンショングラフ上のグラフメッセージパッシングプロセスとして,アテンショングラフ上でアテンション後のアテンションチューニングを再キャストする新しいモデリングフレームワークを提案する。
このフレームワーク内では、VLMのチューニングアダプタは、予測クエリと値空間の相違のため、異種グラフを扱う必要がある。
この課題に対処するために,グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
具体的には,特徴量に基づいて注目重みが再正規化され,キャリブレーションされた注目行列を用いて特徴量を集約し,異種注目グラフの様々な周波数を持つ情報の動的利用を可能にする。
我々は,視覚的質問応答,視覚的エンターテイメント,画像キャプションなど,様々な訓練済みのVLMとマルチモーダルタスクについて広範な実験を行った。
実験の結果,他のpetl法と比較して,本法が有意な優越性を示した。 Vision-Language models (VLMs) pre-trained on large corpora have demonstrated notable success across a range of downstream tasks. In light of the rapidly increasing size of pre-trained VLMs, parameter-efficient transfer learning (PETL) has garnered attention as a viable alternative to full fine-tuning. One such approach is the adapter, which introduces a few trainable parameters into the pre-trained models while preserving the original parameters during adaptation. In this paper, we present a novel modeling framework that recasts adapter tuning after attention as a graph message passing process on attention graphs, where the projected query and value features and attention matrix constitute the node features and the graph adjacency matrix, respectively. Within this framework, tuning adapters in VLMs necessitates handling heterophilic graphs, owing to the disparity between the projected query and value space. To address this challenge, we propose a new adapter architecture, $p$-adapter, which employs $p$-Laplacian message passing in Graph Neural Networks (GNNs). Specifically, the attention weights are re-normalized based on the features, and the features are then aggregated using the calibrated attention matrix, enabling the dynamic exploitation of information with varying frequencies in the heterophilic attention graphs. We conduct extensive experiments on different pre-trained VLMs and multi-modal tasks, including visual question answering, visual entailment, and image captioning. The experimental results validate our method's significant superiority over other PETL methods. | 翻訳日:2023-12-19 15:31:42 公開日:2023-12-17 |
# マルチモーダルトラッキング用双方向アダプタ Bi-directional Adapter for Multi-modal Tracking ( http://arxiv.org/abs/2312.10611v1 ) ライセンス: Link先を確認 | Bing Cao, Junliang Guo, Pengfei Zhu, Qinghua Hu | (参考訳) コンピュータビジョンの急速な発展により、近年、シングルモーダル(RGB)オブジェクトトラッキングは大きな進歩を遂げている。
単一撮像センサの限界を考慮したマルチモーダル画像(rgb、赤外線等)を導入し、複雑な環境における全天候物体追跡におけるこの不足を補う。
しかし,マルチモーダル追跡データを取得することは,オープン環境において支配的なモダリティが変化する一方で難しいため,既存の手法の多くは,マルチモーダル補完情報を動的に抽出することができず,不満足な追跡性能が得られる。
この問題に対処するために,汎用双方向アダプタに基づくマルチモーダルビジュアルプロンプトトラッキングモデルを提案する。
本モデルは,汎用双方向アダプタと共有パラメータを持つマルチモダリティ固有トランスエンコーダブランチから構成される。
エンコーダは凍結事前学習基礎モデルを用いて各モードの特徴を別々に抽出する。
我々は,1つのモダリティから別のモダリティへモダリティ特有の情報を転送し,適応的に視覚特徴プロンプト融合を行う,単純かつ効果的な光機能アダプタを開発した。
トレーニング可能なパラメータを0.32Mに減らすことで,完全微調整法と素早い学習法の両方と比較して優れた追跡性能が得られる。
コードはhttps://github.com/sparktempest/bat.com/。 Due to the rapid development of computer vision, single-modal (RGB) object tracking has made significant progress in recent years. Considering the limitation of single imaging sensor, multi-modal images (RGB, Infrared, etc.) are introduced to compensate for this deficiency for all-weather object tracking in complex environments. However, as acquiring sufficient multi-modal tracking data is hard while the dominant modality changes with the open environment, most existing techniques fail to extract multi-modal complementary information dynamically, yielding unsatisfactory tracking performance. To handle this problem, we propose a novel multi-modal visual prompt tracking model based on a universal bi-directional adapter, cross-prompting multiple modalities mutually. Our model consists of a universal bi-directional adapter and multiple modality-specific transformer encoder branches with sharing parameters. The encoders extract features of each modality separately by using a frozen pre-trained foundation model. We develop a simple but effective light feature adapter to transfer modality-specific information from one modality to another, performing visual feature prompt fusion in an adaptive manner. With adding fewer (0.32M) trainable parameters, our model achieves superior tracking performance in comparison with both the full fine-tuning methods and the prompt learning-based methods. Our code is available: https://github.com/SparkTempest/BAT. | 翻訳日:2023-12-19 15:31:13 公開日:2023-12-17 |
# LLMはチャートで機能するのか?
チャート質問応答と要約のための短いショットプロンプトの設計 Do LLMs Work on Charts? Designing Few-Shot Prompts for Chart Question Answering and Summarization ( http://arxiv.org/abs/2312.10610v1 ) ライセンス: Link先を確認 | Xuan Long Do, Mohammad Hassanpour, Ahmed Masry, Parsa Kavehzadeh, Enamul Hoque, Shafiq Joty | (参考訳) 近年,チャートQAや要約などのチャートへのアクセスを容易にするために,いくつかのタスクが提案されている。
これらのタスクを解決するための主要なパラダイムは、タスクデータに事前訓練されたモデルを微調整することであった。
しかし、このアプローチは高価であるばかりでなく、見当たらないタスクにも一般化できない。
一方,大規模言語モデル(llm)では,ゼロショットあるいは少数ショットプロンプトによる非認識タスクの一般化が印象的である。
しかし、これらのタスクは一般的に、基礎となるデータだけでなく、チャート画像の視覚的特徴も考慮するので、チャート関連タスクへの適用は簡単ではない。
本稿では,チャート関連アプリケーションのための LLM を用いたマルチモーダルな複数ショットプロンプトフレームワーク PromptChart を提案する。
タスクを慎重に分析することで、LLMから最高の数ショットパフォーマンスを引き出すために、各タスクに対して一連のプロンプトガイドラインを考案した。
さらに,視覚情報をプロンプトに注入する手法を提案する。
3つの異なるチャート関連情報消費タスクに関する実験により、適切に設計されたプロンプトにより、LLMはベンチマークに優れ、最先端の達成を達成できることを示す。 A number of tasks have been proposed recently to facilitate easy access to charts such as chart QA and summarization. The dominant paradigm to solve these tasks has been to fine-tune a pretrained model on the task data. However, this approach is not only expensive but also not generalizable to unseen tasks. On the other hand, large language models (LLMs) have shown impressive generalization capabilities to unseen tasks with zero- or few-shot prompting. However, their application to chart-related tasks is not trivial as these tasks typically involve considering not only the underlying data but also the visual features in the chart image. We propose PromptChart, a multimodal few-shot prompting framework with LLMs for chart-related applications. By analyzing the tasks carefully, we have come up with a set of prompting guidelines for each task to elicit the best few-shot performance from LLMs. We further propose a strategy to inject visual information into the prompts. Our experiments on three different chart-related information consumption tasks show that with properly designed prompts LLMs can excel on the benchmarks, achieving state-of-the-art. | 翻訳日:2023-12-19 15:30:49 公開日:2023-12-17 |
# 2軸干渉量子における散逸安定性と動的相転移 Dissipative Stability and Dynamical Phase Transition in Two Driven Interacting Qubits ( http://arxiv.org/abs/2312.10609v1 ) ライセンス: Link先を確認 | Kirill Shulga | (参考訳) マルコフ浴と相互作用しながら, 時間周期外界の影響を受ける2量子系について検討した。
このシナリオはシステムの時間的コヒーレンス特性に大きな影響を及ぼす。
密度行列演算子の進化方程式を解くことにより、特性平衡時間を決定し、エンタングルメントを定量化するための重要な指標である収束パラメータを解析する。
その結果,システムの動的相転移をナビゲートする能力が明らかになった。
これらの結果は、現実的な環境との相互作用条件下で頑健な絡み合いを示す相互作用量子ビットのシステムを設計する方法を舗装する。 We examine a two-qubit system influenced by a time-periodic external field while interacting with a Markovian bath. This scenario significantly impacts the temporal coherence characteristics of the system. By solving the evolution equation for the density matrix operator, we determine the characteristic equilibration time and analyze the concurrence parameter - a key metric for quantifying entanglement. Our findings reveal the system's ability to navigate through a dynamic phase transition. These results pave the way to designing systems of interacting qubits demonstrating robust entanglement under realistic conditions of interaction with the environment. | 翻訳日:2023-12-19 15:30:33 公開日:2023-12-17 |
# 形状を考慮したロバスト3次元トラッキング Robust 3D Tracking with Quality-Aware Shape Completion ( http://arxiv.org/abs/2312.10608v1 ) ライセンス: Link先を確認 | Jingwen Zhang, Zikun Zhou, Guangming Lu, Jiandong Tian, Wenjie Pei | (参考訳) 3Dオブジェクト追跡は、点雲の空間性と不完全性のため、依然として難しい問題である。
既存のアルゴリズムは、2つの戦略で課題に対処しようとする。
最初の戦略は、捕獲されたスパースポイント雲に基づいて密度の高い幾何学的特徴を学ぶことである。
それにもかかわらず、学習された密集した幾何学的特徴は対象物体の形状を描写する上で不確実性が高いため、かなりの作業である。
もう1つの戦略は、複数のテンプレートのばらばらな幾何学的特徴を集約して形状情報を豊かにすることだ。
しかし、粗い形状表現を集約しても正確な形状表現は得られない。
2Dピクセルとは異なり、異なるフレームの3Dポイントは座標変換、すなわち形状完備化によって直接融合することができる。
そこで本研究では,高密度および完全点の雲からなる合成対象表現を,頑健な3次元追跡のための形状完備化により正確に表現することを提案する。
具体的には, 形状完了を伴うボクセル化3次元トラッキングフレームワークの設計を行い, 騒音の履歴予測の悪影響を緩和する品質認識型形状完了機構を提案する。
これにより、合成対象表現を効果的に構築し、活用することができる。
また,トラッキング性能を向上させるために,ボクセル化関係モデリングモジュールとボックスリファインメントモジュールも開発した。
3つのベンチマークにおける最先端アルゴリズムに対する良好な性能は,提案手法の有効性と一般化能力を示している。 3D single object tracking remains a challenging problem due to the sparsity and incompleteness of the point clouds. Existing algorithms attempt to address the challenges in two strategies. The first strategy is to learn dense geometric features based on the captured sparse point cloud. Nevertheless, it is quite a formidable task since the learned dense geometric features are with high uncertainty for depicting the shape of the target object. The other strategy is to aggregate the sparse geometric features of multiple templates to enrich the shape information, which is a routine solution in 2D tracking. However, aggregating the coarse shape representations can hardly yield a precise shape representation. Different from 2D pixels, 3D points of different frames can be directly fused by coordinate transform, i.e., shape completion. Considering that, we propose to construct a synthetic target representation composed of dense and complete point clouds depicting the target shape precisely by shape completion for robust 3D tracking. Specifically, we design a voxelized 3D tracking framework with shape completion, in which we propose a quality-aware shape completion mechanism to alleviate the adverse effect of noisy historical predictions. It enables us to effectively construct and leverage the synthetic target representation. Besides, we also develop a voxelized relation modeling module and box refinement module to improve tracking performance. Favorable performance against state-of-the-art algorithms on three benchmarks demonstrates the effectiveness and generalization ability of our method. | 翻訳日:2023-12-19 15:30:24 公開日:2023-12-17 |
# 平均場変分近似によるベイズモデル選択 Bayesian Model Selection via Mean-Field Variational Approximation ( http://arxiv.org/abs/2312.10607v1 ) ライセンス: Link先を確認 | Yangfan Zhang, Yun Yang | (参考訳) 本稿では平均場(MF)変動近似によるベイズモデル選択について考察する。
この目的に向けて,潜在変数とモデル誤特定を許容するベイジアンフレームワークの下で,mf推論の非漸近性について検討する。
具体的には、MF の変分分布をモデル固有化の可能な条件下での変分分布に対してベルンシュタイン・フォン・ミゼス(BvM)の定理を示し、これは MF の変分近似の分布収束を最大可能性推定器(特定モデルを含む)を中心とする正規分布に導くことを意味する。
BvM定理により、エビデンスローバウンド(ELBO)を用いたモデル選択基準を提案し、サンプルサイズが無限度になるにつれて、ELBOが選択したモデルが一般的に使用されるベイズ情報基準(BIC)によって選択されたモデルと漸近的に一致する傾向があることを示す。
BICと比較すると、ELBOはより優れた次元依存と事前情報の完全な取り込みのため、対数行列の確率(つまりモデル証拠)よりも小さい近似誤差を生じる傾向にある。
さらに、パラメトリック・モデル・フレームワーク(英語版)の下で座標上昇変分推論(英語版)(cavi)アルゴリズムの幾何学的収束を示す。
これらの結果から, 変分推論は, 従来のタスクに対する計算効率のよい代替手段として, 点推定以上のものを提供できることが示された。 This article considers Bayesian model selection via mean-field (MF) variational approximation. Towards this goal, we study the non-asymptotic properties of MF inference under the Bayesian framework that allows latent variables and model mis-specification. Concretely, we show a Bernstein von-Mises (BvM) theorem for the variational distribution from MF under possible model mis-specification, which implies the distributional convergence of MF variational approximation to a normal distribution centering at the maximal likelihood estimator (within the specified model). Motivated by the BvM theorem, we propose a model selection criterion using the evidence lower bound (ELBO), and demonstrate that the model selected by ELBO tends to asymptotically agree with the one selected by the commonly used Bayesian information criterion (BIC) as sample size tends to infinity. Comparing to BIC, ELBO tends to incur smaller approximation error to the log-marginal likelihood (a.k.a. model evidence) due to a better dimension dependence and full incorporation of the prior information. Moreover, we show the geometric convergence of the coordinate ascent variational inference (CAVI) algorithm under the parametric model framework, which provides a practical guidance on how many iterations one typically needs to run when approximating the ELBO. These findings demonstrate that variational inference is capable of providing a computationally efficient alternative to conventional approaches in tasks beyond obtaining point estimates, which is also empirically demonstrated by our extensive numerical experiments. | 翻訳日:2023-12-19 15:30:03 公開日:2023-12-17 |
# 空間周波数統合に基づく二重領域マルチ露光画像融合ネットワーク A Dual Domain Multi-exposure Image Fusion Network based on the Spatial-Frequency Integration ( http://arxiv.org/abs/2312.10604v1 ) ライセンス: Link先を確認 | Guang Yang, Jie Li, Xinbo Gao | (参考訳) 多重露光画像融合は、異なる露光を持つ画像を統合することによって単一の高ダイナミック画像を生成することを目的としている。
既存の深層学習に基づくマルチ露光画像融合法は主に空間領域融合に焦点を当て、周波数領域のグローバルなモデリング能力を無視している。
周波数領域のグローバル照明モデリング能力を効果的に活用するために,空間周波数統合フレームワーク mef-sfi を用いて,多重露光画像融合に関する新しい視点を提案する。
まず、2次元画像上のフーリエ変換の特性を再検討し、振幅と位相成分が照明情報の統合を導くことができる周波数領域における多重露光画像融合の実現可能性を検証する。
次に,局所的および大域的モデリングのための空間的経路と周波数経路からなる,深部フーリエに基づくマルチエクスポージャー画像融合フレームワークを提案する。
具体的には,デュアルドメイン間の効率的な相互作用を容易にし,異なる露光を持つ入力画像からの補完情報をキャプチャする空間周波数融合ブロックを提案する。
最後に,空間領域と周波数領域の両方において補完的情報の保持を確保するために,二重領域損失関数を組み合わせる。
pqa-mefデータセットに関する広範な実験は、最先端のマルチエクスプロイア画像融合アプローチに対して、視覚的な融合結果を達成することを証明している。
私たちのコードはhttps://github.com/SSyangguang/MEF-freq.comで利用可能です。 Multi-exposure image fusion aims to generate a single high-dynamic image by integrating images with different exposures. Existing deep learning-based multi-exposure image fusion methods primarily focus on spatial domain fusion, neglecting the global modeling ability of the frequency domain. To effectively leverage the global illumination modeling ability of the frequency domain, we propose a novelty perspective on multi-exposure image fusion via the Spatial-Frequency Integration Framework, named MEF-SFI. Initially, we revisit the properties of the Fourier transform on the 2D image, and verify the feasibility of multi-exposure image fusion on the frequency domain where the amplitude and phase component is able to guide the integration of the illumination information. Subsequently, we present the deep Fourier-based multi-exposure image fusion framework, which consists of a spatial path and frequency path for local and global modeling separately. Specifically, we introduce a Spatial-Frequency Fusion Block to facilitate efficient interaction between dual domains and capture complementary information from input images with different exposures. Finally, we combine a dual domain loss function to ensure the retention of complementary information in both the spatial and frequency domains. Extensive experiments on the PQA-MEF dataset demonstrate that our method achieves visual-appealing fusion results against state-of-the-art multi-exposure image fusion approaches. Our code is available at https://github.com/SSyangguang/MEF-freq. | 翻訳日:2023-12-19 15:29:32 公開日:2023-12-17 |
# スパリングYIG薄膜を用いた極低温ハイブリッド磁気回路 Cryogenic hybrid magnonic circuits based on spalled YIG thin films ( http://arxiv.org/abs/2312.10660v1 ) ライセンス: Link先を確認 | Jing Xu, Connor Horn, Yu Jiang, Xinhao Li, Daniel Rosemann, Xu Han, Miguel Levy, Supratik Guha, Xufeng Zhang | (参考訳) yttrium iron garnet (yig) magnonicsは、信号処理にmagnons (quasiparticles of collective spin excitation)を利用するための広範な研究の関心を呼び起こした。
特に、yigマグノニクスベースのハイブリッドシステムは、広帯域の波長可変性と他のプラットフォームとの互換性が優れているため、量子情報科学に大きな可能性を秘めている。
しかし,YIGのホスト基板であるガドリニウムガリウムガーネット(GGG)の低温下でのマイクロ波損失により,量子状態における薄膜YIGデバイスの適用とスケーラビリティは著しく制限されている。
本研究では,YIG/GGG試料に制御スペーリングおよび層移動技術を導入することで,基板フリーYIG薄膜が得られることを示す。
本手法は, 超伝導共振器とスパリングYIG膜からなるハイブリッドデバイスを試作し, 結合特性が良好であることを示す。
この進歩は、YIGベースの量子デバイスのオンチップ統合とスケーラビリティの向上の道を開く。 Yttrium iron garnet (YIG) magnonics has sparked extensive research interests toward harnessing magnons (quasiparticles of collective spin excitation) for signal processing. In particular, YIG magnonics-based hybrid systems exhibit great potentials for quantum information science because of their wide frequency tunability and excellent compatibility with other platforms. However, the broad application and scalability of thin-film YIG devices in the quantum regime has been severely limited due to the substantial microwave loss in the host substrate for YIG, gadolinium gallium garnet (GGG), at cryogenic temperatures. In this study, we demonstrate that substrate-free YIG thin films can be obtained by introducing the controlled spalling and layer transfer technology to YIG/GGG samples. Our approach is validated by measuring a hybrid device consisting of a superconducting resonator and a spalled YIG film, which gives a strong coupling feature indicating the good coherence of our system. This advancement paves the way for enhanced on-chip integration and the scalability of YIG-based quantum devices. | 翻訳日:2023-12-19 15:22:35 公開日:2023-12-17 |
# VidToMe:ゼロショットビデオ編集のためのビデオトークンマージ VidToMe: Video Token Merging for Zero-Shot Video Editing ( http://arxiv.org/abs/2312.10656v1 ) ライセンス: Link先を確認 | Xirui Li, Chao Ma, Xiaokang Yang, Ming-Hsuan Yang | (参考訳) 拡散モデルは高品質な画像の生成において大きな進歩を遂げてきたが、時間運動の複雑さのためにビデオ生成への応用は依然として困難である。
ゼロショットビデオ編集は、訓練済みの画像拡散モデルを利用してソースビデオを新しいものに翻訳することで、ソリューションを提供する。
それでも、既存の手法は厳密な時間的一貫性と効率的なメモリ消費を維持するのに苦労している。
本研究では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める手法を提案する。
フレーム間の時間的冗長なトークンの整列と圧縮により,時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を低減する。
マージ戦略はフレーム間の時間的対応に応じてトークンを一致させて調整し、生成されたビデオフレームにおける自然な時間的一貫性を促進する。
ビデオ処理の複雑さを管理するため,映像をチャンクに分割し,チャンク内局所トークンマージとチャンク間グローバルトークンマージを開発する。
映像編集手法は,映像編集の進歩をシームレスに拡張し,最先端の手法よりも良好な時間的一貫性を実現する。 Diffusion models have made significant advances in generating high-quality images, but their application to video generation has remained challenging due to the complexity of temporal motion. Zero-shot video editing offers a solution by utilizing pre-trained image diffusion models to translate source videos into new ones. Nevertheless, existing methods struggle to maintain strict temporal consistency and efficient memory consumption. In this work, we propose a novel approach to enhance temporal consistency in generated videos by merging self-attention tokens across frames. By aligning and compressing temporally redundant tokens across frames, our method improves temporal coherence and reduces memory consumption in self-attention computations. The merging strategy matches and aligns tokens according to the temporal correspondence between frames, facilitating natural temporal consistency in generated video frames. To manage the complexity of video processing, we divide videos into chunks and develop intra-chunk local token merging and inter-chunk global token merging, ensuring both short-term video continuity and long-term content consistency. Our video editing approach seamlessly extends the advancements in image editing to video editing, rendering favorable results in temporal consistency over state-of-the-art methods. | 翻訳日:2023-12-19 15:22:16 公開日:2023-12-17 |
# 視覚型ロボットアームを用いた非侵入型GUI探索試験 Practical Non-Intrusive GUI Exploration Testing with Visual-based Robotic Arms ( http://arxiv.org/abs/2312.10655v1 ) ライセンス: Link先を確認 | Shengcheng Yu, Chunrong Fang, Mingzhe Du, Yuchen Ling, Zhenyu Chen, Zhendong Su | (参考訳) GUIテストはSEコミュニティで重要である。
ほとんどの既存のフレームワークは侵入的であり、特定のプラットフォームのみをサポートしている。
異なるシナリオの開発により、様々な組み込みシステムや異なるデバイス上のカスタマイズされたオペレーティングシステムは、既存の侵入型GUIテストフレームワークをサポートしない。
一部のアプローチでは、テスト中のモバイルアプリのインターフェイス呼び出しを置き換えるためにロボットアームを採用し、GUI要素を識別するためにコンピュータビジョン技術を使用している。
しかし、いくつかの問題は解決されていない。
まず、GUI画面は異なる画面条件の多様なシステムに適応できないように固定されていると仮定する。
第2に、既存のアプローチではXY面ロボットアームを使用しており、テスト操作を柔軟にシミュレートすることはできない。
第三に、既存のアプローチは互換性バグを無視し、クラッシュバグのみに焦点を当てている。
非侵襲的なシナリオにはもっと実践的なアプローチが必要です。
視覚ロボットアームを用いた実用的非インタラクティブguiテストフレームワークを提案する。
RoboTestは、新しいGUI画面とウィジェット検出アルゴリズムを統合し、異なるサイズのスクリーンを検出し、検出された画面からGUIウィジェットを抽出する。
そして、4-DOFロボットアームで一連のテスト操作を適用し、効果的かつ柔軟に人間のテスト操作をシミュレートする。
アプリの探索中、RoboTestはPrivation of Proximity-Guided Explorion戦略を統合し、以前のターゲットのクローズウィジェットを選択して、ロボットアームの動作オーバーヘッドを減らし、探索効率を向上させる。
RoboTestは、同じテスト操作の異なるデバイス上でGUI比較によって、クラッシュバグ以外のいくつかの互換性バグを効果的に検出できる。
20のモバイルアプリでRoboTestを評価し,組込みシステムのケーススタディを行った。
結果は、RoboTestが効果的に、効果的に、そして一般的にAUTを探索し、バグを見つけ、探索時間のオーバーヘッドを減らすことができることを示している。 GUI testing is significant in the SE community. Most existing frameworks are intrusive and only support some specific platforms. With the development of distinct scenarios, diverse embedded systems or customized operating systems on different devices do not support existing intrusive GUI testing frameworks. Some approaches adopt robotic arms to replace the interface invoking of mobile apps under test and use computer vision technologies to identify GUI elements. However, some challenges are unsolved. First, existing approaches assume that GUI screens are fixed so that they cannot be adapted to diverse systems with different screen conditions. Second, existing approaches use XY-plane robotic arms, which cannot flexibly simulate testing operations. Third, existing approaches ignore compatibility bugs and only focus on crash bugs. A more practical approach is required for the non-intrusive scenario. We propose a practical non-intrusive GUI testing framework with visual robotic arms. RoboTest integrates novel GUI screen and widget detection algorithms, adaptive to detecting screens of different sizes and then to extracting GUI widgets from the detected screens. Then, a set of testing operations is applied with a 4-DOF robotic arm, which effectively and flexibly simulates human testing operations. During app exploration, RoboTest integrates the Principle of Proximity-guided exploration strategy, choosing close widgets of the previous targets to reduce robotic arm movement overhead and improve exploration efficiency. RoboTest can effectively detect some compatibility bugs beyond crash bugs with a GUI comparison on different devices of the same test operations. We evaluate RoboTest with 20 mobile apps, with a case study on an embedded system. The results show that RoboTest can effectively, efficiently, and generally explore AUTs to find bugs and reduce exploration time overhead. | 翻訳日:2023-12-19 15:21:54 公開日:2023-12-17 |
# SMM4H 2023のエクスプローラ:知識とモデル融合による健康アプリケーションのためのBERTの強化 Explorers at #SMM4H 2023: Enhancing BERT for Health Applications through Knowledge and Model Fusion ( http://arxiv.org/abs/2312.10652v1 ) ライセンス: Link先を確認 | Xutong Yue, Xilai Wang, Yuxin He, Zhenkun Zhou | (参考訳) ソーシャルメディアに州や意見を投稿する人が増えており、これは人間の健康を研究する上で貴重なデータ資源となっている。
さらに、ソーシャルメディアは医療にとって重要な研究ポイントとなっている。
本稿では,#SMM4H 2023共有タスクへの参加方法について概説する。
特に、名前付きエンティティ認識(NER)タスクでは、モデル一般化能力を効果的に強化するW2NERというモデルアーキテクチャを利用する。
本手法はタスク3で1位となった。
この論文はピアレビューされ、#smm4h 2023ワークショップでプレゼンテーションが行われた。 An increasing number of individuals are willing to post states and opinions in social media, which has become a valuable data resource for studying human health. Furthermore, social media has been a crucial research point for healthcare now. This paper outlines the methods in our participation in the #SMM4H 2023 Shared Tasks, including data preprocessing, continual pre-training and fine-tuned optimization strategies. Especially for the Named Entity Recognition (NER) task, we utilize the model architecture named W2NER that effectively enhances the model generalization ability. Our method achieved first place in the Task 3. This paper has been peer-reviewed and accepted for presentation at the #SMM4H 2023 Workshop. | 翻訳日:2023-12-19 15:21:28 公開日:2023-12-17 |
# PNeRFLoc: 点ベースニューラルラジアンス場を用いた視覚的位置決め PNeRFLoc: Visual Localization with Point-based Neural Radiance Fields ( http://arxiv.org/abs/2312.10649v1 ) ライセンス: Link先を確認 | Boming Zhao, Luwei Yang, Mao Mao, Hujun Bao, Zhaopeng Cui | (参考訳) 高品質なノベルビューを合成する能力により、ニューラルレージアンスフィールド(NeRF)は、最近、既知の環境における視覚的ローカライゼーションを改善するために活用されている。
しかし, 既存の手法では, 回帰モデルトレーニングを改善するためにNeRFを主に利用しており, 幾何学的制約が欠如しているため, 新たな視点や外観の性能は依然として限られている。
本稿では,統一ポイントベース表現に基づく新しいビジュアルローカライゼーションフレームワーク \ie, pnerflocを提案する。
一方、PNeRFLocは2次元特徴点と3次元特徴点を従来の構造的手法とマッチングすることで、初期ポーズ推定をサポートし、一方、レンダリングベース最適化を用いた新しいビュー合成によるポーズ改善を可能にする。
具体的には、視覚的ローカライゼーションとニューラルレンダリングのギャップを埋めるための新しい特徴適応モジュールを提案する。
ニューラルレンダリングに基づく最適化の有効性と効率を改善するために,ワーピング損失関数を備えた効率的なレンダリングベースのフレームワークを開発した。
さらに,屋外シナリオの照明変化や動的物体を扱うためのロバストネス手法もいくつか開発されている。
実験により、PNeRFLocは、NeRFモデルが十分に学習でき、視覚的ローカライゼーションベンチマークデータセット上でSOTA法と同等に動作する場合に、合成データに対して最善を尽くすことを示した。 Due to the ability to synthesize high-quality novel views, Neural Radiance Fields (NeRF) have been recently exploited to improve visual localization in a known environment. However, the existing methods mostly utilize NeRFs for data augmentation to improve the regression model training, and the performance on novel viewpoints and appearances is still limited due to the lack of geometric constraints. In this paper, we propose a novel visual localization framework, \ie, PNeRFLoc, based on a unified point-based representation. On the one hand, PNeRFLoc supports the initial pose estimation by matching 2D and 3D feature points as traditional structure-based methods; on the other hand, it also enables pose refinement with novel view synthesis using rendering-based optimization. Specifically, we propose a novel feature adaption module to close the gaps between the features for visual localization and neural rendering. To improve the efficacy and efficiency of neural rendering-based optimization, we also develop an efficient rendering-based framework with a warping loss function. Furthermore, several robustness techniques are developed to handle illumination changes and dynamic objects for outdoor scenarios. Experiments demonstrate that PNeRFLoc performs the best on synthetic data when the NeRF model can be well learned and performs on par with the SOTA method on the visual localization benchmark datasets. | 翻訳日:2023-12-19 15:21:19 公開日:2023-12-17 |
# エネルギー制約付き等方性対数による忠実モデル記述 Faithful Model Explanations through Energy-Constrained Conformal Counterfactuals ( http://arxiv.org/abs/2312.10648v1 ) ライセンス: Link先を確認 | Patrick Altmeyer, Mojtaba Farmanbar, Arie van Deursen, Cynthia C. S. Liem | (参考訳) 対物的説明は、ブラックボックスのモデルを説明し、個人にアルゴリズムによる会話を提供する直感的で分かりやすい方法を提供する。
妥当な説明の必要性に対処するため、既存の作業は主に、入力データの分散方法を学ぶための代理モデルに依存しています。
これにより、モデル自体からサロゲートへのデータの現実的な説明を学ぶタスクを効果的に再配置する。
したがって、生成された説明は人間にとって妥当に見えるかもしれないが、必ずしもブラックボックスモデルの振る舞いを忠実に記述する必要はない。
本稿では,この忠実性の概念を定式化した評価基準の導入を通じて定式化し,モデルが許す限りの信頼性を持つ,エネルギー制約付き共形相反事実を生成するための新しいアルゴリズム的枠組みを提案する。
広範な実証研究を通じて,ECCCoは忠実さと妥当性の必要性を両立することを示した。
特に,グラデーションアクセスのあるモデルでは,サロゲートモデルなしで最先端の性能を実現することが可能であることを示す。
そのため,我々のフレームワークは,エネルギーベースモデリングと共形予測の最近の進歩を活用して,ブラックボックスモデル自体を定義する特性にのみ依存する。
私たちの知る限りでは、これは忠実な反事実的説明を生み出す最初の試みです。
そこで我々は,ECCCoが今後の研究のベースラインとなることを期待する。
私たちの研究は、信頼に値するものを信頼できないモデルと区別するツールを求める研究者や実践者に道を開くと信じています。 Counterfactual explanations offer an intuitive and straightforward way to explain black-box models and offer algorithmic recourse to individuals. To address the need for plausible explanations, existing work has primarily relied on surrogate models to learn how the input data is distributed. This effectively reallocates the task of learning realistic explanations for the data from the model itself to the surrogate. Consequently, the generated explanations may seem plausible to humans but need not necessarily describe the behaviour of the black-box model faithfully. We formalise this notion of faithfulness through the introduction of a tailored evaluation metric and propose a novel algorithmic framework for generating Energy-Constrained Conformal Counterfactuals that are only as plausible as the model permits. Through extensive empirical studies, we demonstrate that ECCCo reconciles the need for faithfulness and plausibility. In particular, we show that for models with gradient access, it is possible to achieve state-of-the-art performance without the need for surrogate models. To do so, our framework relies solely on properties defining the black-box model itself by leveraging recent advances in energy-based modelling and conformal prediction. To our knowledge, this is the first venture in this direction for generating faithful counterfactual explanations. Thus, we anticipate that ECCCo can serve as a baseline for future research. We believe that our work opens avenues for researchers and practitioners seeking tools to better distinguish trustworthy from unreliable models. | 翻訳日:2023-12-19 15:20:51 公開日:2023-12-17 |
# fedmkgc:プライバシー保護型フェデレーション多言語知識グラフ補完 FedMKGC: Privacy-Preserving Federated Multilingual Knowledge Graph Completion ( http://arxiv.org/abs/2312.10645v1 ) ライセンス: Link先を確認 | Wei Tang, Zhiqian Wu, Yixin Cao, Yong Liao, Pengyuan Zhou | (参考訳) 知識グラフ補完(KGC)は、知識グラフ(KG)に欠けている事実を予測することを目的としている。
複数の調整されたkgs上でkgcモデルをトレーニングすることでパフォーマンスが向上する一方で、kgs間で生データを転送する従来の方法はプライバシの懸念を生じさせる。
この課題に対処するために,我々は,生のデータ交換やエンティティアライメントを必要とせずに,複数のkgから知識を暗黙的に集約する新しい連合学習フレームワークを提案する。
各kgを,テキストベースの知識表現学習を通じてローカル言語モデルを学習するクライアントとして扱う。
中央サーバがクライアントからモデルの重みを集約する。
自然言語は普遍表現を提供するので、同じ知識はKGにまたがる同様の意味表現を持つ。
このように、集約言語モデルは、生のユーザデータ共有を必要とせずに、多言語KGからの相補的知識を活用することができる。
ベンチマークデータセットの大規模な実験により,提案手法は多言語KG上でのKGCを大幅に改善し,ラベル付きアライメントや生のユーザデータ共有を必要とせず,最先端アライメントモデルに匹敵する性能を実現した。
私たちのコードは公開されます。 Knowledge graph completion (KGC) aims to predict missing facts in knowledge graphs (KGs), which is crucial as modern KGs remain largely incomplete. While training KGC models on multiple aligned KGs can improve performance, previous methods that rely on transferring raw data among KGs raise privacy concerns. To address this challenge, we propose a new federated learning framework that implicitly aggregates knowledge from multiple KGs without demanding raw data exchange and entity alignment. We treat each KG as a client that trains a local language model through textbased knowledge representation learning. A central server then aggregates the model weights from clients. As natural language provides a universal representation, the same knowledge thus has similar semantic representations across KGs. As such, the aggregated language model can leverage complementary knowledge from multilingual KGs without demanding raw user data sharing. Extensive experiments on a benchmark dataset demonstrate that our method substantially improves KGC on multilingual KGs, achieving comparable performance to state-of-the-art alignment-based models without requiring any labeled alignments or raw user data sharing. Our codes will be publicly available. | 翻訳日:2023-12-19 15:20:30 公開日:2023-12-17 |
# 暗黙的に割り当てられたサブトラック報酬の差によるエピソディック回帰分解 Episodic Return Decomposition by Difference of Implicitly Assigned Sub-Trajectory Reward ( http://arxiv.org/abs/2312.10642v1 ) ライセンス: Link先を確認 | Haoxin Lin, Hongqiu Wu, Jiaji Zhang, Yihao Sun, Junyin Ye, Yang Yu | (参考訳) 実世界の意思決定問題は、通常遅延報酬を伴うが、これは強化学習のサンプル効率に影響を与える。
エピソード回帰分解は、エピソード回帰設定を扱うための有望な方法である。
いくつかのアルゴリズムは、戻り分解から学習したステップワイドプロキシ報酬の顕著な効果を示した。
しかし、これらの既存手法は属性や表現能力に欠けており、長期エピソードでは非効率に分解される。
本稿では,Diaster(暗黙的に割り当てられたサブトラジェクトリ報酬の差)と呼ばれる新しいエピソード回帰分解法を提案する。
ダイアスターは、任意のカットポイントにおいて2つの分割されたサブトラジェクトリのクレジットにエピソード報酬を分解し、ステップワイドのプロキシ報酬は期待の差から生じる。
我々は理論的および実証的に、分解されたプロキシ報酬関数がポリシーをほぼ最適に導くことができることを検証する。
実験の結果,本手法は試料効率と性能の両面で従来の最先端手法よりも優れていた。 Real-world decision-making problems are usually accompanied by delayed rewards, which affects the sample efficiency of Reinforcement Learning, especially in the extremely delayed case where the only feedback is the episodic reward obtained at the end of an episode. Episodic return decomposition is a promising way to deal with the episodic-reward setting. Several corresponding algorithms have shown remarkable effectiveness of the learned step-wise proxy rewards from return decomposition. However, these existing methods lack either attribution or representation capacity, leading to inefficient decomposition in the case of long-term episodes. In this paper, we propose a novel episodic return decomposition method called Diaster (Difference of implicitly assigned sub-trajectory reward). Diaster decomposes any episodic reward into credits of two divided sub-trajectories at any cut point, and the step-wise proxy rewards come from differences in expectation. We theoretically and empirically verify that the decomposed proxy reward function can guide the policy to be nearly optimal. Experimental results show that our method outperforms previous state-of-the-art methods in terms of both sample efficiency and performance. | 翻訳日:2023-12-19 15:20:08 公開日:2023-12-17 |
# 1.2tb/sの高分解能ハイパースペクトルビデオ理解を可能にする人工知能光ハードウェア Artificial intelligence optical hardware empowers high-resolution hyperspectral video understanding at 1.2 Tb/s ( http://arxiv.org/abs/2312.10639v1 ) ライセンス: Link先を確認 | Maksim Makarenko, Qizhou Wang, Arturo Burguete-Lopez, Silvio Giancola, Bernard Ghanem, Luca Passone, Andrea Fratalocchi | (参考訳) GPT技術で実証されたファンデーションモデルは、デザイナの期待を超えるタスクを実行することによって、人工知能の新たな地平線を発見している。
現在の世代は言語と画像の理解において根本的な進歩をもたらすが、次のフロンティアはビデオの理解である。
この領域の進歩は、リアルタイム多次元映像情報を把握するために要求される1Tb/sのデータレートを克服しなければならない。
このスピード制限は、既存の世代のハードウェアの能力を大きく超えるもので、さらなる進歩を妨げている。
本研究は,多次元映像理解のためのハードウェアアクセラレーション型集積光電子プラットフォームをリアルタイムに導入する。
このテクノロジープラットフォームは、人工知能ハードウェア、光学処理情報を最先端のマシンビジョンネットワークと組み合わせることで、数百の周波数帯域とメガピクセルの空間解像度を持つ1.2tb/sのデータ処理速度をビデオレートで実現する。
ビデオセマンティックセグメンテーションとオブジェクト理解のAIタスクにおいて屋内および空中アプリケーションで検証されたこのような性能は、類似のスペクトル分解能を持つ最も近い技術の3~4桁の速度を超える。
このプラットフォームは、多次元視覚情報のリアルタイムaiビデオ理解の研究の新たな道を開き、将来の人間と機械の相互作用と認知的処理の発展のエンパワーメントを支援する。 Foundation models, exemplified by GPT technology, are discovering new horizons in artificial intelligence by executing tasks beyond their designers' expectations. While the present generation provides fundamental advances in understanding language and images, the next frontier is video comprehension. Progress in this area must overcome the 1 Tb/s data rate demanded to grasp real-time multidimensional video information. This speed limit lies well beyond the capabilities of the existing generation of hardware, imposing a roadblock to further advances. This work introduces a hardware-accelerated integrated optoelectronic platform for multidimensional video understanding in real-time. The technology platform combines artificial intelligence hardware, processing information optically, with state-of-the-art machine vision networks, resulting in a data processing speed of 1.2 Tb/s with hundreds of frequency bands and megapixel spatial resolution at video rates. Such performance, validated in the AI tasks of video semantic segmentation and object understanding in indoor and aerial applications, surpasses the speed of the closest technologies with similar spectral resolution by three to four orders of magnitude. This platform opens up new avenues for research in real-time AI video understanding of multidimensional visual information, helping the empowerment of future human-machine interactions and cognitive processing developments. | 翻訳日:2023-12-19 15:19:48 公開日:2023-12-17 |
# HyperPIE: 科学論文からのハイパーパラメータ情報抽出 HyperPIE: Hyperparameter Information Extraction from Scientific Publications ( http://arxiv.org/abs/2312.10638v1 ) ライセンス: Link先を確認 | Tarek Saier, Mayumi Ohta, Takuto Asakura and Michael F\"arber | (参考訳) 学術知識機械を大規模に読むためには,出版物から情報を自動的に抽出することが重要である。
抽出された情報は、例えば、学術検索、意思決定、知識グラフ構築を容易にすることができる。
既存のアプローチでカバーされていない重要な情報はハイパーパラメータである。
本稿では,ハイパーパラメータ情報抽出(HyperPIE)をエンティティ認識および関係抽出タスクとして形式化し,課題に取り組む。
さまざまなコンピュータサイエンス分野の出版物をカバーするラベル付きデータセットを作成します。
GPT-3.5, GALACTICA, Falcon, Vicuna, WizardLMの5つの大言語モデルに加えて, BERTベースの微調整モデルのトレーニングと評価を行う。
微調整モデルに対しては,最先端のベースラインよりも29%のF1を向上する関係抽出手法を開発した。
大規模言語モデルでは、構造化データ抽出にYAML出力を活用するアプローチを開発し、JSONよりもエンティティ認識の5.5%F1の平均的な改善を実現する。
最高のパフォーマンスモデルを用いて、多数の無注釈論文からハイパーパラメータ情報を抽出し、分野によってパターンを分析する。
データとソースコードはすべてhttps://github.com/IllDepence/hyperpieで公開されています。 Automatic extraction of information from publications is key to making scientific knowledge machine readable at a large scale. The extracted information can, for example, facilitate academic search, decision making, and knowledge graph construction. An important type of information not covered by existing approaches is hyperparameters. In this paper, we formalize and tackle hyperparameter information extraction (HyperPIE) as an entity recognition and relation extraction task. We create a labeled data set covering publications from a variety of computer science disciplines. Using this data set, we train and evaluate BERT-based fine-tuned models as well as five large language models: GPT-3.5, GALACTICA, Falcon, Vicuna, and WizardLM. For fine-tuned models, we develop a relation extraction approach that achieves an improvement of 29% F1 over a state-of-the-art baseline. For large language models, we develop an approach leveraging YAML output for structured data extraction, which achieves an average improvement of 5.5% F1 in entity recognition over using JSON. With our best performing model we extract hyperparameter information from a large number of unannotated papers, and analyze patterns across disciplines. All our data and source code is publicly available at https://github.com/IllDepence/hyperpie | 翻訳日:2023-12-19 15:19:26 公開日:2023-12-17 |
# オンラインVQAにおけるGPT-4VとGeminiの評価 An Evaluation of GPT-4V and Gemini in Online VQA ( http://arxiv.org/abs/2312.10637v1 ) ライセンス: Link先を確認 | Mengchen Liu, Chongyan Chen | (参考訳) 大規模マルチモーダルモデル(LMM)の能力を総合的に評価することが重要である。
本研究では,VQAonline データセットを用いて,GPT-4V と Gemini の最先端 LMM の評価を行った。
VQAonlineは、さまざまな日常ユーザから得られたエンドツーエンドの認証VQAデータセットである。
以前のベンチマークと比較すると、VQAonlineは現実世界のタスクとよく一致している。
これにより,LMMの汎用性を効果的に評価し,人的性能と直接比較することができる。
GPT-4VとGeminiを総合的に評価するために,画像タイプや必要な画像処理機能など約2000の視覚的質問に対して,7種類のメタデータを生成する。
このメタデータを活用することで,gpt-4vとgeminiのゼロショット性能を分析し,両モデルにとって最も難しい問題を特定する。 A comprehensive evaluation is critical to assess the capabilities of large multimodal models (LMM). In this study, we evaluate the state-of-the-art LMMs, namely GPT-4V and Gemini, utilizing the VQAonline dataset. VQAonline is an end-to-end authentic VQA dataset sourced from a diverse range of everyday users. Compared previous benchmarks, VQAonline well aligns with real-world tasks. It enables us to effectively evaluate the generality of an LMM, and facilitates a direct comparison with human performance. To comprehensively evaluate GPT-4V and Gemini, we generate seven types of metadata for around 2,000 visual questions, such as image type and the required image processing capabilities. Leveraging this array of metadata, we analyze the zero-shot performance of GPT-4V and Gemini, and identify the most challenging questions for both models. | 翻訳日:2023-12-19 15:19:06 公開日:2023-12-17 |
# 異常スコア:複雑さと脆弱性に基づく生成モデルと個人生成画像の評価 Anomaly Score: Evaluating Generative Models and Individual Generated Images based on Complexity and Vulnerability ( http://arxiv.org/abs/2312.10634v1 ) ライセンス: Link先を確認 | Jaehui Hwang, Junghyuk Lee, Jong-Seok Lee | (参考訳) 生成モデルの進歩により、生成した画像の評価がますます重要になる。
従来の手法は、訓練された視覚モデルから生成された画像と参照の特徴の間の距離を測定する。
本稿では,生成した画像の周辺における表現空間と入力空間の関係を広範囲に調査する。
まず,画像中の不自然な要素の存在に関する2つの尺度を提案する:複雑性,表現空間が非線形であることを示す複雑さ,および,抽出した特徴が逆入力によってどのように容易に変化するかに関連する脆弱性。
そこで本研究では,異常スコア(AS)と呼ばれる画像生成モデルを評価するための新しい指標を提案する。
さらに,生成画像を個別に評価できるas-i(anomaly score for individual images)を提案する。
実験の結果,提案手法の有効性が示された。 With the advancement of generative models, the assessment of generated images becomes more and more important. Previous methods measure distances between features of reference and generated images from trained vision models. In this paper, we conduct an extensive investigation into the relationship between the representation space and input space around generated images. We first propose two measures related to the presence of unnatural elements within images: complexity, which indicates how non-linear the representation space is, and vulnerability, which is related to how easily the extracted feature changes by adversarial input changes. Based on these, we introduce a new metric to evaluating image-generative models called anomaly score (AS). Moreover, we propose AS-i (anomaly score for individual images) that can effectively evaluate generated images individually. Experimental results demonstrate the validity of the proposed approach. | 翻訳日:2023-12-19 15:18:53 公開日:2023-12-17 |
# LLM-Twin: セマンティックセキュア通信と計算を備えた5Gディジタルツインネットワークフレームワークを超越したミニエージェントモデル LLM-Twin: Mini-Giant Model-driven Beyond 5G Digital Twin Networking Framework with Semantic Secure Communication and Computation ( http://arxiv.org/abs/2312.10631v1 ) ライセンス: Link先を確認 | Yang Hong, Jun Wu, and Rosario Morello | (参考訳) 5Gネットワークを超えて、次世代通信ソリューション、特にデジタルツインネットワーク(DTN)は、物理的空間とデジタル空間のブリッジとして人気が高まっている。
しかし、現在のDTNsネットワークフレームワークは、特に高い通信効率とマルチモーダルデータ処理を必要とするシナリオに適用する場合、多くの課題を生んでいる。
第一に、現在のDTNsフレームワークは、元のビットレベル通信と高周波計算、特に分散学習ベースのDTNのために、高リソース消費と通信の混雑を回避できない。
第2に、DTNの現在の機械学習モデルはドメイン固有の(例えばEヘルス)ため、マルチモーダルなデータ処理要件でDTシナリオを扱うのは困難である。
最後に、ブロックチェーンのような現在のDTNのセキュリティスキームでは、DTNの効率を損なう新たなオーバーヘッドが導入されている。
以上の課題に対処するため,大規模言語モデル (LLM) によるDTNネットワークフレームワーク LLM-Twin を提案する。
まず, LLMはマルチモーダルデータの処理に自然に適しているため, DTNにおけるLLMの効率的な展開を実現するために, ミニガントモデル協調方式を設計する。
そして,DTNに対するセマンティックレベルの高効率かつセキュアな通信モデルの設計を行う。
LLM-Twinの有効性は数値実験やケーススタディで実証された。
私たちの知る限り、llmベースのセマンティックレベルデジタルツインネットワーキングフレームワークを提案するのはこれが初めてです。 Beyond 5G networks provide solutions for next-generation communications, especially digital twins networks (DTNs) have gained increasing popularity for bridging physical space and digital space. However, current DTNs networking frameworks pose a number of challenges especially when applied in scenarios that require high communication efficiency and multimodal data processing. First, current DTNs frameworks are unavoidable regarding high resource consumption and communication congestion because of original bit-level communication and high-frequency computation, especially distributed learning-based DTNs. Second, current machine learning models for DTNs are domain-specific (e.g. E-health), making it difficult to handle DT scenarios with multimodal data processing requirements. Last but not least, current security schemes for DTNs, such as blockchain, introduce additional overheads that impair the efficiency of DTNs. To address the above challenges, we propose a large language model (LLM) empowered DTNs networking framework, LLM-Twin. First, we design the mini-giant model collaboration scheme to achieve efficient deployment of LLM in DTNs, since LLM are naturally conducive to processing multimodal data. Then, we design a semantic-level high-efficiency, and secure communication model for DTNs. The feasibility of LLM-Twin is demonstrated by numerical experiments and case studies. To our knowledge, this is the first to propose LLM-based semantic-level digital twin networking framework. | 翻訳日:2023-12-19 15:18:42 公開日:2023-12-17 |
# T2M-HiFiGPT:残留離散表現を用いたテキスト記述から高品質な人間の動きを生成する T2M-HiFiGPT: Generating High Quality Human Motion from Textual Descriptions with Residual Discrete Representations ( http://arxiv.org/abs/2312.10628v1 ) ライセンス: Link先を確認 | Congyi Wang | (参考訳) 本研究では,テキスト記述から人間の動きを合成するための条件生成フレームワークであるT2M-HiFiGPTを紹介する。
このフレームワークは、Residual Vector Quantized Variational AutoEncoder (RVQ-VAE) と2層生成事前学習トランスフォーマー (GPT) アーキテクチャによって支えられている。
我々のCNNベースのRVQ-VAEは、高精度な2次元時間残差離散運動表現を生成可能であることを示す。
提案する二重層GPT構造は,時間的GPTと残差GPTからなる。
時間GPTは、前のフレームおよびテキスト記述からの情報を1Dコンテキストベクトルに効率的に凝縮する。
このベクトルは、最後の残留離散指標を生成する残差GPTの文脈プロンプトとして機能する。
これらのインデックスは、後にRVQ-VAEデコーダによってモーションデータに変換される。
露光バイアス問題を軽減するために,rvqと条件付きドロップアウト戦略のための簡単なコード破損手法を採用し,合成性能の向上を実現した。
注目すべきは、T2M-HiFiGPTは生成プロセスを単純化するだけでなく、最新の拡散ベースモデルやGPTベースのモデルを含む、性能とパラメータの有効性の両方において既存の手法を超越していることである。
HumanML3DとKIT-MLデータセットでは、ほぼすべての主要なメトリクスで例外的な結果が得られる。
我々は,HumanML3Dデータセットの包括的なアブレーション研究を通じて,各コンポーネントの貢献度を検証し,フレームワークの有効性をさらに検証する。
この結果, RVQ-VAEは, VQ-VAEと比較して, 高精度な3次元人間の動きを捉えるのに適していることがわかった。
その結果、T2M-HiFiGPTは、T2M-GPTやAtt-T2Mといった最近の最先端技術よりも高い精度で人間の動きを生成することができる。 In this study, we introduce T2M-HiFiGPT, a novel conditional generative framework for synthesizing human motion from textual descriptions. This framework is underpinned by a Residual Vector Quantized Variational AutoEncoder (RVQ-VAE) and a double-tier Generative Pretrained Transformer (GPT) architecture. We demonstrate that our CNN-based RVQ-VAE is capable of producing highly accurate 2D temporal-residual discrete motion representations. Our proposed double-tier GPT structure comprises a temporal GPT and a residual GPT. The temporal GPT efficiently condenses information from previous frames and textual descriptions into a 1D context vector. This vector then serves as a context prompt for the residual GPT, which generates the final residual discrete indices. These indices are subsequently transformed back into motion data by the RVQ-VAE decoder. To mitigate the exposure bias issue, we employ straightforward code corruption techniques for RVQ and a conditional dropout strategy, resulting in enhanced synthesis performance. Remarkably, T2M-HiFiGPT not only simplifies the generative process but also surpasses existing methods in both performance and parameter efficacy, including the latest diffusion-based and GPT-based models. On the HumanML3D and KIT-ML datasets, our framework achieves exceptional results across nearly all primary metrics. We further validate the efficacy of our framework through comprehensive ablation studies on the HumanML3D dataset, examining the contribution of each component. Our findings reveal that RVQ-VAE is more adept at capturing precise 3D human motion with comparable computational demand compared to its VQ-VAE counterparts. As a result, T2M-HiFiGPT enables the generation of human motion with significantly increased accuracy, outperforming recent state-of-the-art approaches such as T2M-GPT and Att-T2M. | 翻訳日:2023-12-19 15:18:16 公開日:2023-12-17 |
# デコーディング問題:ソーシャルメディアにおけるワクチン感情のマルチラベル分類 Decoding Concerns: Multi-label Classification of Vaccine Sentiments in Social Media ( http://arxiv.org/abs/2312.10626v1 ) ライセンス: Link先を確認 | Somsubhra De and Shaurya Vats | (参考訳) 公衆衛生の分野では、予防接種は病気のリスクを軽減し、その増殖を制御するための基礎となる。
新型コロナウイルスのパンデミックは、ワクチンが私たちを守る上で重要な役割を担っていることを強調した。
しかし状況は、政治的ダイナミクスや副作用に対する理解など、様々な理由からワクチンに対する懐疑的な見方が広まっている。
本論文は、ワクチン接種におけるこれらの多様な関心事の包括的理解と分類の課題に対処する。
我々の焦点は、ワクチンに対する理解に基づいて、特定の関心ラベルをツイートに割り当てる堅牢なマルチラベル分類器の開発である。
これを実現するために,BERT,最先端のGPT 3.5,分類チェイン,SVM,ランダムフォレスト,ネイブベイズといった従来の手法などのトランスフォーマーモデルを含む,さまざまな高度な自然言語処理技術と機械学習アルゴリズムの適用について検討した。
最先端の大規模言語モデルは、この文脈で他のすべてのメソッドよりも優れています。 In the realm of public health, vaccination stands as the cornerstone for mitigating disease risks and controlling their proliferation. The recent COVID-19 pandemic has highlighted how vaccines play a crucial role in keeping us safe. However the situation involves a mix of perspectives, with skepticism towards vaccines prevailing for various reasons such as political dynamics, apprehensions about side effects, and more. The paper addresses the challenge of comprehensively understanding and categorizing these diverse concerns expressed in the context of vaccination. Our focus is on developing a robust multi-label classifier capable of assigning specific concern labels to tweets based on the articulated apprehensions towards vaccines. To achieve this, we delve into the application of a diverse set of advanced natural language processing techniques and machine learning algorithms including transformer models like BERT, state of the art GPT 3.5, Classifier Chains & traditional methods like SVM, Random Forest, Naive Bayes. We see that the cutting-edge large language model outperforms all other methods in this context. | 翻訳日:2023-12-19 15:17:44 公開日:2023-12-17 |
# CLIPを用いたPrompt Vision-Language Fusionによる歩行者属性認識 Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion ( http://arxiv.org/abs/2312.10692v1 ) ライセンス: Link先を確認 | Xiao Wang, Jiandong Jin, Chenglong Li, Jin Tang, Cheng Zhang, Wei Wang | (参考訳) 既存の歩行者属性認識(par)アルゴリズムは、事前学習されたcnn(例えば、resnet)を視覚特徴学習のバックボーンネットワークとして採用しており、歩行者画像と属性ラベルの関係が不十分なため、副最適結果が得られる可能性がある。
本稿では,視覚言語融合問題としてparを定式化し,歩行者画像と属性ラベルの関係を十分に活用する。
具体的には、まず属性句を文に拡張し、次に事前学習された視覚言語モデルCLIPを、視覚画像と属性記述の特徴埋め込みのためのバックボーンとして採用する。
対照的な学習目的は、CLIPベースの機能空間において、ビジョンと言語モダリティをうまく結びつけ、CLIPで使用されるトランスフォーマー層は、ピクセル間の長距離関係をキャプチャすることができる。
次に、デュアル機能を効果的に融合するためにマルチモーダルトランスを採用し、フィードフォワードネットワークを用いて属性を予測する。
ネットワークを効率よく最適化するために、領域認識型プロンプトチューニング手法を提案し、ごく少数のパラメータ(プロンプトベクトルと分類ヘッドのみ)を調整し、事前学習されたVLモデルとマルチモーダルトランスフォーマーの両方を修正する。
提案するPARアルゴリズムは,微調整手法と比較して0.75%しか学習できない。
RAPv1, RAPv2, WIDER, PA100K, PETA-ZS, RAP-ZSデータセットなど,PARの標準設定とゼロショット設定の両方で、新たな最先端パフォーマンスを実現している。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/OpenPARでリリースされる。 Existing pedestrian attribute recognition (PAR) algorithms adopt pre-trained CNN (e.g., ResNet) as their backbone network for visual feature learning, which might obtain sub-optimal results due to the insufficient employment of the relations between pedestrian images and attribute labels. In this paper, we formulate PAR as a vision-language fusion problem and fully exploit the relations between pedestrian images and attribute labels. Specifically, the attribute phrases are first expanded into sentences, and then the pre-trained vision-language model CLIP is adopted as our backbone for feature embedding of visual images and attribute descriptions. The contrastive learning objective connects the vision and language modalities well in the CLIP-based feature space, and the Transformer layers used in CLIP can capture the long-range relations between pixels. Then, a multi-modal Transformer is adopted to fuse the dual features effectively and feed-forward network is used to predict attributes. To optimize our network efficiently, we propose the region-aware prompt tuning technique to adjust very few parameters (i.e., only the prompt vectors and classification heads) and fix both the pre-trained VL model and multi-modal Transformer. Our proposed PAR algorithm only adjusts 0.75% learnable parameters compared with the fine-tuning strategy. It also achieves new state-of-the-art performance on both standard and zero-shot settings for PAR, including RAPv1, RAPv2, WIDER, PA100K, and PETA-ZS, RAP-ZS datasets. The source code and pre-trained models will be released on https://github.com/Event-AHU/OpenPAR. | 翻訳日:2023-12-19 15:12:54 公開日:2023-12-17 |
# 校正付き異常クラス学習を用いたロングテール認識における分布外検出 Out-of-Distribution Detection in Long-Tailed Recognition with Calibrated Outlier Class Learning ( http://arxiv.org/abs/2312.10686v1 ) ライセンス: Link先を確認 | Wenjun Miao, Guansong Pang, Tianqi Li, Xiao Bai, Jin Zheng | (参考訳) 既存のアウト・オブ・ディストリビューション(OOD)手法は、バランスの取れたデータセットでは大きな成功を収めているが、LTR(Long-tailed Recognition)シナリオでは効果がない。
1)OODサンプルは、しばしば誤ってヘッドクラスまたは/または/に分類される
2)尾型試料はOOD試料として処理される。
これらの問題に対処するため、近年の研究では、補助/擬似OODデータの長期分布(ID)データに適合する。
しかし、実際のOODサンプルの無知とLTRの重クラス不均衡を考えると、そのような正確な事前分布を得るのは難しい。
この前の要件を避けるための簡単な解決策は、OODサンプルをカプセル化する外れ値クラスを学ぶことである。
主な課題は、前述のOODサンプルとヘッド/テールクラスのサンプルとの混同に対処することである。
そこで本研究では,新しい校正校正校正校正授業学習(cocl)手法を提案する。
1)OODサンプルを表現空間における頭と尾の両方のクラスと区別するために,デバイアスド大マージン学習法を導入する。
2) 長期分類信頼性を高めるために, 対数検定法を定義した。
CIFAR10-LT, CIFAR100-LT, ImageNet-LTの3つのベンチマークによる大規模な実験結果から, COCLはIDデータの分類精度を向上しつつ, LTRにおける最先端のOOD検出方法を大幅に上回っていることが示された。
コードはhttps://github.com/mala-lab/COCLで入手できる。 Existing out-of-distribution (OOD) methods have shown great success on balanced datasets but become ineffective in long-tailed recognition (LTR) scenarios where 1) OOD samples are often wrongly classified into head classes and/or 2) tail-class samples are treated as OOD samples. To address these issues, current studies fit a prior distribution of auxiliary/pseudo OOD data to the long-tailed in-distribution (ID) data. However, it is difficult to obtain such an accurate prior distribution given the unknowingness of real OOD samples and heavy class imbalance in LTR. A straightforward solution to avoid the requirement of this prior is to learn an outlier class to encapsulate the OOD samples. The main challenge is then to tackle the aforementioned confusion between OOD samples and head/tail-class samples when learning the outlier class. To this end, we introduce a novel calibrated outlier class learning (COCL) approach, in which 1) a debiased large margin learning method is introduced in the outlier class learning to distinguish OOD samples from both head and tail classes in the representation space and 2) an outlier-class-aware logit calibration method is defined to enhance the long-tailed classification confidence. Extensive empirical results on three popular benchmarks CIFAR10-LT, CIFAR100-LT, and ImageNet-LT demonstrate that COCL substantially outperforms state-of-the-art OOD detection methods in LTR while being able to improve the classification accuracy on ID data. Code is available at https://github.com/mala-lab/COCL. | 翻訳日:2023-12-19 15:12:23 公開日:2023-12-17 |
# 量子情報処理のための捕捉イオン二層結晶 Bilayer crystals of trapped ions for quantum information processing ( http://arxiv.org/abs/2312.10681v1 ) ライセンス: Link先を確認 | Samarth Hawaldar, Prakriti Shahi, Allison L. Carter, Ana Maria Rey, John J. Bollinger, Athreya Shankar | (参考訳) トラップされたイオンシステムは量子情報処理の主要なプラットフォームであるが、現在は1Dおよび2D配列に制限されており、スケーラビリティとアプリケーション範囲の両方に制限が課されている。
本稿では,この限界を克服するために,数百個のイオンが2つのよく定義された層に自己組織化する2層結晶を実現するために,ペニングトラップを用いる方法を提案する。
これらの二層結晶は、現在の技術で容易に実装できるアンハーモニックトラップポテンシャルを包含することにより可能となる。
本システムでは, 通常のモードについて検討し, 単平面結晶のモードと相違点について検討した。
2層構造と正規モードのユニークな性質は、単一平面結晶では単純ではない量子情報処理における新たな機会を開く。
さらに,2層以上の多層結晶を実現するために,ここで提示したアイデアを拡張できる可能性が示唆された。
本研究は,3次元の空間的次元を効率的に活用し,捕獲イオンの多層3次元結晶を用いた新しい量子情報処理実験の基礎を築いた。 Trapped ion systems are a leading platform for quantum information processing, but they are currently limited to 1D and 2D arrays, which imposes restrictions on both their scalability and their range of applications. Here, we propose a path to overcome this limitation by demonstrating that Penning traps can be used to realize remarkably clean bilayer crystals, wherein hundreds of ions self-organize into two well-defined layers. These bilayer crystals are made possible by the inclusion of an anharmonic trapping potential, which is readily implementable with current technology. We study the normal modes of this system and discover salient differences compared to the modes of single-plane crystals. The bilayer geometry and the unique properties of the normal modes open new opportunities in quantum information processing that are not straightforward in single-plane crystals. Furthermore, we illustrate that it may be possible to extend the ideas presented here to realize multilayer crystals with more than two layers. Our work increases the dimensionality of trapped ion systems by efficiently utilizing all three spatial dimensions and lays the foundation for a new generation of quantum information processing experiments with multilayer 3D crystals of trapped ions. | 翻訳日:2023-12-19 15:11:53 公開日:2023-12-17 |
# DomainForensics: 双方向適応によるドメイン間の顔偽造の公開 DomainForensics: Exposing Face Forgery across Domains via Bi-directional Adaptation ( http://arxiv.org/abs/2312.10680v1 ) ライセンス: Link先を確認 | Qingxuan Lv, Yuezun Li, Junyu Dong, Sheng Chen, Hui Yu, Huiyu Zhou, Shu Zhang | (参考訳) 最近のDeepFake検出手法は、公開データセットでは優れた性能を示しているが、新しい偽造品では著しく劣化している。
この問題を解決することは重要であり、新しい偽造物は進化し続ける生成技術と共に毎日現れる。
データレベルで実証的に既存のトレースを探すことで、この問題に対する多くの取り組みがなされている。
本稿では,この問題を再検討し,教師なしドメイン適応の観点から新しい解を提案する。
私たちのソリューションはdomainforensicsと呼ばれ、偽造知識を既知の偽造から新しい偽造に移すことを目的としています。
近年の取り組みとは異なり、私たちのソリューションはデータビューではなく、DeepFake検出器の学習戦略に重点を置いており、ドメイン不一致の調整を通じて新しい偽造の知識を捉えている。
特に、セマンティッククラスカテゴリの知識伝達を考慮した一般的なドメイン適応手法とは異なり、適用範囲が限られているため、我々の手法は微妙な偽の痕跡を捉えている。
本稿では,ドメイン間の偽の知識を捉えるための新たな双方向適応戦略について述べる。
具体的には、フォワード・アダプティブとバックワード・アダプティブの両方を考慮し、フォワード・アダプティブにおいてソース・ドメインからターゲット・ドメインにフォージェリー・ナレッジを転送し、ターゲット・ドメインからソース・ドメインへのアダプティブを後方・アダプティブで戻す。
先行適応では,ソース領域におけるdeepfake検出器の教師付きトレーニングを行い,協調して,既知の偽造品から新たな偽造品に操作された顔を検出する機能を導入する。
逆適応では, 逆適応と自己蒸留を結合することで, 知識伝達をさらに向上させる。
これにより、検出器はラベルのないデータから新しい偽造機能を公開し、既知の知識を忘れないようにすることができる。 Recent DeepFake detection methods have shown excellent performance on public datasets but are significantly degraded on new forgeries. Solving this problem is important, as new forgeries emerge daily with the continuously evolving generative techniques. Many efforts have been made for this issue by seeking the commonly existing traces empirically on data level. In this paper, we rethink this problem and propose a new solution from the unsupervised domain adaptation perspective. Our solution, called DomainForensics, aims to transfer the forgery knowledge from known forgeries to new forgeries. Unlike recent efforts, our solution does not focus on data view but on learning strategies of DeepFake detectors to capture the knowledge of new forgeries through the alignment of domain discrepancies. In particular, unlike the general domain adaptation methods which consider the knowledge transfer in the semantic class category, thus having limited application, our approach captures the subtle forgery traces. We describe a new bi-directional adaptation strategy dedicated to capturing the forgery knowledge across domains. Specifically, our strategy considers both forward and backward adaptation, to transfer the forgery knowledge from the source domain to the target domain in forward adaptation and then reverse the adaptation from the target domain to the source domain in backward adaptation. In forward adaptation, we perform supervised training for the DeepFake detector in the source domain and jointly employ adversarial feature adaptation to transfer the ability to detect manipulated faces from known forgeries to new forgeries. In backward adaptation, we further improve the knowledge transfer by coupling adversarial adaptation with self-distillation on new forgeries. This enables the detector to expose new forgery features from unlabeled data and avoid forgetting the known knowledge of known... | 翻訳日:2023-12-19 15:11:33 公開日:2023-12-17 |
# 生成的adversarial bertを用いたベンガル意図分類 Bengali Intent Classification with Generative Adversarial BERT ( http://arxiv.org/abs/2312.10679v1 ) ライセンス: Link先を確認 | Mehedi Hasan, Mohammad Jahid Ibna Basher, and Md. Tanvir Rouf Shawon | (参考訳) インテント分類は自然言語理解における基本的な課題であり、ユーザクエリや文を事前に定義されたクラスに分類してユーザ意図を理解することを目的としている。
このタスクの最も難しい側面は、適切な言語的バリエーションを確保しながら、可能なすべての意図のクラスをデータセットに効果的に組み込むことである。
英語のようなリッチリソース言語に関連するドメインでは、多くの研究が行われている。
本研究では,30のインテントクラスを含む包括的ベンガル意図分類データセットbnintent30を提案する。
データセットは、150以上のクラスに分類された多様なユーザインテントを含むCLINIC150データセットから抜粋され、翻訳される。
さらに,GAN-BnBERTと呼ばれる提案したデータセットを評価するために,ジェネレーティブ・アドバーサリアルBERTを用いたベンガル意図分類手法を提案する。
提案手法では,テキストデータから有意な言語特徴と文脈情報を取り込むためにbertベースのコンテキスト埋め込みのパワーを活用し,一方,gan(generative adversarial network)コンポーネントは,生成モデルによる既存のインテントクラスの多様な表現を学習するモデルの能力を補完する。
GAN-BnBERT モデルは,既存の Bi-LSTM とスタンドアローン BERT に基づく分類モデルに勝って,新たに導入された BNIntent30 データセット上で優れた性能を示すことを示す。 Intent classification is a fundamental task in natural language understanding, aiming to categorize user queries or sentences into predefined classes to understand user intent. The most challenging aspect of this particular task lies in effectively incorporating all possible classes of intent into a dataset while ensuring adequate linguistic variation. Plenty of research has been conducted in the related domains in rich-resource languages like English. In this study, we introduce BNIntent30, a comprehensive Bengali intent classification dataset containing 30 intent classes. The dataset is excerpted and translated from the CLINIC150 dataset containing a diverse range of user intents categorized over 150 classes. Furthermore, we propose a novel approach for Bengali intent classification using Generative Adversarial BERT to evaluate the proposed dataset, which we call GAN-BnBERT. Our approach leverages the power of BERT-based contextual embeddings to capture salient linguistic features and contextual information from the text data, while the generative adversarial network (GAN) component complements the model's ability to learn diverse representations of existing intent classes through generative modeling. Our experimental results demonstrate that the GAN-BnBERT model achieves superior performance on the newly introduced BNIntent30 dataset, surpassing the existing Bi-LSTM and the stand-alone BERT-based classification model. | 翻訳日:2023-12-19 15:10:56 公開日:2023-12-17 |
# RustジェネリックAPIのためのファズドライバ合成 Fuzz Driver Synthesis for Rust Generic APIs ( http://arxiv.org/abs/2312.10676v1 ) ライセンス: Link先を確認 | Yehong Zhang, Jun Wu, Hui Xu | (参考訳) ファジィング(英: Fuzzing)は、ランダムな入力でソフトウェア実行ファイルをテストすることで、一般的なバグ検出手法である。
このテクニックは、ファズドライバとして知られるライブラリAPIを呼び出す実行ファイルを構築することで、ライブラリに拡張することもできる。
近年, ファジィドライバの自動合成は, 図書館ファジィ処理の促進に寄与し, 重要な研究課題となっている。
それにもかかわらず、既存のアプローチは一般的にジェネリックAPIを無視したり、単に通常のAPIとして扱う。
結果として、ジェネリックAPIのための効果的なファズドライバを生成することはできない。
本稿では,汎用APIを用いたRustライブラリの自動ファズドライバ合成問題について検討する。
Rustはセキュリティを重視しており、一般的なAPIはRustのクラッドに広く採用されている。
各ジェネリックAPIは、型制約を満たす限り、多数のモノモルフィックバージョンを持つことができる。
この問題に対する重要な課題は、これら単相バージョンを優先順位付けし、有効なインプットを提供することである。
この問題に対処するため、既存のAPI依存グラフを拡張して、ジェネリックAPIをサポートします。
このような依存関係と型制約を解決することで、候補の単相apiの集合を生成することができる。
さらに,複数のモノモルフィックAPIが同じ特性実装を採用する場合,類似度に基づくフィルタを用いて冗長なバージョンを創出する。
29のポピュラーなオープンソースライブラリによる実験結果から,本手法が有望な汎用APIカバレッジを実現できることを示す。
さらに、これらのライブラリには23のバグがあり、ジェネリックAPIに関連する18のバグがある。 Fuzzing is a popular bug detection technique achieved by testing software executables with random inputs. This technique can also be extended to libraries by constructing executables that call library APIs, known as fuzz drivers. Automated fuzz driver synthesis has been an important research topic in recent years since it can facilitate the library fuzzing process. Nevertheless, existing approaches generally ignore generic APIs or simply treat them as normal APIs. As a result, they cannot generate effective fuzz drivers for generic APIs. This paper studies the automated fuzz driver synthesis problem for Rust libraries with generic APIs. The problem is essential because Rust emphasizes security, and generic APIs are widely employed in Rust crates. Each generic API can have numerous monomorphic versions as long as the type constraints are satisfied. The critical challenge to this problem lies in prioritizing these monomorphic versions and providing valid inputs for them. To address the problem, we extend existing API-dependency graphs to support generic APIs. By solving such dependencies and type constraints, we can generate a collection of candidate monomorphic APIs. Further, we apply a similarity-based filter to prune redundant versions, particularly if multiple monomorphic APIs adopt the identical trait implementation. Experimental results with 29 popular open-source libraries show that our approach can achieve promising generic API coverage with a low rate of invalid fuzz drivers. Besides, we find 23 bugs previously unknown in these libraries, with 18 bugs related to generic APIs. | 翻訳日:2023-12-19 15:10:18 公開日:2023-12-17 |
# リモートセンシングセグメンテーション-GAN拡散に基づくパークグリーン空間のフルプロジェネレーション設計の一枠組み A Framework of Full-Process Generation Design for Park Green Spaces Based on Remote Sensing Segmentation-GAN-Diffusion ( http://arxiv.org/abs/2312.10674v1 ) ライセンス: Link先を確認 | Ran Chen, Xingjian Yi, Jing Zhao, Yueheng He, Bainian Chen, Xueqi Yao, Fangjun Liu, Haoran Li, Zeke Lian | (参考訳) 人工知能アルゴリズムによる生成設計の開発は高速である。
現在の研究には2つの研究ギャップがあります
1)ほとんどの研究は,デザイン要素間の関係にのみ注目し,サイトの外部情報にほとんど注意を払わない。
2) GANなどの従来の生成アルゴリズムは, 解像度が低く, 詳細が不十分な結果を生成する。
この2つの問題に対処するために,gan(stable diffusion multimodal large-scale image pre-training model)を統合する。
1)まず,都市環境情報の自動抽出のための高精度リモートセンシング対象抽出システムの構築。
2 次に、ganを用いて、都市環境情報から迅速に設計計画を推測し、生成できる外部環境に基づく公園設計生成システムを構築する。
3)最後に,設計計画を最適化し,詳細を満たし,計画の解決率を64倍に拡大するために,安定拡散を導入する。
この方法は、完全に無人の設計自動化ワークフローを実現することができる。
結果はこう示しています
1) サイト内外との関係は, アルゴリズム生成結果に影響を及ぼす。
2) 従来のGANアルゴリズムと比較して, 安定拡散は生成した結果の情報豊かさを著しく向上させる。 The development of generative design driven by artificial intelligence algorithms is speedy. There are two research gaps in the current research: 1) Most studies only focus on the relationship between design elements and pay little attention to the external information of the site; 2) GAN and other traditional generative algorithms generate results with low resolution and insufficient details. To address these two problems, we integrate GAN, Stable diffusion multimodal large-scale image pre-training model to construct a full-process park generative design method: 1) First, construct a high-precision remote sensing object extraction system for automated extraction of urban environmental information; 2) Secondly, use GAN to construct a park design generation system based on the external environment, which can quickly infer and generate design schemes from urban environmental information; 3) Finally, introduce Stable Diffusion to optimize the design plan, fill in details, and expand the resolution of the plan by 64 times. This method can achieve a fully unmanned design automation workflow. The research results show that: 1) The relationship between the inside and outside of the site will affect the algorithm generation results. 2) Compared with traditional GAN algorithms, Stable diffusion significantly improve the information richness of the generated results. | 翻訳日:2023-12-19 15:09:40 公開日:2023-12-17 |
# 正規化ニューラルネットワークの自動最適化 Automatic Optimisation of Normalised Neural Networks ( http://arxiv.org/abs/2312.10672v1 ) ライセンス: Link先を確認 | Namhoon Cho, Hyo-Sang Shin | (参考訳) ニューラルネットワークの正規化パラメータに対する行列多様体の幾何を考慮した自動最適化手法を提案する。
フロベニウスノルムに対する階層的な重み正規化は、リプシッツ定数を束縛し、訓練されたネットワークが制御アプリケーションに適しているように勾配信頼性を高めるために用いられる。
我々のアプローチは、まずネットワークを初期化し、初期化されたネットワークの$\ell^{2}$-$\ell^{2}$ゲインに関してデータを正規化する。
次に,提案するアルゴリズムは,高次元球面上の指数写像に基づく更新構造を取る。
負リーマン勾配のような更新方向が与えられたとき、降下の段差を決定する2つの異なる方法を提案する。
第1のアルゴリズムは、球面の結合多様体上で定義される更新曲線に沿って目的関数の自動微分を利用する。
方向二階微分情報は、ヘッセンの明示的な構成を必要とせずに利用できる。
第2のアルゴリズムは、ニューラルネットワークのアーキテクチャを意識した大規模化を通じて、プライマリゼーション最小化フレームワークを活用する。
これらの新たな開発により、提案手法は学習率の手動チューニングとスケジューリングを回避し、正規化ニューラルネットワークの最適化のための自動化パイプラインを提供する。 We propose automatic optimisation methods considering the geometry of matrix manifold for the normalised parameters of neural networks. Layerwise weight normalisation with respect to Frobenius norm is utilised to bound the Lipschitz constant and to enhance gradient reliability so that the trained networks are suitable for control applications. Our approach first initialises the network and normalises the data with respect to the $\ell^{2}$-$\ell^{2}$ gain of the initialised network. Then, the proposed algorithms take the update structure based on the exponential map on high-dimensional spheres. Given an update direction such as that of the negative Riemannian gradient, we propose two different ways to determine the stepsize for descent. The first algorithm utilises automatic differentiation of the objective function along the update curve defined on the combined manifold of spheres. The directional second-order derivative information can be utilised without requiring explicit construction of the Hessian. The second algorithm utilises the majorisation-minimisation framework via architecture-aware majorisation for neural networks. With these new developments, the proposed methods avoid manual tuning and scheduling of the learning rate, thus providing an automated pipeline for optimizing normalised neural networks. | 翻訳日:2023-12-19 15:09:06 公開日:2023-12-17 |
# open3dis: 2dマスクによるオープンボカブラリー3dインスタンスセグメンテーション Open3DIS: Open-vocabulary 3D Instance Segmentation with 2D Mask Guidance ( http://arxiv.org/abs/2312.10671v1 ) ライセンス: Link先を確認 | Phuc D.A. Nguyen, Tuan Duc Ngo, Chuang Gan, Evangelos Kalogerakis, Anh Tran, Cuong Pham and Khoi Nguyen | (参考訳) 3dシーン内のオープンボキャブラリインスタンスセグメンテーションの問題に対処するために設計された新しいソリューションであるopen3disを紹介する。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
オープンボキャブラリーなシーン理解の最近の進歩は、クラスに依存しない3dインスタンス提案ネットワークを使用して、各3dマスクのオブジェクトローカライゼーションとラーニングクエリ可能な特徴を学習することにより、この分野において大きな進歩を遂げている。
これらの手法は高品質なインスタンスの提案を生成するが、小型で幾何学的にあいまいな対象を特定するのに苦労する。
提案手法のキーとなるアイデアは,フレームにまたがって2次元のインスタンスマスクを集約し,それらを幾何学的に整合した点クラウド領域にマッピングするモジュールである。
これらを3Dクラスに依存しないインスタンスの提案と組み合わせて、現実世界に幅広いオブジェクトを含める。
このアプローチを検証するために,scannet200,s3dis,replicaという3つの著名なデータセットについて実験を行った。 We introduce Open3DIS, a novel solution designed to tackle the problem of Open-Vocabulary Instance Segmentation within 3D scenes. Objects within 3D environments exhibit diverse shapes, scales, and colors, making precise instance-level identification a challenging task. Recent advancements in Open-Vocabulary scene understanding have made significant strides in this area by employing class-agnostic 3D instance proposal networks for object localization and learning queryable features for each 3D mask. While these methods produce high-quality instance proposals, they struggle with identifying small-scale and geometrically ambiguous objects. The key idea of our method is a new module that aggregates 2D instance masks across frames and maps them to geometrically coherent point cloud regions as high-quality object proposals addressing the above limitations. These are then combined with 3D class-agnostic instance proposals to include a wide range of objects in the real world. To validate our approach, we conducted experiments on three prominent datasets, including ScanNet200, S3DIS, and Replica, demonstrating significant performance gains in segmenting objects with diverse categories over the state-of-the-art approaches. | 翻訳日:2023-12-19 15:08:28 公開日:2023-12-17 |
# Analisis Eksploratif Dan Augmentasi Data NSL-KDD Menggunakan Deep Generative Adversarial Networks Untuk Meningkatkan Performa Algoritma Extreme Gradient Boosting Dalam Klasifikasi Jenis Serangan Siber Analisis Eksploratif Dan Augmentasi Data NSL-KDD Menggunakan Deep Generative Adversarial Networks Untuk Meningkatkan Performa Algoritma Extreme Gradient Boosting Dalam Klasifikasi Jenis Serangan Siber ( http://arxiv.org/abs/2312.10669v1 ) ライセンス: Link先を確認 | K. P. Santoso, F. A. Madany, H. Suryotrisongko | (参考訳) 本研究では,NSL-KDDデータセットを拡張するためのGAN(Deep Generative Adversarial Networks)の実装を提案する。
主な目的は、nsl-kddデータセット上のサイバー攻撃の分類におけるxgboost(extreme gradient boosting)の有効性を高めることである。
その結果, GANによるデータ拡張を伴わないXGBoostモデルで99.53%, GANを用いたデータ拡張で99.78%の精度が得られた。 This study proposes the implementation of Deep Generative Adversarial Networks (GANs) for augmenting the NSL-KDD dataset. The primary objective is to enhance the efficacy of eXtreme Gradient Boosting (XGBoost) in the classification of cyber-attacks on the NSL-KDD dataset. As a result, the method proposed in this research achieved an accuracy of 99.53% using the XGBoost model without data augmentation with GAN, and 99.78% with data augmentation using GAN. | 翻訳日:2023-12-19 15:08:02 公開日:2023-12-17 |
# CACTO-SL: 軌道最適化によるソボレフ学習による連続的アクター批判の改善 CACTO-SL: Using Sobolev Learning to improve Continuous Actor-Critic with Trajectory Optimization ( http://arxiv.org/abs/2312.10666v1 ) ライセンス: Link先を確認 | Elisa Alboni, Gianluigi Grandesso, Gastone Pietro Rosati Papini, Justin Carpentier, Andrea Del Prete | (参考訳) 軌道最適化(TO)と強化学習(RL)は最適制御問題を解決するための強力な補完ツールである。
一方、局所最適解を効率的に計算できるが、問題が凸でない場合、局所最小解で立ち往生する傾向がある。
一方、RLは一般に非凸性に対する感度が低いが、より高い計算労力を必要とする。
近年,アクタークリティカルなRLアルゴリズムの探索を誘導するためにTOを用いたアルゴリズムであるCACTO(Continuous Actor-Critic with Trajectory Optimization)を提案する。
アクターがエンコードしたポリシーはウォームスタートに使用され、toとrlの間のループを閉じる。
本稿では,ソボレフ学習のアイデアを活用したCACTOの拡張について述べる。
批判ネットワークのトレーニングを迅速かつ効率的に行うために,差分動的プログラミングアルゴリズムの後方通過によって計算される値関数の勾配を用いて,それを拡張する。
その結果,新しいアルゴリズムは元のCACTOよりも効率が良く,3から10の係数でTOエピソードの数を減らし,計算時間を短縮できることがわかった。
さらに,CACTO-SLはTOの最小化に役立ち,より一貫した結果が得られることを示す。 Trajectory Optimization (TO) and Reinforcement Learning (RL) are powerful and complementary tools to solve optimal control problems. On the one hand, TO can efficiently compute locally-optimal solutions, but it tends to get stuck in local minima if the problem is not convex. On the other hand, RL is typically less sensitive to non-convexity, but it requires a much higher computational effort. Recently, we have proposed CACTO (Continuous Actor-Critic with Trajectory Optimization), an algorithm that uses TO to guide the exploration of an actor-critic RL algorithm. In turns, the policy encoded by the actor is used to warm-start TO, closing the loop between TO and RL. In this work, we present an extension of CACTO exploiting the idea of Sobolev learning. To make the training of the critic network faster and more data efficient, we enrich it with the gradient of the Value function, computed via a backward pass of the differential dynamic programming algorithm. Our results show that the new algorithm is more efficient than the original CACTO, reducing the number of TO episodes by a factor ranging from 3 to 10, and consequently the computation time. Moreover, we show that CACTO-SL helps TO to find better minima and to produce more consistent results. | 翻訳日:2023-12-19 15:07:41 公開日:2023-12-17 |
# Silkie: 大規模ビジュアル言語モデルの推奨蒸留 Silkie: Preference Distillation for Large Visual Language Models ( http://arxiv.org/abs/2312.10665v1 ) ライセンス: Link先を確認 | Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang, Liang Chen, Yazheng Yang, Benyou Wang, Lingpeng Kong | (参考訳) 本稿では,大規模視覚言語モデル(LVLM)の嗜好蒸留について検討し,視覚コンテキストに係わる有用で忠実な応答を生成する能力を向上させる。
まず,aiアノテーションを用いた視覚言語フィードバック(vlfeedback)データセットを構築した。
具体的には、12のlvlmからサンプリングされたモデルから応答を生成し、さまざまなデータセットからソースされたマルチモーダル命令を条件とする。
我々はGPT-4Vを用いて、有用性、視覚的忠実性、倫理的考察に関する出力を評価する。
さらに、直接選好最適化(DPO)法により、選好監督をQwen-VL-Chatに蒸留する。
その結果,mmeベンチマークにおいて,知覚能力と認知能力に関して6.9%,9.5%の相対的改善が得られた。
Silkieはまた、MMHal-Benchベンチマークで新しい最先端スコア3.02を設定することで幻覚を減少させる。
さらに分析したところ、我々のVLFeedbackデータセットを用いたDPOは、LVLMの微粒な認識と複雑な認識能力を主に向上させ、人間の注釈付き嗜好データセットと比較してより包括的な改善をもたらすことが示された。 This paper explores preference distillation for large vision language models (LVLMs), improving their ability to generate helpful and faithful responses anchoring the visual context. We first build a vision-language feedback (VLFeedback) dataset utilizing AI annotation. Specifically, responses are generated by models sampled from 12 LVLMs, conditioned on multi-modal instructions sourced from various datasets. We adopt GPT-4V to assess the generated outputs regarding helpfulness, visual faithfulness, and ethical considerations. Furthermore, the preference supervision is distilled into Qwen-VL-Chat through the direct preference optimization (DPO) method. The resulting model Silkie, achieves 6.9% and 9.5% relative improvement on the MME benchmark regarding the perception and cognition capabilities, respectively. Silkie also demonstrates reduced hallucination by setting a new state-of-the-art score of 3.02 on the MMHal-Bench benchmark. Further analysis shows that DPO with our VLFeedback dataset mainly boosts the fine-grained perception and complex cognition abilities of LVLMs, leading to more comprehensive improvements compared to human-annotated preference datasets. | 翻訳日:2023-12-19 15:07:16 公開日:2023-12-17 |
# 臨界点近傍の通過過程における断熱的遷移 Nonadiabatic transitions during a passage near a critical point ( http://arxiv.org/abs/2312.10664v1 ) ライセンス: Link先を確認 | Nikolai A. Sinitsyn, Vijay Ganesh Sadhasivam, Fumika Suzuki | (参考訳) 多体量子系の臨界点を通る通過は、豊富な非断熱励起をもたらす。
ここでは、システムが徐々に近づいているにもかかわらず、臨界点が交差しない体制を探求する。
このときの励起確率の先行指数は、ダイクネの公式の標準的な議論によって得られるが、指数的プレファクタはもはや単純ではなく、特性遷移速度のパワー則として振る舞う。
非線形ランダウ・ツェナーモデル(nLZ)のこのプレファクターは、ダイクネのアプローチを調整することによって導出する。
次に,スタークラダーの臨界点付近における遷移の完全可解モデルを導入する。
近似を使わずに励起数を導出し、励起スケーリングの質的に類似した結果を求める。 The passage through a critical point of a many-body quantum system leads to abundant nonadiabatic excitations. Here, we explore a regime, in which the critical point is not crossed although the system is passing slowly very close to it. We show that the leading exponent for the excitation probability then can be obtained by standard arguments of the Dykhne formula but the exponential prefactor is no longer simple, and behaves as a power law on the characteristic transition rate. We derive this prefactor for the nonlinear Landau-Zener (nLZ) model by adjusting the Dykhne's approach. Then, we introduce an exactly solvable model of the transition near a critical point in the Stark ladder. We derive the number of the excitations for it without approximations, and find qualitatively similar results for the excitation scaling. | 翻訳日:2023-12-19 15:06:57 公開日:2023-12-17 |
# クラウドコンピューティングにおける動的管理と冷却エネルギーのためのヒューリスティックスとメタヒューリスティックス Heuristics and Metaheuristics for Dynamic Management of Computing and Cooling Energy in Cloud Data Centers ( http://arxiv.org/abs/2312.10663v1 ) ライセンス: Link先を確認 | Patricia Arroba, Jos\'e L. Risco-Mart\'in, Jos\'e M. Moya and Jos\'e L. Ayala | (参考訳) データセンターはエネルギー消費の面で目覚ましい数字を処理し、クラウドアプリケーションの人気が高まり、その計算需要が増している。
さらに、サーバを信頼性の高い温度操作条件に保つために必要な冷却は、データルームの熱分布にも影響を与え、サーバの電力リークに影響を及ぼす。
これらのインフラのエネルギー消費を最適化することは、データセンターをよりスケーラブルなシナリオに配置する上で大きな課題である。
したがって、データセンターレベルでのエネルギー効率管理を実現するためには、電力、温度、凝縮、性能の関係を理解することが不可欠である。
本研究では,メタヒューリスティック最適化のグローバルエネルギー消費に基づく局所的な視点から,共同冷却と計算の最適化を実現するための新しいパワー・サーマル・アウェア戦略とモデルを提案する。
この結果から,メタヒューリスティックアルゴリズムと最適整合性アルゴリズムの両方からの認識が組み合わさって,グローバルエネルギーをより高速かつ軽量な最適化戦略に記述できることが示唆された。
このアプローチにより、コンピューティングと冷却インフラストラクチャの両方を考慮したデータセンターのエネルギー効率を、サービス品質を維持しながら最大21.74\%向上させることができる。 Data centers handle impressive high figures in terms of energy consumption, and the growing popularity of Cloud applications is intensifying their computational demand. Moreover, the cooling needed to keep the servers within reliable thermal operating conditions also has an impact on the thermal distribution of the data room, thus affecting to servers' power leakage. Optimizing the energy consumption of these infrastructures is a major challenge to place data centers on a more scalable scenario. Thus, understanding the relationship between power, temperature, consolidation and performance is crucial to enable an energy-efficient management at the data center level. In this research, we propose novel power and thermal-aware strategies and models to provide joint cooling and computing optimizations from a local perspective based on the global energy consumption of metaheuristic-based optimizations. Our results show that the combined awareness from both metaheuristic and best fit decreasing algorithms allow us to describe the global energy into faster and lighter optimization strategies that may be used during runtime. This approach allows us to improve the energy efficiency of the data center, considering both computing and cooling infrastructures, in up to a 21.74\% while maintaining quality of service. | 翻訳日:2023-12-19 15:06:45 公開日:2023-12-17 |
# Wikiformer: アドホック検索のためのウィキペディアの構造化情報による事前トレーニング Wikiformer: Pre-training with Structured Information of Wikipedia for Ad-hoc Retrieval ( http://arxiv.org/abs/2312.10661v1 ) ライセンス: Link先を確認 | Weihang Su, Qingyao Ai, Xiangsheng Li, Jia Chen, Yiqun Liu, Xiaolong Wu, Shengluan Hou | (参考訳) ディープラーニングと自然言語処理技術の発展により、事前学習言語モデルは情報検索(IR)問題を解決するために広く利用されている。
事前訓練と微調整のパラダイムから恩恵を受け、これらのモデルは最先端のパフォーマンスを達成する。
以前の作品では、ウィキペディアのプレーンテキストは事前学習段階で広く使用されている。
しかし、ウィキペディアの豊富な構造化情報(タイトル、抽象論、階層的見出し(複数階層的タイトル)構造、記事間の関係、参照、ハイパーリンク構造、執筆組織など)は、完全には調査されていない。
本稿では,ウィキペディアの構造的知識に基づいて,IRタスクに適した4つの事前学習目標を考案する。
既存の事前学習手法と比較して,本手法は,ウィキペディアの人文による構造化データを活用することにより,トレーニングコーパスにおける意味的知識をよりよく捉えることができる。
複数のIRベンチマークデータセットに対する実験結果から,既存の強力な検索ベースラインと比較して,ゼロショットと微調整の両方でモデルの性能が優れていることがわかった。
さらに, 生物医学的, 法学的な領域における実験結果から, 従来のモデルと比較して, 垂直領域では, 特に長文類似性マッチングが必要なシナリオでは, 精度が向上することが示された。 With the development of deep learning and natural language processing techniques, pre-trained language models have been widely used to solve information retrieval (IR) problems. Benefiting from the pre-training and fine-tuning paradigm, these models achieve state-of-the-art performance. In previous works, plain texts in Wikipedia have been widely used in the pre-training stage. However, the rich structured information in Wikipedia, such as the titles, abstracts, hierarchical heading (multi-level title) structure, relationship between articles, references, hyperlink structures, and the writing organizations, has not been fully explored. In this paper, we devise four pre-training objectives tailored for IR tasks based on the structured knowledge of Wikipedia. Compared to existing pre-training methods, our approach can better capture the semantic knowledge in the training corpus by leveraging the human-edited structured data from Wikipedia. Experimental results on multiple IR benchmark datasets show the superior performance of our model in both zero-shot and fine-tuning settings compared to existing strong retrieval baselines. Besides, experimental results in biomedical and legal domains demonstrate that our approach achieves better performance in vertical domains compared to previous models, especially in scenarios where long text similarity matching is needed. | 翻訳日:2023-12-19 15:06:25 公開日:2023-12-17 |
# 多視点表現学習におけるサンプル非効率の対応 Addressing Sample Inefficiency in Multi-View Representation Learning ( http://arxiv.org/abs/2312.10725v1 ) ライセンス: Link先を確認 | Kumar Krishna Agrawal, Arna Ghosh, Adam Oberman, Blake Richards | (参考訳) BarlowTwins や VICReg のような非コントラスト型自己教師学習(NC-SSL)手法は、コンピュータビジョンにおけるラベルなし表現学習に大きな可能性を示している。
これらの技術の明らかな単純さにもかかわらず、研究者は競争性能を達成するためにいくつかの経験的ヒューリスティックに頼らなければならない。
本研究では,これらのヒューリスティックスを説明するとともに,より原則的なレコメンデーションの開発を導くために,バーロウトウィンの暗黙のバイアスとビクレーグの損失に関する理論的知見を提供する。
私たちの最初の洞察は、優れた表現を学ぶために、特徴の直交性はプロジェクター次元よりも重要であるということです。
これに基づいて、我々は既存のヒューリスティックとは対照的に、低次元プロジェクターヘッドが適切な正規化に十分であることを示す。
2つ目の理論的洞察は、複数のデータ拡張を使用することがSSLの目的のデシラタをよりよく表していることを示唆しています。
この結果から,1サンプルあたりの増減量を活用することで,表現品質とトレーニング性が向上することを示す。
特に最適化の収束性が向上し、トレーニングの早い段階で新機能が出現する。
注目すべきなのは,データセットの事前トレーニングサイズを最大4倍に削減し,精度を維持しつつ,データ拡張を単純に利用することによってコンバージェンスを改善することができることだ。
これらの知見を組み合わせることで,壁時計時間の2倍向上と,resnet-50バックボーンを用いたcifar-10/stl-10データセットの性能向上を実現した,実用的な事前トレーニングレコメンデーションを提案する。
したがって、この研究はnc-sslに関する理論的洞察を提供し、そのサンプルと計算効率を向上させるための実用的な推奨を与える。 Non-contrastive self-supervised learning (NC-SSL) methods like BarlowTwins and VICReg have shown great promise for label-free representation learning in computer vision. Despite the apparent simplicity of these techniques, researchers must rely on several empirical heuristics to achieve competitive performance, most notably using high-dimensional projector heads and two augmentations of the same image. In this work, we provide theoretical insights on the implicit bias of the BarlowTwins and VICReg loss that can explain these heuristics and guide the development of more principled recommendations. Our first insight is that the orthogonality of the features is more critical than projector dimensionality for learning good representations. Based on this, we empirically demonstrate that low-dimensional projector heads are sufficient with appropriate regularization, contrary to the existing heuristic. Our second theoretical insight suggests that using multiple data augmentations better represents the desiderata of the SSL objective. Based on this, we demonstrate that leveraging more augmentations per sample improves representation quality and trainability. In particular, it improves optimization convergence, leading to better features emerging earlier in the training. Remarkably, we demonstrate that we can reduce the pretraining dataset size by up to 4x while maintaining accuracy and improving convergence simply by using more data augmentations. Combining these insights, we present practical pretraining recommendations that improve wall-clock time by 2x and improve performance on CIFAR-10/STL-10 datasets using a ResNet-50 backbone. Thus, this work provides a theoretical insight into NC-SSL and produces practical recommendations for enhancing its sample and compute efficiency. | 翻訳日:2023-12-19 14:59:26 公開日:2023-12-17 |
# 2層エミッタと少数キャビティによるパッシブフォトニック位相ゲート Passive Photonic Phase Gate via a Two-Level Emitter and Few Cavities ( http://arxiv.org/abs/2312.10719v1 ) ライセンス: Link先を確認 | Zhaohua Tian and Xue-Wen Chen | (参考訳) 2レベルエミッタと少数のキャビティからなる単純なシステムでは、単一光子量子ビットを走行するための高忠実度決定性制御-$\pi$-phaseゲートが実現可能である。
ゲートはエミッタとキャビティ間の結合速度の最適設定と適切な時間的形状の光子ウェーブパペットの使用に依存しており、これは単にゲート操作がウェーブパペットの完全な吸収と再放出のプロセスに繋がる可能性がある。
このため、位相ゲートとしての非線形媒体の使用に伴う長年の課題を回避し、ウェーブパックの歪みがない。
吸収と再放出の過程を経て、2レベルエミッタは2光子ウェーブパックの非線形$\pi$位相シフトを可能にする。
ゲートの忠実度はわずか4つのキャビティで99%以上に達することができた。
提案したゲートは受動的であり、そのアーキテクチャは集積フォトニックプラットフォームと互換性があり、近年の量子フォトニクスの発展と一致している。 We show that a simple system consisting of a two-level emitter and few cavities could realize a high-fidelity deterministic controlled-$\pi$-phase gate for traveling single-photon qubits. The gate relies on the optimal setting of the coupling rates among the emitter and cavities and the use of photon wavepackets with an appropriate temporal shape, which could simply the gate operation to a process of complete absorption and re-emission of the wavepackets. consequently, it is free of wavepacket distortions, circumventing the long-standing challenge associated with the use of nonlinear media as a phase gate. Undergoing the process of absorption and re-emission, the two-level emitter enables a nonlinear $\pi$ phase shift for the two-photon wavepacket. The gate fidelity could reach over 99% with only four cavities. The proposed gate is passive and its architecture is compatible with integrated photonic platforms and in line with recent developments in quantum photonics. | 翻訳日:2023-12-19 14:58:55 公開日:2023-12-17 |
# CogCartoon: 現実的なストーリ可視化を目指して CogCartoon: Towards Practical Story Visualization ( http://arxiv.org/abs/2312.10718v1 ) ライセンス: Link先を確認 | Zhongyang Zhu and Jie Tang | (参考訳) ストーリービジュアライゼーションの最先端の手法は、データとストレージのトレーニングと、ストーリープレゼンテーションの柔軟性の制限という大きな需要を示しており、現実のアプリケーションでは実用的ではない。
本稿では,事前学習した拡散モデルに基づく現実的なストーリー可視化手法であるCogCartoonを紹介する。
データとストレージへの依存を軽減するため、いくつかのトレーニングサンプルを用いて、特定の文字をコンパクトな316KBプラグインとして表現できる文字プラグ生成の革新的な戦略を提案する。
柔軟性を高めるため,プラグインガイドとレイアウトガイドによる推論手法を採用し,ユーザが生成した画像結果に新しい文字やカスタムレイアウトをシームレスに組み込むことができるようにした。
我々は,既存の手法よりもCagCartoonの方が優れていることを示す証拠として,総合的な質的および定量的研究を行った。
さらに、CogCartoonは、長いストーリーの可視化や現実的なスタイルのストーリーの可視化など、困難なタスクに対処する能力を示している。 The state-of-the-art methods for story visualization demonstrate a significant demand for training data and storage, as well as limited flexibility in story presentation, thereby rendering them impractical for real-world applications. We introduce CogCartoon, a practical story visualization method based on pre-trained diffusion models. To alleviate dependence on data and storage, we propose an innovative strategy of character-plugin generation that can represent a specific character as a compact 316 KB plugin by using a few training samples. To facilitate enhanced flexibility, we employ a strategy of plugin-guided and layout-guided inference, enabling users to seamlessly incorporate new characters and custom layouts into the generated image results at their convenience. We have conducted comprehensive qualitative and quantitative studies, providing compelling evidence for the superiority of CogCartoon over existing methodologies. Moreover, CogCartoon demonstrates its power in tackling challenging tasks, including long story visualization and realistic style story visualization. | 翻訳日:2023-12-19 14:58:38 公開日:2023-12-17 |
# 原始型3次元物体相互作用モデリングとプログラミング Primitive-based 3D Human-Object Interaction Modelling and Programming ( http://arxiv.org/abs/2312.10714v1 ) ライセンス: Link先を確認 | Siqi Liu, Yong-Lu Li, Zhou Fang, Xinpeng Liu, Yang You, Cewu Lu | (参考訳) ヒトと人工物相互作用(HAOI)を3次元に埋め込むことは、より深い人間の活動理解にとって重要な方向である。
パラメトリックモデルとCADモデルを用いて人や物体を表現する従来の手法とは異なり、本研究では人や物体の両方を符号化する新しい幾何学的原始言語を提案する。
新しいパラダイムを考えると、人間とオブジェクトはすべて、異種エンティティではなくプリミティブのコンポジションです。
このように、人間の限られた3次元データと異なる対象カテゴリの相互学習が達成される。
さらに,表現の単純さと情報量の豊かさを考慮し,超四重項を原始表現として選択する。
マシンにHAOIを効果的に埋め込むため,プリミティブと画像を組み合わせた3次元HAOIのベンチマークを構築し,画像からプリミティブを用いて3次元HAOIを復元するタスクを提案する。
また,HAOIを用いた一視点3次元再構成のベースラインを提案する。
この原始的な3次元HAOI表現は、3次元HAOI研究の道を開くだろう。
私たちのコードとデータはhttps://mvig-rhos.com/p3haoiで入手できます。 Embedding Human and Articulated Object Interaction (HAOI) in 3D is an important direction for a deeper human activity understanding. Different from previous works that use parametric and CAD models to represent humans and objects, in this work, we propose a novel 3D geometric primitive-based language to encode both humans and objects. Given our new paradigm, humans and objects are all compositions of primitives instead of heterogeneous entities. Thus, mutual information learning may be achieved between the limited 3D data of humans and different object categories. Moreover, considering the simplicity of the expression and the richness of the information it contains, we choose the superquadric as the primitive representation. To explore an effective embedding of HAOI for the machine, we build a new benchmark on 3D HAOI consisting of primitives together with their images and propose a task requiring machines to recover 3D HAOI using primitives from images. Moreover, we propose a baseline of single-view 3D reconstruction on HAOI. We believe this primitive-based 3D HAOI representation would pave the way for 3D HAOI studies. Our code and data are available at https://mvig-rhos.com/p3haoi. | 翻訳日:2023-12-19 14:58:21 公開日:2023-12-17 |
# 視覚的品質の高いブラックボックス型アンチフォレンジクスディープフェイクの合成 Synthesizing Black-box Anti-forensics DeepFakes with High Visual Quality ( http://arxiv.org/abs/2312.10713v1 ) ライセンス: Link先を確認 | Bing Fan, Shu Hu, Feng Ding | (参考訳) 顔の偽造物を作るためのAI技術DeepFakeは、世界的に注目を集めている。
このような状況の中で、鑑識研究者はこれらの脅威に対抗する防御アルゴリズムの開発に集中している。
対照的に、ディープフェイクの攻撃性を高めるために、例えば、反フォレンス攻撃を通じて、法医学的検出器を破壊する技術が開発されている。
しかし、このような攻撃はしばしば画像の視覚品質を犠牲にして、検出不能性が向上する。
この問題に対処するために,ブラックボックス・アンチ・フォレンシック攻撃を行うための,新たな敵用シャープニングマスクの作成法を提案する。
このような摂動が注入された多くの既存の芸術とは異なり、ディープフェイクスは視覚効果を鮮明に保ちながら高い反法医学的パフォーマンスを達成できた。
実験結果から,提案手法が最先端のDeepFake検出器を破壊できることを示した。
また,既存のディープフェイク法で処理された画像と比較して,提案法で作成したディープフェイクの視覚的特性を著しく改善した。 DeepFake, an AI technology for creating facial forgeries, has garnered global attention. Amid such circumstances, forensics researchers focus on developing defensive algorithms to counter these threats. In contrast, there are techniques developed for enhancing the aggressiveness of DeepFake, e.g., through anti-forensics attacks, to disrupt forensic detectors. However, such attacks often sacrifice image visual quality for improved undetectability. To address this issue, we propose a method to generate novel adversarial sharpening masks for launching black-box anti-forensics attacks. Unlike many existing arts, with such perturbations injected, DeepFakes could achieve high anti-forensics performance while exhibiting pleasant sharpening visual effects. After experimental evaluations, we prove that the proposed method could successfully disrupt the state-of-the-art DeepFake detectors. Besides, compared with the images processed by existing DeepFake anti-forensics methods, the visual qualities of anti-forensics DeepFakes rendered by the proposed method are significantly refined. | 翻訳日:2023-12-19 14:58:02 公開日:2023-12-17 |
# 二分決定木とランダム林における条件バイアスとその除去 The Conditioning Bias in Binary Decision Trees and Random Forests and Its Elimination ( http://arxiv.org/abs/2312.10708v1 ) ライセンス: Link先を確認 | G\'abor Tim\'ar, Gy\"orgy Kov\'acs | (参考訳) 決定木と無作為な森林分類と回帰は機械学習のアプローチで最も広く使われている。
バイナリ決定木の実装では、通常‘feature $\leq$(または$<$)しきい値’という形式で条件付けを使用し、しきい値が観察された2つの特徴値の中間点である。
本稿では,条件付き演算子(実装の本質的特性)の選択による格子特性を持つ特徴の存在下でのバイアスについて検討する。
我々は,このバイアスを解消する手法を提案し,決定木によるさらなる予測とランダム林のコストを発生させないことを求めた。
20の分類と20の回帰データセットを用いて、AUCと$r^2$のスコアで統計的に有意な差が生じることを示した。
提案手法は, 最悪のシナリオと比較して, AUCの0.1-0.2ポイントと$r^2$スコアの統計的に有意な改善が達成され, 最も敏感な森林回帰の場合, 1.5ポイントの$r^2$スコアの改善が測定された。
この研究の実装は以下のリポジトリでgithubで入手できる。 Decision tree and random forest classification and regression are some of the most widely used in machine learning approaches. Binary decision tree implementations commonly use conditioning in the form 'feature $\leq$ (or $<$) threshold', with the threshold being the midpoint between two observed feature values. In this paper, we investigate the bias introduced by the choice of conditioning operator (an intrinsic property of implementations) in the presence of features with lattice characteristics. We propose techniques to eliminate this bias, requiring an additional prediction with decision trees and incurring no cost for random forests. Using 20 classification and 20 regression datasets, we demonstrate that the bias can lead to statistically significant differences in terms of AUC and $r^2$ scores. The proposed techniques successfully mitigate the bias, compared to the worst-case scenario, statistically significant improvements of up to 0.1-0.2 percentage points of AUC and $r^2$ scores were achieved and the improvement of 1.5 percentage points of $r^2$ score was measured in the most sensitive case of random forest regression. The implementation of the study is available on GitHub at the following repository: \url{https://github.com/gykovacs/conditioning_bias}. | 翻訳日:2023-12-19 14:57:45 公開日:2023-12-17 |
# CLDR:自然言語スーパービジョンによる対照的学習薬物応答モデル CLDR: Contrastive Learning Drug Response Models from Natural Language Supervision ( http://arxiv.org/abs/2312.10707v1 ) ライセンス: Link先を確認 | Kun Li, Wenbin Hu | (参考訳) 深層学習に基づく薬物反応予測(DRP)法は、薬物発見プロセスを加速し、研究開発コストを削減できる。
本手法は応答回帰の予測において高い精度を達成するが,これらの手法の回帰認識表現は断片化され,サンプル順序の連続性を捉えることができない。
この現象は、最適解空間に最適化されたモデルにつながり、一般化能力が低下し、薬物発見フェーズでかなりの無駄なコストが発生する可能性がある。
本稿では, DRP を自然言語で管理するコントラスト学習フレームワークである \MN を提案する。
\mn~は回帰ラベルをテキストに変換し、従来のモダリティ(グラフ、シーケンス)と比較して、サンプルの第二のモダリティとして薬物応答のキャプションテキストとマージする。
各バッチでは、1つのサンプルの2つのモダリティは正のペア、もう1つのペアは負のペアと見なされる。
同時に、数値テキストの連続表現能力を高めるために、常識的な数値知識グラフを導入する。
がんデータセットにおける薬物感受性のゲノミクス(Genomics of Drug Sensitivity)から数十万のサンプルを検証し,DRP法の平均改善率は7.8\%から31.4\%であった。
実験により, サンプルを表現空間内の連続分布に効果的に拘束し, 事前学習後の微調整をわずかに行うことで, 印象的な予測性能が得られることがわかった。
コードは \url{https://gitee.com/xiaoyibang/clipdrug.git} で入手できる。 Deep learning-based drug response prediction (DRP) methods can accelerate the drug discovery process and reduce R\&D costs. Although the mainstream methods achieve high accuracy in predicting response regression values, the regression-aware representations of these methods are fragmented and fail to capture the continuity of the sample order. This phenomenon leads to models optimized to sub-optimal solution spaces, reducing generalization ability and may result in significant wasted costs in the drug discovery phase. In this paper, we propose \MN, a contrastive learning framework with natural language supervision for the DRP. The \MN~converts regression labels into text, which is merged with the captions text of the drug response as a second modality of the samples compared to the traditional modalities (graph, sequence). In each batch, two modalities of one sample are considered positive pairs and the other pairs are considered negative pairs. At the same time, in order to enhance the continuous representation capability of the numerical text, a common-sense numerical knowledge graph is introduced. We validated several hundred thousand samples from the Genomics of Drug Sensitivity in Cancer dataset, observing the average improvement of the DRP method ranges from 7.8\% to 31.4\% with the application of our framework. The experiments prove that the \MN~effectively constrains the samples to a continuous distribution in the representation space, and achieves impressive prediction performance with only a few epochs of fine-tuning after pre-training. The code is available at: \url{https://gitee.com/xiaoyibang/clipdrug.git}. | 翻訳日:2023-12-19 14:57:24 公開日:2023-12-17 |
# 少ない観察で学ぶための数値samの強化 Enhancing Numeric-SAM for Learning with Few Observations ( http://arxiv.org/abs/2312.10705v1 ) ライセンス: Link先を確認 | Argaman Mordoch, Shahaf S. Shperberg, Roni Stern, Berndan Juba | (参考訳) 現実の問題に計画技術を適用する上で重要な課題は、問題のダイナミクスを正確に表現する計画モデルを得ることである。
Numeric Safe Action Models Learning (N-SAM)は、この問題に対処するアルゴリズムである。
離散状態変数と連続状態変数の両方を含む可能性のある領域における観測から、動作の前提条件と効果を学ぶように設計されたアルゴリズムである。
N-SAMにはいくつかの魅力的な性質がある。
多項式時間で動作し、それが生成する計画が適用可能であり、意図した目標を達成するという意味で、安全なアクションモデルを出力することが保証される。
この安全性を確保するために、N-SAMは学習されたアクションモデルに含まれる前に、各アクションのかなりの数の例を観察しなければならない。
我々は、N-SAMのこの制限に対処し、N-SAMの強化版であるN-SAM*を提案する。
N-SAM*は返却されたアクションモデルの安全性を損なうことなくそうする。
安全性を保証する他のアルゴリズムと比較して, N-SAM* は標本の複雑さの観点から最適であることを示す。
ベンチマーク領域の集合に関する実証的研究は、N-SAM* で返されるアクションモデルが N-SAM で返されるアクションモデルと比較して、はるかに多くの問題を解決することができることを示している。 A significant challenge in applying planning technology to real-world problems lies in obtaining a planning model that accurately represents the problem's dynamics. Numeric Safe Action Models Learning (N-SAM) is a recently proposed algorithm that addresses this challenge. It is an algorithm designed to learn the preconditions and effects of actions from observations in domains that may involve both discrete and continuous state variables. N-SAM has several attractive properties. It runs in polynomial time and is guaranteed to output an action model that is safe, in the sense that plans generated by it are applicable and will achieve their intended goals. To preserve this safety guarantee, N-SAM must observe a substantial number of examples for each action before it is included in the learned action model. We address this limitation of N-SAM and propose N-SAM*, an enhanced version of N-SAM that always returns an action model where every observed action is applicable at least in some state, even if it was only observed once. N-SAM* does so without compromising the safety of the returned action model. We prove that N-SAM* is optimal in terms of sample complexity compared to any other algorithm that guarantees safety. An empirical study on a set of benchmark domains shows that the action models returned by N-SAM* enable solving significantly more problems compared to the action models returned by N-SAM. | 翻訳日:2023-12-19 14:56:57 公開日:2023-12-17 |
# 持続ホモロジーはトランスフォーマーに基づくブラックボックスモデルでも可能か?
BERT圧縮のケーススタディ Can persistent homology whiten Transformer-based black-box models? A case study on BERT compression ( http://arxiv.org/abs/2312.10702v1 ) ライセンス: Link先を確認 | Luis Balderas, Miguel Lastra and Jos\'e M. Ben\'itez | (参考訳) BERTのような大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を持つため、大きな注目を集めている。
しかし、計算とメモリのコストはかなり高い。
さらに、それらは本質的にブラックボックスモデルであり、説明と解釈が難しい。
本稿では、持続的ホモロジーを用いてBERTモデルに説明可能性をもたらす手法であるOBCE(Optimus BERT Compression and Explainability)を提案する。
その結果、BERT のパラメータ数(BERT Base の元のパラメータの58.47%、BERT Large の52.3%)を小さくすることで、BERT を著しく圧縮できる。
提案手法を標準GLUEベンチマークで評価し,その結果を最先端技術と比較し,優れた結果を得た。
その結果,提案手法は,ニューロンに説明可能性を提供し,モデルのサイズを小さくすることで,BERTモデルを"白化"することができる。 Large Language Models (LLMs) like BERT have gained significant prominence due to their remarkable performance in various natural language processing tasks. However, they come with substantial computational and memory costs. Additionally, they are essentially black-box models, challenging to explain and interpret. In this article, we propose Optimus BERT Compression and Explainability (OBCE), a methodology to bring explainability to BERT models using persistent homology, aiming to measure the importance of each neuron by studying the topological characteristics of their outputs. As a result, we can compress BERT significantly by reducing the number of parameters (58.47% of the original parameters for BERT Base, 52.3% for BERT Large). We evaluated our methodology on the standard GLUE Benchmark, comparing the results with state-of-the-art techniques and achieving outstanding results. Consequently, our methodology can "whiten" BERT models by providing explainability to its neurons and reducing the model's size, making it more suitable for deployment on resource-constrained devices. | 翻訳日:2023-12-19 14:56:36 公開日:2023-12-17 |
# Bengaliライセンスプレート認識:CNNとGFP-GANによる明確化 Bengali License Plate Recognition: Unveiling Clarity with CNN and GFP-GAN ( http://arxiv.org/abs/2312.10701v1 ) ライセンス: Link先を確認 | Noushin Afrin, Md Mahamudul Hasan, Mohammed Fazlay Elahi Safin, Khondakar Rifat Amin, Md Zahidul Haque, Farzad Ahmed, and Md. Tanvir Rouf Shawon | (参考訳) ALPR(Automated License Plate Recognition)は、画像処理とコンピュータビジョン技術を用いて車両ナンバープレートからデータを自動的に読み出し抽出するシステムである。
LPRのゴールは、ライト不足、アングルや不明瞭なプレート、異なるプレートフォントやレイアウトといった困難な条件下であっても、ライセンスプレート番号を正確かつ迅速に識別し、読み取ることである。
提案手法は, ベンガルの低解像度のぼかしプレートを処理し, プレートの文字を識別する。
このプロセスには、GFPGANを用いた画像復元、コントラストの最大化、拡張のような形態的画像処理、特徴抽出、畳み込みニューラルネットワーク(CNN)の利用、文字分割と認識が実現されている。
この計画のために1292枚のベンガル数字と文字のデータセットが作成された。 Automated License Plate Recognition(ALPR) is a system that automatically reads and extracts data from vehicle license plates using image processing and computer vision techniques. The Goal of LPR is to identify and read the license plate number accurately and quickly, even under challenging, conditions such as poor lighting, angled or obscured plates, and different plate fonts and layouts. The proposed method consists of processing the Bengali low-resolution blurred license plates and identifying the plate's characters. The processes include image restoration using GFPGAN, Maximizing contrast, Morphological image processing like dilation, feature extraction and Using Convolutional Neural Networks (CNN), character segmentation and recognition are accomplished. A dataset of 1292 images of Bengali digits and characters was prepared for this project. | 翻訳日:2023-12-19 14:56:18 公開日:2023-12-17 |
# Transformer-based Keyphrase 生成のクロスドメインロバスト性 Cross-Domain Robustness of Transformer-based Keyphrase Generation ( http://arxiv.org/abs/2312.10700v1 ) ライセンス: Link先を確認 | Anna Glazkova and Dmitry Morozov | (参考訳) 現代のテキスト生成モデルは、多くの自然言語処理タスクにおいて最先端の結果を示す。
本研究では,キーフレーズ選択のための抽象テキスト要約モデルの有効性について検討する。
キーフレーズのリストは、電子文書のデータベースやリポジトリにおけるテキストの重要な要素である。
本実験では,キーフレーズ生成のために微調整された抽象テキスト要約モデルを用いて,目的のテキストコーパスに対して高い結果を示す。
しかし、ほとんどの場合、他のコーパスやドメインでのゼロショットパフォーマンスは大幅に低下する。
キーフレーズ生成のための抽象テキスト要約モデルのドメイン間制限について検討する。
本稿では,キーフレーズ抽出のための6つのベンチマークコーパスを対象に,キーフレーズ選択タスクのための細調整BARTモデルの評価を行った。
テキストコーパスにおけるBARTモデルの性能向上のために,異なる領域間での伝達学習の役割について検討する。
実験の結果,少数のサンプルの条件下では,領域外コーパスの事前微調整が有効であることがわかった。 Modern models for text generation show state-of-the-art results in many natural language processing tasks. In this work, we explore the effectiveness of abstractive text summarization models for keyphrase selection. A list of keyphrases is an important element of a text in databases and repositories of electronic documents. In our experiments, abstractive text summarization models fine-tuned for keyphrase generation show quite high results for a target text corpus. However, in most cases, the zero-shot performance on other corpora and domains is significantly lower. We investigate cross-domain limitations of abstractive text summarization models for keyphrase generation. We present an evaluation of the fine-tuned BART models for the keyphrase selection task across six benchmark corpora for keyphrase extraction including scientific texts from two domains and news texts. We explore the role of transfer learning between different domains to improve the BART model performance on small text corpora. Our experiments show that preliminary fine-tuning on out-of-domain corpora can be effective under conditions of a limited number of samples. | 翻訳日:2023-12-19 14:56:01 公開日:2023-12-17 |
# 解釈可能な深層学習による皮膚癌の分類 An Interpretable Deep Learning Approach for Skin Cancer Categorization ( http://arxiv.org/abs/2312.10696v1 ) ライセンス: Link先を確認 | Faysal Mahmud, Md. Mahin Mahfiz, Md. Zobayer Ibna Kabir, Yusha Abdullah | (参考訳) 皮膚がんは世界中で深刻な健康問題であり、患者のより良い結果と効果的な治療には正確かつ早期発見が不可欠である。
本研究では,最新のディープラーニング手法と説明可能な人工知能(XAI)アプローチを用いて皮膚がん検出の課題に対処する。
皮膚病変の分類には,XceptionNet,EfficientNetV2S,InceptionResNetV2,EfficientNetV2Mの4つの最先端事前訓練モデルを用いる。
画像拡張アプローチは、クラス不均衡を減らし、モデルの一般化能力を改善するために用いられる。
我々のモデル決定プロセスは、説明可能な人工知能(XAI)の実装により解明できる。
医療分野では、信頼性を確立し、AI駆動診断技術を臨床ワークフローに実装しやすくするために、解釈可能性が不可欠である。
我々はXceptionNetアーキテクチャを最高のパフォーマンスモデルとし、88.72%の精度を実現した。
我々の研究は、深層学習と説明可能な人工知能(XAI)が皮膚がんの診断をいかに改善するかを示し、医用画像解析における今後の発展の土台を築いた。
早期かつ正確な検出を可能にするこれらの技術は、患者のケアを強化し、医療コストを下げ、皮膚がん患者の生存率を高めることができる。
ソースコード:https://github.com/Faysal-MD/An-Interpretable-Deep-Learning?
皮膚シンセサイザー分類へのアプローチ-IEEE2023 Skin cancer is a serious worldwide health issue, precise and early detection is essential for better patient outcomes and effective treatment. In this research, we use modern deep learning methods and explainable artificial intelligence (XAI) approaches to address the problem of skin cancer detection. To categorize skin lesions, we employ four cutting-edge pre-trained models: XceptionNet, EfficientNetV2S, InceptionResNetV2, and EfficientNetV2M. Image augmentation approaches are used to reduce class imbalance and improve the generalization capabilities of our models. Our models decision-making process can be clarified because of the implementation of explainable artificial intelligence (XAI). In the medical field, interpretability is essential to establish credibility and make it easier to implement AI driven diagnostic technologies into clinical workflows. We determined the XceptionNet architecture to be the best performing model, achieving an accuracy of 88.72%. Our study shows how deep learning and explainable artificial intelligence (XAI) can improve skin cancer diagnosis, laying the groundwork for future developments in medical image analysis. These technologies ability to allow for early and accurate detection could enhance patient care, lower healthcare costs, and raise the survival rates for those with skin cancer. Source Code: https://github.com/Faysal-MD/An-Interpretable-Deep-Learning?Approach-for-Skin-Cancer-Categorization- IEEE2023 | 翻訳日:2023-12-19 14:55:49 公開日:2023-12-17 |
# 非パラメトリック戦略テスト Nonparametric Strategy Test ( http://arxiv.org/abs/2312.10695v1 ) ライセンス: Link先を確認 | Sam Ganzfried | (参考訳) エージェントプレイのサンプルを与えられた戦略形ゲームにおいて,エージェントが所定の混合戦略に従っているかどうかを判定するための非パラメトリック統計テストを行う。
エージェントの純粋な戦略の周波数がターゲットの周波数に十分近いかどうかを判定し、選択した純粋な戦略が異なるゲームイテレーション間で独立であるかどうかを決定する。
統合テストでは,第1成分に対する適合性テストと,第2成分に対する一般化されたwald-wolfowitz実行テストを適用した。
両テストの結果は、ボンフェロニ補正を用いて、与えられた意味レベル$\alphaの完全なテストを生成する。
このテストは、人間のロックペーパー・シグナープレイの公開データに適用した。
データは500人のプレーヤーのための50回のプレイから成り立っている。
我々は、プレイヤーが各ゲームイテレーションで独立して一様ランダム戦略に従っているというヌル仮説でテストする。
重要度レベル$\alpha = 0.05$を用いて、被験者の305 (61%) が目標戦略に従っていると結論づける。 We present a nonparametric statistical test for determining whether an agent is following a given mixed strategy in a repeated strategic-form game given samples of the agent's play. This involves two components: determining whether the agent's frequencies of pure strategies are sufficiently close to the target frequencies, and determining whether the pure strategies selected are independent between different game iterations. Our integrated test involves applying a chi-squared goodness of fit test for the first component and a generalized Wald-Wolfowitz runs test for the second component. The results from both tests are combined using Bonferroni correction to produce a complete test for a given significance level $\alpha.$ We applied the test to publicly available data of human rock-paper-scissors play. The data consists of 50 iterations of play for 500 human players. We test with a null hypothesis that the players are following a uniform random strategy independently at each game iteration. Using a significance level of $\alpha = 0.05$, we conclude that 305 (61%) of the subjects are following the target strategy. | 翻訳日:2023-12-19 14:55:24 公開日:2023-12-17 |
# 離散木:機械学習による街頭官僚主義の理解 Discretionary Trees: Understanding Street-Level Bureaucracy via Machine Learning ( http://arxiv.org/abs/2312.10694v1 ) ライセンス: Link先を確認 | Gaurab Pokharel, Sanmay Das, Patrick J. Fowler | (参考訳) ストリートレベルの官僚は、例えば社会サービスや警察の管理など、幅広い機能を実行するために、政府機関に代わって直接人々と対話する。
ストリートレベルの官僚主義の重要な特徴は、公務員が代理店の政策を遂行する一方で、個別のケースにその政策を適用する方法に大きな裁量を受けることである。
この判断を使用することは、人間の相互作用や評価に基づくポリシーの例外を許容するだけでなく、バイアスや不平等が社会的資源配分の重要な領域に浸透することを可能にするため、有益である。
本稿では,街頭官僚の行動を理解するために機械学習技術を用いる。
課題が定式化されていない期間に割り当てられたホームレスの介入に関する情報と、世帯の人口統計やその他の情報を組み合わせた、豊富なデータセットを活用する。
この時点でのケースワーカの決定は全体として非常に予測可能であり、いくつかのケースでは、これらの予測性はすべて単純な決定ルールによって捉えられるわけではない。
単純な決定規則に従わない決定は、ケースワーナーの判断の応用と見なすことができると我々は論じる。
これらの決定は、そのような家庭の特徴と、決定の結果の両面において、決してランダムではない。
ケースワーカーは通常、脆弱でないと考えられる家庭にのみ裁量を適用する。
世帯をより集中的な介入に割り当てる判断を下すと、それらの世帯に対する限界利益は、ランダムに選択された場合よりもはるかに高くなり、排他的に少ない集中的な介入を割り当てられた世帯に対する限界利益は、同様に減少せず、事例労働者が自分の知識を用いて成果を向上していることを示唆している。 Street-level bureaucrats interact directly with people on behalf of government agencies to perform a wide range of functions, including, for example, administering social services and policing. A key feature of street-level bureaucracy is that the civil servants, while tasked with implementing agency policy, are also granted significant discretion in how they choose to apply that policy in individual cases. Using that discretion could be beneficial, as it allows for exceptions to policies based on human interactions and evaluations, but it could also allow biases and inequities to seep into important domains of societal resource allocation. In this paper, we use machine learning techniques to understand street-level bureaucrats' behavior. We leverage a rich dataset that combines demographic and other information on households with information on which homelessness interventions they were assigned during a period when assignments were not formulaic. We find that caseworker decisions in this time are highly predictable overall, and some, but not all of this predictivity can be captured by simple decision rules. We theorize that the decisions not captured by the simple decision rules can be considered applications of caseworker discretion. These discretionary decisions are far from random in both the characteristics of such households and in terms of the outcomes of the decisions. Caseworkers typically only apply discretion to households that would be considered less vulnerable. When they do apply discretion to assign households to more intensive interventions, the marginal benefits to those households are significantly higher than would be expected if the households were chosen at random; there is no similar reduction in marginal benefit to households that are discretionarily allocated less intensive interventions, suggesting that caseworkers are improving outcomes using their knowledge. | 翻訳日:2023-12-19 14:55:02 公開日:2023-12-17 |
# 一般化ガウスRBFが生成したケルネルヒルベルト空間を$L^2-$ measureとするアポイントメント An appointment with Reproducing Kernel Hilbert Space generated by Generalized Gaussian RBF as $L^2-$measure ( http://arxiv.org/abs/2312.10693v1 ) ライセンス: Link先を確認 | Himanshu Singh | (参考訳) Gaussian Radial Basis Function (RBF) Kernelsは、人工知能や機械学習のルーチンにおいて最も多く採用されているカーネルであり、それぞれのカウンターパートとは対照的に最適な結果を提供する。
しかし、カーネル回帰、サポートベクターマシン(SVM)、ニューラルネットワークによるパターン認識など、さまざまな機械学習アルゴリズムに対する一般化ガウスラジアル基底関数の適用についてはほとんど知られていない。
カーネル感覚における一般化されたガウス的RBFにより得られる結果は、ガウス的RBFカーネル、シグモイド関数、ReLU関数と対照的に、スターク的に優れる。
この原稿は、前述の機械学習ルーチンに対する一般化ガウスRBFのカーネルセンスへの応用と、上記の関数との比較を実証している。 Gaussian Radial Basis Function (RBF) Kernels are the most-often-employed kernels in artificial intelligence and machine learning routines for providing optimally-best results in contrast to their respective counter-parts. However, a little is known about the application of the Generalized Gaussian Radial Basis Function on various machine learning algorithms namely, kernel regression, support vector machine (SVM) and pattern-recognition via neural networks. The results that are yielded by Generalized Gaussian RBF in the kernel sense outperforms in stark contrast to Gaussian RBF Kernel, Sigmoid Function and ReLU Function. This manuscript demonstrates the application of the Generalized Gaussian RBF in the kernel sense on the aforementioned machine learning routines along with the comparisons against the aforementioned functions as well. | 翻訳日:2023-12-19 14:54:35 公開日:2023-12-17 |
# M3DBench: マルチモーダル3Dプロンプトで大規模モデルをインストラクションする M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts ( http://arxiv.org/abs/2312.10763v1 ) ライセンス: Link先を確認 | Mingsheng Li, Xin Chen, Chi Zhang, Sijin Chen, Hongyuan Zhu, Fukun Yin, Gang Yu, Tao Chen | (参考訳) 近年,自律エージェントのさらなる意思決定を促進するために3D理解が普及している。
しかし、既存の3Dデータセットとメソッドは、しばしば特定のタスクに限定される。
一方,Large Language Models (LLMs) とMultimodal Language Models (MLMs) の最近の進歩は,優れた汎用言語と画像処理性能を示している。
したがって、より広いタスクで3dジェネラリストになるmlmの可能性を解き放つのは興味深い。
しかし、MLMの現在の研究は、大規模な3D命令追従データセットが不足しているため、3Dタスクに注力していない。
本稿では,M3DBenchと呼ばれる包括的3Dインストラクション追従データセットについて紹介する。
1)テキスト,画像,3Dオブジェクト,その他の視覚的プロンプトをインターリーブした一般的なマルチモーダル命令をサポートする。
2)現実世界の3D環境において,多様な3Dタスクを領域レベルとシーンレベルで統一し,様々な基本能力をカバーしている。
3)320k以上の命令応答対を持つ大規模3次元命令追従データセットである。
さらに,マルチモーダル3dプロンプトの理解において,大規模モデルの性能を評価するための新しいベンチマークを確立する。
大規模な実験は、我々のデータセットとベースラインの有効性を示し、将来の研究を刺激する一般的な3D中心のタスクをサポートします。 Recently, 3D understanding has become popular to facilitate autonomous agents to perform further decisionmaking. However, existing 3D datasets and methods are often limited to specific tasks. On the other hand, recent progress in Large Language Models (LLMs) and Multimodal Language Models (MLMs) have demonstrated exceptional general language and imagery tasking performance. Therefore, it is interesting to unlock MLM's potential to be 3D generalist for wider tasks. However, current MLMs' research has been less focused on 3D tasks due to a lack of large-scale 3D instruction-following datasets. In this work, we introduce a comprehensive 3D instructionfollowing dataset called M3DBench, which possesses the following characteristics: 1) It supports general multimodal instructions interleaved with text, images, 3D objects, and other visual prompts. 2) It unifies diverse 3D tasks at both region and scene levels, covering a variety of fundamental abilities in real-world 3D environments. 3) It is a large-scale 3D instruction-following dataset with over 320k instruction-response pairs. Furthermore, we establish a new benchmark for assessing the performance of large models in understanding multi-modal 3D prompts. Extensive experiments demonstrate the effectiveness of our dataset and baseline, supporting general 3D-centric tasks, which can inspire future research. | 翻訳日:2023-12-19 14:49:21 公開日:2023-12-17 |
# SHaRPose:人間の姿勢推定のためのスパース高分解能表現 SHaRPose: Sparse High-Resolution Representation for Human Pose Estimation ( http://arxiv.org/abs/2312.10758v1 ) ライセンス: Link先を確認 | Xiaoqi An, Lin Zhao, Chen Gong, Nannan Wang, Di Wang, Jian Yang | (参考訳) 高分解能表現は人間のポーズ推定モデルにおいて優れた性能を達成するために不可欠である。
このような特徴を得るために、既存の作品は高精細な入力画像やきめ細かい画像トークンを利用する。
しかし、この密集した高解像度表現は大きな計算負荷をもたらす。
本稿では,「人間のポーズ推定のために,人間のキーポイント位置が狭く検出されている場合,画像全体を高精細で高精細な方法で表現する必要があるか?」という疑問に対処する。
動的トランスモデルに基づいて,人間の姿勢推定(SHaRPose)にスパース高解像度表現のみを用いるフレームワークを提案する。
SHaRPoseは2つの段階から構成される。
粗い段階では、粗い推定が行われる間、画像領域とキーポイントの関係を動的にマイニングする。
そして、粗さ推定結果を洗練すべきかを判断するために品質予測器を適用する。
細かい段階では、SHaRPoseはキーポイントに関連する領域のみに細かな高解像度表現を構築し、洗練された高精度な人間のポーズ推定を提供する。
広範な実験により,提案手法の優れた性能を示す。
具体的には、最先端手法であるViTPoseと比較して、我々のモデルであるSHaRPose-Baseは、COCO検証セット上で77.4 AP(+0.5 AP)、COCOテストデブセットで76.7 AP(+0.5 AP)を達成し、ViTPose-Baseより1.4\times$速い速度で推定する。 High-resolution representation is essential for achieving good performance in human pose estimation models. To obtain such features, existing works utilize high-resolution input images or fine-grained image tokens. However, this dense high-resolution representation brings a significant computational burden. In this paper, we address the following question: "Only sparse human keypoint locations are detected for human pose estimation, is it really necessary to describe the whole image in a dense, high-resolution manner?" Based on dynamic transformer models, we propose a framework that only uses Sparse High-resolution Representations for human Pose estimation (SHaRPose). In detail, SHaRPose consists of two stages. At the coarse stage, the relations between image regions and keypoints are dynamically mined while a coarse estimation is generated. Then, a quality predictor is applied to decide whether the coarse estimation results should be refined. At the fine stage, SHaRPose builds sparse high-resolution representations only on the regions related to the keypoints and provides refined high-precision human pose estimations. Extensive experiments demonstrate the outstanding performance of the proposed method. Specifically, compared to the state-of-the-art method ViTPose, our model SHaRPose-Base achieves 77.4 AP (+0.5 AP) on the COCO validation set and 76.7 AP (+0.5 AP) on the COCO test-dev set, and infers at a speed of $1.4\times$ faster than ViTPose-Base. | 翻訳日:2023-12-19 14:48:58 公開日:2023-12-17 |
# 移動音源シナリオにおける注意駆動型マルチチャネル音声強調 Attention-Driven Multichannel Speech Enhancement in Moving Sound Source Scenarios ( http://arxiv.org/abs/2312.10756v1 ) ライセンス: Link先を確認 | Yuzhu Wang, Archontis Politis, Tuomas Virtanen | (参考訳) 現在のマルチチャネル音声強調アルゴリズムは、通常静止音源を前提としており、現実のシナリオでの性能を制限する現実と共通するミスマッチである。
本稿では,動的設定に適した空間フィルタリング技術について述べる。
具体的には,フィルタの設計に用いる時変空間共分散行列の推定における線形および非線形注意に基づく手法の適用について検討する。
また,空間統計を明示的に見積もることなく,注意に基づく空間フィルタの直接推定についても検討した。
WSJ0のクリーン音声クリップは、残響環境における移動話者の音声信号をシミュレートするために使用される。
実験データセットは、chime-3からのシミュレーション音声信号とマルチチャネル実雑音を混合して構築する。
評価の結果,静音環境と動音環境の両方において,注意駆動アプローチは頑健であり,従来の空間フィルタリング手法よりも一貫して優れていた。 Current multichannel speech enhancement algorithms typically assume a stationary sound source, a common mismatch with reality that limits their performance in real-world scenarios. This paper focuses on attention-driven spatial filtering techniques designed for dynamic settings. Specifically, we study the application of linear and nonlinear attention-based methods for estimating time-varying spatial covariance matrices used to design the filters. We also investigate the direct estimation of spatial filters by attention-based methods without explicitly estimating spatial statistics. The clean speech clips from WSJ0 are employed for simulating speech signals of moving speakers in a reverberant environment. The experimental dataset is built by mixing the simulated speech signals with multichannel real noise from CHiME-3. Evaluation results show that the attention-driven approaches are robust and consistently outperform conventional spatial filtering approaches in both static and dynamic sound environments. | 翻訳日:2023-12-19 14:48:31 公開日:2023-12-17 |
# 人間、NMT、ChatGPTによる翻訳の廃止:言語学的および統計的アプローチ Distinguishing Translations by Human, NMT, and ChatGPT: A Linguistic and Statistical Approach ( http://arxiv.org/abs/2312.10750v1 ) ライセンス: Link先を確認 | Zhaokun Jiang and Qianxi Lv and Ziyin Zhang | (参考訳) ニューラルネットワーク翻訳(NMT)や、ChatGPTで表されるLLMの普及は、それらの特徴と関係性をより深く理解する必要性を浮き彫りにしている。
このような理解は、言語専門家や研究者にとって、これらの最先端翻訳技術の情報的決定と正確な利用が不可欠である。
本研究の目的は,(1) NMTとヒト翻訳(HT)からのChatGPT生成翻訳の識別可能性,(2)各翻訳の言語的特徴,(3) ChatGPT生成翻訳とHT,あるいはNMTとの類似度,という3つの重要な疑問に答えることで,このギャップを埋めることである。
これらの目的を達成するために、統計テスト、機械学習アルゴリズム、多次元分析(mda)を用いて、スポークスマンの発言とその翻訳を分析する。
幅広い言語的特徴を抽出した後、教師付き分類器は3つの翻訳タイプを区別する上で高い精度を示す一方、教師なしクラスタリング技術は良好な結果を出さない。
もう一つの大きな発見は、ChatGPTで生成された翻訳は、ほとんどのMDA次元において、HTよりもNMTとの類似性が高いことである。
これらの新たな洞察は、3つの翻訳タイプ間の相互関係に光を当て、NMTと生成AIの将来的な進歩に影響を及ぼす。 The growing popularity of neural machine translation (NMT) and LLMs represented by ChatGPT underscores the need for a deeper understanding of their distinct characteristics and relationships. Such understanding is crucial for language professionals and researchers to make informed decisions and tactful use of these cutting-edge translation technology, but remains underexplored. This study aims to fill this gap by investigating three key questions: (1) the distinguishability of ChatGPT-generated translations from NMT and human translation (HT), (2) the linguistic characteristics of each translation type, and (3) the degree of resemblance between ChatGPT-produced translations and HT or NMT. To achieve these objectives, we employ statistical testing, machine learning algorithms, and multidimensional analysis (MDA) to analyze Spokesperson's Remarks and their translations. After extracting a wide range of linguistic features, supervised classifiers demonstrate high accuracy in distinguishing the three translation types, whereas unsupervised clustering techniques do not yield satisfactory results. Another major finding is that ChatGPT-produced translations exhibit greater similarity with NMT than HT in most MDA dimensions, which is further corroborated by distance computing and visualization. These novel insights shed light on the interrelationships among the three translation types and have implications for the future advancements of NMT and generative AI. | 翻訳日:2023-12-19 14:48:16 公開日:2023-12-17 |
# 大規模言語モデルを用いた新型コロナツイートのマルチラベル分類 Multi-Label Classification of COVID-Tweets Using Large Language Models ( http://arxiv.org/abs/2312.10748v1 ) ライセンス: Link先を確認 | Aniket Deroy, Subhankar Maity | (参考訳) ワクチンは様々な病気のリスクと拡散を最小限にするために重要である。
近年、ワクチン接種は新型コロナウイルスのパンデミックに対抗する重要なステップとなっている。
しかし、政治やワクチンの潜在的な副作用など、様々な理由からワクチンの使用に懐疑的な人は多い。
このタスクの目標は、投稿の著者が表現したワクチンに対する特定の懸念に応じて、ソーシャルメディア投稿(特にツイート)をラベル付けするための効果的なマルチラベル分類器を構築することである。
3つの異なるモデルを試しました
(a)監督されたBERT大型未使用。
b) 監督されたHateXplainモデル及び
(c)ゼロショット GPT-3.5 ターボモデル。
Supervised BERT-large-uncased model が有効であった。
マクロf1得点0.66,jaccard類似点0.66を達成し,他の応募者の中で6位となった。
コードは、https://github.com/anonmous 1981/aisomeで入手できる。 Vaccination is important to minimize the risk and spread of various diseases. In recent years, vaccination has been a key step in countering the COVID-19 pandemic. However, many people are skeptical about the use of vaccines for various reasons, including the politics involved, the potential side effects of vaccines, etc. The goal in this task is to build an effective multi-label classifier to label a social media post (particularly, a tweet) according to the specific concern(s) towards vaccines as expressed by the author of the post. We tried three different models-(a) Supervised BERT-large-uncased, (b) Supervised HateXplain model, and (c) Zero-Shot GPT-3.5 Turbo model. The Supervised BERT-large-uncased model performed best in our case. We achieved a macro-F1 score of 0.66, a Jaccard similarity score of 0.66, and received the sixth rank among other submissions. Code is available at-https://github.com/anonmous1981/AISOME | 翻訳日:2023-12-19 14:47:49 公開日:2023-12-17 |
# CEIR:概念に基づく説明可能な画像表現学習 CEIR: Concept-based Explainable Image Representation Learning ( http://arxiv.org/abs/2312.10747v1 ) ライセンス: Link先を確認 | Yan Cui, Shuhong Liu, Liuzhuozheng Li, Zhiyuan Yuan | (参考訳) 現代の機械学習では、ラベル依存のない高品質表現を導出するために自己教師付き学習を利用する傾向が注目されている。
しかし、ラベル情報の欠如は本質的に高次元の性質と相まって、学習表現の解釈の困難さを改善する。
その結果、間接評価はこれらの特徴の質を評価するための一般的な指標となり、学習された表現の合理性のバイアスのある検証につながる。
これらの課題に対処するため,概念ベース Explainable Image Representation (CEIR) という新しいアプローチを導入する。
当初、事前訓練されたCLIPとGPT-4で生成された概念を組み込んだ概念ベースモデル(CBM)を用いて、入力画像を概念ベクトル空間に投影する。
その後、変分オートエンコーダ(VAE)は、最終的な画像表現として機能するこれらの投影された概念から潜在表現を学習する。
高レベルの意味論的概念をカプセル化する表現能力のため、このモデルは人間の理解可能な概念空間への帰属を可能にする。
これにより解釈性が向上するだけでなく、ダウンストリームタスクに必要な堅牢性も維持される。
例えば、CIFAR10、CIFAR100、STL10などのベンチマーク上で、最先端の教師なしクラスタリング性能を示す。
さらに、人間の概念的理解の普遍性に乗じて、CEIRは微調整なしでオープンワールドイメージから関連概念をシームレスに抽出することができる。
これは自動ラベル生成とラベル操作に対する新しいアプローチを提供する。 In modern machine learning, the trend of harnessing self-supervised learning to derive high-quality representations without label dependency has garnered significant attention. However, the absence of label information, coupled with the inherently high-dimensional nature, improves the difficulty for the interpretation of learned representations. Consequently, indirect evaluations become the popular metric for evaluating the quality of these features, leading to a biased validation of the learned representation rationale. To address these challenges, we introduce a novel approach termed Concept-based Explainable Image Representation (CEIR). Initially, using the Concept-based Model (CBM) incorporated with pretrained CLIP and concepts generated by GPT-4, we project input images into a concept vector space. Subsequently, a Variational Autoencoder (VAE) learns the latent representation from these projected concepts, which serves as the final image representation. Due to the capability of the representation to encapsulate high-level, semantically relevant concepts, the model allows for attributions to a human-comprehensible concept space. This not only enhances interpretability but also preserves the robustness essential for downstream tasks. For instance, our method exhibits state-of-the-art unsupervised clustering performance on benchmarks such as CIFAR10, CIFAR100, and STL10. Furthermore, capitalizing on the universality of human conceptual understanding, CEIR can seamlessly extract the related concept from open-world images without fine-tuning. This offers a fresh approach to automatic label generation and label manipulation. | 翻訳日:2023-12-19 14:47:35 公開日:2023-12-17 |
# ナレッジツリー:グラデーションによるナレッジニューロン上の決定木を分類する Knowledge Trees: Gradient Boosting Decision Trees on Knowledge Neurons as Probing Classifier ( http://arxiv.org/abs/2312.10746v1 ) ライセンス: Link先を確認 | Sergey A. Saltykov | (参考訳) 大きな言語モデルが特定の意味的特徴や構文的特徴をいかにうまく捉えているかを理解するために、研究者は通常、探索型分類器を適用する。
しかし、これらの分類器の精度は、結果の正しい解釈に不可欠である。
探索分類器の精度が低ければ、言語モデルが調査中の特性を捉えていないことや、モデルの内部表現で符号化された特性を適切に捉えることができない分類器自体の欠点が原因である可能性がある。
したがって、より効果的な診断には、特定のタスクに可能な最も正確な分類器を使用する必要がある。
変圧器ニューラルネットワーク層の出力表現におけるロジスティック回帰は、言語モデルの構文特性の探索に最もよく用いられる。
本研究では,変圧器のフィードフォワードネットワークの隠された層において,知識ニューロン層における勾配向上決定木を用いて文の一部を認識することで,変圧器層の出力表現にロジスティック回帰を用いることよりも有利であることを示す。
このアプローチは他の多くの方法よりも好まれる。
エラー率の上昇は、事前設定によって9-54%まで変化する。 To understand how well a large language model captures certain semantic or syntactic features, researchers typically apply probing classifiers. However, the accuracy of these classifiers is critical for the correct interpretation of the results. If a probing classifier exhibits low accuracy, this may be due either to the fact that the language model does not capture the property under investigation, or to shortcomings in the classifier itself, which is unable to adequately capture the characteristics encoded in the internal representations of the model. Consequently, for more effective diagnosis, it is necessary to use the most accurate classifiers possible for a particular type of task. Logistic regression on the output representation of the transformer neural network layer is most often used to probing the syntactic properties of the language model. We show that using gradient boosting decision trees at the Knowledge Neuron layer, i.e., at the hidden layer of the feed-forward network of the transformer as a probing classifier for recognizing parts of a sentence is more advantageous than using logistic regression on the output representations of the transformer layer. This approach is also preferable to many other methods. The gain in error rate, depending on the preset, ranges from 9-54% | 翻訳日:2023-12-19 14:47:09 公開日:2023-12-17 |
# 回転機械のロバスト故障検出のための音と振動の探索 Exploring Sound vs Vibration for Robust Fault Detection on Rotating Machinery ( http://arxiv.org/abs/2312.10742v1 ) ライセンス: Link先を確認 | Serkan Kiranyaz, Ozer Can Devecioglu, Amir Alhams, Sadok Sassi, Turker Ince, Onur Avci, and Moncef Gabbouj | (参考訳) 回転機械の故障のロバストかつリアルタイム検出は, 各種産業における予測維持の究極の目標となっている。
振動に基づくDeep Learning(DL)手法は,一定の条件下での最先端検出性能を実現するため,欠陥検出の事実上の標準となっている。
このような振動信号に特に焦点が当てられているにもかかわらず、音の利用は無視されている一方、過去20年間に提案されてきた研究はごくわずかであり、いずれも従来のMLアプローチに基づいている。
主な理由は、さまざまなマシンやセンサロケーションの動作条件において、振動と音の両方のデータを大量に提供するベンチマークデータセットが欠如していることだ。
本研究では, カタール大学Dual-Machine Bearing Fault Benchmark データセット (QU-DMBF) を用いて, 1080 の作業条件下で動作している2つのモータの音・振動データをカプセル化することで, このニーズに対処する。
そして,多数の設置条件と運転条件により,振動による断層検出の大きな限界と欠点に焦点をあてる。
最後に, 音響ベース故障検出のための最初のdl手法を提案し, qu-dmbfデータセット上の音と振動の比較評価を行う。
本手法は, センサ位置と独立性, コスト効率(センサやセンサのメンテナンスを必要とせず, 振動による検出性能と同等のレベルを達成できるため, 振動による検出方法よりもはるかに頑健であることを示す。
この研究により、QU-DMBFデータセット、PyTorchの最適化されたソースコード、および比較評価が公開された。 Robust and real-time detection of faults on rotating machinery has become an ultimate objective for predictive maintenance in various industries. Vibration-based Deep Learning (DL) methodologies have become the de facto standard for bearing fault detection as they can produce state-of-the-art detection performances under certain conditions. Despite such particular focus on the vibration signal, the utilization of sound, on the other hand, has been neglected whilst only a few studies have been proposed during the last two decades, all of which were based on a conventional ML approach. One major reason is the lack of a benchmark dataset providing a large volume of both vibration and sound data over several working conditions for different machines and sensor locations. In this study, we address this need by presenting the new benchmark Qatar University Dual-Machine Bearing Fault Benchmark dataset (QU-DMBF), which encapsulates sound and vibration data from two different motors operating under 1080 working conditions overall. Then we draw the focus on the major limitations and drawbacks of vibration-based fault detection due to numerous installation and operational conditions. Finally, we propose the first DL approach for sound-based fault detection and perform comparative evaluations between the sound and vibration over the QU-DMBF dataset. A wide range of experimental results shows that the sound-based fault detection method is significantly more robust than its vibration-based counterpart, as it is entirely independent of the sensor location, cost-effective (requiring no sensor and sensor maintenance), and can achieve the same level of the best detection performance by its vibration-based counterpart. With this study, the QU-DMBF dataset, the optimized source codes in PyTorch, and comparative evaluations are now publicly shared. | 翻訳日:2023-12-19 14:46:49 公開日:2023-12-17 |
# StyleSinger: 外部ドメイン歌声合成のためのスタイル転送 StyleSinger: Style Transfer for Out-Of-Domain Singing Voice Synthesis ( http://arxiv.org/abs/2312.10741v1 ) ライセンス: Link先を確認 | Yu Zhang, Rongjie Huang, Ruiqi Li, JinZheng He, Yan Xia, Feiyang Chen, Xinyu Duan, Baoxing Huai, Zhou Zhao | (参考訳) out-of-domain(ood)の歌唱音声合成(svs)のためのスタイル転送は、参照歌唱音声サンプルから派生した、未熟なスタイル(音色、感情、発音、調音スキルなど)による高品質な歌唱音声の生成に焦点を当てている。
しかし、歌声の歌唱スタイルの複雑なニュアンスをモデル化する試みは、顕著な表現力を持っているため、困難な作業である。
さらに,既存のSVS手法では,OODシナリオにおける合成歌声の質の低下に遭遇する。
これらの課題を克服するために、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌唱音声合成モデルであるStyleSingerを提案する。
StyleSingerには2つの重要なアプローチが組み込まれている。
1) 残差量子化モジュールを用いて歌唱音声の多様なスタイル特性を捉える残差スタイル適応器(rsa)
2) Uncertainty Modeling Layer Normalization (UMLN) は、トレーニングフェーズ中にコンテンツ表現内のスタイル属性を摂動させ、モデル一般化を改善する。
ゼロショットスタイル転送における広範囲な評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースラインモデルより優れていることを確実に証明している。
歌声サンプルへのアクセスはhttps://stylesinger.github.io/にある。 Style transfer for out-of-domain (OOD) singing voice synthesis (SVS) focuses on generating high-quality singing voices with unseen styles (such as timbre, emotion, pronunciation, and articulation skills) derived from reference singing voice samples. However, the endeavor to model the intricate nuances of singing voice styles is an arduous task, as singing voices possess a remarkable degree of expressiveness. Moreover, existing SVS methods encounter a decline in the quality of synthesized singing voices in OOD scenarios, as they rest upon the assumption that the target vocal attributes are discernible during the training phase. To overcome these challenges, we propose StyleSinger, the first singing voice synthesis model for zero-shot style transfer of out-of-domain reference singing voice samples. StyleSinger incorporates two critical approaches for enhanced effectiveness: 1) the Residual Style Adaptor (RSA) which employs a residual quantization module to capture diverse style characteristics in singing voices, and 2) the Uncertainty Modeling Layer Normalization (UMLN) to perturb the style attributes within the content representation during the training phase and thus improve the model generalization. Our extensive evaluations in zero-shot style transfer undeniably establish that StyleSinger outperforms baseline models in both audio quality and similarity to the reference singing voice samples. Access to singing voice samples can be found at https://stylesinger.github.io/. | 翻訳日:2023-12-19 14:46:22 公開日:2023-12-17 |
# 説明可能なコストセンシティブなディープラーニングアプローチによるビデオからのdeepfake顔のアンマスキング Unmasking Deepfake Faces from Videos Using An Explainable Cost-Sensitive Deep Learning Approach ( http://arxiv.org/abs/2312.10740v1 ) ライセンス: Link先を確認 | Faysal Mahmud, Yusha Abdullah, Minhajul Islam, Tahsin Aziz | (参考訳) ディープフェイク技術は広く使われており、デジタルメディアの真正性に対する深刻な懸念を招き、信頼できるディープフェイクの顔認識技術の必要性がこれまで以上に緊急になった。
本研究は,ビデオ中のディープフェイクを効果的に検出するために,リソース効率と透明なコストセンシティブな深層学習手法を用いる。
信頼性の高いディープフェイク検出システムを構築するために、xceptionnet, inceptionresnetv2, efficientnetv2s, efficientnetv2mの4つの事前学習畳み込みニューラルネットワーク(cnn)モデルを用いた。
ベンチマークデータセットとしてFaceForensics++とCelebDf-V2を用いた。
映像データを効率的に処理するために,キーフレーム抽出を特徴抽出手法として用いた。
私たちの主な貢献は、ビデオ内のディープフェイク顔の正確な識別におけるモデルの適応性と有効性を示すことです。
さらに,ディープフェイク検出時に頻繁に発生するデータセットの不均衡問題を解決するために,コストに敏感なニューラルネットワーク法を適用した。
CelebDf-V2データセットのXceptionNetモデルは提案手法の98%の精度を与え、InceptionResNetV2モデルはFaceForensics++データセットの94%の精度を達成した。
出典:https://github.com/Faysal-MD/Unmasking-Deepfake-Faces-from-Videos-An-Explainable-Cost-Sensitive-Dee p-Learning-Approach-IEEE2023 Deepfake technology is widely used, which has led to serious worries about the authenticity of digital media, making the need for trustworthy deepfake face recognition techniques more urgent than ever. This study employs a resource-effective and transparent cost-sensitive deep learning method to effectively detect deepfake faces in videos. To create a reliable deepfake detection system, four pre-trained Convolutional Neural Network (CNN) models: XceptionNet, InceptionResNetV2, EfficientNetV2S, and EfficientNetV2M were used. FaceForensics++ and CelebDf-V2 as benchmark datasets were used to assess the performance of our method. To efficiently process video data, key frame extraction was used as a feature extraction technique. Our main contribution is to show the models adaptability and effectiveness in correctly identifying deepfake faces in videos. Furthermore, a cost-sensitive neural network method was applied to solve the dataset imbalance issue that arises frequently in deepfake detection. The XceptionNet model on the CelebDf-V2 dataset gave the proposed methodology a 98% accuracy, which was the highest possible whereas, the InceptionResNetV2 model, achieves an accuracy of 94% on the FaceForensics++ dataset. Source Code: https://github.com/Faysal-MD/Unmasking-Deepfake-Faces-from-Videos-An-Explainable-Cost-Sensitive-Deep -Learning-Approach-IEEE2023 | 翻訳日:2023-12-19 14:45:56 公開日:2023-12-17 |
# 多様な環境情報を含む複数ラベルによる交通事故データベース Traffic Incident Database with Multiple Labels Including Various Perspective Environmental Information ( http://arxiv.org/abs/2312.10737v1 ) ライセンス: Link先を確認 | Shota Nishiyama, Takuma Saito, Ryo Nakamura, Go Ohtani, Hirokatsu Kataoka, and Kensho Hara | (参考訳) 交通事故認識は, 交通事故認識の精度を高めるために, 深層学習モデルを用いて, 交通事故認識の精度を向上させるために, 交通事故認識技術や高度な運転支援システムの開発に不可欠であり, 従来型の交通事故データセットは, 交通事故の有無に関する注釈を提供し, 交通事故認識性能を向上させる。
そこで本稿では,様々な環境情報をマルチラベルとして付加した大規模交通事故認識データセットであるV-TIDBを提案する。
提案するデータセットは,交通事故の有無に加えて10種類の環境情報をアノテートすることにより,交通事故認識の性能を向上させることを目的としている。
V-TIDBは,インターネットから多数のビデオを収集し,適切な環境情報に注釈を付けることで構築され,交通事故の有無に関連するラベルのみをトレーニングし,環境情報を複数ラベルとして付加した場合の交通事故認識性能を比較した。
第2の実験では,交通事故の重大度を表す接触レベルと,マルチラベルとして付加された環境情報との比較を行い,環境情報ラベル10項目中6項目において,交通事故の有無の認識性能が向上したことを示した。
交通事故の認識度に関する実験では,全ての環境情報に対して,自動車事故と接触者の認識性能が向上した。
これらの実験により,V-TIDBは環境情報を考慮した交通事故認識モデルの学習に利用でき,適切な交通事故解析に利用できることがわかった。 Traffic accident recognition is essential in developing automated driving and Advanced Driving Assistant System technologies.A large dataset of annotated traffic accidents is necessary to improve the accuracy of traffic accident recognition using deep learning models.Conventional traffic accident datasets provide annotations on the presence or absence of traffic accidents and other teacher labels, improving traffic accident recognition performance. Therefore, we propose V-TIDB, a large-scale traffic accident recognition dataset annotated with various environmental information as multi-labels. Our proposed dataset aims to improve the performance of traffic accident recognition by annotating ten types of environmental information in addition to the presence or absence of traffic accidents. V-TIDB is constructed by collecting many videos from the Internet and annotating them with appropriate environmental information.In our experiments, we compare the performance of traffic accident recognition when only labels related to the presence or absence of traffic accidents are trained and when environmental information is added as a multi-label. In the second experiment, we compare the performance of the training with only contact level which represents the severity of the traffic accident, and the performance with environmental information added as a multi-label.The results showed that 6 out of 10 environmental information labels improved the performance of recognizing the presence or absence of traffic accidents. In the experiment on the degree of recognition of traffic accidents, the performance of recognition of car wrecks and contacts was improved for all environmental information. These experiments show that V-TIDB can be used to learn traffic accident recognition models that take environmental information into account in detail and can be used for appropriate traffic accident analysis. | 翻訳日:2023-12-19 14:45:27 公開日:2023-12-17 |
# 2$-qubit$\Lambda$-polytopeの縮退頂点とその更新規則 The degenerate vertices of the $2$-qubit $\Lambda$-polytope and their update rules ( http://arxiv.org/abs/2312.10734v1 ) ライセンス: Link先を確認 | Selman Ipek, Cihan Okay | (参考訳) 最近、マジック状態による普遍量子計算を古典的にシミュレートするために、$\Lambda$-polytopesとして知られるオブジェクトのクラスが導入された。
$\lambda$-simulation において、パウリ測定の下での$\lambda$頂点の確率的更新は、量子力学と一貫性のあるダイナミクスをもたらす。
したがって、$\lambda$-polytopes の研究における重要なオープン問題は、その頂点の特徴付けと更新規則の決定である。
本稿では,ポリトープに対して$\Lambda_{2}$,$$$-qubit $\Lambda$の退化頂点の更新と記述を行う。
我々のアプローチは、$\Lambda_{2}$がメルミン平方体上の分布からなるよく理解されたポリトープ$\text{MP}$にプロジェクトするという事実を利用する。
より正確には、 ``classical' polytope $\overline{\text{mp}}$ を研究し、これは、clrowr-horne-shimony-holt (chsh) の不等式によって定義される polytope によって交わされる$\text{mp}$ である。
CHSHの不等式と$\text{MP}$の頂点の間の双対性のため、頂点列挙法に二重記述法の合理化バージョンを使用し、$\overline{\text{MP}}$の頂点を得る。 Recently, a class of objects, known as $\Lambda$-polytopes, were introduced for classically simulating universal quantum computation with magic states. In $\Lambda$-simulation, the probabilistic update of $\Lambda$ vertices under Pauli measurement yields dynamics consistent with quantum mechanics. Thus, an important open problem in the study of $\Lambda$-polytopes is characterizing its vertices and determining their update rules. In this paper, we obtain and describe the update of all degenerate vertices of $\Lambda_{2}$, the $2$-qubit $\Lambda$ polytope. Our approach exploits the fact that $\Lambda_{2}$ projects to a well-understood polytope $\text{MP}$ consisting of distributions on the Mermin square scenario. More precisely, we study the ``classical" polytope $\overline{\text{MP}}$, which is $\text{MP}$ intersected by the polytope defined by a set of Clauser-Horne-Shimony-Holt (CHSH) inequalities. Owing to a duality between CHSH inequalities and vertices of $\text{MP}$ we utilize a streamlined version of the double-description method for vertex enumeration to obtain certain vertices of $\overline{\text{MP}}$. | 翻訳日:2023-12-19 14:44:59 公開日:2023-12-17 |
# 混合蒸留はより小さな言語モデルの推論に役立つ Mixed Distillation Helps Smaller Language Model Better Reasoning ( http://arxiv.org/abs/2312.10730v1 ) ライセンス: Link先を確認 | Li Chenglin, Chen Qianglong, Wang Caiyu, Zhang Yin | (参考訳) 最近のNLPタスクにおける大規模言語モデル(LLM)の顕著なパフォーマンスにもかかわらず、そのデプロイメントは高い計算量とメモリ要求のために重大な課題を生じさせる。
近年の研究では、llmからの知識蒸留によるオープンソースの小型モデルの改善に集中し、計算資源コストを削減し、有望な成果を上げている。
しかし、特に高度な推論を必要とするタスクにおいて、LLMレベルのパフォーマンスを達成するには至らなかった。
本稿では,LLM内のProgram-of-Thought(PoT)とChain-of-Thought(CoT)の強みを活かし,これらの能力をより小さなモデルに蒸留する。
これら2つの機能に関して、PoTはより小さなモデルによって生成された推論結果のパフォーマンス向上に特化しており、CoTは同時に結果の最適化を行っている。
私たちのMixed Distillationフレームワークは、小さなモデルの能力を向上し、LCMとのギャップを埋め、様々なタスクでより良いパフォーマンスを示す、有望なアプローチを提供します。
具体的には、SVAMPデータセット上では、混合蒸留フレームワークにおいて70億のパラメータLlama2とCodeLlamaを用いて、単一パス蒸留法を超えて蒸留能力を向上するだけでなく、推論精度においてLLM(GPT-3.5-turbo)よりも優れている。
マルチパス推論のサンプリングにより, 従来の蒸留法よりも精度が向上し, 85%, 85.5%の精度が得られた。 Despite the remarkable performance of large language models (LLMs) in recent NLP tasks, their deployment poses substantial challenges due to high computational and memory demands. Recent research has concentrated on improving open-source smaller models through knowledge distillation from LLMs to reduce computational resource costs with promising outcomes. Nevertheless, they frequently fall short of attaining LLM-level performance, particularly in tasks demanding advanced reasoning. In this work, we introduce the \textbf{Mixed Distillation} framework, which capitalizes on the strengths of Program-of-Thought (PoT) and Chain-of-Thought (CoT) capabilities within LLMs and distills these capabilities to smaller models. Regarding these two capabilities, the PoT is dedicated to enhancing the performance of reasoning results generated by smaller models, while CoT simultaneously optimizes the results. Our Mixed Distillation framework offers a promising approach to enhance the capabilities of smaller models, bridging the gap with LLMs, and demonstrating better performance across various tasks. Specifically, on the SVAMP dataset, employing a 7 billion parameter Llama2 and CodeLlama in a mixed distillation framework not only boosts distillation capabilities beyond single-path distillation methods but also outperforms the LLM (GPT-3.5-turbo) in terms of reasoning accuracy. Through sampling in multiple-path reasoning, the models achieve impressive accuracy performances of 85% and 85.5%, respectively, signifying advancements over previous distillation methods. | 翻訳日:2023-12-19 14:44:35 公開日:2023-12-17 |
# 物理推論AIのベンチマーク Benchmarks for Physical Reasoning AI ( http://arxiv.org/abs/2312.10728v1 ) ライセンス: Link先を確認 | Andrew Melnik, Robin Schiewer, Moritz Lange, Andrei Muresanu, Mozhgan Saeidi, Animesh Garg, Helge Ritter | (参考訳) 人間の学習は、より複雑な概念に進む前に物理世界と対話することから始まるため、理性的な推論は一般的なaiシステムの発展において重要な側面である。
研究者は、さまざまなベンチマークを通じてaiアプローチの物理的推論を研究し、評価してきたが、進捗を評価し測定するための包括的なアプローチはない。
そこで我々は,既存のベンチマークとその解法の概要を提供し,aiシステムの物理的推論能力を測定するための統一的な視点を提案する。
物理推論タスクにおけるアルゴリズム性能をテストするためのベンチマークを選択する。
それぞれのベンチマークがユニークな課題を呈する一方で、それらのアンサンブルは、さまざまな物理的推論概念の計測可能なスキルレベルを持つAIジェネリストエージェントに対して、包括的な証明基盤を提供する。
これは、複雑さと多くの概念を絡めて現実世界をシミュレートすることを目的とした、他の総合ベンチマークよりも、このようなベンチマークのアンサンブルの利点を与える。
提示された物理推論ベンチマークをサブカテゴリにグループ化し、より狭い一般AIエージェントをこれらのグループでテストできるようにします。 Physical reasoning is a crucial aspect in the development of general AI systems, given that human learning starts with interacting with the physical world before progressing to more complex concepts. Although researchers have studied and assessed the physical reasoning of AI approaches through various specific benchmarks, there is no comprehensive approach to evaluating and measuring progress. Therefore, we aim to offer an overview of existing benchmarks and their solution approaches and propose a unified perspective for measuring the physical reasoning capacity of AI systems. We select benchmarks that are designed to test algorithmic performance in physical reasoning tasks. While each of the selected benchmarks poses a unique challenge, their ensemble provides a comprehensive proving ground for an AI generalist agent with a measurable skill level for various physical reasoning concepts. This gives an advantage to such an ensemble of benchmarks over other holistic benchmarks that aim to simulate the real world by intertwining its complexity and many concepts. We group the presented set of physical reasoning benchmarks into subcategories so that more narrow generalist AI agents can be tested first on these groups. | 翻訳日:2023-12-19 14:44:06 公開日:2023-12-17 |
# 点特徴強調マスクオートエンコーダによるコンパクト3次元表現に向けて Towards Compact 3D Representations via Point Feature Enhancement Masked Autoencoders ( http://arxiv.org/abs/2312.10726v1 ) ライセンス: Link先を確認 | Yaohua Zha, Huizhen Ji, Jinmin Li, Rongsheng Li, Tao Dai, Bin Chen, Zhi Wang, Shu-Tao Xia | (参考訳) 3d表現の学習は、シングルモーダルおよびクロスモーダルベースのmaeを含むポイントクラウドのためのマスクオートエンコーダ(mae)ベースの事前学習方法において重要な役割を果たす。
特に、クロスモーダルMAE法は、他のモーダル知識の補助を通じて強力な3次元表現を学習するが、しばしば計算上の重荷に悩まされ、しばしば利用できない大規模なクロスモーダルデータペアに大きく依存する。
代わりに、クラウドを入力としてのみポイントするシングルモーダルメソッドは、その単純さと効率性のため、実際のアプリケーションでは好まれる。
しかし、このような方法は、グローバルなランダムマスク入力を伴う限られた3次元表現に容易に悩まされる。
コンパクトな3d表現を学習するために,グローバルブランチとローカルブランチを主とし,潜在意味的特徴をキャプチャする簡易かつ効果的な点特徴強調マスク付きオートエンコーダ(point-femae)を提案する。
特に、よりコンパクトな特徴を学ぶために、グローバルランダムおよびローカルブロックマスク戦略によって得られたグローバルおよびローカルアンマストパッチからポイント特徴を抽出するために共有パラメータ変換エンコーダを導入し、次に特定のデコーダを再構築する。
一方,局所ブランチの機能をさらに強化するために,局所パッチ畳み込みを伴う局所拡張モジュールを提案し,より大規模に細粒度の局所コンテキストを知覚する。
提案手法は, クロスモーダルな代替品に比べてトレーニング前の効率を著しく向上させ, ダウンストリーム実験により, 3種類のScanObjectNNのベースライン(Point-MAE)を5.16%, 5.00%, 5.04%で上回った。
コードはhttps://github.com/zyh16143998882/AAAI24-PointFEMAEで公開されている。 Learning 3D representation plays a critical role in masked autoencoder (MAE) based pre-training methods for point cloud, including single-modal and cross-modal based MAE. Specifically, although cross-modal MAE methods learn strong 3D representations via the auxiliary of other modal knowledge, they often suffer from heavy computational burdens and heavily rely on massive cross-modal data pairs that are often unavailable, which hinders their applications in practice. Instead, single-modal methods with solely point clouds as input are preferred in real applications due to their simplicity and efficiency. However, such methods easily suffer from limited 3D representations with global random mask input. To learn compact 3D representations, we propose a simple yet effective Point Feature Enhancement Masked Autoencoders (Point-FEMAE), which mainly consists of a global branch and a local branch to capture latent semantic features. Specifically, to learn more compact features, a share-parameter Transformer encoder is introduced to extract point features from the global and local unmasked patches obtained by global random and local block mask strategies, followed by a specific decoder to reconstruct. Meanwhile, to further enhance features in the local branch, we propose a Local Enhancement Module with local patch convolution to perceive fine-grained local context at larger scales. Our method significantly improves the pre-training efficiency compared to cross-modal alternatives, and extensive downstream experiments underscore the state-of-the-art effectiveness, particularly outperforming our baseline (Point-MAE) by 5.16%, 5.00%, and 5.04% in three variants of ScanObjectNN, respectively. The code is available at https://github.com/zyh16143998882/AAAI24-PointFEMAE. | 翻訳日:2023-12-19 14:43:35 公開日:2023-12-17 |
# マクロな体に近い原子と分子の探索 Probing atoms and molecules close to macroscopic bodie ( http://arxiv.org/abs/2312.10811v1 ) ライセンス: Link先を確認 | Athanasios Laliotis | (参考訳) この論文の中で、私はインペリアル・カレッジ・ロンドンで、シリコンチップで製造されたマイクロピラミドの原子雲をトラップする研究について簡単に紹介します。
次に、SAIグループのレーザー物理学研究所で実施した研究について述べる。
実験では,表面波の熱励起による近接場カシミール・ポルダー相互作用の温度依存性を実証し,物質とそれを取り巻く量子真空の誘電特性の理解を深めた。
また、ナノ構造(ナノスフィアオパール)に閉じ込められた原子蒸気の分光実験を行い、ミニチュア周波数基準の作成を目指す。
最後に,表面近傍の分子ガスの分光実験を行う可能性について検討する。 In this habilitation thesis, I briefly present my work at Imperial College London on trapping atomic clouds in micro-pyramids fabricated on silicon chips, which led to the fabrication of an on-chip integrated atom source. Next, I describe the research carried out at the Laboratoire de Physique des Lasers in the SAI group. Our experiments demonstrated the temperature dependence of near-field Casimir-Polder interactions due to thermal excitation of surface waves, thus advancing our understanding of the dielectric properties of matter and the quantum vacuum that surrounds it. I also present spectroscopic experiments with atomic vapors confined in nanostructures (nano-sphere opals) aiming at the fabrication of miniature frequency references. Finally, I explore the possibility of performing spectroscopic experiments on molecular gases close to surfaces. | 翻訳日:2023-12-19 14:36:05 公開日:2023-12-17 |
# deep-dispatch: 高度エアモビリティのための深層強化学習に基づく車両派遣アルゴリズム Deep-Dispatch: A Deep Reinforcement Learning-Based Vehicle Dispatch Algorithm for Advanced Air Mobility ( http://arxiv.org/abs/2312.10809v1 ) ライセンス: Link先を確認 | Elaheh Sabziyan Varnousfaderani, Syed A. M. Shihab, Esrat F. Dulia | (参考訳) 電動垂直離着陸機(eVTOL)による将来のエアタクシーの運用は、eVTOLの頻繁な再充電の必要性、垂直離着陸パッドの制限、時間的変化による需要と電力価格の変動により制約され、eVTOLディスパッチ問題はユニークで特に解決が難しい。
これまで,この問題に対処する最適化モデルを開発してきた。
しかし、そのような最適化モデルでは、問題の規模が大きくなると計算実行時間が著しく増加し、現実的な実装では実用性が低下する。
この問題を克服するため、我々は、単エージェントと複数エージェントの深層学習eVTOLディスパッチアルゴリズムという、2つの深層学習eVTOLディスパッチアルゴリズムを開発した。
eVTOLをベースとした旅客輸送シミュレーション環境を構築し,eVTOL,Vertiport,需要の異なる36ドルの数値ケースを対象に,アルゴリズムの性能評価を行った。
その結果、マルチエージェントのeVTOLディスパッチアルゴリズムは、ベンチマーク最適化モデルと比較して計算コストが大幅に少ない最適ディスパッチポリシーを近似できることがわかった。
マルチエージェントアルゴリズムは, 利益とトレーニング時間の両方において, シングルエージェントよりも優れていた。 Near future air taxi operations with electric vertical take-off and landing (eVTOL) aircraft will be constrained by the need for frequent recharging of eVTOLs, limited takeoff and landing pads in vertiports, and subject to time-varying demand and electricity prices, making the eVTOL dispatch problem unique and particularly challenging to solve. Previously, we have developed optimization models to address this problem. Such optimization models however suffer from prohibitively high computational run times when the scale of the problem increases, making them less practical for real world implementation. To overcome this issue, we have developed two deep reinforcement learning-based eVTOL dispatch algorithms, namely single-agent and multi-agent deep Q-learning eVTOL dispatch algorithms, where the objective is to maximize operating profit. An eVTOL-based passenger transportation simulation environment was built to assess the performance of our algorithms across $36$ numerical cases with varying number of eVTOLs, vertiports, and demand. The results indicate that the multi-agent eVTOL dispatch algorithm can closely approximate the optimal dispatch policy with significantly less computational expenses compared to the benchmark optimization model. The multi-agent algorithm was found to outperform the single-agent counterpart with respect to both profits generated and training time. | 翻訳日:2023-12-19 14:35:51 公開日:2023-12-17 |
# 非ユークリッド空間グラフニューラルネットワーク Non-Euclidean Spatial Graph Neural Network ( http://arxiv.org/abs/2312.10808v1 ) ライセンス: Link先を確認 | Zheng Zhang, Sirui Li, Jingcheng Zhou, Junxiang Wang, Abhinav Angirekula, Allen Zhang and Liang Zhao | (参考訳) 空間ネットワークはグラフトポロジが埋め込まれた空間空間によって制約されるネットワークである。
空間グラフ特性の結合を理解することは、空間ネットワークから強力な表現を抽出するために重要である。
したがって、個々の空間表現とネットワーク表現を組み合わせるだけで、空間ネットワークの基盤となる相互作用機構を明らかにすることはできない。
さらに、既存の空間ネットワーク表現学習法はユークリッド空間に埋め込まれたネットワークのみを考慮でき、不規則かつ非ユニフォームな非ユークリッド空間によってもたらされるリッチな幾何学的情報を十分に活用できない。
そこで本研究では,非ユークリッド多様体空間に埋め込まれた空間ネットワークの表現を学習するための新しい汎用フレームワークを提案する。
具体的には、エッジ上のメッセージとして空間幾何学を抽出するグラフトポロジと空間幾何学を組み合わせた新しいメッセージパスベースニューラルネットワークを提案する。
理論的には、学習された表現が回転や翻訳などの重要な対称性に即時不変であることを保証するとともに、異なる幾何学的構造を区別する十分な能力を維持する。
提案手法の強みは,合成データと実世界データの両方について広範な実験により実証された。 Spatial networks are networks whose graph topology is constrained by their embedded spatial space. Understanding the coupled spatial-graph properties is crucial for extracting powerful representations from spatial networks. Therefore, merely combining individual spatial and network representations cannot reveal the underlying interaction mechanism of spatial networks. Besides, existing spatial network representation learning methods can only consider networks embedded in Euclidean space, and can not well exploit the rich geometric information carried by irregular and non-uniform non-Euclidean space. In order to address this issue, in this paper we propose a novel generic framework to learn the representation of spatial networks that are embedded in non-Euclidean manifold space. Specifically, a novel message-passing-based neural network is proposed to combine graph topology and spatial geometry, where spatial geometry is extracted as messages on the edges. We theoretically guarantee that the learned representations are provably invariant to important symmetries such as rotation or translation, and simultaneously maintain sufficient ability in distinguishing different geometric structures. The strength of our proposed method is demonstrated through extensive experiments on both synthetic and real-world datasets. | 翻訳日:2023-12-19 14:35:27 公開日:2023-12-17 |
# 多言語シーンテキスト認識における言語横断学習 Cross-Lingual Learning in Multilingual Scene Text Recognition ( http://arxiv.org/abs/2312.10806v1 ) ライセンス: Link先を確認 | Jeonghun Baek, Yusuke Matsui, Kiyoharu Aizawa | (参考訳) 本稿では,多言語シーンテキスト認識(STR)のための言語間学習(CLL)について検討する。
CLLは知識をある言語から別の言語に転送する。
我々は,低リソース言語の性能向上のために,高リソース言語からの知識を活用することを目的とした。
そこで我々は,従来の研究で論じられたCLLに関する2つの一般的な知見が多言語STRに適用されているかを検討する。(1)高言語と低リソース言語との協調学習は,低リソース言語の性能を低下させる可能性があり,(2)CLLはタイプ論的に類似した言語間で最もよく機能する。
広範な実験を通して、多言語STRには2つの一般的な洞察が適用されないことを示す。
その後、CLLの重要な条件は、高リソース言語の種類に関わらず、高リソース言語のデータセットサイズであることを示す。
私たちのコード、データ、モデルはhttps://github.com/ku21fan/cll-strで利用可能です。 In this paper, we investigate cross-lingual learning (CLL) for multilingual scene text recognition (STR). CLL transfers knowledge from one language to another. We aim to find the condition that exploits knowledge from high-resource languages for improving performance in low-resource languages. To do so, we first examine if two general insights about CLL discussed in previous works are applied to multilingual STR: (1) Joint learning with high- and low-resource languages may reduce performance on low-resource languages, and (2) CLL works best between typologically similar languages. Through extensive experiments, we show that two general insights may not be applied to multilingual STR. After that, we show that the crucial condition for CLL is the dataset size of high-resource languages regardless of the kind of high-resource languages. Our code, data, and models are available at https://github.com/ku21fan/CLL-STR. | 翻訳日:2023-12-19 14:35:10 公開日:2023-12-17 |
# go-dice: 定常分布補正推定による目標条件付きオプションアウェアオフライン模倣学習 GO-DICE: Goal-Conditioned Option-Aware Offline Imitation Learning via Stationary Distribution Correction Estimation ( http://arxiv.org/abs/2312.10802v1 ) ライセンス: Link先を確認 | Abhinav Jain, Vaibhav Unhelkar | (参考訳) オフライン模倣学習(il)とは、デモのみから専門家の振る舞いを学習することであり、環境と追加のやりとりはしない。
オフラインilの大幅な進歩にもかかわらず、既存の技術では、長いホリゾンタスクのポリシーを学ぶのが難しく、タスク仕様が変わると、再トレーニングが必要となる。
これらの制約に対処するために,ゴール条件の長い連続タスクに対して,GO-DICE を用いたオフライン IL 技術を提案する。
go-diceはデモからサブタスクの階層を識別し、これらを使用してサブタスク遷移とアクション実行の別々のポリシーを学習する。
拡張的なDICEファミリーの技法に触発された政策学習は、静止分布の空間内で両方のレベルが成立する。
さらに、両方のポリシーは目標条件で学習され、タスク目標が変更されたときの再トレーニングの必要性を最小限に抑える。
実験結果は、GO-DICEが最近のベースラインより優れていることを裏付けるものであり、ますます困難なピックアップ・アンド・プレース・ロボティクスタスクの完成率が著しく向上していることが証明されている。
GO-DICEは、利用可能なときに不完全なデモンストレーションと部分的なタスクセグメンテーションを利用することもできる。 Offline imitation learning (IL) refers to learning expert behavior solely from demonstrations, without any additional interaction with the environment. Despite significant advances in offline IL, existing techniques find it challenging to learn policies for long-horizon tasks and require significant re-training when task specifications change. Towards addressing these limitations, we present GO-DICE an offline IL technique for goal-conditioned long-horizon sequential tasks. GO-DICE discerns a hierarchy of sub-tasks from demonstrations and uses these to learn separate policies for sub-task transitions and action execution, respectively; this hierarchical policy learning facilitates long-horizon reasoning. Inspired by the expansive DICE-family of techniques, policy learning at both the levels transpires within the space of stationary distributions. Further, both policies are learnt with goal conditioning to minimize need for retraining when task goals change. Experimental results substantiate that GO-DICE outperforms recent baselines, as evidenced by a marked improvement in the completion rate of increasingly challenging pick-and-place Mujoco robotic tasks. GO-DICE is also capable of leveraging imperfect demonstration and partial task segmentation when available, both of which boost task performance relative to learning from expert demonstrations alone. | 翻訳日:2023-12-19 14:34:55 公開日:2023-12-17 |
# スコープコンプライアンスの不確実性推定 Scope Compliance Uncertainty Estimate ( http://arxiv.org/abs/2312.10801v1 ) ライセンス: Link先を確認 | Al-Harith Farhad, Ioannis Sorokos, Mohammed Naveed Akram, Koorosh Aslansefat, Daniel Schneider | (参考訳) デジタル時代のサイテジストは、さまざまな領域にまたがる多数のアプリケーションにおいて、人工知能~AIのさらなる統合によって支配されている。
しかし、この拡張により、これらの手法の安全性と信頼性に関する疑問はこれまで以上に重要になっている。
その結果、特に自律走行車(AV)のような環境が非常に変化するアプリケーションにおいて、意図したコンテキスト内でのモデルの動作を保証するために、実行時のMLモデル安全システムが開発された。
SafeMLは、トレーニングと運用データセットの統計的テストに基づく距離測定を使用して、そのような監視を行うためのモデルに依存しないアプローチである。
このアプローチには体系的な枠組みが存在するが、その性能は(1)安全閾値の選択に直接影響し、従ってその堅牢性に影響を与えるいくつかの設計パラメータへの依存、(2)訓練と運用セットの特定の分布の固有の仮定、(3)比較的大きな集合に対する高い計算複雑性によって妨げられている。
この作業は、バイナリ決定を連続的なメトリックに変更することで、これらの制限に対処する。
さらに、非パラメトリックなアプローチを実装することにより、すべてのデータ分布仮定を時代遅れにし、経験的特徴関数~(ECF)に基づいた新しい距離測度を導入することにより計算速度が向上する。 The zeitgeist of the digital era has been dominated by an expanding integration of Artificial Intelligence~(AI) in a plethora of applications across various domains. With this expansion, however, questions of the safety and reliability of these methods come have become more relevant than ever. Consequently, a run-time ML model safety system has been developed to ensure the model's operation within the intended context, especially in applications whose environments are greatly variable such as Autonomous Vehicles~(AVs). SafeML is a model-agnostic approach for performing such monitoring, using distance measures based on statistical testing of the training and operational datasets; comparing them to a predetermined threshold, returning a binary value whether the model should be trusted in the context of the observed data or be deemed unreliable. Although a systematic framework exists for this approach, its performance is hindered by: (1) a dependency on a number of design parameters that directly affect the selection of a safety threshold and therefore likely affect its robustness, (2) an inherent assumption of certain distributions for the training and operational sets, as well as (3) a high computational complexity for relatively large sets. This work addresses these limitations by changing the binary decision to a continuous metric. Furthermore, all data distribution assumptions are made obsolete by implementing non-parametric approaches, and the computational speed increased by introducing a new distance measure based on the Empirical Characteristics Functions~(ECF). | 翻訳日:2023-12-19 14:34:31 公開日:2023-12-17 |
# ランダム林のアンサンブルを用いたfused sentinel-1, sentinel-2画像の土地利用・土地被覆分類 Land use/land cover classification of fused Sentinel-1 and Sentinel-2 imageries using ensembles of Random Forests ( http://arxiv.org/abs/2312.10798v1 ) ライセンス: Link先を確認 | Shivam Pande | (参考訳) 本研究では、土地利用/土地被覆(LULC)分類のための合成開口レーダ(SAR)と可視赤外短波赤外線(VNIR-SWIR)画像の相乗効果について検討した。
ベイズ融合を利用した画像融合は、SARテクスチャバンドとVNIR-SWIR画像とを融合する。
本研究は, この融合がLULC分類に与える影響について検討することを目的とする。
管理された分類のためにランダム林が人気であるにもかかわらず、特徴の少ない亜最適性能や精度の停滞といった制限に対処している。
これらの問題を解決するために、フォレスト-RCアルゴリズムを用いてランダムな回転を導入し、ランダムな森林(RFE)のアンサンブルを作成する。
主成分分析(pca)、スパースランダム回転(srp)マトリクス、完全ランダム回転(crp)マトリクスの3つのローテーションアプローチを用いる。
Sentinel-1 SARデータとIIT-Kanpur地域のSentinel-2 VNIR-SWIRデータは、テクスチャ付きSAR、テクスチャ付きVNIR-SWIR、テクスチャ付きVNIR-SWIR、テクスチャ付きVNIR-SWIRを含むトレーニングデータセットを構成する。
本研究は分類器の有効性を評価し,SARおよびVNIR-SWIR融合が分類に与える影響を調査し,ベイズ核融合符号の実行速度を著しく向上させる。
SRPベースのRFEは、最初の2つのデータセットで他のアンサンブルを上回り、平均カッパ値は61.80%と68.18%、CRPベースのRFEは最後の3つのデータセットで95.99%、96.93%、96.30%である。
第4のデータセットは、最高96.93%のカッパを達成している。
さらに、SARバンドにテクスチャを組み込むことで、カッパの最大インクリメントは10.00%、VNIR-SWIRバンドにテクスチャを追加すると最大インクリメントは約3.45%となる。 The study explores the synergistic combination of Synthetic Aperture Radar (SAR) and Visible-Near Infrared-Short Wave Infrared (VNIR-SWIR) imageries for land use/land cover (LULC) classification. Image fusion, employing Bayesian fusion, merges SAR texture bands with VNIR-SWIR imageries. The research aims to investigate the impact of this fusion on LULC classification. Despite the popularity of random forests for supervised classification, their limitations, such as suboptimal performance with fewer features and accuracy stagnation, are addressed. To overcome these issues, ensembles of random forests (RFE) are created, introducing random rotations using the Forest-RC algorithm. Three rotation approaches: principal component analysis (PCA), sparse random rotation (SRP) matrix, and complete random rotation (CRP) matrix are employed. Sentinel-1 SAR data and Sentinel-2 VNIR-SWIR data from the IIT-Kanpur region constitute the training datasets, including SAR, SAR with texture, VNIR-SWIR, VNIR-SWIR with texture, and fused VNIR-SWIR with texture. The study evaluates classifier efficacy, explores the impact of SAR and VNIR-SWIR fusion on classification, and significantly enhances the execution speed of Bayesian fusion code. The SRP-based RFE outperforms other ensembles for the first two datasets, yielding average overall kappa values of 61.80% and 68.18%, while the CRP-based RFE excels for the last three datasets with average overall kappa values of 95.99%, 96.93%, and 96.30%. The fourth dataset achieves the highest overall kappa of 96.93%. Furthermore, incorporating texture with SAR bands results in a maximum overall kappa increment of 10.00%, while adding texture to VNIR-SWIR bands yields a maximum increment of approximately 3.45%. | 翻訳日:2023-12-19 14:34:08 公開日:2023-12-17 |
# ローカルサーチによる大規模マルチロボットカバレッジ経路計画 Large-Scale Multi-Robot Coverage Path Planning via Local Search ( http://arxiv.org/abs/2312.10797v1 ) ライセンス: Link先を確認 | Jingtao Tang, Hang Ma | (参考訳) グラフベースのマルチロボット被覆経路計画(MCPP)は、与えられた2次元格子地形グラフのすべての頂点をカバーするために、複数のロボットのカバレッジパスを計算することを目的としている。
既存のグラフベースのMCPPアルゴリズムは、まず、すべての頂点をカバーする複数の木の森であるG$でツリーカバーを計算し、次に、分割されたグラフ上のカバレッジパスを生成するためにSpanning Tree Coverage (STC)パラダイムを使用します。
本稿では,$d$ で適切なカバレッジパスを体系的に検索する方法を検討することにより,異なるアプローチをとる。
我々はLS-MCPPと呼ばれる新しいアルゴリズムフレームワークを導入し、ローカル検索を活用して$D$で直接操作する。
本稿では,STCを拡張して,非完全地形グラフであっても,任意の分解グラフ上でMCPPの完全なカバレッジを実現する,新たなスタンドアロンパラダイムであるExtended-STC(ESTC)を提案する。
さらに,ESTCを3種類の新しい近傍演算子と統合し,その探索過程を効果的にガイドする方法を示す。
我々はLS-MCPPの有効性を実証し、それぞれ35.7\%と30.3\%という顕著な減少率で、準最適木被覆をG$で計算する2つの最先端ベースラインアルゴリズムによって得られた初期解を一貫して改善した。
さらに、LS-MCPPは最適な木被覆計算の結果と一貫して一致または上回り、これらの結果を桁違いに高速な実行で達成し、大規模な実世界のカバレッジタスクにおいてその大きな利点を示す。 We study graph-based Multi-Robot Coverage Path Planning (MCPP) that aims to compute coverage paths for multiple robots to cover all vertices of a given 2D grid terrain graph $G$. Existing graph-based MCPP algorithms first compute a tree cover on $G$ -- a forest of multiple trees that cover all vertices -- and then employ the Spanning Tree Coverage (STC) paradigm to generate coverage paths on the decomposed graph $D$ of the terrain graph $G$ by circumnavigating the edges of the computed trees, aiming to optimize the makespan (i.e., the maximum coverage path cost among all robots). In this paper, we take a different approach by exploring how to systematically search for good coverage paths directly on $D$. We introduce a new algorithmic framework, called LS-MCPP, which leverages a local search to operate directly on $D$. We propose a novel standalone paradigm, Extended-STC (ESTC), that extends STC to achieve complete coverage for MCPP on any decomposed graphs, even those resulting from incomplete terrain graphs. Furthermore, we demonstrate how to integrate ESTC with three novel types of neighborhood operators into our framework to effectively guide its search process. Our extensive experiments demonstrate the effectiveness of LS-MCPP, consistently improving the initial solution returned by two state-of-the-art baseline algorithms that compute suboptimal tree covers on $G$, with a notable reduction in makespan by up to 35.7\% and 30.3\%, respectively. Moreover, LS-MCPP consistently matches or surpasses the results of optimal tree cover computation, achieving these outcomes with orders of magnitude faster runtime, thereby showcasing its significant benefits for large-scale real-world coverage tasks. | 翻訳日:2023-12-19 14:33:22 公開日:2023-12-17 |
# 対話的制約獲得における学習 Learning to Learn in Interactive Constraint Acquisition ( http://arxiv.org/abs/2312.10795v1 ) ライセンス: Link先を確認 | Dimos Tsouros, Senne Berden, Tias Guns | (参考訳) 制約プログラミング(CP)は複雑な組合せ問題のモデル化と解決に成功している。
しかし、モデリングはしばしば簡単ではなく、専門知識を必要とします。
Constraint Acquisition (CA)では、モデルを自動的に学習することでユーザを支援することが目標である。
インタラクティブなcaでは、例えば、部分的なソリューションが(特定されていない)制約を満たすかどうかを問うように、ユーザに対してインタラクティブにクエリを投稿することで実現します。
間欠的なCA手法は制約を学習するが、学習の目的は正確な表現を学習することであり、シンボリックな概念学習に関連している。
しかし、モデルを学ぶためにはまだ大量のクエリが必要であり、これは大きな制限である。
本稿では,CAと機械学習(ML)の接続を断ち切ることで,統計的ML手法を利用した対話型CAにおいて,この制限を緩和することを目的とする。
本稿では,より有望なクエリを生成するために,対話型caを導く確率的分類モデルを提案する。
本稿では、関係に基づく特徴とスコープに基づく特徴の両方を用いて、バイアスからの候補表現が問題の制約であるか否かを予測するための分類器の訓練方法について論じる。
次に,対話型caのすべてのレイヤ – クエリ生成,スコープ検索,最低レベルの制約検出 – で,予測をどのように利用できるかを示す。
異なる分類器を用いて提案手法を実験的に評価し,提案手法がアートの状態を著しく上回っており,集約に必要なクエリ数が最大72%削減できることを示した。 Constraint Programming (CP) has been successfully used to model and solve complex combinatorial problems. However, modeling is often not trivial and requires expertise, which is a bottleneck to wider adoption. In Constraint Acquisition (CA), the goal is to assist the user by automatically learning the model. In (inter)active CA, this is done by interactively posting queries to the user, e.g., asking whether a partial solution satisfies their (unspecified) constraints or not. While interac tive CA methods learn the constraints, the learning is related to symbolic concept learning, as the goal is to learn an exact representation. However, a large number of queries is still required to learn the model, which is a major limitation. In this paper, we aim to alleviate this limitation by tightening the connection of CA and Machine Learning (ML), by, for the first time in interactive CA, exploiting statistical ML methods. We propose to use probabilistic classification models to guide interactive CA to generate more promising queries. We discuss how to train classifiers to predict whether a candidate expression from the bias is a constraint of the problem or not, using both relation-based and scope-based features. We then show how the predictions can be used in all layers of interactive CA: the query generation, the scope finding, and the lowest-level constraint finding. We experimentally evaluate our proposed methods using different classifiers and show that our methods greatly outperform the state of the art, decreasing the number of queries needed to converge by up to 72%. | 翻訳日:2023-12-19 14:32:51 公開日:2023-12-17 |
# 変圧器の数学的展望 A mathematical perspective on Transformers ( http://arxiv.org/abs/2312.10794v1 ) ライセンス: Link先を確認 | Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy, Philippe Rigollet | (参考訳) トランスフォーマーは、大きな言語モデルの内部動作において中心的な役割を果たす。
本研究では,相互作用する粒子系として解釈したトランスフォーマーを解析するための数学的枠組みを構築した。
我々の研究は基礎となる理論を探求し、数学者と計算機科学者に新しい視点を提供する。 Transformers play a central role in the inner workings of large language models. We develop a mathematical framework for analyzing Transformers based on their interpretation as interacting particle systems, which reveals that clusters emerge in long time. Our study explores the underlying theory and offers new perspectives for mathematicians as well as computer scientists. | 翻訳日:2023-12-19 14:32:27 公開日:2023-12-17 |
# 大規模言語モデルの命令混合を理解する Understanding the Instruction Mixture for Large Language Model ( http://arxiv.org/abs/2312.10793v1 ) ライセンス: Link先を確認 | Renxi Wang, Minghao Wu, Yuxia Wang, Xudong Han, Chiyu Zhang, Haonan Li | (参考訳) 大規模言語モデル(LLM)の微調整は様々なアプリケーションで性能を向上させることが証明されているが、LLMに対する命令データセットの混合の影響は十分に調べられていない。
本研究では,命令をNLPダウンストリームタスク,コーディング,一般的なチャットの3つのタイプに分類し,LLMへの影響について検討する。
本研究は,特定の命令が特定の用途に有用であることを明らかにするとともに,モデルの性能を最大化するために,命令を巧みに設計することの重要性を強調した。
本研究は, 命令混合に光を当て, 今後の研究への道を開く。 While instructions fine-tuning of large language models (LLMs) has been proven to enhance performance across various applications, the influence of the instruction dataset mixture on LLMs has not been thoroughly explored. In this study, we classify instructions into three main types: NLP downstream tasks, coding, and general chatting, and investigate their impact on LLMs. Our findings reveal that specific types of instructions are more beneficial for particular uses, while it may cause harms to other aspects, emphasizing the importance of meticulously designing the instruction mixture to maximize model performance. This study sheds light on the instruction mixture and paves the way for future research. | 翻訳日:2023-12-19 14:32:22 公開日:2023-12-17 |
# 離散時間大小平均フィールドゲーム学習 Learning Discrete-Time Major-Minor Mean Field Games ( http://arxiv.org/abs/2312.10787v1 ) ライセンス: Link先を確認 | Kai Cui, G\"ok\c{c}e Dayan{\i}kl{\i}, Mathieu Lauri\`ere, Matthieu Geist, Olivier Pietquin, Heinz Koeppl | (参考訳) 平均場ゲーム(MFG)に基づく最近の技術は、多くの類似した合理的エージェントを持つマルチプレイヤーゲームのスケーラブルな解析を可能にする。
しかし、標準のMFGは、互いに弱影響を及ぼす同種プレイヤーに限られており、他のプレイヤーに強く影響を及ぼす主要なプレイヤーをモデル化することができない。
本稿では,M3FGの離散時間バージョンと,実演に基づく学習アルゴリズムを提案する。
重要なことに、M3FGは一般的なノイズでMFGを一般化し、ランダムな異種環境状態だけでなく、メジャープレイヤーも扱える。
鍵となる課題は、平均場が確率的であり、標準MFGのように決定論的ではないことである。
我々の理論的研究は,M3FGモデルとそのアルゴリズム解の両方を検証し,まず,興味のゲームから始まるM3FGモデルの健全性を示し,第2に,架空のプレイアルゴリズムの収束と近似を保証する。
そして、得られた理論結果を実証的に検証し、理論的な仮定の一部を非難し、3つの例で平衡学習に成功したことを示す。
総じて、我々は、新しくて幅広い扱いやすいゲームの学習フレームワークを確立します。 Recent techniques based on Mean Field Games (MFGs) allow the scalable analysis of multi-player games with many similar, rational agents. However, standard MFGs remain limited to homogeneous players that weakly influence each other, and cannot model major players that strongly influence other players, severely limiting the class of problems that can be handled. We propose a novel discrete time version of major-minor MFGs (M3FGs), along with a learning algorithm based on fictitious play and partitioning the probability simplex. Importantly, M3FGs generalize MFGs with common noise and can handle not only random exogeneous environment states but also major players. A key challenge is that the mean field is stochastic and not deterministic as in standard MFGs. Our theoretical investigation verifies both the M3FG model and its algorithmic solution, showing firstly the well-posedness of the M3FG model starting from a finite game of interest, and secondly convergence and approximation guarantees of the fictitious play algorithm. Then, we empirically verify the obtained theoretical results, ablating some of the theoretical assumptions made, and show successful equilibrium learning in three example problems. Overall, we establish a learning framework for a novel and broad class of tractable games. | 翻訳日:2023-12-19 14:32:10 公開日:2023-12-17 |
# 差分強度検出とパリティ検出に基づくマッハ・ツェンダー干渉計の最適非ガウス演算 Optimal non-Gaussian operations in difference-intensity detection and parity detection-based Mach-Zehnder interferometer ( http://arxiv.org/abs/2312.10774v1 ) ライセンス: Link先を確認 | Manali Verma, Chandan Kumar, Karunesh K. Mishra, and Prasanta K. Panigrahi | (参考訳) 位相推定における確率的非ガウス演算の利点を差分強度とパリティ検出に基づくマッハ・ツェンダー干渉計(MZI)を用いて検討する。
我々は,光子サブトラクション(PS),光子付加(PA),光子触媒(PC)の3種類の非ガウス的操作を単一モード圧縮真空(SSV)状態で行う実験的に実装可能なモデルを考える。
差分強度検出に基づくMZIでは、2つのPC操作が最も最適であるのに対し、パリティ検出に基づくMZIでは2つのPA操作が最も最適なプロセスとして現れる。
また,本研究は実験家にとって有益であるように,最高の性能で対応するスクイージングパラメータと透過率パラメータも提供してきた。
さらに, モーメント生成関数の一般表現を導出し, ホモダイン検出や二次ホモダイン検出などの他の検出手法の探索に有用である。 We investigate the benefits of probabilistic non-Gaussian operations in phase estimation using difference-intensity and parity detection-based Mach-Zehnder interferometers (MZI). We consider an experimentally implementable model to perform three different non-Gaussian operations, namely photon subtraction (PS), photon addition (PA), and photon catalysis (PC) on a single-mode squeezed vacuum (SSV) state. In difference-intensity detection-based MZI, two PC operation is found to be the most optimal, while for parity detection-based MZI, two PA operation emerges as the most optimal process. We have also provided the corresponding squeezing and transmissivity parameters at best performance, making our study relevant for experimentalists. Further, we have derived the general expression of moment-generating function, which shall be useful in exploring other detection schemes such as homodyne detection and quadratic homodyne detection. | 翻訳日:2023-12-19 14:31:50 公開日:2023-12-17 |
# knn-icl: 最寄りのコンテキスト学習によるタスク指向構文解析の一般化 kNN-ICL: Compositional Task-Oriented Parsing Generalization with Nearest Neighbor In-Context Learning ( http://arxiv.org/abs/2312.10771v1 ) ライセンス: Link先を確認 | Wenting Zhao, Ye Liu, Yao Wan, Yibo Wang, Qingyang Wu, Zhongfen Deng, Jiangshu Du, Shuaiqi Liu, Yunlong Xu, Philip S. Yu | (参考訳) Task-Oriented Parsing (TOP)により、会話アシスタントは自然言語で表現されたユーザコマンドを解釈し、自然言語とインテント/スロットタグの両方の要素を組み合わせた構造化出力に変換することができる。
近年,自然言語プロンプトに基づくコンピュータプログラムの合成において,自然言語と構造化プログラムのギャップを緩和する大規模言語モデル(llm)が注目されている。
本稿は, 意味解析におけるLLMの活用に焦点をあて, 以下の3つの重要な研究課題に対処する。
1) LLM は意味解析にどのように活用できるのか?
2) 効果的なプロンプトの定義は何か?
そして
3) LLM では,すべての例をプロンプトとして含めることで,長さ制約や合理化を克服できるのか?
我々は、k Nearest Neighbor In-Context Learning(kNN-ICL)を導入し、任意の設計戦略の上に構築し、すべてのデモ例にアクセスできるようにすることで、迅速なエンジニアリングを容易にする。
1) knn 検索のない単純な icl は,上位タスクの強い教師付きモデルと同等の性能を達成できる。
2) kNN-ICLは,ICLを最寄りのアプローチとシームレスに統合することにより,複雑な要求の理解を著しく改善する。
この強化は、追加のデータや特別なプロンプトを必要とせずに達成される。 Task-Oriented Parsing (TOP) enables conversational assistants to interpret user commands expressed in natural language, transforming them into structured outputs that combine elements of both natural language and intent/slot tags. Recently, Large Language Models (LLMs) have achieved impressive performance in synthesizing computer programs based on a natural language prompt, mitigating the gap between natural language and structured programs. Our paper focuses on harnessing the capabilities of LLMs for semantic parsing tasks, addressing the following three key research questions: 1) How can LLMs be effectively utilized for semantic parsing tasks? 2) What defines an effective prompt? and 3) How can LLM overcome the length constraint and streamline prompt design by including all examples as prompts? We introduce k Nearest Neighbor In-Context Learning(kNN-ICL), which simplifies prompt engineering by allowing it to be built on top of any design strategy while providing access to all demo examples. Extensive experiments show that: 1)Simple ICL without kNN search can achieve a comparable performance with strong supervised models on the TOP tasks, and 2) kNN-ICL significantly improves the comprehension of complex requests by seamlessly integrating ICL with a nearest-neighbor approach. Notably, this enhancement is achieved without the need for additional data or specialized prompts. | 翻訳日:2023-12-19 14:31:30 公開日:2023-12-17 |
# タンパク質言語モデルにおける知識ニューロンの同定 Identification of Knowledge Neurons in Protein Language Models ( http://arxiv.org/abs/2312.10770v1 ) ライセンス: Link先を確認 | Divya Nori, Shivali Singireddy, Marina Ten Have | (参考訳) ニューラルネットワークモデルは、自然言語処理タスクでエンティティの複雑な表現を学ぶための強力なツールになっています。
しかし、特にモデル予測への信頼が不可欠である計算生物学のような領域において、その解釈性は依然として重要な課題である。
本研究では,知識ニューロンの同定と特徴付けにより,タンパク質言語モデル,特に最先端esmモデルの解釈性を高めることを目的としている。
酵素配列分類のためのESMモデルを微調整した後、元のモデルから神経細胞のサブセットを保存する2つの知識ニューロン選択法を比較した。
2つの方法、アクティベーションベースと統合勾配ベース選択は、ランダムベースラインを一貫して上回る。
特に,これらの手法は,自己認識モジュールのキーベクトル予測ネットワークに,知識ニューロンの密度が高いことを示す。
入力配列の異なる特徴を理解することに特化したキーベクターを考えると、これらの知識ニューロンは異なる酵素配列のモチーフの知識を捉えることができる。
将来的には、各ニューロンが捉えた知識の種類を特徴付けることができる。 Neural language models have become powerful tools for learning complex representations of entities in natural language processing tasks. However, their interpretability remains a significant challenge, particularly in domains like computational biology where trust in model predictions is crucial. In this work, we aim to enhance the interpretability of protein language models, specifically the state-of-the-art ESM model, by identifying and characterizing knowledge neurons - components that express understanding of key information. After fine-tuning the ESM model for the task of enzyme sequence classification, we compare two knowledge neuron selection methods that preserve a subset of neurons from the original model. The two methods, activation-based and integrated gradient-based selection, consistently outperform a random baseline. In particular, these methods show that there is a high density of knowledge neurons in the key vector prediction networks of self-attention modules. Given that key vectors specialize in understanding different features of input sequences, these knowledge neurons could capture knowledge of different enzyme sequence motifs. In the future, the types of knowledge captured by each neuron could be characterized. | 翻訳日:2023-12-19 14:31:06 公開日:2023-12-17 |
# 構成帰納的不変量に基づくニューラルネットワーク制御システムの検証 Compositional Inductive Invariant Based Verification of Neural Network Controlled Systems ( http://arxiv.org/abs/2312.10842v1 ) ライセンス: Link先を確認 | Yuhao Zhou, Stavros Tripakis | (参考訳) 安全クリティカルシステムへのニューラルネットワークの統合は、近年大きな可能性を秘めている。
しかし、NNCS(Neural Network Controlled Systems)の安全性を効果的に検証するという課題が続いている。
本稿では,インダクティブ不変法を利用したNNCSの安全性検証手法を提案する。
NNCSの文脈における帰納的不変量の帰納性を検証することは、ニューラルネットワークのスケールと非線形性のために難しい。
本手法は,インダクティブネス証明義務をより小さく,より扱いやすいサブプロブレムに分解することにより,検証プロセスを管理可能にする。
提案手法と並行して,必要な分解述語を自動的に推測することにより,候補の帰納性を自動的に検証するアルゴリズムを提案する。
このアルゴリズムはベースライン法を著しく上回り、ケーススタディにおける実行時間を大幅に短縮し、検証時間を時間(またはタイムアウト)から秒に短縮する。 The integration of neural networks into safety-critical systems has shown great potential in recent years. However, the challenge of effectively verifying the safety of Neural Network Controlled Systems (NNCS) persists. This paper introduces a novel approach to NNCS safety verification, leveraging the inductive invariant method. Verifying the inductiveness of a candidate inductive invariant in the context of NNCS is hard because of the scale and nonlinearity of neural networks. Our compositional method makes this verification process manageable by decomposing the inductiveness proof obligation into smaller, more tractable subproblems. Alongside the high-level method, we present an algorithm capable of automatically verifying the inductiveness of given candidates by automatically inferring the necessary decomposition predicates. The algorithm significantly outperforms the baseline method and shows remarkable reductions in execution time in our case studies, shortening the verification time from hours (or timeout) to seconds. | 翻訳日:2023-12-19 14:24:14 公開日:2023-12-17 |
# マルチストリーム分類のための概念ドリフトに基づくオンラインブーピング適応学習 Online Boosting Adaptive Learning under Concept Drift for Multistream Classification ( http://arxiv.org/abs/2312.10841v1 ) ライセンス: Link先を確認 | En Yu, Jie Lu, Bin Zhang, Guangquan Zhang | (参考訳) 概念ドリフトを伴う動的ストリーミングプロセスにおける高速適応の必要性から,マルチストリーム分類には大きな課題がある。
この領域における研究成果の増大にもかかわらず、これらのストリーム間の時間的ダイナミックな関係について注目すべき監視が行われており、無関係なデータから生じる負の転送の問題につながっている。
本稿では、異なるストリーム間の動的相関を適応的に学習することで、この制限を効果的に解決する新しいオンラインブースティング適応学習法を提案する。
具体的には、OBALは、まず、適応的共変量シフト適応(AdaCOSA)アルゴリズムを設計し、様々なソースストリームからのアーカイブデータを用いて初期化アンサンブルモデルを構築し、適応的再重み付け戦略を用いて動的相関を学習しながら、共変量シフトを緩和する。
オンラインプロセスではガウス混合モデルに基づく重み付け機構を用い,AdaCOSAを介して取得した相関関係とシームレスに統合し,非同期ドリフトを効果的に処理する。
このアプローチは、ターゲットストリームの予測性能と安定性を大幅に改善する。
我々は、様々なドリフトシナリオやタイプを含む、いくつかの合成および実世界のデータストリームに関する包括的な実験を行う。
その結果,複数ソースからの正の知識を効果的に活用することにより,obalはマルチストリーム分類問題に対して顕著な進歩を遂げていることが明らかとなった。 Multistream classification poses significant challenges due to the necessity for rapid adaptation in dynamic streaming processes with concept drift. Despite the growing research outcomes in this area, there has been a notable oversight regarding the temporal dynamic relationships between these streams, leading to the issue of negative transfer arising from irrelevant data. In this paper, we propose a novel Online Boosting Adaptive Learning (OBAL) method that effectively addresses this limitation by adaptively learning the dynamic correlation among different streams. Specifically, OBAL operates in a dual-phase mechanism, in the first of which we design an Adaptive COvariate Shift Adaptation (AdaCOSA) algorithm to construct an initialized ensemble model using archived data from various source streams, thus mitigating the covariate shift while learning the dynamic correlations via an adaptive re-weighting strategy. During the online process, we employ a Gaussian Mixture Model-based weighting mechanism, which is seamlessly integrated with the acquired correlations via AdaCOSA to effectively handle asynchronous drift. This approach significantly improves the predictive performance and stability of the target stream. We conduct comprehensive experiments on several synthetic and real-world data streams, encompassing various drifting scenarios and types. The results clearly demonstrate that OBAL achieves remarkable advancements in addressing multistream classification problems by effectively leveraging positive knowledge derived from multiple sources. | 翻訳日:2023-12-19 14:23:57 公開日:2023-12-17 |
# 位相遅延器を用いたビームスプリッター物理と試験ベル不等式 Beam Splitter Physics and Testing Bell Inequalities with Phase Retarders ( http://arxiv.org/abs/2312.10837v1 ) ライセンス: Link先を確認 | H.O. Cildiroglu | (参考訳) ビームスプリッター(bs)の役割は、量子力学的粒子(量子)と量子重ね合わせやランダム性といった基本的な量子現象の統計挙動を明らかにするため、量子物理学にとって重要である。
本稿では,BSとPの併用について検討し,新興量子技術におけるBS-P-BSシステムの重要性を強調する。
検出確率は, アナログ装置におけるスピン測定確率と等価であることを示す。
次に,空間的相関を持つ2量子系に議論を拡張することにより,共通な起源を持つように見える他の量子力学過程の解析に適した基礎を構築する。
この観点から,位相位相を導入して空間相関した2量子BS-P-BSシステムを用いてベル-CHSH不等式をテストするための新しい実験装置を提案する。 The role of Beam Splitters (BS) is crucial for quantum physics as it reveals the statistical behavior of quantum mechanical particles (quantons) and some of the fundamental quantum phenomena such as quantum superposition and randomness. Here, we investigate the use of BS and Phase Retarders (P) in combination and emphasize the importance of BS-P-BS systems for emerging quantum technologies. We demonstrate that the detection probabilities are equivalent to the spin measurement probabilities in analog setups. Then, by extending the discussion to spatially correlated two-quanton systems, we construct a suitable basis for analysis of other quantum mechanical processes that seem to have common origins. From this point of view, we propose a new experimental setup for testing Bell-CHSH inequalities with spatially correlated two-quanton BS-P-BS systems by introducing topological phases. | 翻訳日:2023-12-19 14:23:31 公開日:2023-12-17 |
# あなたの学生は予想以上に良い: テキスト・コンディション・拡散モデルのための適応型教師・学生協調 Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models ( http://arxiv.org/abs/2312.10835v1 ) ライセンス: Link先を確認 | Nikita Starodubcev, Artem Fedorov, Artem Babenko and Dmitry Baranchuk | (参考訳) 近年, 知識蒸留法は, 少数の推論ステップを必要とせず, 大規模拡散モデルの高速化に寄与している。
近年, 強力な蒸留法が提案されているが, 学生試料の総合的品質は, 教師のものに比べて低く, 実用性に支障をきたす。
本研究では,教師のテキスト・画像拡散モデルによるサンプルの相対的品質とその蒸留された学生版について検討する。
実験結果から, 生徒の「おおよその」性格にもかかわらず, 生徒のサンプルの目に見える部分が教師のものに比して優れた忠実性を示すことが判明した。
そこで本研究では,学生と教師の拡散モデルを用いた効果的なテキスト・画像合成手法を提案する。
具体的には、蒸留したモデルが初期サンプルを生成し、その後、オラクルが遅い教師モデルでさらなる改善が必要であるかどうかを判断する。
広範な実験により、設計されたパイプラインは、人間の好みの観点から様々な推論予算のための最先端のテキストから画像への代替案を上回ることが示されている。
さらに,提案手法はテキストガイド画像編集や制御可能な生成といった一般的なアプリケーションで自然に使用できる。 Knowledge distillation methods have recently shown to be a promising direction to speedup the synthesis of large-scale diffusion models by requiring only a few inference steps. While several powerful distillation methods were recently proposed, the overall quality of student samples is typically lower compared to the teacher ones, which hinders their practical usage. In this work, we investigate the relative quality of samples produced by the teacher text-to-image diffusion model and its distilled student version. As our main empirical finding, we discover that a noticeable portion of student samples exhibit superior fidelity compared to the teacher ones, despite the ``approximate'' nature of the student. Based on this finding, we propose an adaptive collaboration between student and teacher diffusion models for effective text-to-image synthesis. Specifically, the distilled model produces the initial sample, and then an oracle decides whether it needs further improvements with a slow teacher model. Extensive experiments demonstrate that the designed pipeline surpasses state-of-the-art text-to-image alternatives for various inference budgets in terms of human preference. Furthermore, the proposed approach can be naturally used in popular applications such as text-guided image editing and controllable generation. | 翻訳日:2023-12-19 14:23:15 公開日:2023-12-17 |
# aiの性別バイアス、格差、公平性: トレーニングデータは重要か? AI Gender Bias, Disparities, and Fairness: Does Training Data Matter? ( http://arxiv.org/abs/2312.10833v1 ) ライセンス: Link先を確認 | Ehsan Latif, Xiaoming Zhai, and Lei Liu | (参考訳) 本研究は,人工知能(AI)におけるジェンダー問題,特に学生書記応答の自動スコアリングシステムにおける多岐にわたる問題について考察する。
主な目的は、aiスコア結果における混合生成データセットを用いた一般的なトレーニングサンプルにおいて、性別バイアス、格差、公平性の有無を調べることである。
本研究は、BERTとGPT-3.5の微調整版を用いて、6つの評価項目で男女1000人以上の学生の反応を分析した。
この研究はバイアス分析に3つの異なる手法を用いており、バイアスを評価するための精度差の補正、男女差を評価するための平均スコアギャップ(MSG)、公平さを評価するための平等オッド(EO)である。
その結果,混合学習モデルにおけるスコアリング精度は,男女ともに有意差を示し,有意なスコアバイアスは認められなかった。
BERT と GPT-3.5 のどちらとも一致し,混合学習モデルでは,ヒトと比較してMSG と非異種予測が少なかった。
対照的に、性別に特化して訓練されたモデルでは、より大きなMSGが得られ、不均衡なトレーニングデータが男女格差を拡大するアルゴリズムモデルを作成する可能性があることを示している。
EO分析は、混合訓練されたモデルは、性特化訓練されたモデルと比較して、より公平な結果をもたらすことを示唆している。
総じて,性別不均衡データは必ずしもスコアのバイアスを生じさせるのではなく,性別格差を増大させ,スコアの公平さを低下させることが示唆された。 This study delves into the pervasive issue of gender issues in artificial intelligence (AI), specifically within automatic scoring systems for student-written responses. The primary objective is to investigate the presence of gender biases, disparities, and fairness in generally targeted training samples with mixed-gender datasets in AI scoring outcomes. Utilizing a fine-tuned version of BERT and GPT-3.5, this research analyzes more than 1000 human-graded student responses from male and female participants across six assessment items. The study employs three distinct techniques for bias analysis: Scoring accuracy difference to evaluate bias, mean score gaps by gender (MSG) to evaluate disparity, and Equalized Odds (EO) to evaluate fairness. The results indicate that scoring accuracy for mixed-trained models shows an insignificant difference from either male- or female-trained models, suggesting no significant scoring bias. Consistently with both BERT and GPT-3.5, we found that mixed-trained models generated fewer MSG and non-disparate predictions compared to humans. In contrast, compared to humans, gender-specifically trained models yielded larger MSG, indicating that unbalanced training data may create algorithmic models to enlarge gender disparities. The EO analysis suggests that mixed-trained models generated more fairness outcomes compared with gender-specifically trained models. Collectively, the findings suggest that gender-unbalanced data do not necessarily generate scoring bias but can enlarge gender disparities and reduce scoring fairness. | 翻訳日:2023-12-19 14:22:55 公開日:2023-12-17 |
# Revealing Networks: Transmodal Ordered Network Analysis を用いたAI支援教室における効果的な教員の実践理解 Revealing Networks: Understanding Effective Teacher Practices in AI-Supported Classrooms using Transmodal Ordered Network Analysis ( http://arxiv.org/abs/2312.10826v1 ) ライセンス: Link先を確認 | Conrad Borchers, Yeyu Wang, Shamya Karumbaiah, Muhammad Ashiq, David Williamson Shaffer, Vincent Aleven | (参考訳) 学習分析研究は、これらのシステム外のリッチなコンテキストデータ、特に学生と教師の相互作用を通じて、aiベースのシステムによる教室学習をますます研究している。
このようなデータを活用する上で重要な課題のひとつは、効果的な教師の実践に関する有意義な洞察を生み出すことだ。
定量的ethnographyは、マルチモーダルなデータストリームを、適切な学習条件への洞察を促す共起行動のネットワークに組み合わせることで、このギャップを埋める可能性を秘めている。
本研究は,AI教師と連携した数学教室において,システム内学習の伝統的な指標に関連する効果的な教員の実践を理解するために,トランスモーダル順序ネットワーク分析を用いた。
位置追跡と人間の観察コードから取得した教師のプラクティスをモデリングに組み込むことで、aiチューターにおける生徒の効率が、チューターログデータのみのモデルよりも大幅に向上した。
生徒の学習率による教師の慣行を比較すると,学習率の低い生徒はモニタリング後のヒントがより多く示された。
しかし, 長期訪問後, 学習率の低い生徒は, 高学率の学生と同様の学習行動を示し, 繰り返し, 学習者の正しい試みを行った。
観察ノートは、概念的および手続き的サポートの違いが訪問の有効性を説明するのに役立つことを示唆している。
学習率の低い学生に早期の概念的支援を提供することで、ai教師による授業実践をより効果的にすることができる。
本研究は,AI教師と方法論を用いた授業における効果的な教員の実践の科学的理解を深め,その実践を可視化するものである。 Learning analytics research increasingly studies classroom learning with AI-based systems through rich contextual data from outside these systems, especially student-teacher interactions. One key challenge in leveraging such data is generating meaningful insights into effective teacher practices. Quantitative ethnography bears the potential to close this gap by combining multimodal data streams into networks of co-occurring behavior that drive insight into favorable learning conditions. The present study uses transmodal ordered network analysis to understand effective teacher practices in relationship to traditional metrics of in-system learning in a mathematics classroom working with AI tutors. Incorporating teacher practices captured by position tracking and human observation codes into modeling significantly improved the inference of how efficiently students improved in the AI tutor beyond a model with tutor log data features only. Comparing teacher practices by student learning rates, we find that students with low learning rates exhibited more hint use after monitoring. However, after an extended visit, students with low learning rates showed learning behavior similar to their high learning rate peers, achieving repeated correct attempts in the tutor. Observation notes suggest conceptual and procedural support differences can help explain visit effectiveness. Taken together, offering early conceptual support to students with low learning rates could make classroom practice with AI tutors more effective. This study advances the scientific understanding of effective teacher practice in classrooms learning with AI tutors and methodologies to make such practices visible. | 翻訳日:2023-12-19 14:22:28 公開日:2023-12-17 |
# 変圧器を用いた流れマッチングにおける潜時空間編集 Latent Space Editing in Transformer-Based Flow Matching ( http://arxiv.org/abs/2312.10825v1 ) ライセンス: Link先を確認 | Vincent Tao Hu, David W Zhang, Pascal Mettes, Meng Tang, Deli Zhao, Cees G.M. Snoek | (参考訳) 本稿では,生成モデルによる画像編集について検討する。
Flow Matchingは、シンプルで効率的なトレーニングの利点を提供する、新たな生成モデリング技術である。
同時に、新しいトランスフォーマーベースのu-vitが、ジェネレーティブモデリングのスケーラビリティとパフォーマンスを改善するために、一般的に使用されるunetを置き換えるために提案されている。
したがって、Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めているが、その潜在構造と編集能力はまだ不明である。
そこで我々は,この設定を採用し,潜在空間操作による画像編集方法について検討する。
編集スペースは$u$-spaceと呼ばれ、制御可能で、蓄積可能で、構成可能な方法で操作できる。
さらに,より効率的で適応的なステップサイズ ode ソルバを用いたサンプリングを可能にするための最適化サンプリングソリューションを提案する。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
私たちのフレームワークはシンプルで効率的ですが、オリジナルコンテンツの本質を保ちながら、画像の編集に非常に効果的です。
私たちのコードはhttps://taohu.me/lfm/で公開されます。 This paper strives for image editing via generative models. Flow Matching is an emerging generative modeling technique that offers the advantage of simple and efficient training. Simultaneously, a new transformer-based U-ViT has recently been proposed to replace the commonly used UNet for better scalability and performance in generative modeling. Hence, Flow Matching with a transformer backbone offers the potential for scalable and high-quality generative modeling, but their latent structure and editing ability are as of yet unknown. Hence, we adopt this setting and explore how to edit images through latent space manipulation. We introduce an editing space, which we call $u$-space, that can be manipulated in a controllable, accumulative, and composable manner. Additionally, we propose a tailored sampling solution to enable sampling with the more efficient adaptive step-size ODE solvers. Lastly, we put forth a straightforward yet powerful method for achieving fine-grained and nuanced editing using text prompts. Our framework is simple and efficient, all while being highly effective at editing images while preserving the essence of the original content. Our code will be publicly available at https://taohu.me/lfm/ | 翻訳日:2023-12-19 14:22:01 公開日:2023-12-17 |
# ITLingo RSL言語による厳密な要求仕様と文書自動化の検証 Validation of Rigorous Requirements Specifications and Document Automation with the ITLingo RSL Language ( http://arxiv.org/abs/2312.10822v1 ) ライセンス: Link先を確認 | Andre Rodrigues, Alberto Rodrigues da Silva | (参考訳) ソフトウェア開発において不可欠なステップであるにもかかわらず、要件仕様の記述は自然言語で頻繁に行われ、一貫性、不完全性、曖昧さといった問題につながります。
ITLingoイニシアチブは、技術的文書の厳密さと一貫性を高めるためにRSLという要求仕様言語を導入した。
一方、自然言語処理(NLP)は、手動によるレビューで見にくい問題を検出することを支援することで、要求の自動分析を支援する分野である。
要件仕様が検証されると、手動作業の削減、エラーの低減、さまざまな利害関係者による再利用や認識の容易な複数のフォーマットによるドキュメントの作成など、これらの仕様のためのドキュメント生成を自動化することが重要になります。
本稿では,要件検証と文書自動化の分野における既存研究とツールについて概説する。
我々は、カスタマイズされたチェックと、RSL自体で動的に定義された言語規則に基づいて、仕様の検証によりRSLを拡張することを提案する。
また、テンプレートファイルを用いて、これらの仕様からjson、txt、その他のファイルフォーマットへのドキュメントの自動生成も提案する。
我々は、架空のビジネス情報システムを使用して説明をサポートし、これらの検証チェックがより良い要求仕様を作成し、それに基づいて複数のフォーマットで文書を生成するのにどのように役立つかを実証する。
最後に,提案する検証および文書自動化手法の有用性をユーザセッションを通じて評価する。 Despite being an essential step in software development, writing requirements specifications is frequently performed in natural language, leading to issues like inconsistency, incompleteness, or ambiguity. The ITLingo initiative has introduced a requirements specification language named RSL to enhance the rigor and consistency of technical documentation. On the other hand, natural language processing (NLP) is a field that has been supporting the automatic analysis of requirements by helping to detect issues that may be difficult to see during a manual review. Once the requirements specifications are validated, it is important to automate the generation of documents for these specifications to reduce manual work, reduce errors, and to produce documentation in multiple formats that are more easily reusable or recognized by the different stakeholders. This paper reviews existing research and tools in the fields of requirements validation and document automation. We propose to extend RSL with validation of specifications based on customized checks, and on linguistic rules dynamically defined in the RSL itself. In addition, we also propose the automatic generation of documents from these specifications to JSON, TXT, or other file formats using template files. We use a fictitious business information system to support the explanation and to demonstrate how these validation checks can assist in writing better requirements specifications and then generate documents in multiple formats based on them. Finally, we evaluate the usability of the proposed validation and document automation approach through a user session. | 翻訳日:2023-12-19 14:21:43 公開日:2023-12-17 |
# 励起光子を用いたスピン量子ビットのサブミクロ秒高忠実分散読み出し Sub-microsecond high-fidelity dispersive readout of a spin qubit with squeezed photons ( http://arxiv.org/abs/2312.10820v1 ) ライセンス: Link先を確認 | Chon-Fai Kam and Xuedong Hu | (参考訳) 高速で高忠実な量子ビット計測は、量子誤差補正を実現するために必要不可欠であり、これはユビキタス量子コンピューティングの重要な要素である。
電子スピン量子ビットの場合、高速読み出しは誤り訂正への重要な道のりの1つである。
本稿では,マイクロ波共振器に結合した半導体二重量子ドットにおける単一スピンの分散読み出しについて検討する。
そこで,光子検出にスクイーズド真空状態を用いると,qubitの読み出し精度と速度が向上することを示す。
適切な位相マッチングの条件下では、中等度、中等度のみのスクイーズ処理により、信号対雑音比とキュービット状態の読み出しの忠実度の両方が向上し、最適な読み出し時間を99\%以上のサブマイクロ秒範囲に短縮することができる。
これらの拡張は低いマイクロ波強度で達成され、非劣化量子ビット測定が保証される。 Fast and high-fidelity qubit measurement is essential for realizing quantum error correction, which is in turn a key ingredient to universal quantum computing. For electron spin qubits, fast readout is one of the significant road blocks toward error correction. Here we examine the dispersive readout of a single spin in a semiconductor double quantum dot coupled to a microwave resonator. We show that using displaced squeezed vacuum states for the probing photons can improve the qubit readout fidelity and speed. Under condition of proper phase matching, we find that a moderate, and only moderate, squeezing can enhance both the signal-to-noise ratio and the fidelity of the qubit-state readout, and the optimal readout time can be shortened to the sub-microsecond range with above $99\%$ fidelity. These enhancements are achieved at low probing microwave intensity, ensuring non-demolition qubit measurement. | 翻訳日:2023-12-19 14:21:20 公開日:2023-12-17 |
# 衛星データによるチグラニア農民の内戦における作物栽培への抵抗性 Satellite Data Shows Resilience of Tigrayan Farmers in Crop Cultivation During Civil War ( http://arxiv.org/abs/2312.10819v1 ) ライセンス: Link先を確認 | Hannah Kerner, Catherine Nakalembe, Benjamin Yeh, Ivan Zvonkov, Sergii Skakun, Inbal Becker-Reshef, Amy McNally | (参考訳) ティグレイ戦争(tigray war)は、主に2020年11月3日から2022年11月2日まで、エチオピア北部のティグレイ地方で発生した武力紛争である。
農業が生活と食料安全保障にとって重要であることから、この戦争が耕作地域に与える影響を決定することは重要であるが、紛争による不安と封鎖のために地域内への移動が制限されたため、この影響を定量化することは困難であった。
衛星画像と統計地域推定技術を用いて,戦前および戦時中におけるティグレイの作物栽培地域の変化を評価した。
戦時の影響にもかかわらず,2020年から2021年の間に耕作地はほぼ安定していた。
2021年半ばの1,217,000 +/-132,000ヘクタールに対して、2020年前半の耕作量は1,132,000ヘクタールであった。
コンフリクトイベントに伴う5kmバッファ内外の変化を比較すると,バッファ内における作物の損失の信頼度は,バッファ外(0-1%)に比べてわずかに高い(0-3%)。
我々の結果は、戦争に関連した広範囲な混乱にもかかわらず、タイグラヤの農家は耕作を維持できたという他の報告を支持している。
本研究は,遠隔センシングと機械学習と統計的手法を組み合わせることで,紛争により到達不能な地域における食品の安全性を監視するための,タイムリーで透明な領域推定を提供する能力を示す。 The Tigray War was an armed conflict that took place primarily in the Tigray region of northern Ethiopia from November 3, 2020 to November 2, 2022. Given the importance of agriculture in Tigray to livelihoods and food security, determining the impact of the war on cultivated area is critical, but quantifying this impact was difficult due to restricted movement within and into the region due to conflict-driven insecurity and blockages. Using satellite imagery and statistical area estimation techniques, we assessed changes in crop cultivation area in Tigray before and during the war. Our findings show that cultivated area was largely stable between 2020-2021 despite the widespread impacts of the war. We estimated 1,132,000 +/- 133,000 hectares of cultivation in pre-war 2020 compared to 1,217,000 +/- 132,000 hectares in mid-war 2021. Comparing changes inside and outside of a 5 km buffer around conflict events, we found a slightly higher upper confidence limit of cropland loss within the buffer (0-3%) compared to outside the buffer (0-1%). Our results support other reports that despite widespread war-related disruptions, Tigrayan farmers were largely able to sustain cultivation. Our study demonstrates the capability of remote sensing combined with machine learning and statistical techniques to provide timely, transparent area estimates for monitoring food security in regions inaccessible due to conflict. | 翻訳日:2023-12-19 14:21:05 公開日:2023-12-17 |
# CNNを用いたPyTorchにおける顔表情認識 Facial Emotion Recognition using CNN in PyTorch ( http://arxiv.org/abs/2312.10818v1 ) ライセンス: Link先を確認 | Deyuan Qu, Sudip Dhakal, Dominic Carrillo | (参考訳) 本プロジェクトでは,カメラ画像からリアルタイム顔の感情を認識できるモデルを構築した。
現在のアプローチでは、すべてのデータを読み込み、それをモデルに入力する。
我々のモデルはPyTorchライブラリを利用した畳み込みニューラルネットワークに基づいている。
われわれの実装は空間の複雑さを大幅に改善し、顔の感情認識に有用な貢献をもたらすと信じている。
私たちのモチベーションは、ディープラーニング、特にCNNで明確に理解し、実際のシナリオを分析することです。
そこで我々は,学習率,バッチサイズ,エポック数といったモデルのハイパーパラメータを調整し,ニーズを満たすように調整した。
さらに,アクティベーション関数やドロップアウト,maxプーリングなど,ネットワークを最適化する手法も使用しました。
最後に、2つのオプティマイザからの結果を分析し,エポック数と精度の関係を観察した。 In this project, we have implemented a model to recognize real-time facial emotions given the camera images. Current approaches would read all data and input it into their model, which has high space complexity. Our model is based on the Convolutional Neural Network utilizing the PyTorch library. We believe our implementation will significantly improve the space complexity and provide a useful contribution to facial emotion recognition. Our motivation is to understanding clearly about deep learning, particularly in CNNs, and analysis real-life scenarios. Therefore, we tunned the hyper parameter of model such as learning rate, batch size, and number of epochs to meet our needs. In addition, we also used techniques to optimize the networks, such as activation function, dropout and max pooling. Finally, we analyzed the result from two optimizer to observe the relationship between number of epochs and accuracy. | 翻訳日:2023-12-19 14:20:37 公開日:2023-12-17 |
# Outlier Detection-enhanced Active Learningによる海洋データ品質評価 Ocean Data Quality Assessment through Outlier Detection-enhanced Active Learning ( http://arxiv.org/abs/2312.10817v1 ) ライセンス: Link先を確認 | Na Li, Yiyang Qi, Ruyue Xin, Zhiming Zhao | (参考訳) 海洋と気候の研究は、アルゴ、グロス、エムソなどの地球規模の海洋観測イニシアチブから恩恵を受けている。
海洋プロファイリングに特化したArgoネットワークは、膨大な量の観測データを生成する。
しかし、センサの誤動作や伝送エラーによるデータ品質問題は、厳密な品質評価を必要とする。
機械学習を含む既存の方法は、ラベル付きデータと不均衡データセットによって不足している。
そこで本研究では,海洋データ品質評価のためのodealフレームワークを提案し,alを用いて品質評価ワークフローにおける人間専門家の作業負荷を削減するとともに,異常検出アルゴリズムを有効モデル初期化に活用する。
また,alクエリ戦略の有効性や初期セット構築手法など,提案手法に対する洞察を得るために,5つの大規模argoデータセットについて広範な実験を行った。
その結果,不確実性に基づく問合せ戦略により,本フレームワークは品質評価効率を最大465.5%向上し,外乱検出器で構築した初期セットを用いて全体のアノテーションコストを最大76.9%削減できることがわかった。 Ocean and climate research benefits from global ocean observation initiatives such as Argo, GLOSS, and EMSO. The Argo network, dedicated to ocean profiling, generates a vast volume of observatory data. However, data quality issues from sensor malfunctions and transmission errors necessitate stringent quality assessment. Existing methods, including machine learning, fall short due to limited labeled data and imbalanced datasets. To address these challenges, we propose an ODEAL framework for ocean data quality assessment, employing AL to reduce human experts' workload in the quality assessment workflow and leveraging outlier detection algorithms for effective model initialization. We also conduct extensive experiments on five large-scale realistic Argo datasets to gain insights into our proposed method, including the effectiveness of AL query strategies and the initial set construction approach. The results suggest that our framework enhances quality assessment efficiency by up to 465.5% with the uncertainty-based query strategy compared to random sampling and minimizes overall annotation costs by up to 76.9% using the initial set built with outlier detectors. | 翻訳日:2023-12-19 14:20:24 公開日:2023-12-17 |
# DePRL:共有表現を用いた個人化分散学習における線形収束高速化の実現 DePRL: Achieving Linear Convergence Speedup in Personalized Decentralized Learning with Shared Representations ( http://arxiv.org/abs/2312.10815v1 ) ライセンス: Link先を確認 | Guojun Xiong, Gang Yan, Shiqiang Wang, Jian Li | (参考訳) 分散学習は、中央サーバの必要性による通信負荷、単一ポイント障害、スケーラビリティの問題に悩まされる一般的なパラメータサーバフレームワークに代わる方法として登場した。
しかしながら、既存のほとんどの作業は、データの不均一性の問題にかかわらず、すべての作業者に対して単一の共有モデルにフォーカスしており、結果として得られたモデルは個々の作業者に対してパフォーマンスが悪くなる。
本研究では,共有表現を用いた分散学習アルゴリズムDePRLを提案する。
本アルゴリズムは, 表現学習理論からのアイデアに基づいて, 全作業者間で協調的に低次元グローバル表現を学習し, 作業者ごとのパーソナライズされたソリューションへと導く, ユーザ固有の低次元ローカルヘッドである。
deprlは, 一般の非線形表現を用いた収束の証明可能な線形高速化(つまり, 作業者数に対して収束率を線形に改善する)を初めて達成することを示す。
実験結果は,データ不均質環境における本手法の優越性を示す理論的知見である。 Decentralized learning has emerged as an alternative method to the popular parameter-server framework which suffers from high communication burden, single-point failure and scalability issues due to the need of a central server. However, most existing works focus on a single shared model for all workers regardless of the data heterogeneity problem, rendering the resulting model performing poorly on individual workers. In this work, we propose a novel personalized decentralized learning algorithm named DePRL via shared representations. Our algorithm relies on ideas from representation learning theory to learn a low-dimensional global representation collaboratively among all workers in a fully decentralized manner, and a user-specific low-dimensional local head leading to a personalized solution for each worker. We show that DePRL achieves, for the first time, a provable linear speedup for convergence with general non-linear representations (i.e., the convergence rate is improved linearly with respect to the number of workers). Experimental results support our theoretical findings showing the superiority of our method in data heterogeneous environments. | 翻訳日:2023-12-19 14:20:06 公開日:2023-12-17 |
# re-parameterized low-rank prompt: 0.5kパラメータによる視覚言語モデルの一般化 Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model within 0.5K Parameters ( http://arxiv.org/abs/2312.10813v1 ) ライセンス: Link先を確認 | Tianxiang Hao, Mengyao Lyu, Hui Chen, Sicheng Zhao, Jungong Han, Guiguang Ding | (参考訳) 大規模な事前学習型視覚言語モデルの開発により、特にデータ不足のシナリオにおいて、そのような基礎モデルの知識を下流タスクに効果的に伝達する方法がホットトピックとなる。
近年,プロンプトチューニングが一般的なソリューションとなっている。
視覚言語モデルを適用する場合、研究者たちはバックボーンのパラメータを凍結し、プロンプトの設計とチューニングのみを行う。
一方、プロンプトチューニングの繊細な設計は強い性能を示す。
一方、複雑な構造や更新ルールは、計算とストレージコストを大幅に高めている。
視覚言語モデルにおける一般化能力の進化パターンが適応中のプロンプト行列のランク変化の傾向と調和しているという観察に動機づけられ,効率的かつ効果的な適応のために,新しいタイプのプロンプト,再パラメータ化低ランクプロンプト(rlp)を設計した。
提案手法は,資源限定のシナリオにおいて非常に有益であるチューナブルパラメータやストレージスペースの削減に大きく貢献する。
大規模な実験により、RLPの優位性がさらに証明された。
特に、RLPは、非常に少数のパラメータを持つ最新の最先端メソッドと同等またはそれ以上の性能を示している。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。 With the development of large pre-trained vision-language models, how to effectively transfer the knowledge of such foundational models to downstream tasks becomes a hot topic, especially in a data-deficient scenario. Recently, prompt tuning has become a popular solution. When adapting the vision-language models, researchers freeze the parameters in the backbone and only design and tune the prompts. On the one hand, the delicate design of prompt tuning exhibits strong performance. On the other hand, complicated structures and update rules largely increase the computation and storage cost. Motivated by the observation that the evolution pattern of the generalization capability in visual-language models aligns harmoniously with the trend of rank variations in the prompt matrix during adaptation, we design a new type of prompt, Re-parameterized Low-rank Prompt (RLP), for both efficient and effective adaptation. Our method could largely reduce the number of tunable parameters and storage space, which is quite beneficial in resource-limited scenarios. Extensive experiments further demonstrate the superiority of RLP. In particular, RLP shows comparable or even stronger performance than the latest state-of-the-art methods with an extremely small number of parameters. On a series of tasks over 11 datasets, RLP significantly increases the average downstream accuracy of classic prompt tuning by up to 5.25% using merely 0.5K parameters. | 翻訳日:2023-12-19 14:19:47 公開日:2023-12-17 |
# アクションなしで行動することを学ぶ Learning to Act without Actions ( http://arxiv.org/abs/2312.10812v1 ) ライセンス: Link先を確認 | Dominik Schmidt, Minqi Jiang | (参考訳) 大量のWebデータを事前学習することは、言語やビジョンを含むいくつかの領域において、強力で一般的なモデルを得るための効果的なアプローチであることが証明されている。
しかし、このパラダイムはまだ深層強化学習(rl)では採用されていない。
このギャップは、Web上の最も豊富な行動データが、オフラインデータからポリシーをトレーニングする既存の方法が必要とするアクションラベルを含まないビデオで構成されているという事実による。
本研究では、潜時行動の推論手法であるLAPO(Latent Action Policies from Observation)を導入し、その結果、潜時行動のポリシーをアクションフリーなデモンストレーションから純粋に導入する。
手続き的に生成する環境に挑戦する実験により、LAPOはRLポリシーを得るための効果的な事前学習方法として機能し、専門家レベルのパフォーマンスに迅速に調整できることを示した。
当社のアプローチは,Web上で利用可能な大量のアクションフリーデモにおいて,強力で汎用的なRLモデルの事前学習を可能にするための重要なステップストーンとして機能する。 Pre-training large models on vast amounts of web data has proven to be an effective approach for obtaining powerful, general models in several domains, including language and vision. However, this paradigm has not yet taken hold in deep reinforcement learning (RL). This gap is due to the fact that the most abundant form of embodied behavioral data on the web consists of videos, which do not include the action labels required by existing methods for training policies from offline data. We introduce Latent Action Policies from Observation (LAPO), a method to infer latent actions and, consequently, latent-action policies purely from action-free demonstrations. Our experiments on challenging procedurally-generated environments show that LAPO can act as an effective pre-training method to obtain RL policies that can then be rapidly fine-tuned to expert-level performance. Our approach serves as a key stepping stone to enabling the pre-training of powerful, generalist RL models on the vast amounts of action-free demonstrations readily available on the web. | 翻訳日:2023-12-19 14:19:23 公開日:2023-12-17 |
# Bacon-Shor符号を用いたショアとステアエラー補正の比較 Comparing Shor and Steane Error Correction Using the Bacon-Shor Code ( http://arxiv.org/abs/2312.10851v1 ) ライセンス: Link先を確認 | Shilin Huang and Kenneth R. Brown and Marko Cetina | (参考訳) 量子状態は環境との相互作用によって急速に脱結合する。
量子誤差補正は、アクティブフィードバックを通じてコヒーレンスを保存する方法である。
量子誤差補正は量子情報を高次対称性を持つ論理状態へと符号化する。
摂動はまず量子状態の対称性を測定し、次に測定に基づいて一連のゲートを適用することで補正される。
データを乱すことなく対称性を測定するためには、漸近量子状態が必要である。
ショア誤差補正は、各対称性の測定に別々の量子状態を用いる。
ステレオ誤差補正は、摂動を論理的アンシラ量子ビットにマッピングし、同時に複数の対称性をチェックする。
ここでは23個の閉じ込められた原子イオンの連鎖に実装されたBacon-Shor符号を用いて,ShorとSteaneのビットフリップ誤差の補正実験を行った。
我々は,Steane誤り訂正が単一ラウンドの誤り訂正後の論理誤差率を向上し,誤り訂正のないデータキュービットの乱れを低減することを発見した。 Quantum states can quickly decohere through interaction with the environment. Quantum error correction is a method for preserving coherence through active feedback. Quantum error correction encodes the quantum information into a logical state with a high-degree of symmetry. Perturbations are first detected by measuring the symmetries of the quantum state and then corrected by applying a set of gates based on the measurements. In order to measure the symmetries without perturbing the data, ancillary quantum states are required. Shor error correction uses a separate quantum state for the measurement of each symmetry. Steane error correction maps the perturbations onto a logical ancilla qubit, which is then measured to check several symmetries simultaneously. Here we experimentally compare Shor and Steane correction of bit flip errors using the Bacon-Shor code implemented in a chain of 23 trapped atomic ions. We find that the Steane error correction provides better logical error rates after a single-round of error correction and less disturbance to the data qubits without error correction. | 翻訳日:2023-12-19 14:08:36 公開日:2023-12-17 |
# 捕捉イオンによる2モードスクイーズとsu(1,1)干渉法 Two-mode squeezing and SU(1,1) interferometry with trapped ions ( http://arxiv.org/abs/2312.10847v1 ) ライセンス: Link先を確認 | J. Metzner, A. Quinn, S. Brudney, I.D. Moore, S.C. Burd, D.J. Wineland, D.T.C Allcock | (参考訳) 単一イオンの2つの運動モードに対して1モードと2モードの回路を実験的に実装した。
これにより、トラップ電極に印加される振動電位を用いて、必要な変位、スクイーズ、2モードスクイーズ、ビームスプリッター操作を実装することができる。
結果として生じる電場は、光力なしでモードを共鳴またはパラメトリックに駆動する。
実演として、クラム・ラオ境界付近の位相感度を持つSU(2)およびSU(1,1)干渉計を実装する。
標準量子限界(sql)の$0.67(5)\,$db内におけるsu(2)干渉計の最大感度と、sql以下では$5.9(2)\,$dbと$4.5(2)\,$dbの1モードと2モードのsu(1,1)感度をそれぞれ報告する。 We experimentally implement circuits of one and two mode operations on two motional modes of a single trapped ion. This is achieved by implementing the required displacement, squeezing, two-mode squeezing, and beamsplitter operations using oscillating electric potentials applied to the trap electrodes. The resulting electric fields drive the modes resonantly or parametrically without the need for optical forces. As a demonstration, we implement SU(2) and SU(1,1) interferometers with phase sensitivities near the Cram\'er-Rao bound. We report a maximum sensitivity of a SU(2) interferometer within $0.67(5)\,$dB of the standard quantum limit (SQL) as well as a single and two-mode SU(1,1) sensitivity of $5.9(2)\,$dB and $4.5(2)\,$dB below the SQL respectively. | 翻訳日:2023-12-19 14:08:21 公開日:2023-12-17 |
# スタイルブレンディングによる高忠実顔スワッピング High-Fidelity Face Swapping with Style Blending ( http://arxiv.org/abs/2312.10843v1 ) ライセンス: Link先を確認 | Xinyu Yang, Hongbo Bo | (参考訳) 顔のスワップは、深層学習によって促進される人間の顔合成の多さによって、大きな牽引力を得ている。
しかし,GANをバックボーンとして用いた以前の顔交換法は,ブレンディングの不整合,歪み,アーチファクト,トレーニング安定性の問題といった問題に直面している。
これらの制約に対処するため,我々は高忠実度顔スワップのための革新的なエンドツーエンドフレームワークを提案する。
まず, 顔から本質的な特徴を抽出し, 潜在型コードに変換するstyleganベースの顔属性エンコーダを導入し, 不要な顔属性をカプセル化し, 顔スワップを成功させる。
第2に,face idをソースからターゲットへ効果的に転送するための注意に基づくスタイルブレンディングモジュールを提案する。
精度と品質の伝達を確保するため、対照的なface id学習、顔のランドマークアライメント、デュアルスワップ一貫性を含む一連の制約措置を実施する。
最後に、ブレンドされたスタイルコードは、高いトレーニング安定性と生成能力を有するスタイルデコーダを介して画像空間に変換される。
CelebA-HQデータセットの大規模な実験では、他の最先端手法と比較して、フェーススワッピング手法から生成された画像の優れた視覚的品質と、提案した各モジュールの有効性を強調している。
ソースコードと重み付けは公開される予定だ。 Face swapping has gained significant traction, driven by the plethora of human face synthesis facilitated by deep learning methods. However, previous face swapping methods that used generative adversarial networks (GANs) as backbones have faced challenges such as inconsistency in blending, distortions, artifacts, and issues with training stability. To address these limitations, we propose an innovative end-to-end framework for high-fidelity face swapping. First, we introduce a StyleGAN-based facial attributes encoder that extracts essential features from faces and inverts them into a latent style code, encapsulating indispensable facial attributes for successful face swapping. Second, we introduce an attention-based style blending module to effectively transfer Face IDs from source to target. To ensure accurate and quality transferring, a series of constraint measures including contrastive face ID learning, facial landmark alignment, and dual swap consistency is implemented. Finally, the blended style code is translated back to the image space via the style decoder, which is of high training stability and generative capability. Extensive experiments on the CelebA-HQ dataset highlight the superior visual quality of generated images from our face-swapping methodology when compared to other state-of-the-art methods, and the effectiveness of each proposed module. Source code and weights will be publicly available. | 翻訳日:2023-12-19 14:08:05 公開日:2023-12-17 |