このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240102となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 土木アノテーションを使わずに臨床人工知能システムを評価するための枠組み
SUDO: a framework for evaluating clinical artificial intelligence systems without ground-truth annotations ( http://arxiv.org/abs/2403.17011v1 ) ライセンス: Link先を確認 | Dani Kiyasseh, Aaron Cohen, Chengsheng Jiang, Nicholas Altieri, | (参考訳) 臨床人工知能(AI)システムは、これまで公開されていないデータの保持されたセットで検証されることが多い(例えば、異なる病院の別の電子健康記録システムからのデータ)。
この評価プロセスは、野生のデータへのAIシステムの展開を模倣することを目的としている。
しかし、データ集合や分布シフトと呼ばれる現象、地味なアノテーションが欠如している場合、AIに基づく発見が野生のデータにどの程度信頼されるかははっきりしない。
本稿では,AIシステム評価フレームワークであるSUDOを紹介する。
SUDOは一時的なラベルを野生のデータポイントに割り当て、異なるモデルをトレーニングするために直接使用する。
皮膚科画像,病理組織パッチ,臨床報告のために開発されたAIシステムを用いた実験を通じて,SUDOがモデル性能の信頼性の高いプロキシとなり,信頼性の低い予測が可能であることを示す。
また、SUDOはモデルの選択を通知し、地上のアノテーションを使わずに、野生のデータに対するアルゴリズムバイアスの事前評価を可能にすることを実証した。
信頼できない予測をトリアージして、AIシステムのアルゴリズムバイアスを検査し評価することで、研究結果の整合性を改善し、医療における倫理的AIシステムの展開に寄与することができる。
A clinical artificial intelligence (AI) system is often validated on a held-out set of data which it has not been exposed to before (e.g., data from a different hospital with a distinct electronic health record system). This evaluation process is meant to mimic the deployment of an AI system on data in the wild; those which are currently unseen by the system yet are expected to be encountered in a clinical setting. However, when data in the wild differ from the held-out set of data, a phenomenon referred to as distribution shift, and lack ground-truth annotations, it becomes unclear the extent to which AI-based findings can be trusted on data in the wild. Here, we introduce SUDO, a framework for evaluating AI systems without ground-truth annotations. SUDO assigns temporary labels to data points in the wild and directly uses them to train distinct models, with the highest performing model indicative of the most likely label. Through experiments with AI systems developed for dermatology images, histopathology patches, and clinical reports, we show that SUDO can be a reliable proxy for model performance and thus identify unreliable predictions. We also demonstrate that SUDO informs the selection of models and allows for the previously out-of-reach assessment of algorithmic bias for data in the wild without ground-truth annotations. The ability to triage unreliable predictions for further inspection and assess the algorithmic bias of AI systems can improve the integrity of research findings and contribute to the deployment of ethical AI systems in medicine. | 翻訳日:2024-04-01 02:44:33 公開日:2024-01-02 |
# CCA-Secure Hybrid Encryption in Correlated Randomness Model and KEM Combiner
CCA-Secure Hybrid Encryption in Correlated Randomness Model and KEM Combiners ( http://arxiv.org/abs/2401.00983v1 ) ライセンス: Link先を確認 | Somnath Panja, Setareh Sharifian, Shaoquan Jiang, Reihaneh Safavi-Naini, | (参考訳) HE(Hybrid encryption)システムは、任意の長さのメッセージに対する効率的な公開鍵暗号システムである。
HEシステムは、キーカプセル化機構(KEM)と呼ばれる公開鍵コンポーネントと、データカプセル化機構(DEM)と呼ばれる対称鍵コンポーネントで構成される。
HE暗号化アルゴリズムは、KEM生成キーkを用いてDEMを用いてメッセージをカプセル化し、kのカプセル化する復号器にkのカプセル化と共に暗号文を送信する。
KEM/DEM合成定理 (KEM/DEM composition theorem) は、もし KEM と DEM が適切に定義されたセキュリティ概念を満たすなら、HE は適切に定義されたセキュリティで安全であることを証明している。
本稿では,暗号と復号化アルゴリズムが部分的に敵に漏洩した相関確率変数のサンプルを持つような相関ランダム性モデルでHEを導入する。
新しいKEM/DEMパラダイムのセキュリティは、計算的に非有界あるいは多項式的に有界な敵に対して定義される。
我々は,iKEMとcKEMを各情報理論計算セキュリティで定義し,それらの合成定理と計算学的に安全なDEMを証明した。
合成定理の必要なセキュリティ概念を確実に満たす2つのiKEMを構築する。
iKEMは、AESベースのDEMを使用する際に、2つの効率的な量子抵抗型HEを構築するために使用される。
我々はまた、HEの新しいKEM/DEMパラダイムとHEの従来の公開鍵ベースパラダイムを組み合わせた、証明済みのセキュリティを備えたコンバインダーを定義し、構築する。
A hybrid encryption (HE) system is an efficient public key encryption system for arbitrarily long messages. An HE system consists of a public key component called key encapsulation mechanism (KEM), and a symmetric key component called data encapsulation mechanism (DEM). The HE encryption algorithm uses a KEM generated key k to encapsulate the message using DEM, and send the ciphertext together with the encapsulaton of k, to the decryptor who decapsulates k and uses it to decapsulate the message using the corresponding KEM and DEM components. The KEM/DEM composition theorem proves that if KEM and DEM satisfy well-defined security notions, then HE will be secure with well defined security. We introduce HE in correlated randomness model where the encryption and decryption algorithms have samples of correlated random variables that are partially leaked to the adversary. Security of the new KEM/DEM paradigm is defined against computationally unbounded or polynomially bounded adversaries. We define iKEM and cKEM with respective information theoretic computational security, and prove a composition theorem for them and a computationally secure DEM, resulting in secure HEs with proved computational security (CPA and CCA) and without any computational assumption. We construct two iKEMs that provably satisfy the required security notions of the composition theorem. The iKEMs are used to construct two efficient quantum-resistant HEs when used with an AES based DEM. We also define and construct combiners with proved security that combine the new KEM/DEM paradigm of HE with the traditional public key based paradigm of HE. | 翻訳日:2024-03-25 12:57:08 公開日:2024-01-02 |
# 大規模言語モデルにおけるプロンプトインジェクション攻撃に対する抵抗性評価のための新しい評価フレームワーク
A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models ( http://arxiv.org/abs/2401.00991v1 ) ライセンス: Link先を確認 | Daniel Wankit Yip, Aysan Esmradi, Chun Fai Chan, | (参考訳) プロンプトインジェクションは、意図しないアクションにモデルを操作したり、悪意のあるコンテンツを生成するために、大きな言語モデル(LLM)の脆弱性を利用する。
LLM統合アプリケーションが広く採用されるにつれて、このような攻撃に対する感受性が高まる。
本研究では,アプリケーションのレジリエンスを定量化する新しい評価フレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
アプリケーションに対するシミュレートされた攻撃の表現性を確保するため、厳密な選択プロセスが採用され、115の攻撃がカバレッジと関連性に基づいて慎重に選択された。
解析可能性を高めるために、これらのシミュレートされた攻撃から発生する応答を評価するために、第2のLSMを使用した。
信頼スコアのみを提供する従来の悪意のあるコンテンツ分類器とは異なり、LCMに基づく評価は説明を伴うスコアを生成し、解釈可能性を向上させる。
その後、より高い重みをより大きなインパクトで攻撃に割り当てることでレジリエンススコアが計算され、アプリケーションのレジリエンスを堅牢に測定する。
フレームワークの有効性を評価するために、Llama2とChatGLMという2つのLLMに適用された。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
この発見は、新しいモデルがより大きなレジリエンスを持つ傾向にあるという一般的な考え方と一致して、フレームワークの有効性を裏付けるものである。
さらに、この枠組みは、新たな攻撃技術や分類に対応するため、最小限の調整しか必要とせず、効果的で実用的な解決法として確立された。
全体として、このフレームワークは、組織に対して、迅速なインジェクションによる潜在的な脅威に対して、アプリケーションを強化するための、十分なインフォームド決定を可能にする貴重な洞察を提供する。
Prompt injection attacks exploit vulnerabilities in large language models (LLMs) to manipulate the model into unintended actions or generate malicious content. As LLM integrated applications gain wider adoption, they face growing susceptibility to such attacks. This study introduces a novel evaluation framework for quantifying the resilience of applications. The framework incorporates innovative techniques designed to ensure representativeness, interpretability, and robustness. To ensure the representativeness of simulated attacks on the application, a meticulous selection process was employed, resulting in 115 carefully chosen attacks based on coverage and relevance. For enhanced interpretability, a second LLM was utilized to evaluate the responses generated from these simulated attacks. Unlike conventional malicious content classifiers that provide only a confidence score, the LLM-based evaluation produces a score accompanied by an explanation, thereby enhancing interpretability. Subsequently, a resilience score is computed by assigning higher weights to attacks with greater impact, thus providing a robust measurement of the application resilience. To assess the framework's efficacy, it was applied on two LLMs, namely Llama2 and ChatGLM. Results revealed that Llama2, the newer model exhibited higher resilience compared to ChatGLM. This finding substantiates the effectiveness of the framework, aligning with the prevailing notion that newer models tend to possess greater resilience. Moreover, the framework exhibited exceptional versatility, requiring only minimal adjustments to accommodate emerging attack techniques and classifications, thereby establishing itself as an effective and practical solution. Overall, the framework offers valuable insights that empower organizations to make well-informed decisions to fortify their applications against potential threats from prompt injection. | 翻訳日:2024-03-25 12:57:08 公開日:2024-01-02 |
# プレコンディショニングLDMによる仮想アシスタントの攻撃検出と防御
Detection and Defense Against Prominent Attacks on Preconditioned LLM-Integrated Virtual Assistants ( http://arxiv.org/abs/2401.00994v1 ) ライセンス: Link先を確認 | Chun Fai Chan, Daniel Wankit Yip, Aysan Esmradi, | (参考訳) LLM(Large Language Model)統合仮想アシスタントの出現は、通信力学の急速な変換をもたらした。
仮想アシスタント開発において、一部の開発者はプリコンディショニングのためにシステムメッセージ(初期プロンプトまたはカスタムプロンプトとしても知られる)を活用することを好んでいる。
しかし、この機能への過度な依存は、慎重に工夫したプロンプトで悪質な行為者による操作のリスクを高めることが重要である。
このような悪意のある操作は重大な脅威となり、仮想アシスタントの応答の正確さと信頼性を損なう可能性がある。
これにより、仮想アシスタントを検出・防御機構で保護することが、安全性と整合性を確保する上で最重要となる。
本研究では,システムメッセージを対象とした攻撃対策を目的とした3つの検知・防御機構について検討した。
これらのメカニズムには、参照キーの挿入、LLM評価器の利用、Self-Reminderの実装が含まれる。
これらのメカニズムの有効性を示すために、これらのメカニズムは顕著な攻撃技術に対してテストされた。
以上の結果から,本研究のメカニズムは攻撃を正確に識別し,対処することが可能であることが示唆された。
これらのメカニズムの有効性は、仮想アシスタントの完全性と信頼性を保護し、現実のシナリオにおける実装の重要性を補強する可能性を示している。
仮想アシスタントのセキュリティを優先することにより、組織はユーザの信頼を維持し、アプリケーションの完全性を維持し、この変革的技術の時代に期待される高い標準を維持できる。
The emergence of LLM (Large Language Model) integrated virtual assistants has brought about a rapid transformation in communication dynamics. During virtual assistant development, some developers prefer to leverage the system message, also known as an initial prompt or custom prompt, for preconditioning purposes. However, it is important to recognize that an excessive reliance on this functionality raises the risk of manipulation by malicious actors who can exploit it with carefully crafted prompts. Such malicious manipulation poses a significant threat, potentially compromising the accuracy and reliability of the virtual assistant's responses. Consequently, safeguarding the virtual assistants with detection and defense mechanisms becomes of paramount importance to ensure their safety and integrity. In this study, we explored three detection and defense mechanisms aimed at countering attacks that target the system message. These mechanisms include inserting a reference key, utilizing an LLM evaluator, and implementing a Self-Reminder. To showcase the efficacy of these mechanisms, they were tested against prominent attack techniques. Our findings demonstrate that the investigated mechanisms are capable of accurately identifying and counteracting the attacks. The effectiveness of these mechanisms underscores their potential in safeguarding the integrity and reliability of virtual assistants, reinforcing the importance of their implementation in real-world scenarios. By prioritizing the security of virtual assistants, organizations can maintain user trust, preserve the integrity of the application, and uphold the high standards expected in this era of transformative technologies. | 翻訳日:2024-03-25 12:57:08 公開日:2024-01-02 |
# ステルスの脅威を解き明かす:都市環境における自動運転車のスロードリフトGPSスポーフィング攻撃の解析とレジリエンスの促進
Unveiling the Stealthy Threat: Analyzing Slow Drift GPS Spoofing Attacks for Autonomous Vehicles in Urban Environments and Enabling the Resilience ( http://arxiv.org/abs/2401.01394v1 ) ライセンス: Link先を確認 | Sagar Dasgupta, Abdullah Ahmed, Mizanur Rahman, Thejesh N. Bandi, | (参考訳) 自律車両(AV)は、GPS(Global Positioning System)またはGlobal Navigation Satellite Systems(GNSS)に、正確な(Positioning, Navigation, and Timing)PNTソリューションを頼っている。
しかし、暗号化の欠如と信号強度の弱さによる意図せず意図しない脅威に対するGPS信号の脆弱性は深刻なリスクをもたらし、AVの信頼性を低下させる。
GPSスプーフィング(GPS spoofing)は、GPS受信機を変えて偽位置を計算し、誤指示につながる情報を追跡することで、AVを欺く複雑で有害な攻撃である。
本研究は、特に交互にAVを欺くために擬似範囲を変更しながら、被害者の衛星受信パターンを再現する、ステルスなスロードリフトGPSスプーフィング攻撃を探索する。
この攻撃は、正しいルートから徐々に逸脱し、リアルタイム検出を困難にし、ユーザーの安全を危うくするように設計されている。
本研究では,AVに対する隠蔽スプーフィング攻撃を構築するためのシステムと研究手法について述べる。
被害者の車両を追尾し、同じ衛星信号を使用することで、攻撃者は正確に攻撃を実行する。
擬似範囲を変更するとAVは混乱し、操作に不注意なまま不適切な目的地に導かれる。
実際の経路からの段階的な逸脱は攻撃をさらに隠蔽し、その迅速な識別を妨げる。
実験では、元の擬似範囲と偽域の間の強い相関が示され、R平方値は0.99から1の間で変化する。
この強い相関は、スプーフ信号の効果的な評価と緩和を促進する。
Autonomous vehicles (AVs) rely on the Global Positioning System (GPS) or Global Navigation Satellite Systems (GNSS) for precise (Positioning, Navigation, and Timing) PNT solutions. However, the vulnerability of GPS signals to intentional and unintended threats due to their lack of encryption and weak signal strength poses serious risks, thereby reducing the reliability of AVs. GPS spoofing is a complex and damaging attack that deceives AVs by altering GPS receivers to calculate false position and tracking information leading to misdirection. This study explores a stealthy slow drift GPS spoofing attack, replicating the victim AV's satellite reception pattern while changing pseudo ranges to deceive the AV, particularly during turns. The attack is designed to gradually deviate from the correct route, making real-time detection challenging and jeopardizing user safety. We present a system and study methodology for constructing covert spoofing attacks on AVs, investigating the correlation between original and spoofed pseudo ranges to create effective defenses. By closely following the victim vehicle and using the same satellite signals, the attacker executes the attack precisely. Changing the pseudo ranges confuses the AV, leading it to incorrect destinations while remaining oblivious to the manipulation. The gradual deviation from the actual route further conceals the attack, hindering its swift identification. The experiments showcase a robust correlation between the original and spoofed pseudo ranges, with R square values varying between 0.99 and 1. This strong correlation facilitates effective evaluation and mitigation of spoofing signals. | 翻訳日:2024-03-25 12:57:08 公開日:2024-01-02 |
# 機械生成テキストの検出:文献調査 Detection of Machine-Generated Text: Literature Survey ( http://arxiv.org/abs/2402.01642v1 ) ライセンス: Link先を確認 | Dmytro Valiaiev | (参考訳) 言語モデルは、フェイクテキストを迅速かつ容易に生成するため、パブリックドメインにそのようなコンテンツの過剰供給が存在する。
高度化と書体化の程度は、人間の著作物と機械生成物の区別がほとんど不可能な点に達している。
その結果、人間よりも言語モデルが生み出した作品がメディアの注目を集め、論争を巻き起こし、先進的な言語モデルが社会に与える影響についても議論が巻き起こった。
自然言語生成(nlg)とジェネレーティブ事前学習トランスフォーマー(gpt)モデルは、ジャーナリズムやカスタマサービスを通じて浸透するだけでなく、学界にまで達する様々な分野に革命をもたらした。
これらのモデルの使用によって引き起こされる有害な影響を緩和するためには、人間のエージェントに自動システムやリバースエンジニアリング言語モデルを利用した人造テキストと人造テキストを区別する能力を与えるなど、予防措置を実施する必要がある。
さらに、バランスよく責任あるアプローチを確保するためには、これらのブレークスルーの社会技術的影響を完全に把握することが重要である。
文献調査は、前述の作品の成果や発展をまとめ、まとめることを目的とするとともに、今後の展望を見据えたものである。
また、機械が生成するテキストの傾向を概観し、より大きな社会的意味を探求する。
究極的には,本調査は,言語モデルの性能とその可能性の間の相互作用を探索することにより,機械生成テキストの使用と検出に関連する問題を解消するための,堅牢で効果的なアプローチの開発に寄与することを目的としている。 Since language models produce fake text quickly and easily, there is an oversupply of such content in the public domain. The degree of sophistication and writing style has reached a point where differentiating between human authored and machine-generated content is nearly impossible. As a result, works generated by language models rather than human authors have gained significant media attention and stirred controversy.Concerns regarding the possible influence of advanced language models on society have also arisen, needing a fuller knowledge of these processes. Natural language generation (NLG) and generative pre-trained transformer (GPT) models have revolutionized a variety of sectors: the scope not only permeated throughout journalism and customer service but also reached academia. To mitigate the hazardous implications that may arise from the use of these models, preventative measures must be implemented, such as providing human agents with the capacity to distinguish between artificially made and human composed texts utilizing automated systems and possibly reverse-engineered language models. Furthermore, to ensure a balanced and responsible approach, it is critical to have a full grasp of the socio-technological ramifications of these breakthroughs. This literature survey aims to compile and synthesize accomplishments and developments in the aforementioned work, while also identifying future prospects. It also gives an overview of machine-generated text trends and explores the larger societal implications. Ultimately, this survey intends to contribute to the development of robust and effective approaches for resolving the issues connected with the usage and detection of machine-generated text by exploring the interplay between the capabilities of language models and their possible implications. | 翻訳日:2024-02-11 17:15:11 公開日:2024-01-02 |
# SpecFormer:最大特異値ペナリゼーションによるガード視覚変換器ロバストネス SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular Value Penalization ( http://arxiv.org/abs/2402.03317v1 ) ライセンス: Link先を確認 | Xixu Hu, Runkai Zheng, Jindong Wang, Cheuk Hang Leung, Qi Wu, Xing Xie | (参考訳) 視覚トランスフォーマー(vits)は、その優れた性能のため、幅広いコンピュータビジョンタスクに好まれる選択肢として注目を集めている。
しかし、彼らの普及によって、悪意ある攻撃に直面したセキュリティに対する懸念が高まっている。
既存の手法の多くは、訓練過程における経験的調整に依存しており、明確な理論的基礎を欠いている。
本研究では,vitsの攻撃に対する弾力性を高めるために特別に設計されたspecformerを導入することで,このギャップを解消する。
我々は自己注意層に対する局所的なリプシッツ境界を確立し、これらの境界を正確に制御するための新しいアプローチである最大特異値ペナライゼーション(MSVP)を導入する。
計算効率を向上させるためにパワーイテレーション法を用いて,MSVP を ViT の注意層にシームレスに統合する。
修正モデルであるspecformerは、注意重み行列のスペクトルノルムを効果的に低減し、ネットワーク局所リプシッツ性を高める。
これにより、トレーニングの効率性と堅牢性が向上する。
CIFARとImageNetデータセットに関する大規模な実験により、SpecFormerの敵攻撃に対する防御における優れたパフォーマンスが確認された。 Vision Transformers (ViTs) have gained prominence as a preferred choice for a wide range of computer vision tasks due to their exceptional performance. However, their widespread adoption has raised concerns about security in the face of malicious attacks. Most existing methods rely on empirical adjustments during the training process, lacking a clear theoretical foundation. In this study, we address this gap by introducing SpecFormer, specifically designed to enhance ViTs' resilience against adversarial attacks, with support from carefully derived theoretical guarantees. We establish local Lipschitz bounds for the self-attention layer and introduce a novel approach, Maximum Singular Value Penalization (MSVP), to attain precise control over these bounds. We seamlessly integrate MSVP into ViTs' attention layers, using the power iteration method for enhanced computational efficiency. The modified model, SpecFormer, effectively reduces the spectral norms of attention weight matrices, thereby enhancing network local Lipschitzness. This, in turn, leads to improved training efficiency and robustness. Extensive experiments on CIFAR and ImageNet datasets confirm SpecFormer's superior performance in defending against adversarial attacks. | 翻訳日:2024-02-11 15:52:46 公開日:2024-01-02 |
# エクササイズCNOT合成法を用いた量子状態合成 Quantum State Preparation Using an Exact CNOT Synthesis Formulation ( http://arxiv.org/abs/2401.01009v1 ) ライセンス: Link先を確認 | Hanyu Wang, Bochen Tan, Jason Cong, Giovanni De Micheli | (参考訳) 量子状態形成におけるcnotゲートの使用を最小化することは、単一量子ビットゲートよりも結合制約やノイズが多いため、量子コンパイルにおいて重要なステップである。
CNOTゲートの数を減らすことで、より効率的で正確な量子計算が可能になる。
しかし、モデル重ね合わせと絡み合わせとの互換性の欠如は、古典コンピュータにおけるCNOT最適化アルゴリズムのスケーラビリティと最適性に挑戦する。
本稿では,正確なCNOT合成定式化を用いた効率的な状態生成アルゴリズムを提案する。
本手法は,手動設計に勝る最初の設計自動化アルゴリズムであり,Dicke状態の2倍の最適なCNOT数を削減した。
20量子ビットまでの一般の州では、最新のアルゴリズムと比較して、密度の高い状態と希薄な状態のcnot番号を9%と32%削減する。 Minimizing the use of CNOT gates in quantum state preparation is a crucial step in quantum compilation, as they introduce coupling constraints and more noise than single-qubit gates. Reducing the number of CNOT gates can lead to more efficient and accurate quantum computations. However, the lack of compatibility to model superposition and entanglement challenges the scalability and optimality of CNOT optimization algorithms on classical computers. In this paper, we propose an effective state preparation algorithm using an exact CNOT synthesis formulation. Our method represents a milestone as the first design automation algorithm to surpass manual design, reducing the best CNOT numbers to prepare a Dicke state by 2x. For general states with up to 20 qubits, our method reduces the CNOT number by 9% and 32% for dense and sparse states, on average, compared to the latest algorithms. | 翻訳日:2024-01-28 16:27:50 公開日:2024-01-02 |
# 深層学習モデルによる犬皮膚肥満細胞のc-Kit-11変異の組織学的スライスによる予測 Deep Learning model predicts the c-Kit-11 mutational status of canine cutaneous mast cell tumors by HE stained histological slides ( http://arxiv.org/abs/2401.06169v1 ) ライセンス: Link先を確認 | Chlo\'e Puget, Jonathan Ganz, Julian Ostermaier, Thomas Konrad, Eda Parlak, Christof Albert Bertram, Matti Kiupel, Katharina Breininger, Marc Aubreville, Robert Klopfleisch | (参考訳) 犬の肥満細胞腫瘍の生検で病理組織学的に多くの予後因子が評価されている。
さらに、チロシンキナーゼ阻害剤療法の潜在的成功を評価するために、c-Kit exon 11変異状態のPCR解析がしばしば行われる。
本研究の目的は,MCTのc-Kit-11変異を分子解析を伴わない形態のみに基づいて同定する深層学習モデル(DLM)の訓練である。
195個の異型腫瘍と173個の非異型腫瘍のHEスライスを2つの異なる実験室で連続染色し,3つの異なるスライススキャナーでスキャンした。
その結果、スライド画像全体の6つの異なるデータセット(ステン・スカンナーのバリエーション)が得られた。
DLMは単一および混合データセットでトレーニングされ、その性能はスキャナと染色ドメインシフトの下で評価された。
dlmsは、c-kit 11の変異状況に応じて、最も適したステンド・スカンナー変異例の87%でスライドを正しく分類した。
トレーニングとテストデータセットのステンドスキャンの組み合わせが異なる場合には,関連するパフォーマンス低下が観察できた。
多変量データセットは平均精度を改善したが、同じステンド・スキャナー変種で訓練およびテストされたアルゴリズムの最大精度には達しなかった。
要約すると、DLMによるCTの形態学的検査は、CTのc-Kit-exon 11変異状態を高精度に予測できる。
しかし、認識性能はスキャナーやステンドリングプロトコルの変更によって阻害される。
異なる研究室やスキャナーに由来するスキャン数が多い大規模なデータセットは、HEスライドのc-Kit変異を識別するためにより堅牢なDLMにつながる可能性がある。 Numerous prognostic factors are currently assessed histopathologically in biopsies of canine mast cell tumors to evaluate clinical behavior. In addition, PCR analysis of the c-Kit exon 11 mutational status is often performed to evaluate the potential success of a tyrosine kinase inhibitor therapy. This project aimed at training deep learning models (DLMs) to identify the c-Kit-11 mutational status of MCTs solely based on morphology without additional molecular analysis. HE slides of 195 mutated and 173 non-mutated tumors were stained consecutively in two different laboratories and scanned with three different slide scanners. This resulted in six different datasets (stain-scanner variations) of whole slide images. DLMs were trained with single and mixed datasets and their performances was assessed under scanner and staining domain shifts. The DLMs correctly classified HE slides according to their c-Kit 11 mutation status in, on average, 87% of cases for the best-suited stain-scanner variant. A relevant performance drop could be observed when the stain-scanner combination of the training and test dataset differed. Multi-variant datasets improved the average accuracy but did not reach the maximum accuracy of algorithms trained and tested on the same stain-scanner variant. In summary, DLM-assisted morphological examination of MCTs can predict c-Kit-exon 11 mutational status of MCTs with high accuracy. However, the recognition performance is impeded by a change of scanner or staining protocol. Larger data sets with higher numbers of scans originating from different laboratories and scanners may lead to more robust DLMs to identify c-Kit mutations in HE slides. | 翻訳日:2024-01-22 12:52:48 公開日:2024-01-02 |
# ゲーム理論最適ポーカーに関する調査 A Survey on Game Theory Optimal Poker ( http://arxiv.org/abs/2401.06168v1 ) ライセンス: Link先を確認 | Prathamesh Sonawane and Arav Chheda | (参考訳) ポーカーは、チェス、コネクト4など、完全な情報ゲームである他のゲームとは異なり、不完全な情報ゲームに属する。
多くの完全情報ゲームが解決されているが、非自明な不完全な情報ゲームはこれまで解決されていない。
これによりポーカーは人工知能研究にとって素晴らしいテストベッドとなる。
本稿では,まず,ゲーム理論の最適ポーカーを悪用ポーカーと比較する。
次に,Tartanian[1] やPluribus[6] のようなポーカーボットが採用する抽象化手法,ベッティングモデル,具体的な戦略の複雑さについて論じる。
第3に,2人プレイヤ対マルチプレイヤーゲームと,より多くのプレイヤーとプレイする場合の制限についても検討する。
最後に,勝利戦略開発における機械学習と理論的アプローチの役割を論じ,この急速に発展する分野の今後の方向性を提案する。 Poker is in the family of imperfect information games unlike other games such as chess, connect four, etc which are perfect information game instead. While many perfect information games have been solved, no non-trivial imperfect information game has been solved to date. This makes poker a great test bed for Artificial Intelligence research. In this paper we firstly compare Game theory optimal poker to Exploitative poker. Secondly, we discuss the intricacies of abstraction techniques, betting models, and specific strategies employed by successful poker bots like Tartanian[1] and Pluribus[6]. Thirdly, we also explore 2-player vs multi-player games and the limitations that come when playing with more players. Finally, this paper discusses the role of machine learning and theoretical approaches in developing winning strategies and suggests future directions for this rapidly evolving field. | 翻訳日:2024-01-22 12:52:20 公開日:2024-01-02 |
# CLIPに基づく画像-テキスト変換によるマルチモーダル理解の強化 Enhancing Multimodal Understanding with CLIP-Based Image-to-Text Transformation ( http://arxiv.org/abs/2401.06167v1 ) ライセンス: Link先を確認 | Chang Che, Qunwei Lin, Xinyu Zhao, Jiaxin Huang, Liqiang Yu | (参考訳) 入力画像を対応するテキスト説明に変換するプロセスは、コンピュータビジョンと自然言語処理の領域において重要かつ複雑な取り組みである。
本稿では,コントラスト型言語イメージ事前学習モデルの能力を活用した革新的なアンサンブル手法を提案する。 The process of transforming input images into corresponding textual explanations stands as a crucial and complex endeavor within the domains of computer vision and natural language processing. In this paper, we propose an innovative ensemble approach that harnesses the capabilities of Contrastive Language-Image Pretraining models. | 翻訳日:2024-01-22 12:52:06 公開日:2024-01-02 |
# HA-HI:軽度認知障害診断のための階層的アライメントと階層的相互作用によるfMRIとDTIの相乗化 HA-HI: Synergising fMRI and DTI through Hierarchical Alignments and Hierarchical Interactions for Mild Cognitive Impairment Diagnosis ( http://arxiv.org/abs/2401.06780v1 ) ライセンス: Link先を確認 | Xiongri Shen, Zhenxi Song, Linling Li, Min Zhang, Lingyan Liang Honghai Liu, Demao Deng, Zhiguo Zhang | (参考訳) 多モードMRIを用いた軽度認知障害(MCI)と主観的認知低下(SCD)の早期診断は研究の要点である。
機能的MRI(fMRI)や拡散テンソルイメージング(DTI)による様々な局所的および接続性の特徴が診断モデルの開発に用いられているが、ほとんどの研究は、それらのアライメントと相互作用に適切に対処することなくこれらの特徴を統合する。
このことは、組み合わせた特徴とモダリティの相乗的貢献を完全に活用する可能性を制限する。
このギャップを解消するために,本研究では,fMRIとDTIを併用した,MCIとSCD分類のための新しい階層的アライメントと階層的インタラクション(HA-HI)手法を提案する。
HA-HIは、様々な特徴型を整列し、それらの相互作用を階層的に最大化することで、MCIまたはSCD関連の重要な地域および接続特性を効率的に学習する。
さらに,本手法の解釈可能性を高めるために,MCI/SCDを示す重要な脳領域と接続を明らかにするSynergistic Activation Map(SAM)技術を開発した。
adniデータセットと自己収集データに関する包括的評価は、ha-hiがmciとscdの診断において他の既存の方法よりも優れていることを示している。
この手法の実装はhttps://github.com/ICI-BCI/Dual-MRI-HA-HI.gitで公開されている。 Early diagnosis of mild cognitive impairment (MCI) and subjective cognitive decline (SCD) utilizing multi-modal magnetic resonance imaging (MRI) is a pivotal area of research. While various regional and connectivity features from functional MRI (fMRI) and diffusion tensor imaging (DTI) have been employed to develop diagnosis models, most studies integrate these features without adequately addressing their alignment and interactions. This limits the potential to fully exploit the synergistic contributions of combined features and modalities. To solve this gap, our study introduces a novel Hierarchical Alignments and Hierarchical Interactions (HA-HI) method for MCI and SCD classification, leveraging the combined strengths of fMRI and DTI. HA-HI efficiently learns significant MCI- or SCD- related regional and connectivity features by aligning various feature types and hierarchically maximizing their interactions. Furthermore, to enhance the interpretability of our approach, we have developed the Synergistic Activation Map (SAM) technique, revealing the critical brain regions and connections that are indicative of MCI/SCD. Comprehensive evaluations on the ADNI dataset and our self-collected data demonstrate that HA-HI outperforms other existing methods in diagnosing MCI and SCD, making it a potentially vital and interpretable tool for early detection. The implementation of this method is publicly accessible at https://github.com/ICI-BCI/Dual-MRI-HA-HI.git. | 翻訳日:2024-01-22 12:41:55 公開日:2024-01-02 |
# MRI画像のセグメンテーションのための教師なしフェデレーションドメイン適応 Unsupervised Federated Domain Adaptation for Segmentation of MRI Images ( http://arxiv.org/abs/2401.02941v1 ) ライセンス: Link先を確認 | Navapat Nananukul, Hamid Soltanian-zadeh, Mohammad Rostami | (参考訳) ディープニューラルネットワークを用いたMRI画像の自動セマンティックセグメンテーションは、様々な臨床応用のための治療の評価と計画に大いに役立っている。
しかし、これらのモデルのトレーニングは、エンド・ツー・エンドの教師付き学習手順を実装するために、豊富な注釈付きデータを利用できることを条件としている。
十分なアノテートデータであっても、MRI画像は、患者、MRIスキャナー、画像プロトコルの違いなどの要因により、かなりのばらつきを示す。
この可変性は、特定のアプリケーションドメインごとにニューラルネットワークを再トレーニングする必要がある。
永続的なデータアノテーションの必要性を緩和するために、複数のアノテーション付きソースドメインを用いた教師なしフェデレーションドメイン適応法を開発した。
提案手法により,アノテートされていないターゲットドメインにおいて,複数のアノテートされたソースドメインからの知識の伝達が可能となる。
当初、ターゲット領域とソース領域の分布のペアワイド距離を最小化することにより、ターゲット領域データが、ディープエンコーダの出力としてモデル化された遅延埋め込み空間において、各ソースドメインと類似の表現を共有することを保証する。
そして、すべてのドメインから得られた知識を活用するためにアンサンブルアプローチを採用します。
提案手法の有効性を実証するため,MICCAI 2016マルチサイトデータセットの理論的解析と実験を行った。 Automatic semantic segmentation of magnetic resonance imaging (MRI) images using deep neural networks greatly assists in evaluating and planning treatments for various clinical applications. However, training these models is conditioned on the availability of abundant annotated data to implement the end-to-end supervised learning procedure. Even if we annotate enough data, MRI images display considerable variability due to factors such as differences in patients, MRI scanners, and imaging protocols. This variability necessitates retraining neural networks for each specific application domain, which, in turn, requires manual annotation by expert radiologists for all new domains. To relax the need for persistent data annotation, we develop a method for unsupervised federated domain adaptation using multiple annotated source domains. Our approach enables the transfer of knowledge from several annotated source domains to adapt a model for effective use in an unannotated target domain. Initially, we ensure that the target domain data shares similar representations with each source domain in a latent embedding space, modeled as the output of a deep encoder, by minimizing the pair-wise distances of the distributions for the target domain and the source domains. We then employ an ensemble approach to leverage the knowledge obtained from all domains. We provide theoretical analysis and perform experiments on the MICCAI 2016 multi-site dataset to demonstrate our method is effective. | 翻訳日:2024-01-15 09:44:59 公開日:2024-01-02 |
# 人工呼吸物理に基づくユーザ認証システム User authentication system based on human exhaled breath physics ( http://arxiv.org/abs/2401.02447v1 ) ライセンス: Link先を確認 | Mukesh Karunanethy, Rahul Tripathi, Mahesh V Panchagnula and Raghunathan Rengaswamy | (参考訳) この研究は先駆的なアプローチで、呼気を管理する流体力学に基づいて純粋に機能するバイオメトリックシステムを構築しようとする。
人工呼吸における乱流の構造は生体計測アルゴリズムの構築に活用できるという仮説を検証した。
この研究は、胸腔外気道が個人ごとに独特であるという考えに基づいており、呼気をバイオマーカーにしている。
従来の多次元仮説テストアプローチや機械学習モデルを含む手法は、ユーザ認証アルゴリズムの構築、すなわちユーザ確認とユーザ識別に使用される。
ユーザ確認アルゴリズムは、ユーザが自分が主張する人物であるかどうかを検証しようとする。
ユーザ識別アルゴリズムは、予め利用可能な情報なしでユーザのidを識別しようとする。
94名の被験者による呼気時系列のデータセットを用いて,これらのアルゴリズムの性能評価を行った。
ユーザ確認アルゴリズムは、与えられたデータセットに対して9,7\%$の真確認率で非常によく実行された。
機械学習ベースのアルゴリズムは、なぜ機械学習ベースのアルゴリズムが古典的な仮説テストベースのアルゴリズムより優れているのか、という理解を繰り返した。
ユーザ識別アルゴリズムは、提供されたデータセットと合理的にうまく動作し、50\%以上のユーザを2つの容疑者の範囲内で識別する。
これまでに発見されていない吸気呼吸の中で、驚くほど独特な乱流のシグネチャが示されています。
新しい生体計測システムに関する議論に加えて、このアイデアを個人間の胸腔外気道の形態的変化に関する洞察を得るためのツールとして利用するための議論を行う。
このようなツールは、パーソナライズドメディカルな医療分野において将来の可能性を持つものと期待されている。 This work, in a pioneering approach, attempts to build a biometric system that works purely based on the fluid mechanics governing exhaled breath. We test the hypothesis that the structure of turbulence in exhaled human breath can be exploited to build biometric algorithms. This work relies on the idea that the extrathoracic airway is unique for every individual, making the exhaled breath a biomarker. Methods including classical multi-dimensional hypothesis testing approach and machine learning models are employed in building user authentication algorithms, namely user confirmation and user identification. A user confirmation algorithm tries to verify whether a user is the person they claim to be. A user identification algorithm tries to identify a user's identity with no prior information available. A dataset of exhaled breath time series samples from 94 human subjects was used to evaluate the performance of these algorithms. The user confirmation algorithms performed exceedingly well for the given dataset with over $97\%$ true confirmation rate. The machine learning based algorithm achieved a good true confirmation rate, reiterating our understanding of why machine learning based algorithms typically outperform classical hypothesis test based algorithms. The user identification algorithm performs reasonably well with the provided dataset with over $50\%$ of the users identified as being within two possible suspects. We show surprisingly unique turbulent signatures in the exhaled breath that have not been discovered before. In addition to discussions on a novel biometric system, we make arguments to utilise this idea as a tool to gain insights into the morphometric variation of extrathoracic airway across individuals. Such tools are expected to have future potential in the area of personalised medicines. | 翻訳日:2024-01-15 09:44:03 公開日:2024-01-02 |
# ビジネスプロセスに関連する規制要件の同定:生成AI、埋め込み型ランキング、集団およびエキスパート駆動手法の比較研究 Identification of Regulatory Requirements Relevant to Business Processes: A Comparative Study on Generative AI, Embedding-based Ranking, Crowd and Expert-driven Methods ( http://arxiv.org/abs/2401.02986v1 ) ライセンス: Link先を確認 | Catherine Sai, Shazia Sadiq, Lei Han, Gianluca Demartini, Stefanie Rinderle-Ma | (参考訳) 組織は、さまざまな規制文書からの要求の増加に対応するという課題に直面しています。
どの要件が関連するかは、組織の地理的な位置、ドメイン、サイズ、ビジネスプロセスといった側面に依存します。
最初のステップとして、これらの文脈的要因を考慮すると、関連する文書(例えば、法律、規則、指令、ポリシー)を識別し、続いて、特定された文書のどの部分が特定のビジネスプロセスのどのステップに関連しているかをより詳細に分析する。
今日では、ビジネスプロセスに関連する規制要件の特定は、主にドメインや法律の専門家によって手作業で行われ、特に頻繁な変更の可能性のある多数の規制文書に対して非常に努力している。
そこで本研究では,法律専門家とドメイン専門家が関連する要件の評価においてどのように支援できるかを検討する。
そこで,本研究では,組込み型nlpランキング法,gpt-4を用いた生成型ai法,クラウドソース法と専門家による関係ラベル作成のための純粋マニュアル法を比較した。
提案手法は,SAPシグナビオの国際ガイドラインのワークフロー例から,ドメインの専門家によるオーストラリア保険とグローバルバンキングのユースケースの2つのケーススタディに基づいて評価された。
BPMN2.0プロセスの両方に対してゴールドスタンダードが作成され、複数の規制文書から現実のテキスト要求にマッチします。
評価と議論は、適用性、自動化、透明性、再現性に関する各メソッドの長所と短所に関する洞察を提供し、アプリケーションシナリオのプロセス利用、影響、ダイナミクスなど、所定の特性に対する利点を最大化する方法の組み合わせに関するガイドラインを提供する。 Organizations face the challenge of ensuring compliance with an increasing amount of requirements from various regulatory documents. Which requirements are relevant depends on aspects such as the geographic location of the organization, its domain, size, and business processes. Considering these contextual factors, as a first step, relevant documents (e.g., laws, regulations, directives, policies) are identified, followed by a more detailed analysis of which parts of the identified documents are relevant for which step of a given business process. Nowadays the identification of regulatory requirements relevant to business processes is mostly done manually by domain and legal experts, posing a tremendous effort on them, especially for a large number of regulatory documents which might frequently change. Hence, this work examines how legal and domain experts can be assisted in the assessment of relevant requirements. For this, we compare an embedding-based NLP ranking method, a generative AI method using GPT-4, and a crowdsourced method with the purely manual method of creating relevancy labels by experts. The proposed methods are evaluated based on two case studies: an Australian insurance case created with domain experts and a global banking use case, adapted from SAP Signavio's workflow example of an international guideline. A gold standard is created for both BPMN2.0 processes and matched to real-world textual requirements from multiple regulatory documents. The evaluation and discussion provide insights into strengths and weaknesses of each method regarding applicability, automation, transparency, and reproducibility and provide guidelines on which method combinations will maximize benefits for given characteristics such as process usage, impact, and dynamics of an application scenario. | 翻訳日:2024-01-15 09:35:24 公開日:2024-01-02 |
# GMATにおける大規模言語モデルの評価:ビジネス教育の将来への示唆 Evaluating Large Language Models on the GMAT: Implications for the Future of Business Education ( http://arxiv.org/abs/2401.02985v1 ) ライセンス: Link先を確認 | Vahid Ashrafimoghari, Necdet G\"urkan, and Jordan W. Suchow | (参考訳) 人工知能(AI)の急速な進化、特にLarge Language Models(LLMs)とジェネレーティブAIの分野において、さまざまな分野に適用するための新たな道が開かれたが、ビジネス教育におけるその役割は未解明のままである。
本研究は, GMATにおける7つのLLM, OpenAI のモデル (GPT-3.5 Turbo, GPT-4, GPT-4 Turbo) , Google のモデル (PaLM 2, Gemini 1.0 Pro) および Anthropic のモデル (Claude 2 と Claude 2.1) のパフォーマンスを評価するための最初のベンチマークを紹介する。
GPT-4 Turboは他のモデルよりも優れているだけでなく、トップビジネススクールの大学院生の平均スコアを上回っている。
本研究は,gpt-4turboの解答説明,応答評価,エラーの特定,命令の調整,代替シナリオの作成などを行う能力について検討する。
最新のLCMバージョンであるGPT-4 Turbo、Claude 2.1、Gemini 1.0 Proは、先代モデルと比べて推論タスクが大幅に改善され、複雑な問題解決の可能性を示している。
教育、評価、教育におけるAIの約束は明確だが、課題は残る。
我々の研究は、LLMの学術的可能性だけでなく、教育におけるAIの慎重な開発と応用の必要性も強調している。
AI技術が進歩するにつれて、AIインタラクションのためのフレームワークとプロトコルを確立し、AI生成したコンテンツの正確性を検証し、さまざまな学習者への世界的なアクセスを確保し、AIが人間の専門知識をサポートする教育環境を構築することが不可欠である。
この研究は、教育経験を豊かにし、試験準備と評価方法を改善するために、AIの責任を負う使用についてさらなる調査を行う段階を定めている。 The rapid evolution of artificial intelligence (AI), especially in the domain of Large Language Models (LLMs) and generative AI, has opened new avenues for application across various fields, yet its role in business education remains underexplored. This study introduces the first benchmark to assess the performance of seven major LLMs, OpenAI's models (GPT-3.5 Turbo, GPT-4, and GPT-4 Turbo), Google's models (PaLM 2, Gemini 1.0 Pro), and Anthropic's models (Claude 2 and Claude 2.1), on the GMAT, which is a key exam in the admission process for graduate business programs. Our analysis shows that most LLMs outperform human candidates, with GPT-4 Turbo not only outperforming the other models but also surpassing the average scores of graduate students at top business schools. Through a case study, this research examines GPT-4 Turbo's ability to explain answers, evaluate responses, identify errors, tailor instructions, and generate alternative scenarios. The latest LLM versions, GPT-4 Turbo, Claude 2.1, and Gemini 1.0 Pro, show marked improvements in reasoning tasks compared to their predecessors, underscoring their potential for complex problem-solving. While AI's promise in education, assessment, and tutoring is clear, challenges remain. Our study not only sheds light on LLMs' academic potential but also emphasizes the need for careful development and application of AI in education. As AI technology advances, it is imperative to establish frameworks and protocols for AI interaction, verify the accuracy of AI-generated content, ensure worldwide access for diverse learners, and create an educational environment where AI supports human expertise. This research sets the stage for further exploration into the responsible use of AI to enrich educational experiences and improve exam preparation and assessment methods. | 翻訳日:2024-01-15 09:34:54 公開日:2024-01-02 |
# 時間のスライキング:スパイキングニューラルネットワークによる低レイテンシニューロモルフィック物体認識を目指して Shrinking Your TimeStep: Towards Low-Latency Neuromorphic Object Recognition with Spiking Neural Network ( http://arxiv.org/abs/2401.01912v1 ) ライセンス: Link先を確認 | Yongqi Ding, Lin Zuo, Mengmeng Jing, Pei He and Yongjun Xiao | (参考訳) スパイキングニューラルネットワーク(SNN)を用いたニューロモーフィック物体認識は低消費電力ニューロモーフィックコンピューティングの基盤となる。
しかしながら、既存のSNNは、神経形オブジェクトを認識するために10から40のタイムステップを利用する、かなりの遅延に悩まされている。
低レイテンシでは、既存のSNNの性能は大幅に劣化する。
本研究では,低遅延なニューロモルフィック物体認識を実現するための縮小型sns(ssnn)を提案する。
具体的には、snsを段階的に縮小する複数の段階に分けることで、snsの時間的冗長性を緩和し、推論遅延を大幅に削減する。
時間ステップ縮小の間、時間変圧器は時間スケールをスムーズに変換し、情報を最大に保存する。
さらに,訓練中に複数の初期分類器をsnに付加することにより,サロゲート勾配と真の勾配のミスマッチを緩和し,勾配の消失/爆発を緩和し,低レイテンシ時の性能劣化を解消した。
ニューロモルフィックデータセット(CIFAR10-DVS、N-Caltech101、DVS-Gesture)に関する大規模な実験により、SSNNはベースライン精度を6.55%から21.41%改善できることが明らかになった。
ssnnは5つの平均時間ステップしか持たず、データ拡張なしでcifar10-dvsで73.63%の精度を達成できる。
本研究は異種時間スケールSNNを示し,高性能低レイテンシSNNの開発に関する貴重な知見を提供する。 Neuromorphic object recognition with spiking neural networks (SNNs) is the cornerstone of low-power neuromorphic computing. However, existing SNNs suffer from significant latency, utilizing 10 to 40 timesteps or more, to recognize neuromorphic objects. At low latencies, the performance of existing SNNs is drastically degraded. In this work, we propose the Shrinking SNN (SSNN) to achieve low-latency neuromorphic object recognition without reducing performance. Concretely, we alleviate the temporal redundancy in SNNs by dividing SNNs into multiple stages with progressively shrinking timesteps, which significantly reduces the inference latency. During timestep shrinkage, the temporal transformer smoothly transforms the temporal scale and preserves the information maximally. Moreover, we add multiple early classifiers to the SNN during training to mitigate the mismatch between the surrogate gradient and the true gradient, as well as the gradient vanishing/exploding, thus eliminating the performance degradation at low latency. Extensive experiments on neuromorphic datasets, CIFAR10-DVS, N-Caltech101, and DVS-Gesture have revealed that SSNN is able to improve the baseline accuracy by 6.55% ~ 21.41%. With only 5 average timesteps and without any data augmentation, SSNN is able to achieve an accuracy of 73.63% on CIFAR10-DVS. This work presents a heterogeneous temporal scale SNN and provides valuable insights into the development of high-performance, low-latency SNNs. | 翻訳日:2024-01-05 16:29:09 公開日:2024-01-02 |
# 多極保存拡散におけるスケーリングと局在化 Scaling and localization in multipole-conserving diffusion ( http://arxiv.org/abs/2304.03276v3 ) ライセンス: Link先を確認 | Jung Hoon Han, Ethan Lake, and Sunghan Ro | (参考訳) 本研究では, 質量中心を動力学が保存する古典粒子系の拡散について検討する。
この保存法則はいくつかの興味深い結果をもたらす。
有限系では、系の境界付近で指数関数的に局所化される平衡分布が許される。
これはまた平衡に対する特異なアプローチをもたらし、$d$次元では動的指数 $z = 4+d$ のスケーリングを示す。
同様の現象は密度のより高いモーメントを保存するダイナミクスにも起こり、非線形拡散方程式の族を用いて体系的に分類する。
量子設定では、類似のフェルミオン系は実空間フェルミ曲面を形成することが示され、ボソニックバージョンはボース=アインシュタイン凝縮の実空間類似を示す。 We study diffusion in systems of classical particles whose dynamics conserves the total center of mass. This conservation law leads to several interesting consequences. In finite systems, it allows for equilibrium distributions that are exponentially localized near system boundaries. It also yields an unusual approach to equilibrium, which in $d$ dimensions exhibits scaling with dynamical exponent $z = 4+d$. Similar phenomena occur for dynamics that conserves higher moments of the density, which we systematically classify using a family of nonlinear diffusion equations. In the quantum setting, analogous fermionic systems are shown to form real-space Fermi surfaces, while bosonic versions display a real-space analog of Bose-Einstein condensation. | 翻訳日:2024-01-04 17:23:07 公開日:2024-01-02 |
# 自己解釈可能なCNN型バイナリ分類器の構築のための統計的推定に基づく一手法 A Test Statistic Estimation-based Approach for Establishing Self-interpretable CNN-based Binary Classifiers ( http://arxiv.org/abs/2303.06876v3 ) ライセンス: Link先を確認 | Sourya Sengupta and Mark A. Anastasio | (参考訳) ディープニューラルネットワークベースの分類器、特に医用画像における高い判定に対処する場合、解釈可能性は非常に望ましい。
一般的に用いられるポストホック解釈可能性法は、与えられたモデルの正当だが異なる解釈を生成できるという制限を持ち、どのモデルを選ぶべきかの曖昧さをもたらす。
この問題に対処するために, 事前訓練された深部ブラックボックス医療画像分類器を前提とした, 自己解釈モデルを確立するための, 新たな決定理論に基づくアプローチについて検討した。
このアプローチでは,自己解釈可能なエンコーダデコーダモデルと,ユニタリ重み付き単一層完全連結ネットワークを併用する。
このモデルは、与えられた訓練されたブラックボックスのディープバイナリ分類器のテスト統計を推定するために訓練され、同様の精度を維持する。
デコーダ出力画像は、同値マップと呼ばれ、固定された完全連結層によって処理されると、元の分類器と同じテスト統計値を生成するto-be-classified画像の変換バージョンを表す画像である。
同値マップは、テストの統計値に直接寄与する変換された画像の特徴の可視化を提供し、さらにそれらの相対的な貢献の定量化を可能にする。
従来のポストホック解釈法とは異なり,提案手法は自己解釈可能で定量的である。
3つの異なる医用画像バイナリ分類タスクを用いて定量的・質的分析を行った。 Interpretability is highly desired for deep neural network-based classifiers, especially when addressing high-stake decisions in medical imaging. Commonly used post-hoc interpretability methods have the limitation that they can produce plausible but different interpretations of a given model, leading to ambiguity about which one to choose. To address this problem, a novel decision-theory-inspired approach is investigated to establish a self-interpretable model, given a pre-trained deep binary black-box medical image classifier. This approach involves utilizing a self-interpretable encoder-decoder model in conjunction with a single-layer fully connected network with unity weights. The model is trained to estimate the test statistic of the given trained black-box deep binary classifier to maintain a similar accuracy. The decoder output image, referred to as an equivalency map, is an image that represents a transformed version of the to-be-classified image that, when processed by the fixed fully connected layer, produces the same test statistic value as the original classifier. The equivalency map provides a visualization of the transformed image features that directly contribute to the test statistic value and, moreover, permits quantification of their relative contributions. Unlike the traditional post-hoc interpretability methods, the proposed method is self-interpretable, quantitative. Detailed quantitative and qualitative analyses have been performed with three different medical image binary classification tasks. | 翻訳日:2024-01-04 17:22:34 公開日:2024-01-02 |
# 確率的チームにおける効率的な学習のためのロジット-Qダイナミクス Logit-Q Dynamics for Efficient Learning in Stochastic Teams ( http://arxiv.org/abs/2302.09806v2 ) ライセンス: Link先を確認 | Muhammed O. Sayin and Onur Unlu | (参考訳) 本稿では,従来の対数線形学習と独立な対数線形学習を併用した2つの対数-Q学習ダイナミクスを提案する。
確率的チームでは,ロジット-Qのダイナミクスが(ほぼ)効率よく平衡することを示した。
我々は近似誤差のバウンドを定量化する。
また、純粋な定常戦略に従うエージェントに対するロジット-Qダイナミクスの合理性や、報酬関数が潜在的ゲームを引き起こす確率ゲームにおけるダイナミクスの収束性を示すが、確率的チームを超えた状態遷移を制御するのは単一のエージェントのみである。
鍵となるアイデアは、q関数推定が有限長エポック上のみ定常であるような架空のシナリオでダイナミクスを近似することである。
次に、メインシナリオとフィクションシナリオのダイナミクスを組み合わせることで、これらの2つのシナリオが、消滅するステップサイズのために、エポック全体でより似ています。 We present two logit-Q learning dynamics combining the classical and independent log-linear learning updates with an on-policy value iteration update for efficient learning in stochastic games. We show that the logit-Q dynamics presented reach (near) efficient equilibrium in stochastic teams. We quantify a bound on the approximation error. We also show the rationality of the logit-Q dynamics against agents following pure stationary strategies and the convergence of the dynamics in stochastic games where the reward functions induce potential games, yet only a single agent controls the state transitions beyond stochastic teams. The key idea is to approximate the dynamics with a fictional scenario where the Q-function estimates are stationary over finite-length epochs only for analysis. We then couple the dynamics in the main and fictional scenarios to show that these two scenarios become more and more similar across epochs due to the vanishing step size. | 翻訳日:2024-01-04 17:21:49 公開日:2024-01-02 |
# ロバストなメタラーニングアプローチによる選択的分類 Selective classification using a robust meta-learning approach ( http://arxiv.org/abs/2212.05987v2 ) ライセンス: Link先を確認 | Nishant Jain, Karthikeyan Shanmugam and Pradeep Shenoy | (参考訳) 予測的不確実性-モデルの入力精度に関する自己認識は、トレーニング介入によるロバストモデルの構築と、選択的分類のようなテストタイムアプリケーションの両方に有効である。
補助ネットワークを用いて予測の不確かさをキャプチャし,これらのトレインとテストタイムのアプリケーションを統合する,新しいインスタンス条件付き再重み付け手法を提案する。
補助ネットワークは、二レベル最適化フレームワークでメタ目的を使って訓練される。
本提案の重要な貢献は,ベイズ予測の不確かさの近似であるドロップアウト分散を最小化するメタ目的である。
我々は制御された実験において、このメタオブジェクトを通して様々な特定の不確実性の概念を効果的に捉え、従来のアプローチは特定の側面しか捉えていないことを示す。
これらの結果は、実世界の設定選択型分類、ラベルノイズ、ドメイン適応、キャリブレーション、データセット全体にわたるキャリブレーション、—Imagenet、Cifar100、糖尿病網膜症、Camelyon、WILDs、Imagenet-C、-A、-R、Cloting1Mなど。
糖尿病網膜症では、最大3.4%/3.3%の精度でSOTAを上回り、選択的分類ではAUCが上昇する。
PLEXのような大規模事前学習モデルも改善する。 Predictive uncertainty-a model's self awareness regarding its accuracy on an input-is key for both building robust models via training interventions and for test-time applications such as selective classification. We propose a novel instance-conditioned reweighting approach that captures predictive uncertainty using an auxiliary network and unifies these train- and test-time applications. The auxiliary network is trained using a meta-objective in a bilevel optimization framework. A key contribution of our proposal is the meta-objective of minimizing the dropout variance, an approximation of Bayesian Predictive uncertainty. We show in controlled experiments that we effectively capture the diverse specific notions of uncertainty through this meta-objective, while previous approaches only capture certain aspects. These results translate to significant gains in real-world settings-selective classification, label noise, domain adaptation, calibration-and across datasets-Imagenet, Cifar100, diabetic retinopathy, Camelyon, WILDs, Imagenet-C,-A,-R, Clothing1M, etc. For Diabetic Retinopathy, we see upto 3.4%/3.3% accuracy and AUC gains over SOTA in selective classification. We also improve upon large-scale pretrained models such as PLEX. | 翻訳日:2024-01-04 17:20:25 公開日:2024-01-02 |
# 国別重要度サンプリングによる低変数オフ政治評価 Low Variance Off-policy Evaluation with State-based Importance Sampling ( http://arxiv.org/abs/2212.03932v4 ) ライセンス: Link先を確認 | David M. Bossens and Philip S. Thomas | (参考訳) 政治外の強化学習において、行動政策は環境との探索的相互作用を行い、状態-行動-回帰サンプルを取得し、その結果、期待されるリターンを最適化するターゲットポリシーを学ぶのに使用される。
これは、しばしば無関係な行動ポリシーによって収集されたサンプルからターゲットポリシーを評価する必要がある、オフポリシー評価の問題につながる。
重要度サンプリングは伝統的統計手法であり、しばしば政治外評価に適用される。
重要度サンプリング推定器は偏りがないが、その分散は、行動確率比の積として重要度を計算し、長期計画を含む領域に対して低い精度で推定値を得るため、決定過程の水平線とともに指数関数的に増加する。
本稿では,「無視可能な状態」を持つサブトラクタの動作確率比を,大まかに言えば,選択された動作が回帰推定に影響を与えない状態に対して,重要度重みの計算から下げる,状態に基づく重要度サンプリングを提案する。
理論的には、これは通常の重要性サンプリングの分散を$O(\exp(H))$から$O(\exp(X))$に還元することを示している。
無視可能な状態を特定するために、共分散テストと状態動作値に基づく2つの探索アルゴリズムが提案されている。
標準的重要度サンプリング,重み付き重要度サンプリング,分解毎重要度サンプリング,漸進的重要度サンプリング,二重ロバストなオフポリシー評価,定常密度比推定の変種を定式化する。
4つの異なる領域の実験により、状態ベースの手法は、従来の手法に比べて、ばらつきの低減と精度の向上を一貫して達成している。 In off-policy reinforcement learning, a behaviour policy performs exploratory interactions with the environment to obtain state-action-reward samples which are then used to learn a target policy that optimises the expected return. This leads to a problem of off-policy evaluation, where one needs to evaluate the target policy from samples collected by the often unrelated behaviour policy. Importance sampling is a traditional statistical technique that is often applied to off-policy evaluation. While importance sampling estimators are unbiased, their variance increases exponentially with the horizon of the decision process due to computing the importance weight as a product of action probability ratios, yielding estimates with low accuracy for domains involving long-term planning. This paper proposes state-based importance sampling, which drops the action probability ratios of sub-trajectories with ``negligible states'' -- roughly speaking, those for which the chosen actions have no impact on the return estimate -- from the computation of the importance weight. Theoretical results show this reduces the ordinary importance sampling variance from $O(\exp(H))$ to $O(\exp(X))$ where $X < H$ is the largest subtrajectory with non-negligible states. To identify negligible states, two search algorithms are proposed, one based on covariance testing and one based on state-action values. We formulate state-based variants of ordinary importance sampling, weighted importance sampling, per-decision importance sampling, incremental importance sampling, doubly robust off-policy evaluation, and stationary density ratio estimation. Experiments in four distinct domains show that state-based methods consistently yield reduced variance and improved accuracy compared to their traditional counterparts. | 翻訳日:2024-01-04 17:20:01 公開日:2024-01-02 |
# 一般関数空間における最適輸送マップ推定 Optimal transport map estimation in general function spaces ( http://arxiv.org/abs/2212.03722v2 ) ライセンス: Link先を確認 | Vincent Divol, Jonathan Niles-Weed, Aram-Alexandre Pooladian | (参考訳) 分布$P$とプッシュフォワード分布$T_\sharp P$から関数$T$の独立サンプルを推定する問題について検討する。
この設定は、時間とともに物理システムの進化を表す$t$と、例えば、生成的モデリングタスクのために訓練されたディープニューラルネットワークによって学習された変換を表す機械学習のアプリケーションによって動機付けられる。
同一性を保証するために、$t = \nabla \varphi_0$ は凸関数の勾配であると仮定し、その場合$t$ は \emph{optimal transport map} と呼ばれる。
以前の研究は、それがH\"古いクラスにあるという仮定のもとに$T$の推定を研究してきたが、一般理論は欠如している。
一般関数空間における最適輸送写像の推定率を求める統一手法を提案する。
我々は、ソース測度 $p$ が poincar\'e の不等式を満たすこと、最適な写像が計量エントロピーを制御できる空間にある滑らかな凸函数の勾配であることのみを要求する。
特別の場合として, h\"older transport map の既知の推定率を回復するが, 事前の作業でカバーされていない多くの設定において, ほぼ鋭い結果が得られる。
例えば、$p$が正規分布であり、トランスポートマップが無限幅の浅いニューラルネットワークによって与えられる場合に、最初の統計的推定率を提供する。 We study the problem of estimating a function $T$ given independent samples from a distribution $P$ and from the pushforward distribution $T_\sharp P$. This setting is motivated by applications in the sciences, where $T$ represents the evolution of a physical system over time, and in machine learning, where, for example, $T$ may represent a transformation learned by a deep neural network trained for a generative modeling task. To ensure identifiability, we assume that $T = \nabla \varphi_0$ is the gradient of a convex function, in which case $T$ is known as an \emph{optimal transport map}. Prior work has studied the estimation of $T$ under the assumption that it lies in a H\"older class, but general theory is lacking. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfy a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network. | 翻訳日:2024-01-04 17:19:26 公開日:2024-01-02 |
# dextreme: シミュレーションから現実へのアジャイル操作の移行 DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to Reality ( http://arxiv.org/abs/2210.13702v2 ) ライセンス: Link先を確認 | Ankur Handa, Arthur Allshire, Viktor Makoviychuk, Aleksei Petrenko, Ritvik Singh, Jingzhou Liu, Denys Makoviichuk, Karl Van Wyk, Alexander Zhurkevich, Balakumar Sundaralingam, Yashraj Narang, Jean-Francois Lafleche, Dieter Fox, Gavriel State | (参考訳) 近年の研究では、多指操作を含む複雑なロボットの動作をシミュレーションで学習する深層強化学習(rl)アルゴリズムの能力が実証されている。
しかし、シミュレーションと現実のギャップのため、そのようなモデルは現実に移行することは困難である。
本稿では,その訓練技術について述べる。
イ 人型ロボットの手に対して頑丈な外反操作を行うことができる方針及び
ロ 被操作物の状態に関する信頼性の高いリアルタイム情報を提供するのに適した頑健なポーズ推定装置
我々の政策はシミュレーションの幅広い条件に適応するように訓練されている。
その結果、我々のビジョンベースの政策は、同一の方向転換作業における文献における最高のビジョンポリシーを著しく上回り、モーションキャプチャシステムを介して特権状態情報を与えるポリシーと競合する。
我々の研究は、様々なハードウェアとシミュレータのセットアップにおけるデクスタラス操作のためのシミュレート・トゥ・リアルトランスファーの可能性を再確認し、その場合、Allegro HandとIsaac Gym GPUベースのシミュレーションで確認する。
さらに、研究者が一般に利用可能な安価なロボットハンドとカメラでそのような結果を得る可能性も開ける。
実験やデモを含むポリシーと追加情報のビデオは、https://dextreme.org/で見ることができる。 Recent work has demonstrated the ability of deep reinforcement learning (RL) algorithms to learn complex robotic behaviours in simulation, including in the domain of multi-fingered manipulation. However, such models can be challenging to transfer to the real world due to the gap between simulation and reality. In this paper, we present our techniques to train a) a policy that can perform robust dexterous manipulation on an anthropomorphic robot hand and b) a robust pose estimator suitable for providing reliable real-time information on the state of the object being manipulated. Our policies are trained to adapt to a wide range of conditions in simulation. Consequently, our vision-based policies significantly outperform the best vision policies in the literature on the same reorientation task and are competitive with policies that are given privileged state information via motion capture systems. Our work reaffirms the possibilities of sim-to-real transfer for dexterous manipulation in diverse kinds of hardware and simulator setups, and in our case, with the Allegro Hand and Isaac Gym GPU-based simulation. Furthermore, it opens up possibilities for researchers to achieve such results with commonly-available, affordable robot hands and cameras. Videos of the resulting policy and supplementary information, including experiments and demos, can be found at https://dextreme.org/ | 翻訳日:2024-01-04 17:18:28 公開日:2024-01-02 |
# 大きな言語モデルは強固な抽象的推論者ではない Large Language Models Are Not Strong Abstract Reasoners ( http://arxiv.org/abs/2305.19555v3 ) ライセンス: Link先を確認 | Ga\"el Gendron, Qiming Bao, Michael Witbrock, Gillian Dobbie | (参考訳) 大規模言語モデルは、テキスト理解から常識推論まで、多種多様な自然言語処理タスクにおいて大きなパフォーマンスを示してきた。
しかし、この成功のメカニズムはいまだ不透明であり、LLMが人間のような認知能力を達成することができるのか、あるいはこれらのモデルがいまだに根底から取り囲まれているのかは不明である。
抽象的推論は認知の基本的なタスクであり、少数のデータから一般的なパターンを発見し、適用する。
このタスクにおける深いニューラルネットワークアーキテクチャの評価は、推論とその広範な一般化能力に関する潜在的な制限について洞察を与える可能性がある。
本稿では,抽象的推論タスクの記憶以外の言語モデルを評価するための新しいベンチマークを提案する。
現状のLLMを広範囲に評価し,他のNLPタスクの性能向上を実証した手法を適用した場合でも,現在,他の自然言語タスクと比較して非常に限られた性能を達成できていることを示す。
LLM生成を因果経路に沿って導くことは、LLMの一般化と推論能力の向上に役立つと我々は主張する。 Large Language Models have shown tremendous performance on a large variety of natural language processing tasks, ranging from text comprehension to common sense reasoning. However, the mechanisms responsible for this success remain opaque, and it is unclear whether LLMs can achieve human-like cognitive capabilities or whether these models are still fundamentally circumscribed. Abstract reasoning is a fundamental task for cognition, consisting of finding and applying a general pattern from few data. Evaluating deep neural architectures on this task could give insight into their potential limitations regarding reasoning and their broad generalisation abilities, yet this is currently an under-explored area. In this paper, we introduce a new benchmark for evaluating language models beyond memorization on abstract reasoning tasks. We perform extensive evaluations of state-of-the-art LLMs, showing that they currently achieve very limited performance in contrast with other natural language tasks, even when applying techniques that have been shown to improve performance on other NLP tasks. We argue that guiding LLM generation to follow causal paths could help improve the generalisation and reasoning abilities of LLMs. | 翻訳日:2024-01-04 17:10:33 公開日:2024-01-02 |
# ファイバーベース量子ネットワークにおける非対称ノード配置 Asymmetric node placement in fiber-based quantum networks ( http://arxiv.org/abs/2305.09635v2 ) ライセンス: Link先を確認 | Guus Avis, Robert Knegjens, Anders S. S{\o}rensen and Stephanie Wehner | (参考訳) 既存のインフラによって課される制限は、将来のファイバーベースの量子ネットワークのノード間でさらに間隔を縮めるのを難しくする。
本稿では,ヘラルドエンタングルメント生成に必要な中点局の配置と,チェーン内の処理ノード量子リピータの配置を別途考慮し,非対称ノード配置の負の効果について検討する。
中点駅では、1つの絡み合う試みを行うのに必要な時間、そのような試みの成功確率、そして絡み合った状態の忠実さに対する非対称性の影響を説明する。
これは、光子の不識別性に対する色分散の影響を説明することを含む。
量子リピータチェーンの場合、リピータノード間の不均一さがボトルネックの原因となるかを数値的に調べ、待ち時間と時間状態の両方をノイズ量子メモリに格納する。
一つの絡み合い試行に要する時間は、中間点の非対称性と直線的に増加するが、有意な絡み合い発生の成功確率と忠実度、繰り返し鎖の分布時間と誤り率はすべて、非対称性の量に関して第1の導関数を消滅させる。
これは、少量の非対称性に対する量子ネットワーク性能のレジリエンスを示唆している。 Restrictions imposed by existing infrastructure can make it hard to ensure an even spacing between the nodes of future fiber-based quantum networks. We here investigate the negative effects of asymmetric node placement by considering separately the placement of midpoint stations required for heralded entanglement generation, as well as of processing-node quantum repeaters in a chain. For midpoint stations, we describe the effect asymmetry has on the time required to perform one entangling attempt, the success probability of such attempts, and the fidelity of the entangled states created. This includes accounting for the effects of chromatic dispersion on photon indistinguishability. For quantum-repeater chains we numerically investigate how uneven spacing between repeater nodes leads to bottlenecks, thereby increasing both the waiting time and the time states are stored in noisy quantum memory. We find that while the time required to perform one entangling attempt may increase linearly with the midpoint's asymmetry, the success probability and fidelity of heralded entanglement generation and the distribution time and error rate for repeater chains all have vanishing first derivatives with respect to the amount of asymmetry. This suggests resilience of quantum-network performance against small amounts of asymmetry. | 翻訳日:2024-01-04 17:08:17 公開日:2024-01-02 |
# MLフェアネスに対するスキントーンアノテーションの同意と主観性 Consensus and Subjectivity of Skin Tone Annotation for ML Fairness ( http://arxiv.org/abs/2305.09073v3 ) ライセンス: Link先を確認 | Candice Schumann, Gbolahan O. Olanubi, Auriel Wright, Ellis Monk Jr., Courtney Heldreth, Susanna Ricco | (参考訳) 異なる人間の属性とモデル行動がどのように影響するかを理解することは、従来のコンピュータビジョンタスクから最新のマルチモーダル生成AIシステムに至るまで、すべてのモデル作成と使用の標準的ニーズになる可能性がある。
特にコンピュータビジョンでは、認識された属性信号(性別表示、肌の色、年齢など)を付加したデータセットと、これらのデータセットで可能なベンチマークに依存しています。
通常、これらのタスクのラベルは人間のアノテーションに由来する。
しかし、属性信号の注釈付け、特に肌のトーンは困難で主観的な作業である。
皮膚のトーン知覚は、照明条件などの技術的な要因や、注釈者の生活体験を形作る社会的要因に影響される。
本稿では,mst(monk skin tone)スケール,プロのフォトグラファーのプール,より大規模に訓練されたクラウドソース・アノテータを用いたアノテーション実験を通じて,スキントーンアノテーションの主観性について検討する。
この研究とともに、全MSTスケールに広がる1515の画像と31のビデオを含む、Monk Skin Tone Examples (MST-E)データセットをリリースしました。
MST-Eは、ヒトのアノテータにMSTを効果的にアノテートさせる訓練を支援するように設計されている。
本研究は, 環境条件の厳しい条件下であっても, MSTスケールの専門家と一致して皮膚のトーンを確実にアノテートできることを示す。
また、異なる地理的領域のアノテータがMSTカテゴリーの異なるメンタルモデルに依存していることを示す。
これを踏まえて,肌色を公正な研究にアノテートする場合,多様なアノテータセットと画像毎に高いレプリケーションカウントを使用することを実践者に推奨する。 Understanding different human attributes and how they affect model behavior may become a standard need for all model creation and usage, from traditional computer vision tasks to the newest multimodal generative AI systems. In computer vision specifically, we have relied on datasets augmented with perceived attribute signals (e.g., gender presentation, skin tone, and age) and benchmarks enabled by these datasets. Typically labels for these tasks come from human annotators. However, annotating attribute signals, especially skin tone, is a difficult and subjective task. Perceived skin tone is affected by technical factors, like lighting conditions, and social factors that shape an annotator's lived experience. This paper examines the subjectivity of skin tone annotation through a series of annotation experiments using the Monk Skin Tone (MST) scale, a small pool of professional photographers, and a much larger pool of trained crowdsourced annotators. Along with this study we release the Monk Skin Tone Examples (MST-E) dataset, containing 1515 images and 31 videos spread across the full MST scale. MST-E is designed to help train human annotators to annotate MST effectively. Our study shows that annotators can reliably annotate skin tone in a way that aligns with an expert in the MST scale, even under challenging environmental conditions. We also find evidence that annotators from different geographic regions rely on different mental models of MST categories resulting in annotations that systematically vary across regions. Given this, we advise practitioners to use a diverse set of annotators and a higher replication count for each image when annotating skin tone for fairness research. | 翻訳日:2024-01-04 17:07:53 公開日:2024-01-02 |
# 散逸流体の量子波表現 Quantum wave representation of dissipative fluids ( http://arxiv.org/abs/2308.05879v2 ) ライセンス: Link先を確認 | L. Salasnich, S. Succi, A. Tiribocchi | (参考訳) シフト非線形ポテンシャルを持つschr\"odinger方程式とnavier-stokes方程式の写像を示す。
マデルング変換の一般化に続いて、ボーム量子ポテンシャルと非線形項における位相場のラプラシアンの包含は、散逸する非圧縮性ナビエ-ストークス流体の連続性と運動量方程式をもたらすことを示した。
複素量子拡散を用いて構築された別の解についても論じる。
本モデルはボース・アインシュタイン凝縮のような量子流体における散逸効果を捉え、また古典散逸流体に対する量子アルゴリズムの定式化を容易にする。 We present a mapping between a Schr\"odinger equation with a shifted non-linear potential and the Navier-Stokes equation. Following a generalization of the Madelung transformations, we show that the inclusion of the Bohm quantum potential plus the laplacian of the phase field in the non-linear term leads to continuity and momentum equations for a dissipative incompressible Navier-Stokes fluid. An alternative solution, built using a complex quantum diffusion, is also discussed. The present models may capture dissipative effects in quantum fluids, such as Bose-Einstein condensates, as well as facilitate the formulation of quantum algorithms for classical dissipative fluids. | 翻訳日:2024-01-04 16:59:32 公開日:2024-01-02 |
# TIAM -- テキスト・画像生成におけるアライメント評価基準 TIAM -- A Metric for Evaluating Alignment in Text-to-Image Generation ( http://arxiv.org/abs/2307.05134v2 ) ライセンス: Link先を確認 | Paul Grimal, Herv\'e Le Borgne, Olivier Ferret, Julien Tourille | (参考訳) 合成画像の生成の進歩は,その品質を評価する上で重要である。
画像のレンダリングを評価するためにいくつかの指標が提案されているが、プロンプトに基づいて画像を生成するtext-to-image (t2i)モデルでは、生成された画像がプロンプトの重要なコンテンツとどの程度一致するかといった追加的な側面を考慮することが重要である。
さらに、生成された画像は通常ランダムな開始点から生じるが、この画像の影響は一般に考慮されない。
本稿では,プロンプトで指定されたコンテンツと対応する画像のアラインメントを研究するために,プロンプトテンプレートに基づく新しい指標を提案する。
これにより、指定されたオブジェクトの型、その数、色の観点から、アライメントをよりよく特徴づけることができます。
様々な側面に関する最近のT2Iモデルについて検討した。
また,提案手法で得られた興味深い結果として,画像のシードとして使用するノイズによって画質が大きく変化することがわかった。
また、プロンプトにおける概念の数、それらの順序、およびそれらの(色)属性の影響を定量化する。
最後に,本手法により,他の種よりも優れた画像を生成する種子を同定し,その研究の新たな方向性を明らかにする。 The progress in the generation of synthetic images has made it crucial to assess their quality. While several metrics have been proposed to assess the rendering of images, it is crucial for Text-to-Image (T2I) models, which generate images based on a prompt, to consider additional aspects such as to which extent the generated image matches the important content of the prompt. Moreover, although the generated images usually result from a random starting point, the influence of this one is generally not considered. In this article, we propose a new metric based on prompt templates to study the alignment between the content specified in the prompt and the corresponding generated images. It allows us to better characterize the alignment in terms of the type of the specified objects, their number, and their color. We conducted a study on several recent T2I models about various aspects. An additional interesting result we obtained with our approach is that image quality can vary drastically depending on the noise used as a seed for the images. We also quantify the influence of the number of concepts in the prompt, their order as well as their (color) attributes. Finally, our method allows us to identify some seeds that produce better images than others, opening novel directions of research on this understudied topic. | 翻訳日:2024-01-04 16:57:07 公開日:2024-01-02 |
# 公衆衛生データストリームのための計算支援品質制御 Computationally Assisted Quality Control for Public Health Data Streams ( http://arxiv.org/abs/2306.16914v2 ) ライセンス: Link先を確認 | Ananya Joshi, Kathryn Mazaitis, Roni Rosenfeld, Bryan Wilder | (参考訳) 公衆衛生データストリーム(COVID-19ケースなど)の不規則性は、公衆衛生ステークホルダーにとってデータ駆動による意思決定を妨げる。
毎日更新される何千もの公衆衛生データストリームから、最も重要なデータポイントをリアルタイムでコンピュータが生成するリストは、専門家のレビュワーがこれらの不備を特定するのに役立つだろう。
しかし、既存の異常検出フレームワークは、データ量や公衆衛生ストリームの統計特性を考慮していないため、このタスクではパフォーマンスが悪くなっている。
そこで我々は,統計特性を明示的に把握するために,単純でスケーラブルなモデルを用いた公衆衛生データユーザのための実用的な異常検出フレームワーク flash (flagging stream in public health) を開発した。
人間の専門家がFraSHと既存の手法(ディープラーニングアプローチを含む)を評価する実験では、FraSHはこのタスクのデータボリュームにスケールし、これらのメソッドを平均精度でマッチングまたはオーバーし、ユーザが経験的に有益であると評価するアウトリーポイントを特定する。
これらの結果に基づいて、FraSHは、公衆衛生関係者が使用するデータストリームにデプロイされている。 Irregularities in public health data streams (like COVID-19 Cases) hamper data-driven decision-making for public health stakeholders. A real-time, computer-generated list of the most important, outlying data points from thousands of daily-updated public health data streams could assist an expert reviewer in identifying these irregularities. However, existing outlier detection frameworks perform poorly on this task because they do not account for the data volume or for the statistical properties of public health streams. Accordingly, we developed FlaSH (Flagging Streams in public Health), a practical outlier detection framework for public health data users that uses simple, scalable models to capture these statistical properties explicitly. In an experiment where human experts evaluate FlaSH and existing methods (including deep learning approaches), FlaSH scales to the data volume of this task, matches or exceeds these other methods in mean accuracy, and identifies the outlier points that users empirically rate as more helpful. Based on these results, FlaSH has been deployed on data streams used by public health stakeholders. | 翻訳日:2024-01-04 16:55:09 公開日:2024-01-02 |
# 低予算で最適化する:black-box optimization benchmarking suiteとopenai gymの比較 Optimizing with Low Budgets: a Comparison on the Black-box Optimization Benchmarking Suite and OpenAI Gym ( http://arxiv.org/abs/2310.00077v3 ) ライセンス: Link先を確認 | Elena Raponi, Nathanael Rakotonirina Carraz, J\'er\'emy Rapin, Carola Doerr, Olivier Teytaud | (参考訳) 機械学習(ML)の普及により、ブラックボックス最適化(BBO)など、コンピュータ科学の様々な分野に参入するようになった。
近年の研究は特にベイズ最適化(BO)に関係している。
BOベースのアルゴリズムは、ハイパーパラメータ最適化やより一般的にアルゴリズム構成に使用されるため、MLコミュニティで人気がある。
しかし,問題の次元性や評価予算が増加するにつれて,効率は低下する。
一方、デリバティブフリー最適化手法は、最適化コミュニティにおいて独立して進化してきた。
そこで我々は,ML と BBO の2つのコミュニティ間の交配可能かどうか,すなわちML で多用されているアルゴリズムが BBO でも有効か,その逆かを理解することを望む。
比較実験は、しばしば比較的小さなベンチマークを伴い、ベースラインの初期化の低さ、問題固有のハイパーパラメータの設定による過度な適合、統計的重要性の低さなど、実験的な設定において目に見える問題を示す。
本稿では,2013年にhutterらによって発表された比較研究の更新と拡張を行う。
まず、coco環境から有名なbbobベンチマークスイート、次に強化学習ベンチマークであるopenai gymの直接ポリシー検索について、bbo tools for mlとより古典的なヒューリスティックスを比較した。
提案手法は,予算が限られている場合と,計算コストが高い場合と,評価予算が大きくなる場合と,他の家庭のアルゴリズムに比較して,両ベンチマークで良好に動作することが確認された。
また、BBOコミュニティのアルゴリズムがMLタスクで驚くほどうまく機能していることも示している。 The growing ubiquity of machine learning (ML) has led it to enter various areas of computer science, including black-box optimization (BBO). Recent research is particularly concerned with Bayesian optimization (BO). BO-based algorithms are popular in the ML community, as they are used for hyperparameter optimization and more generally for algorithm configuration. However, their efficiency decreases as the dimensionality of the problem and the budget of evaluations increase. Meanwhile, derivative-free optimization methods have evolved independently in the optimization community. Therefore, we urge to understand whether cross-fertilization is possible between the two communities, ML and BBO, i.e., whether algorithms that are heavily used in ML also work well in BBO and vice versa. Comparative experiments often involve rather small benchmarks and show visible problems in the experimental setup, such as poor initialization of baselines, overfitting due to problem-specific setting of hyperparameters, and low statistical significance. With this paper, we update and extend a comparative study presented by Hutter et al. in 2013. We compare BBO tools for ML with more classical heuristics, first on the well-known BBOB benchmark suite from the COCO environment and then on Direct Policy Search for OpenAI Gym, a reinforcement learning benchmark. Our results confirm that BO-based optimizers perform well on both benchmarks when budgets are limited, albeit with a higher computational cost, while they are often outperformed by algorithms from other families when the evaluation budget becomes larger. We also show that some algorithms from the BBO community perform surprisingly well on ML tasks. | 翻訳日:2024-01-04 16:47:31 公開日:2024-01-02 |
# 自己評価テストはLLMの性格性の信頼できない尺度である Self-Assessment Tests are Unreliable Measures of LLM Personality ( http://arxiv.org/abs/2309.08163v2 ) ライセンス: Link先を確認 | Akshat Gupta, Xiaoyang Song, Gopala Anumanchipalli | (参考訳) 大規模言語モデル(LLM)の能力が進化するにつれて、様々な研究が人間の行動を研究するための心理的ツールを用いて行動の定量化を試みた。
そのような例としては、人格を測定するために開発された自己評価パーソナリティテストを用いたllmの「個性」の測定がある。
しかし、これらのテストがllmで適用可能かどうかを検証するものはほとんどない。
本稿では,2つの簡単な実験により自己評価人格検査から得られた人格スコアの信頼性を解析する。
まず,同一のllmの個性を測定するために,自己評価テストを行う3つの直感的な方法を表す3つの意味的に等価なプロンプトを導入する。
これら3つのプロンプトが全く異なるパーソナリティスコアにつながり、これはほとんどのシナリオにおいて、すべての特性に対して統計的に重要な違いである。
次に, LLMの個性測定におけるオプション次対称性の特性を紹介する。
自己評価テストのほとんどは、多重選択質問(multiple choice question:mcq)という形式で存在するため、スコアはプロンプトテンプレートだけでなく、オプションが提示される順序にも頑健であるべきだと論じている。
このテストは当然のことながら、自己評価テストスコアが選択肢の順にロバストではないことを明らかにします。
これらの簡単なテストは、ChatGPTと3つの異なる大きさのLlama2モデルで行われ、人間のために作成された自己評価パーソナリティテストは、LLMにおいて信頼性の低いパーソナリティの尺度であることを示している。 As large language models (LLM) evolve in their capabilities, various recent studies have tried to quantify their behavior using psychological tools created to study human behavior. One such example is the measurement of "personality" of LLMs using self-assessment personality tests developed to measure human personality. Yet almost none of these works verify the applicability of these tests on LLMs. In this paper, we analyze the reliability of LLM personality scores obtained from self-assessment personality tests using two simple experiments. We first introduce the property of prompt sensitivity, where three semantically equivalent prompts representing three intuitive ways of administering self-assessment tests on LLMs are used to measure the personality of the same LLM. We find that all three prompts lead to very different personality scores, a difference that is statistically significant for all traits in a large majority of scenarios. We then introduce the property of option-order symmetry for personality measurement of LLMs. Since most of the self-assessment tests exist in the form of multiple choice question (MCQ) questions, we argue that the scores should also be robust to not just the prompt template but also the order in which the options are presented. This test unsurprisingly reveals that the self-assessment test scores are not robust to the order of the options. These simple tests, done on ChatGPT and three Llama2 models of different sizes, show that self-assessment personality tests created for humans are unreliable measures of personality in LLMs. | 翻訳日:2024-01-04 16:45:40 公開日:2024-01-02 |
# UNOS臓器ドナー文書からの大規模データ抽出 Large-scale data extraction from the UNOS organ donor documents ( http://arxiv.org/abs/2308.15752v2 ) ライセンス: Link先を確認 | Marek Rychlik and Bekir Tanriover and Yan Han | (参考訳) この研究のスコープは、2008年以降の米国臓器提供者のunosデータです。
このデータは「アタッチメント」と呼ばれるPDF文書に記録されており、すべてのドナーは異質なフォーマットで数十のPDF文書で表現されているため、過去には大規模に分析できない。
データを解析可能にするには、PDF内のコンテンツを標準SQLデータベースのような分析可能なデータ形式に変換する必要がある。
本稿では、数百万ページにわたる$\approx 400,000$ PDFドキュメントからなる2022 UNOSデータに焦点を当てる。
UNOSデータの総量は15年(2008-20022)で、その結果はすぐに全データに拡張されます。
本手法では,dcdフローシート,腎灌流データ,患者入院中のデータ(バイタルサイン,人工呼吸器の設定など)にデータの一部をキャプチャする。
現在の論文は、読者がUNOSデータの内容に精通していると仮定している。
データの種類とそれらが提示する課題の概要は、別の論文の主題である。
ここでは,unos文書から包括的かつ分析可能なデータベースを構築するという目標が達成可能なタスクであることを実証することに集中し,その方法論の概要を提供する。
このプロジェクトは、この予備段階でも、以前よりもはるかに大きなデータセットを生み出した。 The scope of our study is all UNOS data of the USA organ donors since 2008. The data is not analyzable in a large scale in the past because it was captured in PDF documents known as "Attachments", whereby every donor is represented by dozens of PDF documents in heterogenous formats. To make the data analyzable, one needs to convert the content inside these PDFs to an analyzable data format, such as a standard SQL database. In this paper we will focus on 2022 UNOS data comprised of $\approx 400,000$ PDF documents spanning millions of pages. The totality of UNOS data covers 15 years (2008--20022) and our results will be quickly extended to the entire data. Our method captures a portion of the data in DCD flowsheets, kidney perfusion data, and data captured during patient hospital stay (e.g. vital signs, ventilator settings, etc.). The current paper assumes that the reader is familiar with the content of the UNOS data. The overview of the types of data and challenges they present is a subject of another paper. Here we focus on demonstrating that the goal of building a comprehensive, analyzable database from UNOS documents is an attainable task, and we provide an overview of our methodology. The project resulted in datasets by far larger than previously available even in this preliminary phase. | 翻訳日:2024-01-04 16:44:35 公開日:2024-01-02 |
# オセロは解決した Othello is Solved ( http://arxiv.org/abs/2310.19387v3 ) ライセンス: Link先を確認 | Hiroki Takizawa | (参考訳) オセロのゲームは世界で最も複雑で人気のあるゲームの1つであり、まだ計算学的に解決されていない。
オセロは、およそ10オクテデシリオン(10から58のパワー)のゲーム記録と10オクテリオン(10から28のパワー)のゲームポジションを持っている。
オセロを解くという課題は、どちらのプレイヤーもミスを起こさずにゲームの結果を決定することであり、長い間コンピュータ科学における大きな挑戦であった。
本稿では、othelloが解決されたという重要なマイルストーンを発表します。
両プレイヤーの完全なプレーが引き分けにつながることは計算的に証明されている。
強力なothelloソフトウェアは、ヒューリスティックに設計された検索技術を使って長い間構築されてきた。
ゲームの解決は、ソフトウェアがゲームを完璧にプレイできるソリューションを提供する。 The game of Othello is one of the world's most complex and popular games that has yet to be computationally solved. Othello has roughly ten octodecillion (10 to the 58th power) possible game records and ten octillion (10 to the 28th power) possible game positions. The challenge of solving Othello, determining the outcome of a game with no mistake made by either player, has long been a grand challenge in computer science. This paper announces a significant milestone: Othello is now solved. It is computationally proved that perfect play by both players lead to a draw. Strong Othello software has long been built using heuristically designed search techniques. Solving a game provides a solution that enables the software to play the game perfectly. | 翻訳日:2024-01-04 16:35:24 公開日:2024-01-02 |
# グラフニューラルネットワークによる岩石の有効弾性率の予測 Prediction of Effective Elastic Moduli of Rocks using Graph Neural Networks ( http://arxiv.org/abs/2310.19274v3 ) ライセンス: Link先を確認 | Jaehong Chung, Rasool Ahmad, WaiChing Sun, Wei Cai, Tapan Mukerji | (参考訳) 本研究では,デジタルCTスキャン画像から岩石の効率的な弾性変調を予測するためのグラフニューラルネットワーク(GNN)に基づくアプローチを提案する。
マッパーアルゴリズムを用いて3dデジタル岩盤画像をグラフデータセットに変換し,本質的な幾何学的情報をカプセル化する。
これらのグラフは、訓練後、弾性率を予測するのに有効である。
gnnモデルでは,様々なサブキューブ次元から導出される様々なグラフサイズにわたるロバストな予測能力を示す。
テストデータセットでうまく機能するだけでなく、見えない岩や探索されていないサブキューブサイズの予測精度も高い。
畳み込みニューラルネットワーク (CNN) との比較解析により, 未知の岩石特性の予測において, GNNの優れた性能が示された。
さらに、微細構造のグラフ表現は、gpuメモリ要求(cnnのグリッド表現と比較)を大幅に削減し、バッチサイズ選択の柔軟性を高める。
本研究は, 岩盤特性の予測精度を高め, ディジタル岩盤解析の効率化におけるGNNモデルの可能性を示す。 This study presents a Graph Neural Networks (GNNs)-based approach for predicting the effective elastic moduli of rocks from their digital CT-scan images. We use the Mapper algorithm to transform 3D digital rock images into graph datasets, encapsulating essential geometrical information. These graphs, after training, prove effective in predicting elastic moduli. Our GNN model shows robust predictive capabilities across various graph sizes derived from various subcube dimensions. Not only does it perform well on the test dataset, but it also maintains high prediction accuracy for unseen rocks and unexplored subcube sizes. Comparative analysis with Convolutional Neural Networks (CNNs) reveals the superior performance of GNNs in predicting unseen rock properties. Moreover, the graph representation of microstructures significantly reduces GPU memory requirements (compared to the grid representation for CNNs), enabling greater flexibility in the batch size selection. This work demonstrates the potential of GNN models in enhancing the prediction accuracy of rock properties and boosting the efficiency of digital rock analysis. | 翻訳日:2024-01-04 16:34:55 公開日:2024-01-02 |
# すべてのステップが等しくない:進行拡散モデルによる効率的な生成 Not All Steps are Equal: Efficient Generation with Progressive Diffusion Models ( http://arxiv.org/abs/2312.13307v2 ) ライセンス: Link先を確認 | Wenhao Li, Xiu Su, Shan You, Tao Huang, Fei Wang, Chen Qian, Chang Xu | (参考訳) 拡散モデルは様々な生成的タスクにおいて、デノイジンモデルによる予測能力と共に顕著な効果を示す。
現在、これらのモデルは全ての時間ステップで一様デノイジングアプローチを採用している。
しかし、各段階における雑音性潜伏剤の固有の変動は、訓練中に衝突を引き起こし、拡散モデルのポテンシャルを制約する。
この課題に対処するために,ステップ適応型トレーニングと呼ばれる新しい2段階トレーニング戦略を提案する。
初期段階では、ベース・デノイジング・モデルがすべてのタイムステップを包含するように訓練される。
その後、時間ステップを別々のグループに分割し、各グループ内でモデルを微調整し、特殊化能力を達成する。
異なる時間ステップでノイズを予測することの難しさを認識し,多様なモデルサイズ要件を導入する。
微調整前の信号対雑音比に基づいてタスク難易度を推定することにより,各時間ステップのモデルサイズを動的に調整する。
この調整は、プロキシベースの構造重要度評価機構によって促進され、ベースデノイジングモデルの正確かつ効率的なプルーニングを可能にする。
提案手法の有効性を検証し,CIFAR10のFIDスコアを0.3以上向上させるとともに,計算資源の80%しか利用していないことを実証した。
この革新的なアプローチはモデルの性能を向上させるだけでなく、計算コストを大幅に削減し、拡散モデルの開発と応用のための新しい道を開く。 Diffusion models have demonstrated remarkable efficacy in various generative tasks with the predictive prowess of denoising model. Currently, these models employ a uniform denoising approach across all timesteps. However, the inherent variations in noisy latents at each timestep lead to conflicts during training, constraining the potential of diffusion models. To address this challenge, we propose a novel two-stage training strategy termed Step-Adaptive Training. In the initial stage, a base denoising model is trained to encompass all timesteps. Subsequently, we partition the timesteps into distinct groups, fine-tuning the model within each group to achieve specialized denoising capabilities. Recognizing that the difficulties of predicting noise at different timesteps vary, we introduce a diverse model size requirement. We dynamically adjust the model size for each timestep by estimating task difficulty based on its signal-to-noise ratio before fine-tuning. This adjustment is facilitated by a proxy-based structural importance assessment mechanism, enabling precise and efficient pruning of the base denoising model. Our experiments validate the effectiveness of the proposed training strategy, demonstrating an improvement in the FID score on CIFAR10 by over 0.3 while utilizing only 80\% of the computational resources. This innovative approach not only enhances model performance but also significantly reduces computational costs, opening new avenues for the development and application of diffusion models. | 翻訳日:2024-01-04 16:23:20 公開日:2024-01-02 |
# 年齢不変顔認識のためのクロスエイジコントラスト学習 Cross-Age Contrastive Learning for Age-Invariant Face Recognition ( http://arxiv.org/abs/2312.11195v2 ) ライセンス: Link先を確認 | Haoyi Wang, Victor Sanchez, Chang-Tsun Li | (参考訳) クロスエイジの顔画像は、一般的には困難で、収集コストがかかるため、ノイズのない年齢指向のデータセットは、広く使われている大規模な顔データセットに比べて比較的小さい。
さらに、現実のシナリオでは、異なる年齢の同じ対象のイメージは通常、入手が困難または不可能である。
これらの要因はどちらも教師付きデータの欠如を招き、年齢不変の顔認識における教師付き手法の汎用性を制限し、セキュリティやバイオメトリックスといったアプリケーションにおいて重要な課題となる。
そこで本研究では,クロスエイジコントラスト学習(cacon)という,新しい半教師付き学習手法を提案する。
最近の顔合成モデルのアイデンティティ保存力により、CAConは入力画像から追加の合成サンプルを活用する新しいコントラスト学習手法を導入した。
また,サンプル三重項に対してコントラスト学習を行うために,caconと連携した新たな損失関数を提案する。
提案手法は, 年齢不変顔認証ベンチマークにおける同質なデータセット実験において, 最先端の性能を達成するだけでなく, クロスデータセット実験において他の手法よりも優れていることを示す。 Cross-age facial images are typically challenging and expensive to collect, making noise-free age-oriented datasets relatively small compared to widely-used large-scale facial datasets. Additionally, in real scenarios, images of the same subject at different ages are usually hard or even impossible to obtain. Both of these factors lead to a lack of supervised data, which limits the versatility of supervised methods for age-invariant face recognition, a critical task in applications such as security and biometrics. To address this issue, we propose a novel semi-supervised learning approach named Cross-Age Contrastive Learning (CACon). Thanks to the identity-preserving power of recent face synthesis models, CACon introduces a new contrastive learning method that leverages an additional synthesized sample from the input image. We also propose a new loss function in association with CACon to perform contrastive learning on a triplet of samples. We demonstrate that our method not only achieves state-of-the-art performance in homogeneous-dataset experiments on several age-invariant face recognition benchmarks but also outperforms other methods by a large margin in cross-dataset experiments. | 翻訳日:2024-01-04 16:23:01 公開日:2024-01-02 |
# MotionCrafter: 拡散モデルのワンショットモーションカスタマイズ MotionCrafter: One-Shot Motion Customization of Diffusion Models ( http://arxiv.org/abs/2312.05288v2 ) ライセンス: Link先を確認 | Yuxin Zhang, Fan Tang, Nisha Huang, Haibin Huang, Chongyang Ma, Weiming Dong, Changsheng Xu | (参考訳) 動画の本質は、キャラクターの動き、オブジェクトの動き、カメラの動きなど、ダイナミックな動きにある。
近年,テキスト・ビデオ生成拡散モデルによる多様なコンテンツ作成が進んでいるが,テキスト・プロンプトによる特定の動作の制御は重要な課題である。
主な問題は外観と動きの結合であり、しばしば外観に過度に適合する。
この課題に対処するために、新しいワンショットインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用しているが、空間モジュールは文字やスタイル制御のために独立して調整されている。
動きと外観の絡み合いを高めるために, 動きの絡み合い損失と出現前強調戦略からなる, 革新的な二重分岐運動乱れアプローチを提案する。
トレーニング中、凍結ベースモデルは外観正規化を提供し、効果的に外観と動きを分離し、ダイバーシティを維持する。
総合的な量的および質的な実験とユーザ好みのテストにより、MotionCrafterは、幅広い外観生成機能を備えたベースモデルの一貫性と品質を維持しながら、動的モーションをうまく統合できることを示した。
プロジェクトページ: https://zyxelsa.github.io/homepage-motioncrafter。
コードはhttps://github.com/zyxElsa/MotionCrafter.comで入手できる。 The essence of a video lies in its dynamic motions, including character actions, object movements, and camera movements. While text-to-video generative diffusion models have recently advanced in creating diverse contents, controlling specific motions through text prompts remains a significant challenge. A primary issue is the coupling of appearance and motion, often leading to overfitting on appearance. To tackle this challenge, we introduce MotionCrafter, a novel one-shot instance-guided motion customization method. MotionCrafter employs a parallel spatial-temporal architecture that injects the reference motion into the temporal component of the base model, while the spatial module is independently adjusted for character or style control. To enhance the disentanglement of motion and appearance, we propose an innovative dual-branch motion disentanglement approach, comprising a motion disentanglement loss and an appearance prior enhancement strategy. During training, a frozen base model provides appearance normalization, effectively separating appearance from motion and thereby preserving diversity. Comprehensive quantitative and qualitative experiments, along with user preference tests, demonstrate that MotionCrafter can successfully integrate dynamic motions while preserving the coherence and quality of the base model with a wide range of appearance generation capabilities. Project page: https://zyxelsa.github.io/homepage-motioncrafter. Codes are available at https://github.com/zyxElsa/MotionCrafter. | 翻訳日:2024-01-04 16:20:45 公開日:2024-01-02 |
# 土地利用土地被覆の深部自己回帰モデル Deep autoregressive modeling for land use land cover ( http://arxiv.org/abs/2401.01395v1 ) ライセンス: Link先を確認 | Christopher Krapu, Mark Borsuk, and Ryan Calder | (参考訳) 土地利用/土地被覆(lulc)モデリングは、地理的特徴と地形、生態、人類の発達に関連する異なる空間パターンの間の長距離の依存関係のために難しい課題である。
土地利用の空間パターンのモデル化とコンピュータビジョンからのイメージインペインティングの課題との密接な関係を同定し,約1900万個のLULCをモデル化するための改良されたPixelCNNアーキテクチャの研究を行う。
ベンチマーク空間統計モデルと比較すると, 前者は道路や水域などのより豊かな空間相関パターンを捉えることができるが, 校正された予測分布は生成せず, 追加チューニングの必要性が示唆されている。
サンプル変動の操作によってある程度改善できるパッチ数や隣接性といった,生態学的に重要な土地利用統計に関する予測的過分散の証拠を見いだす。 Land use / land cover (LULC) modeling is a challenging task due to long-range dependencies between geographic features and distinct spatial patterns related to topography, ecology, and human development. We identify a close connection between modeling of spatial patterns of land use and the task of image inpainting from computer vision and conduct a study of a modified PixelCNN architecture with approximately 19 million parameters for modeling LULC. In comparison with a benchmark spatial statistical model, we find that the former is capable of capturing much richer spatial correlation patterns such as roads and water bodies but does not produce a calibrated predictive distribution, suggesting the need for additional tuning. We find evidence of predictive underdispersion with regard to important ecologically-relevant land use statistics such as patch count and adjacency which can be ameliorated to some extent by manipulating sampling variability. | 翻訳日:2024-01-04 16:14:25 公開日:2024-01-02 |
# 大規模OCRモデル:OCRのスケーリング法則に関する実証的研究 Large OCR Model:An Empirical Study of Scaling Law for OCR ( http://arxiv.org/abs/2401.00028v2 ) ライセンス: Link先を確認 | Miao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang, Kai Han | (参考訳) モデルサイズ、データボリューム、計算、モデル性能の法則は自然言語処理(nlp)の分野で広く研究されてきた。
しかし、光学文字認識(OCR)におけるスケーリング法則はまだ研究されていない。
そこで本研究では,テキスト認識分野におけるモデルの性能とスケール,データボリューム,計算の相関関係を総合的に検討し,他の要因が一定である場合に,性能とモデルサイズ間のスムーズなパワー則と,データボリュームのトレーニングを行う。
さらに,600万実サンプルと1800万合成サンプルからなる,rebu-synと呼ばれる大規模データセットを構築した。
スケーリング法則と新しいデータセットに基づいて、シーンテキスト認識モデルをトレーニングし、トップ1の平均精度97.42%の6つの一般的なテストベンチマーク上で、最先端の新たなテストを実現しました。 The laws of model size, data volume, computation and model performance have been extensively studied in the field of Natural Language Processing (NLP). However, the scaling laws in Optical Character Recognition (OCR) have not yet been investigated. To address this, we conducted comprehensive studies that involved examining the correlation between performance and the scale of models, data volume and computation in the field of text recognition.Conclusively, the study demonstrates smooth power laws between performance and model size, as well as training data volume, when other influencing factors are held constant. Additionally, we have constructed a large-scale dataset called REBU-Syn, which comprises 6 million real samples and 18 million synthetic samples. Based on our scaling law and new dataset, we have successfully trained a scene text recognition model, achieving a new state-ofthe-art on 6 common test benchmarks with a top-1 average accuracy of 97.42%. | 翻訳日:2024-01-04 16:12:39 公開日:2024-01-02 |
# すべて、未公開のデータか? Are All Unseen Data Out-of-Distribution? ( http://arxiv.org/abs/2312.16243v2 ) ライセンス: Link先を確認 | Songming Zhang, Yuxiao Luo, Qizhou Wang, Haoang Chi, Weikai Li, Bo Han, Jinyan Li | (参考訳) unseenデータの分布は、すべてout-of-distribution(ood)として扱われ、一般化が大きな課題となっている。
多くの証拠は、トレーニングデータのサイズが増加すると、テストデータの一般化エラーが単調に減少することを示唆している。
しかし、これは他の観測や分析では当てはまらない。
特に、トレーニングデータが複数のソースドメインを持ち、テストデータが分散ドリフトを含む場合、テストデータの一般化エラーがトレーニングデータの増大とともに単調に減少するわけではない。
このような非減少現象は、様々な視覚的ベンチマークにまたがる経験的検証を伴う線形条件下で公式に研究される。
これらの結果により、OODデータをトレーニング領域の凸殻外のデータとして再定義し、この新しい定義に基づいて新たな一般化を証明した。
これは、訓練領域の凸内にある見えないデータに対して、十分に訓練されたモデルの有効性が保証されることを意味する。
しかし、凸船体以外のデータについては、非減少エラー傾向が発生する可能性がある。
そこで本研究では,データ強化や事前学習といった一般的な戦略の有効性について検討する。
さらに,ベースライン手法よりも優れた性能を実現するため,ソース領域における新たな強化学習選択アルゴリズムを提案する。 Distributions of unseen data have been all treated as out-of-distribution (OOD), making their generalization a significant challenge. Much evidence suggests that the size increase of training data can monotonically decrease generalization errors in test data. However, this is not true from other observations and analysis. In particular, when the training data have multiple source domains and the test data contain distribution drifts, then not all generalization errors on the test data decrease monotonically with the increasing size of training data. Such a non-decreasing phenomenon is formally investigated under a linear setting with empirical verification across varying visual benchmarks. Motivated by these results, we redefine the OOD data as a type of data outside the convex hull of the training domains and prove a new generalization bound based on this new definition. It implies that the effectiveness of a well-trained model can be guaranteed for the unseen data that is within the convex hull of the training domains. But, for some data beyond the convex hull, a non-decreasing error trend can happen. Therefore, we investigate the performance of popular strategies such as data augmentation and pre-training to overcome this issue. Moreover, we propose a novel reinforcement learning selection algorithm in the source domains only that can deliver superior performance over the baseline methods. | 翻訳日:2024-01-04 16:11:45 公開日:2024-01-02 |
# 初級プログラミング学習者にデータ駆動フィードバックを提供するフレキシブル制御フローグラフアライメント Flexible Control Flow Graph Alignment for Delivering Data-Driven Feedback to Novice Programming Learners ( http://arxiv.org/abs/2401.01416v1 ) ライセンス: Link先を確認 | Md Towhidul Absar Chowdhury, Maheen Riaz Contractor, Carlos R. Rivero | (参考訳) 導入型プログラミング課題における学習者のサポートは不可欠である。
このサポートには、学習者が誤って行ったことに対する自動フィードバックが含まれている。
既存のアプローチは、既存の正しいプログラムからデータを外挿する学習者の誤ったプログラムを自動的に修復するものである。
しかし、プログラムを同様の制御フローとステートメントの順序としか比較しないため、そのようなアプローチは限られている。
したがって、フレキシブルな比較による潜在的に価値のある修復フィードバックは欠落している。
本稿では,実世界の導入プログラムを扱うために,オープンソースであるデータ駆動型自動修復アプローチであるclaraにいくつかの修正を加える。
我々はCLARAの抽象構文木プロセッサを拡張し、一般的な入門プログラミング構造を扱う。
さらに,制御フローグラフ上の柔軟なアライメントアルゴリズムを提案する。
このアライメントを用いて、不正プログラムの制御フローグラフを修正して正しいプログラムに適合させ、CLARAの本来の修復プロセスを適用する。
Codeforcesにおける20のプログラミング問題に対するベースラインに対する我々のアプローチを評価する。
以上の結果から,フレキシブルアライメントは46%の修理成功率で,ベースラインクララは5%に比較して有意に高い値を示した。
私たちの実装はhttps://github.com/towhidabsar/claraで利用可能です。 Supporting learners in introductory programming assignments at scale is a necessity. This support includes automated feedback on what learners did incorrectly. Existing approaches cast the problem as automatically repairing learners' incorrect programs extrapolating the data from an existing correct program from other learners. However, such approaches are limited because they only compare programs with similar control flow and order of statements. A potentially valuable set of repair feedback from flexible comparisons is thus missing. In this paper, we present several modifications to CLARA, a data-driven automated repair approach that is open source, to deal with real-world introductory programs. We extend CLARA's abstract syntax tree processor to handle common introductory programming constructs. Additionally, we propose a flexible alignment algorithm over control flow graphs where we enrich nodes with semantic annotations extracted from programs using operations and calls. Using this alignment, we modify an incorrect program's control flow graph to match the correct programs to apply CLARA's original repair process. We evaluate our approach against a baseline on the twenty most popular programming problems in Codeforces. Our results indicate that flexible alignment has a significantly higher percentage of successful repairs at 46% compared to 5% for baseline CLARA. Our implementation is available at https://github.com/towhidabsar/clara. | 翻訳日:2024-01-04 16:00:46 公開日:2024-01-02 |
# VALD-MD : 医用診断における潜伏拡散による視覚属性 VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics ( http://arxiv.org/abs/2401.01414v1 ) ライセンス: Link先を確認 | Ammar A. Siddiqui (1), Santosh Tirunagari (1), Tehseen Zia (2), David Windridge (1) ((1) Middlesex University, London, UK, (2) COMSATS University, Islamabad, Pakistan) | (参考訳) 医用画像の視覚的属性は、標準的な機械ビジョンパイプラインに展開される疾患組織(臨床医にとって分かりやすく説明できない)のより一般的な検出とは対照的に、医学画像の診断関連成分を明確にすることを目指している。
本稿では,潜在拡散モデルとドメイン固有の大規模言語モデルを組み合わせて,異常画像の正規表現を生成する新しい生成的視覚帰属法を提案する。
したがって、両者の相違により、診断関連画像成分を示すマッピングが生まれる。
これを実現するために,医学や応用放射線学から取得した自然言語テキストプロンプトを含む画像生成過程を制御するために,適切な条件付け機構とともに画像先行情報をデプロイする。
本稿では,Frechet Inception Distance (FID), Structure similarity (SSIM), Multi Scale Structure similarity Metric (MS-SSIM)測定値を用いて,ラベル付き胸部X線写真データベースを用いて,実画像と生成画像の間で得られた症状を比較検討した。
結果として得られたシステムは、チェXpertデータセットの実際の例で評価されるゼロショットローカライズド病誘導を含む、様々な潜伏能力を示す。 Visual attribution in medical imaging seeks to make evident the diagnostically-relevant components of a medical image, in contrast to the more common detection of diseased tissue deployed in standard machine vision pipelines (which are less straightforwardly interpretable/explainable to clinicians). We here present a novel generative visual attribution technique, one that leverages latent diffusion models in combination with domain-specific large language models, in order to generate normal counterparts of abnormal images. The discrepancy between the two hence gives rise to a mapping indicating the diagnostically-relevant image components. To achieve this, we deploy image priors in conjunction with appropriate conditioning mechanisms in order to control the image generative process, including natural language text prompts acquired from medical science and applied radiology. We perform experiments and quantitatively evaluate our results on the COVID-19 Radiography Database containing labelled chest X-rays with differing pathologies via the Frechet Inception Distance (FID), Structural Similarity (SSIM) and Multi Scale Structural Similarity Metric (MS-SSIM) metrics obtained between real and generated images. The resulting system also exhibits a range of latent capabilities including zero-shot localized disease induction, which are evaluated with real examples from the cheXpert dataset. | 翻訳日:2024-01-04 16:00:27 公開日:2024-01-02 |
# ドナルド・トランプの大統領演説における独特さの定量化 Quantifying the Uniqueness of Donald Trump in Presidential Discourse ( http://arxiv.org/abs/2401.01405v1 ) ライセンス: Link先を確認 | Karen Zhou, Alexander A. Meitus, Milo Chase, Grace Wang, Anne Mykland, William Howell, Chenhao Tan | (参考訳) ドナルド・トランプ米大統領は他の大統領と違うのか?
もしそうなら、どのような方法で?
これらの違いは、単一のコミュニケーション媒体に限定されているか?
そこで本研究では, 大規模言語モデルに基づく新しい一意性指標を提案し, 分裂的発話のための新しい語彙を開発し, 政敵の語彙的特徴を比較する枠組みを提案する。
これらのツールを様々な大統領演説のコーポラに適用すると、トランプ氏のスピーチパターンが、最近の歴史上の大統領候補候補全員のスピーチパターンから逸脱しているというかなりの証拠が見つかる。
注目すべき発見としては、トランプの政治的敵対者に対する特に分裂的で敵対的な言葉のターゲティングに対する雇用や、強調のための繰り返しのパターンが挙げられる。
さらに、トランプ氏は同胞の共和党員よりも著しく独特で、その独特さの価値観は民主党のそれに近い。
これらの違いは様々な測定戦略にまたがっており、選挙運動の軌跡と公式の大統領演説の両方で起こり、世俗的な時代の傾向の成果とは思えない。 Does Donald Trump speak differently from other presidents? If so, in what ways? Are these differences confined to any single medium of communication? To investigate these questions, this paper introduces a novel metric of uniqueness based on large language models, develops a new lexicon for divisive speech, and presents a framework for comparing the lexical features of political opponents. Applying these tools to a variety of corpora of presidential speeches, we find considerable evidence that Trump's speech patterns diverge from those of all major party nominees for the presidency in recent history. Some notable findings include Trump's employment of particularly divisive and antagonistic language targeting of his political opponents and his patterns of repetition for emphasis. Furthermore, Trump is significantly more distinctive than his fellow Republicans, whose uniqueness values are comparably closer to those of the Democrats. These differences hold across a variety of measurement strategies, arise on both the campaign trail and in official presidential addresses, and do not appear to be an artifact of secular time trends. | 翻訳日:2024-01-04 15:59:59 公開日:2024-01-02 |
# subquadratic timeにおけるスケーラブルネットワーク再構成 Scalable network reconstruction in subquadratic time ( http://arxiv.org/abs/2401.01404v1 ) ライセンス: Link先を確認 | Tiago P. Peixoto | (参考訳) ネットワーク再構成は、それらの結合(典型的には、グラフィカルモデルからの時系列または独立したサンプル)に条件づけられた結果の振る舞いに関する観測データのみを与えられた$N$ノード間の、観測されていないペアワイズ結合を決定することである。
この問題のために提案されたアルゴリズムのスケーラビリティに対する大きな障害は、一見避けられない二次的複雑性である$o(n^2)$であり、関心のあるネットワークのほとんどがスパースであり、いくつかの非ゼロ結合が$o(n)$であるという事実にもかかわらず、各ペアワイズ結合が少なくとも1回は検討されている要件に対応している。
本稿では,o(n^{3/2}\log n)$という大まかな上限値を持つデータ依存的複雑性を持つが,より典型的な対数線形複雑性であるo(n\log^2n)$を持つ,サブクアドラル時間でその結果を達成する,幅広いレコンストラクション問題に適用可能な一般アルゴリズムを提案する。
我々のアルゴリズムは, 確率的に第2の隣接探索に依拠し, 最良辺候補を高い確率で生成し, 余剰二次探索をバイパスする。
実際、我々のアルゴリズムは、2次ベースラインよりも桁違いに高速な性能を実現し、容易に並列化が可能となり、数十万のノードとエッジでネットワークを再構築することができる。 Network reconstruction consists in determining the unobserved pairwise couplings between $N$ nodes given only observational data on the resulting behavior that is conditioned on those couplings -- typically a time-series or independent samples from a graphical model. A major obstacle to the scalability of algorithms proposed for this problem is a seemingly unavoidable quadratic complexity of $O(N^2)$, corresponding to the requirement of each possible pairwise coupling being contemplated at least once, despite the fact that most networks of interest are sparse, with a number of non-zero couplings that is only $O(N)$. Here we present a general algorithm applicable to a broad range of reconstruction problems that achieves its result in subquadratic time, with a data-dependent complexity loosely upper bounded by $O(N^{3/2}\log N)$, but with a more typical log-linear complexity of $O(N\log^2N)$. Our algorithm relies on a stochastic second neighbor search that produces the best edge candidates with high probability, thus bypassing an exhaustive quadratic search. In practice, our algorithm achieves a performance that is many orders of magnitude faster than the quadratic baseline, allows for easy parallelization, and thus enables the reconstruction of networks with hundreds of thousands and even millions of nodes and edges. | 翻訳日:2024-01-04 15:59:41 公開日:2024-01-02 |
# 多体量子カオス検出の提案 Proposal for many-body quantum chaos detection ( http://arxiv.org/abs/2401.01401v1 ) ライセンス: Link先を確認 | Adway Kumar Das, Patrick Pinney, David A. Zarate-Herrada, Sa\'ul Pilatowsky-Cameo, Apollonas S. Matsoukas-Roubeas, Delmar G. A. Cabral, Cameron Cianci, Victor S. Batista, Adolfo del Campo, E. Jonathan Torres-Herrera, Lea F. Santos | (参考訳) 本研究では、「量子カオス」という用語を用いて、ランダム行列理論で見られるものと類似したスペクトル相関を述べる。
量子カオスは、短距離と長距離レベルの相関を検出するスペクトルフォームファクターを用いて、レベル統計の分析によって診断することができる。
スペクトル形状因子は、2点スペクトル相関関数のフーリエ変換に対応し、システムがカオスであるときに典型的な傾斜-傾斜-ランプ-プラトー構造(いわゆる相関穴)を示す。
この構造は、実験的な多体量子システム(生存確率とスピン自己相関関数)にアクセスできる2つの物理量の力学によってどのように検出できるかを議論する。
システムが小さくなると、現在の実験プラットフォームや市販の量子コンピュータで検出できるほど短い時間で十分な大きさの値に達する。 In this work, we use the term ``quantum chaos'' to refer to spectral correlations similar to those found in random matrix theory. Quantum chaos can be diagnosed through the analysis of level statistics using the spectral form factor, which detects both short- and long-range level correlations. The spectral form factor corresponds to the Fourier transform of the two-point spectral correlation function and exhibits a typical slope-dip-ramp-plateau structure (aka correlation hole) when the system is chaotic. We discuss how this structure could be detected through the dynamics of two physical quantities accessible to experimental many-body quantum systems: the survival probability and the spin autocorrelation function. When the system is small, the dip reaches values that are large enough at times which are short enough to be detected with current experimental platforms and commercially available quantum computers. | 翻訳日:2024-01-04 15:59:17 公開日:2024-01-02 |
# スパース部分空間の適応学習によるブラックボックス分子特性最適化の高速化 Accelerating Black-Box Molecular Property Optimization by Adaptively Learning Sparse Subspaces ( http://arxiv.org/abs/2401.01398v1 ) ライセンス: Link先を確認 | Farshud Sorourifar, Thomas Banker, Joel A. Paulson | (参考訳) 分子特性最適化(mpo)の問題は、離散的で非構造的な空間上で定式化され、ラベル付けプロセスには費用のかかるシミュレーションや実験が伴うため、本質的に困難である。
ベイズ最適化(bayesian optimization, bo)は、ノイズの多いブラックボックス目的関数(例えば、測定されたプロパティ値)の効率的な最適化のための強力なフレームワークであり、mpoにとって魅力的なフレームワークである。
BOをMPO問題に適用するには、確率的代理モデルの構築を可能にする構造的分子表現を選択する必要がある。
しかし、多くの分子表現が開発されているが、それらはすべて高次元であり、BO過程において重要な課題をもたらす。
この課題は近年、分子の笑顔やグラフ表現の低次元エンコーディングを教師なしで学習し、エンコードされた空間でboを実行することで解決されている。
本研究では,そのような手法が「行き詰まる」傾向があることを示し,符号化空間からプロパティ値への写像がガウス過程によって必ずしもうまくモデル化されるとは限らないことを仮定する。
我々は、数値的分子記述子と、未知の性質関数のモデル化に最も関係のあるスパース部分空間を迅速に識別できるスパース軸整合ガウス過程モデルを組み合わせた別のアプローチを議論する。
提案手法は,様々なベンチマークや実世界の問題において,既存のMPO法よりも大幅に優れていることを示す。
具体的には,100ドル未満のクエリで100ドル以上の代替品の集合から,ほぼ最適分子を定期的に見つけることができることを示す。 Molecular property optimization (MPO) problems are inherently challenging since they are formulated over discrete, unstructured spaces and the labeling process involves expensive simulations or experiments, which fundamentally limits the amount of available data. Bayesian optimization (BO) is a powerful and popular framework for efficient optimization of noisy, black-box objective functions (e.g., measured property values), thus is a potentially attractive framework for MPO. To apply BO to MPO problems, one must select a structured molecular representation that enables construction of a probabilistic surrogate model. Many molecular representations have been developed, however, they are all high-dimensional, which introduces important challenges in the BO process -- mainly because the curse of dimensionality makes it difficult to define and perform inference over a suitable class of surrogate models. This challenge has been recently addressed by learning a lower-dimensional encoding of a SMILE or graph representation of a molecule in an unsupervised manner and then performing BO in the encoded space. In this work, we show that such methods have a tendency to "get stuck," which we hypothesize occurs since the mapping from the encoded space to property values is not necessarily well-modeled by a Gaussian process. We argue for an alternative approach that combines numerical molecular descriptors with a sparse axis-aligned Gaussian process model, which is capable of rapidly identifying sparse subspaces that are most relevant to modeling the unknown property function. We demonstrate that our proposed method substantially outperforms existing MPO methods on a variety of benchmark and real-world problems. Specifically, we show that our method can routinely find near-optimal molecules out of a set of more than $>100$k alternatives within 100 or fewer expensive queries. | 翻訳日:2024-01-04 15:59:02 公開日:2024-01-02 |
# 新しいQ-ニュートン法,ニュートン流,ボロノイ図,確率的根発見のバックトラック Backtracking New Q-Newton's method, Newton's flow, Voronoi's diagram and Stochastic root finding ( http://arxiv.org/abs/2401.01393v1 ) ライセンス: Link先を確認 | John Erik Fornaess, Mi Hu, Tuyen Trung Truong, Takayuki Watanabe | (参考訳) new q-newton's method (bnqn) と呼ばれるニュートン法の新しい変種は、強力な理論的保証を持ち、実装が容易であり、実験性能も良いが、最近3人目の著者によって紹介された。
以前に行われた実験では、BNQN を用いて多項式やメロモルフィック関数の根を見つけるアトラクションの盆地のいくつかの顕著な特性を示した。
一般に、それらはニュートンの方法よりも滑らかに見えます。
本稿では、この顕著な現象を実験的に探求し、BNQNをニュートンの流れとボロノイ図に接続する。
このリンクは、説明すべきいくつかの難しいパズルを表している。
実験により、BNQNはニュートン法やランダム緩和ニュートン法よりもランダム摂動に対して強いことが示されている。 A new variant of Newton's method - named Backtracking New Q-Newton's method (BNQN) - which has strong theoretical guarantee, is easy to implement, and has good experimental performance, was recently introduced by the third author. Experiments performed previously showed some remarkable properties of the basins of attractions for finding roots of polynomials and meromorphic functions, with BNQN. In general, they look more smooth than that of Newton's method. In this paper, we continue to experimentally explore in depth this remarkable phenomenon, and connect BNQN to Newton's flow and Voronoi's diagram. This link poses a couple of challenging puzzles to be explained. Experiments also indicate that BNQN is more robust against random perturbations than Newton's method and Random Relaxed Newton's method. | 翻訳日:2024-01-04 15:58:34 公開日:2024-01-02 |
# 属性融合に基づく量子回路上の証拠分類器 Attribute Fusion-based Evidential Classifier on Quantum Circuits ( http://arxiv.org/abs/2401.01392v1 ) ライセンス: Link先を確認 | Hao Luo, Qianli Zhou, Lipeng Pan, Zhen Li, Yong Deng | (参考訳) Dempster-Shafer Theory (DST)は、不確実な情報を扱うための効果的で堅牢なフレームワークであり、意思決定やパターン分類に応用される。
残念ながら、そのリアルタイムアプリケーションは指数計算の複雑さによって制限されている。
人々は量子コンピューティングとの数学的整合性を利用して量子回路上のDST演算を実装し、スピードアップを実現することでこの問題に対処しようとする。
しかし、現時点での進歩は、大規模なDSTアプリケーションをサポートする上では実用的ではない。
本稿では,ブール代数がDSTと量子コンピューティングの定義を橋渡しする重要な数学的ツールであることを示す。
この発見に基づいて,集合論的に定義されたDST演算を対応する量子回路にマッピングし,実装するフレキシブルなフレームワークを確立する。
さらに重要なのは、この新しいフレームワークが一様であるだけでなく、計算の指数加速度も可能で、複雑なアプリケーションを扱うことができることだ。
分類の課題に着目し,属性に対する量子質量関数を単純な方法で生成し,提案手法を属性証明の活用に応用する,量子証拠分類器を展開する古典的な属性融合アルゴリズムを基礎とした。
従来の方法と比較して,提案する量子分類器は計算複雑性を指数関数的に線形に還元する。
実際のデータセットのテストは、実現可能性を検証する。 Dempster-Shafer Theory (DST) as an effective and robust framework for handling uncertain information is applied in decision-making and pattern classification. Unfortunately, its real-time application is limited by the exponential computational complexity. People attempt to address the issue by taking advantage of its mathematical consistency with quantum computing to implement DST operations on quantum circuits and realize speedup. However, the progress so far is still impractical for supporting large-scale DST applications. In this paper, we find that Boolean algebra as an essential mathematical tool bridges the definition of DST and quantum computing. Based on the discovery, we establish a flexible framework mapping any set-theoretically defined DST operations to corresponding quantum circuits for implementation. More critically, this new framework is not only uniform but also enables exponential acceleration for computation and is capable of handling complex applications. Focusing on tasks of classification, we based on a classical attribute fusion algorithm putting forward a quantum evidential classifier, where quantum mass functions for attributes are generated with a simple method and the proposed framework is applied for fusing the attribute evidence. Compared to previous methods, the proposed quantum classifier exponentially reduces the computational complexity to linear. Tests on real datasets validate the feasibility. | 翻訳日:2024-01-04 15:58:17 公開日:2024-01-02 |
# 位置符号化型MPPを用いたSDF学習のための最適サンプリングについて On Optimal Sampling for Learning SDF Using MLPs Equipped with Positional Encoding ( http://arxiv.org/abs/2401.01391v1 ) ライセンス: Link先を確認 | Guying Lin, Lei Yang, Yuan Liu, Congyi Zhang, Junhui Hou, Xiaogang Jin, Taku Komura, John Keyser, Wenping Wang | (参考訳) 形状のニューラルサイン距離場(SDF)のようなニューラル暗黙界は、3次元形状を符号化し衝突検出を行うなど、多くのアプリケーションにおいて強力な表現として現れている。
通常、暗黙のフィールドは多層パーセプトロン(MLP)によって符号化され、位置符号化(PE)により高周波幾何学的詳細をキャプチャする。
しかし、これらのPEを組み込んだMLPの顕著な副作用は、学習された暗黙のフィールドに存在するノイズの多い人工物である。
サンプリング率の増大は, 一般にこれらのアーティファクトを緩和する可能性があるが, 本論文ではフーリエ解析のレンズを用いて, この現象を説明することを目的とする。
我々は、好ましくない副作用を伴わずに、正確な暗黙の場を学習するための適切なサンプリング率を決定するツールを考案した。
具体的には,ネットワーク応答のフーリエ解析に基づいて,与えられたネットワークの固有周波数をランダム重み付きで推定する簡易かつ効果的な手法を提案する。
PEを具備したMLPはPE層の最高周波数成分よりも内在周波数が高いことが観察された。
この固有周波数に対するサンプリングは、nyquist-sannonサンプリング定理に従い、適切なトレーニングサンプリング率を決定することができる。
提案手法では, この推奨サンプリングレートが, 正確なフィッティング結果の確保に十分であることを示すとともに, さらにサンプリングレートの増大は, フィッティング誤差を著しく低減しないことを示す。
PEを組み込んだMPPをサンプリング戦略で訓練すれば,既存の手法よりも優れた性能が得られる。 Neural implicit fields, such as the neural signed distance field (SDF) of a shape, have emerged as a powerful representation for many applications, e.g., encoding a 3D shape and performing collision detection. Typically, implicit fields are encoded by Multi-layer Perceptrons (MLP) with positional encoding (PE) to capture high-frequency geometric details. However, a notable side effect of such PE-equipped MLPs is the noisy artifacts present in the learned implicit fields. While increasing the sampling rate could in general mitigate these artifacts, in this paper we aim to explain this adverse phenomenon through the lens of Fourier analysis. We devise a tool to determine the appropriate sampling rate for learning an accurate neural implicit field without undesirable side effects. Specifically, we propose a simple yet effective method to estimate the intrinsic frequency of a given network with randomized weights based on the Fourier analysis of the network's responses. It is observed that a PE-equipped MLP has an intrinsic frequency much higher than the highest frequency component in the PE layer. Sampling against this intrinsic frequency following the Nyquist-Sannon sampling theorem allows us to determine an appropriate training sampling rate. We empirically show in the setting of SDF fitting that this recommended sampling rate is sufficient to secure accurate fitting results, while further increasing the sampling rate would not further noticeably reduce the fitting error. Training PE-equipped MLPs simply with our sampling strategy leads to performances superior to the existing methods. | 翻訳日:2024-01-04 15:57:59 公開日:2024-01-02 |
# 大規模公衆衛生ストリームにおけるアウトイヤーランキング Outlier Ranking in Large-Scale Public Health Streams ( http://arxiv.org/abs/2401.01459v1 ) ライセンス: Link先を確認 | Ananya Joshi, Tina Townes, Nolan Gormley, Luke Neureiter, Roni Rosenfeld, Bryan Wilder | (参考訳) 疾病管理の専門家は、データ品質の問題や病気のアウトブレイクに対応するような、調査に値する外れ値について、毎日公衆衛生データストリームを検査する。
しかし、大規模な公衆衛生データストリームに適用された一変量外乱検出手法によって返却される数千の最大利率外乱のうち、ごくわずかしか検査できない。
専門家がこれら数千の連結された外れ値から最も重要な外れ値の識別を支援するために,各ストリームに適用される一変量的手法の出力をランク付けするアルゴリズムを提案する。
この課題に対する新しいアルゴリズムは,階層的ネットワークと極値分析を活用し,従来の異常検出指標において,公衆衛生データストリームを用いた人為的評価において最善を尽くした。
最も重要なのは、専門家が2023年4月以来、私たちのオープンソースpython実装を使用してきたことです。
他の組織では、この実装に簡単に適応して、大規模ストリームをまたいだカスタマイズされたユニバリアイトメソッドのアウトプットからランキングを作成することができます。 Disease control experts inspect public health data streams daily for outliers worth investigating, like those corresponding to data quality issues or disease outbreaks. However, they can only examine a few of the thousands of maximally-tied outliers returned by univariate outlier detection methods applied to large-scale public health data streams. To help experts distinguish the most important outliers from these thousands of tied outliers, we propose a new task for algorithms to rank the outputs of any univariate method applied to each of many streams. Our novel algorithm for this task, which leverages hierarchical networks and extreme value analysis, performed the best across traditional outlier detection metrics in a human-expert evaluation using public health data streams. Most importantly, experts have used our open-source Python implementation since April 2023 and report identifying outliers worth investigating 9.1x faster than their prior baseline. Other organizations can readily adapt this implementation to create rankings from the outputs of their tailored univariate methods across large-scale streams. | 翻訳日:2024-01-04 15:48:55 公開日:2024-01-02 |
# 不確かさ指紋を用いたニューラルネットワークの同時自己検査 Concurrent Self-testing of Neural Networks Using Uncertainty Fingerprint ( http://arxiv.org/abs/2401.01458v1 ) ライセンス: Link先を確認 | Soyed Tuhin Ahmed, Mehdi B. tahoori | (参考訳) ニューラルネットワーク(NN)は、様々なメモリ技術を用いてハードウェアアクセラレータ(NN-HA)にデプロイされる、常時オンの安全クリティカルなアプリケーションでますます利用されている。
NNの信頼性の高い連続動作は安全クリティカルな応用に不可欠である。
オンライン運用中、NNは放射線、老化、熱影響などの要因により、単一および複数永久およびソフトエラーの影響を受ける。
明示的なNN-HAテストメソッドは、推論中に過渡的障害を検出することができず、常時オンのアプリケーションには適さない。
そこで本稿では,NN のオンライン障害状況を表す 'emph{uncertainty fingerprint} アプローチを提案する。
さらに,不確かさの指紋を生成するために特別に設計された2つの頭部nnトポロジーと,nnの一次予測法を提案する。
オンライン操作中、不確実性指紋をマッチングすることにより、プライマリタスクと同様のパフォーマンスを維持しながら、偽陽性率を低く抑えながら、最大100\%のカバレッジで自己テストを行うことができる。
既存の作品と比較すると、メモリオーバーヘッドは最大で243.7$ mb削減され、乗算と累積(mac)操作は最大10000\times$まで削減され、偽陽性率は最大で$89\%削減される。 Neural networks (NNs) are increasingly used in always-on safety-critical applications deployed on hardware accelerators (NN-HAs) employing various memory technologies. Reliable continuous operation of NN is essential for safety-critical applications. During online operation, NNs are susceptible to single and multiple permanent and soft errors due to factors such as radiation, aging, and thermal effects. Explicit NN-HA testing methods cannot detect transient faults during inference, are unsuitable for always-on applications, and require extensive test vector generation and storage. Therefore, in this paper, we propose the \emph{uncertainty fingerprint} approach representing the online fault status of NN. Furthermore, we propose a dual head NN topology specifically designed to produce uncertainty fingerprints and the primary prediction of the NN in \emph{a single shot}. During the online operation, by matching the uncertainty fingerprint, we can concurrently self-test NNs with up to $100\%$ coverage with a low false positive rate while maintaining a similar performance of the primary task. Compared to existing works, memory overhead is reduced by up to $243.7$ MB, multiply and accumulate (MAC) operation is reduced by up to $10000\times$, and false-positive rates are reduced by up to $89\%$. | 翻訳日:2024-01-04 15:48:37 公開日:2024-01-02 |
# ColorizeDiffusion: 参照画像とテキストによる調整可能なスケッチカラー化 ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text ( http://arxiv.org/abs/2401.01456v1 ) ライセンス: Link先を確認 | Dingkun Yan, Liang Yuan, Yuma Nishioka, Issei Fujishiro, Suguru Saito | (参考訳) 近年, 拡散モデルによる高画質画像生成の有効性が実証され, 自動スケッチ色化など広範囲の応用が見出されている。
しかし、既存のほとんどのモデルは、条件生成を導くためにテキストを使用し、ネットワークの条件入力として画像トークンを使用する潜在的な利点を探求する試みは少ない。
そこで本稿では,参照カラー画像を用いてスケッチ画像をカラー化することを目的とした,参照ベースのスケッチカラー化を対象とする画像誘導モデルについて徹底的に検討する。
参照ベース拡散モデルの3つの重要な側面について検討した。テキストベース拡散モデルの欠点、トレーニング戦略、ゼロショット・シーケンシャルテキストベース操作の能力である。
トレーニング済みのCLIP画像エンコーダの異なる画像トークンを用いた画像誘導潜時拡散モデルの2つのバリエーションを導入し、重み付きテキスト入力を用いて結果を調整するための対応する操作法を提案する。
我々は,定性的かつ定量的な実験とユーザスタディを通じて,モデルの総合的な評価を行う。 Recently, diffusion models have demonstrated their effectiveness in generating extremely high-quality images and have found wide-ranging applications, including automatic sketch colorization. However, most existing models use text to guide the conditional generation, with fewer attempts exploring the potential advantages of using image tokens as conditional inputs for networks. As such, this paper exhaustively investigates image-guided models, specifically targeting reference-based sketch colorization, which aims to colorize sketch images using reference color images. We investigate three critical aspects of reference-based diffusion models: the shortcomings compared to text-based counterparts, the training strategies, and the capability in zero-shot, sequential text-based manipulation. We introduce two variations of an image-guided latent diffusion model using different image tokens from the pre-trained CLIP image encoder, and we propose corresponding manipulation methods to adjust their results sequentially using weighted text inputs. We conduct comprehensive evaluations of our models through qualitative and quantitative experiments, as well as a user study. | 翻訳日:2024-01-04 15:48:15 公開日:2024-01-02 |
# 自律運転データセットに関する調査:データ統計,注釈,展望 A Survey on Autonomous Driving Datasets: Data Statistic, Annotation, and Outlook ( http://arxiv.org/abs/2401.01454v1 ) ライセンス: Link先を確認 | Mingyu Liu, Ekim Yurtsever, Xingcheng Zhou, Jonathan Fossaert, Yuning Cui, Bare Luka Zagar, Alois C. Knoll | (参考訳) 自律運転は、ハードウェアおよびディープラーニング手法の最近の進歩により、急速に発展し、有望な性能を示している。
高品質なデータセットは、信頼性の高い自律運転アルゴリズムの開発に不可欠である。
以前のデータセット調査ではデータセットのレビューを試みたが、限られた数に集中するか、データセットの文字に関する詳細な調査を欠いていた。
この目的のために,センサのモダリティ,データサイズ,タスク,コンテキスト条件など,複数の視点から200以上の自律走行データセットを網羅的に検討した。
各データセットへの影響を評価するための新しいメトリクスを導入し、新しいデータセットを確立するためのガイドとしても利用できる。
アノテーションのプロセスとデータセットの品質をさらに分析します。
さらに,いくつかの重要なデータセットのデータ分布を詳細に分析する。
最後に、将来の自動運転データセットの開発動向について論じる。 Autonomous driving has rapidly developed and shown promising performance with recent advances in hardware and deep learning methods. High-quality datasets are fundamental for developing reliable autonomous driving algorithms. Previous dataset surveys tried to review the datasets but either focused on a limited number or lacked detailed investigation of the characters of datasets. To this end, we present an exhaustive study of over 200 autonomous driving datasets from multiple perspectives, including sensor modalities, data size, tasks, and contextual conditions. We introduce a novel metric to evaluate the impact of each dataset, which can also be a guide for establishing new datasets. We further analyze the annotation process and quality of datasets. Additionally, we conduct an in-depth analysis of the data distribution of several vital datasets. Finally, we discuss the development trend of the future autonomous driving datasets. | 翻訳日:2024-01-04 15:47:56 公開日:2024-01-02 |
# 量子多面体階層崩壊の絡み合い The Entangled Quantum Polynomial Hierarchy Collapses ( http://arxiv.org/abs/2401.01453v1 ) ライセンス: Link先を確認 | Sabee Grewal and Justin Yirka | (参考訳) 交叉量子多項式階層 $\mathsf{QEPH}$ を、互いに絡み合うかもしれない交互量子証明を効率的に検証できる問題のクラスとして導入する。
我々は、$\mathsf{QEPH}$崩壊を第二レベルに証明する。
実際、交替の多項式数が2に崩壊することを示す。
その結果、$\mathsf{QEPH} = \mathsf{QRG(1)}$は、1ターンの量子参照ゲームを持つ問題のクラスであり、$\mathsf{PSPACE}$に含まれることが知られている。
これは、非絡み合いの量子多項式階層$\mathsf{QPH}$とは対照的であり、$\mathsf{QMA(2)}$を含む。
また、量子古典多項式階層 $\mathsf{QCPH}$ の一般化を導入し、(弦の代わりに)文字列上の確率分布を送り、$\mathsf{DistributionQCPH}$ で表す。
概念的には、このクラスは$\mathsf{QCPH}$と$\mathsf{QPH}$の間にある。
我々は、$\mathsf{DistributionQCPH} = \mathsf{QCPH}$を証明し、量子重ね合わせ(古典的確率ではない)だけがこれらの階層の計算能力を高めることを示唆する。
この等式を証明するために、Pipton and Young (1994) のゲーム理論の結果を一般化し、プローバーは多項式サイズのサポートに対して一様である分布を送れることを述べる。
また、多項式階層に対する類似の結果、すなわち $\mathsf{DistributionPH} = \mathsf{PH}$ も証明する。
これらの結果は、$\mathsf{QPH}$崩壊を示すいくつかのアプローチも除外する。
最後に、$\mathsf{ph}$ と $\mathsf{qcph}$ が$\mathsf{qph}$ に含まれることが示され、gharibian et al. (2022) の公然とした疑問が解決される。 We introduce the entangled quantum polynomial hierarchy $\mathsf{QEPH}$ as the class of problems that are efficiently verifiable given alternating quantum proofs that may be entangled with each other. We prove $\mathsf{QEPH}$ collapses to its second level. In fact, we show that a polynomial number of alternations collapses to just two. As a consequence, $\mathsf{QEPH} = \mathsf{QRG(1)}$, the class of problems having one-turn quantum refereed games, which is known to be contained in $\mathsf{PSPACE}$. This is in contrast to the unentangled quantum polynomial hierarchy $\mathsf{QPH}$, which contains $\mathsf{QMA(2)}$. We also introduce a generalization of the quantum-classical polynomial hierarchy $\mathsf{QCPH}$ where the provers send probability distributions over strings (instead of strings) and denote it by $\mathsf{DistributionQCPH}$. Conceptually, this class is intermediate between $\mathsf{QCPH}$ and $\mathsf{QPH}$. We prove $\mathsf{DistributionQCPH} = \mathsf{QCPH}$, suggesting that only quantum superposition (not classical probability) increases the computational power of these hierarchies. To prove this equality, we generalize a game-theoretic result of Lipton and Young (1994) which says that the provers can send distributions that are uniform over a polynomial-size support. We also prove the analogous result for the polynomial hierarchy, i.e., $\mathsf{DistributionPH} = \mathsf{PH}$. These results also rule out certain approaches for showing $\mathsf{QPH}$ collapses. Finally, we show that $\mathsf{PH}$ and $\mathsf{QCPH}$ are contained in $\mathsf{QPH}$, resolving an open question of Gharibian et al. (2022). | 翻訳日:2024-01-04 15:47:45 公開日:2024-01-02 |
# ProbMCL:マルチラベル視覚分類のための簡易確率的コントラスト学習 ProbMCL: Simple Probabilistic Contrastive Learning for Multi-label Visual Classification ( http://arxiv.org/abs/2401.01448v1 ) ライセンス: Link先を確認 | Ahmad Sajedi, Samir Khaki, Yuri A. Lawryshyn, Konstantinos N. Plataniotis | (参考訳) マルチラベル画像分類は、コンピュータビジョンや医用画像など、多くの領域において難しい課題である。
最近の進歩は、グラフベースとトランスフォーマーベースのメソッドを導入し、パフォーマンスを改善し、ラベルの依存関係をキャプチャしている。
しかし、これらの手法は重い計算と解釈可能性の欠如を伴う複雑なモジュールを含むことが多い。
本稿では,確率的マルチラベルコントラスト学習(ProbMCL, Probabilistic Multi-label Contrastive Learning)を提案する。
我々の単純かつ効果的なアプローチは、教師付きコントラスト学習を採用し、決定しきい値に基づくアンカー画像と十分なラベルを共有するサンプルを正の集合として導入する。
この構造は、正のペア埋め込みをプルし、しきい値を下回る負のサンプルをプッシュすることで、ラベル依存性をキャプチャする。
コントラスト学習に混合密度ネットワークを組み込んでガウス混合分布を生成し,特徴エンコーダの認識的不確かさを探究することにより,表現学習を強化する。
コンピュータビジョンと医用画像領域のデータセットを用いた実験により,本フレームワークの有効性を検証した。
提案手法は,両データセットの計算フットプリントを低く抑えながら,既存の最先端手法よりも優れる。
可視化分析はまた、probmclがリードする分類器が意味のある意味的トポロジーを維持することを証明している。 Multi-label image classification presents a challenging task in many domains, including computer vision and medical imaging. Recent advancements have introduced graph-based and transformer-based methods to improve performance and capture label dependencies. However, these methods often include complex modules that entail heavy computation and lack interpretability. In this paper, we propose Probabilistic Multi-label Contrastive Learning (ProbMCL), a novel framework to address these challenges in multi-label image classification tasks. Our simple yet effective approach employs supervised contrastive learning, in which samples that share enough labels with an anchor image based on a decision threshold are introduced as a positive set. This structure captures label dependencies by pulling positive pair embeddings together and pushing away negative samples that fall below the threshold. We enhance representation learning by incorporating a mixture density network into contrastive learning and generating Gaussian mixture distributions to explore the epistemic uncertainty of the feature encoder. We validate the effectiveness of our framework through experimentation with datasets from the computer vision and medical imaging domains. Our method outperforms the existing state-of-the-art methods while achieving a low computational footprint on both datasets. Visualization analyses also demonstrate that ProbMCL-learned classifiers maintain a meaningful semantic topology. | 翻訳日:2024-01-04 15:47:06 公開日:2024-01-02 |
# 電気通信Cバンドにおける電荷可変量子光源の円形フォトニック結晶格子設計 Circular photonic crystal grating design for charge-tunable quantum light sources in the telecom C-band ( http://arxiv.org/abs/2401.01447v1 ) ライセンス: Link先を確認 | Chenxi Ma, Jingzhong Yang, Pengji Li, Eddy P. Rugeramigabo, Michael Zopf, Fei Ding | (参考訳) テレコム波長における絡み合った光子対の効率的な生成は、長距離量子ネットワークの鍵となる要素である。
半導体量子ドットをハイブリッドな円形ブラッググレーティングに埋め込むことは効果的であることが証明されているが、より優れたコヒーレンスを提供するp$-$i$-n$ダイオードヘテロ構造と相反する。
光特性を損なうことなく, 荷電担体輸送を容易にするために, 空気孔を取り入れたハイブリッド円形フォトニック結晶格子を提案し, 解析する。
数値シミュレーションにより、エキシトンとバイエクシトンの両方の遷移が23のパーセル係数を持つ広いキャビティモードと、数値開口が0.7の目的に対して92.4%の例外的な収集効率を達成する。
さらに, 直結効率90%以上の直接結合効率を, テレコムCバンド全体に対する単モードファイバに示す。
これにより、ハイコヒーレントな偏光子対を効率的に生成するための有望な解として、ハイブリッド円形フォトニック結晶格子が出現する。 Efficient generation of entangled photon pairs at telecom wavelengths is a key ingredient for long-range quantum networks. While embedding semiconductor quantum dots into hybrid circular Bragg gratings has proven effective, it conflicts with $p$-$i$-$n$ diode heterostructures which offer superior coherence. We propose and analyze hybrid circular photonic crystal gratings, incorporating air holes to facilitate charge carrier transport without compromising optical properties. Through numerical simulations, a broad cavity mode with a Purcell factor of 23 enhancing both exciton and biexciton transitions, and exceptional collection efficiency of 92.4% into an objective with numerical aperture of 0.7 are achieved. Furthermore, our design demonstrates direct coupling efficiency over 90% into a single-mode fiber over the entire telecom C-band. The hybrid circular photonic crystal grating thereby emerges as a promising solution for the efficient generation of highly coherent, polarization-entangled photon pairs. | 翻訳日:2024-01-04 15:46:44 公開日:2024-01-02 |
# 反射地における単眼カメラによる屋内障害物発見 Indoor Obstacle Discovery on Reflective Ground via Monocular Camera ( http://arxiv.org/abs/2401.01445v1 ) ライセンス: Link先を確認 | Feng Xue and Yicong Chang and Tianxi Wang and Yu Zhou and Anlong Ming | (参考訳) 視覚障害物発見は、屋内移動ロボットの自律ナビゲーションへの重要な一歩である。
成功したソリューションは、複数の場面で多くのアプリケーションを持つ。
例外の1つは反射基底である。
この場合、床の反射は真の世界と似ており、障害物発見を混乱させ、ナビゲーションは失敗に終わる。
この問題の鍵は、リフレクションや障害に対する差別的特徴の獲得にあると我々は主張する。
障害物と反射は3次元空間の接地平面によって分離できる。
そこで本研究では,まずロボットの動きを利用して地平面を予測できる事前校正に基づく地中検出手法を提案する。
反射に対するロボットの動きの免疫のため、このスキームは反射による地面検出の失敗を避ける。
検出された地盤を考慮すれば、地上に対する画素の位置を記述するために、地上画素パララックスを設計する。
これに基づいて、矩形箱内のオブジェクトを記述するために、統一的な外観幾何学的特徴表現を提案する。
最終的に、segmenting by detection frameworkに基づいて、exe-geometry fusion regressor が提案する機能を利用して障害物を検出する。
また、モデルが障害物全体ではなく障害物の一部に集中しすぎることも防げます。
そこで本研究では,様々な反射面を有する15シーン,200以上の画像シーケンス,3400 rgb画像からなる,反射面上の障害物のための新しいデータセットを提案する。
グラウンドと障害物のピクセルワイドアノテーションは,本手法と他の手法との比較を提供する。
反射の誤検出を減らすことで、提案手法は他よりも優れている。
ソースコードとデータセットはhttps://github.com/XuefengBUPT/IndoorObstacleDiscovery-RGで入手できる。 Visual obstacle discovery is a key step towards autonomous navigation of indoor mobile robots. Successful solutions have many applications in multiple scenes. One of the exceptions is the reflective ground. In this case, the reflections on the floor resemble the true world, which confuses the obstacle discovery and leaves navigation unsuccessful. We argue that the key to this problem lies in obtaining discriminative features for reflections and obstacles. Note that obstacle and reflection can be separated by the ground plane in 3D space. With this observation, we firstly introduce a pre-calibration based ground detection scheme that uses robot motion to predict the ground plane. Due to the immunity of robot motion to reflection, this scheme avoids failed ground detection caused by reflection. Given the detected ground, we design a ground-pixel parallax to describe the location of a pixel relative to the ground. Based on this, a unified appearance-geometry feature representation is proposed to describe objects inside rectangular boxes. Eventually, based on segmenting by detection framework, an appearance-geometry fusion regressor is designed to utilize the proposed feature to discover the obstacles. It also prevents our model from concentrating too much on parts of obstacles instead of whole obstacles. For evaluation, we introduce a new dataset for Obstacle on Reflective Ground (ORG), which comprises 15 scenes with various ground reflections, a total of more than 200 image sequences and 3400 RGB images. The pixel-wise annotations of ground and obstacle provide a comparison to our method and other methods. By reducing the misdetection of the reflection, the proposed approach outperforms others. The source code and the dataset will be available at https://github.com/XuefengBUPT/IndoorObstacleDiscovery-RG. | 翻訳日:2024-01-04 15:46:27 公開日:2024-01-02 |
# 干渉とデータ不均一性を考慮した階層的過空学習 Hierarchical Over-the-Air Federated Learning with Awareness of Interference and Data Heterogeneity ( http://arxiv.org/abs/2401.01442v1 ) ライセンス: Link先を確認 | Seyed Mohammad Azimi-Abarghouyi and Viktoria Fodor | (参考訳) 無線ネットワーク上で階層的なフェデレーション学習を実装する場合、スケーラビリティの保証と干渉とデバイスデータの不均一性の両方を扱う能力が不可欠である。
本研究は,これらの課題に対処するために設計された学習手法と,無線リソースを無線通信で効率よく活用するスケーラブルな送信方式を導入する。
データの不均一性に対する耐性を提供するため、勾配集計を用いる。
一方、干渉の影響は最適化された受信者正規化因子によって最小化される。
本研究では,確率幾何学を用いてマルチクラスタ無線ネットワークをモデル化し,ネットワークパラメータの関数として集約推定の平均二乗誤差を特徴付ける。
提案手法は,干渉やデータの不均一性にも拘わらず,高い学習精度を実現し,従来の階層的アルゴリズムを著しく上回ることを示す。 When implementing hierarchical federated learning over wireless networks, scalability assurance and the ability to handle both interference and device data heterogeneity are crucial. This work introduces a learning method designed to address these challenges, along with a scalable transmission scheme that efficiently uses a single wireless resource through over-the-air computation. To provide resistance against data heterogeneity, we employ gradient aggregations. Meanwhile, the impact of interference is minimized through optimized receiver normalizing factors. For this, we model a multi-cluster wireless network using stochastic geometry, and characterize the mean squared error of the aggregation estimations as a function of the network parameters. We show that despite the interference and the data heterogeneity, the proposed scheme achieves high learning accuracy and can significantly outperform the conventional hierarchical algorithm. | 翻訳日:2024-01-04 15:46:04 公開日:2024-01-02 |
# オフロードLiDAR強度に基づくセマンティックセグメンテーション Off-Road LiDAR Intensity Based Semantic Segmentation ( http://arxiv.org/abs/2401.01439v1 ) ライセンス: Link先を確認 | Kasi Viswanath, Peng Jiang, Sujit PB, Srikanth Saripalli | (参考訳) lidarは3次元空間情報を提供し、障害物検出、マッピング、経路計画を支援するオフロード環境で正確な知覚を可能にするために、自動運転で使用される。
学習ベースのLiDARセマンティックセグメンテーションは、機械学習技術を使用して、LiDARポイントクラウド内のオブジェクトとリージョンを自動的に分類する。
学習に基づくモデルは、様々な色、テクスチャ、未定義の境界を持つ多様なオブジェクトが存在するため、オフロード環境で苦労する。
本稿では,オフロード環境におけるオブジェクトセグメンテーションを強化するために,LiDAR強度パラメータを用いてこの問題に対処する。
提案手法をRELLIS-3Dデータセットで評価し,より複雑な深層学習に基づくベンチマークと比較し,mIoUを改良したクラス "puddle" と "grass" の予備解析として有望な結果を得た。
この方法論はvelodyneとousterのlidarシステム間の互換性を評価し、クロスプラットフォームの適用性を確認した。
この分析は、学習に基づくセマンティックセグメンテーションフレームワークの予測精度を高めることを目的として、補正強度を補足入力として組み込むことを提唱する。
https://github.com/MOONLABIISERB/lidar-intensity-predictor/tree/main LiDAR is used in autonomous driving to provide 3D spatial information and enable accurate perception in off-road environments, aiding in obstacle detection, mapping, and path planning. Learning-based LiDAR semantic segmentation utilizes machine learning techniques to automatically classify objects and regions in LiDAR point clouds. Learning-based models struggle in off-road environments due to the presence of diverse objects with varying colors, textures, and undefined boundaries, which can lead to difficulties in accurately classifying and segmenting objects using traditional geometric-based features. In this paper, we address this problem by harnessing the LiDAR intensity parameter to enhance object segmentation in off-road environments. Our approach was evaluated in the RELLIS-3D data set and yielded promising results as a preliminary analysis with improved mIoU for classes "puddle" and "grass" compared to more complex deep learning-based benchmarks. The methodology was evaluated for compatibility across both Velodyne and Ouster LiDAR systems, assuring its cross-platform applicability. This analysis advocates for the incorporation of calibrated intensity as a supplementary input, aiming to enhance the prediction accuracy of learning based semantic segmentation frameworks. https://github.com/MOONLABIISERB/lidar-intensity-predictor/tree/main | 翻訳日:2024-01-04 15:45:51 公開日:2024-01-02 |
# 自動テスト生成 -- 体系的な文献マッピング Automated Test Production -- Systematic Literature Mapping ( http://arxiv.org/abs/2401.01430v1 ) ライセンス: Link先を確認 | Jos\'e Marcos Gomes, Luis Alberto Vieira Dias | (参考訳) The broader goal of this research, on the one hand, is to obtain the State of the Art in Automated Test Production (ATP), to find the open questions and related problems and to track the progress of researchers in the field, and on the other hand is to list and categorize the methods, techniques and tools of ATP that meet the needs of practitioners who produce computerized business applications for internal use in their corporations - eventually it can be extended to the needs of practitioners in companies that specialize in producing computer applications for generic use. The broader goal of this research, on the one hand, is to obtain the State of the Art in Automated Test Production (ATP), to find the open questions and related problems and to track the progress of researchers in the field, and on the other hand is to list and categorize the methods, techniques and tools of ATP that meet the needs of practitioners who produce computerized business applications for internal use in their corporations - eventually it can be extended to the needs of practitioners in companies that specialize in producing computer applications for generic use. | 翻訳日:2024-01-04 15:45:27 公開日:2024-01-02 |
# 高次元因果推論のための深部因果生成モデルのモジュール学習 Modular Learning of Deep Causal Generative Models for High-dimensional Causal Inference ( http://arxiv.org/abs/2401.01426v1 ) ライセンス: Link先を確認 | Md Musfiqur Rahman and Murat Kocaoglu | (参考訳) パールの因果階層は観察的、介入的、そして反事実的問題を明確に区別する。
研究者らは、階層の特定のレベルにおける同定可能な因果クエリを、階層の下位レベルからの因果構造とデータを用いて計算するための、健全で完全なアルゴリズムを提案した。
しかし、これらのアルゴリズムの多くは、画像のような高次元変数の非現実的仮定であるデータの確率分布を正確に推定できると仮定している。
一方で、現代の生成的ディープラーニングアーキテクチャは、そのような高次元分布から正確にサンプルする方法を学ぶために訓練することができる。
特に,画像の基礎モデルの増加に伴い,そのような高次元データを用いて因果クエリに応答するために,事前学習モデルを活用することが望ましい。
そこで本研究では, 因果構造と事前学習条件生成モデルを用いて, 事前学習モデルを用いた深部因果生成モデルを訓練し, 特定可能な介入および反事実分布から確実にサンプル化できる逐次訓練アルゴリズムを提案する。
Modular-DCMと呼ばれる我々のアルゴリズムは,ネットワーク重みの学習に敵対的トレーニングを使用し,我々の知る限り,事前学習されたモデルと,高次元データを持つ潜伏した共同設立者の存在下で,識別可能な因果関係の探索を確実に行うことのできる,最初のアルゴリズムである。
因果構造における変数として画像を含む半合成および実世界のデータセットを用いたアルゴリズムの有用性を示す。 Pearl's causal hierarchy establishes a clear separation between observational, interventional, and counterfactual questions. Researchers proposed sound and complete algorithms to compute identifiable causal queries at a given level of the hierarchy using the causal structure and data from the lower levels of the hierarchy. However, most of these algorithms assume that we can accurately estimate the probability distribution of the data, which is an impractical assumption for high-dimensional variables such as images. On the other hand, modern generative deep learning architectures can be trained to learn how to accurately sample from such high-dimensional distributions. Especially with the recent rise of foundation models for images, it is desirable to leverage pre-trained models to answer causal queries with such high-dimensional data. To address this, we propose a sequential training algorithm that, given the causal structure and a pre-trained conditional generative model, can train a deep causal generative model, which utilizes the pre-trained model and can provably sample from identifiable interventional and counterfactual distributions. Our algorithm, called Modular-DCM, uses adversarial training to learn the network weights, and to the best of our knowledge, is the first algorithm that can make use of pre-trained models and provably sample from any identifiable causal query in the presence of latent confounders with high-dimensional data. We demonstrate the utility of our algorithm using semi-synthetic and real-world datasets containing images as variables in the causal structure. | 翻訳日:2024-01-04 15:45:20 公開日:2024-01-02 |
# SwapTransformer:OSHAデータセットの模倣学習による高速道路の戦術プランナーモデル SwapTransformer: highway overtaking tactical planner model via imitation learning on OSHA dataset ( http://arxiv.org/abs/2401.01425v1 ) ライセンス: Link先を確認 | Alireza Shamsoshoara, Safin B Salih, Pedram Aghazadeh | (参考訳) 本稿では、車線変更や他の低速車両の過多に関する高速道路シナリオにおける高レベル意思決定問題について検討する。
特に,高速道路における自動走行および車線変更のためのトラベルアシスト機能の改善を目的とした。
レーン画像やその他の動的オブジェクトを含む約900万のサンプルがシミュレーションで収集されている。
この課題に対処するため、Simulated HighwAys(OSHA)データセットがリリースされた。
この問題を解決するために、SwapTransformerと呼ばれるアーキテクチャが設計され、OSHAデータセット上で模倣学習アプローチとして実装されている。
また, 周辺環境をよりよく理解するために, 将来のポイントや車間距離ネットワーク予測などの補助タスクが提案されている。
提案手法の性能をシミュレーション環境におけるベースラインとして多層パーセプトロン(MLP)と多層自己保持ネットワークと比較した。
また,補助作業の有無に関わらず,モデルの性能を示す。
すべてのモデルは、各ラップの終了までの時間、乗算回数、速度制限による速度差など、さまざまな指標に基づいて評価される。
評価の結果,SwapTransformerモデルは推論フェーズにおいて,異なるトラフィック密度のモデルよりも優れていた。 This paper investigates the high-level decision-making problem in highway scenarios regarding lane changing and over-taking other slower vehicles. In particular, this paper aims to improve the Travel Assist feature for automatic overtaking and lane changes on highways. About 9 million samples including lane images and other dynamic objects are collected in simulation. This data; Overtaking on Simulated HighwAys (OSHA) dataset is released to tackle this challenge. To solve this problem, an architecture called SwapTransformer is designed and implemented as an imitation learning approach on the OSHA dataset. Moreover, auxiliary tasks such as future points and car distance network predictions are proposed to aid the model in better understanding the surrounding environment. The performance of the proposed solution is compared with a multi-layer perceptron (MLP) and multi-head self-attention networks as baselines in a simulation environment. We also demonstrate the performance of the model with and without auxiliary tasks. All models are evaluated based on different metrics such as time to finish each lap, number of overtakes, and speed difference with speed limit. The evaluation shows that the SwapTransformer model outperforms other models in different traffic densities in the inference phase. | 翻訳日:2024-01-04 15:44:42 公開日:2024-01-02 |
# 発散する、または発散しない:機械翻訳と人間の翻訳における形態素的視点 To Diverge or Not to Diverge: A Morphosyntactic Perspective on Machine Translation vs Human Translation ( http://arxiv.org/abs/2401.01419v1 ) ライセンス: Link先を確認 | Jiaming Luo, Colin Cherry, George Foster | (参考訳) 形態素発散のレンズを通して,機械翻訳(mt)とヒト翻訳(ht)の大規模精密比較分析を行う。
3つの言語対と2種類の発散が、ソースとターゲットの構造的な違いとして定義されるが、MTはHTよりも一貫して保守的であり、モルフォシンタクティックな多様性は少なく、より収束したパターン、より1対1のアライメントを持つ。
異なる復号アルゴリズムの解析を通して、この相違はMTをより収束したパターンに偏るビームサーチによるものである。
このバイアスは、トレーニングデータで収束パターンが約50%の時間に現れる場合に最も増幅される。
最後に,HTにおけるHTの存在はMT性能の低下と相関し,MTシステムにとって大きな課題であることを示す。 We conduct a large-scale fine-grained comparative analysis of machine translations (MT) against human translations (HT) through the lens of morphosyntactic divergence. Across three language pairs and two types of divergence defined as the structural difference between the source and the target, MT is consistently more conservative than HT, with less morphosyntactic diversity, more convergent patterns, and more one-to-one alignments. Through analysis on different decoding algorithms, we attribute this discrepancy to the use of beam search that biases MT towards more convergent patterns. This bias is most amplified when the convergent pattern appears around 50% of the time in training data. Lastly, we show that for a majority of morphosyntactic divergences, their presence in HT is correlated with decreased MT performance, presenting a greater challenge for MT systems. | 翻訳日:2024-01-04 15:44:09 公開日:2024-01-02 |
# 携帯電話におけるカメラ融合による高効率ハイブリッドズーム Efficient Hybrid Zoom using Camera Fusion on Mobile Phones ( http://arxiv.org/abs/2401.01461v1 ) ライセンス: Link先を確認 | Xiaotong Wu, Wei-Sheng Lai, YiChang Shih, Charles Herrmann, Michael Krainin, Deqing Sun, Chia-Kai Liang | (参考訳) DSLRカメラは、レンズ距離をシフトしたり、レンズタイプを切り替えることで、複数のズームレベルを達成することができる。
しかし、これらの技術は空間制約のためスマートフォンでは不可能である。
ほとんどのスマートフォンメーカーはハイブリッドズームシステムを採用している:通常、低ズームレベルのワイド(W)カメラと高ズームレベルのテレフォト(T)カメラである。
W と T の間のズームレベルをシミュレートするため、これらのシステムは W から画像を取り出し、デジタル的にアップサンプルする。
本稿では,W と T の同期ショットをキャプチャし,機械学習モデルを用いてT から W への詳細調整と転送を行う,モバイルデバイス上でのハイブリッドズーム超解像システムを提案する。
ドメインギャップを最小限に抑えるために、実世界の入力を捉えるデュアルホンカメラリグと、教師付きトレーニングのための接地トラスを設計する。
提案手法は,モバイルプラットフォーム上で500msの12メガピクセル画像を生成し,実世界のシナリオを広範囲に評価し,最先端の手法と比較した。 DSLR cameras can achieve multiple zoom levels via shifting lens distances or swapping lens types. However, these techniques are not possible on smartphone devices due to space constraints. Most smartphone manufacturers adopt a hybrid zoom system: commonly a Wide (W) camera at a low zoom level and a Telephoto (T) camera at a high zoom level. To simulate zoom levels between W and T, these systems crop and digitally upsample images from W, leading to significant detail loss. In this paper, we propose an efficient system for hybrid zoom super-resolution on mobile devices, which captures a synchronous pair of W and T shots and leverages machine learning models to align and transfer details from T to W. We further develop an adaptive blending method that accounts for depth-of-field mismatches, scene occlusion, flow uncertainty, and alignment errors. To minimize the domain gap, we design a dual-phone camera rig to capture real-world inputs and ground-truths for supervised training. Our method generates a 12-megapixel image in 500ms on a mobile platform and compares favorably against state-of-the-art methods under extensive evaluation on real-world scenarios. | 翻訳日:2024-01-04 15:32:34 公開日:2024-01-02 |
# ディープセット線形最適輸送による点雲分類 Point Cloud Classification via Deep Set Linearized Optimal Transport ( http://arxiv.org/abs/2401.01460v1 ) ライセンス: Link先を確認 | Scott Mahan, Caroline Moosm\"uller, Alexander Cloninger | (参考訳) 本稿では,点雲をL^2-$spaceに効率的に同時埋め込むアルゴリズムであるDeep Set Linearized Optimal Transportを紹介する。
この埋め込みはワッサーシュタイン空間内の特定の低次元構造を保持し、点雲の様々なクラスを区別する分類器を構成する。
本手法は,共有固定参照分布を起点とする異なる点雲に対する最適輸送写像間の$l^2-$ distancesの観測により,これらの点雲間のwaserstein-2距離を一定の仮定で近似する。
これらのトランスポートマップの近似を学習するために、入力凸ニューラルネットワーク(ICNN)を用い、特定の条件下では、これらのICNNのサンプル間のユークリッド距離が、真の分布間のワッサーシュタイン-2距離を密接に反映していることを確立する。
さらに、これらのサンプルの重み付けを行い、異なる点雲のクラスを区別する置換不変種別化器を作成する識別器ネットワークを訓練する。
本研究は,フローサイトメトリーデータセットにラベル付き点群を限定した実験を行うことにより,標準的な深層集合アプローチに対するアルゴリズムの利点を示す。 We introduce Deep Set Linearized Optimal Transport, an algorithm designed for the efficient simultaneous embedding of point clouds into an $L^2-$space. This embedding preserves specific low-dimensional structures within the Wasserstein space while constructing a classifier to distinguish between various classes of point clouds. Our approach is motivated by the observation that $L^2-$distances between optimal transport maps for distinct point clouds, originating from a shared fixed reference distribution, provide an approximation of the Wasserstein-2 distance between these point clouds, under certain assumptions. To learn approximations of these transport maps, we employ input convex neural networks (ICNNs) and establish that, under specific conditions, Euclidean distances between samples from these ICNNs closely mirror Wasserstein-2 distances between the true distributions. Additionally, we train a discriminator network that attaches weights these samples and creates a permutation invariant classifier to differentiate between different classes of point clouds. We showcase the advantages of our algorithm over the standard deep set approach through experiments on a flow cytometry dataset with a limited number of labeled point clouds. | 翻訳日:2024-01-04 15:32:12 公開日:2024-01-02 |
# 画像解析:3次元形状制御による精密物体編集 Image Sculpting: Precise Object Editing with 3D Geometry Control ( http://arxiv.org/abs/2401.01702v1 ) ライセンス: Link先を確認 | Jiraphon Yenphraphai, Xichen Pan, Sainan Liu, Daniele Panozzo, Saining Xie | (参考訳) 我々は3次元幾何学とグラフィックスのツールを取り入れて2次元画像を編集する新しいフレームワークであるImage Sculptingを提案する。
このアプローチは、2D空間に限定され、典型的にはテキスト命令に依存し、曖昧さと限定的な制御をもたらす既存の方法とは大きく異なる。
Image Sculptingは2Dオブジェクトを3Dに変換することで、それらの3D幾何学と直接の相互作用を可能にする。
編集後、これらのオブジェクトは2dに再レンダリングされ、元の画像にマージされ、粗く精細な拡張プロセスを通じて忠実度の高い結果が得られる。
このフレームワークは、ポーズの編集、回転、翻訳、3d合成、彫刻、シリアル追加など、正確で定量化され、物理的に賞賛される編集オプションをサポートしている。
これは生成モデルの創造的自由とグラフィックパイプラインの精度を組み合わせるための最初の一歩である。 We present Image Sculpting, a new framework for editing 2D images by incorporating tools from 3D geometry and graphics. This approach differs markedly from existing methods, which are confined to 2D spaces and typically rely on textual instructions, leading to ambiguity and limited control. Image Sculpting converts 2D objects into 3D, enabling direct interaction with their 3D geometry. Post-editing, these objects are re-rendered into 2D, merging into the original image to produce high-fidelity results through a coarse-to-fine enhancement process. The framework supports precise, quantifiable, and physically-plausible editing options such as pose editing, rotation, translation, 3D composition, carving, and serial addition. It marks an initial step towards combining the creative freedom of generative models with the precision of graphics pipelines. | 翻訳日:2024-01-04 14:09:33 公開日:2024-01-02 |
# 多クラス量子化のためのカーネル密度推定 Kernel Density Estimation for Multiclass Quantification ( http://arxiv.org/abs/2401.00490v2 ) ライセンス: Link先を確認 | Alejandro Moreo, Pablo Gonz\'alez, Juan Jos\'e del Coz | (参考訳) 社会科学、疫学、感情分析、市場調査などのいくつかの分野は、そのメンバーの個々のラベルではなく、集団内のクラスの分布を知ることに興味を持っている。
量子化は、クラス有病率の正確な予測子を得るための教師付き機械学習タスクであり、特にラベルシフトの存在下で行う。
分布マッチング(dm)アプローチは、これまでに文献で提案されている量化手法の中で最も重要なファミリーの一つである。
現在のdmアプローチは、後発確率のヒストグラムを用いて関連する人口をモデル化する。
本稿では,ヒストグラムがクラス固有となり,データに存在する可能性のあるクラス間情報をモデル化する機会を欠くため,マルチクラス設定へのそれらの適用は最適ではないと主張する。
カーネル密度推定(KDE)によりモデル化した多変量密度に基づく新しい表現機構を提案する。
提案手法をKDEyと呼ぶ実験により,従来のDM手法よりも優れた定量化性能が得られた。
また, 最大度フレームワークにおけるkdeに基づく表現についても検討し, kdeyは, 量子化の期待最大化法に対してしばしば優れた性能を示すことを示した。 Several disciplines, like the social sciences, epidemiology, sentiment analysis, or market research, are interested in knowing the distribution of the classes in a population rather than the individual labels of the members thereof. Quantification is the supervised machine learning task concerned with obtaining accurate predictors of class prevalence, and to do so particularly in the presence of label shift. The distribution-matching (DM) approaches represent one of the most important families among the quantification methods that have been proposed in the literature so far. Current DM approaches model the involved populations by means of histograms of posterior probabilities. In this paper, we argue that their application to the multiclass setting is suboptimal since the histograms become class-specific, thus missing the opportunity to model inter-class information that may exist in the data. We propose a new representation mechanism based on multivariate densities that we model via kernel density estimation (KDE). The experiments we have carried out show our method, dubbed KDEy, yields superior quantification performance with respect to previous DM approaches. We also investigate the KDE-based representation within the maximum likelihood framework and show KDEy often shows superior performance with respect to the expectation-maximization method for quantification, arguably the strongest contender in the quantification arena to date. | 翻訳日:2024-01-04 11:11:01 公開日:2024-01-02 |
# 高次元混合変数を用いた線形判別分析 Linear Discriminant Analysis with High-dimensional Mixed Variables ( http://arxiv.org/abs/2112.07145v3 ) ライセンス: Link先を確認 | Binyan Jiang, Chenlei Leng, Cheng Wang, Zhongqing Yang, Xinyang Yu | (参考訳) カテゴリー変数と連続変数の両方を含むデータセットは、多くの領域で頻繁に遭遇し、現代の計測技術の急速な発展により、これらの変数の寸法は非常に高い。
連続変数の高次元データをモデル化する最近の進歩にもかかわらず、混合変数の集合を扱う方法が不足している。
このギャップを埋めるために,混合変数を用いた高次元観測の分類手法を開発した。
我々のフレームワークは位置モデルに基づいており、連続変数の分布がカテゴリー変数に条件づけられていると仮定される。
カーネルの平滑化により、データを指数関数的に多くのセル、あるいはカテゴリ変数の組み合わせに分割するという課題を克服し、通常のバイアス分散トレードオフとは異なるボヒナーのレムマの類似性を保証するために、帯域幅選択の新しい視点を提供する。
本モデルにおける2つのパラメータセットを別々に推定し,その推定にペナルティを課すことができることを示す。
その結果,推定精度と誤分類率が確立され,提案する分類器の競合性能は,広範なシミュレーションと実データ解析によって示される。 Datasets containing both categorical and continuous variables are frequently encountered in many areas, and with the rapid development of modern measurement technologies, the dimensions of these variables can be very high. Despite the recent progress made in modelling high-dimensional data for continuous variables, there is a scarcity of methods that can deal with a mixed set of variables. To fill this gap, this paper develops a novel approach for classifying high-dimensional observations with mixed variables. Our framework builds on a location model, in which the distributions of the continuous variables conditional on categorical ones are assumed Gaussian. We overcome the challenge of having to split data into exponentially many cells, or combinations of the categorical variables, by kernel smoothing, and provide new perspectives for its bandwidth choice to ensure an analogue of Bochner's Lemma, which is different to the usual bias-variance tradeoff. We show that the two sets of parameters in our model can be separately estimated and provide penalized likelihood for their estimation. Results on the estimation accuracy and the misclassification rates are established, and the competitive performance of the proposed classifier is illustrated by extensive simulation and real data studies. | 翻訳日:2024-01-03 20:35:02 公開日:2024-01-02 |
# 変形可能多様体上のベル型ゲーム Bell-type games on deformable manifolds ( http://arxiv.org/abs/2111.14228v2 ) ライセンス: Link先を確認 | David H. Oaknin, Amir Kalev, Itay Hen | (参考訳) ベル型ゲームにおける二部相関について検討する。
情報担体がゲームがプレイされている多様体を局所的に変形させることが許される設定において、より強い相関関係が得られ得ることを示す。
我々はベルの定理とアインシュタイン=ポドルスキー=ローゼンパラドックスの文脈における結果の意味について議論する。 We study bipartite correlations in Bell-type games. We show that in a setup where the information carriers are allowed to locally deform the manifold on which the game is played, stronger correlations may be obtained than those maximally attainable otherwise. We discuss the implications of our results in the context of Bell's theorem and the Einstein-Podolsky-Rosen paradox. | 翻訳日:2024-01-03 20:34:42 公開日:2024-01-02 |
# 等角予測を用いた試料有効安全保証 Sample-Efficient Safety Assurances using Conformal Prediction ( http://arxiv.org/abs/2109.14082v5 ) ライセンス: Link先を確認 | Rachel Luo, Shengjia Zhao, Jonathan Kuck, Boris Ivanovic, Silvio Savarese, Edward Schmerling, Marco Pavone | (参考訳) 高度なロボットアプリケーションで機械学習モデルをデプロイする場合、安全でない状況を検出する能力は不可欠である。
早期警報システムは、安全でない状況が差し迫っている場合(修正措置がない場合)に警告を提供することができる。
安全性を確実に向上させるためには、これらの警告システムは証明可能な偽陰性率を持つべきである。
本研究では,コンフォメーション予測として知られる統計的推論手法と,ロボット/環境ダイナミクスのシミュレータを組み合わせることにより,警告システムをチューニングし,最低1/1/1のepsilon$データポイントを用いて,$\epsilon$偽陰性率を実現するための枠組みを提案する。
我々は,ドライバ警告システムとロボット把握アプリケーションに適用し,偽検出(陽性)率を低く抑えながら,保証された偽陰性率を実証的に示す。 When deploying machine learning models in high-stakes robotics applications, the ability to detect unsafe situations is crucial. Early warning systems can provide alerts when an unsafe situation is imminent (in the absence of corrective action). To reliably improve safety, these warning systems should have a provable false negative rate; i.e. of the situations that are unsafe, fewer than $\epsilon$ will occur without an alert. In this work, we present a framework that combines a statistical inference technique known as conformal prediction with a simulator of robot/environment dynamics, in order to tune warning systems to provably achieve an $\epsilon$ false negative rate using as few as $1/\epsilon$ data points. We apply our framework to a driver warning system and a robotic grasping application, and empirically demonstrate guaranteed false negative rate while also observing low false detection (positive) rate. | 翻訳日:2024-01-03 20:34:26 公開日:2024-01-02 |
# 統計的関係からニューロシンボリック人工知能へ:調査 From Statistical Relational to Neurosymbolic Artificial Intelligence: a Survey ( http://arxiv.org/abs/2108.11451v4 ) ライセンス: Link先を確認 | Giuseppe Marra and Sebastijan Duman\v{c}i\'c and Robin Manhaeve and Luc De Raedt | (参考訳) この調査は、ニューロシンボリック人工知能と統計的関係性人工知能の2つの異なる分野における学習と推論の統合を探求する。
ニューロシンボリック人工知能(nesy)はシンボリック推論とニューラルネットワークの統合を研究し、統計リレーショナル人工知能(starai)は論理と確率的グラフィカルモデルの統合に焦点を当てている。
この調査は、AIの2つのサブフィールド間の7つの共有次元を特定する。
これらの次元は、異なるNeSyとStarAIシステムの特徴付けに使うことができる。
They are concerned with (1) the approach to logical inference, whether model or proof-based; (2) the syntax of the used logical theories; (3) the logical semantics of the systems and their extensions to facilitate learning; (4) the scope of learning, encompassing either parameter or structure learning; (5) the presence of symbolic and subsymbolic representations; (6) the degree to which systems capture the original logic, probabilistic, and neural paradigms; and (7) the classes of learning tasks the systems are applied to.
これらの次元に沿って様々なNeSyとStarAIシステムを配置し、類似点と相違点を指摘することによって、学習と推論の統合を理解するための基本的な概念に寄与する。 This survey explores the integration of learning and reasoning in two different fields of artificial intelligence: neurosymbolic and statistical relational artificial intelligence. Neurosymbolic artificial intelligence (NeSy) studies the integration of symbolic reasoning and neural networks, while statistical relational artificial intelligence (StarAI) focuses on integrating logic with probabilistic graphical models. This survey identifies seven shared dimensions between these two subfields of AI. These dimensions can be used to characterize different NeSy and StarAI systems. They are concerned with (1) the approach to logical inference, whether model or proof-based; (2) the syntax of the used logical theories; (3) the logical semantics of the systems and their extensions to facilitate learning; (4) the scope of learning, encompassing either parameter or structure learning; (5) the presence of symbolic and subsymbolic representations; (6) the degree to which systems capture the original logic, probabilistic, and neural paradigms; and (7) the classes of learning tasks the systems are applied to. By positioning various NeSy and StarAI systems along these dimensions and pointing out similarities and differences between them, this survey contributes fundamental concepts for understanding the integration of learning and reasoning. | 翻訳日:2024-01-03 20:34:10 公開日:2024-01-02 |
# テンソル化量子資源の集中保存に関する基礎的限界 Fundamental limits on concentrating and preserving tensorized quantum resources ( http://arxiv.org/abs/2104.12307v2 ) ライセンス: Link先を確認 | Jaehak Lee, Kyunghyun Baek, Jiyong Park, Jaewan Kim, and Hyunchul Nha | (参考訳) 量子技術は多くのアプリケーションにおいて、非古典性、コヒーレンス、絡み合いのような量子資源を活用することで大きな利点をもたらす。
実際には、環境騒音は量子システムに必然的に影響を及ぼすので、量子資源をノイズから守ることは重要な問題である。
本研究では,いわゆるテンソル化特性を持つ量子資源の操作について検討し,それらの量子資源の集中と保存に関する基本的な限界を明らかにする。
資源測度がテンソル化特性と単調性を満たすと、自由操作により複数のノイズのあるコピーを単一のより良いリソースに集中することは不可能であることを示す。
さらに,チャネル出力資源がテンソル化特性を示す場合,ジョイントチャネル上の相関入力状態を用いることで,チャネルノイズから量子資源を保護できないことを示す。
我々は, 量子資源操作において, 定理が適用されるいくつかの実効的資源測度に対処し, それらの物理的意味を明らかにする。 Quantum technology offers great advantages in many applications by exploiting quantum resources like nonclassicality, coherence, and entanglement. In practice, an environmental noise unavoidably affects a quantum system and it is thus an important issue to protect quantum resources from noise. In this work, we investigate the manipulation of quantum resources possessing the so-called tensorization property and identify the fundamental limitations on concentrating and preserving those quantum resources. We show that if a resource measure satisfies the tensorization property as well as the monotonicity, it is impossible to concentrate multiple noisy copies into a single better resource by free operations. Furthermore, we show that quantum resources cannot be better protected from channel noises by employing correlated input states on joint channels if the channel output resource exhibits the tensorization property. We address several practical resource measures where our theorems apply and manifest their physical meanings in quantum resource manipulation. | 翻訳日:2024-01-03 20:33:52 公開日:2024-01-02 |
# 効率的なストリーム学習のための調律合成特徴リプレイ Tuned Compositional Feature Replays for Efficient Stream Learning ( http://arxiv.org/abs/2104.02206v8 ) ライセンス: Link先を確認 | Morgan B. Talbot, Rushikesh Zawar, Rohil Badkundri, Mengmi Zhang, Gabriel Kreiman | (参考訳) 私たちの脳は、世界の過渡的な経験から耐久性があり、一般化可能な知識を抽出します。
ニューラルネットワークは、この能力に近づかない。
非繰り返しビデオフレームを時間順(オンラインストリーム学習)にトレーニングすることでオブジェクトを分類する学習を行うと、シャッフルデータセットからよく学習するモデルは、新しい刺激を学ぶ際に古い知識を破滅的に忘れてしまう。
汎用部品を組み合わせることで再構成された特徴マップを再生することで、忘れを軽減できる新しい連続学習アルゴリズムであるCRUMB(Composeal Replay Using Memory Blocks)を提案する。
CRUMBはトレーニング可能で再利用可能な「メモリブロック」ベクターを結合し、畳み込みニューラルネットワークで特徴地図テンソルを合成再構成する。
新しい刺激を再構築するために使われる記憶ブロックのインデックスを保存することで、後のタスク中に刺激の記憶を再生することができる。
この再構築機構はまた、画像テクスチャに関する情報よりも物体形状に関する情報にバイアスを掛けて破滅的な忘れを最小化し、すべてのトレーニング例の共有機能レベルベースを提供することで、ストリーム学習中のネットワークを安定化する。
これらの特性により、CRUMBは生画像の保存と再生を行うアルゴリズムよりも優れ、メモリの3.6%しか占めていない。
7つのチャレンジデータセットで13の競合メソッドとともにcrumbをストレステストした。
既存のオンラインストリーム学習データセットの限られた数に対処するために,既存のデータセットをストリーム学習に適応させることで,新たなベンチマークを2つ導入する。
3.7-4.1%のメモリと15-43%のランタイムで、crumbは最先端よりも壊滅的な忘れを効果的に緩和する。
私たちのコードはhttps://github.com/morganbdt/crumb.gitで入手できる。 Our brains extract durable, generalizable knowledge from transient experiences of the world. Artificial neural networks come nowhere close to this ability. When tasked with learning to classify objects by training on non-repeating video frames in temporal order (online stream learning), models that learn well from shuffled datasets catastrophically forget old knowledge upon learning new stimuli. We propose a new continual learning algorithm, Compositional Replay Using Memory Blocks (CRUMB), which mitigates forgetting by replaying feature maps reconstructed by combining generic parts. CRUMB concatenates trainable and re-usable "memory block" vectors to compositionally reconstruct feature map tensors in convolutional neural networks. Storing the indices of memory blocks used to reconstruct new stimuli enables memories of the stimuli to be replayed during later tasks. This reconstruction mechanism also primes the neural network to minimize catastrophic forgetting by biasing it towards attending to information about object shapes more than information about image textures, and stabilizes the network during stream learning by providing a shared feature-level basis for all training examples. These properties allow CRUMB to outperform an otherwise identical algorithm that stores and replays raw images, while occupying only 3.6% as much memory. We stress-tested CRUMB alongside 13 competing methods on 7 challenging datasets. To address the limited number of existing online stream learning datasets, we introduce 2 new benchmarks by adapting existing datasets for stream learning. With only 3.7-4.1% as much memory and 15-43% as much runtime, CRUMB mitigates catastrophic forgetting more effectively than the state-of-the-art. Our code is available at https://github.com/MorganBDT/crumb.git. | 翻訳日:2024-01-03 20:33:36 公開日:2024-01-02 |
# 足場に基づく多目的薬物候補最適化 Scaffold-Based Multi-Objective Drug Candidate Optimization ( http://arxiv.org/abs/2301.07175v2 ) ライセンス: Link先を確認 | Agustin Kruel, Andrew D. McNaughton, Neeraj Kumar | (参考訳) 治療設計において、分子の発達には様々な物理化学的性質のバランスが不可欠であり、mpo(multiparameter optimization)が主要な目的を達成するために複数の変数を評価する方法と同様である。
多くの分子的特徴は、初期の薬物開発を支援する「textit{in silico}」法で予測できるが、高いスループットの仮想スクリーニングから生成された膨大なデータは、従来のMPOアプローチの実用性に挑戦する。
これに対応するために、最適な性質を持つ分子を生成するために構築されたグラフに基づくマルコフ連鎖モンテカルロフレームワーク(ScaMARS)を導入する。
この革新的な枠組みは、より広範な特性を自己学習し、処理し、開始する足場に応じて異なる化学空間をサンプリングすることができる。
いくつかの特性に関するベンチマーク分析によると、ScaMARSの多様性スコアは84.6\%であり、条件付きモデルよりも99.5\%高い。
MPOへの新機能の統合は治療設計における適応性と有効性を大幅に向上させ、複数の特性を効率的に最適化する候補の発見を容易にする。 In therapeutic design, balancing various physiochemical properties is crucial for molecule development, similar to how Multiparameter Optimization (MPO) evaluates multiple variables to meet a primary goal. While many molecular features can now be predicted using \textit{in silico} methods, aiding early drug development, the vast data generated from high throughput virtual screening challenges the practicality of traditional MPO approaches. Addressing this, we introduce a scaffold focused graph-based Markov chain Monte Carlo framework (ScaMARS) built to generate molecules with optimal properties. This innovative framework is capable of self-training and handling a wider array of properties, sampling different chemical spaces according to the starting scaffold. The benchmark analysis on several properties shows that ScaMARS has a diversity score of 84.6\% and has a much higher success rate of 99.5\% compared to conditional models. The integration of new features into MPO significantly enhances its adaptability and effectiveness in therapeutic design, facilitating the discovery of candidates that efficiently optimize multiple properties. | 翻訳日:2024-01-03 20:29:08 公開日:2024-01-02 |
# OCT画像における網膜浮腫病変の信頼性の検討 Reliable Joint Segmentation of Retinal Edema Lesions in OCT Images ( http://arxiv.org/abs/2212.00330v5 ) ライセンス: Link先を確認 | Meng Wang, Kai Yu, Chun-Mei Feng, Ke Zou, Yanyu Xu, Qingquan Meng, Rick Siow Mong Goh, Yong Liu, and Huazhu Fu | (参考訳) OCT画像からの網膜浮腫病変の関節分節化のタスクにおいて, ぼやけた境界, 症状のスケール差, 背景雑音の干渉など, 複雑な病態の特徴に着目し, より信頼性の高い分節化を図った。
本稿では,信頼性評価により精度の高いセグメンテーション結果が得られる,信頼性の高いマルチスケールウェーブレットエンハンスドトランスネットワークを提案する。
具体的には,OCT画像における網膜浮腫病変の複雑な病態を学習する能力の向上を目的として,新たに設計されたウェーブレット強化特徴抽出器ネットワークとマルチスケールトランスフォーマーモジュールを統合した,新たなセグメンテーションバックボーンを開発した。
一方、セグメンテーション結果の信頼性を高めるために、主観的論理実証理論に基づく新たな不確実性セグメンテーションヘッドを導入し、対応する全体不確実性評価スコアマップを用いて最終セグメンテーション結果を生成する。
網膜浮腫病変セグメンテーションにおけるai-challenge 2018の公開データベースについて総合的な実験を行い,本手法は他の最先端セグメンテーション法に比べて高い信頼性でセグメンテーション精度を達成できることを示した。
コードは、https://github.com/LooKing9218/ReliableRESegでリリースされる。 Focusing on the complicated pathological features, such as blurred boundaries, severe scale differences between symptoms, background noise interference, etc., in the task of retinal edema lesions joint segmentation from OCT images and enabling the segmentation results more reliable. In this paper, we propose a novel reliable multi-scale wavelet-enhanced transformer network, which can provide accurate segmentation results with reliability assessment. Specifically, aiming at improving the model's ability to learn the complex pathological features of retinal edema lesions in OCT images, we develop a novel segmentation backbone that integrates a wavelet-enhanced feature extractor network and a multi-scale transformer module of our newly designed. Meanwhile, to make the segmentation results more reliable, a novel uncertainty segmentation head based on the subjective logical evidential theory is introduced to generate the final segmentation results with a corresponding overall uncertainty evaluation score map. We conduct comprehensive experiments on the public database of AI-Challenge 2018 for retinal edema lesions segmentation, and the results show that our proposed method achieves better segmentation accuracy with a high degree of reliability as compared to other state-of-the-art segmentation approaches. The code will be released on: https://github.com/LooKing9218/ReliableRESeg. | 翻訳日:2024-01-03 20:28:19 公開日:2024-01-02 |
# ベイズ逆強化学習による実演満足度の自動評価 Autonomous Assessment of Demonstration Sufficiency via Bayesian Inverse Reinforcement Learning ( http://arxiv.org/abs/2211.15542v3 ) ライセンス: Link先を確認 | Tu Trinh, Haoyu Chen, Daniel S. Brown | (参考訳) ロボットは、望まれるレベルのパフォーマンスを確保するために、専門家から十分なデモンストレーションを受けたかどうかを自己評価するにはどうすればよいのか?
この問題を解決するために,ベイズ逆強化学習とバリュー・アット・リスクに基づく新たな自己評価手法を提案する。
本研究では,(1)正規化された期待値差,(2)ヒトの未観測報酬関数に対する後悔度,(2)基本方針に対する改善率の2つの定義を提案し,評価する。
両指標の高信頼境界を定式化する方法を示す。
我々は、離散状態領域と連続状態領域の両方のシミュレーションにおけるアプローチを評価し、実演効率を正確に評価できるロボットシステムの開発の可能性を示す。
また,本ロボットは,特定の状態からのデモンストレーションを積極的に行うことで,ロボットのポリシーに対する信頼性を維持するために必要なデモを少なくすることができることを示す。
最後に,ユーザスタディを通じて,ロボットが要求される性能レベルにおいて,多すぎる,あるいは完璧に最適なデモンストレーションを必要とせず,ロボットがうまく動作できることを実証する。 We examine the problem of determining demonstration sufficiency: how can a robot self-assess whether it has received enough demonstrations from an expert to ensure a desired level of performance? To address this problem, we propose a novel self-assessment approach based on Bayesian inverse reinforcement learning and value-at-risk, enabling learning-from-demonstration ("LfD") robots to compute high-confidence bounds on their performance and use these bounds to determine when they have a sufficient number of demonstrations. We propose and evaluate two definitions of sufficiency: (1) normalized expected value difference, which measures regret with respect to the human's unobserved reward function, and (2) percent improvement over a baseline policy. We demonstrate how to formulate high-confidence bounds on both of these metrics. We evaluate our approach in simulation for both discrete and continuous state-space domains and illustrate the feasibility of developing a robotic system that can accurately evaluate demonstration sufficiency. We also show that the robot can utilize active learning in asking for demonstrations from specific states which results in fewer demos needed for the robot to still maintain high confidence in its policy. Finally, via a user study, we show that our approach successfully enables robots to perform at users' desired performance levels, without needing too many or perfectly optimal demonstrations. | 翻訳日:2024-01-03 20:27:37 公開日:2024-01-02 |
# 無人地上車両のリアルタイム屋内ローカライズへの効率的なニューラルマッピングの適用について On the Application of Efficient Neural Mapping to Real-Time Indoor Localisation for Unmanned Ground Vehicles ( http://arxiv.org/abs/2211.04718v2 ) ライセンス: Link先を確認 | Christopher J. Holder and Muhammad Shafique | (参考訳) 視覚データからのグローバルローカライズは多くのロボティクス分野に適用できる困難な問題である。
以前の研究によると、ニューラルネットワークは環境の画像をその環境内の絶対的なカメラポーズにマッピングするように訓練でき、その過程で暗黙のニューラルマッピングを学ぶことができる。
本研究では, 実世界のロボットシナリオに適用可能性を評価し, 問題を2次元に制限し, トレーニングデータの量を大幅に増加させることで, 組込みプラットフォーム上でリアルタイム推論が可能なコンパクトモデルを用いて, 数センチの局所化精度を実現できることを示す。
トレーニングされたモデルをUGVプラットフォームにデプロイし、その有効性をウェイポイントナビゲーションタスクで示すことにより、UGV搭載CPU上での6fps、組み込みGPU上での35fps、デスクトップGPU上での220fpsの速度で、平均9cmの精度でローカライズすることが可能になります。
この作業に加えて、シミュレーションと実環境で構成された新しいローカライズデータセットをリリースします。 Global localisation from visual data is a challenging problem applicable to many robotics domains. Prior works have shown that neural networks can be trained to map images of an environment to absolute camera pose within that environment, learning an implicit neural mapping in the process. In this work we evaluate the applicability of such an approach to real-world robotics scenarios, demonstrating that by constraining the problem to 2-dimensions and significantly increasing the quantity of training data, a compact model capable of real-time inference on embedded platforms can be used to achieve localisation accuracy of several centimetres. We deploy our trained model onboard a UGV platform, demonstrating its effectiveness in a waypoint navigation task, wherein it is able to localise with a mean accuracy of 9cm at a rate of 6fps running on the UGV onboard CPU, 35fps on an embedded GPU, or 220fps on a desktop GPU. Along with this work we will release a novel localisation dataset comprising simulated and real environments, each with training samples numbering in the tens of thousands. | 翻訳日:2024-01-03 20:27:13 公開日:2024-01-02 |
# tf.dataサービス:ML入力データ処理の分離事例 tf.data service: A Case for Disaggregating ML Input Data Processing ( http://arxiv.org/abs/2210.14826v3 ) ライセンス: Link先を確認 | Andrew Audibert, Yang Chen, Dan Graur, Ana Klimovic, Jiri Simsa and Chandramohan A. Thekkath | (参考訳) 機械学習(ML)計算はGPUやTPUなどの高価なハードウェア上で一般的に実行され、高いFLOPとワット当たりのパフォーマンスを提供する。
コスト効率のためには、これらの加速器を高度に活用することが不可欠である。
これは、アクセラレーターがデータ上でML計算を取り込み実行できる速度で入力データを前処理する必要がある。
データ停止を避けるため、ML計算に使用されるアクセラレータコア毎のデータ処理に必要なホストCPUとRAMはジョブによって異なる。
したがって、MLアクセラレーターホストの入力データを固定ハードウェア比で処理する従来のアプローチは、アクセラレーターを過小評価するか、ホストCPUとRAMを運用する。
本稿では,分散MLデータ処理システムを構築することで,これらの問題に対処する。
tf.data serviceは、tensorflowのtf.data上に構築された、オープンソースの分散入力データ処理サービスです。
データ前処理の分離は大規模なMLトレーニングジョブにおいて3つの大きな利点があることを示す。
まず、各ジョブのデータ処理のための右サイズのCPU/RAMホストリソースに水平スケールアウトでき、平均32倍のトレーニング時間と26倍のコストを節約できる。
第2に、ジョブ間で一時的な事前処理されたデータ結果を共有することで、CPU使用率の最適化と冗長な計算の削減が可能になる。
最後にこのサービスでは、分散トレーニングにおける入力サイズの違いによるストラグラーの回避、平均2.2倍のトレーニング時間を削減したコーディネートド読み取りをサポートする。
私たちの設計は、tf.dataサービスの本番環境へのデプロイから学んだ教訓にインスパイアされています。 Machine learning (ML) computations commonly execute on expensive specialized hardware, such as GPUs and TPUs, which provide high FLOPs and performance-per-watt. For cost efficiency, it is essential to keep these accelerators highly utilized. This requires preprocessing input data at the rate at which the accelerators can ingest and perform ML computations on the data. To avoid data stalls, the host CPU and RAM required for input data processing per accelerator core used for ML computations varies across jobs. Hence, the traditional approach of processing input data on ML accelerator hosts with a fixed hardware ratio leads to either under-utilizing the accelerators or the host CPU and RAM. In this paper, we address these concerns by building a disaggregated ML data processing system. We present tf.data service, an open-source disaggregated input data processing service built on top of tf.data in TensorFlow. We show that disaggregating data preprocessing has three key advantages for large-scale ML training jobs. First, the service can horizontally scale-out to right-size CPU/RAM host resources for data processing in each job, saving 32x training time and 26x cost, on average. Second, the service can share ephemeral preprocessed data results across jobs, to optimize CPU usage and reduce redundant computations. Finally, the service supports coordinated reads, a technique that avoids stragglers due to different input sizes in distributed training, reducing training time by 2.2x, on average. Our design is inspired by lessons learned from deploying tf.data service in production, including relaxing data visitation guarantees without impacting model accuracy. | 翻訳日:2024-01-03 20:26:52 公開日:2024-01-02 |
# 特徴抽出から見たCNNの近似解析 Approximation analysis of CNNs from a feature extraction view ( http://arxiv.org/abs/2210.09041v2 ) ライセンス: Link先を確認 | Jianfei Li, Han Feng, Ding-Xuan Zhou | (参考訳) ディープニューラルネットワークに基づくディープラーニングは、多くの実用的なアプリケーションで非常に成功したが、ネットワークアーキテクチャと構造のために十分な理論的理解が欠けている。
本稿では,深層多チャンネル畳み込みニューラルネットワーク(CNN)による線形特徴抽出の分析を行い,フーリエ,ウェーブレット,冗長辞書符号化法などの従来の線形変換に対する深層学習のパワーを実証する。
さらに,マルチチャネルCNNを用いて線形特徴抽出を効率的に行う方法を示す。
これは高次元関数を近似するために必要不可欠な次元を下げるために適用することができる。
このようなディープネットワークをチャネルに実装し,それに続く完全接続層で関数近似を行う速度についても検討した。
線形特徴をマルチレゾリューション畳み込みに分解する調和解析は,本研究において重要な役割を担っている。
それにもかかわらず、行列の専用ベクトル化が構築され、1次元CNNと2次元CNNを橋渡しし、対応する2次元解析を行うことができる。 Deep learning based on deep neural networks has been very successful in many practical applications, but it lacks enough theoretical understanding due to the network architectures and structures. In this paper we establish some analysis for linear feature extraction by a deep multi-channel convolutional neural networks (CNNs), which demonstrates the power of deep learning over traditional linear transformations, like Fourier, wavelets, redundant dictionary coding methods. Moreover, we give an exact construction presenting how linear features extraction can be conducted efficiently with multi-channel CNNs. It can be applied to lower the essential dimension for approximating a high dimensional function. Rates of function approximation by such deep networks implemented with channels and followed by fully-connected layers are investigated as well. Harmonic analysis for factorizing linear features into multi-resolution convolutions plays an essential role in our work. Nevertheless, a dedicate vectorization of matrices is constructed, which bridges 1D CNN and 2D CNN and allows us to have corresponding 2D analysis. | 翻訳日:2024-01-03 20:26:26 公開日:2024-01-02 |
# 条件付き拡散モデルによる損失画像圧縮 Lossy Image Compression with Conditional Diffusion Models ( http://arxiv.org/abs/2209.06950v8 ) ライセンス: Link先を確認 | Ruihan Yang, Stephan Mandt | (参考訳) 本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
このアプローチは変換符号化パラダイムに依存しており、画像はエントロピー符号化のための潜在空間にマッピングされ、そこから再構成のためにデータ空間にマッピングされる。
平均)デコーダが決定論的ニューラルネットワークであるvaeベースのニューラルネットワークとは対照的に、このデコーダは条件拡散モデルである。
そこで本手法では, 逆拡散過程を条件付けした ``content'' 潜在変数を導入し, この変数を用いて画像に関する情報を格納する。
拡散過程を特徴付ける残りの ``texture'' 変数は復号時に合成される。
モデルの性能は,関心の認知的指標に調整可能であることを示す。
複数のデータセットと画像品質評価指標を含む広範囲な実験により,提案手法はGANモデルよりも強いFIDスコアを得られる一方で,VAEモデルと競合する性能を複数の歪み指標で得ることが示された。
さらに、$\mathcal{X}$-parameterizationで拡散を訓練することで、少数の復号ステップで高品質な再構成が可能となり、モデルの実用性に大きな影響を及ぼす。
私たちのコードは、 \url{https://github.com/buggyyang/cdc_compression} で利用可能です。 This paper outlines an end-to-end optimized lossy image compression framework using diffusion generative models. The approach relies on the transform coding paradigm, where an image is mapped into a latent space for entropy coding and, from there, mapped back to the data space for reconstruction. In contrast to VAE-based neural compression, where the (mean) decoder is a deterministic neural network, our decoder is a conditional diffusion model. Our approach thus introduces an additional ``content'' latent variable on which the reverse diffusion process is conditioned and uses this variable to store information about the image. The remaining ``texture'' variables characterizing the diffusion process are synthesized at decoding time. We show that the model's performance can be tuned toward perceptual metrics of interest. Our extensive experiments involving multiple datasets and image quality assessment metrics show that our approach yields stronger reported FID scores than the GAN-based model, while also yielding competitive performance with VAE-based models in several distortion metrics. Furthermore, training the diffusion with $\mathcal{X}$-parameterization enables high-quality reconstructions in only a handful of decoding steps, greatly affecting the model's practicality. Our code is available at: \url{https://github.com/buggyyang/CDC_compression} | 翻訳日:2024-01-03 20:25:31 公開日:2024-01-02 |
# 学習ビデオ圧縮のための長短時間情報の検討 Exploring Long- and Short-Range Temporal Information for Learned Video Compression ( http://arxiv.org/abs/2208.03754v3 ) ライセンス: Link先を確認 | Huairui Wang and Zhenzhong Chen | (参考訳) 学習されたビデオ圧縮手法は、従来のビデオコーデックのレートゆらぎ(rd)性能と一致した、あるいは超えているため、ビデオコーディングコミュニティで様々な関心を集めている。
しかし,現在の学習手法の多くは短距離時間情報の利用に特化しており,性能が制限されている。
本稿では,映像コンテンツの独特な特徴の活用と,圧縮性能向上のための時間情報の検討に着目する。
具体的には,画像群(GOP)内で画像群を連続的に更新できる時間的事前情報の利用を提案する。
この場合、temporal priorは現在のgop内の全てのデコードされた画像の貴重な時間情報を含んでいる。
短距離時間情報については,頑健かつ効果的な補償を実現するための進行誘導運動補償を提案する。
本稿では,マルチスケール補償を実現する階層構造を設計する。
さらに,各スケールで特徴マップ間の画素オフセットを生成するために光フローガイダンスを用い,各スケールでの補償結果を用いて,以下のスケールの補償を導出する。
提案手法は,最先端のビデオ圧縮手法よりも優れたRD性能が得られることを示す。
コードは、https://github.com/Huairui/LSTVCで公開されている。 Learned video compression methods have gained a variety of interest in the video coding community since they have matched or even exceeded the rate-distortion (RD) performance of traditional video codecs. However, many current learning-based methods are dedicated to utilizing short-range temporal information, thus limiting their performance. In this paper, we focus on exploiting the unique characteristics of video content and further exploring temporal information to enhance compression performance. Specifically, for long-range temporal information exploitation, we propose temporal prior that can update continuously within the group of pictures (GOP) during inference. In that case temporal prior contains valuable temporal information of all decoded images within the current GOP. As for short-range temporal information, we propose a progressive guided motion compensation to achieve robust and effective compensation. In detail, we design a hierarchical structure to achieve multi-scale compensation. More importantly, we use optical flow guidance to generate pixel offsets between feature maps at each scale, and the compensation results at each scale will be used to guide the following scale's compensation. Sufficient experimental results demonstrate that our method can obtain better RD performance than state-of-the-art video compression approaches. The code is publicly available on: https://github.com/Huairui/LSTVC. | 翻訳日:2024-01-03 20:25:11 公開日:2024-01-02 |
# 車両ナンバープレート識別用ヨーロ及びマスクr-cnn YOLO and Mask R-CNN for Vehicle Number Plate Identification ( http://arxiv.org/abs/2207.13165v3 ) ライセンス: Link先を確認 | Siddharth Ganjoo | (参考訳) ナンバープレートスキャナーはここ数年、駐車場で人気が高まっている。
ナンバープレートを素早く識別するために、駐車場で使用される従来のプレート認識装置は、固定された光源と発射角度を用いる。
超広角レンズや魚眼レンズで撮影されたライセンスプレート画像のような歪んだ角度に対しても、ライセンスプレート認識板の変形は極めて深刻であり、標準ライセンスプレート認識システムによるプレートの識別性を損なう。
マスクのrcnnガジェットは、斜めの写真やさまざまな撮影角度に使えるかもしれない。
実験の結果,提案した設計では,0/60以上のベベル角度でナンバープレートを分類できることがわかった。
Mask R-CNNアプローチを用いた文字認識も大幅に進歩している。
提案したMask R-CNN法は, YOLOv2モデルを用いた手法と比較して45度以上傾いた文字認識にも大きな進歩をもたらした。
実験結果は、オープンデータプレート収集で提示される方法論は他の技術(AOLPデータセットとして知られる)よりも優れていることを示唆している。 License plate scanners have grown in popularity in parking lots during the past few years. In order to quickly identify license plates, traditional plate recognition devices used in parking lots employ a fixed source of light and shooting angles. For skewed angles, such as license plate images taken with ultra-wide angle or fisheye lenses, deformation of the license plate recognition plate can also be quite severe, impairing the ability of standard license plate recognition systems to identify the plate. Mask RCNN gadget that may be utilised for oblique pictures and various shooting angles. The results of the experiments show that the suggested design will be capable of classifying license plates with bevel angles larger than 0/60. Character recognition using the suggested Mask R-CNN approach has advanced significantly as well. The proposed Mask R-CNN method has also achieved significant progress in character recognition, which is tilted more than 45 degrees as compared to the strategy of employing the YOLOv2 model. Experiment results also suggest that the methodology presented in the open data plate collecting is better than other techniques (known as the AOLP dataset). | 翻訳日:2024-01-03 20:24:50 公開日:2024-01-02 |
# カーブサイドピックアップとドロップオフの混雑効果の推定と緩和:因果推論手法 Estimating and Mitigating the Congestion Effect of Curbside Pick-ups and Drop-offs: A Causal Inference Approach ( http://arxiv.org/abs/2206.02164v2 ) ライセンス: Link先を確認 | Xiaohui Liu and Sean Qian and Hock-Hai Teo and Wei Ma | (参考訳) カーブスペースは都市道路網でもっとも忙しい地域の一つである。
特に近年は、何十年にもわたって設計・製造された制限区域を占有する大規模なピックアップ/ドロップオフ(PUDO)が急速に増加している。
これらのPUDOは、サッチサイドの利用を妨害し、メインラインの交通の流れを妨害し、明らかに負の社会的外部性をもたらす。
しかし、システムビューにおけるPUDOの混雑効果を厳格に定量化し緩和する分析フレームワークが欠如している。
本稿では,この研究ギャップを埋めるために,PUDOの一般地域ネットワークにおける混雑効果を推定する厳密な因果推論手法を開発した。
因果グラフは、PUDOと交通速度の時空間関係を表すように設定され、PUDOが交通渋滞に与える影響を定量化するために、二重分離機械学習(DSML)法が提案されている。
さらに、システム最適化を実現するために、乗客の歩行と交通流の再ルートを促進するために、再ルートの定式化を開発し、解決した。
マンハッタン地域の実世界データを用いて数値実験を行った。
1つの地域でのPUDOは、平日と週末にそれぞれ3.70mphと4.54mphの速さで100台追加される。
PUDOと再旅行は、平日にミッドタウンとセントラルパークでそれぞれ2.44%と2.12%のシステム全体の旅行時間を短縮することができる。
また,提案手法の有効性とロバスト性を示すために感度解析を行った。 Curb space is one of the busiest areas in urban road networks. Especially in recent years, the rapid increase of ride-hailing trips and commercial deliveries has induced massive pick-ups/drop-offs (PUDOs), which occupy the limited curb space that was designed and built decades ago. These PUDOs could jam curbside utilization and disturb the mainline traffic flow, evidently leading to significant negative societal externalities. However, there is a lack of an analytical framework that rigorously quantifies and mitigates the congestion effect of PUDOs in the system view, particularly with little data support and involvement of confounding effects. To bridge this research gap, this paper develops a rigorous causal inference approach to estimate the congestion effect of PUDOs on general regional networks. A causal graph is set to represent the spatio-temporal relationship between PUDOs and traffic speed, and a double and separated machine learning (DSML) method is proposed to quantify how PUDOs affect traffic congestion. Additionally, a re-routing formulation is developed and solved to encourage passenger walking and traffic flow re-routing to achieve system optimization. Numerical experiments are conducted using real-world data in the Manhattan area. On average, 100 additional units of PUDOs in a region could reduce the traffic speed by 3.70 and 4.54 mph on weekdays and weekends, respectively. Re-routing trips with PUDOs on curb space could respectively reduce the system-wide total travel time by 2.44% and 2.12% in Midtown and Central Park on weekdays. Sensitivity analysis is also conducted to demonstrate the effectiveness and robustness of the proposed framework. | 翻訳日:2024-01-03 20:24:23 公開日:2024-01-02 |
# モノクロ画像から3Dヒューマンメッシュを復元する:サーベイ Recovering 3D Human Mesh from Monocular Images: A Survey ( http://arxiv.org/abs/2203.01923v6 ) ライセンス: Link先を確認 | Yating Tian, Hongwen Zhang, Yebin Liu, Limin Wang | (参考訳) 単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。
統計ボディーモデルのリリース以来、3Dのメッシュリカバリが注目されている。
2D-to-3Dリフトプロセスにおける課題を克服するために、2つのパラダイムが開発された。
一 最適化目標として異なるデータ項及び正規化項を活用する最適化に基づくパラダイム
二 エンドツーエンドの方法で問題を解決するために、深層学習技術が取り入れられる回帰型パラダイム。
一方、継続的な取り組みは、幅広いデータセットの3Dメッシュラベルの品質向上に向けられている。
過去10年間に顕著な進歩を遂げてきたが、柔軟性のある体の動き、多様な外観、複雑な環境、そして未完成の注釈のために、この課題はまだ挑戦的だ。
私たちの知る限りでは、これはモノラルな3Dメッシュ回復の課題に焦点を当てた初めての調査である。
まず、ボディモデルの導入から始め、その強みと弱みを詳細に分析することで、リカバリフレームワークとトレーニング目標の精巧な分析を行います。
また、データセット、評価メトリクス、ベンチマーク結果も要約します。
オープン問題と今後の方向性は最終的に議論され、研究者のモチベーションを高め、この分野の研究を促進することを望んでいる。
定期的に更新されたプロジェクトページはhttps://github.com/tinatiansjz/hmr-surveyで見ることができる。 Estimating human pose and shape from monocular images is a long-standing problem in computer vision. Since the release of statistical body models, 3D human mesh recovery has been drawing broader attention. With the same goal of obtaining well-aligned and physically plausible mesh results, two paradigms have been developed to overcome challenges in the 2D-to-3D lifting process: i) an optimization-based paradigm, where different data terms and regularization terms are exploited as optimization objectives; and ii) a regression-based paradigm, where deep learning techniques are embraced to solve the problem in an end-to-end fashion. Meanwhile, continuous efforts are devoted to improving the quality of 3D mesh labels for a wide range of datasets. Though remarkable progress has been achieved in the past decade, the task is still challenging due to flexible body motions, diverse appearances, complex environments, and insufficient in-the-wild annotations. To the best of our knowledge, this is the first survey that focuses on the task of monocular 3D human mesh recovery. We start with the introduction of body models and then elaborate recovery frameworks and training objectives by providing in-depth analyses of their strengths and weaknesses. We also summarize datasets, evaluation metrics, and benchmark results. Open issues and future directions are discussed in the end, hoping to motivate researchers and facilitate their research in this area. A regularly updated project page can be found at https://github.com/tinatiansjz/hmr-survey. | 翻訳日:2024-01-03 20:23:55 公開日:2024-01-02 |
# 因果表現の効率化 Efficiently Disentangle Causal Representations ( http://arxiv.org/abs/2201.01942v2 ) ライセンス: Link先を確認 | Yuanpeng Li, Joel Hestness, Mohamed Elhoseiny, Liang Zhao, Kenneth Church | (参考訳) 本稿では,元の分布と新しい分布の条件付き確率の差に基づく因果機構を用いた非絡み合い表現の学習手法を提案する。
モデルの一般化能力との違いを近似して、標準的な機械学習フレームワークに適合し、効率的に計算できる。
学習者の新しい分布への適応速度に依存する最先端のアプローチとは対照的に,提案手法ではモデルの一般化能力を評価する必要がある。
本稿では,提案手法の利点を理論的に説明し,提案手法が従来手法より1.9--11.0$\times$高効率で,9.4--32.4倍高速であることを示す。
ソースコードは \url{https://github.com/yuanpeng16/EDCR} で入手できる。 This paper proposes an efficient approach to learning disentangled representations with causal mechanisms based on the difference of conditional probabilities in original and new distributions. We approximate the difference with models' generalization abilities so that it fits in the standard machine learning framework and can be efficiently computed. In contrast to the state-of-the-art approach, which relies on the learner's adaptation speed to new distribution, the proposed approach only requires evaluating the model's generalization ability. We provide a theoretical explanation for the advantage of the proposed method, and our experiments show that the proposed technique is 1.9--11.0$\times$ more sample efficient and 9.4--32.4 times quicker than the previous method on various tasks. The source code is available at \url{https://github.com/yuanpeng16/EDCR}. | 翻訳日:2024-01-03 20:23:31 公開日:2024-01-02 |
# 線形時間不変力学系の連成学習 Joint Learning of Linear Time-Invariant Dynamical Systems ( http://arxiv.org/abs/2112.10955v6 ) ライセンス: Link先を確認 | Aditya Modi, Mohamad Kazem Shirani Faradonbeh, Ambuj Tewari, George Michailidis | (参考訳) 線形時間不変系はシステム理論や応用において非常に一般的なモデルである。
現存する文献では、システム同定における根本的な問題は、関連する線形系間の共通点を利用して遷移行列をより正確に推定することである。
この問題に対処するため,本論文では,複数システムの遷移行列を同時推定する方法について検討する。
遷移行列は、いくつかの未知の共有基底行列の未知線型関数であると仮定される。
我々は,軌道長,寸法,システム数の役割を完全に反映した有限時間推定誤差率を確立する。
その結果,各システムを個別に学習することに比べ,システム間でデータをプールすることで得られる有意な成果が得られた。
さらに、モデルの誤特定に対して堅牢であることが示されている。
この結果を得るために,類似した共同学習問題に対処するための新しい手法を開発した。
それらは、遷移行列の固有構造の観点からの厳密な境界推定誤差、従属確率行列の特異値に対する鋭い高確率境界の確立、システムの時間的発展に伴う不特定の遷移行列の効果の捕捉を含む。 Linear time-invariant systems are very popular models in system theory and applications. A fundamental problem in system identification that remains rather unaddressed in extant literature is to leverage commonalities amongst related linear systems to estimate their transition matrices more accurately. To address this problem, the current paper investigates methods for jointly estimating the transition matrices of multiple systems. It is assumed that the transition matrices are unknown linear functions of some unknown shared basis matrices. We establish finite-time estimation error rates that fully reflect the roles of trajectory lengths, dimension, and number of systems under consideration. The presented results are fairly general and show the significant gains that can be achieved by pooling data across systems in comparison to learning each system individually. Further, they are shown to be robust against model misspecifications. To obtain the results, we develop novel techniques that are of interest for addressing similar joint-learning problems. They include tightly bounding estimation errors in terms of the eigen-structures of transition matrices, establishing sharp high probability bounds for singular values of dependent random matrices, and capturing effects of misspecified transition matrices as the systems evolve over time. | 翻訳日:2024-01-03 20:23:17 公開日:2024-01-02 |
# artgpt-4: 拡張アダプタを用いた視覚言語モデルの構築 ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models with Enhanced Adapter ( http://arxiv.org/abs/2305.07490v5 ) ライセンス: Link先を確認 | Zhengqing Yuan, Xinyi Wang, Kun Wang, Lichao Sun | (参考訳) 近年、大規模な言語モデルの進歩は目覚ましいもので、chatgptのようなモデルは多様な言語タスクにおいて非常に熟練している。
数十億のパラメータを持つ大規模なモデルの事前トレーニングは、主に効果的なトレーニングのための包括的スケールのデータセットが不足しているため、非常に難しい課題となる。
しかし、MiniGPT-4やLLaVAのようなモデルによって証明されたように、より少ないパラメータセットを用いて事前訓練されたモデルを微調整する方法を含む革新的な戦略が出現した。
様々な領域においてその可能性にもかかわらず、これらのモデルは芸術的イメージの理解に限られている。
彼らはまだ、アートイメージの複雑なニュアンスを完全に把握していないし、人間の知覚に類似した方法で、彼らが誘発した感情を客観的に表現している。
artgpt-4は、現代モデルの芸術的理解の欠如に対処するために考案されたビジョン言語モデルである。
ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して画像テキストペアのトレーニングを受けた。
印象的なことに、モデルは芸術的理解で画像を描画し、それらが刺激する感情を伝え、人間の解釈を反映することができる。
さらに,視覚言語モデルの有効性を評価するために設計されたユニークなデータセットを提案する。
その後の評価では、artgpt-4はartemisおよびartemis-v2.0データセットで最先端のパフォーマンスを達成しただけでなく、本研究で導入された既存のベンチマークを上回り、プロのアーティストの記述を6ポイントスケールで0.15ポイント遅れている。
コードと事前訓練されたモデルはhttps://huggingface.co/Tyrannosaurus/ArtGPT-4でアクセス可能である。 In recent years, advancements in large language models have been remarkable, with models such as ChatGPT demonstrating exceptional proficiency in diverse linguistic tasks. The pre-training of large models with billions of parameters, poses a formidable challenge, primarily due to the scarcity of datasets of a commensurate scale for effective training. Nevertheless, innovative strategies have emerged, including methods to fine-tune these pre-trained models using fewer parameters set, as evidenced by models like MiniGPT-4 and LLaVA. Despite their potential in various domains, these models remain limited in their understanding of artistic imagery. They have yet to fully grasp the intricate nuances of art images or to provide an objective articulation of the emotions they evoke, in a manner akin to human perception. This work introduces ArtGPT-4, a pioneering large vision-language model tailored to address the deficiencies of contemporary models in artistic comprehension. ArtGPT-4 underwent training on image-text pairs utilizing a Tesla A100 device in a mere 2 hours, with a dataset comprising approximately 0.52M entries. Impressively, the model can render images with an artistic-understanding and convey the emotions they inspire, mirroring human interpretation. Additionally, this work presents a unique dataset designed to evaluate the efficacy of vision-language models. In subsequent evaluations, ArtGPT-4 not only achieved state-of-the-art performance on the ArtEmis and ArtEmis-v2.0 datasets but also exceeded the established benchmarks introduced in This study, lagging behind professional artists' descriptions by a negligible 0.15 points on a 6-point scale. The code and the pre-trained model are accessible in https://huggingface.co/Tyrannosaurus/ArtGPT-4. | 翻訳日:2024-01-03 20:16:08 公開日:2024-01-02 |
# Pseudo-Hamilton システム同定 Pseudo-Hamiltonian system identification ( http://arxiv.org/abs/2305.06920v2 ) ライセンス: Link先を確認 | Sigurd Holmsen, S{\o}lve Eidnes and Signe Riemer-S{\o}rensen | (参考訳) 物理システムの基盤となるダイナミクスを特定することは、観測データのみを提供する場合、困難である。
本研究では、一階常微分方程式としてモデル化できるシステムを考える。
ある擬似ハミルトニアン公式を仮定することで、モデルが未知の減衰や外乱の影響を受けるデータに基づいて訓練されている場合でも、内部力学の解析的用語を学ぶことができる。
乱れの分析的な用語を見つけることが難しい場合、ニューラルネットワークを使って学習するハイブリッドモデルは、理想的な条件の下でシステムのダイナミクスを正確に識別することができる。
これにより、他のシステム識別モデルが失敗する状況にモデルを適用することができる。
さらに,損失関数における4次対称積分スキームの利用と,トレーニングにおける実際の統合を避けることを提案し,ノイズデータの性能向上につながる様々な例を示す。 Identifying the underlying dynamics of physical systems can be challenging when only provided with observational data. In this work, we consider systems that can be modelled as first-order ordinary differential equations. By assuming a certain pseudo-Hamiltonian formulation, we are able to learn the analytic terms of internal dynamics even if the model is trained on data where the system is affected by unknown damping and external disturbances. In cases where it is difficult to find analytic terms for the disturbances, a hybrid model that uses a neural network to learn these can still accurately identify the dynamics of the system as if under ideal conditions. This makes the models applicable in some situations where other system identification models fail. Furthermore, we propose to use a fourth-order symmetric integration scheme in the loss function and avoid actual integration in the training, and demonstrate on varied examples how this leads to increased performance on noisy data. | 翻訳日:2024-01-03 20:15:36 公開日:2024-01-02 |
# 凝縮相化学動力学のためのトラップイオン量子シミュレーション:量子優位性を求めて Trapped-ion quantum simulations for condensed-phase chemical dynamics: seeking a quantum advantage ( http://arxiv.org/abs/2305.03156v3 ) ライセンス: Link先を確認 | Mingyu Kang, Hanggai Nuomin, Sutirtha N. Chowdhury, Jonathon L. Yuly, Ke Sun, Jacob Whitlow, Jes\'us Valdiviezo, Zhendian Zhang, Peng Zhang, David N. Beratan, Kenneth R. Brown | (参考訳) 凝縮相における分子の量子力学のシミュレーションは、化学における長年の挑戦である。
トラップイオン量子システムは、現在の古典デジタルシミュレーションの範囲を超えている化学力学のアナログ量子シミュレーションの基盤として機能する。
これらのシミュレーションの「量子優位性」を特定するには、ノイズの多いハードウェア上のアナログ量子シミュレーションと古典デジタルアルゴリズムの両方のパフォーマンス解析が必要である。
本稿では,線形振動結合を持つモデル分子ハミルトニアンの動力学をシミュレートするための,ノイズの多いアナログトラップイオンシミュレータと,いくつかの選択された古典デジタル手法の比較を行う。
分子システムをモデル化するのによく用いられるいくつかの単純なハミルトニアンについて述べる。
これらのハミルトン派は、古典的デジタル法の範囲を超えてシステムに閉じ込められたイオンシミュレーターを使用するための足場として機能する。
最後に、古典デジタルシミュレーションがアナログ量子シミュレーションに比べて最も弱い性能を持つように見える動的レジームを同定する。
これらのレジームは、潜在的な量子的な利点を生かすために最も低い吊り下げの果実を提供するかもしれない。 Simulating the quantum dynamics of molecules in the condensed phase represents a longstanding challenge in chemistry. Trapped-ion quantum systems may serve as a platform for the analog-quantum simulation of chemical dynamics that is beyond the reach of current classical-digital simulation. To identify a "quantum advantage" for these simulations, performance analysis of both analog-quantum simulation on noisy hardware and classical-digital algorithms is needed. In this Review, we make a comparison between a noisy analog trapped-ion simulator and a few choice classical-digital methods on simulating the dynamics of a model molecular Hamiltonian with linear vibronic coupling. We describe several simple Hamiltonians that are commonly used to model molecular systems, which can be simulated with existing or emerging trapped-ion hardware. These Hamiltonians may serve as stepping stones toward the use of trapped-ion simulators for systems beyond the reach of classical-digital methods. Finally, we identify dynamical regimes where classical-digital simulations seem to have the weakest performance compared to analog-quantum simulations. These regimes may provide the lowest hanging fruit to exploit potential quantum advantages. | 翻訳日:2024-01-03 20:15:21 公開日:2024-01-02 |
# テンソル空間における基底からのテンソルPCA Tensor PCA from basis in tensor space ( http://arxiv.org/abs/2305.02803v2 ) ライセンス: Link先を確認 | Claudio Turchetti | (参考訳) 本研究の目的は,テンソルPCAの数学的枠組みを提案することである。
提案手法は,最適化問題を反復的に解くことで,低次元部分空間を抽出する従来の手法の限界を克服することができる。
提案手法の核心は、実自己共役テンソル作用素からテンソル空間の基底を導出することであり、したがって基底を固有値問題へと導出する問題を減少させる。
3つの異なる事例が研究されている。
一 自己随伴テンソル演算子からの基礎
ii) ランク1の基準
三 部分空間の基底
特に、実自己共役テンソル作用素に対する固有値方程式と標準行列固有値方程式との同値性が証明されている。
考慮された3つのケースすべてに対して、テンソルPCAを導出するための部分空間アプローチが採用されている。
画像データセットの実験は、提案された数学的枠組みを検証する。 The aim of this paper is to present a mathematical framework for tensor PCA. The proposed approach is able to overcome the limitations of previous methods that extract a low dimensional subspace by iteratively solving an optimization problem. The core of the proposed approach is the derivation of a basis in tensor space from a real self-adjoint tensor operator, thus reducing the problem of deriving a basis to an eigenvalue problem. Three different cases have been studied to derive: i) a basis from a self-adjoint tensor operator; ii) a rank-1 basis; iii) a basis in a subspace. In particular, the equivalence between eigenvalue equation for a real self-adjoint tensor operator and standard matrix eigenvalue equation has been proven. For all the three cases considered, a subspace approach has been adopted to derive a tensor PCA. Experiments on image datasets validate the proposed mathematical framework. | 翻訳日:2024-01-03 20:15:02 公開日:2024-01-02 |
# 偏微分方程式学習のための擬ハミルトンニューラルネットワーク Pseudo-Hamiltonian neural networks for learning partial differential equations ( http://arxiv.org/abs/2304.14374v3 ) ライセンス: Link先を確認 | S{\o}lve Eidnes, Kjetil Olsen Lye | (参考訳) Pseudo-Hamiltonian Neural Network (PHNN)は、最近、通常の微分方程式でモデル化できる力学系を学ぶために導入された。
本稿では,この手法を偏微分方程式に拡張する。
得られたモデルは、保存、散逸、外部力を表す用語をモデル化する最大3つのニューラルネットワークと、学習または入力として与えられる離散畳み込み演算子から構成される。
単一ニューラルネットワークによるフルダイナミックスをモデル化したベースラインモデルと比較して,PHNNの性能が優れていることを示す。
さらに、PHNNモデルは物理的解釈が異なる3つの部分から構成されるので、これらを別々に研究してシステムについての洞察を得ることができ、外部の力を取り除いたり、変化させたりしても、学習モデルは適用可能である。 Pseudo-Hamiltonian neural networks (PHNN) were recently introduced for learning dynamical systems that can be modelled by ordinary differential equations. In this paper, we extend the method to partial differential equations. The resulting model is comprised of up to three neural networks, modelling terms representing conservation, dissipation and external forces, and discrete convolution operators that can either be learned or be given as input. We demonstrate numerically the superior performance of PHNN compared to a baseline model that models the full dynamics by a single neural network. Moreover, since the PHNN model consists of three parts with different physical interpretations, these can be studied separately to gain insight into the system, and the learned model is applicable also if external forces are removed or changed. | 翻訳日:2024-01-03 20:14:50 公開日:2024-01-02 |
# pointdc:クロスモーダル蒸留とスーパーボクセルクラスタリングによる3次元点雲の教師なしセグメンテーション PointDC:Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering ( http://arxiv.org/abs/2304.08965v5 ) ライセンス: Link先を確認 | Zisheng Chen, Hongbin Xu, Weitao Chen, Zhipeng Zhou, Haihong Xiao, Baigui Sun, Xuansong Xie, Wenxiong Kang | (参考訳) 点雲の意味セグメンテーションは、通常、人間のアノテーションの枯渇する努力を必要とするため、ラベルのない、またはより弱い形のアノテーションから学ぶことの難しいトピックに広く注目される。
本稿では,アノテーションを使わずに意味論的に意味のあるオブジェクトを記述することを目的とした,ポイントクラウドの完全教師なしセマンティックセマンティックセマンティックセマンティック化の試みを行う。
2dイメージに対する教師なしパイプラインの以前の作業は、ポイントクラウドのこのタスクでは失敗する。
1) データの大きさの制限とクラス分布の不均衡による曖昧さのクラスタリング
2)点雲の不規則なスパース性に起因する不規則な曖昧さ。
そこで本稿では, 上記の問題をそれぞれ処理する2つのステップ, クロスモーダル蒸留 (CMD) とスーパーボクセルクラスタリング (SVC) からなる新しいフレームワークであるPointDCを提案する。
CMDの第1段階では、多視点視覚特徴は3次元空間にバックプロジェクションされ、統一された点特徴に集約され、点表現の訓練を蒸留する。
svcの第2段階では、ポイント機能はスーパーボクセルに集約され、セマンティクスクラスを発掘するために反復クラスタリングプロセスに供給される。
pointdc は、scannet-v2 (+18.4 miou) と s3dis (+11.5 miou) のセマンティクスセグメンテーションベンチマークの両方において、以前の最先端の教師なしメソッドを大きく改善する。 Semantic segmentation of point clouds usually requires exhausting efforts of human annotations, hence it attracts wide attention to the challenging topic of learning from unlabeled or weaker forms of annotations. In this paper, we take the first attempt for fully unsupervised semantic segmentation of point clouds, which aims to delineate semantically meaningful objects without any form of annotations. Previous works of unsupervised pipeline on 2D images fails in this task of point clouds, due to: 1) Clustering Ambiguity caused by limited magnitude of data and imbalanced class distribution; 2) Irregularity Ambiguity caused by the irregular sparsity of point cloud. Therefore, we propose a novel framework, PointDC, which is comprised of two steps that handle the aforementioned problems respectively: Cross-Modal Distillation (CMD) and Super-Voxel Clustering (SVC). In the first stage of CMD, multi-view visual features are back-projected to the 3D space and aggregated to a unified point feature to distill the training of the point representation. In the second stage of SVC, the point features are aggregated to super-voxels and then fed to the iterative clustering process for excavating semantic classes. PointDC yields a significant improvement over the prior state-of-the-art unsupervised methods, on both the ScanNet-v2 (+18.4 mIoU) and S3DIS (+11.5 mIoU) semantic segmentation benchmarks. | 翻訳日:2024-01-03 20:13:45 公開日:2024-01-02 |
# ロバストな量子鍵暗号と量子鍵分布への応用 Robust Quantum Public-Key Encryption with Applications to Quantum Key Distribution ( http://arxiv.org/abs/2304.02999v2 ) ライセンス: Link先を確認 | Giulio Malavolta and Michael Walter | (参考訳) 量子鍵分布(QKD)により、アリスとボブは公開(信頼できない)量子チャネル上で通信しながら共有秘密鍵に合意することができる。
古典的な鍵交換と比較すると、主な利点は2つある。
(i)いかなる攻撃者の目にも無条件に鍵が隠されていること、
(二)そのセキュリティは、デジタルシグネチャの存在のようなMinicryptの仮定を用いて実現可能な、認証された古典的なチャネルの存在のみを前提としている。
一方、QKDプロトコルは通常複数ラウンドの対話を必要とするが、古典的な鍵交換は公開鍵暗号を用いて2つのメッセージの最小限の量で実現できる。
長年の未解決の問題は、QKDが古典的な鍵交換よりも多くの相互作用を必要とするかどうかである。
本研究では,量子セキュアな一方向関数の存在を前提として,永続的セキュリティを満たす2メッセージQKDプロトコルを提案する。
すなわち、共有キーは無条件に隠され、プロトコルの実行中に計算仮定が保持される。
その結果、量子公開鍵暗号化(qpke)が新たに構築され、そのセキュリティは従来のものと同様に、認証された古典的チャネルのみに依存している。 Quantum key distribution (QKD) allows Alice and Bob to agree on a shared secret key, while communicating over a public (untrusted) quantum channel. Compared to classical key exchange, it has two main advantages: (i) The key is unconditionally hidden to the eyes of any attacker, and (ii) its security assumes only the existence of authenticated classical channels which, in practice, can be realized using Minicrypt assumptions, such as the existence of digital signatures. On the flip side, QKD protocols typically require multiple rounds of interactions, whereas classical key exchange can be realized with the minimal amount of two messages using public-key encryption. A long-standing open question is whether QKD requires more rounds of interaction than classical key exchange. In this work, we propose a two-message QKD protocol that satisfies everlasting security, assuming only the existence of quantum-secure one-way functions. That is, the shared key is unconditionally hidden, provided computational assumptions hold during the protocol execution. Our result follows from a new construction of quantum public-key encryption (QPKE) whose security, much like its classical counterpart, only relies on authenticated classical channels. | 翻訳日:2024-01-03 20:13:12 公開日:2024-01-02 |
# 実用的な量子鍵分布のセキュリティに対する光注入の効果 Effect of light injection on the security of practical quantum key distribution ( http://arxiv.org/abs/2303.14683v2 ) ライセンス: Link先を確認 | Liying Han, Yang Li, Hao Tan, Weiyang Zhang, Wenqi Cai, Juan Yin, Jigang Ren, Feihu Xu, Shengkai Liao, Chengzhi Peng | (参考訳) 量子物理学の基本法則に基づく量子鍵分布(QKD)は、遠隔ユーザー間で安全な鍵の分配を可能にする。
しかし、現実的なデバイスにおける不完全性は潜在的なセキュリティリスクを引き起こす可能性があり、実際的なセキュリティ分析において正確に特徴づけられ、考慮されなければならない。
実用的なQKDシステムのコアコンポーネントの1つである高速光変調器は、必要な量子状態の準備に使用できる。
ここでは、位相変調器や強度変調器を含むLiNbO3に基づく光変調器は、外部光照射による光屈折効果に弱いことが分かる。
外部光のパワーを変えることで、盗聴者は準備された状態の強度を制御でき、QKDのセキュリティに潜在的な脅威をもたらす。
我々は,LiNbO3系光変調器に対する光照射の影響を実験的に検証し,グリーン光照射攻撃によるセキュリティリスクとその対策について検討した。 Quantum key distribution (QKD) based on the fundamental laws of quantum physics can allow the distribution of secure keys between distant users. However, the imperfections in realistic devices may lead to potential security risks, which must be accurately characterized and considered in practical security analysis. High-speed optical modulators, being as one of the core components of practical QKD systems, can be used to prepare the required quantum states. Here, we find that optical modulators based on LiNbO3, including phase modulators and intensity modulators, are vulnerable to photorefractive effect caused by external light injection. By changing the power of external light, eavesdroppers can control the intensities of the prepared states, posing a potential threat to the security of QKD. We have experimentally demonstrated the influence of light injection on LiNbO3-based optical modulators and analyzed the security risks caused by the potential green light injection attack, along with the corresponding countermeasures. | 翻訳日:2024-01-03 20:12:52 公開日:2024-01-02 |
# テキストネットワークとしての音楽構造の奥行き解析 In-depth analysis of music structure as a text network ( http://arxiv.org/abs/2303.13631v2 ) ライセンス: Link先を確認 | Ping-Rui Tsai, Yen-Ting Chou, Nathan-Christopher Wang, Hui-Ling Chen, Hong-Yue Huang, Zih-Jia Luo, and Tzay-Ming Hong | (参考訳) 音楽、魅惑的、詩的、人類文明のあらゆる隅々に浸透する。
音楽は人々にとって馴染みのないものではないが、その本質に対する我々の理解は限定的であり、広く受け入れられている科学的記述はいまだに存在しない。
これは音楽が理性と感情の両方の産物であると考えられており、定義が難しいためである。
本稿では,音楽の基本要素に着目し,自然言語としての音楽の観点から,テキストの統計的特徴と整合した進化的ネットワークを構築する。
このアプローチを通じて,音楽の構造的差異を異なる期間にわたって理解し,音楽をより科学的に探究することを目指している。
構造主義の利点に頼ることで、科学と哲学のぼやけた境界に絡み合うのではなく、音楽の物理的要素間の関係と秩序に集中することができる。
私たちが提示する科学的枠組みは、音楽の過去の結論に適合するだけでなく、音楽と自然言語処理と知識グラフを繋ぐ橋としても機能する。 Music, enchanting and poetic, permeates every corner of human civilization. Although music is not unfamiliar to people, our understanding of its essence remains limited, and there is still no universally accepted scientific description. This is primarily due to music being regarded as a product of both reason and emotion, making it difficult to define. In this article, we focus on the fundamental elements of music and construct an evolutionary network from the perspective of music as a natural language, aligning with the statistical characteristics of texts. Through this approach, we aim to comprehend the structural differences in music across different periods, enabling a more scientific exploration of music. Relying on the advantages of structuralism, we can concentrate on the relationships and order between the physical elements of music, rather than getting entangled in the blurred boundaries of science and philosophy. The scientific framework we present not only conforms to past conclusions in music, but also serves as a bridge that connects music to natural language processing and knowledge graphs. | 翻訳日:2024-01-03 20:12:36 公開日:2024-01-02 |
# 組合せ最適化のための効率的なソリューションQuantum Dueling Quantum Dueling: an Efficient Solution for Combinatorial Optimization ( http://arxiv.org/abs/2302.10151v5 ) ライセンス: Link先を確認 | Letian Tang, Haorui Wang, Zhengyang Li, Haozhan Tang, Chi Zhang, Shujin Li | (参考訳) 本稿では,量子デュエル(quantum dueling)と呼ぶ汎用組合せ最適化のための新しいアルゴリズムを提案する。
伝統的に、与えられた最適化問題に対する潜在的な解決策は、qubitsの '`register'' に符号化された。
様々な手法が測定時に最良の解を見つける確率を高めるために用いられる。
量子デュエルは、追加のqubitレジスタを統合することで革新的であり、2組のソリューションが競合する 'dueling' シナリオを効果的に生成する。
この二重レジスタのセットアップは動的増幅プロセスを可能にし、各イテレーションで1つのレジスタを「指数」として指定し、他方のレジスタの好ましいソリューションを制御された量子探索によって拡張する。
この反復過程は、両レジスタ内の量子状態を最適解に向けて徐々に操る。
状態ベクトルの進化の定量的収縮により、幅広いシナリオとハイパーパラメータ選択スキームの下での古典シミュレーションは二次的なスピードアップが達成され、より現実的な状況でさらにテストされることを示す。
さらに、量子デュエルは任意の量子探索技術と高レベルアルゴリズムに量子サブルーチンを組み込むように一般化することができる。
私たちの研究は、量子ビット数の増加によってそれまで考えられなかったアルゴリズムが開発され、効率的な量子アルゴリズム設計の進歩の道が開けることを示しています。 In this paper, we present a new algorithm for generic combinatorial optimization, which we term quantum dueling. Traditionally, potential solutions to the given optimization problems were encoded in a ``register'' of qubits. Various techniques are used to increase the probability of finding the best solution upon measurement. Quantum dueling innovates by integrating an additional qubit register, effectively creating a ``dueling'' scenario where two sets of solutions compete. This dual-register setup allows for a dynamic amplification process: in each iteration, one register is designated as the 'opponent', against which the other register's more favorable solutions are enhanced through a controlled quantum search. This iterative process gradually steers the quantum state within both registers toward the optimal solution. With a quantitative contraction for the evolution of the state vector, classical simulation under a broad range of scenarios and hyper-parameter selection schemes shows that a quadratic speedup is achieved, which is further tested in more real-world situations. In addition, quantum dueling can be generalized to incorporate arbitrary quantum search techniques and as a quantum subroutine within a higher-level algorithm. Our work demonstrates that increasing the number of qubits allows the development of previously unthought-of algorithms, paving the way for advancement of efficient quantum algorithm design. | 翻訳日:2024-01-03 20:12:19 公開日:2024-01-02 |
# 文脈ラッソ:ディープニューラルネットワークによるスパース線形モデル The Contextual Lasso: Sparse Linear Models via Deep Neural Networks ( http://arxiv.org/abs/2302.00878v4 ) ライセンス: Link先を確認 | Ryan Thompson, Amir Dezfouli, Robert Kohn | (参考訳) スパース線形モデル(Sparse linear model)は、機械学習を解釈するためのいくつかの中核的なツールの1つである。
残念ながら、スパース線形モデルは、ディープニューラルネットワークのようなブラックボックスモデルよりも、入力機能の関数としてはるかに柔軟性が低い。
この能力ギャップを念頭に置いて、入力特徴を2つのグループに分け、解釈可能なモデルに変数として含めるための説明的特徴と、候補変数を選択してその効果を決定する文脈的特徴の2つを考察する。
この二分法によって、文脈的特徴の関数としてスパースパターンと係数が変化するような説明的特徴にスパース線形モデルに適合する新しい統計推定器であるcontextual lassoが導かれる。
フィッティングプロセスは、ディープニューラルネットワークを介してこの関数を非パラメトリックに学習する。
スパース係数を得るために、ネットワークの出力を$\ell_1$-constrained linear modelの空間にマッピングするプロジェクション層の形で、新しいラッソ正規化器を用いてネットワークを訓練する。
実データと合成データに関する大規模な実験は、学習されたモデルは、標準的なディープニューラルネットワークの予測力を犠牲にすることなく、通常のラッソよりもスペーサーであることが示唆されている。 Sparse linear models are one of several core tools for interpretable machine learning, a field of emerging importance as predictive models permeate decision-making in many domains. Unfortunately, sparse linear models are far less flexible as functions of their input features than black-box models like deep neural networks. With this capability gap in mind, we study a not-uncommon situation where the input features dichotomize into two groups: explanatory features, which are candidates for inclusion as variables in an interpretable model, and contextual features, which select from the candidate variables and determine their effects. This dichotomy leads us to the contextual lasso, a new statistical estimator that fits a sparse linear model to the explanatory features such that the sparsity pattern and coefficients vary as a function of the contextual features. The fitting process learns this function nonparametrically via a deep neural network. To attain sparse coefficients, we train the network with a novel lasso regularizer in the form of a projection layer that maps the network's output onto the space of $\ell_1$-constrained linear models. An extensive suite of experiments on real and synthetic data suggests that the learned models, which remain highly transparent, can be sparser than the regular lasso without sacrificing the predictive power of a standard deep neural network. | 翻訳日:2024-01-03 20:11:57 公開日:2024-01-02 |
# 非線形制約下での高速化一階最適化 Accelerated First-Order Optimization under Nonlinear Constraints ( http://arxiv.org/abs/2302.00316v2 ) ライセンス: Link先を確認 | Michael Muehlebach and Michael I. Jordan | (参考訳) 制約付き最適化のための一階アルゴリズムと非スムース力学系との類似性を生かして、制約付き最適化のための新しい加速一階アルゴリズムのクラスを設計する。
フランクウルフや投影勾配とは異なり、これらのアルゴリズムは各イテレーションで実現可能な集合全体の最適化を避ける。
非凸設定においても定常点への収束を証明し、連続時間と離散時間の両方において凸設定の加速率を導出する。
これらのアルゴリズムの重要な性質は、制約が位置ではなく速度で表現されることであり、これは自然に実現可能な集合のスパース、局所、凸近似をもたらす(実現可能な集合が非凸であっても)。
したがって、複雑性は決定変数の数や制約の数で緩やかに増大する傾向にあり、機械学習アプリケーションに適したアルゴリズムとなっている。
圧縮センシングとスパース回帰問題に適用し,非凸$\ell^p$制約(p<1$)を効率的に扱えるとともに,最先端性能を$p=1$で回復できることを示す。 We exploit analogies between first-order algorithms for constrained optimization and non-smooth dynamical systems to design a new class of accelerated first-order algorithms for constrained optimization. Unlike Frank-Wolfe or projected gradients, these algorithms avoid optimization over the entire feasible set at each iteration. We prove convergence to stationary points even in a nonconvex setting and we derive accelerated rates for the convex setting both in continuous time, as well as in discrete time. An important property of these algorithms is that constraints are expressed in terms of velocities instead of positions, which naturally leads to sparse, local and convex approximations of the feasible set (even if the feasible set is nonconvex). Thus, the complexity tends to grow mildly in the number of decision variables and in the number of constraints, which makes the algorithms suitable for machine learning applications. We apply our algorithms to a compressed sensing and a sparse regression problem, showing that we can treat nonconvex $\ell^p$ constraints ($p<1$) efficiently, while recovering state-of-the-art performance for $p=1$. | 翻訳日:2024-01-03 20:11:31 公開日:2024-01-02 |
# zero/fewショット異常検出のためのマルチスケールメモリ比較 Multi-Scale Memory Comparison for Zero-/Few-Shot Anomaly Detection ( http://arxiv.org/abs/2308.04789v2 ) ライセンス: Link先を確認 | Chaoqin Huang, Aofan Jiang, Ya Zhang, Yanfeng Wang | (参考訳) 異常検出は幅広い用途、特に工業的欠陥検出において大きな注目を集めている。
データ収集の課題に対処するために、研究者はカテゴリごとに最小の正規画像を必要とするゼロ/フェーショット異常検出技術を導入した。
しかし、複雑な産業シナリオは、しばしば複数のオブジェクトを巻き込み、重大な課題を示す。
これを踏まえ,ゼロ/フェウショット異常検出のための簡易かつ強力なマルチスケールメモリ比較フレームワークを提案する。
このアプローチでは、グローバルなメモリバンクを使用して、画像全体の機能をキャプチャし、個々のメモリバンクは、単一のオブジェクトを含む単純化されたシーンに焦点を当てる。
本手法の有効性は,視覚異常・ノベルティ検出(VAND)競技において,ゼロショットトラックで4位,ゼロショットトラックで2位という顕著な成績により検証された。 Anomaly detection has gained considerable attention due to its broad range of applications, particularly in industrial defect detection. To address the challenges of data collection, researchers have introduced zero-/few-shot anomaly detection techniques that require minimal normal images for each category. However, complex industrial scenarios often involve multiple objects, presenting a significant challenge. In light of this, we propose a straightforward yet powerful multi-scale memory comparison framework for zero-/few-shot anomaly detection. Our approach employs a global memory bank to capture features across the entire image, while an individual memory bank focuses on simplified scenes containing a single object. The efficacy of our method is validated by its remarkable achievement of 4th place in the zero-shot track and 2nd place in the few-shot track of the Visual Anomaly and Novelty Detection (VAND) competition. | 翻訳日:2024-01-03 20:05:20 公開日:2024-01-02 |
# SLEM:超学習方程式モデリングを用いた経路モデリングと因果推論のための機械学習 SLEM: Machine Learning for Path Modeling and Causal Inference with Super Learner Equation Modeling ( http://arxiv.org/abs/2308.04365v5 ) ライセンス: Link先を確認 | Matthew J. Vowels | (参考訳) 因果推論は科学の重要な目標であり、観測データを用いて仮説的介入の予測に関する有意義な結論に達することができる。
経路モデル、構造方程式モデル(SEM)、より一般的には、DAG(Directed Acyclic Graphs)は、現象の根底にある因果構造に関する仮定を明確に特定する手段を提供する。
関数形式とパラメトリック形式についてほとんど仮定しないDAGとは異なり、SEMは線型性を仮定する。
これにより機能的不特定が生じ、研究者が信頼性の高い効果サイズ推定を行うのを防ぐことができる。
これとは対照的に,機械学習のスーパーラーナーアンサンブルを統合するパスモデリング技術であるSuper Learner Equation Modelingを提案する。
我々は,SEMと比較した場合の線形モデルに対する因果効果の一貫性と不偏性の評価,および非線形関係を扱う場合のSEMに対する優位性を実証的に示す。
オープンソースのコードとサンプルを使ったチュートリアルノートブックを提供し,メソッドの使いやすさを強調する。 Causal inference is a crucial goal of science, enabling researchers to arrive at meaningful conclusions regarding the predictions of hypothetical interventions using observational data. Path models, Structural Equation Models (SEMs), and, more generally, Directed Acyclic Graphs (DAGs), provide a means to unambiguously specify assumptions regarding the causal structure underlying a phenomenon. Unlike DAGs, which make very few assumptions about the functional and parametric form, SEM assumes linearity. This can result in functional misspecification which prevents researchers from undertaking reliable effect size estimation. In contrast, we propose Super Learner Equation Modeling, a path modeling technique integrating machine learning Super Learner ensembles. We empirically demonstrate its ability to provide consistent and unbiased estimates of causal effects, its competitive performance for linear models when compared with SEM, and highlight its superiority over SEM when dealing with non-linear relationships. We provide open-source code, and a tutorial notebook with example usage, accentuating the easy-to-use nature of the method. | 翻訳日:2024-01-03 20:05:04 公開日:2024-01-02 |
# RKHSにおける密度比の適応学習 Adaptive learning of density ratios in RKHS ( http://arxiv.org/abs/2307.16164v3 ) ライセンス: Link先を確認 | Werner Zellinger, Stefan Kindermann, Sergei V. Pereverzyev | (参考訳) 有限個の密度の観測から2つの確率密度の比を推定することは、二サンプルテスト、分散推定、生成モデル、共変量シフト適応、条件密度推定、新規性検出における機械学習および統計学における中心的な問題である。
本研究では,実密度比と再現カーネルヒルベルト空間(RKHS)のモデルとの正則化ブレグマン偏差を最小化する,大規模な密度比推定法を解析する。
我々は,新しい有限サンプル誤差境界を導出し,密度比の正則性を知らずに境界を最小化するlepskii型パラメータ選択原理を提案する。
二次損失の特別な場合、この手法は適応的にミニマックス最適誤差率を達成する。
数値図面が提供される。 Estimating the ratio of two probability densities from finitely many observations of the densities is a central problem in machine learning and statistics with applications in two-sample testing, divergence estimation, generative modeling, covariate shift adaptation, conditional density estimation, and novelty detection. In this work, we analyze a large class of density ratio estimation methods that minimize a regularized Bregman divergence between the true density ratio and a model in a reproducing kernel Hilbert space (RKHS). We derive new finite-sample error bounds, and we propose a Lepskii type parameter choice principle that minimizes the bounds without knowledge of the regularity of the density ratio. In the special case of quadratic loss, our method adaptively achieves a minimax optimal error rate. A numerical illustration is provided. | 翻訳日:2024-01-03 20:04:45 公開日:2024-01-02 |
# デジタル化カウンタダイアバティックqaoaの収束:回路深度と自由パラメータの比較 Convergence of Digitized-Counterdiabatic QAOA: circuit depth versus free parameters ( http://arxiv.org/abs/2307.14079v2 ) ライセンス: Link先を確認 | Mara Vizzuso, Gianluca Passarelli, Giovanni Cantele, and Procolo Lucignano | (参考訳) 近年,連続時間量子アニーリングにおけるトロータライズ・カウンターダイアベイト駆動に触発されて,qaoaを少ないステップで最適化問題の解に収束させるために,cd量子近似最適化アルゴリズム(qaoa)が提案されている。
本稿では,パラダイム的重み付きおよび非重み付き1次元MaxCut問題に着目して,このアプローチを批判的に再検討する。
1階と2階のCD補正を施した2種類のQAOAについて検討した。
その結果,高次cd補正は変動コスト関数の複雑性を増大させることにより,問題の厳密な解へのより迅速な収束を可能にすることがわかった。
しかし、この結果を達成するのに必要な自由パラメータの総数は、分析された特定のQAOA変種とは独立である。 Recently, Digitized-Counterdiabatic (CD) Quantum Approximate Optimization Algorithm (QAOA) has been proposed to make QAOA converge to the solution of an optimization problem in fewer steps, inspired by Trotterized counterdiabatic driving in continuous-time quantum annealing. In this paper, we critically revisit this approach by focusing on the paradigmatic weighted and unweighted one-dimensional MaxCut problem. We study two variants of QAOA with first and second-order CD corrections. Our results show that, indeed, higher order CD corrections allow for a quicker convergence to the exact solution of the problem at hand by increasing the complexity of the variational cost function. Remarkably, however, the total number of free parameters needed to achieve this result is independent of the particular QAOA variant analyzed. | 翻訳日:2024-01-03 20:04:32 公開日:2024-01-02 |
# 古典データの量子符号化による最大情報漏洩 Maximal Information Leakage from Quantum Encoding of Classical Data ( http://arxiv.org/abs/2307.12529v2 ) ライセンス: Link先を確認 | Farhad Farokhi | (参考訳) 古典データの量子符号化のための情報漏洩の新しい尺度を定義する。
敵は、古典的なデータを符号化する量子システムの状態の単一コピーにアクセスでき、セキュリティアナリストに未知のデータ(例えば、量子機械学習におけるデータの特定の特徴または属性)の一般的なランダム化あるいは決定論的関数を正しく推測することに興味がある。
情報漏洩の結果として得られる測度は、最大量子リークと呼ばれ、量子状態の測定を観測する際に古典データの関数を正確に推測する確率の乗法的増大である。
最大量子漏洩は、処理後の不等式(すなわち、量子チャネルを適用することで情報漏洩を減少させる)と独立性(すなわち、量子状態が古典的データから独立している場合、リークはゼロである)を満たすことが示され、プライバシーとセキュリティ分析に必要な基本的な特性である。
アクセス可能な情報も含む。
最大量子リークに対する大域的および局所的偏極ノイズモデルの効果を確立した。 A new measure of information leakage for quantum encoding of classical data is defined. An adversary can access a single copy of the state of a quantum system that encodes some classical data and is interested in correctly guessing a general randomized or deterministic function of the data (e.g., a specific feature or attribute of the data in quantum machine learning) that is unknown to the security analyst. The resulting measure of information leakage, referred to as maximal quantum leakage, is the multiplicative increase of the probability of correctly guessing any function of the classical data upon observing measurements of the quantum state. Maximal quantum leakage is shown to satisfy post-processing inequality (i.e., applying a quantum channel reduces information leakage) and independence property (i.e., leakage is zero if the quantum state is independent of the classical data), which are fundamental properties required for privacy and security analysis. It also bounds accessible information. Effects of global and local depolarizing noise models on the maximal quantum leakage are established. | 翻訳日:2024-01-03 20:03:54 公開日:2024-01-02 |
# 集積フォトニック分数畳み込み加速器 Integrated Photonic Fractional Convolution Accelerator ( http://arxiv.org/abs/2307.10976v2 ) ライセンス: Link先を確認 | Kevin Zelaya and Mohammad-Ali Miri | (参考訳) 離散差分フーリエ変換(DFrFT)に基づく修正畳み込み演算を行う集積フォトニック回路アーキテクチャを提案する。
これは、2つの非一様結合導波路格子と等間隔固有モードスペクトルと、変調器アレイを挟む相補的な順序のDFrDT演算を行う異なる長さの異なる長を持つ。
数値シミュレーションにより、ノイズのある入力信号でもスムージングとエッジ検出のタスクが実際に実行されることが示された。 An integrated photonic circuit architecture to perform a modified-convolution operation based on the Discrete Fractional Fourier Transform (DFrFT) is introduced. This is accomplished by utilizing two nonuniformly-coupled waveguide lattices with equally-spaced eigenmode spectra and with different lengths that perform DFrDT operations of complementary orders sandwiching a modulator array. Numerical simulations show that smoothing and edge detection tasks are indeed performed even for noisy input signals. | 翻訳日:2024-01-03 20:03:28 公開日:2024-01-02 |
# ロバスト3次元点群分類におけるリスク最適化外乱除去 Risk-optimized Outlier Removal for Robust 3D Point Cloud Classification ( http://arxiv.org/abs/2307.10875v3 ) ライセンス: Link先を確認 | Xinke Li, Junchi Lu, Henghui Ding, Changsheng Sun, Joey Tianyi Zhou, Chee Yeow Meng | (参考訳) 3dセンシング技術の成長に伴い、3dポイントクラウドのためのディープラーニングシステムは、特に安全が主な関心事である自動運転車のようなアプリケーションにおいて、ますます重要になっている。
しかし、自然発生か悪意のある意図で導入されるかにかかわらず、ノイズの多い点雲に遭遇する際のシステムの信頼性に関する懸念も高まっている。
本稿では,単純背景雑音からモデル予測を意図的に歪める悪質なバックドア攻撃に至るまで,様々なノイズによるポイントクラウド分類の課題について述べる。
最適化されたポイントクラウドの切り離しは緊急に必要だが、現在のポイント切り離しアプローチは、切り離しに不可欠なステップであり、手作りの戦略に大きく依存しており、分類のような高レベルなタスクには適応していない。
この問題に対処するために、下流分類モデルのパワーを利用する革新的なポイントアウトリアクリーニング手法を提案する。
勾配に基づく帰属分析を用いることで,新しい概念であるポイントリスクを定義できる。
ファイナンスにおけるテールリスク最小化からインスピレーションを得て、最適化問題であるPointCVaRをリキャストした。
広範な実験により,提案手法は多種多様な点雲の異常値をロバストにフィルタするだけでなく,既存のロバストな点雲分類法を一貫して大きく拡張することを示した。 With the growth of 3D sensing technology, deep learning system for 3D point clouds has become increasingly important, especially in applications like autonomous vehicles where safety is a primary concern. However, there are also growing concerns about the reliability of these systems when they encounter noisy point clouds, whether occurring naturally or introduced with malicious intent. This paper highlights the challenges of point cloud classification posed by various forms of noise, from simple background noise to malicious backdoor attacks that can intentionally skew model predictions. While there's an urgent need for optimized point cloud denoising, current point outlier removal approaches, an essential step for denoising, rely heavily on handcrafted strategies and are not adapted for higher-level tasks, such as classification. To address this issue, we introduce an innovative point outlier cleansing method that harnesses the power of downstream classification models. By employing gradient-based attribution analysis, we define a novel concept: point risk. Drawing inspiration from tail risk minimization in finance, we recast the outlier removal process as an optimization problem, named PointCVaR. Extensive experiments show that our proposed technique not only robustly filters diverse point cloud outliers but also consistently and significantly enhances existing robust methods for point cloud classification. | 翻訳日:2024-01-03 20:03:06 公開日:2024-01-02 |
# 視覚的検証と視覚的推定 : 散乱体の平均値の検討 Visual Validation versus Visual Estimation: A Study on the Average Value in Scatterplots ( http://arxiv.org/abs/2307.09330v3 ) ライセンス: Link先を確認 | Daniel Braun, Ashley Suh, Remco Chang, Michael Gleicher, Tatiana von Landesberger | (参考訳) 個人がデータに適合する統計モデルを視覚的に検証する能力について検討する。
視覚モデル推定は広く研究されているが、視覚モデル検証は未検討のままである。
人々がどのようにモデルを視覚的に検証できるか、その性能が視覚的および計算的推定と比較できるかは不明である。
出発点として,我々は2つの集団(クロードソースとボランティア)を対象に調査を行った。
参加者は、視覚的に見積もる(すなわちドロー)ことと、頻繁に研究される平均のモデルを視覚的に検証する(受け入れるか拒否するか)必要があった。
いずれの集団においても,有効と考えられるモデルの精度は,推定モデルの精度よりも低かった。
参加者の検証と評価は偏りがないことがわかった。
さらに、与えられた平均値の受け入れと拒否の間の自然な臨界点は、95%の信頼区間の境界に近く、視覚的に知覚される信頼区間が共通の統計基準に対応することを示す。
我々の研究は視覚モデル検証の理解に寄与し、新たな研究機会を開く。 We investigate the ability of individuals to visually validate statistical models in terms of their fit to the data. While visual model estimation has been studied extensively, visual model validation remains under-investigated. It is unknown how well people are able to visually validate models, and how their performance compares to visual and computational estimation. As a starting point, we conducted a study across two populations (crowdsourced and volunteers). Participants had to both visually estimate (i.e, draw) and visually validate (i.e., accept or reject) the frequently studied model of averages. Across both populations, the level of accuracy of the models that were considered valid was lower than the accuracy of the estimated models. We find that participants' validation and estimation were unbiased. Moreover, their natural critical point between accepting and rejecting a given mean value is close to the boundary of its 95% confidence interval, indicating that the visually perceived confidence interval corresponds to a common statistical standard. Our work contributes to the understanding of visual model validation and opens new research opportunities. | 翻訳日:2024-01-03 20:02:41 公開日:2024-01-02 |
# 連続時間量子ウォークにおける障害のない局在 : 対称性の役割 Disorder-free localisation in continuous-time quantum walks : Role of symmetries ( http://arxiv.org/abs/2307.01963v3 ) ライセンス: Link先を確認 | A. P. Balachandran, Anjali Kundalpady, Pramod Padmanabhan, Akash Sinha | (参考訳) 大域的置換対称性を持つ量子システムにおける無秩序局所化現象について検討する。
置換群理論を用いて、置換対称多価ハミルトニアンを体系的に構築し、連続時間量子ウォークの生成元として解釈する。
フェルミオンの数が非常に大きいとき、すべての標準基底状態が常に局所化しており、無秩序係数を導入することはない。
この時間非依存的な局所化は、障害のない局所化の既存のメカニズムと区別される創発性障害の結果ではない。
次に,局所化が維持される条件を確立する。
グローバルな置換対称性を保ち破壊する相互作用は局所化を持続する。
さらに、置換対称性が減少する系の基底状態は、対称性還元パラメータがそれに従ってチューニングされるとき、少数のフェルミオンに対してもローカライズされる。
同様の局所化は、置換対称ハイゼンベルクスピン鎖や置換対称ボソニック系にも起こり、局所化が超選択対称性とは独立であることを示す。
最後に、ここで研究したハミルトニアンのグラフの隣接行列への接続を行い、これを用いて連続時間量子ウォークシステムにおける無秩序局所化の処方法を提案する。
ここで提案されたモデルの多くは全接続性を備えており、超伝導量子回路、閉じ込められたイオン系、超低温原子で実現することができる。 We investigate the phenomenon of disorder-free localisation in quantum systems with global permutation symmetry. We use permutation group theory to systematically construct permutation symmetric many-fermion Hamiltonians and interpret them as generators of continuous-time quantum walks. When the number of fermions is very large we find that all the canonical basis states localise at all times, without the introduction of any disorder coefficients. This time-independent localisation is not the result of any emergent disorder distinguishing it from existing mechanisms for disorder-free localisation. Next we establish the conditions under which the localisation is preserved. We find that interactions that preserve and break the global permutation symmetry sustains localisation. Furthermore the basis states of systems with reduced permutation symmetry, localise even for a small number of fermions when the symmetry-reducing parameters are tuned accordingly. We show that similar localisation also occurs for a permutation symmetric Heisenberg spin chain and permutation symmetric bosonic systems, implying that the localisation is independent of the superselected symmetry. Finally we make connections of the Hamiltonians studied here to the adjacency matrices of graphs and use this to propose a prescription for disorder-free localisation in continuous-time quantum walk systems. Many of the models proposed here feature all-to-all connectivity and can be potentially realised on superconducting quantum circuits, trapped ion systems and ultracold atoms. | 翻訳日:2024-01-03 20:02:25 公開日:2024-01-02 |
# 畳み込み変換器を用いたトマト成熟度認識 Tomato Maturity Recognition with Convolutional Transformers ( http://arxiv.org/abs/2307.01530v2 ) ライセンス: Link先を確認 | Asim Khan, Taimur Hassan, Muhammad Shafay, Israa Fahmy, Naoufel Werghi, Lakmal Seneviratne and Irfan Hussain | (参考訳) トマトは世界中で主要な作物であり、その成熟度を正確に分類することは収穫、採点、品質管理など多くの農業用途において重要である。
本稿では,畳み込みトランスを用いたトマト成熟度分類法を提案する。
畳み込みトランスフォーマー(convolutional transformer)は、畳み込みニューラルネットワーク(cnns)とトランスフォーマーの強みを組み合わせたハイブリッドアーキテクチャである。
さらに,本研究では,トマトのセグメンテーションと分類のためのディープラーニングモデルのトレーニングを目的とした,KUTomaDataという新しいトマトデータセットを導入する。
KUTomaDataは、UAEの温室からソースされた画像のコンパイルであり、約700枚の画像がトレーニングとテストのために利用可能である。
データセットは、さまざまな照明条件と視点の下で作成され、既存のデータセットと区別するために、異なるモバイルカメラセンサーを使用する。
まず,モジュール型畳み込み変圧器を用いたトマトの成熟度分類法を提案する。
次に,異なる成熟度レベルでトマトの画像を含む新しいトマト画像データセットを提案する。
最後に, コンボリューショントランスフォーマーはトマト成熟度分類の最先端手法より優れていることを示す。
乱雑なトマトインスタンスと隠蔽トマトインスタンスの処理におけるフレームワークの有効性を,2つの公開データセットである Laboro Tomato と Rob2Pheno Annotated Tomato をベンチマークとして評価した。
これら3つのデータセットにおける評価結果から, トマトをアノテートしたkutomadata, laboro tomato, rob2phenoの平均精度スコアにおいて, 最先端の58.14%, 65.42%, 66.39%を上回った。 Tomatoes are a major crop worldwide, and accurately classifying their maturity is important for many agricultural applications, such as harvesting, grading, and quality control. In this paper, the authors propose a novel method for tomato maturity classification using a convolutional transformer. The convolutional transformer is a hybrid architecture that combines the strengths of convolutional neural networks (CNNs) and transformers. Additionally, this study introduces a new tomato dataset named KUTomaData, explicitly designed to train deep-learning models for tomato segmentation and classification. KUTomaData is a compilation of images sourced from a greenhouse in the UAE, with approximately 700 images available for training and testing. The dataset is prepared under various lighting conditions and viewing perspectives and employs different mobile camera sensors, distinguishing it from existing datasets. The contributions of this paper are threefold:Firstly, the authors propose a novel method for tomato maturity classification using a modular convolutional transformer. Secondly, the authors introduce a new tomato image dataset that contains images of tomatoes at different maturity levels. Lastly, the authors show that the convolutional transformer outperforms state-of-the-art methods for tomato maturity classification. The effectiveness of the proposed framework in handling cluttered and occluded tomato instances was evaluated using two additional public datasets, Laboro Tomato and Rob2Pheno Annotated Tomato, as benchmarks. The evaluation results across these three datasets demonstrate the exceptional performance of our proposed framework, surpassing the state-of-the-art by 58.14%, 65.42%, and 66.39% in terms of mean average precision scores for KUTomaData, Laboro Tomato, and Rob2Pheno Annotated Tomato, respectively. | 翻訳日:2024-01-03 20:02:03 公開日:2024-01-02 |
# 二重型量子ビットを持つクロストーク回避量子ネットワークノードの同一イオン種による実現 Realization of a crosstalk-avoided quantum network node with dual-type qubits by the same ion species ( http://arxiv.org/abs/2306.14405v2 ) ライセンス: Link先を確認 | L. Feng, Y.-Y Huang, Y.-K. Wu, W.-X. Guo, J.-Y. Ma, H.-X. Yang, L. Zhang, Y. Wang, C.-X. Huang, C. Zhang, L. Yao, B.-X. Qi, Y.-F. Pu, Z.-C. Zhou and L.-M. Duan | (参考訳) イオン光子エンタングルメントの生成は、スケーラブルなトラップイオン量子ネットワークにとって重要なステップである。
量子情報を持つメモリ量子ビット上のクロストークを避けるため、イオン光子絡みの発生には異なるイオン種を用いるのが一般的であり、散乱した光子がメモリ量子ビットに対してはるかに共鳴しない。
しかし、このような二重種スキームは、異なるイオン種の部位と位置を精巧に制御する必要があるため、非効率な交感神経冷却を受けることができる。
ここでは、2種類の量子ビットが$s$と$f$の超微細構造レベル${}^{171}\mathrm{yb}^+$ ionsで符号化される双対型量子ビットスキームにおいて、閉じ込められたイオン量子ネットワークノードを示す。
私たちは、数百ミリ秒の典型的な時間スケールで、$s$-qubitのイオン光子絡み合いを生成し、その小さなクロストークを近くの$f$-qubitのコヒーレンスタイムで検証します。
本研究は、スケーラブル量子ネットワークのためのデュアル型量子ビットスキームの実現機能を示す。 Generating ion-photon entanglement is a crucial step for scalable trapped-ion quantum networks. To avoid the crosstalk on memory qubits carrying quantum information, it is common to use a different ion species for ion-photon entanglement generation such that the scattered photons are far off-resonant for the memory qubits. However, such a dual-species scheme requires elaborate control of the portion and the location of different ion species, and can be subject to inefficient sympathetic cooling. Here we demonstrate a trapped-ion quantum network node in the dual-type qubit scheme where two types of qubits are encoded in the $S$ and $F$ hyperfine structure levels of ${}^{171}\mathrm{Yb}^+$ ions. We generate ion photon entanglement for the $S$-qubit in a typical timescale of hundreds of milliseconds, and verify its small crosstalk on a nearby $F$-qubit with coherence time above seconds. Our work demonstrates an enabling function of the dual-type qubit scheme for scalable quantum networks. | 翻訳日:2024-01-03 20:01:32 公開日:2024-01-02 |
# grassroots social networking: メンバーが個人情報とソーシャルグラフを所有し、管理する場 Grassroots Social Networking: Where Members Own and Control their Personal Information and Social Graph ( http://arxiv.org/abs/2306.13941v3 ) ライセンス: Link先を確認 | Ehud Shapiro | (参考訳) メンバーが個人情報やソーシャルグラフを制御できるソーシャルネットワークのためのアーキテクチャを提供することは、オープンな課題である。
ここでは、サーバーレス、無許可、ピアツーピアのソーシャルネットワークのための草の根アーキテクチャ、Grassroots Social Networkingを紹介します。
このアーキテクチャは、信頼性の低いネットワーク上で通信するローミング(アドレス変更)エージェント、例えばUDPを介して通信するスマートフォンを対象としている。
アーキテクチャは
(i)各会員が管理し、維持し、その地域のみをグラフに保存する分散社会グラフ
(二)フィードを作成・保存する著者及びフォロワーを伴い、メンバーが作成したフィード
(iii)社会グラフの縁に沿ってのみメンバー間のコミュニケーションが行われる草の根拡散プロトコル。
アーキテクチャは、複製された完全に順序付けられたブロックチェーンの部分的に順序付けられた分散データ構造であるブロックレスデータ構造を使用して、これらのコンポーネントを実現する。
当社は、Grassroots Social Networkingプロトコル(TwitterライクとWhatsAppライク)の2つの例を提供し、セキュリティ(安全、ライブ、プライバシ)、スパム/ボット/ディープフェイク耐性、実装に対処し、サーバベースのソーシャルネットワークが草の根アーキテクチャによってどのように置き換えられるかを示す。 Offering an architecture for social networking in which the members are in control of their personal information and social graph is an open challenge. Here we present a grassroots architecture for serverless, permissionless, peer-to-peer social networks termed Grassroots Social Networking that aims to address this challenge. The architecture is geared for roaming (address-changing) agents communicating over an unreliable network, e.g., smartphones communicating via UDP. The architecture incorporates (i) a decentralized social graph, where each member controls, maintains and stores only their local neighborhood in the graph; (ii) member-created feeds, with authors and followers who create and store the feeds; and (iii) a grassroots dissemination protocol, in which communication among members occurs only along the edges of the social graph. The architecture realizes these components using the blocklace data structure -- a distributed partially-ordered counterpart of the replicated totally-ordered blockchain. We provide two example Grassroots Social Networking protocols -- Twitter-like and WhatsApp-like -- and address their security (safety, liveness and privacy), spam/bot/deep-fake resistance, and implementation, demonstrating how server-based social networks could be supplanted by a grassroots architecture. | 翻訳日:2024-01-03 20:01:13 公開日:2024-01-02 |
# RS5MとGeoRSCLIP:大規模ビジョンランゲージデータセットと遠隔センシングのための大規模ビジョンランゲージモデル RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large Vision-Language Model for Remote Sensing ( http://arxiv.org/abs/2306.11300v5 ) ライセンス: Link先を確認 | Zilun Zhang, Tiancheng Zhao, Yulong Guo, Jianwei Yin | (参考訳) 画像テキストペアリングデータを用いた事前学習型視覚言語モデル (VLM) は、様々な下流タスクにおいて顕著な結果をもたらす前例のない画像テキスト関連性を実証している。
重要な課題は、共通オブジェクト上でトレーニングされた既存の大規模事前学習vlmを使用して、ドメイン関連のダウンストリームタスクを達成するためにドメイン固有の転送を実行する方法だ。
重要な課題は、共通オブジェクト上でトレーニングされた既存の大規模事前学習vlmを使用して、ドメイン関連のダウンストリームタスクを達成するためにドメイン固有の転送を実行する方法だ。
本稿では、DVLM(Domain Pre-trained Vision-Language Model)とGVLM(General Vision-Language Model)のギャップを埋める新しいフレームワークを提案する。
さらに,500万のrs画像と英語記述を持つ,リモートセンシング(rs)分野のrs5mにおいて,画像テキスト対のデータセットを提案する。
データセットは、公開されている画像テキストペアデータセットをフィルタリングし、ラベルのみのRSデータセットを予めトレーニングされたVLMでキャプションすることで得られる。
これらは、最初の大規模RS画像テキストペアデータセットである。
さらに,クリップモデルを微調整し,rs5mのパラメータ効率の良い微調整法をいくつか試してdvlmを実装した。
実験の結果,提案するデータセットは様々なタスクに非常に有効であり,モデルgeorsclipは,ゼロショット分類 (zsc) におけるベースラインあるいは前回の最先端モデルにより,3\%\sim20\%$,リモートセンシングにおける3\%\sim6\$,意味的ローカライゼーション (selo) タスクにおいて4\%\sim5\%$向上することがわかった。
データセットとモデルがリリースされた。 \url{https://github.com/om-ai-lab/RS5M}。 Pre-trained Vision-Language Models (VLMs) utilizing extensive image-text paired data have demonstrated unprecedented image-text association capabilities, achieving remarkable results across various downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. In this paper, we propose a new framework that includes the Domain pre-trained Vision-Language Model (DVLM), bridging the gap between the General Vision-Language Model (GVLM) and domain-specific downstream tasks. Moreover, we present an image-text paired dataset in the field of remote sensing (RS), RS5M, which has 5 million RS images with English descriptions. The dataset is obtained from filtering publicly available image-text paired datasets and captioning label-only RS datasets with pre-trained VLM. These constitute the first large-scale RS image-text paired dataset. Additionally, we fine-tuned the CLIP model and tried several Parameter-Efficient Fine-Tuning methods on RS5M to implement the DVLM. Experimental results show that our proposed dataset is highly effective for various tasks, and our model GeoRSCLIP improves upon the baseline or previous state-of-the-art model by $3\%\sim20\%$ in Zero-shot Classification (ZSC), $3\%\sim6\%$ in Remote Sensing Cross-Modal Text-Image Retrieval (RSCTIR) and $4\%\sim5\%$ in Semantic Localization (SeLo) tasks. Dataset and models have been released in: \url{https://github.com/om-ai-lab/RS5M}. | 翻訳日:2024-01-03 20:00:49 公開日:2024-01-02 |
# 量子エントロピーコーンの先端 Tip of the Quantum Entropy Cone ( http://arxiv.org/abs/2306.00199v2 ) ライセンス: Link先を確認 | Matthias Christandl, Bergfinnur Durhuus, Lasse Harboe Wolff | (参考訳) N$粒子量子系の異なる部分のフォン・ノイマンエントロピー間の関係は、スピン系から量子符号化理論、ブラックホールまで、様々な状況の理解に直接影響を与える。
全体とその部分のエントロピーからなる可能なベクトルの集合 $\Sigma^*_N$ で表される最良の方法として、有名な強加法不等式は、凸錐である閉包 $\overline\Sigma^*_N$ を制約する。
さらに均質な制約付き不等式も知られている。
この研究では、$\sigma_n^*$ を $\overline\sigma^*_n$ の頂点(零エントロピーのベクトル)の近くで制約する(非均質な)不等式、特に $\sigma_n^*$ が $n\geq 3$ の円錐ではないことを示す。
我々の不等式は、あるエントロピー制約が飽和しているベクトルに適用され、特に、任意の整数倍数に対してエントロピーベクトルをアップスケールすることは常に可能であるが、それを任意に小さいサイズにダウンスケールすることは必ずしも不可能であることを示している。
本稿では, トポロジカル材料, 絡み合い理論, 量子暗号との関係について論じる。 Relations among von Neumann entropies of different parts of an $N$-partite quantum system have direct impact on our understanding of diverse situations ranging from spin systems to quantum coding theory and black holes. Best formulated in terms of the set $\Sigma^*_N$ of possible vectors comprising the entropies of the whole and its parts, the famous strong subaddivity inequality constrains its closure $\overline\Sigma^*_N$, which is a convex cone. Further homogeneous constrained inequalities are also known. In this work we provide (non-homogeneous) inequalities that constrain $\Sigma_N^*$ near the apex (the vector of zero entropies) of $\overline\Sigma^*_N$, in particular showing that $\Sigma_N^*$ is not a cone for $N\geq 3$. Our inequalities apply to vectors with certain entropy constraints saturated and, in particular, they show that while it is always possible to up-scale an entropy vector to arbitrary integer multiples it is not always possible to down-scale it to arbitrarily small size, thus answering a question posed by A. Winter. Relations of our work to topological materials, entanglement theory, and quantum cryptography are discussed. | 翻訳日:2024-01-03 19:59:42 公開日:2024-01-02 |
# 潜在宇宙投射によるマルチモーダル金融時系列検索 Multi-Modal Financial Time-Series Retrieval Through Latent Space Projections ( http://arxiv.org/abs/2309.16741v2 ) ライセンス: Link先を確認 | Tom Bamford, Andrea Coletta, Elizabeth Fons, Sriram Gopalakrishnan, Svitlana Vyetrenko, Tucker Balch, Manuela Veloso | (参考訳) 金融機関は通常何十億もの時系列データを処理し保存し、連続して高い頻度で生成する。
効率的なデータストレージと検索をサポートするため、特殊な時系列データベースとシステムが登場した。
これらのデータベースは、制約付き構造化クエリ言語(SQL)のようなフォーマットで時系列のインデックス化とクエリをサポートし、「月価が5%を超えるスタック」のようなクエリを可能にし、厳密なフォーマットで表現される。
しかし、そのようなクエリは高次元時系列データの本質的な複雑さを捉えておらず、画像や言語(例えば「低ボラティリティ状態の在庫」)によってよく説明される。
さらに、時系列空間での検索に必要なストレージ、計算時間、検索の複雑さは、しばしば非自明である。
本稿では,遅延空間の投影が時系列の傾向だけでなく,金融時系列データの望ましい情報や特性(価格変動など)も捉えることができるような,低次元の潜時空間に深層エンコーダを用いて,金融時系列のマルチモーダルデータを格納するためのフレームワークを提案し,実証する。
さらに,ユーザフレンドリなクエリインタフェースを実現し,自然言語テキストや時系列のスケッチを可能にし,直感的なインタフェースを開発した。
本手法は,実履歴データおよび合成データにおける計算効率と精度の面での利点を実証し,直観的なクエリモダリティを有する金融時系列データの保存・検索における潜在空間投影の有用性を強調する。 Financial firms commonly process and store billions of time-series data, generated continuously and at a high frequency. To support efficient data storage and retrieval, specialized time-series databases and systems have emerged. These databases support indexing and querying of time-series by a constrained Structured Query Language(SQL)-like format to enable queries like "Stocks with monthly price returns greater than 5%", and expressed in rigid formats. However, such queries do not capture the intrinsic complexity of high dimensional time-series data, which can often be better described by images or language (e.g., "A stock in low volatility regime"). Moreover, the required storage, computational time, and retrieval complexity to search in the time-series space are often non-trivial. In this paper, we propose and demonstrate a framework to store multi-modal data for financial time-series in a lower-dimensional latent space using deep encoders, such that the latent space projections capture not only the time series trends but also other desirable information or properties of the financial time-series data (such as price volatility). Moreover, our approach allows user-friendly query interfaces, enabling natural language text or sketches of time-series, for which we have developed intuitive interfaces. We demonstrate the advantages of our method in terms of computational efficiency and accuracy on real historical data as well as synthetic data, and highlight the utility of latent-space projections in the storage and retrieval of financial time-series data with intuitive query modalities. | 翻訳日:2024-01-03 19:52:48 公開日:2024-01-02 |
# 逆音声合成のための協調的透かし Collaborative Watermarking for Adversarial Speech Synthesis ( http://arxiv.org/abs/2309.15224v2 ) ライセンス: Link先を確認 | Lauri Juvela (Aalto University, Finland) and Xin Wang (National Institute of Informatics, Japan) | (参考訳) ニューラル音声合成の進歩は、人間の自然さに近づくだけでなく、わずかなデータで瞬時に音声をクローンできる技術をもたらし、事前訓練されたモデルで高いアクセス性を持つ。
当然、生成されたコンテンツの潜在的な洪水は、合成音声の検出と透かしの必要性を高める。
近年, 受動的対応を目的とした自動話者検証・発声対策チャレンジ(ASVspoof)に, 合成音声検出におけるかなりの研究努力が関係している。
合成システムは、他の機械による検出を補助するが、人間の聴取者には透過的でありながら、生成した音声を透かし出すために積極的に努力すべきである。
ASVspoof 2021ベースライン対策モデルと協調するHiFi-GANニューラルボコーダが従来の分類器学習よりも一貫して検出性能を向上させることを示す。
さらに,協調学習と強化戦略を組み合わせることで,雑音に対する頑健性や時間的拡張性が向上することを示す。
最後に、聞き取りテストにより、協調訓練がvocode音声の知覚的品質に悪影響を及ぼすことが示される。 Advances in neural speech synthesis have brought us technology that is not only close to human naturalness, but is also capable of instant voice cloning with little data, and is highly accessible with pre-trained models available. Naturally, the potential flood of generated content raises the need for synthetic speech detection and watermarking. Recently, considerable research effort in synthetic speech detection has been related to the Automatic Speaker Verification and Spoofing Countermeasure Challenge (ASVspoof), which focuses on passive countermeasures. This paper takes a complementary view to generated speech detection: a synthesis system should make an active effort to watermark the generated speech in a way that aids detection by another machine, but remains transparent to a human listener. We propose a collaborative training scheme for synthetic speech watermarking and show that a HiFi-GAN neural vocoder collaborating with the ASVspoof 2021 baseline countermeasure models consistently improves detection performance over conventional classifier training. Furthermore, we demonstrate how collaborative training can be paired with augmentation strategies for added robustness against noise and time-stretching. Finally, listening tests demonstrate that collaborative training has little adverse effect on perceptual quality of vocoded speech. | 翻訳日:2024-01-03 19:52:01 公開日:2024-01-02 |
# Era Splitting - 決定木に対する不変学習 Era Splitting -- Invariant Learning for Decision Trees ( http://arxiv.org/abs/2309.14496v3 ) ライセンス: Link先を確認 | Timothy DeLise | (参考訳) 実生活の機械学習問題は、ある時間から別の時間へ、あるいはある場所から別の時間へ、データの分散シフトを示す。
この行動は従来の経験的リスク最小化パラダイムの範囲を超えており、これは時間的および場所的にデータの分散を前提としている。
アウト・オブ・ディストリビューション(OOD)の一般化は、環境情報や時代的な情報をアルゴリズムに組み込んだ新しい理論とアルゴリズムによって、この現実に対処する。
これまで、ほとんどの研究は線形モデルやニューラルネットワークに焦点を当ててきた。
本研究では,決定木に対する2つの新たな分割基準を開発し,OOD一般化研究のアイデアを無作為な森林や勾配決定木などの決定木モデルに適用する。
新たな分割基準では、各データポイントに関連付けられたエラワイズ情報を使用して、ツリーベースのモデルで、データ内のすべての分離期間にわたって最適なスプリットポイントを見つけることができる。
本稿では,金融市場の文脈における問題設定について述べる。
新たな分割基準を詳述し、これらの新しい基準の利点を実証するユニークな実験を開発し、実験のアウトオブサンプルにおけるメトリクスを改善する。
新しい基準は、scikit-learnコードベースの最先端の勾配強化決定木モデルに組み込まれており、自由に利用できる。 Real-life machine learning problems exhibit distributional shifts in the data from one time to another or from on place to another. This behavior is beyond the scope of the traditional empirical risk minimization paradigm, which assumes i.i.d. distribution of data over time and across locations. The emerging field of out-of-distribution (OOD) generalization addresses this reality with new theory and algorithms which incorporate environmental, or era-wise information into the algorithms. So far, most research has been focused on linear models and/or neural networks. In this research we develop two new splitting criteria for decision trees, which allow us to apply ideas from OOD generalization research to decision tree models, including random forest and gradient-boosting decision trees. The new splitting criteria use era-wise information associated with each data point to allow tree-based models to find split points that are optimal across all disjoint eras in the data, instead of optimal over the entire data set pooled together, which is the default setting. In this paper we describe the problem setup in the context of financial markets. We describe the new splitting criteria in detail and develop unique experiments to showcase the benefits of these new criteria, which improve metrics in our experiments out-of-sample. The new criteria are incorporated into the a state-of-the-art gradient boosted decision tree model in the Scikit-Learn code base, which is made freely available. | 翻訳日:2024-01-03 19:51:41 公開日:2024-01-02 |
# deshadow-anything: segment anythingモデルがゼロショットシャドー削除を満たす Deshadow-Anything: When Segment Anything Model Meets Zero-shot shadow removal ( http://arxiv.org/abs/2309.11715v2 ) ライセンス: Link先を確認 | Xiao Feng Zhang, Tian Yi Song, Jia Wei Yao | (参考訳) Segment Anything (SAM)は、拡張ビジュアルデータセットに基づいてトレーニングされた高度なユニバーサルイメージセグメンテーションモデルであり、画像セグメンテーションとコンピュータビジョンの新しいベンチマークを設定した。
しかし、影とその背景を区別するという問題に直面した。
そこで本研究では,大規模データセットの一般化を考慮し,大規模データセットの微調整を行い,画像シャドー除去を実現する。
拡散モデルは、画像のエッジとテクスチャに沿って拡散し、画像の詳細を維持しながら影を取り除くのに役立つ。
さらに,適応入力摂動(DDPM-AIP)とマルチセルフアテンションガイダンス(MSAG)を設計し,拡散の反復的トレーニング速度を高速化する。
シャドウ除去タスクの実験により、これらの手法が画像復元性能を効果的に向上できることが示されている。 Segment Anything (SAM), an advanced universal image segmentation model trained on an expansive visual dataset, has set a new benchmark in image segmentation and computer vision. However, it faced challenges when it came to distinguishing between shadows and their backgrounds. To address this, we developed Deshadow-Anything, considering the generalization of large-scale datasets, and we performed Fine-tuning on large-scale datasets to achieve image shadow removal. The diffusion model can diffuse along the edges and textures of an image, helping to remove shadows while preserving the details of the image. Furthermore, we design Multi-Self-Attention Guidance (MSAG) and adaptive input perturbation (DDPM-AIP) to accelerate the iterative training speed of diffusion. Experiments on shadow removal tasks demonstrate that these methods can effectively improve image restoration performance. | 翻訳日:2024-01-03 19:51:05 公開日:2024-01-02 |
# 医用画像における因果性信号の爆発:実証実験による検討 Exploiting Causality Signals in Medical Images: A Pilot Study with Empirical Results ( http://arxiv.org/abs/2309.10399v3 ) ライセンス: Link先を確認 | Gianluca Carloni, Sara Colantonio | (参考訳) 本稿では,ニューラルネットワークを用いて,画像から直接弱い因果信号を発見し,活用する新しい手法を提案する。
これにより、画像の一部に特徴が存在することが、画像の別の部分における他の特徴の出現にどのように影響するかをモデル化する。
提案手法は,畳み込みニューラルネットワークバックボーンと因果関係因子抽出モジュールで構成され,重みを計算し,各特徴マップをシーン内における因果影響に応じて拡張する。
我々は, 前立腺mri画像と乳腺病理診断用スライドの2つの公開データセットにおいて, 異なるアーキテクチャ変種を開発し, 実証的に全モデルを評価した。
完全教師付きおよび少数ショット学習におけるモジュールの有効性について検討し、既存の注意に基づくソリューションへの追加を評価し、アブレーション研究を行い、クラスアクティベーションマップを用いてモデルの説明可能性について検討する。
以上の結果から, 軽量ブロックは意味のある情報を抽出し, 全体的な分類を改善し, 画像の関連部分に焦点を当てたより堅牢な予測を行う。
これは、診断と治療計画に正確かつ信頼性の高い分類が不可欠である医療画像において重要である。 We present a novel technique to discover and exploit weak causal signals directly from images via neural networks for classification purposes. This way, we model how the presence of a feature in one part of the image affects the appearance of another feature in a different part of the image. Our method consists of a convolutional neural network backbone and a causality-factors extractor module, which computes weights to enhance each feature map according to its causal influence in the scene. We develop different architecture variants and empirically evaluate all the models on two public datasets of prostate MRI images and breast histopathology slides for cancer diagnosis. We study the effectiveness of our module both in fully-supervised and few-shot learning, we assess its addition to existing attention-based solutions, we conduct ablation studies, and investigate the explainability of our models via class activation maps. Our findings show that our lightweight block extracts meaningful information and improves the overall classification, together with producing more robust predictions that focus on relevant parts of the image. That is crucial in medical imaging, where accurate and reliable classifications are essential for effective diagnosis and treatment planning. | 翻訳日:2024-01-03 19:50:49 公開日:2024-01-02 |
# テキストに基づく人物検索のためのCLIPに基づく相乗的知識伝達 CLIP-based Synergistic Knowledge Transfer for Text-based Person Retrieval ( http://arxiv.org/abs/2309.09496v2 ) ライセンス: Link先を確認 | Yating Liu, Yaowei Li, Zimo Liu, Wenming Yang, Yaowei Wang, Qingmin Liao | (参考訳) テキストベースのPerson Retrieval(TPR)は、テキストクエリが与えられたターゲットの人物画像を取得することを目的としている。
主な課題は、特に限られた大規模データセットを扱う場合、視覚と言語モダリティの実質的なギャップを埋めることである。
本稿では,TPRのためのCLIPベースのSynergistic Knowledge Transfer (CSKT)アプローチを提案する。
具体的には、まず、テキストから画像への双方向プロンプトと画像からテキストへの双方向プロンプトと投影の結合によって構築された双方向プロンプト転送(bpt)モジュールを提案する。
第二に、デュアルアダプタ転送(DAT)は、視覚と言語におけるMHA(Multi-Head Attention)の出力側で知識を伝達するように設計されている。
この相乗的双方向協調機構は、早期特徴融合を促進し、クリップの既存の知識を効率的に活用する。
CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットの最先端アプローチよりも優れており、その顕著な効率、有効性、一般化を示している。 Text-based Person Retrieval (TPR) aims to retrieve the target person images given a textual query. The primary challenge lies in bridging the substantial gap between vision and language modalities, especially when dealing with limited large-scale datasets. In this paper, we introduce a CLIP-based Synergistic Knowledge Transfer (CSKT) approach for TPR. Specifically, to explore the CLIP's knowledge on input side, we first propose a Bidirectional Prompts Transferring (BPT) module constructed by text-to-image and image-to-text bidirectional prompts and coupling projections. Secondly, Dual Adapters Transferring (DAT) is designed to transfer knowledge on output side of Multi-Head Attention (MHA) in vision and language. This synergistic two-way collaborative mechanism promotes the early-stage feature fusion and efficiently exploits the existing knowledge of CLIP. CSKT outperforms the state-of-the-art approaches across three benchmark datasets when the training parameters merely account for 7.4% of the entire model, demonstrating its remarkable efficiency, effectiveness and generalization. | 翻訳日:2024-01-03 19:50:31 公開日:2024-01-02 |
# データ駆動モデリングと二重正規化フローによるベイズガウス過程ODEの推論 Data-driven Modeling and Inference for Bayesian Gaussian Process ODEs via Double Normalizing Flows ( http://arxiv.org/abs/2309.09222v2 ) ライセンス: Link先を確認 | Jian Xu, Shian Du, Junmei Yang, Xinghao Ding, John Paisley, Delu Zeng | (参考訳) 近年、ガウス過程は、確率的ODE方程式によって特徴づけられる連続力学系のベクトル場(GPODE)をモデル化するために用いられる。
これらのモデルに対するベイズ推定は、時系列予測のようなタスクに広く研究され、適用されてきた。
しかし、二乗指数カーネルのような基本カーネルを持つ標準GPの使用はGPODE研究で一般的であり、複雑なシナリオを表現する能力を制限する。
この制限に対処するために、正規化フローを導入し、ODEベクトル場を再パラメータ化し、データ駆動の事前分布をもたらし、柔軟性と表現力を高める。
本研究では,解析的に抽出可能な確率密度関数を正規化するデータ駆動変分学習アルゴリズムを開発し,未知の連続力学の同時学習と推論を可能にする。
さらに, GP ODE の後部推定に正規化フローを適用し, 後部推定における強平均場仮定の問題を解決する。
これらの両方の方法で正規化フローを適用することで、ベイズガウス過程 ode の精度と不確実性が向上する。
本研究では,時系列予測やデータ回復タスクの欠如を含むシミュレーション力学系と実世界の人間の動作データに対するアプローチの有効性を検証する。
実験の結果,提案手法は精度を高めつつ,モデルの不確かさを効果的に捉えていることがわかった。 Recently, Gaussian processes have been used to model the vector field of continuous dynamical systems, referred to as GPODEs, which are characterized by a probabilistic ODE equation. Bayesian inference for these models has been extensively studied and applied in tasks such as time series prediction. However, the use of standard GPs with basic kernels like squared exponential kernels has been common in GPODE research, limiting the model's ability to represent complex scenarios. To address this limitation, we introduce normalizing flows to reparameterize the ODE vector field, resulting in a data-driven prior distribution, thereby increasing flexibility and expressive power. We develop a data-driven variational learning algorithm that utilizes analytically tractable probability density functions of normalizing flows, enabling simultaneous learning and inference of unknown continuous dynamics. Additionally, we also apply normalizing flows to the posterior inference of GP ODEs to resolve the issue of strong mean-field assumptions in posterior inference. By applying normalizing flows in both these ways, our model improves accuracy and uncertainty estimates for Bayesian Gaussian Process ODEs. We validate the effectiveness of our approach on simulated dynamical systems and real-world human motion data, including time series prediction and missing data recovery tasks. Experimental results show that our proposed method effectively captures model uncertainty while improving accuracy. | 翻訳日:2024-01-03 19:50:08 公開日:2024-01-02 |
# VGDiffZero:テキストと画像の拡散モデルはゼロショットのビジュアルグラウンド VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual Grounders ( http://arxiv.org/abs/2309.01141v3 ) ライセンス: Link先を確認 | Xuyang Liu, Siteng Huang, Yachen Kang, Honggang Chen, Donglin Wang | (参考訳) 大規模テキストから画像への拡散モデルは、事前学習から強い視覚言語アライメントを活用することで、生成的タスクに素晴らしい能力を示している。
しかし、視覚言語識別タスクの多くは、時間と計算リソースに大きなコストをかけて、そのようなアライメントを得るために注意深くラベルされたデータセットを広範囲に微調整する必要がある。
本研究では,事前学習した生成拡散モデルを直接,微調整や追加の訓練データセットを使わずに視覚的接地を識別する難しいタスクに適用することを検討する。
具体的には,テキストから画像への拡散モデルに基づく,単純かつ効果的なゼロショット視覚接地フレームワークであるvgdiffzeroを提案する。
また,各提案のグローバルコンテキストとローカルコンテキストの両方を考慮した包括的領域スケーリング手法を設計する。
RefCOCO、RefCOCO+、RefCOCOgの大規模な実験は、VGDiffZeroがゼロショットの視覚的グラウンドで強いパフォーマンスを達成することを示している。
私たちのコードはhttps://github.com/xuyang-liu16/vgdiffzeroで利用可能です。 Large-scale text-to-image diffusion models have shown impressive capabilities for generative tasks by leveraging strong vision-language alignment from pre-training. However, most vision-language discriminative tasks require extensive fine-tuning on carefully-labeled datasets to acquire such alignment, with great cost in time and computing resources. In this work, we explore directly applying a pre-trained generative diffusion model to the challenging discriminative task of visual grounding without any fine-tuning and additional training dataset. Specifically, we propose VGDiffZero, a simple yet effective zero-shot visual grounding framework based on text-to-image diffusion models. We also design a comprehensive region-scoring method considering both global and local contexts of each isolated proposal. Extensive experiments on RefCOCO, RefCOCO+, and RefCOCOg show that VGDiffZero achieves strong performance on zero-shot visual grounding. Our code is available at https://github.com/xuyang-liu16/VGDiffZero. | 翻訳日:2024-01-03 19:49:47 公開日:2024-01-02 |
# SyMOT-Flowによる任意分布マッピング:最大平均差と最適輸送を統合したフローベースアプローチ Arbitrary Distributions Mapping via SyMOT-Flow: A Flow-based Approach Integrating Maximum Mean Discrepancy and Optimal Transport ( http://arxiv.org/abs/2308.13815v2 ) ライセンス: Link先を確認 | Zhe Xiong, Qiaoqiao Ding, Xiaoqun Zhang | (参考訳) 有限サンプルから2つの未知の確率分布間の変換を見つけることは、複雑なデータ分布をモデル化し、サンプル生成、ドメイン適応、統計推論などのタスクを実行するために重要である。
このような変換のための強力なフレームワークの1つはフローの正規化であり、未知の分布を可逆ネットワークを用いて標準正規分布に変換する。
本稿では, 2つの未知分布から試料間の対称最大平均差を最小化し, 可逆変換を訓練するsymot-flowと呼ばれる新しいモデルを紹介し, 最適輸送コストを正規化として組み込んで近距離かつ解釈可能な変換を得る。
結果として得られた変換はより安定で正確なサンプル生成をもたらす。
提案モデルについていくつかの理論的結果が確立され,その有効性は,低次元の図示例と,前方および逆流による高次元バイモダリティ医用画像生成で検証される。 Finding a transformation between two unknown probability distributions from finite samples is crucial for modeling complex data distributions and performing tasks such as sample generation, domain adaptation and statistical inference. One powerful framework for such transformations is normalizing flow, which transforms an unknown distribution into a standard normal distribution using an invertible network. In this paper, we introduce a novel model called SyMOT-Flow that trains an invertible transformation by minimizing the symmetric maximum mean discrepancy between samples from two unknown distributions, and an optimal transport cost is incorporated as regularization to obtain a short-distance and interpretable transformation. The resulted transformation leads to more stable and accurate sample generation. Several theoretical results are established for the proposed model and its effectiveness is validated with low-dimensional illustrative examples as well as high-dimensional bi-modality medical image generation through the forward and reverse flows. | 翻訳日:2024-01-03 19:49:08 公開日:2024-01-02 |
# 人間と計算モデル間の自然言語予測におけるマルチモーダリティと注意力のアライメント Multimodality and Attention Increase Alignment in Natural Language Prediction Between Humans and Computational Models ( http://arxiv.org/abs/2308.06035v3 ) ライセンス: Link先を確認 | Viktor Kewenig, Andrew Lampinen, Samuel A. Nastase, Christopher Edwards, Quitterie Lacome DEstalenx, Akilles Rechardt, Jeremy I Skipper and Gabriella Vigliocco | (参考訳) 言語理解を再現するマルチモーダル生成人工知能(mAI)の可能性は、実用的で文脈に富んだコミュニケーションの側面を含む、明らかになっていない。
人間は、視覚的な手がかりのような高度のマルチモーダル特徴を使用して、今後の単語の処理を容易にすることが知られている。
それに応じて、マルチモーダル計算モデルは、視覚的注意機構を用いて視覚的および言語的データを統合し、次の単語の確率を割り当てることができる。
これらのプロセスが一致しているかどうかを調べるため,人間の参加者(N = 200)と,音声のみの短いビデオクリップや音声映像クリップを音声で見た後,次の単語の予測可能性を評価する最先端の計算モデルの両方を課題とした。
作業中、モデルの注意重みは記録され、人間の注意は視線追跡によってインデックス化された。
その結果,ヒトの予測可能性の推定値は,マルチモーダルモデルとユニモーダルモデルを比較した結果とより密接に一致した。
さらに、注意機構を含むことで、視覚的および言語的文脈が予測を促進するとき、人間の判断と調和する。
これらの場合、モデルの注意パッチと人間の視線追跡は著しく重複した。
以上の結果から,mAIにおける自然言語処理のモデル化は,学習ダイエットにのみ依存するだけでなく,注意に基づくアーキテクチャと組み合わせることで,マルチモーダリティが実現可能であることが示唆された。
人間や計算モデルも同様に、入力の関連する特徴に従えば、マルチモーダル情報の予測制約を活用できる。 The potential of multimodal generative artificial intelligence (mAI) to replicate human grounded language understanding, including the pragmatic, context-rich aspects of communication, remains to be clarified. Humans are known to use salient multimodal features, such as visual cues, to facilitate the processing of upcoming words. Correspondingly, multimodal computational models can integrate visual and linguistic data using a visual attention mechanism to assign next-word probabilities. To test whether these processes align, we tasked both human participants (N = 200) as well as several state-of-the-art computational models with evaluating the predictability of forthcoming words after viewing short audio-only or audio-visual clips with speech. During the task, the model's attention weights were recorded and human attention was indexed via eye tracking. Results show that predictability estimates from humans aligned more closely with scores generated from multimodal models vs. their unimodal counterparts. Furthermore, including an attention mechanism doubled alignment with human judgments when visual and linguistic context facilitated predictions. In these cases, the model's attention patches and human eye tracking significantly overlapped. Our results indicate that improved modeling of naturalistic language processing in mAI does not merely depend on training diet but can be driven by multimodality in combination with attention-based architectures. Humans and computational models alike can leverage the predictive constraints of multimodal information by attending to relevant features in the input. | 翻訳日:2024-01-03 19:48:28 公開日:2024-01-02 |
# openvoice: 汎用的な音声クローン OpenVoice: Versatile Instant Voice Cloning ( http://arxiv.org/abs/2312.01479v5 ) ライセンス: Link先を確認 | Zengyi Qin, Wenliang Zhao, Xumin Yu and Xin Sun | (参考訳) OpenVoiceは,参照話者からの短い音声クリップだけで音声を再現し,複数の言語で音声を生成する,汎用的な音声クローニング手法である。
OpenVoiceは、この分野における以下のオープンな課題に対処する上で、大きな進歩を示している。
1)柔軟な音声スタイル制御。
OpenVoiceは、感情、アクセント、リズム、ポーズ、イントネーションを含む音声スタイルのきめ細かい制御を可能にし、参照話者のトーンカラーを再現する。
音声スタイルは、参照話者のスタイルによって直接コピーされ、制約されない。
以前のアプローチでは、クローン後の音声スタイルを柔軟に操作する能力がなかった。
2)ゼロショットクロスリンガル音声クローン。
openvoiceは、大規模話者訓練セットに含まれない言語に対して、ゼロショットのクロスリンガル音声クローンを実現する。
すべての言語に対して大規模なマルチリンガル(MSML)データセットを必要とする従来のアプローチとは異なり、OpenVoiceは、その言語のための大規模なスピーカートレーニングデータなしで、音声を新しい言語にクローンすることができる。
OpenVoiceは計算効率も高く、商用のAPIよりも何倍もコストがかかる。
この分野のさらなる研究を促進するために、ソースコードとトレーニングモデルを公開アクセス可能にしました。
デモサイトでも質的な結果を提供しています。
OpenVoiceは一般公開される前、2023年5月から10月にかけて世界中で何千万回も利用され、MyShellのバックエンドとして使われていました。 We introduce OpenVoice, a versatile voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. OpenVoice represents a significant advancement in addressing the following open challenges in the field: 1) Flexible Voice Style Control. OpenVoice enables granular control over voice styles, including emotion, accent, rhythm, pauses, and intonation, in addition to replicating the tone color of the reference speaker. The voice styles are not directly copied from and constrained by the style of the reference speaker. Previous approaches lacked the ability to flexibly manipulate voice styles after cloning. 2) Zero-Shot Cross-Lingual Voice Cloning. OpenVoice achieves zero-shot cross-lingual voice cloning for languages not included in the massive-speaker training set. Unlike previous approaches, which typically require extensive massive-speaker multi-lingual (MSML) dataset for all languages, OpenVoice can clone voices into a new language without any massive-speaker training data for that language. OpenVoice is also computationally efficient, costing tens of times less than commercially available APIs that offer even inferior performance. To foster further research in the field, we have made the source code and trained model publicly accessible. We also provide qualitative results in our demo website. Prior to its public release, our internal version of OpenVoice was used tens of millions of times by users worldwide between May and October 2023, serving as the backend of MyShell. | 翻訳日:2024-01-03 19:42:52 公開日:2024-01-02 |
# SASSL: ニューラルネットワークによる自己監督型学習の強化 SASSL: Enhancing Self-Supervised Learning via Neural Style Transfer ( http://arxiv.org/abs/2312.01187v2 ) ライセンス: Link先を確認 | Renan A. Rojas-Gomez, Karan Singhal, Ali Etemad, Alex Bijamov, Warren R. Morningstar, Philip Andrew Mansfield | (参考訳) 自己教師付き学習は、ラベルのない画像から意味のある表現を抽出するために、データ拡張に大きく依存する。
既存の最先端の拡張パイプラインには、さまざまなプリミティブ変換が含まれているが、自然画像構造を無視することが多い。
このように、拡張されたサンプルは、劣化した意味情報と低スタイリスティックな多様性を示し、自己教師付き表現の下流のパフォーマンスに影響を与える。
そこで我々は,ニューラルネットワークを用いた新しい拡張手法であるSASSL: Style Augmentations for Self Supervised Learningを提案する。
この方法は、画像のセマンティック属性とスタイリスティック属性を分離し、コンテンツを保持しながらスタイルのみに変換を適用し、セマンティック特性をよりよく保持する多様な拡張サンプルを生成する。
実験の結果,MoCo v2と比較して,ImageNetの上位1分類性能は2%以上向上した。
また,5つのデータセット間での転送学習性能を測定し,最大3.75%の大幅な改善を観測した。
実験により、コンテンツ情報からの分離スタイルとデータセット間の転送スタイルが拡張の多様化に寄与し、自己教師付き表現の下流性能が大幅に向上することが示唆された。 Self-supervised learning relies heavily on data augmentation to extract meaningful representations from unlabeled images. While existing state-of-the-art augmentation pipelines incorporate a wide range of primitive transformations, these often disregard natural image structure. Thus, augmented samples can exhibit degraded semantic information and low stylistic diversity, affecting downstream performance of self-supervised representations. To overcome this, we propose SASSL: Style Augmentations for Self Supervised Learning, a novel augmentation technique based on Neural Style Transfer. The method decouples semantic and stylistic attributes in images and applies transformations exclusively to the style while preserving content, generating diverse augmented samples that better retain their semantic properties. Experimental results show our technique achieves a top-1 classification performance improvement of more than 2% on ImageNet compared to the well-established MoCo v2. We also measure transfer learning performance across five diverse datasets, observing significant improvements of up to 3.75%. Our experiments indicate that decoupling style from content information and transferring style across datasets to diversify augmentations can significantly improve downstream performance of self-supervised representations. | 翻訳日:2024-01-03 19:42:27 公開日:2024-01-02 |
# DeepTreeGANv2: ポイントクラウドの反復プール DeepTreeGANv2: Iterative Pooling of Point Clouds ( http://arxiv.org/abs/2312.00042v2 ) ライセンス: Link先を確認 | Moritz Alfons Wilhelm Scham and Dirk Kr\"ucker and Kerstin Borras | (参考訳) 高エネルギー物理学では、詳細かつ時間のかかるシミュレーションが検出器との粒子相互作用に使用される。
これらのシミュレーションを生成モデルで回避するには、粒子間の複雑な依存関係を正しくモデル化する必要があるが、短時間で大きな点雲を生成する必要がある。
粒子シャワーは本質的に木に基づくプロセスであり、各粒子は前世代の粒子の崩壊または検出器相互作用によって生成される。
本稿では,これらの点群を木ベースで反復的に集約することが可能な,批評家を特徴とするdeeptreeganの拡張について述べる。
本稿では,このモデルが複雑な分布を再現できることを示し,JetNet 150データセットの性能評価を行った。 In High Energy Physics, detailed and time-consuming simulations are used for particle interactions with detectors. To bypass these simulations with a generative model, the generation of large point clouds in a short time is required, while the complex dependencies between the particles must be correctly modelled. Particle showers are inherently tree-based processes, as each particle is produced by the decay or detector interaction of a particle of the previous generation. In this work, we present a significant extension to DeepTreeGAN, featuring a critic, that is able to aggregate such point clouds iteratively in a tree-based manner. We show that this model can reproduce complex distributions, and we evaluate its performance on the public JetNet 150 dataset. | 翻訳日:2024-01-03 19:42:08 公開日:2024-01-02 |
# CodeBuddyの構築から学んだこと - コンテキスト化されたAIコーディングアシスタント Lessons from Building CodeBuddy: A Contextualized AI Coding Assistant ( http://arxiv.org/abs/2311.18450v2 ) ライセンス: Link先を確認 | Gustavo Pinto and Cleidson de Souza and Jo\~ao Batista Neto and Alberto de Souza and Tarc\'isio Gotto and Edward Monteiro | (参考訳) 例外的な自然言語処理機能によって、ChatGPTやCo-PilotのようなLarge Language Models(LLM)ベースのツールは、ソフトウェア開発者のツールキットにおいて、急速に必須のリソースになっています。
最近の研究は、これらのツールがアンロックされる可能性のある生産性の向上を示唆している。
さらに、改善されたレスポンスの追求は、しばしば、実際の価値を提供するコードを書くことから価値ある時間を逸脱し、広範な迅速なエンジニアリング努力に繋がる。
これらの課題に対処するため、LSM上に構築された新しい種類のツールが登場しつつある。
これらのツールは、微調整やコンテキスト情報によるユーザプロンプトの強化といった手法を用いて、欠点を軽減することを目的としている。
本稿では,CodeBuddy と呼ばれる検索技術を用いて,ソフトウェア開発チームが,このような文脈化された LLM ベースのアプリケーションの開発について学んだ教訓を掘り下げる。
LLMベースのアプリケーションで以前のプロフェッショナルな経験がなかったにも関わらず、チームは4ヶ月間にわたって、ゼロから製品を構築した。
最初の製品リリースの後、私たちはコード生成コンポーネントを担当する開発チームと関わりました。
アプリケーションのイシュートラッカに関するインタビューと分析を通じて、llmベースのアプリケーションに取り組んでいるチームが直面するさまざまな興味深い課題を明らかにする。
例えば、LLMベースのレッスン、ユーザベースのレッスン、技術的レッスンの3つの主要なグループを見つけました。
これらの教訓を理解することで、ソフトウェア開発チームはLCMベースのアプリケーションを構築する準備がより良くなるだろう。 With their exceptional natural language processing capabilities, tools based on Large Language Models (LLMs) like ChatGPT and Co-Pilot have swiftly become indispensable resources in the software developer's toolkit. While recent studies suggest the potential productivity gains these tools can unlock, users still encounter drawbacks, such as generic or incorrect answers. Additionally, the pursuit of improved responses often leads to extensive prompt engineering efforts, diverting valuable time from writing code that delivers actual value. To address these challenges, a new breed of tools, built atop LLMs, is emerging. These tools aim to mitigate drawbacks by employing techniques like fine-tuning or enriching user prompts with contextualized information. In this paper, we delve into the lessons learned by a software development team venturing into the creation of such a contextualized LLM-based application, using retrieval-based techniques, called CodeBuddy. Over a four-month period, the team, despite lacking prior professional experience in LLM-based applications, built the product from scratch. Following the initial product release, we engaged with the development team responsible for the code generative components. Through interviews and analysis of the application's issue tracker, we uncover various intriguing challenges that teams working on LLM-based applications might encounter. For instance, we found three main group of lessons: LLM-based lessons, User-based lessons, and Technical lessons. By understanding these lessons, software development teams could become better prepared to build LLM-based applications. | 翻訳日:2024-01-03 19:41:57 公開日:2024-01-02 |
# 定量的・質的統合分析を用いたリアルタイムオンライン株価予測 Real-Time Online Stock Forecasting Utilizing Integrated Quantitative and Qualitative Analysis ( http://arxiv.org/abs/2311.15218v4 ) ライセンス: Link先を確認 | Sai Akash Bathini, Dagli Cihan | (参考訳) 機械学習の金融への応用は、株式市場の予測よりもよく知られたアプローチになっている。
株式市場は揮発性が高く、全世界で毎分大量のデータが生成される。
このデータから効果的なインテリジェンスを抽出することが重要である。
しかし,数値ストックデータと定性的テキストデータとの協調は難しい課題である。
本研究は,ニュースアーカイブ,テレビニュースキャプション,ラジオ書き起こし,つぶやき,日刊金融新聞等から収集した,技術的および基本的データと感情を備えた,前例のない公開データセットを提供することにより,これを実現する。
感情抽出に使われるテキストデータエントリは合計で140万以上である。
データセットは、2018年1月から2022年12月までの、さまざまな産業部門を代表する8社とダウ・ジョーンズ工業平均(djia)全体の日刊エントリで構成されている。
モデル学習とデプロイの準備が整った、ホロスティック基本および技術データを提供する。
最も重要なことに、生成したデータは、停滞データを使用しないために、毎日取得されるリアルタイムデータポイントによるインクリメンタルオンライン学習に使用できる。
データはAPIや自己設計の堅牢な情報検索技術から取り除かれ、レイテンシが極端に低く、金銭的コストもゼロになった。
これらの適応技術はあらゆる株式のデータ抽出を促進する。
さらに、リアルタイムデータよりもスピアマンのランク相関を利用して、株価リターンと感情分析を結びつけることで、DJIAや他の8銘柄に注目すべき結果をもたらし、精度は60%を超えている。
データセットはhttps://github.com/batking24/Huge-Stock-Datasetで公開されている。 The application of Machine learning to finance has become a familiar approach, even more so in stock market forecasting. The stock market is highly volatile, and huge amounts of data are generated every minute globally. The extraction of effective intelligence from this data is of critical importance. However, a collaboration of numerical stock data with qualitative text data can be a challenging task. In this work, we accomplish this by providing an unprecedented, publicly available dataset with technical and fundamental data and sentiment that we gathered from news archives, TV news captions, radio transcripts, tweets, daily financial newspapers, etc. The text data entries used for sentiment extraction total more than 1.4 Million. The dataset consists of daily entries from January 2018 to December 2022 for eight companies representing diverse industrial sectors and the Dow Jones Industrial Average (DJIA) as a whole. Holistic Fundamental and Technical data is provided training ready for Model learning and deployment. Most importantly, the data generated could be used for incremental online learning with real-time data points retrieved daily since no stagnant data was utilized. All the data was retired from APIs or self-designed robust information retrieval technologies with extremely low latency and zero monetary cost. These adaptable technologies facilitate data extraction for any stock. Moreover, the utilization of Spearman's rank correlation over real-time data, linking stock returns with sentiment analysis has produced noteworthy results for the DJIA and the eight other stocks, achieving accuracy levels surpassing 60%. The dataset is made available at https://github.com/batking24/Huge-Stock-Dataset. | 翻訳日:2024-01-03 19:41:35 公開日:2024-01-02 |
# Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents ( http://arxiv.org/abs/2310.19923v2 ) ライセンス: Link先を確認 | Michael G\"unther, Jackmin Ong, Isabelle Mohr, Alaeddine Abdessalem, Tanguy Abel, Mohammad Kalim Akram, Susana Guzman, Georgios Mastrapas, Saba Sturua, Bo Wang, Maximilian Werk, Nan Wang, Han Xiao | (参考訳) テキスト埋め込みモデルは、文を意味情報をカプセル化する固定サイズの特徴ベクトルに変換する強力なツールとして登場した。
これらのモデルは、情報検索、セマンティッククラスタリング、テキストの再ランクといったタスクには不可欠ですが、既存のオープンソースモデル、特にBERTのようなアーキテクチャ上に構築されたモデルでは、長いドキュメントの表現に苦労し、しばしば切り詰められます。
この課題を緩和するための一般的なアプローチは、文書を埋め込むために小さな段落に分割することである。
しかし、この戦略によりベクトルの集合がより大きくなり、結果としてメモリ消費が増加し、計算集約的なベクトル探索がレイテンシが上昇する。
これらの課題に対処するため,我々は8192トークンまで対応可能なオープンソースのテキスト埋め込みモデルであるjina embeddeds 2を紹介する。
このモデルは,従来の512token制限を超越し,長文処理を行うように設計されている。
Jina Embeddings 2はMTEBベンチマークの様々な組み込み関連タスクにおける最先端のパフォーマンスを達成するだけでなく、OpenAIのプロプライエタリなada-002モデルのパフォーマンスと一致する。
さらに,この拡張コンテキストによって,narrativeqaなどのタスクのパフォーマンスが向上することを示す実験を行った。 Text embedding models have emerged as powerful tools for transforming sentences into fixed-sized feature vectors that encapsulate semantic information. While these models are essential for tasks like information retrieval, semantic clustering, and text re-ranking, most existing open-source models, especially those built on architectures like BERT, struggle to represent lengthy documents and often resort to truncation. One common approach to mitigate this challenge involves splitting documents into smaller paragraphs for embedding. However, this strategy results in a much larger set of vectors, consequently leading to increased memory consumption and computationally intensive vector searches with elevated latency. To address these challenges, we introduce Jina Embeddings 2, an open-source text embedding model capable of accommodating up to 8192 tokens. This model is designed to transcend the conventional 512-token limit and adeptly process long documents. Jina Embeddings 2 not only achieves state-of-the-art performance on a range of embedding-related tasks in the MTEB benchmark but also matches the performance of OpenAI's proprietary ada-002 model. Additionally, our experiments indicate that an extended context can enhance performance in tasks such as NarrativeQA. | 翻訳日:2024-01-03 19:41:07 公開日:2024-01-02 |
# AIアライメント: 総合的な調査 AI Alignment: A Comprehensive Survey ( http://arxiv.org/abs/2310.19852v3 ) ライセンス: Link先を確認 | Jiaming Ji, Tianyi Qiu, Boyuan Chen, Borong Zhang, Hantao Lou, Kaile Wang, Yawen Duan, Zhonghao He, Jiayi Zhou, Zhaowei Zhang, Fanzhi Zeng, Kwan Yee Ng, Juntao Dai, Xuehai Pan, Aidan O'Gara, Yingshan Lei, Hua Xu, Brian Tse, Jie Fu, Stephen McAleer, Yaodong Yang, Yizhou Wang, Song-Chun Zhu, Yike Guo, Wen Gao | (参考訳) AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うことを目的としている。
AIシステムがより有能になるにつれて、ミスアライメントによるリスクも高まる。
アライメント分野の包括的かつ最新の概観を提供するため,本調査ではアライメントの中核的概念,方法論,実践について考察する。
まず、ロバスト性、解釈可能性、制御可能性、倫理性(rice)の4つの原則をaiアライメントの重要な目的とします。
これら4つの原則に基づいて、現在のアライメント研究の展望を概説し、それらを2つの重要なコンポーネント、前方アライメントと後方アライメントに分解する。
前者はアライメントトレーニングを通じてAIシステムをアライメントさせることを目標とし、後者はシステムアライメントに関する証拠を取得し、不正調整リスクの悪化を避けるためにそれらを適切に管理することを目的としている。
本稿では,分散シフト下でのフィードバックと学習から学ぶ手法について考察する。
後方調整について,保証技術とガバナンスの実践について論じる。
また、チュートリアル、論文のコレクション、ブログ投稿、その他のリソースを含むウェブサイト(www.alignmentsurvey.com)もリリースし、継続的に更新しています。 AI alignment aims to make AI systems behave in line with human intentions and values. As AI systems grow more capable, so do risks from misalignment. To provide a comprehensive and up-to-date overview of the alignment field, in this survey, we delve into the core concepts, methodology, and practice of alignment. First, we identify four principles as the key objectives of AI alignment: Robustness, Interpretability, Controllability, and Ethicality (RICE). Guided by these four principles, we outline the landscape of current alignment research and decompose them into two key components: forward alignment and backward alignment. The former aims to make AI systems aligned via alignment training, while the latter aims to gain evidence about the systems' alignment and govern them appropriately to avoid exacerbating misalignment risks. On forward alignment, we discuss techniques for learning from feedback and learning under distribution shift. On backward alignment, we discuss assurance techniques and governance practices. We also release and continually update the website (www.alignmentsurvey.com) which features tutorials, collections of papers, blog posts, and other resources. | 翻訳日:2024-01-03 19:40:42 公開日:2024-01-02 |
# 大規模検索モデル:LLM時代の検索スタックの再定義 Large Search Model: Redefining Search Stack in the Era of LLMs ( http://arxiv.org/abs/2310.14587v2 ) ライセンス: Link先を確認 | Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei | (参考訳) 現代の検索エンジンは、クエリ理解、検索、多段階ランキング、質問応答など、さまざまなコンポーネントのスタック上に構築されている。
これらのコンポーネントはしばしば最適化され、独立してデプロイされる。
本稿では,従来の検索スタックを再定義し,検索タスクを1つの大規模言語モデル(llm)で統一する,大規模検索モデルと呼ばれる新しい概念的枠組みを提案する。
全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語プロンプトを使ってタスクをカスタマイズできる。
提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
この枠組みの実現可能性を明らかにするために,概念実証実験を複数実施し,実世界の検索システムにおけるこのアプローチの実装に伴う潜在的な課題について考察する。 Modern search engines are built on a stack of different components, including query understanding, retrieval, multi-stage ranking, and question answering, among others. These components are often optimized and deployed independently. In this paper, we introduce a novel conceptual framework called large search model, which redefines the conventional search stack by unifying search tasks with one large language model (LLM). All tasks are formulated as autoregressive text generation problems, allowing for the customization of tasks through the use of natural language prompts. This proposed framework capitalizes on the strong language understanding and reasoning capabilities of LLMs, offering the potential to enhance search result quality while simultaneously simplifying the existing cumbersome search stack. To substantiate the feasibility of this framework, we present a series of proof-of-concept experiments and discuss the potential challenges associated with implementing this approach within real-world search systems. | 翻訳日:2024-01-03 19:40:21 公開日:2024-01-02 |
# チェーンワイド刺激ラマンショートカット-アディバティックパスによる超低温深層分子の高効率創製と検出 Highly Efficient Creation and Detection of Ultracold Deeply-Bound Molecules via Chainwise Stimulated Raman Shortcut-to-Adiabatic Passage ( http://arxiv.org/abs/2310.11071v5 ) ライセンス: Link先を確認 | Jiahui Zhang, Li Deng, Yueping Niu, Shangqing Gong | (参考訳) M型分子系における連鎖的に刺激されたラマン断熱通路(C-STIRAP)は、状態間のフランク・コンドン因子の弱さにより典型的なSTIRAPが機能しない場合、超低温のディープバウンド分子を生成する良い方法である。
しかし、スムーズな進化の過程における生成効率は概して低い。
この過程の間、中間状態の個体群は急速に崩壊し、強いレーザーパルスは多光子過程を誘導する。
本稿では,C-STIRAPの性能向上に,ショートカット・トゥ・アディバティック(STA)パスが適していることを示す。
現在、連鎖的に刺激されたラマン短絡-断熱通路(C-STIRSAP)に関する関連する議論は稀である。
ここでは、このトピックを断熱的除去の下で検討する。
4つの入射パルスの関係を考えると、m型系が最も単純な共振結合を持つ効果的な {\lambda} 型構造に一般化できることは非常に興味深い。
したがって、三状態系に対するstaの可能な全ての方法が借用できる。
分子システム上での処理を実証するために, 反断熱駆動法と "chosen path" 法を例に挙げた。
本手法は, 励起状態が強い場合, 実3状態系ではうまく動作しないが, 両方式のC-STIRSAPプロトコルは, M型系では高効率で極低温の深い分子を生成できる。
強度レーザーパルスを使わずに進化時間を短縮し、STAのロバスト性は良好に保存される。
最後に,超低温深層分子の検出について論じる。 Chainwise stimulated Raman adiabatic passage (C-STIRAP) in M-type molecular system is a good alternative in creating ultracold deeply-bound molecules when the typical STIRAP in {\Lambda}-type system does not work due to weak Frank-Condon factors between states. However, its creation efficiency under the smooth evolution is generally low. During the process, the population in the intermediate states may decay out quickly and the strong laser pulses may induce multi-photon processes. In this paper, we find that shortcut-to-adiabatic (STA) passage fits very well in improving the performance of the C-STIRAP. Currently, related discussions on the so-called chainwise stimulated Raman shortcut-to-adiabatic passage (C-STIRSAP) are rare. Here, we investigate this topic under the adiabatic elimination. Given a relation among the four incident pulses, it is quite interesting that the M-type system can be generalized into an effective {\Lambda}-type structure with the simplest resonant coupling. Consequently, all possible methods of STA for three-state system can be borrowed. We take the counter-diabatic driving and "chosen path" method as instances to demonstrate our treatment on the molecular system. Although the "chosen path" method does not work well in real three-state system if there is strong decay in the excited state, our C-STIRSAP protocol under both the two methods can create ultracold deeply-bound molecules with high efficiency in the M-type system. The evolution time is shortened without strong laser pulses and the robustness of STA is well preserved. Finally, the detection of ultracold deeply-bound molecules is discussed. | 翻訳日:2024-01-03 19:40:06 公開日:2024-01-02 |
# 共振駆動型アンサンブルにおける量子デファスメントの能動抑制 Active Suppression of Quantum Dephasing in Resonantly Driven Ensembles ( http://arxiv.org/abs/2310.10525v2 ) ライセンス: Link先を確認 | Chengxing He, Robert R. Jones | (参考訳) 我々は量子制御を用いて原子対内のコヒーレント集団移動に対するランダム原子位置の影響を抑え、数百個の原子を持つリドバーグ気体における双極子-双極子駆動ラビ振動の観測を可能にした。
本手法は、オフ共振rabi周波数の結合強度感度を低減し、非線形光学系における準位相マッチングに類似した実現可能な集団移動をコヒーレントに増幅する。
シミュレーションは実験結果を再現し、他の多体量子制御アプリケーションに対する技術の可能性を示す。 We have used quantum control to suppress the impact of random atom positions on coherent population transfer within atom pairs, enabling the observation of dipole-dipole driven Rabi oscillations in a Rydberg gas with hundreds of atoms. The method exploits the reduced coupling-strength sensitivity of the off-resonant Rabi frequency, and coherently amplifies the achievable population transfer in analogy to quasi-phase-matching in non-linear optics. Simulations reproduce the experimental results and demonstrate the potential benefits of the technique to other many-body quantum control applications. | 翻訳日:2024-01-03 19:39:31 公開日:2024-01-02 |
# セットバックから知恵を得る - ミス分析による大規模言語モデルの整合 Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis ( http://arxiv.org/abs/2310.10477v4 ) ライセンス: Link先を確認 | Kai Chen, Chunwei Wang, Kuo Yang, Jianhua Han, Lanqing Hong, Fei Mi, Hang Xu, Zhengying Liu, Wenyong Huang, Zhenguo Li, Dit-Yan Yeung, Lifeng Shang, Xin Jiang, Qun Liu | (参考訳) 大規模言語モデル(llm)の急速な発展は、多くの機会をもたらしただけでなく、大きな課題ももたらした。
LLMが意図しないもしくは意図的な誘導によって有害または有害な物質を不注意に生成すると、これは特に明らかになる。
既存のアライメント手法は通常、人間が注釈付き、不完全な命令応答ペアを利用することで好ましい結果にllmを向ける。
逆に, 誤りの原因や回避方法を学習するために, LLMを誤った内容に意図的に公開する, 誤り解析に基づく新しいアライメント手法を提案する。
この場合、ミスはアライメントのために貴重なデータに再利用され、誤応答の発生を効果的に回避する。
外部モデルや人的アノテーションがなければ,本手法は,望ましくない誤りを識別し,生成した応答の安全性を向上させるモデル固有の能力を利用する。
実験結果から,本手法はモデル安全性を向上させるために既存のアライメント手法よりも優れていることがわかった。 The rapid development of large language models (LLMs) has not only provided numerous opportunities but also presented significant challenges. This becomes particularly evident when LLMs inadvertently generate harmful or toxic content, either unintentionally or because of intentional inducement. Existing alignment methods usually direct LLMs toward the favorable outcomes by utilizing human-annotated, flawless instruction-response pairs. Conversely, this study proposes a novel alignment technique based on mistake analysis, which deliberately exposes LLMs to erroneous content to learn the reasons for mistakes and how to avoid them. In this case, mistakes are repurposed into valuable data for alignment, effectively helping to avoid the production of erroneous responses. Without external models or human annotations, our method leverages a model's intrinsic ability to discern undesirable mistakes and improves the safety of its generated responses. Experimental results reveal that our method outperforms existing alignment approaches in enhancing model safety while maintaining the overall utility. | 翻訳日:2024-01-03 19:38:43 公開日:2024-01-02 |
# Reward-Augmented Decoding:一方向リワードモデルによる効率的なテキスト生成 Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model ( http://arxiv.org/abs/2310.09520v4 ) ライセンス: Link先を確認 | Haikang Deng, Colin Raffel | (参考訳) 大規模な言語モデルは、ダウンストリームアプリケーションで効果的であることが証明されているが、しばしば問題のあるテキストを生成したり、望ましい属性を欠いたりする。
本稿では,小さな一方向報酬モデルを用いたテキスト生成手法であるReward-Augmented Decoding(RAD)を紹介する。
具体的には、RADは報酬モデルを使用して、生成した世代をスコアし、サンプリング確率を再スケールし、ハイリワードトークンを好む。
一方向の報酬モデルを使用することで、RADは前世代からのアクティベーションをキャッシュすることで、計算オーバーヘッドを低減できる。
非有毒で感情制御されたテキストを生成する実験を通じて、radは生成手順のみを変更し、言語モデルの再学習を伴う最先端のメソッドのパフォーマンスに合致する手法の中で最高の性能を示す。
さらに、RADは計算オーバーヘッドを最小限に抑えつつ、非常に大きな言語モデルに有効であることを示す。 While large language models have proven effective in a huge range of downstream applications, they often generate text that is problematic or lacks a desired attribute. In this paper, we introduce Reward-Augmented Decoding (RAD), a text generation procedure that uses a small unidirectional reward model to encourage a language model to generate text that has certain properties. Specifically, RAD uses the reward model to score generations as they are produced and rescales sampling probabilities to favor high-reward tokens. By using a unidirectional reward model, RAD can cache activations from prior generation steps to decrease computational overhead. Through experiments on generating non-toxic and sentiment-controlled text, we demonstrate that RAD performs best among methods that change only the generation procedure and matches the performance of state-of-the-art methods that involve re-training the language model. We further validate that RAD is effective on very large language models while incurring a minimal computational overhead. | 翻訳日:2024-01-03 19:37:56 公開日:2024-01-02 |
# ラットの薬物動態予測のためのディープニューラルネットワーク-機械ハイブリッドモデル A Deep Neural Network -- Mechanistic Hybrid Model to Predict Pharmacokinetics in Rat ( http://arxiv.org/abs/2310.09167v2 ) ライセンス: Link先を確認 | Florian F\"uhrer, Andrea Gruber, Holger Diedam, Andreas H. G\"oller, Stephan Menz, Sebastian Schneckener | (参考訳) 薬物やアグロケミカルなどの小分子の開発における重要な側面は、静脈内および経口投与後の全身投与である。
候補候補の化学構造から体系的可用性を予測することは非常に望ましいものであり、薬物や農薬の発達を好適な運動プロファイルを持つ化合物に焦点を合わせることができる。
しかし, 分子特性, 生物学, 生理学, トレーニングデータとの複雑な相互作用の結果, 可用性は極めて困難である。
本研究では, 先行する [1] のハイブリッドモデルを改良する。
口腔全露出の中央値は2.85から2.35に減少し,静脈内投与は1.95から1.62に減少した。
これは、より大きなデータセットのトレーニング、ニューラルネットワークアーキテクチャの改善、および機械モデルのパラメータ化によって達成される。
さらに私たちは,新たなエンドポイントの予測や,セックスやドセージフォームなど,さまざまなコ変量を扱うためのアプローチを拡張しています。
純粋な機械学習モデルとは対照的に、我々のモデルはトレーニングされていない新しいエンドポイントを予測することができる。
最初の24時間で露光を予測することで,この特徴を実証する一方,モデルは全露光でのみ訓練されている。 An important aspect in the development of small molecules as drugs or agro-chemicals is their systemic availability after intravenous and oral administration. The prediction of the systemic availability from the chemical structure of a potential candidate is highly desirable, as it allows to focus the drug or agrochemical development on compounds with a favorable kinetic profile. However, such pre-dictions are challenging as the availability is the result of the complex interplay between molecular properties, biology and physiology and training data is rare. In this work we improve the hybrid model developed earlier [1]. We reduce the median fold change error for the total oral exposure from 2.85 to 2.35 and for intravenous administration from 1.95 to 1.62. This is achieved by training on a larger data set, improving the neural network architecture as well as the parametrization of mechanistic model. Further, we extend our approach to predict additional endpoints and to handle different covariates, like sex and dosage form. In contrast to a pure machine learning model, our model is able to predict new end points on which it has not been trained. We demonstrate this feature by predicting the exposure over the first 24h, while the model has only been trained on the total exposure. | 翻訳日:2024-01-03 19:37:38 公開日:2024-01-02 |
# Deep Learning Image Age Approximationにおけるコンテンツバイアス: 説明可能性向上に向けた新しいアプローチ Content Bias in Deep Learning Image Age Approximation: A new Approach Towards better Explainability ( http://arxiv.org/abs/2310.02067v2 ) ライセンス: Link先を確認 | Robert J\"ochl and Andreas Uhl | (参考訳) 時間的画像法医学の文脈では、異なる時間スロット(クラス)の画像に基づいて訓練されたニューラルネットワークが、画像年齢に関連する特徴のみを活用することは明らかではない。
通常、近接的に撮影された画像(例えば同じ年齢階級に属する)は、いくつかの共通のコンテンツ特性を共有している。
このようなコンテンツバイアスはニューラルネットワークによって利用することができる。
本研究では,画像コンテンツの影響を評価する新しい手法を提案する。
このアプローチは、年齢信号が埋め込まれた合成画像(コンテンツバイアスを除外できる)を用いて検証される。
提案手法により,年齢分類の文脈における深層学習手法は,画像内容に大きく依存している可能性が示唆された。
画像のステグアナリシスの分野における2つの異なるモデルと,信号対雑音比(age信号と画像内容)を増加させるための3つの前処理技術について,提案手法を用いて評価した。 In the context of temporal image forensics, it is not evident that a neural network, trained on images from different time-slots (classes), exploits solely image age related features. Usually, images taken in close temporal proximity (e.g., belonging to the same age class) share some common content properties. Such content bias can be exploited by a neural network. In this work, a novel approach is proposed that evaluates the influence of image content. This approach is verified using synthetic images (where content bias can be ruled out) with an age signal embedded. Based on the proposed approach, it is shown that a deep learning approach proposed in the context of age classification is most likely highly dependent on the image content. As a possible countermeasure, two different models from the field of image steganalysis, along with three different preprocessing techniques to increase the signal-to-noise ratio (age signal to image content), are evaluated using the proposed method. | 翻訳日:2024-01-03 19:37:20 公開日:2024-01-02 |
# Memory Gym: エージェントのメモリ能力のベンチマークに終止符を打つ Memory Gym: Towards Endless Tasks to Benchmark Memory Capabilities of Agents ( http://arxiv.org/abs/2309.17207v2 ) ライセンス: Link先を確認 | Marco Pleines and Matthias Pallasch and Frank Zimmer and Mike Preuss | (参考訳) Memory GymはMortar Mayhem、Mystery Path、Searing Spotlightsという、意思決定エージェントのメモリ能力をベンチマークするために設計された2D部分観測可能な環境スイートを提供する。
これらの環境はもともと有限なタスクを持ち、''I pack my bag''のような累積記憶ゲームにおけるエスカレーション課題を反映して、革新的で無限の形式に拡張されている。
このタスク設計の進歩は、単なるサンプル効率の評価から、動的で長期のシナリオにおけるメモリ効率のレベルの調査へと焦点を移す。
利用可能なメモリベースのDeep Reinforcement Learningベースラインのギャップを解決するために,Transformer-XL (TrXL) とプロキシポリシー最適化を統合した実装を導入する。
このアプローチでは、TrXLをエピソードメモリの形式として使用し、スライディングウインドウ技術を用いる。
Gated Recurrent Unit (GRU) と TrXL の比較では,異なる設定で異なる性能を示す。
trxlは, 有限環境において, モルタルメイヘムのミステリーパスにおいて優れた試料効率を示す。
しかし、GRUはSeaning Spotlightsよりも効率的である。
最も注目すべきは、すべての無限のタスクにおいて、GRUは顕著な復活を行い、TrXLを著しく上回っていることである。
Webサイトとソースコード: \url{https://github.com/MarcoMeter/endless-Memory-gym/} Memory Gym presents a suite of 2D partially observable environments, namely Mortar Mayhem, Mystery Path, and Searing Spotlights, designed to benchmark memory capabilities in decision-making agents. These environments, originally with finite tasks, are expanded into innovative, endless formats, mirroring the escalating challenges of cumulative memory games such as ``I packed my bag''. This progression in task design shifts the focus from merely assessing sample efficiency to also probing the levels of memory effectiveness in dynamic, prolonged scenarios. To address the gap in available memory-based Deep Reinforcement Learning baselines, we introduce an implementation that integrates Transformer-XL (TrXL) with Proximal Policy Optimization. This approach utilizes TrXL as a form of episodic memory, employing a sliding window technique. Our comparative study between the Gated Recurrent Unit (GRU) and TrXL reveals varied performances across different settings. TrXL, on the finite environments, demonstrates superior sample efficiency in Mystery Path and outperforms in Mortar Mayhem. However, GRU is more efficient on Searing Spotlights. Most notably, in all endless tasks, GRU makes a remarkable resurgence, consistently outperforming TrXL by significant margins. Website and Source Code: \url{https://github.com/MarcoMeter/endless-memory-gym/} | 翻訳日:2024-01-03 19:37:03 公開日:2024-01-02 |
# グローバルな特徴ピラミッドネットワーク Global Feature Pyramid Network ( http://arxiv.org/abs/2312.11231v2 ) ライセンス: Link先を確認 | Weilin Xiao, Ming Xu and Yonggui Lin | (参考訳) 視覚的特徴ピラミッドは、目標検出タスクの有効性と効率性を証明している。
しかし、現在の手法は層間特徴の相互作用を過度に強調し、層間特徴調整の重要な側面を無視する傾向にある。
experienceは、ターゲット検出タスクの強化における層内特徴の相互作用の重要な利点を強調する。
いくつかのアプローチでは、注意機構や視覚変換器を用いて層内特徴表現の凝縮を学習しようとするが、グローバルな情報相互作用の組み入れを見落としている。
この見落としは、誤検出の増加と目標の欠落を招き、この問題に対処するため、本論文では、ターゲット検出にグローバル情報を統合したpafpnの拡張版であるglobal feature pyramid network(gfpnet)を紹介する。
具体的には、軽量MLPを利用してグローバルな特徴情報をキャプチャし、VNCエンコーダを使ってこれらの特徴を処理し、並列学習機構を用いて入力画像から層内特徴を抽出する。
この基盤の上に構築したPAFPN法は,多層的特徴の相互作用を促進するため,多層的特徴の相互作用の促進,多層的特徴の抽出,および従来の特徴のピラミッドと対比して,GFPNは層間特徴情報を効果的に重視するだけでなく,グローバルな特徴の詳細を捉え,層間特徴の相互作用を育み,より包括的でインパクトのある特徴の表現を生成する。
GFPNは一貫してオブジェクト検出ベースラインよりもパフォーマンスが向上している。 The visual feature pyramid has proven its effectiveness and efficiency in target detection tasks. Yet, current methodologies tend to overly emphasize inter-layer feature interaction, neglecting the crucial aspect of intra-layer feature adjustment. Experience underscores the significant advantages of intra-layer feature interaction in enhancing target detection tasks. While some approaches endeavor to learn condensed intra-layer feature representations using attention mechanisms or visual transformers, they overlook the incorporation of global information interaction. This oversight results in increased false detections and missed targets.To address this critical issue, this paper introduces the Global Feature Pyramid Network (GFPNet), an augmented version of PAFPN that integrates global information for enhanced target detection. Specifically, we leverage a lightweight MLP to capture global feature information, utilize the VNC encoder to process these features, and employ a parallel learnable mechanism to extract intra-layer features from the input image. Building on this foundation, we retain the PAFPN method to facilitate inter-layer feature interaction, extracting rich feature details across various levels.Compared to conventional feature pyramids, GFPN not only effectively focuses on inter-layer feature information but also captures global feature details, fostering intra-layer feature interaction and generating a more comprehensive and impactful feature representation. GFPN consistently demonstrates performance improvements over object detection baselines. | 翻訳日:2024-01-03 19:31:07 公開日:2024-01-02 |
# 新しいデータセットとグローバルリンクモデルを用いた多動カメラ歩行者追跡 Multi-Moving Camera Pedestrian Tracking with a New Dataset and Global Link Model ( http://arxiv.org/abs/2312.11035v2 ) ライセンス: Link先を確認 | Yanting Zhang, Shuanghong Wang, Qingxiang Wang, Cairong Yan, Rui Fan | (参考訳) 自動運転車の運転安全性の確保はますます重要になってきており、道路上の歩行者の系統的な追跡の必要性が浮き彫りになっている。
ほとんどの車両には視覚センサーが装備されているが、異なるエージェントによる大規模なビジュアルデータセットはまだ十分に研究されていない。
基本的に、MTMC(Multi-target Multi-camera)追跡システムは、シングルカメラトラッキング(SCT)とインターカメラトラッキング(ICT)の2つのモジュールで構成されている。
MTMCのトラッキングは非常に複雑な作業だが、複数のカメラをまたいで追跡することはさらに困難だ。
本稿では,MTMMC(Multi-target Multi-moving Camera)の追跡に焦点をあて,研究コミュニティから注目が集まっている。
MTMMC追跡のためのデータセットはほとんどないため、さまざまな駆動シナリオの下でシーケンスを含むMulti-Moving Camera Track (MMCT)と呼ばれる新しいデータセットを収集します。
既存のほとんどのSCTトラッカーで直面するアイデンティティスイッチの一般的な問題,特にカメラとターゲット間のエゴモーションによる移動カメラに対処するため,Linkerと呼ばれる軽量なグローバルリンクモデルが提案され,同じターゲットの2つの解離トラックレットを同一カメラ内の完全な軌道に関連付けることでアイデンティティスイッチを緩和する。
Linkerを組み込んだ既存のSCTトラッカーは、一般的に大幅に改善されている。
さらに,ICT 用移動カメラ間の歩行者関連環境下での堅牢な外観特徴を抽出するために,Re-ID (Re-ID) の強力なベースラインアプローチを効果的に組み込むことにより,MTMMC トラッキングシステムを大幅に改良し,複数の移動カメラの協調マイニングに向けた一歩を踏み出すことができる。
データセットはhttps://github.com/dhu-mmct/DHU-MMCT}{https://github.com/dhu-mmct/DHU-MMCTで入手できる。 Ensuring driving safety for autonomous vehicles has become increasingly crucial, highlighting the need for systematic tracking of pedestrians on the road. Most vehicles are equipped with visual sensors, however, the large-scale visual dataset from different agents has not been well studied yet. Basically, most of the multi-target multi-camera (MTMC) tracking systems are composed of two modules: single camera tracking (SCT) and inter-camera tracking (ICT). To reliably coordinate between them, MTMC tracking has been a very complicated task, while tracking across multi-moving cameras makes it even more challenging. In this paper, we focus on multi-target multi-moving camera (MTMMC) tracking, which is attracting increasing attention from the research community. Observing there are few datasets for MTMMC tracking, we collect a new dataset, called Multi-Moving Camera Track (MMCT), which contains sequences under various driving scenarios. To address the common problems of identity switch easily faced by most existing SCT trackers, especially for moving cameras due to ego-motion between the camera and targets, a lightweight appearance-free global link model, called Linker, is proposed to mitigate the identity switch by associating two disjoint tracklets of the same target into a complete trajectory within the same camera. Incorporated with Linker, existing SCT trackers generally obtain a significant improvement. Moreover, a strong baseline approach of re-identification (Re-ID) is effectively incorporated to extract robust appearance features under varying surroundings for pedestrian association across moving cameras for ICT, resulting in a much improved MTMMC tracking system, which can constitute a step further towards coordinated mining of multiple moving cameras. The dataset is available at https://github.com/dhu-mmct/DHU-MMCT}{https://github.com/dhu-mmct/DHU-MMCT . | 翻訳日:2024-01-03 19:30:41 公開日:2024-01-02 |
# styleinger: ドメイン外の歌声合成のためのスタイル転送 StyleSinger: Style Transfer for Out-of-Domain Singing Voice Synthesis ( http://arxiv.org/abs/2312.10741v2 ) ライセンス: Link先を確認 | Yu Zhang, Rongjie Huang, Ruiqi Li, JinZheng He, Yan Xia, Feiyang Chen, Xinyu Duan, Baoxing Huai, Zhou Zhao | (参考訳) out-of-domain(ood)の歌唱音声合成(svs)のためのスタイル転送は、参照歌唱音声サンプルから派生した、未熟なスタイル(音色、感情、発音、調音スキルなど)による高品質な歌唱音声の生成に焦点を当てている。
しかし、歌声の歌唱スタイルの複雑なニュアンスをモデル化する試みは、顕著な表現力を持っているため、困難な作業である。
さらに,既存のSVS手法では,OODシナリオにおける合成歌声の質の低下に遭遇する。
これらの課題を克服するために、ドメイン外参照音声サンプルのゼロショットスタイル転送のための最初の歌唱音声合成モデルであるStyleSingerを提案する。
StyleSingerには2つの重要なアプローチが組み込まれている。
1) 残差量子化モジュールを用いて歌唱音声の多様なスタイル特性を捉える残差スタイル適応器(rsa)
2) Uncertainty Modeling Layer Normalization (UMLN) は、トレーニングフェーズ中にコンテンツ表現内のスタイル属性を摂動させ、モデル一般化を改善する。
ゼロショットスタイル転送における広範囲な評価は、StyleSingerが基準歌唱音声サンプルの音質と類似性の両方でベースラインモデルより優れていることを確実に証明している。
歌声サンプルへのアクセスはhttps://stylesinger.github.io/にある。 Style transfer for out-of-domain (OOD) singing voice synthesis (SVS) focuses on generating high-quality singing voices with unseen styles (such as timbre, emotion, pronunciation, and articulation skills) derived from reference singing voice samples. However, the endeavor to model the intricate nuances of singing voice styles is an arduous task, as singing voices possess a remarkable degree of expressiveness. Moreover, existing SVS methods encounter a decline in the quality of synthesized singing voices in OOD scenarios, as they rest upon the assumption that the target vocal attributes are discernible during the training phase. To overcome these challenges, we propose StyleSinger, the first singing voice synthesis model for zero-shot style transfer of out-of-domain reference singing voice samples. StyleSinger incorporates two critical approaches for enhanced effectiveness: 1) the Residual Style Adaptor (RSA) which employs a residual quantization module to capture diverse style characteristics in singing voices, and 2) the Uncertainty Modeling Layer Normalization (UMLN) to perturb the style attributes within the content representation during the training phase and thus improve the model generalization. Our extensive evaluations in zero-shot style transfer undeniably establish that StyleSinger outperforms baseline models in both audio quality and similarity to the reference singing voice samples. Access to singing voice samples can be found at https://stylesinger.github.io/. | 翻訳日:2024-01-03 19:30:05 公開日:2024-01-02 |
# MusER:シンボリック音楽の感情生成のための音楽要素ベース正規化 MusER: Musical Element-Based Regularization for Generating Symbolic Music with Emotion ( http://arxiv.org/abs/2312.10307v2 ) ライセンス: Link先を確認 | Shulei Ji and Xinyu Yang | (参考訳) 感情による音楽の生成は、時間とともに変化し、互いに協調する様々な音楽要素(ピッチや持続時間など)を通じて感情を誘発する自動音楽生成において重要なタスクである。
しかしながら、深層学習に基づく感情音楽生成に関する先行研究は、感情に対する要素レベルの微粒度制御に起因しない、音楽の感情を変えるためにこれらの要素を意図的に操作することなしに、感情への異なる音楽要素の寄与をほとんど探求していない。
このギャップに対処するために, 潜在空間における音楽的要素に基づく正則化を用いて, 異なる要素を分離し, 感情の識別におけるそれらの役割を調査し, さらに音楽的感情を変化させる要素を操作する新しいアプローチを提案する。
具体的には,新しいVQ-VAEモデルであるMusERを提案する。
MusERは正規化損失を組み込んで、音楽要素列と潜在変数列の特定次元の対応を強制し、離散列をアンタングする新しい解決策を提供する。
切り離された潜在ベクトルの利点を生かして、異なる意味を持つ潜在ベクトルに参加する複数の復号器を含む2段階の復号法が考案された。
潜在空間を可視化することにより、ミューサーは不連続で解釈可能な潜在空間を生じさせ、感情的な次元(すなわち覚醒とヴァレンス)に対する異なる要素の寄与についての洞察を得る。
実験の結果,MusERは客観的および主観的評価の両方で感情音楽を生成する最先端のモデルよりも優れていた。
さらに、要素移動を通して音楽を再配置し、感情の区別可能な要素を伝達することで音楽の感情を変えようとする。 Generating music with emotion is an important task in automatic music generation, in which emotion is evoked through a variety of musical elements (such as pitch and duration) that change over time and collaborate with each other. However, prior research on deep learning-based emotional music generation has rarely explored the contribution of different musical elements to emotions, let alone the deliberate manipulation of these elements to alter the emotion of music, which is not conducive to fine-grained element-level control over emotions. To address this gap, we present a novel approach employing musical element-based regularization in the latent space to disentangle distinct elements, investigate their roles in distinguishing emotions, and further manipulate elements to alter musical emotions. Specifically, we propose a novel VQ-VAE-based model named MusER. MusER incorporates a regularization loss to enforce the correspondence between the musical element sequences and the specific dimensions of latent variable sequences, providing a new solution for disentangling discrete sequences. Taking advantage of the disentangled latent vectors, a two-level decoding strategy that includes multiple decoders attending to latent vectors with different semantics is devised to better predict the elements. By visualizing latent space, we conclude that MusER yields a disentangled and interpretable latent space and gain insights into the contribution of distinct elements to the emotional dimensions (i.e., arousal and valence). Experimental results demonstrate that MusER outperforms the state-of-the-art models for generating emotional music in both objective and subjective evaluation. Besides, we rearrange music through element transfer and attempt to alter the emotion of music by transferring emotion-distinguishable elements. | 翻訳日:2024-01-03 19:29:40 公開日:2024-01-02 |
# 単一GPUにおけるデータ効率の良いマルチモーダル融合 Data-Efficient Multimodal Fusion on a Single GPU ( http://arxiv.org/abs/2312.10144v2 ) ライセンス: Link先を確認 | No\"el Vouitsis, Zhaoyan Liu, Satya Krishna Gorti, Valentin Villecroze, Jesse C. Cresswell, Guangwei Yu, Gabriel Loaiza-Ganem, Maksims Volkovs | (参考訳) マルチモーダルアライメントの目標は、マルチモーダル入力間で共有される単一の潜在空間を学習することである。
この分野でもっとも強力なモデルは、ペア化された入力と大規模な計算資源の膨大なデータセットを使用して訓練されており、多くの実践的なシナリオでトレーニングするのは非常に高価である。
我々は、大量のユニモーダルデータを事前学習した既存のユニモーダルエンコーダは、より低コストでユニモーダルデータからマルチモーダルモデルを作成するための効果的なブートストラップを提供するべきであると推測する。
そこで本稿では,任意の事前学習された単調エンコーダの潜在空間で動作するマルチモーダル拡張方式であるFuseMixを提案する。
マルチモーダルアライメントにFuseMixを使用することで、画像テキストとオーディオテキストの検索において、競合するパフォーマンス -- と、場合によっては最先端のメソッド -- を、桁違いに少ない計算とデータで上回ります。
600\times$GPUの日数を減らし、$\sim \!
80\times$少ない画像テキストペア。
さらに,事前学習したテキストから画像への生成モデルを音声から画像への変換に応用する方法を示す。
コードはhttps://github.com/layer6ai-labs/fusemix.com/で入手できる。 The goal of multimodal alignment is to learn a single latent space that is shared between multimodal inputs. The most powerful models in this space have been trained using massive datasets of paired inputs and large-scale computational resources, making them prohibitively expensive to train in many practical scenarios. We surmise that existing unimodal encoders pre-trained on large amounts of unimodal data should provide an effective bootstrap to create multimodal models from unimodal ones at much lower costs. We therefore propose FuseMix, a multimodal augmentation scheme that operates on the latent spaces of arbitrary pre-trained unimodal encoders. Using FuseMix for multimodal alignment, we achieve competitive performance -- and in certain cases outperform state-of-the art methods -- in both image-text and audio-text retrieval, with orders of magnitude less compute and data: for example, we outperform CLIP on the Flickr30K text-to-image retrieval task with $\sim \! 600\times$ fewer GPU days and $\sim \! 80\times$ fewer image-text pairs. Additionally, we show how our method can be applied to convert pre-trained text-to-image generative models into audio-to-image ones. Code is available at: https://github.com/layer6ai-labs/fusemix. | 翻訳日:2024-01-03 19:29:08 公開日:2024-01-02 |
# 合理的感性:自己呈示理論によるllm強化共感応答生成 Rational Sensibility: LLM Enhanced Empathetic Response Generation Guided by Self-presentation Theory ( http://arxiv.org/abs/2312.08702v3 ) ライセンス: Link先を確認 | Linzhuang Sun, Nan Xu, Jingxuan Wei, Bihui Yu, Liping Bu, Yin Luo | (参考訳) 共感する能力を持つことは、会話中の人間の行動を正確に表現するために重要である。
外部知識を取り入れたモデル認知能力の向上を目的とした研究が数多く行われているが、認知共感の重要な要素である会話自体の合理的かつ合理的な表現に注意が向けられている。
社会学における自己表現理論に導かれ, 歴史的対話を合理的かつ合理的な文に分離し, その後, 注意機構によって文脈を解明する, 革新的なカテゴリー的アプローチを考案した。
しかし,会話内の有理的な情報は制限されており,従来手法で用いられてきた外部知識は,意味的矛盾や視野の狭さに限界がある。
インテリジェントエージェントの領域におけるllmの印象的なパフォーマンスを考える。
llama2-70bを有理脳として,会話に保持される深い論理情報を分析し,感性と合理性のバランスを評価するモデルを用いて,質的共感応答を生成する。
実験により,本手法は自動評価と人的評価の両方において,他の同等の手法よりも優れていることが示された。 Having the ability to empathize is crucial for accurately representing human behavior during conversations. Despite numerous research aim to improve the cognitive capability of models by incorporating external knowledge, there has been limited attention on the sensible and rational expression of the conversation itself, which are crucial components of the cognitive empathy. Guided by self-presentation theory in sociology, we have designed an innovative categorical approach that segregates historical dialogues into sensible and rational sentences and subsequently elucidate the context through the designed attention mechanism. However, the rational information within the conversation is restricted and the external knowledge used in previous methods have limitations of semantic contradiction and narrow vision field. Considering the impressive performance of LLM in the domain of intelligent agent. We employ LLaMA2-70b as a rational brain to analyze the profound logical information maintained in conversations, which assists the model assessing the balance of sensibility and rationality to produce quality empathetic responses. Experimental evaluations demonstrate that our method outperforms other comparable methods on both automatic and human evaluations. | 翻訳日:2024-01-03 19:28:26 公開日:2024-01-02 |
# ネパールにおけるビデオキャプションのためのアテンションベースエンコーダデコーダモデル(2023年) Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023) ( http://arxiv.org/abs/2312.07418v2 ) ライセンス: Link先を確認 | Kabita Parajuli, Shashidhar Ram Joshi | (参考訳) デバナガリ文字で書かれた言語であるネパール語でのビデオキャプションは、この領域に既存の学術研究が欠如していることから、独特な挑戦である。
本研究は,ネパール語ビデオキャプションのためのエンコーダ-デコーダパラダイムを開発し,この問題に対処する。
LSTMおよびGRUシーケンス・ツー・シーケンスモデルを用いて、CNNを用いてビデオフレームから検索した特徴に基づいて関連するテキスト記述を生成する。
Google Translateと手動のポスト編集を使用して、Google Translateを使用して作成したMicrosoft Research Video Description Corpus(MSVD)データセットと手動のポスト編集作業から、ネパールのビデオキャプションデータセットを生成する。
このモデルの有効性をbleu, metor, rouge計を用いて検証し, 評価を行った。 Video captioning in Nepali, a language written in the Devanagari script, presents a unique challenge due to the lack of existing academic work in this domain. This work develops a novel encoder-decoder paradigm for Nepali video captioning to tackle this difficulty. LSTM and GRU sequence-to-sequence models are used in the model to produce related textual descriptions based on features retrieved from video frames using CNNs. Using Google Translate and manual post-editing, a Nepali video captioning dataset is generated from the Microsoft Research Video Description Corpus (MSVD) dataset created using Google Translate, and manual post-editing work. The efficacy of the model for Devanagari-scripted video captioning is demonstrated by BLEU, METOR, and ROUGE measures, which are used to assess its performance. | 翻訳日:2024-01-03 19:28:07 公開日:2024-01-02 |
# ギャップのブリッジ:モデル予測制御にインスパイアされた検証可能なモデルフリー二次プログラミングコントローラ Bridging the Gaps: Learning Verifiable Model-Free Quadratic Programming Controllers Inspired by Model Predictive Control ( http://arxiv.org/abs/2312.05332v3 ) ライセンス: Link先を確認 | Yiwen Lu, Zishuo Li, Yihan Zhou, Na Li, Yilin Mo | (参考訳) 本稿では,モデル予測制御(MPC)からインスピレーションを得た新しいパラメータ化コントローラについて紹介する。
コントローラは線形MPC問題の擬似プログラミング(QP)解法に似ており、コントローラのパラメータはシステムモデルから派生するのではなく、Deep Reinforcement Learning(DRL)を介して訓練されている。
このアプローチは、多層パーセプトロン(MLP)や他のDRLで使用される一般的なニューラルネットワークアーキテクチャによる共通コントローラの制限を、検証性と性能保証の観点から解決し、学習したコントローラは、MPCに似た持続可能性や漸近安定性などの検証可能な特性を有する。
一方,提案するコントローラは,制御性能の面ではmpcやmlpコントローラと実証的に一致し,モデリングの不確かさやノイズに対して優れたロバスト性を有することを示す数値例がある。
さらに,提案した制御器はMPCに比べて計算効率が良く,MLP制御器よりも学習パラメータが少ない。
車両のドリフト操作タスクに関する実世界実験は、ロボットやその他の必要な制御タスクにおけるこれらのコントローラーの可能性を示しています。 In this paper, we introduce a new class of parameterized controllers, drawing inspiration from Model Predictive Control (MPC). The controller resembles a Quadratic Programming (QP) solver of a linear MPC problem, with the parameters of the controller being trained via Deep Reinforcement Learning (DRL) rather than derived from system models. This approach addresses the limitations of common controllers with Multi-Layer Perceptron (MLP) or other general neural network architecture used in DRL, in terms of verifiability and performance guarantees, and the learned controllers possess verifiable properties like persistent feasibility and asymptotic stability akin to MPC. On the other hand, numerical examples illustrate that the proposed controller empirically matches MPC and MLP controllers in terms of control performance and has superior robustness against modeling uncertainty and noises. Furthermore, the proposed controller is significantly more computationally efficient compared to MPC and requires fewer parameters to learn than MLP controllers. Real-world experiments on vehicle drift maneuvering task demonstrate the potential of these controllers for robotics and other demanding control tasks. | 翻訳日:2024-01-03 19:27:22 公開日:2024-01-02 |
# ドローンの視覚に基づく学習 : 調査 Vision-based Learning for Drones: A Survey ( http://arxiv.org/abs/2312.05019v2 ) ライセンス: Link先を確認 | Jiaping Xiao, Rangya Zhang, Yuhang Zhang, and Mir Feroskhan | (参考訳) 高度なサイバーフィジカルシステムとしてのドローンは、ドローンの自律性と機能に大きな影響を与え、急速に注目を集めているビジョンベースの学習の出現によって、変革的な変化を遂げている。
これまでのタスク固有の調査とは違って、このレビューはドローンにおけるビジョンベースの学習の包括的な概要を提供し、様々なシナリオにおける運用能力の強化において重要な役割を強調する。
まず、視覚に基づく学習の基本原則を解明し、ドローンの視覚的認識と意思決定プロセスを大幅に改善する方法を強調します。
次に,視覚に基づく制御手法を,知覚制御の観点から間接的,半間接的,終末的なアプローチに分類する。
単一エージェントシステムからより複雑なマルチエージェントおよびヘテロジニアスシステムシナリオまで,学習能力を備えた視覚ベースのドローンのさまざまな応用について検討し,各領域を特徴付ける課題とイノベーションを強調する。
最後に、オープン質問と潜在的な解決策を探求し、この動的かつ急速に進化する分野における継続的な研究と開発への道を開く。
大型言語モデル(LLM)とインボディードインテリジェンス(インテリジェンス)の増大により、ドローンの視覚に基づく学習は、3D物理世界の人工知能(AGI)への有望だが挑戦的な道のりを提供する。 Drones as advanced cyber-physical systems are undergoing a transformative shift with the advent of vision-based learning, a field that is rapidly gaining prominence due to its profound impact on drone autonomy and functionality. Different from existing task-specific surveys, this review offers a comprehensive overview of vision-based learning in drones, emphasizing its pivotal role in enhancing their operational capabilities under various scenarios. We start by elucidating the fundamental principles of vision-based learning, highlighting how it significantly improves drones' visual perception and decision-making processes. We then categorize vision-based control methods into indirect, semi-direct, and end-to-end approaches from the perception-control perspective. We further explore various applications of vision-based drones with learning capabilities, ranging from single-agent systems to more complex multi-agent and heterogeneous system scenarios, and underscore the challenges and innovations characterizing each area. Finally, we explore open questions and potential solutions, paving the way for ongoing research and development in this dynamic and rapidly evolving field. With growing large language models (LLMs) and embodied intelligence, vision-based learning for drones provides a promising but challenging road towards artificial general intelligence (AGI) in 3D physical world. | 翻訳日:2024-01-03 19:27:01 公開日:2024-01-02 |
# ImFace++: 難解なニューラル表現を持つ高度化非線形3次元形態素顔モデル ImFace++: A Sophisticated Nonlinear 3D Morphable Face Model with Implicit Neural Representations ( http://arxiv.org/abs/2312.04028v2 ) ライセンス: Link先を確認 | Mingwu Zheng, Haiyu Zhang, Hongyu Yang, Liming Chen, Di Huang | (参考訳) 3次元顔の正確な表現は、様々なコンピュータビジョンやグラフィックスアプリケーションにおいて最重要となる。
しかし、データの離散化とモデル線形性によって課される制限により、現在の研究におけるアイデンティティと表現の手がかりの正確な取得が妨げられているため、課題は継続する。
本稿では,暗黙のニューラル表現を持つ高度で連続的な空間を学習するために,ImFace++という新しい3次元顔モデルを提案する。
ImFace++は、まず2つの明示的な非交叉変形場を構築し、それぞれアイデンティティと表現に関連する複雑な形状をモデル化し、同時に多様な顔形状の対応を自動学習する。
より洗練された顔の詳細をキャプチャするために、テンプレート空間内の精細化変位場がさらに組み込まれ、個々の顔の詳細をきめ細かく学習することができる。
さらに、ニューラルネットワークブレンドフィールドは、局所フィールドの配列の適応的なブレンドによって表現能力を強化するように設計されている。
imface++に加えて、表情埋め込みを拡張するための学習戦略を考案し、幅広い表現のバリエーションを可能にした。
包括的質的,定量的評価により,ImFace++は顔再構成の精度と対応精度の両方の観点から,最先端性を大幅に向上することが示された。 Accurate representations of 3D faces are of paramount importance in various computer vision and graphics applications. However, the challenges persist due to the limitations imposed by data discretization and model linearity, which hinder the precise capture of identity and expression clues in current studies. This paper presents a novel 3D morphable face model, named ImFace++, to learn a sophisticated and continuous space with implicit neural representations. ImFace++ first constructs two explicitly disentangled deformation fields to model complex shapes associated with identities and expressions, respectively, which simultaneously facilitate the automatic learning of correspondences across diverse facial shapes. To capture more sophisticated facial details, a refinement displacement field within the template space is further incorporated, enabling a fine-grained learning of individual-specific facial details. Furthermore, a Neural Blend-Field is designed to reinforce the representation capabilities through adaptive blending of an array of local fields. In addition to ImFace++, we have devised an improved learning strategy to extend expression embeddings, allowing for a broader range of expression variations. Comprehensive qualitative and quantitative evaluations demonstrate that ImFace++ significantly advances the state-of-the-art in terms of both face reconstruction fidelity and correspondence accuracy. | 翻訳日:2024-01-03 19:26:13 公開日:2024-01-02 |
# 文脈内学習の校正に関する研究 A Study on the Calibration of In-context Learning ( http://arxiv.org/abs/2312.04021v3 ) ライセンス: Link先を確認 | Hanlin Zhang, Yi-Fan Zhang, Yaodong Yu, Dhruv Madeka, Dean Foster, Eric Xing, Himabindu Lakkaraju, Sham Kakade | (参考訳) 言語モデル(lms)の安全な展開には正確な不確かさの定量化が不可欠であり、以前の研究は現代のlmsの校正の改善を実証している。
本研究では,適応型プロンプトによる静的lms適応手法であるin-context learning(icl)に着目し,自然言語理解と推論タスクの幅広い範囲にわたるパフォーマンスとキャリブレーションのバランスについて検討した。
総合的な実験を通して、ICLの例が増加するにつれて、まず、キャリブレーションが向上し、低ショット設定では誤校正が生じる傾向にある。
さらに, ファインチューニングやチェーン・オブ・シンクレット(CoT)などのユーザビリティ向上を目的とした手法が, 誤校正や信頼性の低い自然言語の説明に繋がる可能性があり, モデルの信頼性が期待できるシナリオに新たな手法が要求されることが示唆された。 Accurate uncertainty quantification is crucial for the safe deployment of language models (LMs), and prior research has demonstrated improvements in the calibration of modern LMs. Our study focuses on in-context learning (ICL), a prevalent method for adapting static LMs through tailored prompts, and examines the balance between performance and calibration across a broad spectrum of natural language understanding and reasoning tasks. Through comprehensive experiments, we observe that, with an increasing number of ICL examples, models initially exhibit increased miscalibration before achieving better calibration and miscalibration tends to arise in low-shot settings. Moreover, we find that methods aimed at improving usability, such as fine-tuning and chain-of-thought (CoT) prompting, can lead to miscalibration and unreliable natural language explanations, suggesting that new methods may be required for scenarios where models are expected to be reliable. | 翻訳日:2024-01-03 19:25:53 公開日:2024-01-02 |
# 多変量機能回帰における係数形状アライメント Coefficient Shape Alignment in Multivariate Functional Regression ( http://arxiv.org/abs/2312.01925v2 ) ライセンス: Link先を確認 | Shuhao Jiao and Ngai-Hang Chan | (参考訳) 多変量関数データ解析では、異なる機能的共変量は均質である。
隠された均質構造は、異なる共変体の接続や関連について情報を与える。
顕著な均一性を持つ共変量は同じ群内で共同で解析することができ、多変量関数データのパロニカルなモデリング方法が生まれる。
本稿では、「係数形状アライメント」と呼ばれる新しい正則化アプローチを用いた群付き多変量関数回帰モデルを開発し、異なる機能共変量のポテンシャル均質性に取り組む。
モデリング手順は、2つの主要なステップを含む: まず、未知のグループ構造を新しい正規化アプローチで検出し、その検出されたグループ構造に基づいて、共変数を解離群に集約し、グループ化された多変量関数回帰モデルを確立する。
この新しい群モデルでは、同じ等質群における共変量の係数関数は、スケーリングに不変な形状を持つ。
新しい正規化アプローチは係数形状の相違を罰することに基づいている。
検出されたグループ構造の一貫性を徹底的に検討し、基礎となる真のグループ構造を明らかにする条件を開発する。
モデル推定の漸近特性も開発されている。
本手法の有限サンプル特性を調べるために, 詳細なシミュレーションを行った。
提案手法の実用性について,糖質評価の実データ分析で概説した。
本研究は,機能的共変量の根底相同性を解析し,多変量関数データのための並列モデル構造を開発するための新しい手段を提供する。 In multivariate functional data analysis, different functional covariates can be homogeneous. The hidden homogeneity structure is informative about the connectivity or association of different covariates. The covariates with pronounced homogeneity can be analyzed jointly within the same group, which gives rise to a way of parsimoniously modeling multivariate functional data. In this paper, a novel grouped multivariate functional regression model with a new regularization approach termed "coefficient shape alignment" is developed to tackle the potential homogeneity of different functional covariates. The modeling procedure includes two main steps: first detect the unknown grouping structure with the new regularization approach to aggregate covariates into disjoint groups; and then the grouped multivariate functional regression model is established based on the detected grouping structure. In this new grouped model, the coefficient functions of covariates in the same homogeneous group share the same shape invariant to scaling. The new regularization approach builds on penalizing the discrepancy of coefficient shape. The consistency property of the detected grouping structure is thoroughly investigated, and the conditions that guarantee uncovering the underlying true grouping structure are developed. The asymptotic properties of the model estimates are also developed. Extensive simulation studies are conducted to investigate the finite-sample properties of the developed methods. The practical utility of the proposed methods is illustrated in the real data analysis on sugar quality evaluation. This work provides a novel means for analyzing the underlying homogeneity of functional covariates and developing parsimonious model structures for multivariate functional data. | 翻訳日:2024-01-03 19:25:34 公開日:2024-01-02 |
# 6d-diff: 6dオブジェクトポーズ推定のためのキーポイント拡散フレームワーク 6D-Diff: A Keypoint Diffusion Framework for 6D Object Pose Estimation ( http://arxiv.org/abs/2401.00029v2 ) ライセンス: Link先を確認 | Li Xu, Haoxuan Qu, Yujun Cai, Jun Liu | (参考訳) 単一のRGB画像から6Dオブジェクトのポーズを推定するには、オクルージョンや乱雑な背景といった課題のためにノイズや不確定性を伴うことが多い。
一方,拡散モデルでは,無作為な雑音から高画質画像を生成する場合,ステップバイステップのデノージングにより高画質画像を生成するのに好適な性能を示す。
そこで本研究では,オブジェクトポーズ推定におけるノイズや不確定性を扱うための拡散型フレームワーク(6D-Diff)を提案する。
本稿では, 正確な2D-3D対応を確立するために, 逆拡散(デノナイジング)プロセスとして2Dキーポイント検出を定式化する。
このような異化処理を容易にするために,混合コーシー系フォワード拡散プロセスを設計し,その逆過程を対象物の特徴に条件付ける。
LM-OおよびYCB-Vデータセットの大規模な実験により,本フレームワークの有効性が示された。 Estimating the 6D object pose from a single RGB image often involves noise and indeterminacy due to challenges such as occlusions and cluttered backgrounds. Meanwhile, diffusion models have shown appealing performance in generating high-quality images from random noise with high indeterminacy through step-by-step denoising. Inspired by their denoising capability, we propose a novel diffusion-based framework (6D-Diff) to handle the noise and indeterminacy in object pose estimation for better performance. In our framework, to establish accurate 2D-3D correspondence, we formulate 2D keypoints detection as a reverse diffusion (denoising) process. To facilitate such a denoising process, we design a Mixture-of-Cauchy-based forward diffusion process and condition the reverse process on the object features. Extensive experiments on the LM-O and YCB-V datasets demonstrate the effectiveness of our framework. | 翻訳日:2024-01-03 19:18:34 公開日:2024-01-02 |
# NextGプロトコルの形式検証の自動モデル化に向けて:多モード横断型および自己注意型大規模言語モデルアプローチ Towards Auto-Modeling of Formal Verification for NextG Protocols: A Multimodal cross- and self-attention Large Language Model Approach ( http://arxiv.org/abs/2312.17353v2 ) ライセンス: Link先を確認 | Jingda Yang and Ying Wang | (参考訳) 本稿では,次世代通信プロトコル(nextg)の形式的検証のために設計された新システムであるavre(real-world prompting for 5g and nextg protocols)による形式的検証の自動モデリングについて紹介する。
大規模言語モデル(LLM)を利用することで、AVREはプロトコル記述を依存グラフや形式モデルに変換する。
このシステムはトランスモデルをLSMと統合し、クロスアテンション機構と自己アテンション機構を通じて、定量的依存関係関係を自律的に確立する。
HyFuzz実験プラットフォームからの反復的なフィードバックにより、AVREは複雑な通信プロトコルにおける形式検証の精度と妥当性を大幅に向上させ、高度な通信システムを検証するための画期的なアプローチを提供する。
我々はCALの性能を最先端のLCMモデルと従来の時系列モデルと比較し、精度とロバスト性において優位性を示し、95.94\%の精度と0.98のAUCを実現する。
このNLPベースのアプローチは、初めて設計文書から直接エクスプロイトを作成することができ、スケーラブルなシステム検証と検証において顕著な進歩をもたらす。 This paper introduces Auto-modeling of Formal Verification with Real-world Prompting for 5G and NextG protocols (AVRE), a novel system designed for the formal verification of Next Generation (NextG) communication protocols, addressing the increasing complexity and scalability challenges in network protocol design and verification. Utilizing Large Language Models (LLMs), AVRE transforms protocol descriptions into dependency graphs and formal models, efficiently resolving ambiguities and capturing design intent. The system integrates a transformer model with LLMs to autonomously establish quantifiable dependency relationships through cross- and self-attention mechanisms. Enhanced by iterative feedback from the HyFuzz experimental platform, AVRE significantly advances the accuracy and relevance of formal verification in complex communication protocols, offering a groundbreaking approach to validating sophisticated communication systems. We compare CAL's performance with state-of-the-art LLM-based models and traditional time sequence models, demonstrating its superiority in accuracy and robustness, achieving an accuracy of 95.94\% and an AUC of 0.98. This NLP-based approach enables, for the first time, the creation of exploits directly from design documents, making remarkable progress in scalable system verification and validation. | 翻訳日:2024-01-03 19:17:23 公開日:2024-01-02 |
# 潜在空間におけるドメイン不変表現学習による侵入検出の改善 Improving Intrusion Detection with Domain-Invariant Representation Learning in Latent Space ( http://arxiv.org/abs/2312.17300v2 ) ライセンス: Link先を確認 | Padmaksha Roy, Tyler Cody, Himanshu Singhal, Kevin Choi, Ming Jin | (参考訳) ドメインの一般化は、多くのトレーニングデータとラベルを持つ複数の関連ドメインからの知識を活用することに焦点を当て、未発見のin-distribution(in)とout-of-distribution(ood)ドメインの推論を強化する。
本研究では,マルチタスク学習を用いた二相表現学習手法を提案する。
このアプローチは、ネイティブドメインとクロスドメインの両方を含む複数のドメインにまたがる機能から潜伏空間を育み、INおよびOOD領域への一般化を促進することを目的としている。
さらに,先行空間と潜在空間の相互情報を最小化し,スプリアス特徴相関を効果的に解消することで,潜在空間の絡み合いを解消しようとする。
共同最適化により、ドメイン不変の機能学習が容易になる。
複数のサイバーセキュリティデータセットにまたがるモデルの有効性を評価するため、未確認のINおよびOODセットの標準分類基準を用いて、同時代のドメイン一般化手法を用いて結果を集計する。 Domain generalization focuses on leveraging knowledge from multiple related domains with ample training data and labels to enhance inference on unseen in-distribution (IN) and out-of-distribution (OOD) domains. In our study, we introduce a two-phase representation learning technique using multi-task learning. This approach aims to cultivate a latent space from features spanning multiple domains, encompassing both native and cross-domains, to amplify generalization to IN and OOD territories. Additionally, we attempt to disentangle the latent space by minimizing the mutual information between the prior and latent space, effectively de-correlating spurious feature correlations. Collectively, the joint optimization will facilitate domain-invariant feature learning. We assess the model's efficacy across multiple cybersecurity datasets, using standard classification metrics on both unseen IN and OOD sets, and juxtapose the results with contemporary domain generalization methods. | 翻訳日:2024-01-03 19:16:59 公開日:2024-01-02 |
# LLMトレーニングにおける構造化パッケージングによる長期利用の改善 Structured Packing in LLM Training Improves Long Context Utilization ( http://arxiv.org/abs/2312.17296v2 ) ライセンス: Link先を確認 | Konrad Staniszewski, Szymon Tworkowski, Sebastian Jaszczur, Henryk Michalewski, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s | (参考訳) 長文Large Language Models(LCLM)の最近の進歩は、特に科学研究論文の問合せなどの応用において大きな関心を集めている。
しかし、その可能性はしばしば不適切な文脈利用によって制限される。
典型的なトレーニングデータに長期的セマンティック依存関係が欠如していることが主要な障害である。
これに対処するため、私たちは、関連するドキュメントをトレーニングインプットに頻繁に組み込むことの利点を考察します。
コードデータの固有ディレクトリ構造をトレーニング例のソースとして使用して,コーディングとは無関係なタスクであっても,難易度の改善を実証する。
これらの知見に基づいて,より広い焦点をあてた構造的パッキング(structured packing for long context, splice)を導入する。
SPLiCeは、最も相互に関連のあるドキュメントを単一のトレーニングコンテキストに照合する検索手法を用いて、トレーニング例を作成する革新的な方法である。
その結果、 \method{} はモデルの性能を高め、長いコンテキストをよりよく利用するために大きなモデルのトレーニングに使用できることがわかった。
我々は,大容量の3$Bモデルをトレーニングし,ダウンストリームタスクにおける難易度の改善と長文性能の向上を両立させた結果の有効性を検証した。 Recent advances in long-context Large Language Models (LCLMs) have generated significant interest, especially in applications such as querying scientific research papers. However, their potential is often limited by inadequate context utilization. We identify the absence of long-range semantic dependencies in typical training data as a primary hindrance. To address this, we delve into the benefits of frequently incorporating related documents into training inputs. Using the inherent directory structure of code data as a source of training examples, we demonstrate improvements in perplexity, even for tasks unrelated to coding. Building on these findings, but with a broader focus, we introduce Structured Packing for Long Context (SPLiCe). SPLiCe is an innovative method for creating training examples by using a retrieval method to collate the most mutually relevant documents into a single training context. Our results indicate that \method{} enhances model performance and can be used to train large models to utilize long contexts better. We validate our results by training a large $3$B model, showing both perplexity improvements and better long-context performance on downstream tasks. | 翻訳日:2024-01-03 19:16:38 公開日:2024-01-02 |
# KeDuSR:カーネルフリーマッチングによる現実のデュアルレンズスーパーリゾリューション KeDuSR: Real-World Dual-Lens Super-Resolution via Kernel-Free Matching ( http://arxiv.org/abs/2312.17050v2 ) ライセンス: Link先を確認 | Huanjing Yue, Zifan Cui, Kun Li, Jingyu Yang | (参考訳) デュアルレンズスーパーレゾリューション(sr)は、望遠画像(ref)を利用して低解像度広角画像(lr入力)の超レゾリューションを支援することで、参照(ref)ベースのsrの実用的なシナリオである。
一般的なRefSRとは異なり、二重レンズSRのRefは重なり合う視野(FoV)領域のみをカバーする。
しかし、現在の二重レンズSR法はこれらの特性をほとんど利用せず、LR入力とRefの密マッチングを直接行う。
LRとRefの解像度差のため、マッチングは最良整合候補を見逃し、重なり合うFoV領域における一貫した構造を破壊する可能性がある。
これらと異なるのは,まずrefをlr入力の中心領域(つまり重複したfov領域)にアライメントし,グローバルウォーピングと局所ウォーピングを組み合わせて,アライメントrefをシャープかつ一貫性を持たせることを提案する。
次に、アライメントされたRefとLR中心を値キーペアとして定式化し、LRのコーナー領域をクエリとして定式化する。
このようにして、LRコーナ(クエリ)とLR中心(キー)領域のマッチングによるカーネルフリーマッチング戦略を提案し、対応するRef(値)をターゲットのコーナー領域にワープする。
我々のカーネルフリーマッチング戦略は、LRとRefの解像度ギャップを回避し、ネットワークの一般化能力を向上する。
さらに,DuSR-Realデータセットを(LR,Ref,HR)トリプルで構築する。
3つのデータセットに対する実験により,本手法は2番目に良い手法よりも大きなマージンで優れていることが示された。
私たちのコードとデータセットはhttps://github.com/zifancui/kedusrで利用可能です。 Dual-lens super-resolution (SR) is a practical scenario for reference (Ref) based SR by utilizing the telephoto image (Ref) to assist the super-resolution of the low-resolution wide-angle image (LR input). Different from general RefSR, the Ref in dual-lens SR only covers the overlapped field of view (FoV) area. However, current dual-lens SR methods rarely utilize these specific characteristics and directly perform dense matching between the LR input and Ref. Due to the resolution gap between LR and Ref, the matching may miss the best-matched candidate and destroy the consistent structures in the overlapped FoV area. Different from them, we propose to first align the Ref with the center region (namely the overlapped FoV area) of the LR input by combining global warping and local warping to make the aligned Ref be sharp and consistent. Then, we formulate the aligned Ref and LR center as value-key pairs, and the corner region of the LR is formulated as queries. In this way, we propose a kernel-free matching strategy by matching between the LR-corner (query) and LR-center (key) regions, and the corresponding aligned Ref (value) can be warped to the corner region of the target. Our kernel-free matching strategy avoids the resolution gap between LR and Ref, which makes our network have better generalization ability. In addition, we construct a DuSR-Real dataset with (LR, Ref, HR) triples, where the LR and HR are well aligned. Experiments on three datasets demonstrate that our method outperforms the second-best method by a large margin. Our code and dataset are available at https://github.com/ZifanCui/KeDuSR. | 翻訳日:2024-01-03 19:16:17 公開日:2024-01-02 |
# TypeEvalPy: Python型推論ツール用のマイクロベンチマークフレームワーク TypeEvalPy: A Micro-benchmarking Framework for Python Type Inference Tools ( http://arxiv.org/abs/2312.16882v2 ) ライセンス: Link先を確認 | Ashwin Prasad Shivarpatna Venkatesh, Samkutty Sabu, Jiawei Wang, Amir M. Mir, Li Li, Eric Bodden | (参考訳) pythonの型推論研究への関心が高まる中、研究者も実践者も様々な型推論技術のパフォーマンスを評価するために標準化されたプロセスを必要としている。
本稿では,型推論ツールを評価するためのマイクロベンチマークフレームワークであるTypeEvalPyを紹介する。
TypeEvalPyには154のコードスニペットがあり、さまざまなPython機能をターゲットにした18のカテゴリに845の型アノテーションがある。
このフレームワークはコンテナ化されたツールの実行を管理し、推論された型を標準化されたフォーマットに変換し、アセスメントに意味のあるメトリクスを生成する。
分析を通じて,6つの型推論ツールの性能を比較し,その長所と限界を強調した。
我々の発見は、pythonの型推論の領域におけるさらなる研究と最適化の基盤を提供する。 In light of the growing interest in type inference research for Python, both researchers and practitioners require a standardized process to assess the performance of various type inference techniques. This paper introduces TypeEvalPy, a comprehensive micro-benchmarking framework for evaluating type inference tools. TypeEvalPy contains 154 code snippets with 845 type annotations across 18 categories that target various Python features. The framework manages the execution of containerized tools, transforms inferred types into a standardized format, and produces meaningful metrics for assessment. Through our analysis, we compare the performance of six type inference tools, highlighting their strengths and limitations. Our findings provide a foundation for further research and optimization in the domain of Python type inference. | 翻訳日:2024-01-03 19:15:40 公開日:2024-01-02 |
# 英語地名の言語的特徴に関する確率論的分析 A Stochastic Analysis of the Linguistic Provenance of English Place Names ( http://arxiv.org/abs/2312.12850v3 ) ライセンス: Link先を確認 | Michael Dalvean | (参考訳) 英語の地名分析では、英語の地名に影響を与えた言語の1つで、地名のルートと地形的特徴、固有名および/または居住用語との類似から意味が導かれることが多い。
ここでの問題は、根の解釈に使用するベース言語を決定するのが難しい場合があります。
本論文の目的は、アイルランド、スコットランド、ウェールズ、デンマーク、ノルウェー、スウェーデン、フランス、ドイツ、オランダ、古代ローマの18799の地名と84687の地名の類似性を統計的に決定することである。
各英語の地名は、他国の地名に類似している程度に応じてランク付けされ、地名を解釈するために使用する可能性のある言語を決定する基礎となる。
提供されるランキングを使って、多くの観察を行うことができる。
特に、"Harlington" は英語のサンプルの中では最も古風な英語の地名であり、"Anna" は最小である。
さらに、非英語の地名はノルウェー語地名に最もよく似ており、ウェールズ語地名に最も似ていることが判明した。 In English place name analysis, meanings are often derived from the resemblance of roots in place names to topographical features, proper names and/or habitation terms in one of the languages that have had an influence on English place names. The problem here is that it is sometimes difficult to determine the base language to use to interpret the roots. The purpose of this paper is to stochastically determine the resemblance between 18799 English place names and 84687 place names from Ireland, Scotland, Wales, Denmark, Norway, Sweden, France, Germany, the Netherlands and Ancient Rome. Each English place name is ranked according to the extent to which it resembles place names from the other countries, and this provides a basis for determining the likely language to use to interpret the place name. A number of observations can be made using the ranking provided. In particular, it is found that `Harlington' is the most archetypically English place name in the English sample, and `Anna' is the least. Furthermore, it is found that the place names in the non-English datasets are most similar to Norwegian place names and least similar to Welsh place names. | 翻訳日:2024-01-03 19:15:12 公開日:2024-01-02 |
# ハイブリッド内部モデル:シミュレートされたロボット応答によるアジャイルレガッドロコモーションの学習 Hybrid Internal Model: Learning Agile Legged Locomotion with Simulated Robot Response ( http://arxiv.org/abs/2312.11460v3 ) ライセンス: Link先を確認 | Junfeng Long, Zirui Wang, Quanyi Li, Jiawei Gao, Liu Cao, Jiangmiao Pang | (参考訳) ロバストな移動制御は正確な状態推定に依存する。
しかし、ほとんどの脚を持つロボットのセンサーは、部分的かつ騒がしい観測しか行えないため、特に地形摩擦や標高マップのような外部状態において、推定は困難である。
従来の内部モデル制御原理に触発されて,これらの外部状態は外乱であり,ロボットの応答に応じて推定するためにハイブリッド内部モデル(him)を導入する。
この応答は、ロボットの明示的な速度と暗黙的な安定性の表現を含み、移動タスクの2つの主要な目標、すなわち、速度を明示的に追跡し、安定性を暗黙的に維持する。
我々は、ロボットの後継状態に近いように埋め込みを最適化するために、対照的な学習を使用し、その応答が自然に埋め込まれている。
HIMにはいくつかの魅力的な利点がある: ロボットのプロトリオセプション、すなわち関節エンコーダとIMUを観察するのみである。
シミュレーション参照と現実の間の一貫した観察を革新的に維持し、学習を模倣する情報損失を避ける。
ノイズに対してより堅牢なバッチレベルの情報を活用し、より優れたサンプル効率を維持する。
RTX 4090のトレーニングには1時間しかかからず、四足歩行ロボットはどんな障害でも地形を横切ることができる。
実世界の豊富な実験が、トレーニングプロセス中に発生したことのない高ディフィキュティなタスクやケースでさえも、その俊敏さを示しています。 Robust locomotion control depends on accurate state estimations. However, the sensors of most legged robots can only provide partial and noisy observations, making the estimation particularly challenging, especially for external states like terrain frictions and elevation maps. Inspired by the classical Internal Model Control principle, we consider these external states as disturbances and introduce Hybrid Internal Model (HIM) to estimate them according to the response of the robot. The response, which we refer to as the hybrid internal embedding, contains the robot's explicit velocity and implicit stability representation, corresponding to two primary goals for locomotion tasks: explicitly tracking velocity and implicitly maintaining stability. We use contrastive learning to optimize the embedding to be close to the robot's successor state, in which the response is naturally embedded. HIM has several appealing benefits: It only needs the robot's proprioceptions, i.e., those from joint encoders and IMU as observations. It innovatively maintains consistent observations between simulation reference and reality that avoids information loss in mimicking learning. It exploits batch-level information that is more robust to noises and keeps better sample efficiency. It only requires 1 hour of training on an RTX 4090 to enable a quadruped robot to traverse any terrain under any disturbances. A wealth of real-world experiments demonstrates its agility, even in high-difficulty tasks and cases never occurred during the training process, revealing remarkable open-world generalizability. | 翻訳日:2024-01-03 19:14:10 公開日:2024-01-02 |
# EMAGE:Masked Audio Gesture Modelingによる一元的音声合成に向けて EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Masked Audio Gesture Modeling ( http://arxiv.org/abs/2401.00374v2 ) ライセンス: Link先を確認 | Haiyang Liu, Zihao Zhu, Giorgio Becherini, Yichen Peng, Mingyang Su, You Zhou, Naoya Iwamoto, Bo Zheng, Michael J. Black | (参考訳) 本研究では,顔,局所体,手,グローバルな動きを包含する,音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するフレームワークEMAGEを提案する。
そこで我々はまずBEATX(BEAT-SMPLX-FLAME)を導入した。
BEATXはMoShed SMPLX本体をFLAMEヘッドパラメータと組み合わせ、頭部、首、指の動きのモデリングをさらに洗練し、コミュニティ標準化された高品質な3Dモーションキャプチャーデータセットを提供する。
EMAGEはトレーニング中にマスクされたボディジェスチャの事前情報を活用して推論性能を向上させる。
マスク付きオーディオジェスチャトランスフォーマは、オーディオからジェスチャへの生成とマスク付きジェスチャ再構成の合同トレーニングを容易にし、オーディオとボディジェスチャのヒントを効果的にエンコードする。
マスクされたジェスチャーから符号化された身体のヒントは、顔と身体の動きを生成するために別々に使用される。
さらに、EMAGEは音声のリズムと内容から音声特徴を適応的にマージし、4つの合成VQ-VAEを用いて結果の忠実度と多様性を高める。
実験により、EMAGEは最先端の性能を持つ全体的ジェスチャーを生成し、事前定義された空間的時間的ジェスチャー入力を受け入れ、完全な音声同期結果を生成する。
私たちのコードとデータセットはhttps://pantomatrix.github.io/emage/で利用可能です。 We propose EMAGE, a framework to generate full-body human gestures from audio and masked gestures, encompassing facial, local body, hands, and global movements. To achieve this, we first introduce BEATX (BEAT-SMPLX-FLAME), a new mesh-level holistic co-speech dataset. BEATX combines MoShed SMPLX body with FLAME head parameters and further refines the modeling of head, neck, and finger movements, offering a community-standardized, high-quality 3D motion captured dataset. EMAGE leverages masked body gesture priors during training to boost inference performance. It involves a Masked Audio Gesture Transformer, facilitating joint training on audio-to-gesture generation and masked gesture reconstruction to effectively encode audio and body gesture hints. Encoded body hints from masked gestures are then separately employed to generate facial and body movements. Moreover, EMAGE adaptively merges speech features from the audio's rhythm and content and utilizes four compositional VQ-VAEs to enhance the results' fidelity and diversity. Experiments demonstrate that EMAGE generates holistic gestures with state-of-the-art performance and is flexible in accepting predefined spatial-temporal gesture inputs, generating complete, audio-synchronized results. Our code and dataset are available at https://pantomatrix.github.io/EMAGE/ | 翻訳日:2024-01-03 17:41:09 公開日:2024-01-02 |
# 基礎モデルを用いた燃焼科学のための信頼性の高い知識処理フレームワーク A Reliable Knowledge Processing Framework for Combustion Science using Foundation Models ( http://arxiv.org/abs/2401.00544v2 ) ライセンス: Link先を確認 | Vansh Sharma and Venkat Raman | (参考訳) 本研究では, 大規模言語モデル(LLM)の科学的データ同化への統合について検討し, 燃焼科学を事例として考察する。
Retrieval-Augmented Generation (RAG) フレームワークと統合された基礎モデルを活用することで, 多様な燃焼研究データを処理し, 実験研究, シミュレーション, 文献にまたがるアプローチを導入する。
燃焼研究の多面的な性質は、膨大な多様な情報源から貴重な情報をナビゲートし抽出する際の知識処理の重要な役割を強調する。
このアプローチはデータのプライバシと正確性を最適化しながら、計算コストと経済コストを最小限に抑える。
プロンプトエンジニアリングとオフラインのオープンソース LLM が組み込まれており、ベースモデルを選択する際のユーザの自律性を提供する。
本研究は,テキストセグメンテーション戦略を徹底的に検討し,llmの比較研究を行い,フレームワークの有効性を示すために様々な最適化プロンプトを検討する。
外部データベースを組み込むことで、フレームワークは、正確な応答を生成し、堅牢な引数を構築するのに従来のllmを上回る。
さらに, 科学文献の効率的な抽出を目的として, 最適化されたプロンプトテンプレートの検討にも着手した。
この研究は、不正確性をフィルターする検出アルゴリズムで開発されたカスタムワークフローを導入することで、幻覚や偽の研究記事に関する懸念に対処する。
改善すべき領域が特定されているにもかかわらず、このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
導入の急進的・不可知的なアプローチは将来の検討の約束である。
この研究は、科学研究におけるLLMと知識処理技術の統合の重要性を強調し、データ同化と利用の進歩の基盤となる。 This research explores the integration of large language models (LLMs) into scientific data assimilation, focusing on combustion science as a case study. Leveraging foundational models integrated with Retrieval-Augmented Generation (RAG) framework, the study introduces an approach to process diverse combustion research data, spanning experimental studies, simulations, and literature. The multifaceted nature of combustion research emphasizes the critical role of knowledge processing in navigating and extracting valuable information from a vast and diverse pool of sources. The developed approach minimizes computational and economic expenses while optimizing data privacy and accuracy. It incorporates prompt engineering and offline open-source LLMs, offering user autonomy in selecting base models. The study provides a thorough examination of text segmentation strategies, conducts comparative studies between LLMs, and explores various optimized prompts to demonstrate the effectiveness of the framework. By incorporating an external database, the framework outperforms a conventional LLM in generating accurate responses and constructing robust arguments. Additionally, the study delves into the investigation of optimized prompt templates for the purpose of efficient extraction of scientific literature. The research addresses concerns related to hallucinations and false research articles by introducing a custom workflow developed with a detection algorithm to filter out inaccuracies. Despite identified areas for improvement, the framework consistently delivers accurate domain-specific responses with minimal human oversight. The prompt-agnostic approach introduced holds promise for future deliberations. The study underscores the significance of integrating LLMs and knowledge processing techniques in scientific research, providing a foundation for advancements in data assimilation and utilization. | 翻訳日:2024-01-03 16:58:04 公開日:2024-01-02 |
# ${\cal PT}$対称量子力学の特別なWKB解析:Ai-Bender-Sarkar予想の研究 Exact WKB analysis for ${\cal PT}$ symmetric quantum mechanics: Study of the Ai-Bender-Sarkar conjecture ( http://arxiv.org/abs/2401.00574v2 ) ライセンス: Link先を確認 | Syo Kamata | (参考訳) 本稿では、正確な WKB 解析を、ポテンシャルによって定義される${\cal PT}$対称量子力学、$V(x) = \omega^2 x^2 + g x^2(i x)^{\varepsilon=2}$、$\omega \in {\mathbb R}_{\ge 0}$、$g \in {\mathbb R} _{> 0}$とみなす。
特に、エネルギースペクトルやユークリッド分割関数に関するエルミート理論の$D$-次元${\cal PT}$-対称理論と解析的連続(AC)の関係に関するAi-Bender-Sarkar (ABS) の予想を検証することを目的としている。
本研究の目的は,WKB解析によりエネルギー量子化条件を構築し,その条件を解くことで,その半減期解を記述することである。
エネルギー解に対する異質な計算を行うことにより、abs予想の妥当性を検証し、違反した場合はボレル再推定理論によってその代替形式の可能性を求める。
その結果、abs予想の妥当性は、$\omega > 0$ または $\omega = 0$: if ${\omega}>0$ のいずれかによって大きく変化し、abs予想は半古典レベルを超えると破られるが、その代替形式はボレル推定理論によって構成可能である。
${\cal PT}$ と AC のエネルギーは、1パラメータストークス自己同型(英語版)と、AC エネルギーの正式な正確な解(resp)に対応する中央再帰形式(英語版)によって互いに関連付けられる。
${\cal PT}$ energy) は、ボレルの再仮定を${\cal PT}$ energy (resp. AC energy) の半減期解に作用させることによって直接得られる。
もし$\omega = 0$なら、逆エネルギー準位展開に関して、${\cal PT}$とACエネルギーの摂動的/非摂動的構造だけでなく、それらの摂動的部分も互いに一致しない。
これらのエネルギーは独立解であり、ABS予想の代替形はボレル再仮定理論によって再構成できない。 In this paper, we consider exact WKB analysis to a ${\cal PT}$ symmetric quantum mechanics defined by the potential, $V(x) = \omega^2 x^2 + g x^2(i x)^{\varepsilon=2}$ with $\omega \in {\mathbb R}_{\ge 0}$, $g \in {\mathbb R} _{> 0}$. We in particular aim to verify a conjecture proposed by Ai-Bender-Sarkar (ABS), that pertains to a relation between $D$-dimensional ${\cal PT}$-symmetric theories and analytic continuation (AC) of Hermitian theories concerning the energy spectrum or Euclidean partition function. For the purpose, we construct energy quantization conditions by exact WKB analysis and write down their transseries solution by solving the conditions. By performing alien calculus to the energy solutions, we verify validity of the ABS conjecture and seek a possibility of its alternative form by Borel resummation theory if it is violated. Our results claim that the validity of the ABS conjecture drastically changes depending on whether $\omega > 0$ or $\omega = 0$: If ${\omega}>0$, then the ABS conjecture is violated when exceeding the semi-classical level, but its alternative form is constructable by Borel resummation theory. The ${\cal PT}$ and the AC energies are related to each other by a one-parameter Stokes automorphism, and a median resummed form, which corresponds to a formal exact solution, of the AC energy (resp. ${\cal PT}$ energy) is directly obtained by acting Borel resummation to the transseries solution of the ${\cal PT}$ energy (resp. AC energy). If $\omega = 0$, then, with respect to the inverse energy level-expansion, not only perturbative/non-perturbative structures of the ${\cal PT}$ and the AC energies but also their perturbative parts do not match with each other. These energies are independent solutions, and no alternative form of the ABS conjecture can be reformulated by Borel resummation theory. | 翻訳日:2024-01-03 16:42:41 公開日:2024-01-02 |
# gd^2-nerf:ganによる生成的細部補償と一発汎用神経放射野の拡散 GD^2-NeRF: Generative Detail Compensation via GAN and Diffusion for One-shot Generalizable Neural Radiance Fields ( http://arxiv.org/abs/2401.00616v2 ) ライセンス: Link先を確認 | Xiao Pan, Zongxin Yang, Shuai Bai, Yi Yang | (参考訳) 本稿では,1シーンあたりの参照画像のみを合成するワンショット・ノベル・ビュー・シンセシス(o-nvs)タスクに注目した。
従来の1ショット一般化ニューラルラジアンスフィールド(og-nerf)法は、この問題を推論時間なしの方法で解決するが、限定された参照画像に依存するエンコーダのみのアーキテクチャによるぼやけた問題に苦しむ。
一方,近年の拡散型画像-3d法では,事前学習した2次元拡散モデルを3次元表現に蒸留することで,鮮明な可視性を示した。
これらの問題をターゲットに、GD$^2$-NeRF(GANとDiffusionによる生成的詳細補償フレームワーク)を提案する。
GD$^2$-NeRFは主に1段並列パイプライン(OPP)と3D一貫性Detail Enhancer(Diff3DE)で構成されている。
粗い段階では、OPPはまずGANモデルを既存のOG-NeRFパイプラインに効率よく挿入し、トレーニングデータセットから取得した非分配先との曖昧な問題を主に軽減し、シャープネス(LPIPS, FID)とフィデリティ(PSNR, SSIM)のバランスよく達成する。
そして、Diff3DEはさらに、訓練済みの画像拡散モデルを活用して、十分な3D一貫性を維持しながら、リッチな配布の詳細を補完する。
GD$^2$-NeRFは、合成データセットと実世界のデータセットの両方に対する大規模な実験により、シーンごとの微調整なしに、細部を著しく改善することを示した。 In this paper, we focus on the One-shot Novel View Synthesis (O-NVS) task which targets synthesizing photo-realistic novel views given only one reference image per scene. Previous One-shot Generalizable Neural Radiance Fields (OG-NeRF) methods solve this task in an inference-time finetuning-free manner, yet suffer the blurry issue due to the encoder-only architecture that highly relies on the limited reference image. On the other hand, recent diffusion-based image-to-3d methods show vivid plausible results via distilling pre-trained 2D diffusion models into a 3D representation, yet require tedious per-scene optimization. Targeting these issues, we propose the GD$^2$-NeRF, a Generative Detail compensation framework via GAN and Diffusion that is both inference-time finetuning-free and with vivid plausible details. In detail, following a coarse-to-fine strategy, GD$^2$-NeRF is mainly composed of a One-stage Parallel Pipeline (OPP) and a 3D-consistent Detail Enhancer (Diff3DE). At the coarse stage, OPP first efficiently inserts the GAN model into the existing OG-NeRF pipeline for primarily relieving the blurry issue with in-distribution priors captured from the training dataset, achieving a good balance between sharpness (LPIPS, FID) and fidelity (PSNR, SSIM). Then, at the fine stage, Diff3DE further leverages the pre-trained image diffusion models to complement rich out-distribution details while maintaining decent 3D consistency. Extensive experiments on both the synthetic and real-world datasets show that GD$^2$-NeRF noticeably improves the details while without per-scene finetuning. | 翻訳日:2024-01-03 16:31:19 公開日:2024-01-02 |
# インテリジェント輸送システムにおけるグラフニューラルネットワークに関する研究 A Survey on Graph Neural Networks in Intelligent Transportation Systems ( http://arxiv.org/abs/2401.00713v2 ) ライセンス: Link先を確認 | Hourun Li, Yusheng Zhao, Zhengyang Mao, Yifang Qin, Zhiping Xiao, Jiaqi Feng, Yiyang Gu, Wei Ju, Xiao Luo, Ming Zhang | (参考訳) 知的交通システム(ITS)は,交通渋滞の改善,交通事故の低減,都市計画の最適化等に不可欠である。
しかし、交通ネットワークの複雑さのため、従来の機械学習と統計手法は背景に委ねられている。
人工知能時代が到来すると、さまざまな分野で多くのディープラーニングフレームワークが著しく進歩し、現在では多くの分野で効果的な方法と考えられている。
ディープラーニングの手法として、グラフニューラルネットワーク(GNN)は、グラフ関連の問題をモデル化する強力な能力のため、2019年以降、ITS分野において高い競争力を持つ方法として登場した。
その結果、より多くの学者が輸送分野におけるgnnの応用に注意を払っており、優れた性能を示している。
しかし、この地域のほとんどの研究は依然として交通予測に集中しているが、自動運転車や都市計画など他の分野にも注目が集まっている。
本稿では,交通予測,自動運転車,交通信号制御,交通安全,需要予測,駐車場管理の6つの領域におけるGNNの適用状況について検討する。
2018年から2023年にかけて,広範なグラフ関連研究をレビューし,その方法,特徴,貢献を要約した。
最後に、GNNをITSに適用する際の課題を特定し、将来的な方向性を提案する。 Intelligent Transportation System (ITS) is vital in improving traffic congestion, reducing traffic accidents, optimizing urban planning, etc. However, due to the complexity of the traffic network, traditional machine learning and statistical methods are relegated to the background. With the advent of the artificial intelligence era, many deep learning frameworks have made remarkable progress in various fields and are now considered effective methods in many areas. As a deep learning method, Graph Neural Networks (GNNs) have emerged as a highly competitive method in the ITS field since 2019 due to their strong ability to model graph-related problems. As a result, more and more scholars pay attention to the applications of GNNs in transportation domains, which have shown excellent performance. However, most of the research in this area is still concentrated on traffic forecasting, while other ITS domains, such as autonomous vehicles and urban planning, still require more attention. This paper aims to review the applications of GNNs in six representative and emerging ITS domains: traffic forecasting, autonomous vehicles, traffic signal control, transportation safety, demand prediction, and parking management. We have reviewed extensive graph-related studies from 2018 to 2023, summarized their methods, features, and contributions, and presented them in informative tables or lists. Finally, we have identified the challenges of applying GNNs to ITS and suggested potential future directions. | 翻訳日:2024-01-03 16:08:27 公開日:2024-01-02 |
# 結晶材料研究における深いハミルトン回帰の共分散と表現性:ハイブリッドカスケード回帰フレームワーク Harmonizing Covariance and Expressiveness for Deep Hamiltonian Regression in Crystalline Material Research: a Hybrid Cascaded Regression Framework ( http://arxiv.org/abs/2401.00744v2 ) ライセンス: Link先を確認 | Shi Yin, Xudong Zhu, Tianyu Gao, Haochong Zhang, Feng Wu, Lixin He | (参考訳) 材料研究における量子システムのハミルトニアン回帰の深層学習は共分散則を満たす必要があり、その中でネットワークの表現性を犠牲にすることなくso(3)等価性を達成することは、理論的等分散の保証に関する非線形写像の制限のため、難解な課題である。
共分散表現性ジレンマを緩和するために,2つの逐次回帰段階を持つハイブリッドフレームワークを提案する。
第1段階は、3次元原子系の対称性をモデル化する理論的にguaranteed covariant neural networkで、理論的に共変特徴とベースラインハミルトン予測を導き、学習共変性の第2段階を支援する。
一方, 非線形3次元グラフ変換器を用いた第2段階では, 3次元原子系の構造モデリングを提案し, 表現性に優れたハミルトンの詳細な予測として第1段階の出力を洗練する。
理論上は共変だが表現力の低いモデルと高度に表現力のある非線形ネットワークの組み合わせは、座標変換の下で堅牢な共変を維持しつつ、正確で一般化可能な予測を可能にする。
本手法は,5つの結晶材料データベースの実験により確認された電子構造計算のハミルトン予測における最先端性能を実現する。 Deep learning for Hamiltonian regression of quantum systems in material research necessitates satisfying the covariance laws, among which achieving SO(3)-equivariance without sacrificing the expressiveness of networks remains an elusive challenge due to the restriction to non-linear mappings on guaranteeing theoretical equivariance. To alleviate the covariance-expressiveness dilemma, we propose a hybrid framework with two cascaded regression stages. The first stage, with a theoretically-guaranteed covariant neural network modeling symmetry properties of 3D atom systems, yields theoretically covariant features and baseline Hamiltonian predictions, assisting the second stage in learning covariance. Meanwhile, the second stage, powered by a non-linear 3D graph Transformer network we propose for structural modeling of 3D atomic systems, refines the first stage's output as a fine-grained prediction of Hamiltonians with better expressiveness capability. The combination of a theoretically covariant yet inevitably less expressive model with a highly expressive non-linear network enables precise, generalizable predictions while maintaining robust covariance under coordinate transformations. Our method achieves state-of-the-art performance in Hamiltonian prediction for electronic structure calculations, confirmed through experiments on five crystalline material databases. | 翻訳日:2024-01-03 15:55:12 公開日:2024-01-02 |
# 分位数上の因果推論のための逆推定方程式 Inverting estimating equations for causal inference on quantiles ( http://arxiv.org/abs/2401.00987v1 ) ライセンス: Link先を確認 | Chao Cheng, Fan Li | (参考訳) 因果推論の文献は、しばしば潜在的な結果の平均を推定することに焦点を当てているが、潜在的な結果の質は重要な追加情報をもたらす可能性がある。
逆推定方程式に基づく普遍的アプローチを提案し、潜在的な結果の平均をその量子化量に推定することから、幅広い種類の因果推論解を一般化する。
本研究は、ポテンシャル結果の量子化方程式を簡易に構築したしきい値変換されたポテンシャル結果の平均を同定するために、同定モーメント関数が利用できると仮定する。
さらに,潜在的結果の平均と質の効率的な影響関数の一般構築を行い,それらの関係を同定する。
我々は, 定量的な影響関数を用いた量的推定の動機付けを行い, パラメトリックモデルとデータ適応機械学習者がニュアサンス関数を推定する場合の漸近的特性を発達させる。
我々の結果の広範な含意は、既存の結果を平均因果的推定のために再作成し、質的推論をスクラッチから始めるのではなく、促進できるということである。
私たちの結果はいくつかの例で示されています。 The causal inference literature frequently focuses on estimating the mean of the potential outcome, whereas the quantiles of the potential outcome may carry important additional information. We propose a universal approach, based on the inverse estimating equations, to generalize a wide class of causal inference solutions from estimating the mean of the potential outcome to its quantiles. We assume that an identifying moment function is available to identify the mean of the threshold-transformed potential outcome, based on which a convenient construction of the estimating equation of quantiles of potential outcome is proposed. In addition, we also give a general construction of the efficient influence functions of the mean and quantiles of potential outcomes, and identify their connection. We motivate estimators for the quantile estimands with the efficient influence function, and develop their asymptotic properties when either parametric models or data-adaptive machine learners are used to estimate the nuisance functions. A broad implication of our results is that one can rework the existing result for mean causal estimands to facilitate causal inference on quantiles, rather than starting from scratch. Our results are illustrated by several examples. | 翻訳日:2024-01-03 15:13:53 公開日:2024-01-02 |
# 自己監督学習によるPSG信号アーチファクト検出における変圧器のロバスト性向上と効果 Boosting Transformer's Robustness and Efficacy in PPG Signal Artifact Detection with Self-Supervised Learning ( http://arxiv.org/abs/2401.01013v1 ) ライセンス: Link先を確認 | Thanh-Dung Le | (参考訳) CHU Sainte Justine's Pediatric critical Care Unit (PICU) の最近の研究により、半教師付きラベル伝搬やK-アネレスト隣人のような従来の機械学習手法は、主にデータが制限された場合に、PSG信号からアーチファクト検出においてトランスフォーマーベースのモデルより優れていることが明らかになった。
本研究では,自己教師付き学習(ssl)を用いて,これらのデータから潜在特徴を抽出し,その後にラベル付きデータの微調整を行うことにより,ラベルなしデータの不足を解消する。
実験の結果,SSLはTransformerモデルの表現学習能力を大幅に向上させ,成果物分類タスクの堅牢性を向上させる。
マスキング,コントラスト学習,dino(ラベルのない自己蒸留)など様々なssl技術の中で,小型ppgデータセットにおいて,最も安定かつ優れた性能を示した。
さらに,コントラスト損失関数の最適化についても検討した。
インフォアンスに触発されて,より円滑なトレーニングと収束を容易にする新しいコントラスト損失関数を導入し,アーティファクト分類の性能を向上させる。
本研究は,非ラベルデータの活用,特にトランスフォーマーモデルの能力向上におけるsslの有効性を実証するものである。
このアプローチは、注釈付きデータがしばしば制限されるPICU環境での広範なアプリケーションに対する約束である。 Recent research at CHU Sainte Justine's Pediatric Critical Care Unit (PICU) has revealed that traditional machine learning methods, such as semi-supervised label propagation and K-nearest neighbors, outperform Transformer-based models in artifact detection from PPG signals, mainly when data is limited. This study addresses the underutilization of abundant unlabeled data by employing self-supervised learning (SSL) to extract latent features from these data, followed by fine-tuning on labeled data. Our experiments demonstrate that SSL significantly enhances the Transformer model's ability to learn representations, improving its robustness in artifact classification tasks. Among various SSL techniques, including masking, contrastive learning, and DINO (self-distillation with no labels)-contrastive learning exhibited the most stable and superior performance in small PPG datasets. Further, we delve into optimizing contrastive loss functions, which are crucial for contrastive SSL. Inspired by InfoNCE, we introduce a novel contrastive loss function that facilitates smoother training and better convergence, thereby enhancing performance in artifact classification. In summary, this study establishes the efficacy of SSL in leveraging unlabeled data, particularly in enhancing the capabilities of the Transformer model. This approach holds promise for broader applications in PICU environments, where annotated data is often limited. | 翻訳日:2024-01-03 15:01:48 公開日:2024-01-02 |
# コードリファクタリングを教えるとき、誤解に基づくファミリアライゼーションステップを追加する Fixing Your Own Smells: Adding a Mistake-Based Familiarisation Step When Teaching Code Refactoring ( http://arxiv.org/abs/2401.01011v1 ) ライセンス: Link先を確認 | Ivan Tan, Christopher M. Poskitt | (参考訳) プログラミングの問題は多くの機能的に正しい方法で解決できるが、これらのソリューションの品質(可読性、保守性など)は非常に異なる。
コード品質が低い場合には、リファクタリングパターンを適用することで解決できる特定の負の特性(重複コードなど)である「コードの臭い」という形で症状が現れる。
多くの学部生が、このソフトウェアエンジニアリングの練習で学生を訓練し、よく知らないインストラクターが提供するコードで練習する。
しかし、私たちの観察では、初心者が自分たちの開発プラクティスの一部としてリファクタリングを内部化するのが難しくなります。
本稿では,学生がコード臭いの発生を確実にするために制約付きプログラミング演習を最初に完了しなければならないリファクタリングの新たな手法を提案する。
この単純な介入は、コード(ビルド済み)に慣れている学生にとってリファクタリングの学習がより簡単である、通常の開発プラクティスに近いリファクタリングをもたらす、そして'ミステイク'から学ぶ強力な機会を提供する、という考え方に基づいている。
我々は,35人の初等生を対象に,従来の「ミステイクベース」アプローチを交互に指導する様々なリファクタリング演習を受講した研究を設計・実施した。 Programming problems can be solved in a multitude of functionally correct ways, but the quality of these solutions (e.g. readability, maintainability) can vary immensely. When code quality is poor, symptoms emerge in the form of 'code smells', which are specific negative characteristics (e.g. duplicate code) that can be resolved by applying refactoring patterns. Many undergraduate computing curricula train students on this software engineering practice, often doing so via exercises on unfamiliar instructor-provided code. Our observation, however, is that this makes it harder for novices to internalise refactoring as part of their own development practices. In this paper, we propose a new approach to teaching refactoring, in which students must first complete a programming exercise constrained to ensure they will produce a code smell. This simple intervention is based on the idea that learning refactoring is easier if students are familiar with the code (having built it), that it brings refactoring closer to their regular development practice, and that it presents a powerful opportunity to learn from a 'mistake'. We designed and conducted a study with 35 novice undergraduates in which they completed various refactoring exercises alternately taught using a traditional and our 'mistake-based' approach, finding that students were significantly more effective and confident at completing exercises using the latter. | 翻訳日:2024-01-03 15:01:20 公開日:2024-01-02 |
# 比較学習プロンプトを用いた教師なし連続異常検出 Unsupervised Continual Anomaly Detection with Contrastively-learned Prompt ( http://arxiv.org/abs/2401.01010v1 ) ライセンス: Link先を確認 | Jiaqi Liu, Kai Wu, Qiang Nie, Ying Chen, Bin-Bin Gao, Yong Liu, Jinbao Wang, Chengjie Wang and Feng Zheng | (参考訳) インクリメンタルトレーニングによる教師なし異常検出(UAD)は、予測不可能な欠陥によって十分なラベル付きデータを得ることができないため、工業生産において不可欠である。
しかし、継続学習法は主に教師付きアノテーションに依存し、UADのアプリケーションは監督の欠如により制限されている。
現在のuadメソッドは、異なるクラスの別々のモデルを順次訓練し、壊滅的な忘れと重い計算負荷をもたらす。
そこで本研究では,uadにコントラスト付きプロンプトによる連続学習能力を付与する,unsupervised continual anomaly detection framework ucadを提案する。
提案するUCADにおいて,タスク固有の「正規」知識を用いて,タスク不変な「異常」モデル予測を誘導するために,簡潔なキープロンプト知識メモリバンクを用いて連続プロンプトモジュール(CPM)を設計する。
さらに,SCL(Structure-based Contrastive Learning)をSAM(Seegment Anything Model)を用いて設計し,迅速な学習と異常なセグメンテーション結果を改善する。
具体的には、SAMのマスクを構造として扱うことで、同じマスク内の特徴を近付け、一般的な特徴表現のために他者を分離する。
包括的実験を行い,教師なし連続的異常検出とセグメンテーションのベンチマークを設定し,リハーサル訓練においても,異常検出法よりもはるかに優れていることを示す。
コードはhttps://github.com/shirowalker/UCAD.comで入手できる。 Unsupervised Anomaly Detection (UAD) with incremental training is crucial in industrial manufacturing, as unpredictable defects make obtaining sufficient labeled data infeasible. However, continual learning methods primarily rely on supervised annotations, while the application in UAD is limited due to the absence of supervision. Current UAD methods train separate models for different classes sequentially, leading to catastrophic forgetting and a heavy computational burden. To address this issue, we introduce a novel Unsupervised Continual Anomaly Detection framework called UCAD, which equips the UAD with continual learning capability through contrastively-learned prompts. In the proposed UCAD, we design a Continual Prompting Module (CPM) by utilizing a concise key-prompt-knowledge memory bank to guide task-invariant `anomaly' model predictions using task-specific `normal' knowledge. Moreover, Structure-based Contrastive Learning (SCL) is designed with the Segment Anything Model (SAM) to improve prompt learning and anomaly segmentation results. Specifically, by treating SAM's masks as structure, we draw features within the same mask closer and push others apart for general feature representations. We conduct comprehensive experiments and set the benchmark on unsupervised continual anomaly detection and segmentation, demonstrating that our method is significantly better than anomaly detection methods, even with rehearsal training. The code will be available at https://github.com/shirowalker/UCAD. | 翻訳日:2024-01-03 15:00:56 公開日:2024-01-02 |
# 安全とパフォーマンス - なぜ両方ではないのか?
AIソフトウェア展開に向けた異種攻撃に対する双方向最適化モデル圧縮 Safety and Performance, Why Not Both? Bi-Objective Optimized Model Compression against Heterogeneous Attacks Toward AI Software Deployment ( http://arxiv.org/abs/2401.00996v1 ) ライセンス: Link先を確認 | Jie Zhu, Leye Wang, Xiao Han, Anmin Liu, and Tao Xie | (参考訳) 人工知能(AI)ソフトウェアにおけるディープラーニングモデルのサイズは急速に増加しており、リソース制限されたデバイス(例えばスマートフォン)への大規模展開を妨げる。
この問題を軽減するため、AIソフトウェア圧縮は、高性能を維持しながらモデルサイズを圧縮することを目的として、重要な役割を果たす。
しかし、大きなモデルに内在する欠陥は圧縮モデルによって継承される可能性がある。
このような欠陥は、圧縮されたモデルが適切な保護なしに多数のデバイスにデプロイされるため、敵によって容易に利用することができる。
本稿では,安全性能共最適化の観点から,安全モデル圧縮問題に対処することを目的とする。
具体的には,ソフトウェア工学におけるテスト駆動開発(tdd)パラダイムに着想を得て,safecompressと呼ばれるテスト駆動スパーストレーニングフレームワークを提案する。
攻撃機構を安全テストとしてシミュレートすることにより、safecompressは、動的スパーストレーニングパラダイムに従って、大きなモデルを小さなモデルに自動的に圧縮することができる。
次に,ブラックボックスメンバシップ推論攻撃とホワイトボックスメンバシップ推論攻撃の2種類の代表的および異種攻撃機構を考慮し,BMIA-SafeCompress と WMIA-SafeCompress という2つの具体例を開発した。
さらに、敵が同時にブラックボックスとホワイトボックスのメンバシップ推論攻撃を行う場合に、SafeCompressを拡張して防御することで、MMIA-SafeCompressと呼ばれる別のインスタンスを実装する。
コンピュータビジョンと自然言語処理タスクのための5つのデータセットについて広範な実験を行った。
その結果,本フレームワークの有効性と汎用性を示した。
我々はまた、SafeCompressをメンバーシップ推論攻撃以外の攻撃に適応する方法についても論じ、SafeCompressの柔軟性を示す。 The size of deep learning models in artificial intelligence (AI) software is increasing rapidly, hindering the large-scale deployment on resource-restricted devices (e.g., smartphones). To mitigate this issue, AI software compression plays a crucial role, which aims to compress model size while keeping high performance. However, the intrinsic defects in a big model may be inherited by the compressed one. Such defects may be easily leveraged by adversaries, since a compressed model is usually deployed in a large number of devices without adequate protection. In this article, we aim to address the safe model compression problem from the perspective of safety-performance co-optimization. Specifically, inspired by the test-driven development (TDD) paradigm in software engineering, we propose a test-driven sparse training framework called SafeCompress. By simulating the attack mechanism as safety testing, SafeCompress can automatically compress a big model to a small one following the dynamic sparse training paradigm. Then, considering two kinds of representative and heterogeneous attack mechanisms, i.e., black-box membership inference attack and white-box membership inference attack, we develop two concrete instances called BMIA-SafeCompress and WMIA-SafeCompress. Further, we implement another instance called MMIA-SafeCompress by extending SafeCompress to defend against the occasion when adversaries conduct black-box and white-box membership inference attacks simultaneously. We conduct extensive experiments on five datasets for both computer vision and natural language processing tasks. The results show the effectiveness and generalizability of our framework. We also discuss how to adapt SafeCompress to other attacks besides membership inference attack, demonstrating the flexibility of SafeCompress. | 翻訳日:2024-01-03 15:00:29 公開日:2024-01-02 |
# 異構造中の例外直交多項式を用いた等時ポテンシャルの新しい解法 New solutions of Isochronous potentials in terms of exceptional orthogonal polynomials in heterostructures ( http://arxiv.org/abs/2401.00995v1 ) ライセンス: Link先を確認 | Satish Yadav, Rahul Ghosh, Bhabani Prasad Mandal | (参考訳) ポイント正準変換(PCT)は、位置依存質量(PDM)フレームワークにおいて、より正確に解ける新しいポテンシャルを発見するために用いられる。
我々は PDM フレームワークにおける 1-D Schr\"{o}dinger 方程式を、 (i) M(x)=\lambda g'(x)$ と $(ii) M(x) = c \left( {g'(x)} \right)^\nu $, $\nu =\frac{2\eta}{2\eta+1},$ と $\eta= 0,1,2\cdots $ の2つのかなり一般的な位置依存質量を考えることによって解決する。
第1のケースでは、整数パラメータ$m$に依存する、真に解ける新しいポテンシャルを見つけ、対応する解は、$X_m$-Laguerre多項式によって記述される。
後者の場合、境界状態が$X_m$-Laguerre多項式で記述された等時的可解ポテンシャルの新たなパラメータ$(\nu)$族を得る。
さらに、PDMの枠組みにおける超対称性アプローチを用いて、新しいポテンシャルが形状不変であることを示す。 Point canonical transformation (PCT) has been used to find out new exactly solvable potentials in the position-dependent mass (PDM) framework. We solve $1$-D Schr\"{o}dinger equation in the PDM framework by considering two different fairly generic position-dependent masses $ (i) M(x)=\lambda g'(x)$ and $(ii) M(x) = c \left( {g'(x)} \right)^\nu $, $\nu =\frac{2\eta}{2\eta+1},$ with $\eta= 0,1,2\cdots $. In the first case, we find new exactly solvable potentials that depend on an integer parameter $m$, and the corresponding solutions are written in terms of $X_m$-Laguerre polynomials. In the latter case, we obtain a new one parameter $(\nu)$ family of isochronous solvable potentials whose bound states are written in terms of $X_m$-Laguerre polynomials. Further, we show that the new potentials are shape invariant by using the supersymmetric approach in the framework of PDM. | 翻訳日:2024-01-03 15:00:00 公開日:2024-01-02 |
# オンラインテスト時間適応における時間相関データストリーム対応のためのダイバーシティアウェアバッファ Diversity-aware Buffer for Coping with Temporally Correlated Data Streams in Online Test-time Adaptation ( http://arxiv.org/abs/2401.00989v1 ) ライセンス: Link先を確認 | Mario D\"obler, Florian Marencke, Robert A. Marsden, Bin Yang | (参考訳) モデルのデプロイ後に分散シフトが発生し、モデルのパフォーマンスが劇的に低下する可能性があるため、オンラインテストタイムアダプション(tta)は、現在のテストデータを利用して、テスト時間中にモデルを更新する。
実世界のシナリオでは、テストデータストリームは必ずしも独立であり、同じ分散(すなわちd)であるとは限らない。
代わりに、それらはしばしば時間的に相関し、非i.i.d.となり、既存の多くの方法がこのシナリオに対処するのに苦労する。
そこで本研究では,非i.d.シナリオにおいても,i.d.データストリームをシミュレート可能なダイバーシティ対応・カテゴリバランスバッファを提案する。
多様性とエントロピー重み付きエントロピー損失を組み合わせることで,イメージネットに基づく広範囲の腐敗と自然領域シフトに対して安定した適応が可能となることを示す。
我々はほとんどのベンチマークで最先端の結果を得る。 Since distribution shifts are likely to occur after a model's deployment and can drastically decrease the model's performance, online test-time adaptation (TTA) continues to update the model during test-time, leveraging the current test data. In real-world scenarios, test data streams are not always independent and identically distributed (i.i.d.). Instead, they are frequently temporally correlated, making them non-i.i.d. Many existing methods struggle to cope with this scenario. In response, we propose a diversity-aware and category-balanced buffer that can simulate an i.i.d. data stream, even in non-i.i.d. scenarios. Combined with a diversity and entropy-weighted entropy loss, we show that a stable adaptation is possible on a wide range of corruptions and natural domain shifts, based on ImageNet. We achieve state-of-the-art results on most considered benchmarks. | 翻訳日:2024-01-03 14:59:29 公開日:2024-01-02 |
# バードアイビューインジェクションマルチモーダル大型モデルによる総合的自律運転理解 Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models ( http://arxiv.org/abs/2401.00988v1 ) ライセンス: Link先を確認 | Xinpeng Ding and Jinahua Han and Hang Xu and Xiaodan Liang and Wei Zhang and Xiaomeng Li | (参考訳) MLLM(Multimodal large language model)の台頭は、言語ベースの運転タスクへの関心を喚起している。
しかし、既存の研究は通常、限られたタスクに重点を置いており、堅牢な自動運転に不可欠な、重要なマルチビューと時間的情報を省略することが多い。
これらのギャップを埋めるために,NuInstructを導入する。これは17のサブタスクに91Kのマルチビュービデオ-QAペアを持つ新しいデータセットで,各タスクが全体的情報(時間的,マルチビュー,空間的など)を要求する。
そこで本研究では,人間の論理進行に触発された命令応答ペアを自動生成する新しいsqlベース手法を提案する。
さらに,BEV-InMLLMは命令認識のBird's-Eye-View(BEV)機能を効率よく導き出すためのエンドツーエンド手法である。
BEV-InMLLMは、NuInstructタスクにおけるMLLMの機能を高めるために、多視点、空間認識、時間意味学を統合している。
さらに,提案するBEVインジェクションモジュールは既存のMLLMのプラグアンドプレイ方式である。
我々のNuInstruct実験は、BEV-InMLLMが既存のMLLMを著しく上回り、例えば、様々なタスクにおいて約9%改善されていることを示す。
今後の研究開発のためのNuInstructをリリースする予定です。 The rise of multimodal large language models (MLLMs) has spurred interest in language-based driving tasks. However, existing research typically focuses on limited tasks and often omits key multi-view and temporal information which is crucial for robust autonomous driving. To bridge these gaps, we introduce NuInstruct, a novel dataset with 91K multi-view video-QA pairs across 17 subtasks, where each task demands holistic information (e.g., temporal, multi-view, and spatial), significantly elevating the challenge level. To obtain NuInstruct, we propose a novel SQL-based method to generate instruction-response pairs automatically, which is inspired by the driving logical progression of humans. We further present BEV-InMLLM, an end-to-end method for efficiently deriving instruction-aware Bird's-Eye-View (BEV) features, language-aligned for large language models. BEV-InMLLM integrates multi-view, spatial awareness, and temporal semantics to enhance MLLMs' capabilities on NuInstruct tasks. Moreover, our proposed BEV injection module is a plug-and-play method for existing MLLMs. Our experiments on NuInstruct demonstrate that BEV-InMLLM significantly outperforms existing MLLMs, e.g. around 9% improvement on various tasks. We plan to release our NuInstruct for future research development. | 翻訳日:2024-01-03 14:59:13 公開日:2024-01-02 |
# 深層学習による背景クラッタ効果を考慮した環境中リアルタイム物体検出 Real-Time Object Detection in Occluded Environment with Background Cluttering Effects Using Deep Learning ( http://arxiv.org/abs/2401.00986v1 ) ライセンス: Link先を確認 | Syed Muhammad Aamir, Hongbin Ma, Malak Abid Ali Khan, Muhammad Aaqib | (参考訳) ぼろぼろの背景を持つ閉ざされた環境における小型で未決定の移動物体や物体の検出は、コンピュータビジョンの主要な問題である。
これはディープラーニングモデルの検出精度に大きな影響を及ぼす。
これらの問題を解決するため,SSDとYOLOアルゴリズムを併用した乱雑な背景環境下での車やタンクのリアルタイム検出のためのディープラーニングモデルに集中し,検出精度の向上と,これらのモデルが直面する問題点の低減を図る。
提案手法はカスタムデータセットを作成し、ノイズの多いデータセットをきれいにするためにプリプロセッシング技術を用いる。
開発したモデルのトレーニングには,データのバランスと多様化にデータ拡張技術を適用する。
これらのテクニックを適用することで、確立したデータセット上でこれらのモデルを微調整し、訓練し、評価しました。
SSD-Mobilenet v2モデルの精度とフレームは、YOLO V3やYOLO V4よりも高い。
さらに,データ強化,ノイズ低減,パラメータ最適化,モデル融合といった様々な手法を用いて,検出と認識の有効性を向上させる。
さらに計数アルゴリズムと目標属性を実験的に比較し,オブジェクトの計数,警告,ステータス,解像度,フレーム毎のフレームを特徴とするグラフィカルユーザインタフェースシステムを構築した。
その後, YOLO V3, V4, SSDの手法解析の重要性を検証した。
その結果,提案手法全体の完成が得られた。 Detection of small, undetermined moving objects or objects in an occluded environment with a cluttered background is the main problem of computer vision. This greatly affects the detection accuracy of deep learning models. To overcome these problems, we concentrate on deep learning models for real-time detection of cars and tanks in an occluded environment with a cluttered background employing SSD and YOLO algorithms and improved precision of detection and reduce problems faced by these models. The developed method makes the custom dataset and employs a preprocessing technique to clean the noisy dataset. For training the developed model we apply the data augmentation technique to balance and diversify the data. We fine-tuned, trained, and evaluated these models on the established dataset by applying these techniques and highlighting the results we got more accurately than without applying these techniques. The accuracy and frame per second of the SSD-Mobilenet v2 model are higher than YOLO V3 and YOLO V4. Furthermore, by employing various techniques like data enhancement, noise reduction, parameter optimization, and model fusion we improve the effectiveness of detection and recognition. We further added a counting algorithm, and target attributes experimental comparison, and made a graphical user interface system for the developed model with features of object counting, alerts, status, resolution, and frame per second. Subsequently, to justify the importance of the developed method analysis of YOLO V3, V4, and SSD were incorporated. Which resulted in the overall completion of the proposed method. | 翻訳日:2024-01-03 14:58:48 公開日:2024-01-02 |
# 脳脊髄流体バイオマーカーを用いたアルツハイマー病ステージの機械学習分類 Machine Learning Classification of Alzheimer's Disease Stages Using Cerebrospinal Fluid Biomarkers Alone ( http://arxiv.org/abs/2401.00981v1 ) ライセンス: Link先を確認 | Vivek Kumar Tiwari, Premananda Indic, Shawana Tabassum | (参考訳) アルツハイマー病の早期診断は、既往の方法では臨床症状の発症までに最大10年かかる前臨床段階の患者を特定できないため、課題である。
いくつかの研究は、アルツハイマー病の早期診断における髄液バイオマーカー、アミロイドβ1-42、T-タウ、P-タウの可能性を示している。
本研究では,脳脊髄液バイオマーカーレベルのみに基づいてアルツハイマー病の異なる段階を分類するために,機械学習モデルを用いた。
national alzheimer's coordinating centre databaseの患者の電子健康記録を解析し、ミニメンタル状態スコアと臨床認知症格付けに基づいて分類した。
統計的および相関分析により,アルツハイマー病のステージ間に有意差が認められた。
その後, k-nearest neighbors, ensemble boosted tree, ensemble bagged tree, support vector machine, logistic regression, naive bayes classifierなどの機械学習分類器を用いてアルツハイマー病の分類を行った。
その結果,Ensemble Boosted Tree (84.4%),Logistic Regression (73.4%),Ensemble Bagged Tree (75.4%)の2進分類では高い精度が得られた。
本研究の知見は,脳脊髄液バイオマーカー単独によるアルツハイマー病の早期診断,疾患進行のモニタリング,適切な介入措置の実施について,臨床医がインフォームドな判断を行う上で有効であることが期待される。 Early diagnosis of Alzheimer's disease is a challenge because the existing methodologies do not identify the patients in their preclinical stage, which can last up to a decade prior to the onset of clinical symptoms. Several research studies demonstrate the potential of cerebrospinal fluid biomarkers, amyloid beta 1-42, T-tau, and P-tau, in early diagnosis of Alzheimer's disease stages. In this work, we used machine learning models to classify different stages of Alzheimer's disease based on the cerebrospinal fluid biomarker levels alone. An electronic health record of patients from the National Alzheimer's Coordinating Centre database was analyzed and the patients were subdivided based on mini-mental state scores and clinical dementia ratings. Statistical and correlation analyses were performed to identify significant differences between the Alzheimer's stages. Afterward, machine learning classifiers including K-Nearest Neighbors, Ensemble Boosted Tree, Ensemble Bagged Tree, Support Vector Machine, Logistic Regression, and Naive Bayes classifiers were employed to classify the Alzheimer's disease stages. The results demonstrate that Ensemble Boosted Tree (84.4%) and Logistic Regression (73.4%) provide the highest accuracy for binary classification, while Ensemble Bagged Tree (75.4%) demonstrates better accuracy for multiclassification. The findings from this research are expected to help clinicians in making an informed decision regarding the early diagnosis of Alzheimer's from the cerebrospinal fluid biomarkers alone, monitoring of the disease progression, and implementation of appropriate intervention measures. | 翻訳日:2024-01-03 14:58:24 公開日:2024-01-02 |
# 相互作用する手のための3次元視認性認識可能な神経放射場 3D Visibility-aware Generalizable Neural Radiance Fields for Interacting Hands ( http://arxiv.org/abs/2401.00979v1 ) ライセンス: Link先を確認 | Xuan Huang, Hanhui Li, Zejun Yang, Zhisheng Wang, Xiaodan Liang | (参考訳) neural radiance field (nerfs)はシーン、オブジェクト、人間の3d表現を約束している。
しかし、既存のほとんどのメソッドはマルチビュー入力とシーンごとのトレーニングを必要とし、実際のアプリケーションを制限する。
また、現在の手法では単射の事例に焦点をあてており、手首間の激しい閉塞や難解な視点の変化を伴う相互作用の場面は未解決のままである。
これらの課題に対処するために,手動操作のための一般化可能な可視性NeRF(VA-NeRF)フレームワークを提案する。
具体的には、入力として相互作用する手の画像が与えられた場合、VA-NeRFはまずメッシュベースの手表現を取得し、対応する幾何学的特徴とテクスチャ的特徴を抽出する。
次に,問合せ点とメッシュ頂点の可視性を活用した機能融合モジュールを導入し,両手の特徴を適応的にマージし,未知領域の機能回復を可能にする。
さらに,我々のVA-NeRFは,対戦型学習パラダイムにおける新しい識別器と共に最適化されている。
合成画像の1つの実・偽ラベルを予測する従来の識別器とは対照的に,提案した判別器は画素単位の視認性マップを生成し,未確認領域のきめ細かい監視を行い,VA-NeRFにより合成画像の視覚的品質を向上させる。
Interhand2.6Mデータセットの実験により、提案したVA-NeRFは従来のNeRFよりも著しく優れていることが示された。
プロジェクトページ: \url{https://github.com/xuanhuang0/vanerf} Neural radiance fields (NeRFs) are promising 3D representations for scenes, objects, and humans. However, most existing methods require multi-view inputs and per-scene training, which limits their real-life applications. Moreover, current methods focus on single-subject cases, leaving scenes of interacting hands that involve severe inter-hand occlusions and challenging view variations remain unsolved. To tackle these issues, this paper proposes a generalizable visibility-aware NeRF (VA-NeRF) framework for interacting hands. Specifically, given an image of interacting hands as input, our VA-NeRF first obtains a mesh-based representation of hands and extracts their corresponding geometric and textural features. Subsequently, a feature fusion module that exploits the visibility of query points and mesh vertices is introduced to adaptively merge features of both hands, enabling the recovery of features in unseen areas. Additionally, our VA-NeRF is optimized together with a novel discriminator within an adversarial learning paradigm. In contrast to conventional discriminators that predict a single real/fake label for the synthesized image, the proposed discriminator generates a pixel-wise visibility map, providing fine-grained supervision for unseen areas and encouraging the VA-NeRF to improve the visual quality of synthesized images. Experiments on the Interhand2.6M dataset demonstrate that our proposed VA-NeRF outperforms conventional NeRFs significantly. Project Page: \url{https://github.com/XuanHuang0/VANeRF}. | 翻訳日:2024-01-03 14:57:56 公開日:2024-01-02 |
# 未知制約を持つ制約付き多目的最適化のための乗算器の進化交代方向法 Evolutionary Alternating Direction Method of Multipliers for Constrained Multi-Objective Optimization with Unknown Constraints ( http://arxiv.org/abs/2401.00978v1 ) ライセンス: Link先を確認 | Shuang Li, Ke Li, Wei Li, Ming Yang | (参考訳) 制約付き多目的最適化問題 (cmops) は、科学、工学、設計における現実世界の応用を広める。
制約違反は、制約付き多目的最適化問題を解決するための進化的多目的最適化アルゴリズムを設計する上で重要なブロックである。
しかし、あるシナリオでは制約関数が未知あるいは不適切に定義され、従来の制約付き進化的多目的最適化アルゴリズムに対して制約違反が達成不可能で誤解を招く可能性がある。
本稿では,目的関数と制約関数を分離する乗算器の交互方向法(alternating direction method of multipliers)の原理に触発された,最初の進化最適化フレームワークを提案する。
この枠組みは、未知の制約を持つcmopsに対処し、元の問題を2つのサブプロブレムの加法形式に再構成し、それぞれに専用の進化集団を割り当てる。
この2つの個体群は最適化過程において相補的な進化方向に向かって機能する。
矛盾を最小限に抑えるために、それらの進化方向は交互に変化し、実現可能な解の発見を助ける。
提案手法の有効性と優位性を実証するために, 最先端の制約付き進化的多目的最適化アルゴリズム5つ, 様々な特性を持つ120のベンチマークテスト問題インスタンスと, 実世界の2つの工学的最適化問題の比較実験を行った。
その突出した特徴は、より高速な収束と様々なパレート前面形状への弾力性の向上である。 Constrained multi-objective optimization problems (CMOPs) pervade real-world applications in science, engineering, and design. Constraint violation has been a building block in designing evolutionary multi-objective optimization algorithms for solving constrained multi-objective optimization problems. However, in certain scenarios, constraint functions might be unknown or inadequately defined, making constraint violation unattainable and potentially misleading for conventional constrained evolutionary multi-objective optimization algorithms. To address this issue, we present the first of its kind evolutionary optimization framework, inspired by the principles of the alternating direction method of multipliers that decouples objective and constraint functions. This framework tackles CMOPs with unknown constraints by reformulating the original problem into an additive form of two subproblems, each of which is allotted a dedicated evolutionary population. Notably, these two populations operate towards complementary evolutionary directions during their optimization processes. In order to minimize discrepancy, their evolutionary directions alternate, aiding the discovery of feasible solutions. Comparative experiments conducted against five state-of-the-art constrained evolutionary multi-objective optimization algorithms, on 120 benchmark test problem instances with varying properties, as well as two real-world engineering optimization problems, demonstrate the effectiveness and superiority of our proposed framework. Its salient features include faster convergence and enhanced resilience to various Pareto front shapes. | 翻訳日:2024-01-03 14:57:29 公開日:2024-01-02 |
# ロバストグローバル特徴抽出による自動変調認識の実現 Enhancing Automatic Modulation Recognition through Robust Global Feature Extraction ( http://arxiv.org/abs/2401.01056v1 ) ライセンス: Link先を確認 | Yunpeng Qu, Zhilin Lu, Rui Zeng, Jintao Wang and Jian Wang | (参考訳) 自動変調認識(AMR)は無線通信システムにおいて重要な役割を果たす。
ディープラーニング AMR 戦略は近年,大きな成功を収めています。
変調信号は時間的依存性を持ち、グローバル特徴の抽出は変調スキームの同定に不可欠である。
伝統的に、人間の専門家はコンステレーション図のパターンを分析して変調スキームを分類する。
古典的な畳み込みベースのネットワークは、受容領域が限られており、局所的な特徴の抽出に長けているが、グローバルな関係を捉えるのに苦労している。
この制限に対処するために,トランスフォーマと長寿命メモリ(LSTM)のアーキテクチャを組み込んだ,TLDNNという新しいハイブリッドディープフレームワークを導入する。
信号列における大域的相関のモデル化にトランスフォーマーの自己保持機構を用い,LSTMを用いて時間的依存の捕捉を強化する。
モデル一般化におけるRF指紋特徴やチャネル特性などの影響を軽減するために,セグメント置換(SS)と呼ばれるデータ拡張戦略を提案し,変調関連特徴に対するモデルの堅牢性を高める。
実験結果から,本手法が最先端の性能を達成し,複雑さの面で大きな優位性を示すことが示された。
提案するフレームワークは,さまざまなデータセットに拡張可能な基本的なバックボーンとして機能する。
我々は,モデルの一般化,特に少数のシナリオにおける拡張手法の有効性を検証した。
コードは \url{https://github.com/AMR-Master/TLDNN} で入手できる。 Automatic Modulation Recognition (AMR) plays a crucial role in wireless communication systems. Deep learning AMR strategies have achieved tremendous success in recent years. Modulated signals exhibit long temporal dependencies, and extracting global features is crucial in identifying modulation schemes. Traditionally, human experts analyze patterns in constellation diagrams to classify modulation schemes. Classical convolutional-based networks, due to their limited receptive fields, excel at extracting local features but struggle to capture global relationships. To address this limitation, we introduce a novel hybrid deep framework named TLDNN, which incorporates the architectures of the transformer and long short-term memory (LSTM). We utilize the self-attention mechanism of the transformer to model the global correlations in signal sequences while employing LSTM to enhance the capture of temporal dependencies. To mitigate the impact like RF fingerprint features and channel characteristics on model generalization, we propose data augmentation strategies known as segment substitution (SS) to enhance the model's robustness to modulation-related features. Experimental results on widely-used datasets demonstrate that our method achieves state-of-the-art performance and exhibits significant advantages in terms of complexity. Our proposed framework serves as a foundational backbone that can be extended to different datasets. We have verified the effectiveness of our augmentation approach in enhancing the generalization of the models, particularly in few-shot scenarios. Code is available at \url{https://github.com/AMR-Master/TLDNN}. | 翻訳日:2024-01-03 14:50:10 公開日:2024-01-02 |
# LLaMA Beyond English: 言語の能力伝達に関する実証的研究 LLaMA Beyond English: An Empirical Study on Language Capability Transfer ( http://arxiv.org/abs/2401.01055v1 ) ライセンス: Link先を確認 | Jun Zhao, Zhihao Zhang, Qi Zhang, Tao Gui, Xuanjing Huang | (参考訳) 近年、ChatGPTによって実証された大規模言語モデル(LLM)では、様々な複雑なタスクにおいて顕著な習熟度を示している。
しかし、LLaMA のような多くの主要な LLM は、英語以外の言語での性能を制限する英語に支配的なコーパスで事前訓練されている。
本稿では,非英語の言語に対して,言語生成と従属命令の機能を効果的に伝達する方法に着目する。
この疑問に答えるために、LLaMAに基づいて1440時間以上のGPU時間を蓄積し、広範な実証調査を行う。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響を分析する。
モデルの知識レベルを正確に評価するために, C-Eval, MMLU, AGI-Eval, GAokao-Benchの4つの標準テストベンチマークを用いた。
さらに, llm-eval に基づいて, 精度, フラレンシ, 情報性, 論理的コヒーレンス, および無害性などの側面を考慮して, モデルの応答品質の包括的評価を行った。
評価結果は,知識アライメントと応答品質の両面で,事前学習データの1%未満で,最先端の転送モデルに匹敵する性能を達成できることを実証した。
さらに、13の低リソース言語に対する実験結果も同様の傾向を示した。
実験の結果から得られた結論が,非英語 LLM 開発におけるコミュニティの助けとなることを期待する。 In recent times, substantial advancements have been witnessed in large language models (LLMs), exemplified by ChatGPT, showcasing remarkable proficiency across a range of complex tasks. However, many mainstream LLMs (e.g. LLaMA) are pretrained on English-dominant corpus, which limits their performance in other non-English languages. In this paper, we focus on how to effectively transfer the capabilities of language generation and following instructions to a non-English language. To answer this question, we conduct an extensive empirical investigation based on LLaMA, accumulating over 1440 GPU hours. We analyze the impact of key factors such as vocabulary extension, further pretraining, and instruction tuning on transfer. To accurately assess the model's level of knowledge, we employ four widely used standardized testing benchmarks: C-Eval, MMLU, AGI-Eval, and GAOKAO-Bench. Furthermore, a comprehensive evaluation of the model's response quality is conducted, considering aspects such as accuracy, fluency, informativeness, logical coherence, and harmlessness, based on LLM-Eval, a benchmarks consisting instruction tasks from 17 diverse categories. Our evaluation results demonstrate that comparable performance to state-of-the-art transfer models can be achieved with less than 1% of the pretraining data, both in terms of knowledge alignment and response quality. Furthermore, the experimental outcomes across the thirteen low-resource languages also exhibit similar trends. We anticipate that the conclusions revealed by the experiments will aid the community in developing non-English LLMs. | 翻訳日:2024-01-03 14:49:47 公開日:2024-01-02 |
# 並列連続学習のための弾力的マルチグラディエントDescent Elastic Multi-Gradient Descent for Parallel Continual Learning ( http://arxiv.org/abs/2401.01054v1 ) ライセンス: Link先を確認 | Fan Lyu, Wei Feng, Yuepan Li, Qing Sun, Fanhua Shang, Liang Wan, Liang Wang | (参考訳) 継続学習(CL)の目的は、新しいデータストリームから継続的に学び、対応するタスクを達成することである。
以前に研究されたclは、データは異なるタスクに対して一連の鼻から尾で与えられると仮定しており、これは実際に連続連続学習(scl)に属する。
本稿では,動的マルチタスクシナリオにおける並列連続学習(pcl)の新たなパラダイムについて検討する。
PCLは、学習進捗の異なる未特定タスクのトレーニングにより課題を提示し、遭遇したタスクすべてに対して効果的なモデル更新を保証することが困難になる。
前回のカンファレンスでは,多目的最適化問題における勾配間の不一致の測定と低減に重点を置いてきたが,モデル更新毎に負の転送を含む可能性がある。
この問題に対処するために,動的多目的最適化問題において,パレートフロントへの降下方向を調整するタスク固有の弾性因子を導入する。
提案手法はElastic Multi-Gradient Descent (EMGD)と呼ばれ、各更新が適切なPareto降下方向に従っていることを保証する。
古いタスクと新しいタスクのトレーニングのバランスをとるために,emgdを用いて計算した勾配に導かれるメモリ編集機構を提案する。
この編集プロセスは格納されたデータポイントを更新し、以前のタスクからのパレート降下方向の干渉を低減する。
公開データセットを用いた実験により,PCL設定におけるEMGDの有効性が検証された。 The goal of Continual Learning (CL) is to continuously learn from new data streams and accomplish the corresponding tasks. Previously studied CL assumes that data are given in sequence nose-to-tail for different tasks, thus indeed belonging to Serial Continual Learning (SCL). This paper studies the novel paradigm of Parallel Continual Learning (PCL) in dynamic multi-task scenarios, where a diverse set of tasks is encountered at different time points. PCL presents challenges due to the training of an unspecified number of tasks with varying learning progress, leading to the difficulty of guaranteeing effective model updates for all encountered tasks. In our previous conference work, we focused on measuring and reducing the discrepancy among gradients in a multi-objective optimization problem, which, however, may still contain negative transfers in every model update. To address this issue, in the dynamic multi-objective optimization problem, we introduce task-specific elastic factors to adjust the descent direction towards the Pareto front. The proposed method, called Elastic Multi-Gradient Descent (EMGD), ensures that each update follows an appropriate Pareto descent direction, minimizing any negative impact on previously learned tasks. To balance the training between old and new tasks, we also propose a memory editing mechanism guided by the gradient computed using EMGD. This editing process updates the stored data points, reducing interference in the Pareto descent direction from previous tasks. Experiments on public datasets validate the effectiveness of our EMGD in the PCL setting. | 翻訳日:2024-01-03 14:49:19 公開日:2024-01-02 |
# cheetah: アフリカ517言語のための自然言語生成 Cheetah: Natural Language Generation for 517 African Languages ( http://arxiv.org/abs/2401.01053v1 ) ライセンス: Link先を確認 | Ife Adebara, AbdelRahim Elmadany, Muhammad Abdul-Mageed | (参考訳) 低リソースのアフリカ言語は自然言語生成(NLG)を含む自然言語処理(NLP)タスクに固有の課題をもたらす。
本稿ではアフリカ語のための多言語NLG言語モデルであるCheetahを開発する。
Cheetahは517のアフリカ語と言語品種をサポートし、NLGリソースの不足に対処し、言語多様性を育むためのソリューションを提供する。
7世代のダウンストリームタスクを包括的評価することにより,cheetahの有効性を実証する。
7つのタスクのうち5つで、cheetahは他のモデルを大きく上回り、幅広いアフリカの言語でコヒーレントで文脈に合ったテキストを生成するという顕著な性能を示している。
さらに,cheetahの言語能力について深く掘り下げるために,詳細な人間評価を行う。
チーターの導入は言語多様性にとって大きな利点がある。
事前訓練されたモデルを活用して特定の言語に適応することにより、アフリカのコミュニティに実用的なNLGアプリケーションの開発を促進する。
本研究は,低リソース環境でのNLP研究の進展に寄与し,急速に拡大するデジタルランドスケープにおけるアフリカ言語へのアクセシビリティと包摂性の向上に寄与する。
私たちは研究用のモデルを公開します。 Low-resource African languages pose unique challenges for natural language processing (NLP) tasks, including natural language generation (NLG). In this paper, we develop Cheetah, a massively multilingual NLG language model for African languages. Cheetah supports 517 African languages and language varieties, allowing us to address the scarcity of NLG resources and provide a solution to foster linguistic diversity. We demonstrate the effectiveness of Cheetah through comprehensive evaluations across seven generation downstream tasks. In five of the seven tasks, Cheetah significantly outperforms other models, showcasing its remarkable performance for generating coherent and contextually appropriate text in a wide range of African languages. We additionally conduct a detailed human evaluation to delve deeper into the linguistic capabilities of Cheetah. The introduction of Cheetah has far-reaching benefits for linguistic diversity. By leveraging pretrained models and adapting them to specific languages, our approach facilitates the development of practical NLG applications for African communities. The findings of this study contribute to advancing NLP research in low-resource settings, enabling greater accessibility and inclusion for African languages in a rapidly expanding digital landscape. We will publicly release our models for research. | 翻訳日:2024-01-03 14:48:53 公開日:2024-01-02 |
# 5ドルの量子ビットを持つ単一六角形上の極小キタエフスピン液体中のマヨラナフェルミオンの衝突と融合 Braiding and fusion of Majorana fermions in minimal Kitaev spin liquid on a single hexagon with $5$ qubits ( http://arxiv.org/abs/2401.01051v1 ) ライセンス: Link先を確認 | Motohiko Ezawa | (参考訳) K_{x}$, $K_{y}$, $K_{z}$に比例する3つのIsing型交換相互作用を持つ1つの六角形上の最小の北エフスピン液体について検討する。
K_{z}=0$の極限では、32倍のゼロエネルギー状態が見つかり、10自由マヨラナフェルミオンとなり、5量子ビットが構成される。
これらの量子ビットは、k_{z}\neq 0$でも素粒子ホール対称性によって保護される。
これらのマヨラナフェルミオンのブレイディングはスピン相関ハミルトニアンを時間的に制御することで可能である。
また、スピン相関を測定することにより融合が可能となる。
ハイゼンベルク相互作用を磁場と共に切り替えることによって、量子ビットの初期化として使用できるゼロエネルギー状態は1つしか持続しない。
さらに、3l+2$ qubits は、結合した $l$ ヘキサゴン上のキタエフスピン液体モデルに基づいて構築されていることが示されている。
量子ビットの初期化、演算、読み出しの全てのプロセスはスピン演算子によって実行可能である。 We investigate the minimal Kitaev spin liquid on a single hexagon with three Ising-type exchange interactions proportional to $K_{x}$, $K_{y}$ and $K_{z}$. In the limit $K_{z}=0$, we find 32-fold zero-energy states, leading to 10 free Majorana fermions, and hence, 5 qubits are constructed. These qubits are protected by particle-hole symmetry even for $K_{z}\neq 0$. Braiding of these Majorana fermions is possible by temporally controlling a spin-correlation Hamiltonian. In addition, the fusion is possible by measuring the spin correlation. By switching on the Heisenberg interaction together with magnetic field, only one zero-energy state persists, which can be used as an initialization of qubits. Furthermore, it is shown that $3L+2$ qubits are constructed on the Kitaev spin liquid model on connected $L$ hexagons. All the processes of initialization, operation and readout of qubits are executable in terms of spin operators. | 翻訳日:2024-01-03 14:48:33 公開日:2024-01-02 |
# 多視点学習のためのPAC-Bayesian領域適応境界 PAC-Bayesian Domain Adaptation Bounds for Multi-view learning ( http://arxiv.org/abs/2401.01048v1 ) ライセンス: Link先を確認 | Mehdi Hennequin and Khalid Benabdeslem and Haytham Elghazel | (参考訳) 本稿では,多視点学習環境におけるドメイン適応に関する一連の新しい結果について述べる。
ドメイン適応における複数の視点の組み入れは,これまでの研究ではほとんど注目されなかった。
このようにして,pac-ベイズ理論を用いた一般化境界の解析を行い,現在別々に扱われている2つのパラダイムを統合する。
まず、Germainらによる以前の研究に基づいて、Germainらによって提案された分布間の距離を多視点学習の概念によるドメイン適応に適用する。
そこで我々は,マルチビュー領域適応設定に適した新しい距離を導入する。
次に、導入された発散を推定するためにpac-ベイズ境界を与える。
最後に、異なる新しい境界を以前の研究と比較する。 This paper presents a series of new results for domain adaptation in the multi-view learning setting. The incorporation of multiple views in the domain adaptation was paid little attention in the previous studies. In this way, we propose an analysis of generalization bounds with Pac-Bayesian theory to consolidate the two paradigms, which are currently treated separately. Firstly, building on previous work by Germain et al., we adapt the distance between distribution proposed by Germain et al. for domain adaptation with the concept of multi-view learning. Thus, we introduce a novel distance that is tailored for the multi-view domain adaptation setting. Then, we give Pac-Bayesian bounds for estimating the introduced divergence. Finally, we compare the different new bounds with the previous studies. | 翻訳日:2024-01-03 14:48:14 公開日:2024-01-02 |
# テンソルPCAのパワーイテレーションのシャープ解析 Sharp Analysis of Power Iteration for Tensor PCA ( http://arxiv.org/abs/2401.01047v1 ) ライセンス: Link先を確認 | Yuchen Wu and Kangjie Zhou | (参考訳) リチャードとモンタナリ(2014)で導入されたテンソルPCAモデルの電力反復アルゴリズムについて検討する。
テンソルパワーイテレーションの性質を研究する以前の研究は、一定数の反復に制限されるか、あるいは非自明なデータ独立初期化を必要とする。
本稿では,これらの限界を超えて,ランダムに初期化されたテンソルパワー反復のダイナミクスを多項式的に多くのステップまで解析する。
まず、電力法が植えられた信号に収束するために必要なイテレーションの数を、信号対雑音比の広い範囲に対して鋭い境界を定めます。
第2に, パワーイテレーションのアルゴリズム閾値は, n が環境次元であるポリログ(n)因子によって文献で予想される値よりも小さいことを明らかにする。
最後に、実信号と高い相関性を持つ解を証明的に出力する、電力繰り返しの単純かつ効果的な停止基準を提案する。
広範な数値実験が我々の理論結果を検証する。 We investigate the power iteration algorithm for the tensor PCA model introduced in Richard and Montanari (2014). Previous work studying the properties of tensor power iteration is either limited to a constant number of iterations, or requires a non-trivial data-independent initialization. In this paper, we move beyond these limitations and analyze the dynamics of randomly initialized tensor power iteration up to polynomially many steps. Our contributions are threefold: First, we establish sharp bounds on the number of iterations required for power method to converge to the planted signal, for a broad range of the signal-to-noise ratios. Second, our analysis reveals that the actual algorithmic threshold for power iteration is smaller than the one conjectured in literature by a polylog(n) factor, where n is the ambient dimension. Finally, we propose a simple and effective stopping criterion for power iteration, which provably outputs a solution that is highly correlated with the true signal. Extensive numerical experiments verify our theoretical results. | 翻訳日:2024-01-03 14:48:03 公開日:2024-01-02 |
# auffusion:テキスト音声生成のための拡散力と大規模言語モデルを活用する Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation ( http://arxiv.org/abs/2401.01044v1 ) ライセンス: Link先を確認 | Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li | (参考訳) 拡散モデルと大規模言語モデル(LLM)の最近の進歩はAIGCの分野を著しく推進している。
自然言語のプロンプトから音声を生成するためのAIGCアプリケーションであるText-to-Audio (TTA)が注目を集めている。
しかし、既存のTTA研究は、特に複雑なテキスト入力において、生成品質とテキスト・オーディオアライメントに苦しむことが多い。
最先端のテキスト・トゥ・イメージ(T2I)拡散モデルからインスピレーションを得て,T2IモデルフレームワークをTTAタスクに適用したTTAシステムであるAuffusionを導入する。
我々の目的および主観評価は、Auffusionが制限されたデータと計算資源を用いて、以前のTTAアプローチを上回ることを示す。
さらに、T2Iにおける以前の研究は、エンコーダ選択が細粒度やオブジェクト結合といったモード間アライメントに重大な影響があることを認識し、TTAの以前の作業では同様の評価が欠けている。
包括的アブレーション研究と革新的なクロスアテンションマップ可視化を通じて,TTAにおけるテキスト・オーディオアライメントの洞察に富んだ評価を行う。
以上の結果から,Auffusionはテキスト記述と正確に一致した音声を生成する能力に優れており,音声スタイルの転送やインペインティング,その他の操作など,いくつかの関連タスクでさらに実証されている。
実装とデモはhttps://auffusion.github.io.com/で公開しています。 Recent advancements in diffusion models and large language models (LLMs) have significantly propelled the field of AIGC. Text-to-Audio (TTA), a burgeoning AIGC application designed to generate audio from natural language prompts, is attracting increasing attention. However, existing TTA studies often struggle with generation quality and text-audio alignment, especially for complex textual inputs. Drawing inspiration from state-of-the-art Text-to-Image (T2I) diffusion models, we introduce Auffusion, a TTA system adapting T2I model frameworks to TTA task, by effectively leveraging their inherent generative strengths and precise cross-modal alignment. Our objective and subjective evaluations demonstrate that Auffusion surpasses previous TTA approaches using limited data and computational resource. Furthermore, previous studies in T2I recognizes the significant impact of encoder choice on cross-modal alignment, like fine-grained details and object bindings, while similar evaluation is lacking in prior TTA works. Through comprehensive ablation studies and innovative cross-attention map visualizations, we provide insightful assessments of text-audio alignment in TTA. Our findings reveal Auffusion's superior capability in generating audios that accurately match textual descriptions, which further demonstrated in several related tasks, such as audio style transfer, inpainting and other manipulations. Our implementation and demos are available at https://auffusion.github.io. | 翻訳日:2024-01-03 14:47:46 公開日:2024-01-02 |
# 教師なしドメイン適応のための自己監督学習と非相関条件に基づくイベントとフレームの関係 Relating Events and Frames Based on Self-Supervised Learning and Uncorrelated Conditioning for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2401.01042v1 ) ライセンス: Link先を確認 | Mohammad Rostami and Dayuan Jian | (参考訳) イベントベースのカメラは、高ダイナミックレンジ環境や高速モーション操作のような困難なシナリオでコンピュータビジョンタスクを実行するための正確かつ高時間分解能の測定を提供する。
これらの利点にもかかわらず、イベントベースのビジョンにディープラーニングを利用することは、比較的最近のイベントベースのカメラの出現による注釈付きデータの不足により、大きな障害に直面する。
この制限を克服するために、従来のフレームベースのカメラで得られた注釈付きデータから得られる知識を活用し、教師なしドメイン適応に基づく効果的な解決策を示す。
本稿では、イベントベースの未注釈データに基づいて、注釈付きフレームベースのデータに基づいてトレーニングされたディープニューラルネットワークを適用するための新しいアルゴリズムを提案する。
本手法は,2つのソースとターゲットドメイン間のギャップを埋めるために,非相関条件付き学習と自己教師型学習を対角学習方式に取り入れる。
By applying self-supervised learning, the algorithm learns to align the representations of event-based data with those from frame-based camera data, thereby facilitating knowledge transfer.Furthermore, the inclusion of uncorrelated conditioning ensures that the adapted model effectively distinguishes between event-based and conventional data, enhancing its ability to classify event-based images accurately.Through empirical experimentation and evaluation, we demonstrate that our algorithm surpasses existing approaches designed for the same purpose using two benchmarks.
提案手法の優れた性能は、フレームベースのカメラからの注釈付きデータを効果的に活用し、取得した知識をイベントベースの視覚領域に転送できることに起因する。 Event-based cameras provide accurate and high temporal resolution measurements for performing computer vision tasks in challenging scenarios, such as high-dynamic range environments and fast-motion maneuvers. Despite their advantages, utilizing deep learning for event-based vision encounters a significant obstacle due to the scarcity of annotated data caused by the relatively recent emergence of event-based cameras. To overcome this limitation, leveraging the knowledge available from annotated data obtained with conventional frame-based cameras presents an effective solution based on unsupervised domain adaptation. We propose a new algorithm tailored for adapting a deep neural network trained on annotated frame-based data to generalize well on event-based unannotated data. Our approach incorporates uncorrelated conditioning and self-supervised learning in an adversarial learning scheme to close the gap between the two source and target domains. By applying self-supervised learning, the algorithm learns to align the representations of event-based data with those from frame-based camera data, thereby facilitating knowledge transfer.Furthermore, the inclusion of uncorrelated conditioning ensures that the adapted model effectively distinguishes between event-based and conventional data, enhancing its ability to classify event-based images accurately.Through empirical experimentation and evaluation, we demonstrate that our algorithm surpasses existing approaches designed for the same purpose using two benchmarks. The superior performance of our solution is attributed to its ability to effectively utilize annotated data from frame-based cameras and transfer the acquired knowledge to the event-based vision domain. | 翻訳日:2024-01-03 14:47:19 公開日:2024-01-02 |
# 認知AIシステムに向けて:ニューロシンボリックAIに関する調査と展望 Towards Cognitive AI Systems: a Survey and Prospective on Neuro-Symbolic AI ( http://arxiv.org/abs/2401.01040v1 ) ライセンス: Link先を確認 | Zishen Wan, Che-Kai Liu, Hanchen Yang, Chaojian Li, Haoran You, Yonggan Fu, Cheng Wan, Tushar Krishna, Yingyan Lin, Arijit Raychowdhury | (参考訳) 人工知能(AI)の顕著な進歩は、主にディープニューラルネットワークによるものであり、私たちの生活の様々な側面に大きな影響を与えています。
しかし、現在の課題は、持続不可能な計算軌道、限られた堅牢性、そして次世代AIシステムの開発のための説明可能性の欠如である。
ニューロシンボリックAI(NSAI)は、より少ないデータからの学習を促進しつつ、解釈可能性、堅牢性、信頼性を高めるために、ニューラル、シンボリック、確率的なアプローチを融合し、有望なパラダイムとして出現する。
近年のNSAIシステムは、推論と認知能力を備えた協調的な人間-AIシナリオにおいて大きな可能性を実証している。
本稿では,NSAIの最近の進歩を体系的に検証し,NSAIモデルの性能特性と演算子の解析を行う。
さらに,システムとアーキテクチャの観点から,NSAIの課題と今後の方向性について論じる。 The remarkable advancements in artificial intelligence (AI), primarily driven by deep neural networks, have significantly impacted various aspects of our lives. However, the current challenges surrounding unsustainable computational trajectories, limited robustness, and a lack of explainability call for the development of next-generation AI systems. Neuro-symbolic AI (NSAI) emerges as a promising paradigm, fusing neural, symbolic, and probabilistic approaches to enhance interpretability, robustness, and trustworthiness while facilitating learning from much less data. Recent NSAI systems have demonstrated great potential in collaborative human-AI scenarios with reasoning and cognitive capabilities. In this paper, we provide a systematic review of recent progress in NSAI and analyze the performance characteristics and computational operators of NSAI models. Furthermore, we discuss the challenges and potential future directions of NSAI from both system and architectural perspectives. | 翻訳日:2024-01-03 14:46:54 公開日:2024-01-02 |
# PTE: Axiomatic Semantics ベースのコンパイラテスト PTE: Axiomatic Semantics based Compiler Testing ( http://arxiv.org/abs/2401.01036v1 ) ライセンス: Link先を確認 | Guoliang Dong, Jun Sun, Richard Schumi, Bo Wang, Xinyu Wang | (参考訳) コンパイラの正しさは言語で書かれたすべてのプログラムの正しさに影響を与えるため、徹底的に評価する必要がある。
しかし、既存の自動コンパイラテストメソッドは弱いoracle(例えば、デッドコードだけが修正された場合、プログラムは同じように振る舞う)に依存するか、あるいはかなりの初期的労力(例えば、完全な運用言語セマンティクスを持つ)を必要とする。
前者は包括的正当性評価を阻止するが、後者は実際にはそれらの方法を無関係にする。
そこで本研究では,PTEと呼ばれるコンパイラテストのための公理的セマンティクスに基づくアプローチを提案する。
そのアイデアは、言語意味論の逸話を、emph{(\textbf{p}recondition, \textbf{t}ransformation, \textbf{e}xpectation)トリプルという形で段階的に発展させることで、コンパイラの自動テストを可能にします。
このような公理は、コンパイラがテスト中である同じ言語で書かれており、言語仕様に基づいて開発するか、バグレポートを一般化して開発することができる。
PTEは新しく開発されたコンパイラ(Cangjie)と成熟したコンパイラ(Java)に適用され、42の実装バグと9つの潜在的な言語設計問題を特定した。 The correctness of a compiler affects the correctness of every program written in the language, and thus must be thoroughly evaluated. Existing automatic compiler testing methods however either rely on weak oracles (e.g., a program behaves the same if only dead code is modified), or require substantial initial effort (e.g., having a complete operational language semantics). While the former prevents a comprehensive correctness evaluation, the latter makes those methods irrelevant in practice. In this work, we propose an axiomatic semantics based approach for testing compilers, called PTE. The idea is to incrementally develop a set of ``axioms'' capturing anecdotes of the language semantics in the form of \emph{(\textbf{p}recondition, \textbf{t}ransformation, \textbf{e}xpectation) triples, which allows us to test the compiler automatically.} Such axioms are written in the same language whose compiler is under test, and can be developed either based on the language specification, or by generalizing the bug reports. PTE has been applied to a newly developed compiler (i.e., Cangjie) and a mature compiler (i.e., Java), and successfully identified 42 implementation bugs and 9 potential language design issues. | 翻訳日:2024-01-03 14:46:38 公開日:2024-01-02 |
# 内部表現を用いた意味画像セグメンテーションのためのオンライン連続ドメイン適応 Online Continual Domain Adaptation for Semantic Image Segmentation Using Internal Representations ( http://arxiv.org/abs/2401.01035v1 ) ライセンス: Link先を確認 | Serban Stan, Mohammad Rostami | (参考訳) 注釈付きデータでトレーニングされたセマンティックセグメンテーションモデルは、入力データの分散が長期間にわたって変化するとうまく一般化できず、パフォーマンスを維持するために再トレーニングが必要となる。
古典的なunsupervised domain adaptation(uda)は、アノテーテッドデータを持つソースドメインから知識を転送することで、アノテーテッドデータポイントのないターゲットドメインが存在する場合、同様の問題に対処しようとする。
画像のセマンティックセマンティックセグメンテーションのためのオンラインUDAアルゴリズムを開発し、適応中にソースデータアクセスが制限されるシナリオにおいて、無注釈領域のモデル一般化を改善する。
モデル適応は、共有埋め込み空間におけるソース潜在特徴とターゲット特徴との分布距離を最小化することで行う。
提案手法は,2つのドメイン間のドメインに依存しない潜在的特徴空間の共有を促進する。
適応中のソースサンプルへのアクセスの必要性を緩和するため,ガス混合モデル(gmm)を用いて,適切なサロゲート分布を介してソース潜時特徴分布を近似する。
我々は,確立されたセマンティクスセグメンテーションデータセットに対するアプローチを評価し,最新セマンティクスセグメンテーション(sota)手法と比較した。 Semantic segmentation models trained on annotated data fail to generalize well when the input data distribution changes over extended time period, leading to requiring re-training to maintain performance. Classic Unsupervised domain adaptation (UDA) attempts to address a similar problem when there is target domain with no annotated data points through transferring knowledge from a source domain with annotated data. We develop an online UDA algorithm for semantic segmentation of images that improves model generalization on unannotated domains in scenarios where source data access is restricted during adaptation. We perform model adaptation is by minimizing the distributional distance between the source latent features and the target features in a shared embedding space. Our solution promotes a shared domain-agnostic latent feature space between the two domains, which allows for classifier generalization on the target dataset. To alleviate the need of access to source samples during adaptation, we approximate the source latent feature distribution via an appropriate surrogate distribution, in this case a Gassian mixture model (GMM). We evaluate our approach on well established semantic segmentation datasets and demonstrate it compares favorably against state-of-the-art (SOTA) UDA semantic segmentation methods. | 翻訳日:2024-01-03 14:46:10 公開日:2024-01-02 |
# alertsuicide:リアルタイムチャットボット会話における自殺イデオロギー検出のための深層学習に基づくアプローチ CautionSuicide: A Deep Learning Based Approach for Detecting Suicidal Ideation in Real Time Chatbot Conversation ( http://arxiv.org/abs/2401.01023v1 ) ライセンス: Link先を確認 | Nelly Elsayed, Zag ElSayed, Murat Ozer | (参考訳) 自殺は現代社会における最も深刻な懸念の1つとして認識されている。
自殺は国、地域、家族に影響を与える悲劇を引き起こす。
自殺の考えにつながる要因はたくさんあります。
自殺観念の早期発見は、特に自殺観念の危険性を認識していない場合において、被害者に必要な専門的支援を与えることによって自殺の発生を防止するのに役立つ。
テクノロジーの利用が増加するにつれ、人々はソーシャルメディア、チャットボット、その他のデジタルプラットフォームを通じて、自分の考えをデジタルで共有し表現する。
本稿では,主にチャットボットを主データ源とする,デジタルコンテンツにおける自殺的思考を検出するための,シンプルな深層学習モデルを提案する。
さらに,提案する自殺検出機能とチャットボットベースの支援システムを併用したフレームワークを提供する。 Suicide is recognized as one of the most serious concerns in the modern society. Suicide causes tragedy that affects countries, communities, and families. There are many factors that lead to suicidal ideations. Early detection of suicidal ideations can help to prevent suicide occurrence by providing the victim with the required professional support, especially when the victim does not recognize the danger of having suicidal ideations. As technology usage has increased, people share and express their ideations digitally via social media, chatbots, and other digital platforms. In this paper, we proposed a novel, simple deep learning-based model to detect suicidal ideations in digital content, mainly focusing on chatbots as the primary data source. In addition, we provide a framework that employs the proposed suicide detection integration with a chatbot-based support system. | 翻訳日:2024-01-03 14:45:40 公開日:2024-01-02 |
# 立方晶-炭化ケイ素膜結晶による長寿命マイクロ波電気機械システム Long-lived Microwave Electromechanical Systems Enabled by Cubic Silicon-Carbide Membrane Crystals ( http://arxiv.org/abs/2401.01020v1 ) ライセンス: Link先を確認 | Yulong Liu and Huanying Sun and Qichun Liu and Haihua Wu and Mika A. Sillanp\"a\"a and Tiefu Li | (参考訳) 立方晶シリコン炭化物結晶は高い熱伝導率と面内応力で知られており、高品質(Q$)の機械振動子の開発を大いに約束している。
長寿命の機械共振器のコヒーレントな電気的操作は、電子量子状態のためのフォノンメモリ、リピータ、トランスデューサの開発を促進するのに役立つだろう。
本研究では,高ストレスおよび結晶性(3c相)シリコン炭化物膜と超伝導マイクロ波回路との適合性を示す。
長寿命フォノンのためのコヒーレントな電気機械インタフェースを確立し,電気機械の協調性を正確に制御する。
このインターフェースでは、グループ遅延による調整可能なスローライトタイムを、印象的な持続時間である \emph{an hour} まで延長することができる。
次に、高いQ$ (10^{8}$) の炭化ケイ素膜に基づいて、マイクロ波コヒーレント状態の保存と取得が可能なフォノンメモリについて検討する。
熱成分とコヒーレント成分は二次相空間の状態トモグラフィーにより識別でき、保存時間の増加とともに指数関数的な増加と減衰傾向を示す。
結晶性シリコン炭化物膜からなる電気機械界面およびフォノニックメモリは、低マイクロ波誘起機械的加熱、位相コヒーレンス、エネルギー減衰時間(t_{1}=19.9$~s)を含む魅力的な特性を有しており、保存期間が$\tau_{\textrm{coh}}=41.3$~msである。
これらの知見は、立方晶シリコン-炭化物膜結晶が、ハイブリッド量子システムの異なる成分にまたがる量子情報の保存と転送に与えたユニークな機会の核となる。 Cubic silicon-carbide crystals, known for their high thermal conductivity and in-plane stress, hold significant promise for the development of high-quality ($Q$) mechanical oscillators. Enabling coherent electrical manipulation of long-lived mechanical resonators would be instrumental in advancing the development of phononic memories, repeaters, and transducers for microwave quantum states. In this study, we demonstrate the compatibility of high-stress and crystalline (3C-phase) silicon-carbide membranes with superconducting microwave circuits. We establish a coherent electromechanical interface for long-lived phonons, allowing precise control over the electromechanical cooperativity. This interface enables tunable slow-light time with group delays extending up to an impressive duration of \emph{an hour}. We then investigate a phononic memory based on the high-$Q$ ($10^{8}$) silicon-carbide membrane, capable of storing and retrieving microwave coherent states \emph{on-demand}. The thermal and coherent components can be distinguished through state tomography in quadrature phase space, which shows an exponential increase and decay trend respectively as the storage time increases. The electromechanical interface and phononic memory made from crystalline silicon-carbide membrane possess enticing attributes, including low microwave-induced mechanical heating, phase coherence, an energy decay time of $T_{1}=19.9$~s, and it acquires less than one quantum noise within $\tau_{\textrm{coh}}=41.3$~ms storage period. These findings underscore the unique opportunities provided by cubic silicon-carbide membrane crystals for the storage and transfer of quantum information across distinct components of hybrid quantum systems. | 翻訳日:2024-01-03 14:45:28 公開日:2024-01-02 |
# 幾何学的平均に基づく多部交絡測度 Multipartite entanglement measures based on geometric mean ( http://arxiv.org/abs/2401.01014v1 ) ライセンス: Link先を確認 | Hui Li, Ting Gao, Fengli Yan | (参考訳) 本稿では、n$-partite量子系における$k$-partitionの全ての絡み合い値の幾何学的平均に基づいて、$k$-nonseparable $(2\leq k\leq n)$ 絡み合い測度について検討する。
多部系における$k$-非分離状態をすべて明示的に検出する$k$-GMコンカレンスと呼ばれる絡み合い尺度のクラスを定義する。
厳密には、$k$-GM の収束は絡み合い測度のすべての条件を満たすことが示される。
$k$-ME concurrence [\href{https://journals.aps.org/pra/abstract/10.1103/PhysRevA.86.062323} {Phys。
rev. a \textbf{86}, 062323 (2012)}] では、我々が提案した措置はいくつかの異なる側面を示し、それを具現化している。
(i) $k$-gm concurrence は絡み合いの違いを反映しうるが、$k$-me concurrence は時に失敗する。
(ii)$k$-GMコンカレンスは、測定されている純粋な状態が連続的に変化するときに急激なピークを生じないが、$k$-MEコンカレンスは不連続点として現れる。
(iii)絡み合いの順序が区別されることもある。
さらに、$k$-MEコンカレンスと$k$-GMコンカレンスの関係を確立し、量子状態の置換不変部分を利用して、$k$-GMコンカレンスに強い下界を導出する。
さらに、より一般化された絡み合い測度の2つのカテゴリ、$q$-$k$-gm concurrence $(q>1, 2\leq k\leq n)$と$\alpha$-$k$-gm concurrence $(0\leq\alpha<1, 2\leq k\leq n)$を得るために、$k$-gm concurrenceが持つ特性も満たすために、$k$-gm concurrenceをパラメータ化する。
さらに、真のマルチパートエンタングルメント測度の一種である$\alpha$-$2$-GM Concurrence $(0<\alpha<1)$は、マルチキュービット系における$W$状態よりもGHZ状態がより絡み合っているという要件を満たすことを詳細に証明している。 In this paper, we investigate $k$-nonseparable $(2\leq k\leq n)$ entanglement measures based on geometric mean of all entanglement values of $k$-partitions in $n$-partite quantum systems. We define a class of entanglement measures called $k$-GM concurrence which explicitly detect all $k$-nonseparable states in multipartite systems. It is rigorously shown that the $k$-GM concurrence complies with all the conditions of an entanglement measure. Compared to $k$-ME concurrence [\href{https://journals.aps.org/pra/abstract/10.1103/PhysRevA.86.062323} {Phys. Rev. A \textbf{86}, 062323 (2012)}], the measures proposed by us emerge several different aspects, embodying that (i) $k$-GM concurrence can reflect the differences in entanglement but $k$-ME concurrence fails at times, (ii) $k$-GM concurrence does not arise sharp peaks when the pure state being measured varies continuously, while $k$-ME concurrence appears discontinuity points, (iii) the entanglement order is sometimes distinct. In addition, we establish the relation between $k$-ME concurrence and $k$-GM concurrence, and further derive a strong lower bound on the $k$-GM concurrence by exploiting the permutationally invariant part of a quantum state. Furthermore, we parameterize $k$-GM concurrence to obtain two categories of more generalized entanglement measures, $q$-$k$-GM concurrence $(q>1, 2\leq k\leq n)$ and $\alpha$-$k$-GM concurrence $(0\leq\alpha<1, 2\leq k\leq n)$, which fulfill the properties possessed by $k$-GM concurrence as well. Moreover, $\alpha$-$2$-GM concurrence $(0<\alpha<1)$, as a type of genuine multipartite entanglement measures, is proven in detail satisfying the requirement that the GHZ state is more entangled than the $W$ state in multiqubit systems. | 翻訳日:2024-01-03 14:44:54 公開日:2024-01-02 |
# Hessian-aided Momentum Variance Reductionによる自然政策のグローバル収束 Global Convergence of Natural Policy Gradient with Hessian-aided Momentum Variance Reduction ( http://arxiv.org/abs/2401.01084v1 ) ライセンス: Link先を確認 | Jie Feng, Ke Wei and Jinchi Chen | (参考訳) 自然政策勾配(npg)とその変種は強化学習において広く用いられている政策探索法である。
先行研究に触発された新しいnpg変種npg-hmを開発し, 分散低減のためのヘッセン支援運動量技術を用いて, 確率勾配降下法を用いてサブプロブレムを解いた。
npg-hm は、ジェネリックフィッシャー非退化ポリシーパラメータ化の下で自然政策勾配型手法の最もよく知られた結果である $\mathcal{o}(\epsilon^{-2})$ のサンプル複雑性で、グローバルラストイテレートである $\epsilon$-optimality を達成できることが示されている。
収束解析は、npgに適合する関数近似フレームワークで調整された緩和された弱勾配支配特性と、サブ問題を扱う際にエラーを分解する方法に基づいている。
さらに, ムジョコ型環境における数値実験により, NPG-HMの他の最先端政策勾配法よりも優れた性能を示した。 Natural policy gradient (NPG) and its variants are widely-used policy search methods in reinforcement learning. Inspired by prior work, a new NPG variant coined NPG-HM is developed in this paper, which utilizes the Hessian-aided momentum technique for variance reduction, while the sub-problem is solved via the stochastic gradient descent method. It is shown that NPG-HM can achieve the global last iterate $\epsilon$-optimality with a sample complexity of $\mathcal{O}(\epsilon^{-2})$, which is the best known result for natural policy gradient type methods under the generic Fisher non-degenerate policy parameterizations. The convergence analysis is built upon a relaxed weak gradient dominance property tailored for NPG under the compatible function approximation framework, as well as a neat way to decompose the error when handling the sub-problem. Moreover, numerical experiments on Mujoco-based environments demonstrate the superior performance of NPG-HM over other state-of-the-art policy gradient methods. | 翻訳日:2024-01-03 14:38:02 公開日:2024-01-02 |
# 軌道画像に基づく深層学習による航空機着陸時間予測 Aircraft Landing Time Prediction with Deep Learning on Trajectory Images ( http://arxiv.org/abs/2401.01083v1 ) ライセンス: Link先を確認 | Liping Huang, Sheng Zhang, Yicheng Zhang, Yi Zhang, Yifang Yin | (参考訳) 航空機の着陸時間(ALT)予測は航空交通管理、特に滑走路でシークエンシングを行う航空機にとって重要である。
本研究では,終端空域(TMA)をカバーする研究空域に入る航空機のALTを予測するために,軌道画像に基づく深層学習手法を提案する。
具体的には、時間的捕捉ウィンドウ内のすべての航空機の軌跡を用いて、対象航空機軌跡を赤、背景航空機軌跡を青とラベル付けした画像を生成する。
軌道画像には航空機の位置、速度、進路、相対距離、到着する交通の流れなど様々な情報が含まれている。
これにより、ALTモデリングに最先端の深層畳み込みニューラルネットワークを使用できる。
また、軌道データと航空機種別や気象条件などの外部情報から得られたリアルタイム滑走路利用を追加入力として使用する。
さらに、畳み込みニューラルネットワーク(cnn)ベースのモジュールは、軌道画像、航空機の保持状態、研究用空域境界における時間と速度のギャップを入力として、自動保持関連実現のために設計されている。
その出力は最終エンドツーエンドのALT予測にさらに供給される。
シンガポール・チャンギ空港(ICAOコード:WSSS)では,2022年11月1日から11月30日までのADS-B(Automatic Dependent Surveillance-Broadcast)データを用いて,ALT予測手法を適用した。
実験結果から, 保持処理を組み込むことで平均絶対誤差(MAE)を82.23秒から43.96秒に低減し, 平均精度は96.1\%, 予測誤差の79.4\%が60秒未満となることがわかった。 Aircraft landing time (ALT) prediction is crucial for air traffic management, especially for arrival aircraft sequencing on the runway. In this study, a trajectory image-based deep learning method is proposed to predict ALTs for the aircraft entering the research airspace that covers the Terminal Maneuvering Area (TMA). Specifically, the trajectories of all airborne arrival aircraft within the temporal capture window are used to generate an image with the target aircraft trajectory labeled as red and all background aircraft trajectory labeled as blue. The trajectory images contain various information, including the aircraft position, speed, heading, relative distances, and arrival traffic flows. It enables us to use state-of-the-art deep convolution neural networks for ALT modeling. We also use real-time runway usage obtained from the trajectory data and the external information such as aircraft types and weather conditions as additional inputs. Moreover, a convolution neural network (CNN) based module is designed for automatic holding-related featurizing, which takes the trajectory images, the leading aircraft holding status, and their time and speed gap at the research airspace boundary as its inputs. Its output is further fed into the final end-to-end ALT prediction. The proposed ALT prediction approach is applied to Singapore Changi Airport (ICAO Code: WSSS) using one-month Automatic Dependent Surveillance-Broadcast (ADS-B) data from November 1 to November 30, 2022. Experimental results show that by integrating the holding featurization, we can reduce the mean absolute error (MAE) from 82.23 seconds to 43.96 seconds, and achieve an average accuracy of 96.1\%, with 79.4\% of the predictions errors being less than 60 seconds. | 翻訳日:2024-01-03 14:37:41 公開日:2024-01-02 |
# ベトナムの詩生成と多言語詩翻訳の展望 Vietnamese Poem Generation & The Prospect Of Cross-Language Poem-To-Poem Translation ( http://arxiv.org/abs/2401.01078v1 ) ライセンス: Link先を確認 | Triet Huynh Minh and Quan Le Bao | (参考訳) 詩生成は、言語、感情、スタイルのニュアンスを理解するためにモデルを必要とするため、自然言語処理の分野では難しい課題であった。
本稿では,大規模言語モデルを用いて,自然言語のプロンプトからベトナム語の詩を生成することを提案する。
我々の最も効果的なモデルであるGPT-3 Babbageは、ベトナム詩の「ルークバット」ジャンルに特化して0.8のカスタム評価スコアを得る。
さらに、通常のテキストプロンプトにパラフラージングするアイデアを探求し、"luc bat" のジャンルにおいて、比較的高いスコアである 0.718 を得る。
本実験は, 詩文を入力として, 生成したコンテンツの完全制御を同時に維持しつつ, 詩文を交互に翻訳する可能性を示す。 Poetry generation has been a challenging task in the field of Natural Language Processing, as it requires the model to understand the nuances of language, sentiment, and style. In this paper, we propose using Large Language Models to generate Vietnamese poems from natural language prompts, thereby facilitating an intuitive process with enhanced content control. Our most efficacious model, the GPT-3 Babbage variant, achieves a custom evaluation score of 0.8, specifically tailored to the "luc bat" genre of Vietnamese poetry. Furthermore, we also explore the idea of paraphrasing poems into normal text prompts and yield a relatively high score of 0.718 in the "luc bat" genre. This experiment presents the potential for cross-Language poem-to-poem translation with translated poems as the inputs while concurrently maintaining complete control over the generated content. | 翻訳日:2024-01-03 14:37:13 公開日:2024-01-02 |
# 制約付きオンライン二段階確率最適化:予測を伴うアルゴリズム Constrained Online Two-stage Stochastic Optimization: Algorithm with (and without) Predictions ( http://arxiv.org/abs/2401.01077v1 ) ライセンス: Link先を確認 | Piao Hu, Jiashuo Jiang, Guodong Lyu, Hao Su | (参考訳) 有限地平線上の長期制約付きオンライン2段階確率最適化をT$周期で検討する。
各期間において、第一段階のアクションをとり、モデルパラメータの実現を観察し、第一段階の決定とモデルパラメータの両方に依存する実行可能セットから第二段階のアクションを取る。
我々は,長期平均2段階決定が集合に属することを保証しながら,累積目標値の最小化を目指す。
対戦型学習アルゴリズムからオンライン二段階問題のオンラインアルゴリズムを開発する。
また、我々のアルゴリズムの後悔の限界は、組込み逆学習アルゴリズムの後悔の限界に還元することができる。
この枠組みに基づいて,様々な設定で新たな結果が得られる。
モデルパラメータが未知の非定常分布から引き出され、その分布の機械学習予測が与えられたとき、我々はこのフレームワークから新たなアルゴリズムを開発し、後悔する$o(w_t+\sqrt{t})$、ここで$w_t$は機械学習予測の完全な不正確性を測定する。
次に、機械学習された予測が与えられず、性能を示す別のアルゴリズムを開発する。 We consider an online two-stage stochastic optimization with long-term constraints over a finite horizon of $T$ periods. At each period, we take the first-stage action, observe a model parameter realization and then take the second-stage action from a feasible set that depends both on the first-stage decision and the model parameter. We aim to minimize the cumulative objective value while guaranteeing that the long-term average second-stage decision belongs to a set. We develop online algorithms for the online two-stage problem from adversarial learning algorithms. Also, the regret bound of our algorithm can be reduced to the regret bound of embedded adversarial learning algorithms. Based on this framework, we obtain new results under various settings. When the model parameters are drawn from unknown non-stationary distributions and we are given machine-learned predictions of the distributions, we develop a new algorithm from our framework with a regret $O(W_T+\sqrt{T})$, where $W_T$ measures the total inaccuracy of the machine-learned predictions. We then develop another algorithm that works when no machine-learned predictions are given and show the performances. | 翻訳日:2024-01-03 14:36:59 公開日:2024-01-02 |
# DialCLIP:CLIPをマルチモードダイアログレトリバーとして活用する DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever ( http://arxiv.org/abs/2401.01076v1 ) ライセンス: Link先を確認 | Zhichao Yin, Binyuan Hui, Min Yang, Fei Huang, Yongbin Li | (参考訳) 近年,事前学習型視覚言語モデルの大幅な進歩により,マルチモーダル対話システムの性能が大幅に向上している。
これらのモデルは下流タスクの微調整によって大幅に改善されている。
しかし、既存の事前学習モデルは主に視覚と言語モダリティのアライメントを効果的に捉えることに重点を置いており、しばしば対話コンテキストの複雑な性質を無視している。
本稿では,マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法dialogclipを提案する。
具体的には、事前学習された視覚言語モデルCLIP内のプロンプトに蒸留されたコンテキスト特徴を学習するためのマルチモーダルコンテキストプロンプトジェネレータを提案する。
また,ダウンストリームのダイアログデータからディスクリピートを軽減するために,ドメインプロンプトを導入する。
様々なタイプの検索を容易にするために,複数の専門家がCLIP出力からマルチモーダル表現空間へのマッピングを学習し,それぞれが特定の検索タイプに責任を持つように設計する。
大規模な実験により、DialCLIPは2つの広く認識されているベンチマークデータセット(PhotoChatとMDDialog)上で、合計パラメータの0.04%をチューニングすることで、最先端のパフォーマンスを達成することが示された。
これらの結果は,提案手法の有効性と有効性を強調し,マルチモーダルダイアログ検索の分野を前進させる可能性を示している。 Recently, substantial advancements in pre-trained vision-language models have greatly enhanced the capabilities of multi-modal dialog systems. These models have demonstrated significant improvements by fine-tuning on downstream tasks. However, the existing pre-trained models primarily focus on effectively capturing the alignment between vision and language modalities, often ignoring the intricate nature of dialog context. In this paper, we propose a parameter-efficient prompt-tuning method named DialCLIP for multi-modal dialog retrieval. Specifically, our approach introduces a multi-modal context prompt generator to learn context features which are subsequently distilled into prompts within the pre-trained vision-language model CLIP. Besides, we introduce domain prompt to mitigate the disc repancy from the downstream dialog data. To facilitate various types of retrieval, we also design multiple experts to learn mappings from CLIP outputs to multi-modal representation space, with each expert being responsible to one specific retrieval type. Extensive experiments show that DialCLIP achieves state-of-the-art performance on two widely recognized benchmark datasets (i.e., PhotoChat and MMDialog) by tuning a mere 0.04% of the total parameters. These results highlight the efficacy and efficiency of our proposed approach, underscoring its potential to advance the field of multi-modal dialog retrieval. | 翻訳日:2024-01-03 14:36:38 公開日:2024-01-02 |
# 単眼3次元物体検出のための深度識別メトリック学習 Depth-discriminative Metric Learning for Monocular 3D Object Detection ( http://arxiv.org/abs/2401.01075v1 ) ライセンス: Link先を確認 | Wonhyeok Choi, Mingyu Shin, Sunghoon Im | (参考訳) 単眼の3D物体検出は、RGB画像の深度情報の欠如により大きな課題となる。
既存の多くの手法は、余分なモジュールやデータを利用して、オブジェクト深度推定のための追加パラメータを割り当てることで、オブジェクト深度推定性能の向上に努めている。
対照的に, 推定時間やモデルサイズを増加させることなく, 視覚的属性に関係なく, 奥行き識別特徴を抽出することを奨励する新しいメトリック学習方式を提案する。
本手法では, 距離保存関数を用いて特徴空間多様体を接地被写体深度と関連づける。
提案した(K, B, eps)-準等距離損失は, 自然特徴多様体の非線形性を損なうことなく, 対象記述子間の距離を調整するためのガイダンスとして, 所定の対距離制限を利用する。
さらに,推定時間を維持しながら,深度を向上するオブジェクトワイド深度推定用補助ヘッドを導入する。
本手法の広範な適用性は,各種ベースラインに組み込んだ場合の全体的な性能向上を示す実験によって実証される。
その結果,kitti と waymo のそれぞれ平均で23.51%,5.78% のベースライン性能を一貫して改善できることがわかった。 Monocular 3D object detection poses a significant challenge due to the lack of depth information in RGB images. Many existing methods strive to enhance the object depth estimation performance by allocating additional parameters for object depth estimation, utilizing extra modules or data. In contrast, we introduce a novel metric learning scheme that encourages the model to extract depth-discriminative features regardless of the visual attributes without increasing inference time and model size. Our method employs the distance-preserving function to organize the feature space manifold in relation to ground-truth object depth. The proposed (K, B, eps)-quasi-isometric loss leverages predetermined pairwise distance restriction as guidance for adjusting the distance among object descriptors without disrupting the non-linearity of the natural feature manifold. Moreover, we introduce an auxiliary head for object-wise depth estimation, which enhances depth quality while maintaining the inference time. The broad applicability of our method is demonstrated through experiments that show improvements in overall performance when integrated into various baselines. The results show that our method consistently improves the performance of various baselines by 23.51% and 5.78% on average across KITTI and Waymo, respectively. | 翻訳日:2024-01-03 14:36:14 公開日:2024-01-02 |
# alifuse: コンピュータ支援診断のためのマルチモーダル医療データのアライメントとfusing AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided Diagnosis ( http://arxiv.org/abs/2401.01074v1 ) ライセンス: Link先を確認 | Qiuhui Chen, Xinyue Hu, Zirui Wang, Yi Hong | (参考訳) 診断決定を行うために収集された医療データは、通常マルチモーダルであり、被験者の補完的な視点を提供する。
コンピュータ支援診断システムはマルチモーダル入力を歓迎するが、そのようなマルチモーダルデータを効果的に融合する方法は難しい課題であり、医学研究分野において多くの注目を集めている。
本稿では,マルチモーダル医療データの整合・融合のためのトランスフォーマーベースフレームワークであるAlifuseを提案する。
具体的には,画像と非構造化および構造化テキストを視覚および言語トークンに変換し,イントラモーダルおよびインターモーダル注意機構を用いて全画像および非画像データの全体表現を学習して分類を行う。
我々はAlifuseを用いてアルツハイマー病を分類し、5つのパブリックデータセット上で最先端のパフォーマンスを得る。
ソースコードは後でオンラインで入手できる。 Medical data collected for making a diagnostic decision are typically multi-modal and provide complementary perspectives of a subject. A computer-aided diagnosis system welcomes multi-modal inputs; however, how to effectively fuse such multi-modal data is a challenging task and attracts a lot of attention in the medical research field. In this paper, we propose a transformer-based framework, called Alifuse, for aligning and fusing multi-modal medical data. Specifically, we convert images and unstructured and structured texts into vision and language tokens, and use intramodal and intermodal attention mechanisms to learn holistic representations of all imaging and non-imaging data for classification. We apply Alifuse to classify Alzheimer's disease and obtain state-of-the-art performance on five public datasets, by outperforming eight baselines. The source code will be available online later. | 翻訳日:2024-01-03 14:35:49 公開日:2024-01-02 |
# 獣を飼う - Coyote C++による完全な自動ユニットテスト Taming the Beast: Fully Automated Unit Testing with Coyote C++ ( http://arxiv.org/abs/2401.01073v1 ) ライセンス: Link先を確認 | Sanghoon Rho, Philipp Martens, Seungcheol Shin and Yeoneo Kim | (参考訳) 本稿では,CとC++用の完全自動化ホワイトボックス単体テストツールであるCoyote C++を紹介する。
既存のツールは、C++でユニットテスト生成を実現するのに苦労しているが、Coyote C++は、1時間に1万以上のステートメントのテスト速度で、ユニットテスト生成から高いカバレッジ結果を生成することができる。
この素晴らしい成果は、強力なココリック実行エンジンと高度な自動テストハーネス生成を組み合わせることで実現されている。
さらに、Coyote C++のGUIは詳細なコードカバレッジの視覚化を表示し、カバー結果を手動で最適化したいユーザのためにさまざまな設定機能を提供する。
強力なワンクリック自動テストと手動微調整の豊富なサポートを組み合わせることで、Cyote C++は、産業アプリケーションで本当に実行可能なC++コードの自動テストを実現するのに十分な、最初の自動テストツールである。 In this paper, we present Coyote C++, a fully automated white-box unit testing tool for C and C++. Whereas existing tools have struggled to realize unit test generation for C++, Coyote C++ is able to produce high coverage results from unit test generation at a testing speed of over 10,000 statements per hour. This impressive feat is made possible by the combination of a powerful concolic execution engine with sophisticated automated test harness generation. Additionally, the GUI of Coyote C++ displays detailed code coverage visualizations and provides various configuration features for users seeking to manually optimize their coverage results. Combining potent one-click automated testing with rich support for manual tweaking, Coyote C++ is the first automated testing tool that is practical enough to make automated testing of C++ code truly viable in industrial applications. | 翻訳日:2024-01-03 14:35:33 公開日:2024-01-02 |
# ロバスト解を求めるための新しい二段階進化アルゴリズム A Novel Dual-Stage Evolutionary Algorithm for Finding Robust Solutions ( http://arxiv.org/abs/2401.01070v1 ) ライセンス: Link先を確認 | Wei Du, Wenxuan Fang, Chen Liang, Yang Tang, Yaochu Jin | (参考訳) ロバストな最適化問題では、摂動の大きさは比較的小さい。
したがって、摂動が導入されたとき、ある領域内の解はロバストな最適度を表す可能性が低い。
したがって、より効率的な検索プロセスは、グローバルオプティマや良いローカルオプティマがある有望な地域を探索する機会の増加の恩恵を受けるだろう。
本稿では,ロバスト解の発見を目的とした2段階ロバスト進化アルゴリズム(drea)と呼ばれる新しいロバスト進化アルゴリズムを提案する。
DREAはピーク検出段階と堅牢な解探索段階の2段階で動作する。
ピーク検出ステージの主な目的は、元の最適化問題のフィットネスランドスケープにおけるピークを特定することである。
逆に、ロバスト解探索段階は、初期段階で発見されたピークから得られた情報を用いて、ロバスト最適解を迅速に同定することに焦点を当てている。
これらの2つの段階により,提案手法は最適化問題のロバストな最適解を効率的に得ることができる。
このアプローチは、最適解とロバスト解の探索プロセスを分離することで、解の最適性とロバスト性のバランスを達成する。
実験の結果,DREAは多種多様な複雑さを特徴とする18の試験問題に対して,最先端の5つのアルゴリズムを著しく上回っていることがわかった。
さらに、高次元ロバスト最適化問題(100-D$と200-D$)を評価すると、DREAは5つのアルゴリズムと比較して優れた性能を示す。 In robust optimization problems, the magnitude of perturbations is relatively small. Consequently, solutions within certain regions are less likely to represent the robust optima when perturbations are introduced. Hence, a more efficient search process would benefit from increased opportunities to explore promising regions where global optima or good local optima are situated. In this paper, we introduce a novel robust evolutionary algorithm named the dual-stage robust evolutionary algorithm (DREA) aimed at discovering robust solutions. DREA operates in two stages: the peak-detection stage and the robust solution-searching stage. The primary objective of the peak-detection stage is to identify peaks in the fitness landscape of the original optimization problem. Conversely, the robust solution-searching stage focuses on swiftly identifying the robust optimal solution using information obtained from the peaks discovered in the initial stage. These two stages collectively enable the proposed DREA to efficiently obtain the robust optimal solution for the optimization problem. This approach achieves a balance between solution optimality and robustness by separating the search processes for optimal and robust optimal solutions. Experimental results demonstrate that DREA significantly outperforms five state-of-the-art algorithms across 18 test problems characterized by diverse complexities. Moreover, when evaluated on higher-dimensional robust optimization problems (100-$D$ and 200-$D$), DREA also demonstrates superior performance compared to all five counterpart algorithms. | 翻訳日:2024-01-03 14:35:17 公開日:2024-01-02 |
# 選択的推論による法的判断から重要な話題を見つける Discovering Significant Topics from Legal Decisions with Selective Inference ( http://arxiv.org/abs/2401.01068v1 ) ライセンス: Link先を確認 | Jerrold Soh | (参考訳) ペナルタライズドレグレッションとポストセレクションの重要度テストを通じて,トピックモデルと合成された特徴を渡すことにより,法的決定テキストから重要なトピックを発見するための自動化パイプラインを提案し,評価する。
本手法は,結果に大きく相関する事例トピック,重要なトピックに関する洞察を得るために手作業で解釈できる話題単語分布,各トピックの代表事例を特定するために使用できる事例トピック重みを同定する。
本稿では、ドメイン名紛争の新たなデータセットと、欧州人権侵害裁判所の正準データセットの方法を示す。
潜在意味分析に基づくトピックモデルと言語モデル埋め込みの評価を行った。
パイプラインによって導かれる話題は,両分野の法的教義と一致しており,他の関連する法的分析タスクで有用であることを示す。 We propose and evaluate an automated pipeline for discovering significant topics from legal decision texts by passing features synthesized with topic models through penalised regressions and post-selection significance tests. The method identifies case topics significantly correlated with outcomes, topic-word distributions which can be manually-interpreted to gain insights about significant topics, and case-topic weights which can be used to identify representative cases for each topic. We demonstrate the method on a new dataset of domain name disputes and a canonical dataset of European Court of Human Rights violation cases. Topic models based on latent semantic analysis as well as language model embeddings are evaluated. We show that topics derived by the pipeline are consistent with legal doctrines in both areas and can be useful in other related legal analysis tasks. | 翻訳日:2024-01-03 14:34:53 公開日:2024-01-02 |
# DTBS:夜間セマンティックセグメンテーションにおけるドメイン適応のための双方向双方向自己学習 DTBS: Dual-Teacher Bi-directional Self-training for Domain Adaptation in Nighttime Semantic Segmentation ( http://arxiv.org/abs/2401.01066v1 ) ライセンス: Link先を確認 | Fanding Huang, Zihao Yao and Wenhui Zhou | (参考訳) 照明が悪く、注釈付けが難しいため、夜間の状況は自動運転車の認識システムにとって大きな課題となる。
非教師なし領域適応(UDA)は、通常状態から夜間領域へのモデル適応のために、そのような画像のセマンティックセグメンテーションに広く応用されている。
自己学習(ST)はUDAのパラダイムであり、モーメント教師が擬似ラベル予測に使用されるが、確証バイアスの問題が存在する。
1人の教師からの1方向の知識伝達は、大きなドメインシフトに対応するには不十分である。
この問題を軽減するため、スタイルの影響や照明の変化を徐々に考慮し、ドメイン間のギャップを軽減することを提案する。
そこで本稿では,スムーズな知識伝達とフィードバックを目的とした,DTBS(Dual-Teacher Bi-directional Self-Tning)フレームワークを提案する。
2つの教師モデルに基づいて、それぞれスタイルと照明シフトを分離する新しいパイプラインを提案する。
さらに,スタイルや照明要素の知識を融合し,学生モデルにフィードバックを与えるために,新たにRe-weight index moving average (EMA)を提案する。
このようにして,本手法を他のUDA手法に組み込んで性能を向上させることができる。
例えば acdc night task のcityscapes は53.8 miou (\%) となり、これは以前の state-of-the-art と比べて +5\% の改善に相当する。
コードは \url{https://github.com/hf618/dtbs} で入手できる。 Due to the poor illumination and the difficulty in annotating, nighttime conditions pose a significant challenge for autonomous vehicle perception systems. Unsupervised domain adaptation (UDA) has been widely applied to semantic segmentation on such images to adapt models from normal conditions to target nighttime-condition domains. Self-training (ST) is a paradigm in UDA, where a momentum teacher is utilized for pseudo-label prediction, but a confirmation bias issue exists. Because the one-directional knowledge transfer from a single teacher is insufficient to adapt to a large domain shift. To mitigate this issue, we propose to alleviate domain gap by incrementally considering style influence and illumination change. Therefore, we introduce a one-stage Dual-Teacher Bi-directional Self-training (DTBS) framework for smooth knowledge transfer and feedback. Based on two teacher models, we present a novel pipeline to respectively decouple style and illumination shift. In addition, we propose a new Re-weight exponential moving average (EMA) to merge the knowledge of style and illumination factors, and provide feedback to the student model. In this way, our method can be embedded in other UDA methods to enhance their performance. For example, the Cityscapes to ACDC night task yielded 53.8 mIoU (\%), which corresponds to an improvement of +5\% over the previous state-of-the-art. The code is available at \url{https://github.com/hf618/DTBS}. | 翻訳日:2024-01-03 14:34:36 公開日:2024-01-02 |
# BEV-CLIP: 自律運転における複合シーンのマルチモーダルBEV検索手法 BEV-CLIP: Multi-modal BEV Retrieval Methodology for Complex Scene in Autonomous Driving ( http://arxiv.org/abs/2401.01065v1 ) ライセンス: Link先を確認 | Dafeng Wei, Tian Gao, Zhengyu Jia, Changwei Cai, Chengkai Hou, Peng Jia, Fu Liu, Kun Zhan, Jingchen Fan, Yixing Zhao, Yang Wang | (参考訳) 自動運転における複雑なシーンデータの検索の需要は増加しており、特に旅客車は長距離のシナリオに対処するため、都市環境をナビゲートする能力を備えている。
一方,既存の2次元画像検索手法では,大域的な特徴表現の欠如やサブパーテキスト検索能力の欠如など,シーン検索に問題が生じる可能性がある。
これらの問題に対処するために,記述文を入力として利用して対応するシーンを検索する,最初のマルチモーダルバード・アイビュー(BEV)検索手法である‘textbf{BEV-CLIP} を提案した。
本手法は,大規模言語モデル(LLM)のセマンティック特徴抽出機能を適用して,広範なテキスト記述のゼロショット検索を容易にし,知識グラフからの半構造化情報を組み込んで,言語埋め込みのセマンティックリッチ性と多様性を向上させる。
実験の結果,テキスト・ツー・BEV機能検索におけるNuScenesデータセットの精度は87.66%となった。
また,本論文では,検索手法が特定の長尾コーナーシーンの同定に有効であることを裏付ける事例を示した。 The demand for the retrieval of complex scene data in autonomous driving is increasing, especially as passenger vehicles have been equipped with the ability to navigate urban settings, with the imperative to address long-tail scenarios. Meanwhile, under the pre-existing two dimensional image retrieval method, some problems may arise with scene retrieval, such as lack of global feature representation and subpar text retrieval ability. To address these issues, we have proposed \textbf{BEV-CLIP}, the first multimodal Bird's-Eye View(BEV) retrieval methodology that utilizes descriptive text as an input to retrieve corresponding scenes. This methodology applies the semantic feature extraction abilities of a large language model (LLM) to facilitate zero-shot retrieval of extensive text descriptions, and incorporates semi-structured information from a knowledge graph to improve the semantic richness and variety of the language embedding. Our experiments result in 87.66% accuracy on NuScenes dataset in text-to-BEV feature retrieval. The demonstrated cases in our paper support that our retrieval method is also indicated to be effective in identifying certain long-tail corner scenes. | 翻訳日:2024-01-03 14:34:12 公開日:2024-01-02 |
# ハイゼンベルク模型における量子資源理論のトレードオフ関係 Trade-off relations of quantum resource theory in Heisenberg models ( http://arxiv.org/abs/2401.01063v1 ) ライセンス: Link先を確認 | Asad Ali, Saif Al-Kuwari, Saeed Haddadi | (参考訳) 絡み合いとコヒーレンスの関係を研究することは、多くの量子情報応用において不可欠である。
そこで本研究では,共起,本質的共起,一階間コヒーレンスを考察し,それらの間のトレードオフ関係を評価する。
特に、非対称スピン軌道相互作用を持つ一般2量子ビットXYZハイゼンベルクモデルの時間的進化を研究し、量子資源理論のトレードオフ関係を解析する。
XYZ ハイゼンベルクモデルでは、固有収束と一階コヒーレンスとのトレードオフ関係が成立することを確認した。
さらに,本質的帰結の下限は普遍的に有効であるが,上限は一般的ではないことを示す。
ハイゼンベルクモデルにおけるこれらの関係は、量子資源がスピンに分散される方法を探る手段となり、量子情報処理における将来の応用を刺激する可能性がある。 Studying the relations between entanglement and coherence is essential in many quantum information applications. For this, we consider the concurrence, intrinsic concurrence and first-order coherence, and evaluate the proposed trade-off relations between them. In particular, we study the temporal evolution of a general two-qubit XYZ Heisenberg model with asymmetric spin-orbit interaction under decoherence and analyze the trade-off relations of quantum resource theory. For XYZ Heisenberg model, we confirm that the trade-off relation between intrinsic concurrence and first-order coherence holds. Furthermore, we show that the lower bound of intrinsic concurrence is universally valid, but the upper bound is generally not. These relations in Heisenberg models can provide a way to explore how quantum resources are distributed in spins, which may inspire future applications in quantum information processing. | 翻訳日:2024-01-03 14:33:50 公開日:2024-01-02 |
# LLMによる新しいプログラミング実践の実験 Experimenting a New Programming Practice with LLMs ( http://arxiv.org/abs/2401.01062v1 ) ライセンス: Link先を確認 | Simiao Zhang, Jiaping Wang, Guoliang Dong, Jun Sun, Yueling Zhang, Geguang Pu | (参考訳) 近年の大規模言語モデルの開発により,プログラムの自動構築が可能になった。
したがって、低レベルのコーディングからソフトウェアエンジニアを解放する可能性があり、要件工学やシステムテストといったソフトウェア開発のより興味深い部分に集中することができます。
本プロジェクトでは,高度な(潜在的に曖昧な)ユーザ要件を入力として,詳細なユースケース,プロトタイプシステム設計,システム実装を生成できるaisd(ai-aided software development)というプロトタイプを開発した。
既存の試みとは違って、AISDはユーザをループに維持するために設計されており、ユースケース、高レベルのシステム設計、システムテストによるプロトタイプ実装に対するユーザのフィードバックを繰り返し受けている。
AISDは、非自明なソフトウェアプロジェクトの新しいベンチマークで評価されている。
実験結果は、ソフトウェア工学が要件工学とシステムテストのみに還元される未来を想像できる可能性を示唆している。 The recent development on large language models makes automatically constructing small programs possible. It thus has the potential to free software engineers from low-level coding and allow us to focus on the perhaps more interesting parts of software development, such as requirement engineering and system testing. In this project, we develop a prototype named AISD (AI-aided Software Development), which is capable of taking high-level (potentially vague) user requirements as inputs, generates detailed use cases, prototype system designs, and subsequently system implementation. Different from existing attempts, AISD is designed to keep the user in the loop, i.e., by repeatedly taking user feedback on use cases, high-level system designs, and prototype implementations through system testing. AISD has been evaluated with a novel benchmark of non-trivial software projects. The experimental results suggest that it might be possible to imagine a future where software engineering is reduced to requirement engineering and system testing only. | 翻訳日:2024-01-03 14:33:33 公開日:2024-01-02 |
# 野放しで学ぶ: 事前学習されたコードモデルを効果的にチューニングするためにラベルなしデータを活用すること Learning in the Wild: Towards Leveraging Unlabeled Data for Effectively Tuning Pre-trained Code Models ( http://arxiv.org/abs/2401.01060v1 ) ライセンス: Link先を確認 | Shuzheng Gao, Wenxin Mao, Cuiyun Gao, Li Li, Xing Hu, Xin Xia, Michael R. Lyu | (参考訳) 事前訓練されたコードモデルは、最近多くのコードインテリジェンスタスクで大幅に改善されている。
これらのモデルは、まず、自己教師付き学習を使用してタスクに依存しない大規模未ラベルデータセット上で事前トレーニングされ、その後、下流タスクでラベル付きデータセットに微調整される。
しかしながら、ラベル付きデータセットは通常、サイズ(つまり人間の集中的な努力)に制限があり、特定のタスクにおける事前学習されたコードモデルのパフォーマンスを阻害する可能性がある。
これを緩和するために考えられる1つの解決策は、擬似ラベルによるチューニングステージでの大規模非ラベルデータを活用することである。
しかし、擬似ラベルデータを直接利用すると、大量のノイズ、すなわち不正なラベルが発生するため、準最適性能が得られる。
本稿では,疑似ラベルデータを活用した大規模非ラベルデータセットを用いた事前学習型コードモデルを改善するための新しい手法を提案する。
HINTには、HybrId擬似ラベル付きデータ選択とノイズ耐性トレーニングの2つの主要なモジュールが含まれている。
ハイブリッド擬似データ選択モジュールでは、トレーニング損失による擬似ラベルの品質を直接測定することとは別に、ロバスト性の問題を考慮して、低品質な擬似ラベルデータをフィルタリングする検索手法を提案する。
The noise-tolerant training module aims to further mitigate the influence of errors in pseudo labels by training the model with a noise-tolerant loss function and by regularizing the consistency of model predictions.The experimental results show that HINT can better leverage those unlabeled data in a task-specific way and provide complementary benefits for pre-trained models, e.g., improving the best baseline model by 15.33%, 16.50%, and 8.98% on code summarization, defect detection, and assertion generation, respectively. Pre-trained code models have recently achieved substantial improvements in many code intelligence tasks. These models are first pre-trained on large-scale unlabeled datasets in a task-agnostic manner using self-supervised learning, and then fine-tuned on labeled datasets in downstream tasks. However, the labeled datasets are usually limited in size (i.e., human intensive efforts), which may hinder the performance of pre-trained code models in specific tasks. To mitigate this, one possible solution is to leverage the large-scale unlabeled data in the tuning stage by pseudo-labeling. However, directly employing the pseudo-labeled data can bring a large amount of noise, i.e., incorrect labels, leading to suboptimal performance. How to effectively leverage the noisy pseudo-labeled data is a challenging yet under-explored problem.In this paper, we propose a novel approach named HINT to improve pre-trained code models with large-scale unlabeled datasets by better utilizing the pseudo-labeled data. HINT includes two main modules: HybrId pseudo-labeled data selection and Noise-tolerant Training. In the hybrid pseudo-data selection module, considering the robustness issue, apart from directly measuring the quality of pseudo labels through training loss, we further propose to employ a retrieval-based method to filter low-quality pseudo-labeled data. The noise-tolerant training module aims to further mitigate the influence of errors in pseudo labels by training the model with a noise-tolerant loss function and by regularizing the consistency of model predictions.The experimental results show that HINT can better leverage those unlabeled data in a task-specific way and provide complementary benefits for pre-trained models, e.g., improving the best baseline model by 15.33%, 16.50%, and 8.98% on code summarization, defect detection, and assertion generation, respectively. | 翻訳日:2024-01-03 14:33:16 公開日:2024-01-02 |
# 均衡損失ゲイン系を記述する擬似エルミート行列の構成 Construction of Pseudo-hermitian matrices describing systems with balanced loss-gain ( http://arxiv.org/abs/2401.01126v1 ) ライセンス: Link先を確認 | Pijush K.Ghosh | (参考訳) 任意の大であるが有限次元ベクトル空間における擬エルミート行列の一般構成を示す。
擬エルミート作用素のスペクトル全体の現実を確実にし、関連するベクトル空間における修正された内積を定義するために用いられる正定値計量も提示される。
N 次元ベクトル空間の構成は、基本表現における SU (N ) の生成元と恒等作用素に基づいている。
この結果を用いて、損失ゲインのバランスが取れたサイズ N の一般擬エルミート格子モデルを構築する。
この系は周期的および開境界条件に適応でき、構成上、ユニタリな時間発展とともに完全な実スペクトルを許容する。
隣り合う(NN)と隣り合う(NNN)の密結合モデルとSu-Schrieffer-Heeger(SSH)モデルと、バランスの取れた損失ゲインとの相互作用が制限ケースとして現れる。 We present a general construction of pseudo-hermitian matrices in an arbitrary large, but finite dimensional vector space. The positive-definite metric which ensures reality of the entire spectra of a pseudo-hermitian operator, and is used for defining a modified inner-product in the associated vector space is also presented. The construction for an N dimensional vector space is based on the generators of SU (N ) in the fundamental representation and the identity operator. We apply the results to construct a generic pseudo-hermitian lattice model of size N with balanced loss-gain. The system is amenable to periodic as well as open boundary conditions and by construction, admits entirely real spectra along with unitary time-evolution. The tight binding and Su-Schrieffer-Heeger(SSH) models with nearest neighbour(NN) and next-nearest neighbour(NNN) interaction with balanced loss-gain appear as limiting cases. | 翻訳日:2024-01-03 14:25:33 公開日:2024-01-02 |
# 時系列予測のための説明可能な適応木モデル選択 Explainable Adaptive Tree-based Model Selection for Time Series Forecasting ( http://arxiv.org/abs/2401.01124v1 ) ライセンス: Link先を確認 | Matthias Jakobs and Amal Saadallah | (参考訳) 木に基づくモデルは、時系列予測を含む様々なタスクにうまく適用されている。
比較的高い解釈可能性のため、需要が増加し、広く受け入れられている。
しかし、その多くが過度に適合する問題に悩まされており、現実の意思決定における応用を制限している。
この問題は、時系列観測が漸進的に取得されるオンラインフォアキャスト環境ではさらに深刻になり、それらが引き出される分布は時間とともに変化する可能性がある。
本稿では,時系列予測のタスクにおいて,treeshapによる説明可能性を用いた木ベースモデルのオンライン選択手法を提案する。
まずは、ツリーベースのモデルの任意のセットから始めます。
次に,木が木ベースの予測器を入力時系列の異なる領域に特殊化できるように,コヒーレントな設計でパフォーマンスベースのランキングを概説する。
本フレームワークでは,時系列のドリフト検出に追従して,適切なモデル選択を行う。
さらに、オンライン入力重要度、モデル選択、モデル出力説明という3つのレベルで説明可能性をサポートする。
様々な実世界のデータセットに対する広範な実証研究により,本手法は最先端のアプローチやいくつかのベースラインと比較して,優れた,あるいは十分な結果が得られることを示した。 Tree-based models have been successfully applied to a wide variety of tasks, including time series forecasting. They are increasingly in demand and widely accepted because of their comparatively high level of interpretability. However, many of them suffer from the overfitting problem, which limits their application in real-world decision-making. This problem becomes even more severe in online-forecasting settings where time series observations are incrementally acquired, and the distributions from which they are drawn may keep changing over time. In this context, we propose a novel method for the online selection of tree-based models using the TreeSHAP explainability method in the task of time series forecasting. We start with an arbitrary set of different tree-based models. Then, we outline a performance-based ranking with a coherent design to make TreeSHAP able to specialize the tree-based forecasters across different regions in the input time series. In this framework, adequate model selection is performed online, adaptively following drift detection in the time series. In addition, explainability is supported on three levels, namely online input importance, model selection, and model output explanation. An extensive empirical study on various real-world datasets demonstrates that our method achieves excellent or on-par results in comparison to the state-of-the-art approaches as well as several baselines. | 翻訳日:2024-01-03 14:25:17 公開日:2024-01-02 |
# RUL予測のための転がり軸受の全ライフサイクルデータ生成のための自己回帰ネットワークの利用 Utilizing Autoregressive Networks for Full Lifecycle Data Generation of Rolling Bearings for RUL Prediction ( http://arxiv.org/abs/2401.01119v1 ) ライセンス: Link先を確認 | Junliang Wang, Qinghua Zhang, Guanhua Zhu, Guoxi Sun | (参考訳) 転がり軸受寿命の予測は工業生産において重要である。
しかし、高品質で完全なライフサイクルデータの不足は、正確な予測を達成する上で大きな制約となっている。
この課題に対処するために, CVGANモデルを提案する。これは, 歴史的振動データに基づいて一次元の振動信号を水平方向と垂直方向に生成し, 有用寿命を維持できる新しいフレームワークである。
また,従来の振動情報を反復的に利用して電流信号の生成を誘導する自己回帰生成手法を提案する。
CVGANモデルの有効性は、PHM 2012データセットで実施された実験を通して検証される。
CVGAN モデルは,MDD と FID の両指標において,自己回帰と非自己回帰の両モードにおいて,多くの高度な手法に優れていた。
特に,CVGANモデルによって生成されたライフサイクルデータを用いたトレーニングは,予測モデルの性能を大幅に向上させる。
この結果から,CVGans が生成したデータの有効性が明らかとなった。 The prediction of rolling bearing lifespan is of significant importance in industrial production. However, the scarcity of high-quality, full lifecycle data has been a major constraint in achieving precise predictions. To address this challenge, this paper introduces the CVGAN model, a novel framework capable of generating one-dimensional vibration signals in both horizontal and vertical directions, conditioned on historical vibration data and remaining useful life. In addition, we propose an autoregressive generation method that can iteratively utilize previously generated vibration information to guide the generation of current signals. The effectiveness of the CVGAN model is validated through experiments conducted on the PHM 2012 dataset. Our findings demonstrate that the CVGAN model, in terms of both MMD and FID metrics, outperforms many advanced methods in both autoregressive and non-autoregressive generation modes. Notably, training using the full lifecycle data generated by the CVGAN model significantly improves the performance of the predictive model. This result highlights the effectiveness of the data generated by CVGans in enhancing the predictive power of these models. | 翻訳日:2024-01-03 14:24:56 公開日:2024-01-02 |
# Q-Refine:AI生成画像の知覚品質リファイナ Q-Refine: A Perceptual Quality Refiner for AI-Generated Image ( http://arxiv.org/abs/2401.01117v1 ) ライセンス: Link先を確認 | Chunyi Li, Haoning Wu, Zicheng Zhang, Hongkun Hao, Kaiwei Zhang, Lei Bai, Xiaohong Liu, Xiongkuo Min, Weisi Lin, Guangtao Zhai | (参考訳) 近年,テキスト・ツー・イメージ(t2i)モデルの急速な進化に伴い,その不満足な生成結果が課題となっている。
しかし、低品質のAIGIに対する限られた最適化能力だけでなく、高品質のAIGIにも負の最適化をもたらした。
この問題に対処するためにQ-Refineという品質改善手法を提案する。
人間の視覚システム(hvs)の好みに基づいて、q-refineは画像品質評価(iqa)メトリクスを使用して、初めて精錬プロセスをガイドし、3つの適応パイプラインを通じて異なる品質の画像を修正する。
実験によると、主流のT2Iモデルでは、Q-Refineは異なる品質のAIGIに対して効果的な最適化を行うことができる。
忠実度と美的品質の両方からAIGIを最適化し、T2I生成モデルの応用を拡大する一般的な精錬機となる。 With the rapid evolution of the Text-to-Image (T2I) model in recent years, their unsatisfactory generation result has become a challenge. However, uniformly refining AI-Generated Images (AIGIs) of different qualities not only limited optimization capabilities for low-quality AIGIs but also brought negative optimization to high-quality AIGIs. To address this issue, a quality-award refiner named Q-Refine is proposed. Based on the preference of the Human Visual System (HVS), Q-Refine uses the Image Quality Assessment (IQA) metric to guide the refining process for the first time, and modify images of different qualities through three adaptive pipelines. Experimental shows that for mainstream T2I models, Q-Refine can perform effective optimization to AIGIs of different qualities. It can be a general refiner to optimize AIGIs from both fidelity and aesthetic quality levels, thus expanding the application of the T2I generation models. | 翻訳日:2024-01-03 14:24:40 公開日:2024-01-02 |
# Rustプログラムの静的デッドロック検出 Static Deadlock Detection for Rust Programs ( http://arxiv.org/abs/2401.01114v1 ) ライセンス: Link先を確認 | Yu Zhang, Kaiwen Zhang, Guanjun Liu | (参考訳) Rustはスレッドとメモリの安全性を確保するために独自のオーナシップメカニズムに依存している。
しかし、多くの潜在的なセキュリティ脆弱性が実用アプリケーションで持続する。
Rustの新しい言語機能は、脆弱性検出に新たな課題をもたらす。
本稿では,Rustプログラムに適した静的デッドロック検出手法を提案し,条件変数に関連付けられたダブルロック,コンフリクトロック,デッドロックなど,さまざまなデッドロックタイプを特定することを目的とする。
rustの所有権と寿命を考慮すれば、最初にポインタ分析を完了します。
そして、得られたポイントツー情報に基づいて変数間の依存関係を分析し、潜在的なデッドロックを特定する。
提案手法を応用したツールを開発し,実験を行う。
実験の結果,本手法は既存のデッドロック検出手法を精度良く上回ることがわかった。 Rust relies on its unique ownership mechanism to ensure thread and memory safety. However, numerous potential security vulnerabilities persist in practical applications. New language features in Rust pose new challenges for vulnerability detection. This paper proposes a static deadlock detection method tailored for Rust programs, aiming to identify various deadlock types, including double lock, conflict lock, and deadlock associated with conditional variables. With due consideration for Rust's ownership and lifetimes, we first complete the pointer analysis. Then, based on the obtained points-to information, we analyze dependencies among variables to identify potential deadlocks. We develop a tool and conduct experiments based on the proposed method. The experimental results demonstrate that our method outperforms existing deadlock detection methods in precision. | 翻訳日:2024-01-03 14:24:22 公開日:2024-01-02 |
# ベトナム製品レビューにおける比較感情: シーケンシャルな分類枠組み Unveiling Comparative Sentiments in Vietnamese Product Reviews: A Sequential Classification Framework ( http://arxiv.org/abs/2401.01108v1 ) ライセンス: Link先を確認 | Ha Le, Bao Tran, Phuong Le, Tan Nguyen, Dac Nguyen, Ngoan Pham, Dang Huynh | (参考訳) 比較意見マイニングは感情分析の専門分野であり、相対的に表現された感情を特定し抽出することを目的としている。
この課題に対処するために,3つの逐次サブタスクを解くアプローチを提案する。
(i)比較文、すなわち、ある文が比較意味を持つ場合
二 比較要素、すなわち比較対象、対象、側面、述語を抽出すること。
(iii)ベトナム製品レビューにおけるユーザ感情の深い理解に寄与する比較タイプを分類すること。
ベトナム語・音声処理(VLSP)2023年,ベトナム語製品レビューから比較オピニオンマイニング(ComOM)に挑戦し,第5位にランクインした。 Comparative opinion mining is a specialized field of sentiment analysis that aims to identify and extract sentiments expressed comparatively. To address this task, we propose an approach that consists of solving three sequential sub-tasks: (i) identifying comparative sentence, i.e., if a sentence has a comparative meaning, (ii) extracting comparative elements, i.e., what are comparison subjects, objects, aspects, predicates, and (iii) classifying comparison types which contribute to a deeper comprehension of user sentiments in Vietnamese product reviews. Our method is ranked fifth at the Vietnamese Language and Speech Processing (VLSP) 2023 challenge on Comparative Opinion Mining (ComOM) from Vietnamese Product Reviews. | 翻訳日:2024-01-03 14:24:13 公開日:2024-01-02 |
# CityPulse:ストリートビュー時系列による都市変化の微粒化評価 CityPulse: Fine-Grained Assessment of Urban Change with Street View Time Series ( http://arxiv.org/abs/2401.01107v1 ) ライセンス: Link先を確認 | Tianyuan Huang, Zejia Wu, Jiajun Wu, Jackelyn Hwang, Ram Rajagopal | (参考訳) 都市変革は、個人と地域社会の両方に大きな社会的影響を与える。
これらの変化を正確に評価することは、その根本原因の理解と持続可能な都市計画の確保に不可欠である。
伝統的な測定は時空間的および時間的粒度の制約に遭遇し、リアルタイムの物理的変化を捉えられなかった。
ストリートビューの画像は、歩行者の視点から都市空間の心臓の鼓動を捉え、高精細度、最新、地上での都市変化の視覚的プロキシとして追加することができる。
我々は,これまでで最大のストリートビュー時系列データセットをキュレートし,大規模環境における物理的変化を効果的に捉えたエンドツーエンドの変更検出モデルを提案する。
本提案手法は,過去の文献との比較と都市レベルでの実施により,提案手法の有効性を実証する。
我々のアプローチは既存のデータセットを補完し、都市の変化をきめ細やかに正確に評価する可能性がある。 Urban transformations have profound societal impact on both individuals and communities at large. Accurately assessing these shifts is essential for understanding their underlying causes and ensuring sustainable urban planning. Traditional measurements often encounter constraints in spatial and temporal granularity, failing to capture real-time physical changes. While street view imagery, capturing the heartbeat of urban spaces from a pedestrian point of view, can add as a high-definition, up-to-date, and on-the-ground visual proxy of urban change. We curate the largest street view time series dataset to date, and propose an end-to-end change detection model to effectively capture physical alterations in the built environment at scale. We demonstrate the effectiveness of our proposed method by benchmark comparisons with previous literature and implementing it at the city-wide level. Our approach has the potential to supplement existing dataset and serve as a fine-grained and accurate assessment of urban change. | 翻訳日:2024-01-03 14:24:03 公開日:2024-01-02 |
# AI-FLARES: 太陽フレアデータ分析のための人工知能 AI-FLARES: Artificial Intelligence for the Analysis of Solar Flares Data ( http://arxiv.org/abs/2401.01104v1 ) ライセンス: Link先を確認 | Michele Piana, Federico Benvenuto, Anna Maria Massone, Cristina Campi, Sabrina Guastavino, Francesco Marchetti, Paolo Massa, Emma Perracchione, Anna Volpara | (参考訳) AI-FLARES(AI-FLARES、Artificial Intelligence for the Analysis of Solar Flares Data)は、アセンツィア・スパツィアーレ・イタリアナと、アストロフィシカ国立研究所(Istituto Nazionale di Astrofisica)が「Attivit\`a di Studio per la Comunit\`a Scientifica Nazionale Sole, Sistema Solare ed Esopianeti」プログラムの枠組みの中で出資した研究プロジェクトである。
このプロジェクトで取り組まれたトピックは、太陽フレア放出に伴うリモートセンシング空間データの解析のための計算手法の開発と利用であった。
本稿では, 太陽フレア予測, フレア発生源の形態再構成, 太陽フレアによる加速機構の解釈を中心に, プロジェクトによって得られた主な結果について概説する。 AI-FLARES (Artificial Intelligence for the Analysis of Solar Flares Data) is a research project funded by the Agenzia Spaziale Italiana and by the Istituto Nazionale di Astrofisica within the framework of the ``Attivit\`a di Studio per la Comunit\`a Scientifica Nazionale Sole, Sistema Solare ed Esopianeti'' program. The topic addressed by this project was the development and use of computational methods for the analysis of remote sensing space data associated to solar flare emission. This paper overviews the main results obtained by the project, with specific focus on solar flare forecasting, reconstruction of morphologies of the flaring sources, and interpretation of acceleration mechanisms triggered by solar flares. | 翻訳日:2024-01-03 14:23:46 公開日:2024-01-02 |
# 対面アンチスプーフィングのためのドメインアライメントを用いた二重教師知識蒸留 Dual Teacher Knowledge Distillation with Domain Alignment for Face Anti-spoofing ( http://arxiv.org/abs/2401.01102v1 ) ライセンス: Link先を確認 | Zhe Kong, Wentian Zhang, Tao Wang, Kaihao Zhang, Yuexiang Li, Xiaoying Tang, Wenhan Luo | (参考訳) 顔認識システムでは,さまざまなプレゼンテーション攻撃に対する脆弱性が懸念されるようになり,システムセキュリティがますます重要になっている。
多くのface anti-spoofing (fas) メソッドはデータセット内シナリオでうまく機能するが、その一般化は依然として課題である。
この問題に対処するために、いくつかのメソッドはドメイン非不変の特徴を抽出するためにドメイン逆行訓練(DAT)を採用している。
しかし、エンコーダとドメイン識別器の競合により、ネットワークのトレーニングと収束が困難になる可能性がある。
本稿では,入力画像に摂動を加えてトレーニングの不安定性問題を軽減し,ドメイン間で区別不能にし,ドメインアライメントを可能にするドメイン逆攻撃(DAA)手法を提案する。
さらに、限られたデータや攻撃の種類に基づいて訓練されたモデルは、未知の攻撃に対してうまく一般化できないため、豊富な顔前駆体を含む事前訓練された顔関連モデルを利用した顔アンチスプーフィングのための二重知覚および生成的知識蒸留フレームワークを提案する。
具体的には,対象学生モデルに知識を伝達する教師として,2つの異なる顔関連モデルを採用する。
事前訓練された教師モデルは、反スプーフィングのタスクではなく、それぞれ知覚的タスクと生成的タスクから成り、暗黙的にデータを増強する。
daaとdual-teacher knowledge distillationを組み合わせることで,アンチスプーフィングのためのドメインアライメントフレームワーク(dtda)を用いた二重教師知識蒸留法を開発した。
提案手法の利点は,広範囲なアブレーション研究と,複数のプロトコルにまたがる公開データセットにおける最先端手法との比較によって検証された。 Face recognition systems have raised concerns due to their vulnerability to different presentation attacks, and system security has become an increasingly critical concern. Although many face anti-spoofing (FAS) methods perform well in intra-dataset scenarios, their generalization remains a challenge. To address this issue, some methods adopt domain adversarial training (DAT) to extract domain-invariant features. However, the competition between the encoder and the domain discriminator can cause the network to be difficult to train and converge. In this paper, we propose a domain adversarial attack (DAA) method to mitigate the training instability problem by adding perturbations to the input images, which makes them indistinguishable across domains and enables domain alignment. Moreover, since models trained on limited data and types of attacks cannot generalize well to unknown attacks, we propose a dual perceptual and generative knowledge distillation framework for face anti-spoofing that utilizes pre-trained face-related models containing rich face priors. Specifically, we adopt two different face-related models as teachers to transfer knowledge to the target student model. The pre-trained teacher models are not from the task of face anti-spoofing but from perceptual and generative tasks, respectively, which implicitly augment the data. By combining both DAA and dual-teacher knowledge distillation, we develop a dual teacher knowledge distillation with domain alignment framework (DTDA) for face anti-spoofing. The advantage of our proposed method has been verified through extensive ablation studies and comparison with state-of-the-art methods on public datasets across multiple protocols. | 翻訳日:2024-01-03 14:23:25 公開日:2024-01-02 |
# 一様ランドマークサンプリングと制約付き局所線形埋め込みによるスケーラブル多様体学習 Scalable manifold learning by uniform landmark sampling and constrained locally linear embedding ( http://arxiv.org/abs/2401.01100v1 ) ライセンス: Link先を確認 | Dehua Peng, Zhipeng Gui, Wenzhang Wei, Huayi Wu | (参考訳) 機械学習とデータサイエンスにおける重要なアプローチとして、多様体学習は、高次元空間における複素非線形多様体内の固有の低次元構造を明らかにすることを目的としている。
多様体仮説を利用して, 可視化, 分類, クラスタリング, 重要な洞察を得るために, 非線形次元低減のための様々な手法を開発した。
既存の多様体学習法は顕著な成功をおさめたが、それでも大域構造に生じる広範囲の歪みに苦しめられ、基本的なパターンの理解を妨げている。
スケーラビリティの問題は、大規模なデータを扱うための適用性にも制限がある。
本稿では,大規模・高次元データを効率的に操作できるスケーラブルな多様体学習(scml)手法を提案する。
まず、データ全体の低次元骨格を構築するためのランドマークのセットを探し、制約付き局所線形埋め込み(clle)に基づいてランドマークをランドマーク空間に組み込む。
そこで本研究では,合成データセットと実世界ベンチマークにおけるscmlの有効性を実証的に検証し,単細胞転写学の解析と心電図信号の異常の検出に応用した。
scMLはデータサイズの増加とともにスケールし、グローバル構造を保存する上で有望なパフォーマンスを示す。
実験では, 試料速度が低下するにつれて, 埋込み品質に顕著なロバスト性を示す。 As a pivotal approach in machine learning and data science, manifold learning aims to uncover the intrinsic low-dimensional structure within complex nonlinear manifolds in high-dimensional space. By exploiting the manifold hypothesis, various techniques for nonlinear dimension reduction have been developed to facilitate visualization, classification, clustering, and gaining key insights. Although existing manifold learning methods have achieved remarkable successes, they still suffer from extensive distortions incurred in the global structure, which hinders the understanding of underlying patterns. Scalability issues also limit their applicability for handling large-scale data. Here, we propose a scalable manifold learning (scML) method that can manipulate large-scale and high-dimensional data in an efficient manner. It starts by seeking a set of landmarks to construct the low-dimensional skeleton of the entire data and then incorporates the non-landmarks into the landmark space based on the constrained locally linear embedding (CLLE). We empirically validated the effectiveness of scML on synthetic datasets and real-world benchmarks of different types, and applied it to analyze the single-cell transcriptomics and detect anomalies in electrocardiogram (ECG) signals. scML scales well with increasing data sizes and exhibits promising performance in preserving the global structure. The experiments demonstrate notable robustness in embedding quality as the sample rate decreases. | 翻訳日:2024-01-03 14:22:55 公開日:2024-01-02 |
# グループマスク言語モデルを用いた効率的な並列音声生成 Efficient Parallel Audio Generation using Group Masked Language Modeling ( http://arxiv.org/abs/2401.01099v1 ) ライセンス: Link先を確認 | Myeonghun Jeong, Minchan Kim, Joun Yeop Lee, and Nam Soo Kim | (参考訳) 並列音声生成のための高速かつ高品質なコーデック言語モデルを提案する。
最先端の並列オーディオ生成モデルであるSoundStormは、自動回帰モデルと比較して推論速度を加速するが、反復サンプリングによる推論が遅い。
この問題を解決するために,G-MLMとG-IPDの並列音声生成のためのグループ行列言語モデリング手法を提案する。
トレーニングとサンプリングの両方のスキームにより、グループ単位の条件依存を効果的にモデル化することにより、少数のイテレーションで高品質なオーディオを合成できる。
さらに,本モデルでは,音声の話者スタイルを把握し,計算効率を向上させるために,クロスアテンションに基づくアーキテクチャを採用している。
実験の結果,提案モデルがプロンプトベース音声生成におけるベースラインを上回ることがわかった。 We present a fast and high-quality codec language model for parallel audio generation. While SoundStorm, a state-of-the-art parallel audio generation model, accelerates inference speed compared to autoregressive models, it still suffers from slow inference due to iterative sampling. To resolve this problem, we propose Group-Masked Language Modeling~(G-MLM) and Group Iterative Parallel Decoding~(G-IPD) for efficient parallel audio generation. Both the training and sampling schemes enable the model to synthesize high-quality audio with a small number of iterations by effectively modeling the group-wise conditional dependencies. In addition, our model employs a cross-attention-based architecture to capture the speaker style of the prompt voice and improves computational efficiency. Experimental results demonstrate that our proposed model outperforms the baselines in prompt-based audio generation. | 翻訳日:2024-01-03 14:22:34 公開日:2024-01-02 |
# ロバストな単粒子cryo-em画像のデノイジングと復元 Robust single-particle cryo-EM image denoising and restoration ( http://arxiv.org/abs/2401.01097v1 ) ライセンス: Link先を確認 | Jing Zhang, Tengfei Zhao, ShiYu Hu, Xin Zhao | (参考訳) 核電子顕微鏡(cryo-EM)は、2Dマイクログラフの再構成によって生体分子の原子レベルに近い分解能を達成している。
しかし, 極低信号-雑音比(SNR)とCryo-EM画像の複素雑音構造により, 再構成粒子の分解能と精度は著しく低下する。
本稿では,単一粒子cryo-em像を効果的に除去・復元するための後処理フレームワークを用いた拡散モデルを提案する。
提案手法は,これまで未解決であった構造ノイズを効果的に除去することにより,最先端(SOTA)デノナイズ法より優れる。
さらに, より高精度で高分解能な3次元再構成構造を, 有意なcryo-em画像から得ることができる。 Cryo-electron microscopy (cryo-EM) has achieved near-atomic level resolution of biomolecules by reconstructing 2D micrographs. However, the resolution and accuracy of the reconstructed particles are significantly reduced due to the extremely low signal-to-noise ratio (SNR) and complex noise structure of cryo-EM images. In this paper, we introduce a diffusion model with post-processing framework to effectively denoise and restore single particle cryo-EM images. Our method outperforms the state-of-the-art (SOTA) denoising methods by effectively removing structural noise that has not been addressed before. Additionally, more accurate and high-resolution three-dimensional reconstruction structures can be obtained from denoised cryo-EM images. | 翻訳日:2024-01-03 14:22:21 公開日:2024-01-02 |
# 人間の視力によるハイパースペクトル異常検出の探索:小型目標認識検出器 Exploring Hyperspectral Anomaly Detection with Human Vision: A Small Target Aware Detector ( http://arxiv.org/abs/2401.01093v1 ) ライセンス: Link先を確認 | Jitao Ma, Weiying Xie, Yunsong Li | (参考訳) ハイパースペクトル異常検出(HAD)は、背景と異なるスペクトル特徴を持つ画素点の局在化を目的としている。
hadは、水質モニタリング、作物生育モニタリング、カモフラージュターゲット検出など、目標の事前情報を得るのが難しい未知またはカモフラージュターゲットの特徴のシナリオにおいて不可欠である。
既存のHAD法は、人間の知覚によってほぼ努力的に達成できる背景スペクトルと異常スペクトルを客観的に検出し、識別することを目的としている。
しかし、人間の視覚知覚の基本的な過程は極めて複雑であると考えられている。
本稿では、人間の視覚知覚下でのハイパースペクトル画像(HSI)の特徴を分析し、HADの解法プロセスをより堅牢な特徴空間に初めて転送する。
具体的には,人間の視覚知覚に近いhsi特徴を捉えるために,サリエンシーマップを導入する小型ターゲット認識検出器(stad)を提案する。
STADは、より異常な表現を抽出するだけでなく、提案した小さなターゲットフィルタ(STF)を通して低信頼領域の影響を低減する。
さらに,エッジデバイスへのhadアルゴリズムの適用可能性を考慮して,畳み込みネットワーク知識蒸留戦略への完全接続ネットワークを提案する。
ネットワークを明るくしながら、hsiのスペクトルと空間的特徴を学ぶことができる。
このネットワークをhad100トレーニングセット上でトレーニングし,had100テストセット上で提案手法を検証する。
提案手法は,人間の視覚知覚に近づき,信頼性の高い新しい解空間を提供する。
複数の手法を比較した実HSI実験は,提案手法の優れた性能と特異性を示す。
コードはhttps://github.com/majitao-xd/stad-hadで入手できる。 Hyperspectral anomaly detection (HAD) aims to localize pixel points whose spectral features differ from the background. HAD is essential in scenarios of unknown or camouflaged target features, such as water quality monitoring, crop growth monitoring and camouflaged target detection, where prior information of targets is difficult to obtain. Existing HAD methods aim to objectively detect and distinguish background and anomalous spectra, which can be achieved almost effortlessly by human perception. However, the underlying processes of human visual perception are thought to be quite complex. In this paper, we analyze hyperspectral image (HSI) features under human visual perception, and transfer the solution process of HAD to the more robust feature space for the first time. Specifically, we propose a small target aware detector (STAD), which introduces saliency maps to capture HSI features closer to human visual perception. STAD not only extracts more anomalous representations, but also reduces the impact of low-confidence regions through a proposed small target filter (STF). Furthermore, considering the possibility of HAD algorithms being applied to edge devices, we propose a full connected network to convolutional network knowledge distillation strategy. It can learn the spectral and spatial features of the HSI while lightening the network. We train the network on the HAD100 training set and validate the proposed method on the HAD100 test set. Our method provides a new solution space for HAD that is closer to human visual perception with high confidence. Sufficient experiments on real HSI with multiple method comparisons demonstrate the excellent performance and unique potential of the proposed method. The code is available at https://github.com/majitao-xd/STAD-HAD. | 翻訳日:2024-01-03 14:22:07 公開日:2024-01-02 |
# Quokka: 物質科学のためのオープンソースの大規模言語モデルチャットボット Quokka: An Open-source Large Language Model ChatBot for Material Science ( http://arxiv.org/abs/2401.01089v1 ) ライセンス: Link先を確認 | Xianjun Yang, Stephen D. Wilson, Linda Petzold | (参考訳) 本稿では,材料科学専門のチャットボットの開発,Llama-2言語モデルの利用,S2ORCデータセットからの材料科学領域における研究論文の事前学習について述べる。
この方法論は、100万以上のドメイン固有論文の最初の事前学習フェーズと、チャットボットの能力を洗練するためのインストラクションチューニングプロセスを含む。
チャットボットは、材料科学の分野の質問に対して、即座にコンテキスト認識の応答を提供することで、研究者、教育者、学生を支援するように設計されている。
4つのトレーニング済みチェックポイント(7b, 13b, with without chat ability)を、https://github.com/xianjun-yang/quokka.comのリサーチコミュニティに無料で提供しています。 This paper presents the development of a specialized chatbot for materials science, leveraging the Llama-2 language model, and continuing pre-training on the expansive research articles in the materials science domain from the S2ORC dataset. The methodology involves an initial pretraining phase on over one million domain-specific papers, followed by an instruction-tuning process to refine the chatbot's capabilities. The chatbot is designed to assist researchers, educators, and students by providing instant, context-aware responses to queries in the field of materials science. We make the four trained checkpoints (7B, 13B, with or without chat ability) freely available to the research community at https://github.com/Xianjun-Yang/Quokka. | 翻訳日:2024-01-03 14:21:41 公開日:2024-01-02 |
# imperio:任意のモデル制御に対する言語誘導バックドア攻撃 Imperio: Language-Guided Backdoor Attacks for Arbitrary Model Control ( http://arxiv.org/abs/2401.01085v1 ) ライセンス: Link先を確認 | Ka-Ho Chow, Wenqi Wei, Lei Yu | (参考訳) トランスフォーマーアーキテクチャに革命を起こした自然言語処理(nlp)は、前例のない注目を集めている。
nlpモデルの進歩はバックドアの脆弱性に関する広範な研究につながったが、バックドアの脅威を新たに導入する可能性はまだ未定である。
本稿では,NLPモデルの言語理解機能を活用し,バックドア攻撃を増強するImperioを提案する。
Imperioは新しいモデルコントロールエクスペリエンスを提供する。
言語誘導命令を通じて任意の出力で被害者モデルを制御することができる。
これは言語モデルを用いて条件付きトリガジェネレータを駆動し、言語理解能力をバックドア命令の解釈と実行にまで拡張するよう設計されている。
3つのデータセット、5つの攻撃、9つの防御実験により、Imperioの有効性が確認された。
テキスト記述からコンテキスト適応的なトリガーを生成し、トレーニング中に遭遇しないシナリオであっても、望ましい出力で被害者モデルを制御する。
この攻撃は、クリーンな入力の精度を損なうことなく、複雑なデータセット間で高い成功率を維持し、また代表防御に対するレジリエンスを示す。
ソースコードは \url{https://khchow.com/imperio} で入手できる。 Revolutionized by the transformer architecture, natural language processing (NLP) has received unprecedented attention. While advancements in NLP models have led to extensive research into their backdoor vulnerabilities, the potential for these advancements to introduce new backdoor threats remains unexplored. This paper proposes Imperio, which harnesses the language understanding capabilities of NLP models to enrich backdoor attacks. Imperio provides a new model control experience. It empowers the adversary to control the victim model with arbitrary output through language-guided instructions. This is achieved using a language model to fuel a conditional trigger generator, with optimizations designed to extend its language understanding capabilities to backdoor instruction interpretation and execution. Our experiments across three datasets, five attacks, and nine defenses confirm Imperio's effectiveness. It can produce contextually adaptive triggers from text descriptions and control the victim model with desired outputs, even in scenarios not encountered during training. The attack maintains a high success rate across complex datasets without compromising the accuracy of clean inputs and also exhibits resilience against representative defenses. The source code is available at \url{https://khchow.com/Imperio}. | 翻訳日:2024-01-03 14:21:27 公開日:2024-01-02 |
# 微分型SARレンダを用いたSARビュー角インバージョンのための強化学習 Reinforcement Learning for SAR View Angle Inversion with Differentiable SAR Renderer ( http://arxiv.org/abs/2401.01165v1 ) ライセンス: Link先を確認 | Yanni Wang, Hecheng Jia, Shilei Fu, Huiping Lin, Feng Xu | (参考訳) 電磁逆問題は長い間研究のホットスポットだった。
本研究の目的は,合成開口レーダ(SAR)画像における目標モデルによるレーダー視角の反転である。
それにもかかわらず、SARデータの不足と複雑な背景干渉とイメージング機構が組み合わさって、既存の学習ベースのアプローチの適用を制限する。
これらの課題に対処するために、エージェントと環境との相互作用を促進するために、差別化可能なSARレンダリング(DSR)という名前の電磁シミュレータを組み込んだ対話型深部強化学習(DRL)フレームワークを提案する。
具体的には、DSRは任意の視角でリアルタイムでSAR画像を生成する。
また、ビュー角対応画像間の逐次的・意味的な相違を利用してDRLの状態空間を構築することにより、複雑な背景干渉を効果的に抑制し、時間変動に対する感度を高め、きめ細かい情報をキャプチャする能力を向上させる。
また, 本手法の安定性と収束性を維持するため, メモリ差, 平滑化, 境界ペナルティなどの一連の報酬機構を用いて最終報酬関数を構成する。
シミュレーションおよび実データを用いた実験により,提案手法の有効性とロバスト性を示した。
クロスドメイン領域で利用する場合,提案手法は実領域と模擬領域の整合性を著しく軽減し,参照手法よりも優れる。 The electromagnetic inverse problem has long been a research hotspot. This study aims to reverse radar view angles in synthetic aperture radar (SAR) images given a target model. Nonetheless, the scarcity of SAR data, combined with the intricate background interference and imaging mechanisms, limit the applications of existing learning-based approaches. To address these challenges, we propose an interactive deep reinforcement learning (DRL) framework, where an electromagnetic simulator named differentiable SAR render (DSR) is embedded to facilitate the interaction between the agent and the environment, simulating a human-like process of angle prediction. Specifically, DSR generates SAR images at arbitrary view angles in real-time. And the differences in sequential and semantic aspects between the view angle-corresponding images are leveraged to construct the state space in DRL, which effectively suppress the complex background interference, enhance the sensitivity to temporal variations, and improve the capability to capture fine-grained information. Additionally, in order to maintain the stability and convergence of our method, a series of reward mechanisms, such as memory difference, smoothing and boundary penalty, are utilized to form the final reward function. Extensive experiments performed on both simulated and real datasets demonstrate the effectiveness and robustness of our proposed method. When utilized in the cross-domain area, the proposed method greatly mitigates inconsistency between simulated and real domains, outperforming reference methods significantly. | 翻訳日:2024-01-03 14:14:37 公開日:2024-01-02 |
# 低データレジームにおける大腸組織分類のためのローカルテクスチャの蒸留 Distilling Local Texture Features for Colorectal Tissue Classification in Low Data Regimes ( http://arxiv.org/abs/2401.01164v1 ) ライセンス: Link先を確認 | Dmitry Demidov, Roba Al Majzoub, Amandeep Kumar, and Fahad Khan | (参考訳) 多系統の大腸組織分類は、通常、大量のトレーニングデータが利用可能であると仮定された環境で対処される困難な問題である。
特に間質性腫瘍や肛門癌などの稀な症例は, 細粒な大腸組織サンプルを手作業で診断することは困難で高価である。
そこで,我々はkd-ctcnetという知識蒸留ベースの手法を提案し,蒸留損失を生かして組織サンプルから局所的なテクスチャ情報を効果的に取り込み,標準cnn機能を改善する。
結果として得られたリッチな特徴表現は、特に低データレシエーションにおける分類性能の向上を達成する。
大腸組織の2つの公開データセットに対する大規模な実験は、提案されたコントリビューションのメリットを明らかにし、低いデータ設定で異なるアプローチで一貫した成功を達成している。
コードとモデルはGitHubで公開されている。 Multi-class colorectal tissue classification is a challenging problem that is typically addressed in a setting, where it is assumed that ample amounts of training data is available. However, manual annotation of fine-grained colorectal tissue samples of multiple classes, especially the rare ones like stromal tumor and anal cancer is laborious and expensive. To address this, we propose a knowledge distillation-based approach, named KD-CTCNet, that effectively captures local texture information from few tissue samples, through a distillation loss, to improve the standard CNN features. The resulting enriched feature representation achieves improved classification performance specifically in low data regimes. Extensive experiments on two public datasets of colorectal tissues reveal the merits of the proposed contributions, with a consistent gain achieved over different approaches across low data settings. The code and models are publicly available on GitHub. | 翻訳日:2024-01-03 14:14:01 公開日:2024-01-02 |
# NU-Class Net:ビデオ品質向上のための新しいディープラーニングベースのアプローチ NU-Class Net: A Novel Deep Learning-based Approach for Video Quality Enhancement ( http://arxiv.org/abs/2401.01163v1 ) ライセンス: Link先を確認 | Parham Zilouchian Moghaddam, Mehdi Modarressi, MohammadAmin Sadeghi | (参考訳) ビデオコンテンツの人気は急増しており、インターネットトラフィックとIoT(Internet of Things)ネットワークに対する優位性を主張している。
ビデオ圧縮は、ビデオキャプチャー装置が生成する実質的なマルチメディアトラフィックを効率的に管理する主要な手段であると考えられてきた。
それでも、ビデオ圧縮アルゴリズムは、かなりの圧縮比を達成するために、かなりの計算要求を必要とする。
この複雑さは、iotエッジノードカメラなど、リソースに制約のある組み込みシステムで効率的なビデオコーディング標準を実装する際に、恐ろしい課題をもたらします。
そこで本研究では,圧縮コーデックによる圧縮アーチファクトの軽減を目的とした,革新的なディープラーニングモデルであるNU-Class Netを提案する。
この拡張により、低ビットレートビデオの品質が著しく向上する。
NU-Class Netを利用することで、ビデオキャプチャノード内のビデオエンコーダは出力品質を低減し、低ビットレートのビデオを生成し、エッジでの計算と帯域幅の要求を効果的に調整することができる。
デコーダ側では、典型的にはリソース制限の影響を受けないが、NU-Class Netはビデオデコーダの後に適用され、アーティファクトを補償し、元のビデオの品質を近似する。
実験結果から,提案モデルの有効性が検証され,特に低ビットレートでストリームされるビデオの可視性が向上した。 Video content has experienced a surge in popularity, asserting its dominance over internet traffic and Internet of Things (IoT) networks. Video compression has long been regarded as the primary means of efficiently managing the substantial multimedia traffic generated by video-capturing devices. Nevertheless, video compression algorithms entail significant computational demands in order to achieve substantial compression ratios. This complexity presents a formidable challenge when implementing efficient video coding standards in resource-constrained embedded systems, such as IoT edge node cameras. To tackle this challenge, this paper introduces NU-Class Net, an innovative deep-learning model designed to mitigate compression artifacts stemming from lossy compression codecs. This enhancement significantly elevates the perceptible quality of low-bit-rate videos. By employing the NU-Class Net, the video encoder within the video-capturing node can reduce output quality, thereby generating low-bit-rate videos and effectively curtailing both computation and bandwidth requirements at the edge. On the decoder side, which is typically less encumbered by resource limitations, NU-Class Net is applied after the video decoder to compensate for artifacts and approximate the quality of the original video. Experimental results affirm the efficacy of the proposed model in enhancing the perceptible quality of videos, especially those streamed at low bit rates. | 翻訳日:2024-01-03 14:13:11 公開日:2024-01-02 |
# 衝突型加速器の散乱断面積でベル不等式を検証できるか? Can Bell inequalities be tested via scattering cross-section at colliders ? ( http://arxiv.org/abs/2401.01162v1 ) ライセンス: Link先を確認 | Song Li, Wei Shen, Jin Min Yang | (参考訳) 衝突子におけるベルの不等式をテストするための最近の研究では、散乱断面積からのスピン相関の再構成はスピン相関の双線型形式に依存しており、全ての局所隠れ変数モデル(LHVM)がそのような性質を持つわけではない。
一般LHVMが散乱断面積データによって排除できないことを示すために,粒子生成と崩壊の散乱断面積を標準量子理論と正確に同一に再現できる特定のLHVMを提案する。
これにもかかわらず、散乱断面積によるスピン相関の再構成は、LHVMの幅広いクラス、例えば量子スピン相関の代用として古典的なスピン相関を用いるモデルを除外することができる。 In current studies for testing Bell inequalities at colliders, the reconstruction of spin correlations from scattering cross-sections relies on the bilinear form of the spin correlations, and not all local hidden variable models (LHVMs) have such a property. To demonstrate that a general LHVM cannot be rule out via scattering cross-section data, we propose a specific LHVM, which can exactly duplicate the same scattering cross-section for particle production and decay as the standard quantum theory, making it indistinguishable at colliders in principle. Despite of this, we find that reconstructing spin correlations through scattering cross-sections can still rule out a broad class of LHVMs, e.g., those models employing classical spin correlations as a surrogate for quantum spin correlations. | 翻訳日:2024-01-03 14:12:21 公開日:2024-01-02 |
# 立方形永続ホモロジーを用いたMRIにおけるトレインフリーセグメンテーション Train-Free Segmentation in MRI with Cubical Persistent Homology ( http://arxiv.org/abs/2401.01160v1 ) ライセンス: Link先を確認 | Anton Fran\c{c}ois and Rapha\"el Tinarrage | (参考訳) 本稿では,TDA(Topological Data Analysis)を用いたMRIスキャンにおけるセグメンテーションの新しい手法について述べる。
これは3つのステップで機能し、まずは自動しきい値設定によってオブジェクト全体をセグメントに識別し、次に事前にトポロジが知られている特定の部分集合を検出し、最後にセグメンテーションの様々な成分を推論する。
TDAの古典的概念を提唱する一方で、このようなアルゴリズムは深層学習法とは別々に提案されたことはない。
これを実現するために,画像のホモロジー,代表周期の局所化に加えて,この文脈では利用されなかったと思われる情報の断片を考慮に入れた。
特に、大きな注釈付きデータセットを必要とせずにセグメンテーションを実行する機能を提供する。
TDAはまた、トポロジ的特徴をセグメンテーションコンポーネントに明示的にマッピングすることで、セグメンテーションをより解釈可能で安定したフレームワークを提供する。
検出対象の幾何学的対象に適応することにより、アルゴリズムは幅広いデータセグメンテーション課題に適応することができる。
脳mriにおいて球体が検出されるグリオブラスト腫の例とシリンダーを含む心臓mriの心筋、および2次元スライスが円である胎児脳mriにおける皮質プレート検出について慎重に検討した。
本手法を最先端アルゴリズムと比較する。 We describe a new general method for segmentation in MRI scans using Topological Data Analysis (TDA), offering several advantages over traditional machine learning approaches. It works in three steps, first identifying the whole object to segment via automatic thresholding, then detecting a distinctive subset whose topology is known in advance, and finally deducing the various components of the segmentation. Although convoking classical ideas of TDA, such an algorithm has never been proposed separately from deep learning methods. To achieve this, our approach takes into account, in addition to the homology of the image, the localization of representative cycles, a piece of information that seems never to have been exploited in this context. In particular, it offers the ability to perform segmentation without the need for large annotated data sets. TDA also provides a more interpretable and stable framework for segmentation by explicitly mapping topological features to segmentation components. By adapting the geometric object to be detected, the algorithm can be adjusted to a wide range of data segmentation challenges. We carefully study the examples of glioblastoma segmentation in brain MRI, where a sphere is to be detected, as well as myocardium in cardiac MRI, involving a cylinder, and cortical plate detection in fetal brain MRI, whose 2D slices are circles. We compare our method to state-of-the-art algorithms. | 翻訳日:2024-01-03 14:12:06 公開日:2024-01-02 |
# ジョブショップスケジューリング問題に対する微分可能量子アーキテクチャ探索 Differentiable Quantum Architecture Search For Job Shop Scheduling Problem ( http://arxiv.org/abs/2401.01158v1 ) ライセンス: Link先を確認 | Yize Sun, Jiarui Liu, Yunpu Ma, Volker Tresp | (参考訳) ジョブショップスケジューリング問題(jssp)は、スケジューリング効率を最大化するためにシーケンシングマシンとジョブを含む信号処理(sp)や鉄鋼製造といった産業アプリケーションにおいて重要な役割を担っている。
これまで、JSSPは変動量子アルゴリズム(VQA)によって手動で定義された回路を用いて解決されていた。
優れた回路アーキテクチャを見つけることはタスク固有で時間を要する。
微分可能量子アーキテクチャサーチ(DQAS)は、回路を自動設計できる勾配ベースのフレームワークである。
しかし、DQASは量子近似最適化アルゴリズム(QAOA)と誤差軽減タスクでのみテストされる。
DQASが、変分量子固有解法(VQE)のようなより柔軟なアルゴリズムに基づいてJSSPに適用されるかどうかは、まだ最適化問題に対してオープンである。
本研究では, DQAS をフレームワーク JSSP-DQAS に再定義し,回路評価により DQAS をフレームワーク JSSP-DQAS に拡張し,JSSP 用の回路を自動生成する。
実験の結果、JSSP-DQASは手動設計の回路よりもはるかに優れたノイズ耐性回路アーキテクチャを自動で見つけることができると結論付けた。
JSSPの解決の効率を改善するのに役立ちます。 The Job shop scheduling problem (JSSP) plays a pivotal role in industrial applications, such as signal processing (SP) and steel manufacturing, involving sequencing machines and jobs to maximize scheduling efficiency. Before, JSSP was solved using manually defined circuits by variational quantum algorithm (VQA). Finding a good circuit architecture is task-specific and time-consuming. Differentiable quantum architecture search (DQAS) is a gradient-based framework that can automatically design circuits. However, DQAS is only tested on quantum approximate optimization algorithm (QAOA) and error mitigation tasks. Whether DQAS applies to JSSP based on a more flexible algorithm, such as variational quantum eigensolver (VQE), is still open for optimization problems. In this work, we redefine the operation pool and extend DQAS to a framework JSSP-DQAS by evaluating circuits to generate circuits for JSSP automatically. The experiments conclude that JSSP-DQAS can automatically find noise-resilient circuit architectures that perform much better than manually designed circuits. It helps to improve the efficiency of solving JSSP. | 翻訳日:2024-01-03 14:11:44 公開日:2024-01-02 |
# 挿入・削除チャネルによるマーカ符号の深層学習に基づく検出 Deep Learning-Based Detection for Marker Codes over Insertion and Deletion Channels ( http://arxiv.org/abs/2401.01155v1 ) ライセンス: Link先を確認 | Guochen Ma, Xiaopeng Jiao, Jianjun Mu, Hui Han, and Yaming Yang | (参考訳) マーカーコードは挿入や削除からデータを保護する効果的なコーディングスキームである。
DNAストレージやレーストラックメモリなど、将来のストレージシステムに潜在的な応用がある。
マーカー符号を復号する場合、挿入と削除の確率である完全チャネル状態情報(CSI)が挿入と削除の誤りを検出するために必要となる。
完全なcsiを得るのが容易でない場合や正確なチャネルモデルが不明な場合もある。
したがって、完全CSIの知識を必要とせず、マーカーコードの検出アルゴリズムを開発する必要がある。
本稿では,深層学習に基づくマーカーコードに対するcsi非依存検出アルゴリズムを2つ提案する。
1つはモデル駆動型深層学習法で、マーカーコードの元の反復検出アルゴリズムを深く展開する。
この方法では、csiはニューラルネットワークの重みとなり、これらの重みはトレーニングデータから学べる。
2つ目は、ディープ双方向ゲート再帰単位ネットワークに基づくエンドツーエンドシステムであるデータ駆動方式である。
シミュレーションの結果,提案手法の誤差性能はcsi不確かさのある元の検出アルゴリズムよりも有意に優れていることがわかった。
さらに,提案手法は未知チャネルモデルに対する他の手法よりも優れた誤差性能を示す。 Marker code is an effective coding scheme to protect data from insertions and deletions. It has potential applications in future storage systems, such as DNA storage and racetrack memory. When decoding marker codes, perfect channel state information (CSI), i.e., insertion and deletion probabilities, are required to detect insertion and deletion errors. Sometimes, the perfect CSI is not easy to obtain or the accurate channel model is unknown. Therefore, it is deserved to develop detecting algorithms for marker code without the knowledge of perfect CSI. In this paper, we propose two CSI-agnostic detecting algorithms for marker code based on deep learning. The first one is a model-driven deep learning method, which deep unfolds the original iterative detecting algorithm of marker code. In this method, CSI become weights in neural networks and these weights can be learned from training data. The second one is a data-driven method which is an end-to-end system based on the deep bidirectional gated recurrent unit network. Simulation results show that error performances of the proposed methods are significantly better than that of the original detection algorithm with CSI uncertainty. Furthermore, the proposed data-driven method exhibits better error performances than other methods for unknown channel models. | 翻訳日:2024-01-03 14:11:24 公開日:2024-01-02 |
# 要求品質に関する因果推論にベイズデータ分析を適用する:再現実験 Applying Bayesian Data Analysis for Causal Inference about Requirements Quality: A Replicated Experiment ( http://arxiv.org/abs/2401.01154v1 ) ライセンス: Link先を確認 | Julian Frattini, Davide Fucci, Richard Torkar, Lloyd Montgomery, Michael Unterkalmsteiner, Jannik Fischbach, Daniel Mendez | (参考訳) コンテキスト: 要件仕様の品質がその後のソフトウェアエンジニアリング活動に影響を与えることは一般的に受け入れられます。
しかし、これらの要件が十分であるかどうか、あるいはその後の活動を妨げるかどうかを判断する上で、組織を支援するための実証的な証拠は残っていない。
目的: この要件に依存するソフトウェアエンジニアリング活動において,要求品質の欠陥が持つ影響について,実証的な証拠を提供することを目指しています。
方法: 異なる品質欠陥を含む4つの自然言語要件から, 産学・産学の25人の参加者がドメインモデルを生成する制御実験を再現する。
ベイジアンデータ解析とベイジアンデータ解析の両方を用いて結果モデルを評価する。
結果: 我々の期待に反して, パッシブ音声の使用は, 結果のドメインモデルにわずかな影響しか及ぼさないことが示された。
しかし、あいまいな代名詞の使用は、結果として生じるドメインモデルの様々な特性に強い影響を示す。
特に、曖昧な代名詞は、ドメインモデルにおける誤った関連をもたらす。
結論: 文学的手法や頻繁な手法に等しく反対されているにもかかわらず、ベイジアンのデータ分析は、調査された2つの品質欠陥がソフトウェアエンジニアリング活動に大きく異なる影響を与えることを示しており、従って、異なるレベルの注意を払っている。
提案手法は,要求品質に関する信頼性と詳細な実証的エビデンスを向上させるために,研究者によってさらに活用できる。 Context: It is commonly accepted that the quality of requirements specifications impacts subsequent software engineering activities. However, we still lack empirical evidence to support organizations in deciding whether their requirements are good enough or impede subsequent activities. Objective: We aim to contribute empirical evidence to the effect that requirements quality defects have on a software engineering activity that depends on this requirement. Method: We replicate a controlled experiment in which 25 participants from industry and university generate domain models from four natural language requirements containing different quality defects. We evaluate the resulting models using both frequentist and Bayesian data analysis. Results: Contrary to our expectations, our results show that the use of passive voice only has a minor impact on the resulting domain models. The use of ambiguous pronouns, however, shows a strong effect on various properties of the resulting domain models. Most notably, ambiguous pronouns lead to incorrect associations in domain models. Conclusion: Despite being equally advised against by literature and frequentist methods, the Bayesian data analysis shows that the two investigated quality defects have vastly different impacts on software engineering activities and, hence, deserve different levels of attention. Our employed method can be further utilized by researchers to improve reliable, detailed empirical evidence on requirements quality. | 翻訳日:2024-01-03 14:11:05 公開日:2024-01-02 |
# 非有界損失に対するPAC-Bayes-Chernoff境界 PAC-Bayes-Chernoff bounds for unbounded losses ( http://arxiv.org/abs/2401.01148v1 ) ライセンス: Link先を確認 | Ioar Casado, Luis A. Ortega, Andr\'es R. Masegosa and Aritz P\'erez | (参考訳) 非有界損失に対する新しい高確率PAC-Bayesオラクルを提案する。
この結果はチャーノフ境界のPAC-ベイズ版として理解することができる。
証明手法は、損失のCram\'er変換に基づいて、ある確率変数のテールを均一に有界化することに依存する。
主な結果の2つの応用を強調する。
まず、多くのPAC-Bayes境界上の自由パラメータを最適化するオープンな問題を解くことを示す。
最後に,本手法では損失関数を柔軟に仮定することで,従来手法を一般化し,ギブス状後肢を最小化できる新たな境界が実現可能であることを示す。 We present a new high-probability PAC-Bayes oracle bound for unbounded losses. This result can be understood as a PAC-Bayes version of the Chernoff bound. The proof technique relies on uniformly bounding the tail of certain random variable based on the Cram\'er transform of the loss. We highlight two applications of our main result. First, we show that our bound solves the open problem of optimizing the free parameter on many PAC-Bayes bounds. Finally, we show that our approach allows working with flexible assumptions on the loss function, resulting in novel bounds that generalize previous ones and can be minimized to obtain Gibbs-like posteriors. | 翻訳日:2024-01-03 14:10:42 公開日:2024-01-02 |
# HAAQI-Net: 補聴器の非侵襲的神経音楽品質評価モデル HAAQI-Net: A non-intrusive neural music quality assessment model for hearing aids ( http://arxiv.org/abs/2401.01145v1 ) ライセンス: Link先を確認 | Dyah A. M. G. Wisnu, Epri Pratiwi, Stefano Rini, Ryandhimas E. Zezario, Hsin-Min Wang, Yu Tsao | (参考訳) 本稿では、補聴器利用者に適した音楽品質評価のための非侵襲的深層学習モデルであるHAAQI-Netを紹介する。
Hearing Aid Audio Quality Index (HAAQI)のような従来の手法とは対照的に、HAAQI-Netは二方向長短期記憶(BLSTM)に注意を払っている。
評価された音楽サンプルと聴覚損失パターンを入力として、予測されたHAAQIスコアを生成する。
このモデルは、音響特徴抽出のために、BEAT(Audio Transformer)から事前訓練された双方向エンコーダ表現を採用する。
HAAQI-Netは、予測されたスコアと地上の真実と比較すると、経時一致相関(LCC)は0.9257、スピアマンのランク相関係数(SRCC)は0.9394、平均正方形誤差(MSE)は0.0080である。
ハイパフォーマンスは62.52秒(HAAQI)から2.71秒(HAAQI-Net)に短縮され、補聴器使用者の効率的な音楽品質評価モデルとして機能する。 This paper introduces HAAQI-Net, a non-intrusive deep learning model for music quality assessment tailored to hearing aid users. In contrast to traditional methods like the Hearing Aid Audio Quality Index (HAAQI), HAAQI-Net utilizes a Bidirectional Long Short-Term Memory (BLSTM) with attention. It takes an assessed music sample and a hearing loss pattern as input, generating a predicted HAAQI score. The model employs the pre-trained Bidirectional Encoder representation from Audio Transformers (BEATs) for acoustic feature extraction. Comparing predicted scores with ground truth, HAAQI-Net achieves a Longitudinal Concordance Correlation (LCC) of 0.9257, Spearman's Rank Correlation Coefficient (SRCC) of 0.9394, and Mean Squared Error (MSE) of 0.0080. Notably, this high performance comes with a substantial reduction in inference time: from 62.52 seconds (by HAAQI) to 2.71 seconds (by HAAQI-Net), serving as an efficient music quality assessment model for hearing aid users. | 翻訳日:2024-01-03 14:10:29 公開日:2024-01-02 |
# Spiker+:エッジでの推論のための効率的なスパイキングニューラルネットワークFPGAアクセラレータ生成のためのフレームワーク Spiker+: a framework for the generation of efficient Spiking Neural Networks FPGA accelerators for inference at the edge ( http://arxiv.org/abs/2401.01141v1 ) ライセンス: Link先を確認 | Alessio Carpegna, Alessandro Savino, Stefano Di Carlo | (参考訳) エッジの組み込みシステムにニューラルネットワークを含めると、アプリケーションはネットワーク周辺で動作しているデバイス内で直接人工知能機能を活用できる。
本稿では,FPGA上で高効率,低消費電力,低領域にカスタマイズされたスパイキングニューラルネットワーク(SNN)アクセラレータを生成するための包括的なフレームワークであるスパイカー+を紹介する。
Spiker+は、構成可能な多層ハードウェアSNN、高効率なニューロンアーキテクチャのライブラリ、設計フレームワークを提供し、Pythonコードの数行で複雑なニューラルネットワークアクセラレータの開発を可能にする。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
MNISTでは、最先端のSNNアクセラレータと比較して、競争性能を示している。
7,612個の論理セルと18個のブロックram(bram)が要求され、非常に小さなfpgaや消費電力に適合し、入力画像の完全な推論には180mwしか消費しない。
レイテンシは、最先端で見られる780us/imgに匹敵する。
著者の知る限り、Spikeer+はSHDでテストされた最初のSNNアクセラレータである。
この場合、アクセルは18,268個の論理セルと51個のブラムを必要とし、全体の消費電力は430mwで、入力データに対する完全な推論のためにレイテンシは54usである。
これにより、ハードウェアアクセラレーションされたSNNランドスケープにおけるSpikeer+の重要性が強調され、リソースおよび電力制約のあるエッジアプリケーションに設定可能でチューニング可能なSNNアーキテクチャをデプロイするための優れたソリューションとなる。 Including Artificial Neural Networks in embedded systems at the edge allows applications to exploit Artificial Intelligence capabilities directly within devices operating at the network periphery. This paper introduces Spiker+, a comprehensive framework for generating efficient, low-power, and low-area customized Spiking Neural Networks (SNN) accelerators on FPGA for inference at the edge. Spiker+ presents a configurable multi-layer hardware SNN, a library of highly efficient neuron architectures, and a design framework, enabling the development of complex neural network accelerators with few lines of Python code. Spiker+ is tested on two benchmark datasets, the MNIST and the Spiking Heidelberg Digits (SHD). On the MNIST, it demonstrates competitive performance compared to state-of-the-art SNN accelerators. It outperforms them in terms of resource allocation, with a requirement of 7,612 logic cells and 18 Block RAMs (BRAMs), which makes it fit in very small FPGA, and power consumption, draining only 180mW for a complete inference on an input image. The latency is comparable to the ones observed in the state-of-the-art, with 780us/img. To the authors' knowledge, Spiker+ is the first SNN accelerator tested on the SHD. In this case, the accelerator requires 18,268 logic cells and 51 BRAM, with an overall power consumption of 430mW and a latency of 54 us for a complete inference on input data. This underscores the significance of Spiker+ in the hardware-accelerated SNN landscape, making it an excellent solution to deploy configurable and tunable SNN architectures in resource and power-constrained edge applications. | 翻訳日:2024-01-03 14:10:06 公開日:2024-01-02 |
# 振動強い結合による水素移動反応のレーザー制御ランドスケープ形成
直接最適制御手法 Shaping the Laser Control Landscape of a Hydrogen Transfer Reaction by Vibrational Strong Coupling. A Direct Optimal Control Approach ( http://arxiv.org/abs/2401.01138v1 ) ライセンス: Link先を確認 | A. R. Ramos Ramos, E. W. Fischer, P. Saalfrank, O. K\"uhn | (参考訳) 形状のレーザーパルスによる分子反応性の制御は、化学における長年の目標である。
本稿では,外部パルス最適化とビブロ・ポーラリトニック化学の分野に存在する他の制御パラメータを結合した直接最適制御アプローチを提案する。制御可能性を高めるため,直接最適制御アプローチは同時シミュレーションと最適化パラダイムによって特徴付けられる。
間接最適制御と比較して、この手順はファイナルタイムやハミルトニアンパラメータ最適化のような大きな柔軟性を提供する。
振動強い結合条件下でのFabry-P'erot空洞におけるH原子移動を記述するモデル系に、同時直接最適制御(SimDOC)理論を適用する。
具体的には, キャビティ結合強度の最適化と制御景観の最適化について述べる。 Controlling molecular reactivity by shaped laser pulses is a long-standing goal in chemistry. Here we suggest a direct optimal control approach which combines external pulse optimization with other control parameters arising in the upcoming field of vibro-polaritonic chemistry, for enhanced controllability The direct optimal control approach is characterized by a simultaneous simulation and optimization paradigm, meaning that the equations of motion are discretized and converted into a set of holonomic constraints for a nonlinear optimization problem given by the control functional. Compared with indirect optimal control this procedure offers great flexibility such as final time or Hamiltonian parameter optimization. Simultaneous direct optimal control (SimDOC) theory will be applied to a model system describing H-atom transfer in a lossy Fabry-P\'erot cavity under vibrational strong coupling conditions. Specifically, optimization of the cavity coupling strength and thus of the control landscape will be demonstrated. | 翻訳日:2024-01-03 14:09:38 公開日:2024-01-02 |
# ハイブリッドプールと畳み込みネットワークによる物体検出の精度向上と収束速度の訓練 Hybrid Pooling and Convolutional Network for Improving Accuracy and Training Convergence Speed in Object Detection ( http://arxiv.org/abs/2401.01134v1 ) ライセンス: Link先を確認 | Shiwen Zhao, Wei Wang, Junhui Hou, Hai Wu | (参考訳) 本稿では,高速かつ高精度なオブジェクト検出ネットワークであるHPC-Netを紹介する。 This paper introduces HPC-Net, a high-precision and rapidly convergent object detection network. | 翻訳日:2024-01-03 14:09:25 公開日:2024-01-02 |
# 拡散モデルによるシーングラフと画像の連成生成モデル Joint Generative Modeling of Scene Graphs and Images via Diffusion Models ( http://arxiv.org/abs/2401.01130v1 ) ライセンス: Link先を確認 | Bicheng Xu, Qi Yan, Renjie Liao, Lele Wang, Leonid Sigal | (参考訳) 本稿では,新しい生成課題であるジョイントシーングラフ - 画像生成について述べる。
これまでの研究では,シーングラフやレイアウトに条件付けされた画像生成について検討してきたが,ノイズからシーングラフ自体を無条件に生成し,効率よく解釈可能な画像生成制御を可能にするため,その課題は独特かつ重要である。
我々の課題は、連続的なオブジェクト境界ボックスや離散オブジェクトと関係カテゴリを含む、ノード(オブジェクト)とエッジ(オブジェクト間の関係)の不均一な属性を持つ可塑性シーングラフの生成を必要とする。
本研究では,隣接行列と異種ノードとエッジ属性を共同でモデル化する新しい拡散モデルであるdividencesgを提案する。
分類データの様々な種類のエンコーディングを探索し、それを連続した空間に緩和する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
さらに,実験性能を高めるためにIoU正規化を導入する。
本モデルは,視覚ゲノムとcoco-stuffデータセットを用いたシーングラフ生成における既存の手法を,問題複雑性をよりよく捉えるための標準指標と新たに導入された指標の両方で大幅に上回っている。
さらに、下流の2つのアプリケーションで、我々のモデルのさらなる利点を示す。
1)一連のシーングラフ補完タスクにおいて優れていること、及び
2)DiffuseSGから生成された余分なトレーニングサンプルを用いてシーングラフ検出モデルを改善する。 In this paper, we present a novel generative task: joint scene graph - image generation. While previous works have explored image generation conditioned on scene graphs or layouts, our task is distinctive and important as it involves generating scene graphs themselves unconditionally from noise, enabling efficient and interpretable control for image generation. Our task is challenging, requiring the generation of plausible scene graphs with heterogeneous attributes for nodes (objects) and edges (relations among objects), including continuous object bounding boxes and discrete object and relation categories. We introduce a novel diffusion model, DiffuseSG, that jointly models the adjacency matrix along with heterogeneous node and edge attributes. We explore various types of encodings for the categorical data, relaxing it into a continuous space. With a graph transformer being the denoiser, DiffuseSG successively denoises the scene graph representation in a continuous space and discretizes the final representation to generate the clean scene graph. Additionally, we introduce an IoU regularization to enhance the empirical performance. Our model significantly outperforms existing methods in scene graph generation on the Visual Genome and COCO-Stuff datasets, both on standard and newly introduced metrics that better capture the problem complexity. Moreover, we demonstrate the additional benefits of our model in two downstream applications: 1) excelling in a series of scene graph completion tasks, and 2) improving scene graph detection models by using extra training samples generated from DiffuseSG. | 翻訳日:2024-01-03 14:09:22 公開日:2024-01-02 |
# SSP:LVM上でのリアルな画像合成に向けたシンプルで安全な自動プロンプトエンジニアリング手法 SSP: A Simple and Safe automatic Prompt engineering method towards realistic image synthesis on LVM ( http://arxiv.org/abs/2401.01128v1 ) ライセンス: Link先を確認 | Weijin Cheng, Jianzhi Liu, Jiawen Deng, Fuji Ren | (参考訳) 近年,テキスト・トゥ・イメージ(T2I)合成は,特にLLM(Large Language Models)の出現とLVM(Large Vision Models)の強化によって大きな進歩を遂げ,従来のT2Iモデルの命令追従能力を大幅に向上させた。
それにもかかわらず、以前の方法は世代品質の向上に重点を置いているが、プロンプトに安全でない要素を導入する。
プロンプトに特定のカメラ記述を追加することで安全性の向上が期待できる。
その結果、最適なカメラ記述を提供することで、画像生成品質を向上させるためのシンプルで安全なプロンプトエンジニアリング手法(SSP)を提案する。
具体的には、マルチデータセットからオリジナルプロンプトとしてデータセットを作成します。
最適なカメラを選択するために、最適なカメラマッチングアプローチを設計し、自動マッチングが可能なオリジナルプロンプトの分類器を実装する。
オリジナルのプロンプトにカメラ記述を適用すると、さらなるLVM画像生成のために最適化されたプロンプトを生成する。
実験によれば、sspは意味的一貫性を平均16%改善し、安全基準は48.9%向上している。 Recently, text-to-image (T2I) synthesis has undergone significant advancements, particularly with the emergence of Large Language Models (LLM) and their enhancement in Large Vision Models (LVM), greatly enhancing the instruction-following capabilities of traditional T2I models. Nevertheless, previous methods focus on improving generation quality but introduce unsafe factors into prompts. We explore that appending specific camera descriptions to prompts can enhance safety performance. Consequently, we propose a simple and safe prompt engineering method (SSP) to improve image generation quality by providing optimal camera descriptions. Specifically, we create a dataset from multi-datasets as original prompts. To select the optimal camera, we design an optimal camera matching approach and implement a classifier for original prompts capable of automatically matching. Appending camera descriptions to original prompts generates optimized prompts for further LVM image generation. Experiments demonstrate that SSP improves semantic consistency by an average of 16% compared to others and safety metrics by 48.9%. | 翻訳日:2024-01-03 14:08:57 公開日:2024-01-02 |
# jma: ほぼ最適な対向的例を作るための一般的なアルゴリズム JMA: a General Algorithm to Craft Nearly Optimal Targeted Adversarial Example ( http://arxiv.org/abs/2401.01199v1 ) ライセンス: Link先を確認 | Benedetta Tondi, Wei Guo, Mauro Barni | (参考訳) 現在提案されているDeep Learning分類器に対するターゲット対向的な例を作成するアプローチの多くは、非常に最適であり、典型的にはターゲットクラスの可能性を高めることに依存しており、暗黙的にワンホット符号化設定に焦点を当てている。
本稿では,入力サンプルの潜在空間表現を所定の方向に移動させるために必要な労力(入力空間内)を考慮して,ジャコビアンによるマハラノビス距離(jma)項の最小化を前提とした,より一般的な,理論的に健全な標的攻撃を提案する。
最小化はウルフ双対性定理を利用して解決され、非負極正方形問題(NNLS)の解に還元される。
提案アルゴリズムは、もともとSzegedyらによって導入された逆例問題の線形化版に対する最適解を提供する。
に登場。
本実験は,多種多様な出力符号化方式において有効であることが証明された攻撃の汎用性を確認するものである。
注目すべきなのは、jma攻撃はマルチラベル分類シナリオでも有効であり、20のラベルを持つ複雑なマルチラベル分類シナリオにおいて、最大半分のラベルをターゲットとする修正を誘導することができる。
さらなる利点として、JMA攻撃は通常、非常に少数のイテレーションを必要とするため、既存のメソッドよりも効率が良い。 Most of the approaches proposed so far to craft targeted adversarial examples against Deep Learning classifiers are highly suboptimal and typically rely on increasing the likelihood of the target class, thus implicitly focusing on one-hot encoding settings. In this paper, we propose a more general, theoretically sound, targeted attack that resorts to the minimization of a Jacobian-induced MAhalanobis distance (JMA) term, taking into account the effort (in the input space) required to move the latent space representation of the input sample in a given direction. The minimization is solved by exploiting the Wolfe duality theorem, reducing the problem to the solution of a Non-Negative Least Square (NNLS) problem. The proposed algorithm provides an optimal solution to a linearized version of the adversarial example problem originally introduced by Szegedy et al. \cite{szegedy2013intriguing}. The experiments we carried out confirm the generality of the proposed attack which is proven to be effective under a wide variety of output encoding schemes. Noticeably, the JMA attack is also effective in a multi-label classification scenario, being capable to induce a targeted modification of up to half the labels in a complex multilabel classification scenario with 20 labels, a capability that is out of reach of all the attacks proposed so far. As a further advantage, the JMA attack usually requires very few iterations, thus resulting more efficient than existing methods. | 翻訳日:2024-01-03 14:02:42 公開日:2024-01-02 |
# 誤情報検出における不確かさ Uncertainty Resolution in Misinformation Detection ( http://arxiv.org/abs/2401.01197v1 ) ライセンス: Link先を確認 | Yury Orlovskiy, Camille Thibault, Anne Imouza, Jean-Fran\c{c}ois Godbout, Reihaneh Rabbany, Kellin Pelrine | (参考訳) 誤報は、公的な信頼を損なうこと、事実を歪めることなど、様々なリスクを引き起こす。
GPT-4のような大規模言語モデル(LLM)は、誤情報を軽減し、特に十分なコンテキストを提供する文を扱うのに有効である。
しかし、曖昧さや文脈に欠ける文を正確に評価することは困難である。
本研究は,このような文の不確実性を解決する新しい手法を提案する。
本稿では、欠落情報を分類し、欠落情報を持つクロスドメインコンテンツに適用可能なLIAR-Newデータセットのカテゴリラベルを公開するフレームワークを提案する。
次に、このフレームワークを利用して、欠落したコンテキストに対して効果的なユーザクエリを生成します。
ベースラインと比較すると,生成した質問に対する回答率を38パーセンテージ,分類性能を10パーセンテージマクロf1以上向上させる。
したがって、このアプローチは、将来の誤情報軽減パイプラインに価値のあるコンポーネントを提供するかもしれない。 Misinformation poses a variety of risks, such as undermining public trust and distorting factual discourse. Large Language Models (LLMs) like GPT-4 have been shown effective in mitigating misinformation, particularly in handling statements where enough context is provided. However, they struggle to assess ambiguous or context-deficient statements accurately. This work introduces a new method to resolve uncertainty in such statements. We propose a framework to categorize missing information and publish category labels for the LIAR-New dataset, which is adaptable to cross-domain content with missing information. We then leverage this framework to generate effective user queries for missing context. Compared to baselines, our method improves the rate at which generated questions are answerable by the user by 38 percentage points and classification performance by over 10 percentage points macro F1. Thus, this approach may provide a valuable component for future misinformation mitigation pipelines. | 翻訳日:2024-01-03 14:02:17 公開日:2024-01-02 |
# Deep-ELA: 単目的・多目的連続最適化問題に対する自己監督型事前学習変圧器を用いた深部探査景観解析 Deep-ELA: Deep Exploratory Landscape Analysis with Self-Supervised Pretrained Transformers for Single- and Multi-Objective Continuous Optimization Problems ( http://arxiv.org/abs/2401.01192v1 ) ライセンス: Link先を確認 | Moritz Vinzent Seiler and Pascal Kerschke and Heike Trautmann | (参考訳) 近年の多くの研究で,特に単目的連続最適化問題において,探索景観解析(ELA)が数値的に特徴付ける可能性が示されている。
これらの数値機能は、高レベルな特性予測からアルゴリズムの自動選択、アルゴリズムの自動設定まで、連続最適化問題におけるあらゆる種類の機械学習タスクの入力を提供する。
ela機能がないと、単一目的の継続的最適化問題の特徴の分析と理解は不可能でしょう。
しかし、ELAの機能にはいくつかの欠点がある。
これには、(1.)複数の特徴の間の強い相関関係、(2.)多目的連続最適化問題への非常に限定的な適用性が含まれる。
修正として、最近の研究はelaの代替としてディープラーニングベースのアプローチを提案している。
これらの研究において、例えば、点雲変換器は最適化問題のフィットネスランドスケープを特徴づけるために用いられた。
しかし、これらのアプローチには大量のラベル付きトレーニングデータが必要である。
本研究では,ディープラーニングとERAの機能を組み合わせたハイブリッドアプローチであるDeep-ELAを提案する。
具体的には、無作為な最適化問題に対して、4つのトランスフォーマーを事前訓練し、連続的な単目的および多目的最適化問題のランドスケープの深い表現を学習した。
提案手法は, 単目的および多目的の連続最適化問題の解析に利用できるか, アルゴリズムの振る舞いや問題理解に焦点を絞った様々なタスクに微調整することができる。 In many recent works, the potential of Exploratory Landscape Analysis (ELA) features to numerically characterize, in particular, single-objective continuous optimization problems has been demonstrated. These numerical features provide the input for all kinds of machine learning tasks on continuous optimization problems, ranging, i.a., from High-level Property Prediction to Automated Algorithm Selection and Automated Algorithm Configuration. Without ELA features, analyzing and understanding the characteristics of single-objective continuous optimization problems would be impossible. Yet, despite their undisputed usefulness, ELA features suffer from several drawbacks. These include, in particular, (1.) a strong correlation between multiple features, as well as (2.) its very limited applicability to multi-objective continuous optimization problems. As a remedy, recent works proposed deep learning-based approaches as alternatives to ELA. In these works, e.g., point-cloud transformers were used to characterize an optimization problem's fitness landscape. However, these approaches require a large amount of labeled training data. Within this work, we propose a hybrid approach, Deep-ELA, which combines (the benefits of) deep learning and ELA features. Specifically, we pre-trained four transformers on millions of randomly generated optimization problems to learn deep representations of the landscapes of continuous single- and multi-objective optimization problems. Our proposed framework can either be used out-of-the-box for analyzing single- and multi-objective continuous optimization problems, or subsequently fine-tuned to various tasks focussing on algorithm behavior and problem understanding. | 翻訳日:2024-01-03 14:02:06 公開日:2024-01-02 |
# NID-SLAM: 動的環境におけるニューラルインシシシト表現に基づくRGB-D SLAM NID-SLAM: Neural Implicit Representation-based RGB-D SLAM in dynamic environments ( http://arxiv.org/abs/2401.01189v1 ) ライセンス: Link先を確認 | Ziheng Xu, Jianwei Niu, Qingfeng Li, Tao Ren, Chen Chen | (参考訳) ニューラル暗黙表現は、特に高忠実度高密度マップの提供において、視覚SLAMアルゴリズムを強化するために研究されている。
既存の手法は静的な場面では頑健に動作するが、移動物体による破壊に苦慮する。
本稿では,動的環境におけるニューラルSLAMの性能を大幅に向上させるNID-SLAMを提案する。
本稿では,セマンティクスマスク,特に境界領域における不正確な領域を強化する新しい手法を提案する。
深度画像に存在する幾何情報を利用することで、動的物体の正確な除去を可能にし、カメラドリフトの確率を低減する。
さらに,ダイナミックシーンのキーフレーム選択戦略を導入し,大規模オブジェクトに対するカメラトラッキングの堅牢性を高め,マッピングの効率を向上する。
公開されているRGB-Dデータセットの実験により、我々の手法は動的環境における精度とマッピング品質の追跡において、競合するニューラルSLAMアプローチより優れていることが示された。 Neural implicit representations have been explored to enhance visual SLAM algorithms, especially in providing high-fidelity dense map. Existing methods operate robustly in static scenes but struggle with the disruption caused by moving objects. In this paper we present NID-SLAM, which significantly improves the performance of neural SLAM in dynamic environments. We propose a new approach to enhance inaccurate regions in semantic masks, particularly in marginal areas. Utilizing the geometric information present in depth images, this method enables accurate removal of dynamic objects, thereby reducing the probability of camera drift. Additionally, we introduce a keyframe selection strategy for dynamic scenes, which enhances camera tracking robustness against large-scale objects and improves the efficiency of mapping. Experiments on publicly available RGB-D datasets demonstrate that our method outperforms competitive neural SLAM approaches in tracking accuracy and mapping quality in dynamic environments. | 翻訳日:2024-01-03 14:01:40 公開日:2024-01-02 |
# 真空とのコヒーレンス存在下でのフォトニック量子干渉 Photonic quantum interference in the presence of coherence with vacuum ( http://arxiv.org/abs/2401.01187v1 ) ライセンス: Link先を確認 | I. Maillette de Buy Wenniger, S. C. Wein, D. Fioretto, S. E. Thomas, C. Ant\'on-Solanas, A. Lema\^itre, I. Sagnes, A. Harouri, N. Belabas, N. Somaschi, P. Hilaire, J. Senellart, P. Senellart | (参考訳) 原子や量子ドットのような量子エミッターは、量子技術にとって区別がつかない単一光子の優れた源である。
しかし、コヒーレント励起を行うと、放出されたフォトニック状態は1光子成分と重ね合わせで真空成分を含むことができる。
本稿では, 真空を伴うコヒーレンスの存在が, 量子フォトニック技術の中心となるHong-Ou-Mandel(HOM)干渉から始まる光量子情報処理にどのように影響するかを検討する。
まず, 真空とのコヒーレンスが存在する場合, 従来見過ごされ, いくつかの結果に影響を及ぼす光子不明瞭性の測定において, 系統的な誤差が生じることを示した。
適切な正規化法を用いて、どのように修正できるかを示す。
HOM干渉の完全な解析は、真空とのコヒーレンスの存在下で光子間の経路絡み合いをもたらすコヒーレント現象も明らかにする。
この種の現象は、複数の干渉波束が部分的にしか測定されないときに現れ、これは量子ゲートの実装の鍵となるシナリオである。
情報処理への影響をシミュレートするため, 密閉型制御NOTゲートを模擬し, 真空とのコヒーレンスの存在が光子損失よりも忠実性を向上させることを示す。
我々の研究は、光子の欠如は単純な損失機構では説明できないことを示し、真空とのコヒーレンスを光子に基づく量子情報処理における誤差過程を適切に説明するために考慮する必要がある。 Quantum emitters such as atoms or quantum dots are excellent sources of indistinguishable single photons for quantum technologies. However, upon coherent excitation, the emitted photonic state can include a vacuum component in a superposition with the one-photon component. Here, we study how the presence of such coherence with vacuum impacts photonic quantum information processing, starting with Hong-Ou-Mandel (HOM) interference that is central to quantum photonic technology. We first demonstrate that when coherence with vacuum is present, it causes a systematic error in the measurement of photon indistinguishability, an effect that has previously been overlooked and impacts some results in the literature. Using a proper normalisation method we show how this can be corrected. Our complete analysis of HOM interference also reveals a coherent phenomenon that results in path entanglement between photons in presence of coherence with vacuum. This type of phenomenon appears when multiple interfering wavepackets are only partially measured, a scenario that is key for heralded quantum gates implementation. To illustrate its impact on information processing, we simulate a heralded controlled-NOT gate and show that the presence of coherence with vacuum can actually improve the fidelity compared to incoherent photon losses. Our work reveals that the lack of a photon cannot always be accounted for by a simple loss mechanism, and that coherence with vacuum must be considered to properly explain error processes in photon-based quantum information processing. | 翻訳日:2024-01-03 14:01:22 公開日:2024-01-02 |
# データからテキストへの事前学習のための構造化データのグラフ化 Unifying Structured Data as Graph for Data-to-Text Pre-Training ( http://arxiv.org/abs/2401.01183v1 ) ライセンス: Link先を確認 | Shujie Li, Liang Li, Ruiying Geng, Min Yang, Binhua Li, Guanghu Yuan, Wanwei He, Shao Yuan, Can Ma, Fei Huang, and Yongbin Li | (参考訳) data-to-text (d2t) 生成は構造化データを自然言語テキストに変換することを目的としている。
データからテキストへの事前学習は、D2T生成の強化に強力であることが証明され、優れた性能が得られる。
しかし、以前の事前学習手法では、入力構造を考慮せずに構造化データをシーケンスに過度に単純化したり、特定のデータ構造(表や知識グラフなど)に適した訓練目標を設計したりしていた。
本稿では,異なる種類の構造化データ(表,キー値データ,知識グラフ)をグラフ形式に統合し,異なるデータ対テキスト生成タスクをグラフ対テキスト生成としてキャストする。
入力グラフの構造情報を効果的に活用するために,構造強化変換器を設計し,D2T生成のための構造強化事前学習手法を提案する。
具体的には、入力グラフ内の連結ノードの位置情報を相対的に符号化するトランスフォーマーの位置行列を考案する。
さらに,利用可能な明示的な接続構造を考慮に入れて,グラフ構造を元のトランスに組み込む新しい注意行列を提案する。
6つのベンチマークデータセットに関する広範囲な実験により,モデルの有効性が示された。
ソースコードはhttps://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/unid2tで公開しています。 Data-to-text (D2T) generation aims to transform structured data into natural language text. Data-to-text pre-training has proved to be powerful in enhancing D2T generation and yields impressive performances. However, previous pre-training methods either oversimplified structured data into a sequence without considering input structures or designed training objectives tailored for a specific data structure (e.g., table or knowledge graph). In this paper, we unify different types of structured data (i.e., table, key-value data, knowledge graph) into the graph format and cast different data-to-text generation tasks as graph-to-text generation. To effectively exploit the structural information of the input graph, we propose a structure-enhanced pre-training method for D2T generation by designing a structure-enhanced Transformer. Concretely, we devise a position matrix for the Transformer, encoding relative positional information of connected nodes in the input graph. In addition, we propose a new attention matrix to incorporate graph structures into the original Transformer by taking the available explicit connectivity structure into account. Extensive experiments on six benchmark datasets show the effectiveness of our model. Our source codes are available at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/unid2t. | 翻訳日:2024-01-03 14:00:56 公開日:2024-01-02 |
# オープン語彙多ラベル分類のための問合せに基づく知識共有 Query-Based Knowledge Sharing for Open-Vocabulary Multi-Label Classification ( http://arxiv.org/abs/2401.01181v1 ) ライセンス: Link先を確認 | Xuelin Zhu, Jian Liu, Dongqi Tang, Jiawei Ge, Weijia Liu, Bo Liu, Jiuxin Cao | (参考訳) マルチラベルゼロショット学習(multi-label zero-shot learning)として知られるトレーニング中に現れなかったラベルを特定することは、コンピュータビジョンにおける非自明なタスクである。
この目的のために、近年の研究では、知識蒸留による視覚言語事前学習(VLP)モデルのマルチモーダル知識を探求し、未確認ラベルをオープン語彙的に認識する試みが行われている。
しかしながら、実験的な証拠は知識蒸留が最適ではないことを示し、見当たらないラベル予測における性能向上が制限されている。
本稿では,オープン語彙多ラベル分類のための事前学習VLPモデルからマルチモーダル知識を探索するために,クエリに基づく新しい知識共有パラダイムを提案する。
具体的には、学習可能なラベルに依存しないクエリトークンのセットをトレーニングして、入力画像から重要な視覚知識を抽出し、さらにすべてのラベルで共有することで、認識のための視覚的な手がかりとして興味のあるトークンを選択することができる。
さらに,ロバストなラベル埋め込みのための効果的なプロンプトプールを提案し,標準ランキング学習を分類形式に再構成し,マッチングのための特徴ベクトルの大きさを許容する。
実験の結果,NUS-WIDE と Open Images では,ゼロショットタスクの最先端手法を5.9%,mAP の4.5%で有意に上回った。 Identifying labels that did not appear during training, known as multi-label zero-shot learning, is a non-trivial task in computer vision. To this end, recent studies have attempted to explore the multi-modal knowledge of vision-language pre-training (VLP) models by knowledge distillation, allowing to recognize unseen labels in an open-vocabulary manner. However, experimental evidence shows that knowledge distillation is suboptimal and provides limited performance gain in unseen label prediction. In this paper, a novel query-based knowledge sharing paradigm is proposed to explore the multi-modal knowledge from the pretrained VLP model for open-vocabulary multi-label classification. Specifically, a set of learnable label-agnostic query tokens is trained to extract critical vision knowledge from the input image, and further shared across all labels, allowing them to select tokens of interest as visual clues for recognition. Besides, we propose an effective prompt pool for robust label embedding, and reformulate the standard ranking learning into a form of classification to allow the magnitude of feature vectors for matching, which both significantly benefit label recognition. Experimental results show that our framework significantly outperforms state-of-the-art methods on zero-shot task by 5.9% and 4.5% in mAP on the NUS-WIDE and Open Images, respectively. | 翻訳日:2024-01-03 14:00:34 公開日:2024-01-02 |
# 携帯電話画像の深層学習による都市街路樹の精度と効率 Accurate and Efficient Urban Street Tree Inventory with Deep Learning on Mobile Phone Imagery ( http://arxiv.org/abs/2401.01180v1 ) ライセンス: Link先を確認 | Asim Khan, Umair Nawaz, Anwaar Ulhaq, Iqbal Gondal, Sajid Javed | (参考訳) 森林破壊は、気候変動の主要な要因であり、農業セクターの破壊、地球温暖化、フラッシュフラッド、地すべりなどの有害な結果をもたらす。
都市の街路樹在庫に対する従来のアプローチは、不正確さと専門化された設備を必要とする。
これらの課題を克服するために,都市の街路樹在庫に深層学習技術と携帯電話画像を活用する革新的な手法を提案する。
本手法では,スマートフォンのカメラで撮影された1対の画像を用いて,樹幹を正確に分割し,乳房高さ(dbh)の直径を計算する。
従来の手法と比較して, 精度の向上, 特殊機器依存の低減, 難解領域への適用性など, 様々な利点がある。
提案手法を400本の樹木の包括的データセット上で評価し,DBH推定精度を2.5%未満の誤差率で達成した。
本手法は森林管理の実践を大幅に改善する大きな可能性を秘めている。
樹木在庫の精度と効率を高めることにより,森林伐採や気候変動の悪影響を緩和する都市経営の強化を図る。 Deforestation, a major contributor to climate change, poses detrimental consequences such as agricultural sector disruption, global warming, flash floods, and landslides. Conventional approaches to urban street tree inventory suffer from inaccuracies and necessitate specialised equipment. To overcome these challenges, this paper proposes an innovative method that leverages deep learning techniques and mobile phone imaging for urban street tree inventory. Our approach utilises a pair of images captured by smartphone cameras to accurately segment tree trunks and compute the diameter at breast height (DBH). Compared to traditional methods, our approach exhibits several advantages, including superior accuracy, reduced dependency on specialised equipment, and applicability in hard-to-reach areas. We evaluated our method on a comprehensive dataset of 400 trees and achieved a DBH estimation accuracy with an error rate of less than 2.5%. Our method holds significant potential for substantially improving forest management practices. By enhancing the accuracy and efficiency of tree inventory, our model empowers urban management to mitigate the adverse effects of deforestation and climate change. | 翻訳日:2024-01-03 14:00:07 公開日:2024-01-02 |
# 背骨凍結:ロバストな医用視力訓練のためのパラメータ効率の良いコントラストアプローチ Freeze the backbones: A Parameter-Efficient Contrastive Approach to Robust Medical Vision-Language Pre-training ( http://arxiv.org/abs/2401.01179v1 ) ライセンス: Link先を確認 | Jiuming Qin, Che Liu, Sibo Cheng, Yike Guo, Rossella Arcucci | (参考訳) 現代の医療は、診断のためのテキストレポートと共に放射線画像を利用することが多く、多彩な医用視覚表現を学ぶために、大きな訓練済みモデルでビジョンランゲージ自己監督学習(VL-SSL)を使用することを奨励している。
しかし、既存のVL-SSLフレームワークのほとんどはエンドツーエンドで訓練されており、計算量が多く、事前訓練されたエンコーダに埋め込まれた重要な事前情報を失う可能性がある。
どちらの問題にも対処すべく,プリトレーニング画像とテキストエンコーダの医療知識を凍結して保存するbackbone-dependent adaptor frameworkを導入し,クロスモーダル学習に軽量なadaptorモジュールを採用している。
3つのデータセットにわたる医用画像分類とセグメンテーションタスクの実験により、現在のプレトレーニングアプローチと比較して、トレーニング可能なパラメータを90%以上削減しながら、競争力の高いパフォーマンスを実現することが判明した。
特に、わずか1%のデータで微調整された場合、Adaptorは、医療画像セグメンテーションの完全なデータセットでトレーニングされたTransformerベースのメソッドよりも優れている。 Modern healthcare often utilises radiographic images alongside textual reports for diagnostics, encouraging the use of Vision-Language Self-Supervised Learning (VL-SSL) with large pre-trained models to learn versatile medical vision representations. However, most existing VL-SSL frameworks are trained end-to-end, which is computation-heavy and can lose vital prior information embedded in pre-trained encoders. To address both issues, we introduce the backbone-agnostic Adaptor framework, which preserves medical knowledge in pre-trained image and text encoders by keeping them frozen, and employs a lightweight Adaptor module for cross-modal learning. Experiments on medical image classification and segmentation tasks across three datasets reveal that our framework delivers competitive performance while cutting trainable parameters by over 90% compared to current pre-training approaches. Notably, when fine-tuned with just 1% of data, Adaptor outperforms several Transformer-based methods trained on full datasets in medical image segmentation. | 翻訳日:2024-01-03 13:59:50 公開日:2024-01-02 |
# gbss:大規模リモートセンシングビル抽出のためのグローバルビル意味セグメンテーションデータセット GBSS:a global building semantic segmentation dataset for large-scale remote sensing building extraction ( http://arxiv.org/abs/2401.01178v1 ) ライセンス: Link先を確認 | Yuping Hu, Xin Huang, Jiayi Li, Zhen Zhang | (参考訳) 高分解能リモートセンシング画像から建物足跡を抽出するセマンティックセグメンテーション技術は,都市計画など多くの分野で広く利用されている。
しかし,大規模建築物の抽出にはトレーニングサンプルの多様性が要求される。
本稿では,グローバルビルディングセマンティックセマンティックセマンティックセマンティクス(GBSS)データセットを構築し,そのデータセットを6大陸から116.9kのサンプル(約742kの建物)から作成する。
サイズとスタイルの点で、ビルドサンプルには大きなバリエーションがあるため、セマンティックセグメンテーションモデルの構築の一般化と堅牢性を評価する上で、データセットはより難しいベンチマークになり得る。
我々は,異なるデータセット間の定量的および定性的な比較を通じて検証を行い,サブセットの実験を行い,伝達学習分野への応用の可能性を確認した。 Semantic segmentation techniques for extracting building footprints from high-resolution remote sensing images have been widely used in many fields such as urban planning. However, large-scale building extraction demands higher diversity in training samples. In this paper, we construct a Global Building Semantic Segmentation (GBSS) dataset (The dataset will be released), which comprises 116.9k pairs of samples (about 742k buildings) from six continents. There are significant variations of building samples in terms of size and style, so the dataset can be a more challenging benchmark for evaluating the generalization and robustness of building semantic segmentation models. We validated through quantitative and qualitative comparisons between different datasets, and further confirmed the potential application in the field of transfer learning by conducting experiments on subsets. | 翻訳日:2024-01-03 13:59:30 公開日:2024-01-02 |
# 意味コミュニケーションの基本的限界:速度歪みのニューラル推定 Fundamental Limitation of Semantic Communications: Neural Estimation for Rate-Distortion ( http://arxiv.org/abs/2401.01176v1 ) ライセンス: Link先を確認 | Dongxu Li, Jianhao Huang, Chuan Huang, Xiaoqi Qin, Han Zhang, and Ping Zhang | (参考訳) 本稿では,離散メモリレスチャネル上でのセマンティック通信の基本的な限界について検討する。
我々は,観測状態とそれに対応する意味状態からなる意味的ソースを受信機で送信するシナリオについて検討する。
性能限界を導出するために,最小圧縮率,観測歪み,意味歪み,チャネル容量の関係を検討するために,意味速度歪み関数(SRDF)を用いる。
セマンティクスソース分布の未知の場合、ソースサンプルのセットのみが利用可能である一方、生成ネットワークを利用してセマンティクスソース分布を学習することにより、ニューラルネットワークベースの手法を提案する。
さらに,sdfを推定するために,セマンティクス状態が観測の決定論的関数である特別な場合に対して,カスケードニューラルネットワークを設計する。
完全に知られたセマンティックソース分布の場合、SRDFを効果的に計算するための一般的なブラフト・アリモトアルゴリズムを提案する。
最後に,提案手法を理想的なガウス意味源と実用的なデータセットを用いて検証した。 This paper studies the fundamental limit of semantic communications over the discrete memoryless channel. We consider the scenario to send a semantic source consisting of an observation state and its corresponding semantic state, both of which are recovered at the receiver. To derive the performance limitation, we adopt the semantic rate-distortion function (SRDF) to study the relationship among the minimum compression rate, observation distortion, semantic distortion, and channel capacity. For the case with unknown semantic source distribution, while only a set of the source samples is available, we propose a neural-network-based method by leveraging the generative networks to learn the semantic source distribution. Furthermore, for a special case where the semantic state is a deterministic function of the observation, we design a cascade neural network to estimate the SRDF. For the case with perfectly known semantic source distribution, we propose a general Blahut-Arimoto algorithm to effectively compute the SRDF. Finally, experimental results validate our proposed algorithms for the scenarios with ideal Gaussian semantic source and some practical datasets. | 翻訳日:2024-01-03 13:59:14 公開日:2024-01-02 |
# 微分光追跡を用いたSAR画像からの表面散乱パラメータの学習 Learning Surface Scattering Parameters From SAR Images Using Differentiable Ray Tracing ( http://arxiv.org/abs/2401.01175v1 ) ライセンス: Link先を確認 | Jiangtao Wei, Yixiang Luomei, Xu Zhang, Feng Xu | (参考訳) 複雑なシーンにおける高解像度合成開口レーダ(SAR)画像のシミュレーションは、常に重要な研究課題を示している。
マイクロ波領域表面散乱モデルの開発とその可逆性は、SAR画像シミュレーションの信頼性を高め、ターゲットパラメータの再構成を容易にする上で重要な役割を果たす。
本稿では,コンピュータグラフィックスの分野からインスピレーションを得た表面マイクロ波レンダリングモデルを提案する。
モデルは、Kirchhoff近似(KA)と摂動法(SPM)に基づいて、コヒーレントな空間変化二方向散乱分布関数(CSVBSDF)によって解析的に表現される。
SARイメージングは、レイトレーシングと高速マッピング投影技術を組み合わせた相乗効果によって実現される。
さらに、CSVBSDF表面散乱パラメータ学習のために、SAR画像に基づく微分可能レイトレーシング(DRT)エンジンを構築した。
このSAR画像シミュレーションエンジンでは、微分可能な逆線トレーシングを用いることで、SAR画像からパラメータ勾配を迅速に推定することができる。
提案手法の有効性はシミュレーションと実SAR画像との比較により検証されている。
表面散乱パラメータの学習により,様々な観測条件下でのSAR画像シミュレーション性能の大幅な向上が示された。 Simulating high-resolution Synthetic Aperture Radar (SAR) images in complex scenes has consistently presented a significant research challenge. The development of a microwave-domain surface scattering model and its reversibility are poised to play a pivotal role in enhancing the authenticity of SAR image simulations and facilitating the reconstruction of target parameters. Drawing inspiration from the field of computer graphics, this paper proposes a surface microwave rendering model that comprehensively considers both Specular and Diffuse contributions. The model is analytically represented by the coherent spatially varying bidirectional scattering distribution function (CSVBSDF) based on the Kirchhoff approximation (KA) and the perturbation method (SPM). And SAR imaging is achieved through the synergistic combination of ray tracing and fast mapping projection techniques. Furthermore, a differentiable ray tracing (DRT) engine based on SAR images was constructed for CSVBSDF surface scattering parameter learning. Within this SAR image simulation engine, the use of differentiable reverse ray tracing enables the rapid estimation of parameter gradients from SAR images. The effectiveness of this approach has been validated through simulations and comparisons with real SAR images. By learning the surface scattering parameters, substantial enhancements in SAR image simulation performance under various observation conditions have been demonstrated. | 翻訳日:2024-01-03 13:58:57 公開日:2024-01-02 |
# En3D:2次元合成データから3D人間を抽出する拡張生成モデル En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data ( http://arxiv.org/abs/2401.01173v1 ) ライセンス: Link先を確認 | Yifang Men, Biwen Lei, Yuan Yao, Miaomiao Cui, Zhouhui Lian, Xuansong Xie | (参考訳) 我々は,高品質な3dアバターを彫刻するための改良された生成スキームen3dを提案する。
既存の3Dや2Dアセットを頼らずに、視覚的にリアルで、幾何学的に正確で、内容的に多彩な3Dを生成できるゼロショット3D生成スキームを開発することを目的としている。
この課題に対処するために,合成2次元データから拡張された3次元生成モデルを学ぶために,正確な物理モデリングを実装する細心の注意を要するワークフローを導入する。
推論において,現実的な外観と粗い3次元形状のギャップを埋めるために最適化モジュールを統合する。
具体的には、3Dジェネレータは、合成されたバランスのとれた、多様な、構造化された人間の画像から現実的な外観を持つ3D人間を正確にモデル化する3Dジェネレータと、複雑な人間の解剖学の多視点正規制約を用いて形状の質を高める幾何学彫刻装置と、明瞭なテクスチャマップを忠実で編集し、セマンティックなUVパーティショニングと異なるラスタライザを活用するテクスチャモジュールである。
実験結果から, 画像品質, 幾何精度, コンテンツ多様性の面で, 従来よりも有意に優れていたことが示唆された。
また,アニメーションや編集のためのアバターの適用性や,コンテンツスタイルの自由適応のためのアプローチのスケーラビリティについても紹介した。 We present En3D, an enhanced generative scheme for sculpting high-quality 3D human avatars. Unlike previous works that rely on scarce 3D datasets or limited 2D collections with imbalanced viewing angles and imprecise pose priors, our approach aims to develop a zero-shot 3D generative scheme capable of producing visually realistic, geometrically accurate and content-wise diverse 3D humans without relying on pre-existing 3D or 2D assets. To address this challenge, we introduce a meticulously crafted workflow that implements accurate physical modeling to learn the enhanced 3D generative model from synthetic 2D data. During inference, we integrate optimization modules to bridge the gap between realistic appearances and coarse 3D shapes. Specifically, En3D comprises three modules: a 3D generator that accurately models generalizable 3D humans with realistic appearance from synthesized balanced, diverse, and structured human images; a geometry sculptor that enhances shape quality using multi-view normal constraints for intricate human anatomy; and a texturing module that disentangles explicit texture maps with fidelity and editability, leveraging semantical UV partitioning and a differentiable rasterizer. Experimental results show that our approach significantly outperforms prior works in terms of image quality, geometry accuracy and content diversity. We also showcase the applicability of our generated avatars for animation and editing, as well as the scalability of our approach for content-style free adaptation. | 翻訳日:2024-01-03 13:58:36 公開日:2024-01-02 |
# 軸受故障診断のための振動信号の2次時間周波数解析 Quadratic Time-Frequency Analysis of Vibration Signals for Diagnosing Bearing Faults ( http://arxiv.org/abs/2401.01172v1 ) ライセンス: Link先を確認 | Mohammad Al-Sa'd, Tuomas Jalonen, Serkan Kiranyaz, and Moncef Gabbouj | (参考訳) 軸受欠陥の診断は、メンテナンスコストと運用上の故障を減らすために最重要である。
ベアリング断層は機械振動の主要な要因であり、その信号形態の分析は彼らの健康状態に関する洞察を与える。
残念ながら、既存のアプローチは制御された環境に最適化されており、時変回転速度や振動の非定常特性といった現実的な条件を無視している。
本稿では,周波数解析と深層学習の融合により,時変速度と騒音レベルの変化を考慮した軸受障害の診断を行う。
まず,軸受故障による振動を定式化し,その非定常性と軸受の固有および動作パラメータの関係について考察する。
また,2次時間周波数分布の解明と,異なる軸受断層に付随する特異な動的パターンの解明の有効性を検証した。
転がり要素軸受の様々な欠陥を診断するための時間周波数畳み込みニューラルネットワーク(TF-CNN)を設計する。
TF-CNNが最近開発された技術と比較して優れた性能を示した。
彼らはまた、速度変化を伴い、ノイズに対する例外的な回復力を示し、様々な信号対雑音比とパフォーマンス指標で競合する手法を一貫して上回っている、障害関連非定常的特徴を捉えることの汎用性も主張している。
総じてtf-cnnは、厳しい騒音条件下で15%の精度向上を達成している。 Diagnosis of bearing faults is paramount to reducing maintenance costs and operational breakdowns. Bearing faults are primary contributors to machine vibrations, and analyzing their signal morphology offers insights into their health status. Unfortunately, existing approaches are optimized for controlled environments, neglecting realistic conditions such as time-varying rotational speeds and the vibration's non-stationary nature. This paper presents a fusion of time-frequency analysis and deep learning techniques to diagnose bearing faults under time-varying speeds and varying noise levels. First, we formulate the bearing fault-induced vibrations and discuss the link between their non-stationarity and the bearing's inherent and operational parameters. We also elucidate quadratic time-frequency distributions and validate their effectiveness in resolving distinctive dynamic patterns associated with different bearing faults. Based on this, we design a time-frequency convolutional neural network (TF-CNN) to diagnose various faults in rolling-element bearings. Our experimental findings undeniably demonstrate the superior performance of TF-CNN in comparison to recently developed techniques. They also assert its versatility in capturing fault-relevant non-stationary features that couple with speed changes and show its exceptional resilience to noise, consistently surpassing competing methods across various signal-to-noise ratios and performance metrics. Altogether, the TF-CNN achieves substantial accuracy improvements up to 15%, in severe noise conditions. | 翻訳日:2024-01-03 13:58:02 公開日:2024-01-02 |
# FedQV: フェデレートラーニングにおける二次投票の活用 FedQV: Leveraging Quadratic Voting in Federated Learning ( http://arxiv.org/abs/2401.01168v1 ) ライセンス: Link先を確認 | Tianyue Chu and Nikolaos Laoutaris | (参考訳) フェデレートラーニング(FL)は、それぞれのローカルラベルを開示することなく、異なるパーティが協力してグローバルモデルをトレーニングすることを可能にする。
flの重要なステップは、グローバルなモデルを生み出すために地域モデルを集約することであり、公共の意思決定や特に選挙と多くの類似点を共有している。
この文脈では、flの弱点、すなわち毒殺攻撃に対する脆弱性は、最も現代の集約ルールを基礎とする1人1票(henceforth 1p1v)の原則の結果と解釈できる。
本稿では,2次投票方式に基づく新しい集計アルゴリズムであるFedQVを提案する。
理論解析により,feedqvは真の評価に基づく入札が最先端手法と一致する収束率を達成する支配的戦略であるという真理的なメカニズムが確立される。
さらに,複数の実世界のデータセットを用いた実験分析により,fedqvの有毒攻撃に対する優れた性能が検証された。
また、評価スコアに従って、FedQVと不平等な投票「予算」を組み合わせることで、パフォーマンス上のメリットをさらに高めることを示す。
最後に,fedqvとビザンチン・ロブスト・プライバシ保護機構を組み合わせることで,中毒とプライバシ攻撃に対する堅牢性を高めることができることを示した。 Federated Learning (FL) permits different parties to collaboratively train a global model without disclosing their respective local labels. A crucial step of FL, that of aggregating local models to produce the global one, shares many similarities with public decision-making, and elections in particular. In that context, a major weakness of FL, namely its vulnerability to poisoning attacks, can be interpreted as a consequence of the one person one vote (henceforth 1p1v) principle underpinning most contemporary aggregation rules. In this paper, we propose FedQV, a novel aggregation algorithm built upon the quadratic voting scheme, recently proposed as a better alternative to 1p1v-based elections. Our theoretical analysis establishes that FedQV is a truthful mechanism in which bidding according to one's true valuation is a dominant strategy that achieves a convergence rate that matches those of state-of-the-art methods. Furthermore, our empirical analysis using multiple real-world datasets validates the superior performance of FedQV against poisoning attacks. It also shows that combining FedQV with unequal voting ``budgets'' according to a reputation score increases its performance benefits even further. Finally, we show that FedQV can be easily combined with Byzantine-robust privacy-preserving mechanisms to enhance its robustness against both poisoning and privacy attacks. | 翻訳日:2024-01-03 13:57:38 公開日:2024-01-02 |
# 計測不整合性の分類のための操作的アプローチ An operational approach to classifying measurement incompatibility ( http://arxiv.org/abs/2401.01236v1 ) ライセンス: Link先を確認 | Arun Kumar Das, Saheli Mukherjee, Debashis Saha, Debarshi Das, and A. S. Majumdar | (参考訳) 測定の不整合性は情報処理タスクにとって重要な資源であることが証明されている。
本研究では,測定セットの様々な非互換性を解析する。
測定結果の粗粒化と異なる測定値の凸混合の2つの基本的な古典的操作に関して,測定非互換性の操作的分類を提供する。
我々は, 粗粒混合や凸混合に関して, 射影計測の組が完全不整合であるかどうかを判定するための解析的基準を導出する。
ホワイトノイズに対するロバスト性は、完全な非互換性を維持することができる相互に偏りのないベースに対して検討される。
さらに,ベル型実験の入出力統計と準備・測定シナリオにおける実験を用いて,古典的操作に係わる不適合性の異なるレベルの操作証人を提案する。 Measurement incompatibility has proved to be an important resource for information-processing tasks. In this work, we analyze various levels of incompatibility of measurement sets. We provide operational classification of measurement incompatibility with respect to two elementary classical operations, viz., coarse-graining of measurement outcomes and convex mixing of different measurements. We derive analytical criteria for determining when a set of projective measurements is fully incompatible with respect to coarse-graining or convex mixing. Robustness against white noise is investigated for mutually unbiased bases that can sustain full incompatibility. Furthermore, we propose operational witnesses for different levels of incompatibility subject to classical operations, using the input-output statistics of Bell-type experiments as well as experiments in the prepare-and-measure scenario. | 翻訳日:2024-01-03 13:52:36 公開日:2024-01-02 |
# 波動-粒子双対情報の単元関係とトレードオフ関係 Monogamy and tradeoff relations for wave-particle duality information ( http://arxiv.org/abs/2401.01235v1 ) ライセンス: Link先を確認 | Shailja Kapoor, Sohail, Gautam Sharma and Arun K. Pati | (参考訳) 予測可能性と可視性の概念は波動粒子双対性の数学的定式化に不可欠である。
Jakob と Bergou の業績 (Phys. Rev. A 76, 052107] は、これらの概念を量子ビットに対して定義された高次元量子系に対して一般化し、予測可能性と可視性の間の相補関係を証明している。
量子システムの単一パーティ情報内容を予測可能性と可視性の付加として定義し、両パートシステムのコンカレンスの形での絡み合いが単一パーティ情報を相互に排除していると仮定することにより、コンカレンスと単一パーティ情報コンテンツとの相補性関係を提案した。
ヤコブとベルゴウによって定義される量子系の情報内容は、我々の考慮する量子系の状態と最大混合状態の間のヒルベルト・シュミット距離のみであることを示す。
トレース距離が情報理論の観点からのヒルベルト・シュミット距離と比較して良い距離尺度であるという事実に動機づけられた本研究では、量子システムの情報内容は、量子状態と最大混合状態の間のトレース距離として定義する。
次に、量子ピンスカーの不等式と逆ピンスカーの不等式を用いて、純状態の2部量子系に存在する単一パーティ情報内容と絡み合いの間の新たな相補性と逆相補性関係を導出する。
その結果, 純状態のバイパルタイト系では, その絡み合い, サブシステムに関連する予測可能性, 活力は任意に小さく, 任意に大きくならないことがわかった。 The notions of predictability and visibility are essential in the mathematical formulation of wave particle duality. The work of Jakob and Bergou [Phys. Rev. A 76, 052107] generalises these notions for higher-dimensional quantum systems, which were initially defined for qubits, and subsequently proves a complementarity relation between predictability and visibility. By defining the single-party information content of a quantum system as the addition of predictability and visibility, and assuming that entanglement in a bipartite system in the form of concurrence mutually excludes the single-party information, the authors have proposed a complementarity relation between the concurrence and the single-party information content. We show that the information content of a quantum system defined by Jakob and Bergou is nothing but the Hilbert-Schmidt distance between the state of the quantum system of our consideration and the maximally mixed state. Motivated by the fact that the trace distance is a good measure of distance as compared to the Hilbert-Schmidt distance from the information theoretic point of view, we, in this work, define the information content of a quantum system as the trace distance between the quantum state and the maximally mixed state. We then employ the quantum Pinsker's inequality and the reverse Pinsker's inequality to derive a new complementarity and a reverse complementarity relation between the single-party information content and the entanglement present in a bipartite quantum system in a pure state. As a consequence of our findings, we show that for a bipartite system in a pure state, its entanglement and the predictabilities and visibilities associated with the subsystems cannot be arbitrarily small as well as arbitrarily large. | 翻訳日:2024-01-03 13:52:23 公開日:2024-01-02 |
# グラフ除去ネットワーク Graph Elimination Networks ( http://arxiv.org/abs/2401.01233v1 ) ライセンス: Link先を確認 | Shuo Wang, Ge Cheng, Yun Zhang | (参考訳) グラフニューラルネットワーク(gnns)は、さまざまな領域に広く適用されているが、深い層では性能が悪い。
既存の研究は、この問題をノードオーバー・スムーシング(英語版)に特化しており、ノード表現は複数の伝搬ラウンド後に区別不能になる。
本稿では,GNNの近傍伝播機構を探索し,GNNの性能劣化の根本原因が非効率な近傍特性伝播にあることを明らかにする。
この伝播により、各伝播ステップでノードの電流表現が指数関数的に増加するため、長距離ノード間の貴重な依存関係を捉えることが極めて困難になる。
この問題に対処するため,我々は,近傍伝搬中の冗長性を解消するアルゴリズムを用いたグラフ除去ネットワーク(gens)を提案する。
提案手法は, ネットワーク伝播深度を拡大し, ノードの遠隔地に対する認識を高めることができることを示す。
大規模な実験により、genは様々なグラフレベルおよびノードレベルのデータセットで最先端の手法より優れていることが示された。 Graph Neural Networks (GNNs) are widely applied across various domains, yet they perform poorly in deep layers. Existing research typically attributes this problem to node over-smoothing, where node representations become indistinguishable after multiple rounds of propagation. In this paper, we delve into the neighborhood propagation mechanism of GNNs and discover that the real root cause of GNNs' performance degradation in deep layers lies in ineffective neighborhood feature propagation. This propagation leads to an exponential growth of a node's current representation at every propagation step, making it extremely challenging to capture valuable dependencies between long-distance nodes. To address this issue, we introduce Graph Elimination Networks (GENs), which employ a specific algorithm to eliminate redundancies during neighborhood propagation. We demonstrate that GENs can enhance nodes' perception of distant neighborhoods and extend the depth of network propagation. Extensive experiments show that GENs outperform the state-of-the-art methods on various graph-level and node-level datasets. | 翻訳日:2024-01-03 13:51:51 公開日:2024-01-02 |
# 生成コントラスト学習を用いたモチーフ対応リーマングラフニューラルネットワーク Motif-aware Riemannian Graph Neural Network with Generative-Contrastive Learning ( http://arxiv.org/abs/2401.01232v1 ) ライセンス: Link先を確認 | Li Sun, Zhenhao Huang, Zixi Wang, Feiyang Wang, Hao Peng, Philip Yu | (参考訳) グラフは複雑な構造の非ユークリッドデータである。
近年、リーマングラフ表現学習はユークリッドグラフに代わるエキサイティングな選択肢として現れている。
しかし、リーマンの手法はまだ初期段階であり、そのほとんどは構造的複雑性に関係なく単一の曲率(ラディウス)を持ち、指数的/対数写像による数値的不安定さに苦しんでおり、モチーフの正則性を捉えられない。
上記の問題を考慮し,ラベルのない多変数曲率多様体におけるモチーフ正則性を捉える数値的に安定なエンコーダを求める,emph{Motif-aware Riemannian Graph Representation Learning} 問題を提案する。
そこで本研究では,リーマン多様体におけるminmaxゲームを自己教師付きで行う,生成的コントラスト学習(motifrgc)を備えたモチーフ認識リーマンモデルを提案する。
まず,多変数化係数を持つ積層で多変数曲率多様体を構築し,指数/対数写像を安定なカーネル層で置き換える新しいタイプのリーマンGCN(D-GCN)を提案する。
第二に、構成多様体のモチーフ正則性を捕捉し、外部ラベルなしでモチーフ対応ノード表現を学習するためのモチーフ対応リーマン生成比較学習を導入する。
経験的結果はMofitRGCの優位性を示している。 Graphs are typical non-Euclidean data of complex structures. In recent years, Riemannian graph representation learning has emerged as an exciting alternative to Euclidean ones. However, Riemannian methods are still in an early stage: most of them present a single curvature (radius) regardless of structural complexity, suffer from numerical instability due to the exponential/logarithmic map, and lack the ability to capture motif regularity. In light of the issues above, we propose the problem of \emph{Motif-aware Riemannian Graph Representation Learning}, seeking a numerically stable encoder to capture motif regularity in a diverse-curvature manifold without labels. To this end, we present a novel Motif-aware Riemannian model with Generative-Contrastive learning (MotifRGC), which conducts a minmax game in Riemannian manifold in a self-supervised manner. First, we propose a new type of Riemannian GCN (D-GCN), in which we construct a diverse-curvature manifold by a product layer with the diversified factor, and replace the exponential/logarithmic map by a stable kernel layer. Second, we introduce a motif-aware Riemannian generative-contrastive learning to capture motif regularity in the constructed manifold and learn motif-aware node representation without external labels. Empirical results show the superiority of MofitRGC. | 翻訳日:2024-01-03 13:51:36 公開日:2024-01-02 |
# 原子ホモダイン検出のための非ガウス的絡み合い基準 Non-Gaussian entanglement criteria for atomic homodyne detection ( http://arxiv.org/abs/2401.01228v1 ) ライセンス: Link先を確認 | Jaehak Lee, Jiyong Park, Jaewan Kim, M. S. Kim, Hyunchul Nha | (参考訳) ホモジン測定は、ボゾン量子系の連続変数に広く用いられる重要なツールである。
理想的なホモダイン検出は、例えば量子光学における光の2次振幅を効果的に測定する強力な解析を提供するが、これは強い基準場(一般にコヒーレント状態の局所発振器)の使用に依存する。
このような強いコヒーレント局所発振器は、特にボース=アインシュタイン凝縮(bec)のような巨大量子系では容易には利用できず、連続変数を適切に扱う上で大きな課題となる。
様々な量子テストや応用の厳密な評価のために、非理想的局所発振器の効果を含む実用的な枠組みを確立する必要がある。
ここでは、局所振動子の状態に関する仮定を必要としないこの現実的ホモダイン測定に適用可能な、ガウス体制以外の絡み合い基準を開発する。
局所振動子の様々な状態下で非ガウス量子絡みを効果的に検出するホモダイン検出の動作条件について議論する。 Homodyne measurement is a crucial tool widely used to address continuous variables for bosonic quantum systems. While an ideal homodyne detection provides a powerful analysis, e.g. to effectively measure quadrature amplitudes of light in quantum optics, it relies on the use of a strong reference field, the so-called local oscillator typically in a coherent state. Such a strong coherent local oscillator may not be readily available particularly for a massive quantum system like Bose-Einstein condensate (BEC), posing a substantial challenge in dealing with continuous variables appropriately. It is necessary to establish a practical framework that includes the effects of non-ideal local oscillators for a rigorous assessment of various quantum tests and applications. We here develop entanglement criteria beyond Gaussian regime applicable for this realistic homodyne measurement that do not require assumptions on the state of local oscillators. We discuss the working conditions of homodyne detection to effectively detect non-Gaussian quantum entanglement under various states of local oscillators. | 翻訳日:2024-01-03 13:51:09 公開日:2024-01-02 |
# IdentiFace : VGGを用いたマルチモーダル顔バイオメトリックシステム IdentiFace : A VGG Based Multimodal Facial Biometric System ( http://arxiv.org/abs/2401.01227v1 ) ライセンス: Link先を確認 | Mahmoud Rabea, Hanya Ahmed, Sohaila Mahmoud and Nourhan Sayed | (参考訳) 顔の生体認証システムの開発は、コンピュータビジョン分野の発展に大きく貢献している。
現在では、複数のバイオメトリック特性を効率的で有意義な方法で組み合わせたマルチモーダルシステムを開発する必要は常にあります。
本稿では、顔認識のコアと、性別、顔形、感情といった、最も重要なソフトバイオメトリックの特徴を組み合わせるマルチモーダルな顔バイオメトリックシステムである「identiface」について紹介する。
また,vgg-16インスパイアされたアーキテクチャのみを使用して,サブシステム間のマイナーな変更を行うシステムの開発にも注目した。
この統一により、モダリティ間の統合がより簡単になる。
これにより、学習した特徴をタスク間で解釈しやすくし、顔のモダリティと潜在的なつながりを横断する意思決定プロセスについて良い兆候を与える。
認識問題については,feretデータベースから収集したデータを用いて,クラス内変動が高い5クラスに対して99.2%の精度を得た。
性別認識問題では、データセットで99.4%、公開データセットで95.15%を達成しました。
また,セレブの顔型データセット[3]を用いて,顔形状問題において88.03%の精度を達成できた。
最後に、fer2013データセット[4]の関連作業と比較して、非常に許容できる精度と考えられる感情タスクの66.13%というまともなテスト精度を達成しました。 The development of facial biometric systems has contributed greatly to the development of the computer vision field. Nowadays, there's always a need to develop a multimodal system that combines multiple biometric traits in an efficient, meaningful way. In this paper, we introduce "IdentiFace" which is a multimodal facial biometric system that combines the core of facial recognition with some of the most important soft biometric traits such as gender, face shape, and emotion. We also focused on developing the system using only VGG-16 inspired architecture with minor changes across different subsystems. This unification allows for simpler integration across modalities. It makes it easier to interpret the learned features between the tasks which gives a good indication about the decision-making process across the facial modalities and potential connection. For the recognition problem, we acquired a 99.2% test accuracy for five classes with high intra-class variations using data collected from the FERET database[1]. We achieved 99.4% on our dataset and 95.15% on the public dataset[2] in the gender recognition problem. We were also able to achieve a testing accuracy of 88.03% in the face-shape problem using the celebrity face-shape dataset[3]. Finally, we achieved a decent testing accuracy of 66.13% in the emotion task which is considered a very acceptable accuracy compared to related work on the FER2013 dataset[4]. | 翻訳日:2024-01-03 13:50:49 公開日:2024-01-02 |
# 分類課題のマルチタスク学習のための分布マッチング:顔とそれ以上の大規模研究 Distribution Matching for Multi-Task Learning of Classification Tasks: a Large-Scale Study on Faces & Beyond ( http://arxiv.org/abs/2401.01219v1 ) ライセンス: Link先を確認 | Dimitrios Kollias, Viktoriia Sharmanska, Stefanos Zafeiriou | (参考訳) マルチタスク学習(Multi-Task Learning、MTL)は、複数の関連するタスクを共同で学習し、共有表現空間またはパラメータ転送の恩恵を受けるフレームワークである。
十分な学習支援を提供するため、現代のMTLは、全タスクまたはほとんどのタスクに対して各入力サンプルがアノテートされているような、全タスク、あるいは十分に大きなオーバーラップを伴う注釈付きデータを使用する。
しかし、こうしたアノテーションの収集は多くの実際のアプリケーションでは禁止され、個々のタスクで利用可能なデータセットの恩恵を受けることはできない。
本稿では、この設定に挑戦し、MTLがほとんど、あるいは重複しないアノテーションで分類タスクを成功させることができるか、タスク毎にラベル付きデータのサイズに大きな差があるかを示す。
我々は,協調アノテーションと協調学習のためのタスク関連性を探究し,分散マッチングによるタスク間の知識交換を可能にする新しいアプローチを提案する。
本手法の適用性を実証するため,9つのデータセットを用いて情緒コンピューティング,顔認識,種別認識,ショッピングアイテム分類の分野において多様なケーススタディを行った。
表情認識と顔行動単位検出のための情緒的タスクの大規模研究は,我々のアプローチがネットワーク非依存であることを示し,研究対象と研究対象のデータベースの双方における最先端と比べ,大幅なパフォーマンス向上をもたらす。
あらゆるケーススタディにおいて、タスク関連性によるコトレーニングは有利であり、負の移動を防止する(MTモデルの性能が少なくとも1つの単一タスクモデルよりも悪い場合)。 Multi-Task Learning (MTL) is a framework, where multiple related tasks are learned jointly and benefit from a shared representation space, or parameter transfer. To provide sufficient learning support, modern MTL uses annotated data with full, or sufficiently large overlap across tasks, i.e., each input sample is annotated for all, or most of the tasks. However, collecting such annotations is prohibitive in many real applications, and cannot benefit from datasets available for individual tasks. In this work, we challenge this setup and show that MTL can be successful with classification tasks with little, or non-overlapping annotations, or when there is big discrepancy in the size of labeled data per task. We explore task-relatedness for co-annotation and co-training, and propose a novel approach, where knowledge exchange is enabled between the tasks via distribution matching. To demonstrate the general applicability of our method, we conducted diverse case studies in the domains of affective computing, face recognition, species recognition, and shopping item classification using nine datasets. Our large-scale study of affective tasks for basic expression recognition and facial action unit detection illustrates that our approach is network agnostic and brings large performance improvements compared to the state-of-the-art in both tasks and across all studied databases. In all case studies, we show that co-training via task-relatedness is advantageous and prevents negative transfer (which occurs when MT model's performance is worse than that of at least one single-task model). | 翻訳日:2024-01-03 13:50:30 公開日:2024-01-02 |
# 大規模言語モデルにおけるゼロショット位置偏差 Zero-Shot Position Debiasing for Large Language Models ( http://arxiv.org/abs/2401.01218v1 ) ライセンス: Link先を確認 | Zhongkun Liu, Zheng Chen, Mengqi Zhang, Zhaochun Ren, Zhumin Chen, Pengjie Ren | (参考訳) ファインチューニングは、大規模言語モデル(LLM)のドメイン性能を改善する効果的な手法であることが示されている。
しかし、LLMはデータセットバイアスと予測のショートカットに適合し、世代パフォーマンスが低下する可能性がある。
実験の結果、LSMは位置バイアスを示す傾向があり、すなわち、入力の先頭または端に位置する情報、あるいは入力内の特定の位置手がかりを利用することが示された。
位置バイアスの緩和に関する既存の研究は、外部バイアス知識や注釈のない非バイアスサンプルを必要とする。
本研究では,LLMの位置バイアスを軽減するため,ゼロショット位置バイアス(ZOE)フレームワークを提案する。
ZOEは、事前訓練されたLLMからの教師なしの応答を利用してデバイアスを発生させる。
教師なし応答の品質を向上させるため,これらの応答を誘発するマスタ-スレーブアライメント(MSA)モジュールを提案する。
8つのデータセットと5つのタスクの実験により、ZOEは4種類の位置バイアスを緩和する既存の手法より一貫して優れていることが示された。
さらに、ZOEは偏りのあるサンプルに対して小さなパフォーマンスしか犠牲にせず、シンプルで効果的である。 Fine-tuning has been demonstrated to be an effective method to improve the domain performance of large language models (LLMs). However, LLMs might fit the dataset bias and shortcuts for prediction, leading to poor generation performance. Experimental result shows that LLMs are prone to exhibit position bias, i.e., leveraging information positioned at the beginning or end, or specific positional cues within the input. Existing works on mitigating position bias require external bias knowledge or annotated non-biased samples, which is unpractical in reality. In this work, we propose a zero-shot position debiasing (ZOE) framework to mitigate position bias for LLMs. ZOE leverages unsupervised responses from pre-trained LLMs for debiasing, thus without any external knowledge or datasets. To improve the quality of unsupervised responses, we propose a master-slave alignment (MSA) module to prune these responses. Experiments on eight datasets and five tasks show that ZOE consistently outperforms existing methods in mitigating four types of position biases. Besides, ZOE achieves this by sacrificing only a small performance on biased samples, which is simple and effective. | 翻訳日:2024-01-03 13:49:59 公開日:2024-01-02 |
# ニューラルラジアンス場におけるトレーニング可能なノイズを用いたノイズNeRFの隠蔽情報 Noise-NeRF: Hide Information in Neural Radiance Fields using Trainable Noise ( http://arxiv.org/abs/2401.01216v1 ) ライセンス: Link先を確認 | Qinglong Huang, Yong Liao, Yanbin Hao, Pengyuan Zhou | (参考訳) ニューラル放射場(NeRF)は革新的な3次元表現法として提案されている。
NeRFは多くの注目を集めているが、情報機密やセキュリティといった重要な問題に直面している。
ステガノグラフィー(英: Steganography)は、情報セキュリティを保護する手段として、他のオブジェクトに情報を埋め込む手法である。
現在、NeRFステガノグラフィーに関する関連する研究はほとんどなく、低いステガノグラフィー品質、モデル重量損傷、限られた量のステガノグラフィー情報に課題に直面している。
本稿では、トレーニング可能なノイズに基づく新しいNeRFステガノグラフィー手法を提案する。
さらに, ステガノグラフィの品質と効率を向上させるために, 適応型画素選択戦略と画素摂動戦略を提案する。
オープンソースのデータセットに関する広範な実験は、ノイズナーフがステガノグラフィの品質とレンダリング品質の両方において最先端のパフォーマンスを提供し、超高解像度画像ステガノグラフィの有効性を示している。 Neural radiance fields (NeRF) have been proposed as an innovative 3D representation method. While attracting lots of attention, NeRF faces critical issues such as information confidentiality and security. Steganography is a technique used to embed information in another object as a means of protecting information security. Currently, there are few related studies on NeRF steganography, facing challenges in low steganography quality, model weight damage, and a limited amount of steganographic information. This paper proposes a novel NeRF steganography method based on trainable noise: Noise-NeRF. Furthermore, we propose the Adaptive Pixel Selection strategy and Pixel Perturbation strategy to improve the steganography quality and efficiency. The extensive experiments on open-source datasets show that Noise-NeRF provides state-of-the-art performances in both steganography quality and rendering quality, as well as effectiveness in super-resolution image steganography. | 翻訳日:2024-01-03 13:49:38 公開日:2024-01-02 |
# 半田接合欠陥検出のためのハイブリッド注目特徴ピラミッドネットワークを用いたYOLOアルゴリズム YOLO algorithm with hybrid attention feature pyramid network for solder joint defect detection ( http://arxiv.org/abs/2401.01214v1 ) ライセンス: Link先を確認 | Li Ang, Siti Khatijah Nor Abdul Rahim, Raseeda Hamzah, Raihah Aminuddin and Gao Yousheng | (参考訳) ハンダ継手欠陥の従来の手動検出は、低効率、不整合性評価、高コスト、リアルタイムデータの欠如による工業生産においてもはや適用されない。
産業シナリオの表面積技術において, 低精度, 高偽検出率, 半田接合欠陥検出の計算コストといった問題に対処する新しい手法が提案されている。
提案手法は, 計算コストを低減しつつ精度を高め, 製造工程における品質制御を改善するため, はんだ継手欠陥検出アルゴリズム専用に設計されたハイブリッドアテンション機構である。
本発明のハイブリッドアテンション機構は,マルチヘッド自己注意・協調アテンション機構を改良し,アテンションネットワークのコンテキスト情報知覚能力を高め,ネットワーク特徴の利用範囲を拡大する。
座標注意機構は、異なるチャネル間の接続を強化し、位置情報損失を低減する。
ハイブリッドアテンション機構は、長距離位置情報を知覚し、局所的な特徴を学習するネットワークの能力を高める。
改良されたアルゴリズムモデルは、ハンダ関節欠損検出に優れた検出能力を有しており、マップは91.5%に達し、バージョン5のアルゴリズムより4.3%高く、他の比較アルゴリズムよりも優れている。
他のバージョンと比較して、平均精度、精度、リコール、フレーム毎秒のインジケータも改善されている。
リアルタイム検出要件を満たしながら検出精度の向上を図ることができる。 Traditional manual detection for solder joint defect is no longer applied during industrial production due to low efficiency, inconsistent evaluation, high cost and lack of real-time data. A new approach has been proposed to address the issues of low accuracy, high false detection rates and computational cost of solder joint defect detection in surface mount technology of industrial scenarios. The proposed solution is a hybrid attention mechanism designed specifically for the solder joint defect detection algorithm to improve quality control in the manufacturing process by increasing the accuracy while reducing the computational cost. The hybrid attention mechanism comprises a proposed enhanced multi-head self-attention and coordinate attention mechanisms increase the ability of attention networks to perceive contextual information and enhances the utilization range of network features. The coordinate attention mechanism enhances the connection between different channels and reduces location information loss. The hybrid attention mechanism enhances the capability of the network to perceive long-distance position information and learn local features. The improved algorithm model has good detection ability for solder joint defect detection, with mAP reaching 91.5%, 4.3% higher than the You Only Look Once version 5 algorithm and better than other comparative algorithms. Compared to other versions, mean Average Precision, Precision, Recall, and Frame per Seconds indicators have also improved. The improvement of detection accuracy can be achieved while meeting real-time detection requirements. | 翻訳日:2024-01-03 13:49:21 公開日:2024-01-02 |
# fgenet: 群集計数のための細粒度抽出ネットワーク FGENet: Fine-Grained Extraction Network for Congested Crowd Counting ( http://arxiv.org/abs/2401.01208v1 ) ライセンス: Link先を確認 | Hao-Yuan Ma, Li Zhang, Xiang-Yi Wei | (参考訳) 群衆の数え上げはその実用的利用によって大きな人気を得た。
しかし,本手法は精度の高い局所化を無視し,密度マップを推定した結果,アノテーションノイズに悩まされる。
また,これらの問題に対処するために,細粒度抽出ネットワーク(fgenet)と呼ばれるエンド・ツー・エンドモデルを提案する。
密度マップを推定する手法と異なり、FGENetは個人の位置を正確に表す元の座標点を直接学習し、FGENetの背骨から抽出した特徴マップを融合させるFGFP(Fined Feature Pyramid)と呼ばれる融合モジュールを設計する。
そして、融合した特徴を回帰と分類の両方のヘッドに渡すと、前者が所定の画像に対して予測点座標を提供し、後者が予測点毎の信頼度を決定する。
最後に、FGENetはハンガリーのアルゴリズムを用いて予測点と基底真理点の対応を確立する。
FGENetをトレーニングするために,アノテーションノイズの影響を軽減するために,TTC(Three-Task Combination)と呼ばれるロバストな損失関数を設計する。
大規模な実験は、4つの広く利用されている群集カウントデータセットで実施される。
実験結果からFGENetの有効性が示された。
特に,上海技術パートAデータセットにおける平均絶対誤差(MAE)の3.14点の顕著な改善を実現し,既存の最先端手法よりも優れていることを示す。
さらに印象的なことに、FGENetはUCF\_CC\_50データセットの以前のベンチマークを上回り、MAEの30.16ポイントの驚くべき拡張を実現している。 Crowd counting has gained significant popularity due to its practical applications. However, mainstream counting methods ignore precise individual localization and suffer from annotation noise because of counting from estimating density maps. Additionally, they also struggle with high-density images.To address these issues, we propose an end-to-end model called Fine-Grained Extraction Network (FGENet). Different from methods estimating density maps, FGENet directly learns the original coordinate points that represent the precise localization of individuals.This study designs a fusion module, named Fine-Grained Feature Pyramid(FGFP), that is used to fuse feature maps extracted by the backbone of FGENet. The fused features are then passed to both regression and classification heads, where the former provides predicted point coordinates for a given image, and the latter determines the confidence level for each predicted point being an individual. At the end, FGENet establishes correspondences between prediction points and ground truth points by employing the Hungarian algorithm. For training FGENet, we design a robust loss function, named Three-Task Combination (TTC), to mitigate the impact of annotation noise. Extensive experiments are conducted on four widely used crowd counting datasets. Experimental results demonstrate the effectiveness of FGENet. Notably, our method achieves a remarkable improvement of 3.14 points in Mean Absolute Error (MAE) on the ShanghaiTech Part A dataset, showcasing its superiority over the existing state-of-the-art methods. Even more impressively, FGENet surpasses previous benchmarks on the UCF\_CC\_50 dataset with an astounding enhancement of 30.16 points in MAE. | 翻訳日:2024-01-03 13:48:50 公開日:2024-01-02 |
# パーソナライズされた顔生成における同時・粒度表現制御に向けて Towards a Simultaneous and Granular Identity-Expression Control in Personalized Face Generation ( http://arxiv.org/abs/2401.01207v1 ) ライセンス: Link先を確認 | Renshuai Liu, Bowen Ma, Wei Zhang, Zhipeng Hu, Changjie Fan, Tangjie Lv, Yu Ding, Xuan Cheng | (参考訳) 人間中心のコンテンツ生成では、事前訓練されたテキストから画像へのモデルが、多様な表現を表現しながら個人のアイデンティティを保持する、利用者が望むポートレート画像の作成に苦労している。
本稿では,パーソナライズされた顔生成への取り組みを紹介する。
そこで,本稿では,アイデンティティ表現制御とより詳細な表現合成を同時に行うマルチモーダル顔生成フレームワークを提案する。
私たちの表現制御は非常に洗練されたので、きめ細かい感情的な語彙を専門化できます。
本研究では,顔交換と再現を同時に行う新しい拡散モデルを提案する。
アイデンティティと表現の絡み合いのため、1つのフレームワークで個別に正確に制御することは簡単ではないため、まだ検討されていない。
そこで本稿では,条件拡散モデルにおいて,アイデンティティと式エンコーダのバランス,中間点サンプリングの改善,背景条件付けなど,いくつかの革新的な設計を提案する。
広範な実験により、提案されたフレームワークの制御可能性とスケーラビリティが実証され、最先端のテキストから画像への変換、顔の交換、顔の再現方法と比較された。 In human-centric content generation, the pre-trained text-to-image models struggle to produce user-wanted portrait images, which retain the identity of individuals while exhibiting diverse expressions. This paper introduces our efforts towards personalized face generation. To this end, we propose a novel multi-modal face generation framework, capable of simultaneous identity-expression control and more fine-grained expression synthesis. Our expression control is so sophisticated that it can be specialized by the fine-grained emotional vocabulary. We devise a novel diffusion model that can undertake the task of simultaneously face swapping and reenactment. Due to the entanglement of identity and expression, it's nontrivial to separately and precisely control them in one framework, thus has not been explored yet. To overcome this, we propose several innovative designs in the conditional diffusion model, including balancing identity and expression encoder, improved midpoint sampling, and explicitly background conditioning. Extensive experiments have demonstrated the controllability and scalability of the proposed framework, in comparison with state-of-the-art text-to-image, face swapping, and face reenactment methods. | 翻訳日:2024-01-03 13:48:05 公開日:2024-01-02 |
# PPBFL: ブロックチェーンベースのフェデレーション学習モデル PPBFL: A Privacy Protected Blockchain-based Federated Learning Model ( http://arxiv.org/abs/2401.01204v1 ) ライセンス: Link先を確認 | Yang Li, Chunhe Xia, Wanshuang Lin, Tianbo Wang | (参考訳) 機械学習の急速な発展とデータプライバシに関する懸念の高まりにより、フェデレーション学習はますます注目されている。
しかし、モデルパラメータへの攻撃やインセンティブ機構の欠如といった課題は、連合学習の有効性を妨げる。
そこで本研究では,プライバシ保護ブロックチェーンに基づくフェデレート学習モデル(PPBFL)を提案し,フェデレーション学習の安全性を高め,モデルトレーニングにおけるノードのアクティブな参加を促進する。
ブロックチェーンは、IPFS(InterPlanetary File System)に格納されているモデルパラメータが変更されていないことを保証します。
新たな適応型微分プライバシー付加アルゴリズムは、局所モデルとグローバルモデルに同時に適用され、局所モデルのプライバシを保ち、フェデレートラーニングにおける多数のローカルモデルの存在によるグローバルモデルのセキュリティの低下を防止する。
さらに,ローカルトレーニングクライアントのアイデンティティプライバシを保護するために,新たなmixトランザクション機構を導入する。
セキュリティ解析と実験結果から,PBFLはモデル性能とセキュリティの両方において,ベースライン法より優れていることが示された。 With the rapid development of machine learning and growing concerns about data privacy, federated learning has become an increasingly prominent focus. However, challenges such as attacks on model parameters and the lack of incentive mechanisms hinder the effectiveness of federated learning. Therefore, we propose a Privacy Protected Blockchain-based Federated Learning Model (PPBFL) to enhance the security of federated learning and promote the active participation of nodes in model training. Blockchain ensures that model parameters stored in the InterPlanetary File System (IPFS) remain unaltered. A novel adaptive differential privacy addition algorithm is simultaneously applied to local and global models, preserving the privacy of local models and preventing a decrease in the security of the global model due to the presence of numerous local models in federated learning. Additionally, we introduce a new mix transactions mechanism to better protect the identity privacy of local training clients. Security analysis and experimental results demonstrate that PPBFL outperforms baseline methods in both model performance and security. | 翻訳日:2024-01-03 13:47:31 公開日:2024-01-02 |
# 20週間超音波スキャンによる胎児バイオメトリックスの全検査AI推定 Whole-examination AI estimation of fetal biometrics from 20-week ultrasound scans ( http://arxiv.org/abs/2401.01201v1 ) ライセンス: Link先を確認 | Lorenzo Venturini, Samuel Budd, Alfonso Farruggia, Robert Wright, Jacqueline Matthew, Thomas G. Day, Bernhard Kainz, Reza Razavi, Jo V. Hajnal | (参考訳) 現在の胎児異常スクリーニングのアプローチは、個別に選択された超音波画像から得られた生体計測値に基づいている。
本稿では,各フレームから自動抽出されたバイオメトリックスをスキャン全体にわたって集約することにより,人間の生体計測性能を向上するパラダイムシフトを提案する。
我々は畳み込みニューラルネットワークを用いて、超音波ビデオ記録の各フレームを分類する。
次に、適切な解剖が確認できるフレーム毎に胎児の生体計測を計測する。
ベイズ法を用いて, 多数の測定値から各バイオメトリックの真価を推定し, 確率的に外れ値を拒絶する。
我々は20週間の超音波検査で1457枚の記録(4800万フレーム)を振り返り, 胎児のバイオメトリックスを計測し, 超音波検査で得られた計測値と比較した。
本手法は胎児の生体計測における人体レベルの性能を推定し,真生体計測値の真偽が期待される信頼区間を推定する。 The current approach to fetal anomaly screening is based on biometric measurements derived from individually selected ultrasound images. In this paper, we introduce a paradigm shift that attains human-level performance in biometric measurement by aggregating automatically extracted biometrics from every frame across an entire scan, with no need for operator intervention. We use a convolutional neural network to classify each frame of an ultrasound video recording. We then measure fetal biometrics in every frame where appropriate anatomy is visible. We use a Bayesian method to estimate the true value of each biometric from a large number of measurements and probabilistically reject outliers. We performed a retrospective experiment on 1457 recordings (comprising 48 million frames) of 20-week ultrasound scans, estimated fetal biometrics in those scans and compared our estimates to the measurements sonographers took during the scan. Our method achieves human-level performance in estimating fetal biometrics and estimates well-calibrated credible intervals in which the true biometric value is expected to lie. | 翻訳日:2024-01-03 13:46:38 公開日:2024-01-02 |
# 機械学習アルゴリズムを用いた生体内皮膚病変のNIRスペクトロスコピーデータを用いた皮膚癌の診断 Skin cancer diagnosis using NIR spectroscopy data of skin lesions in vivo using machine learning algorithms ( http://arxiv.org/abs/2401.01200v1 ) ライセンス: Link先を確認 | Flavio P. Loss, Pedro H. da Cunha, Matheus B. Rocha, Madson Poltronieri Zanoni, Leandro M. de Lima, Isadora Tavares Nascimento, Isabella Rezende, Tania R. P. Canuto, Luciana de Paula Vieira, Renan Rossoni, Maria C. S. Santos, Patricia Lyra Frasson, Wanderson Rom\~ao, Paulo R. Filgueiras, and Renato A. Krohling | (参考訳) 皮膚病変は良性または悪性に分類される。
悪性黒色腫は、非常に攻撃的ながんであり、主な死因である。
したがって、皮膚がんの早期診断は非常に望ましい。
近年,腫瘍の画像と臨床データを用いたcad (computer aided diagnostic) への関心が高まっている。
これらの情報源は、病変の分子構造に関する情報を提供することができないため、限界を示す。
NIR分光法は皮膚病変のCADの代替情報を提供する可能性がある。
分光学で使われる最も一般的な手法と分類アルゴリズムは主成分分析(pca)、部分最小二乗解析(pls-da)、サポートベクターマシン(svm)である。
それでも、機械と深層学習(MDL)の近代的手法を分光法に適用することへの関心が高まっている。
MDLを分光法に適用する主な制限の1つは、公開データセットの欠如である。
皮膚病変に対するNIRスペクトルデータの公開データセットが存在しないため、NIR-SC-UFESと呼ばれる新しいデータセットが収集され、注釈付けされ、皮膚がんに対するNIRスペクトルデータの分類のための金標準を生成する。
次に, xgboost, catboost, lightgbm, 1d-convolutional neural network (1d-cnn) を用いて, 癌および非癌皮膚病変の分類を行った。
実験結果から,標準標準変量器(SNV)を用いた前処理によるLightGBMの最高性能,平衡精度が0.839,リコールが0.851,精度が0.852,Fスコアが0.850であった。
以上の結果から,NIRスペクトルデータを用いた皮膚病変の自動トリアージを目的とした皮膚病変CADの第一歩が示唆された。 Skin lesions are classified in benign or malignant. Among the malignant, melanoma is a very aggressive cancer and the major cause of deaths. So, early diagnosis of skin cancer is very desired. In the last few years, there is a growing interest in computer aided diagnostic (CAD) using most image and clinical data of the lesion. These sources of information present limitations due to their inability to provide information of the molecular structure of the lesion. NIR spectroscopy may provide an alternative source of information to automated CAD of skin lesions. The most commonly used techniques and classification algorithms used in spectroscopy are Principal Component Analysis (PCA), Partial Least Squares - Discriminant Analysis (PLS-DA), and Support Vector Machines (SVM). Nonetheless, there is a growing interest in applying the modern techniques of machine and deep learning (MDL) to spectroscopy. One of the main limitations to apply MDL to spectroscopy is the lack of public datasets. Since there is no public dataset of NIR spectral data to skin lesions, as far as we know, an effort has been made and a new dataset named NIR-SC-UFES, has been collected, annotated and analyzed generating the gold-standard for classification of NIR spectral data to skin cancer. Next, the machine learning algorithms XGBoost, CatBoost, LightGBM, 1D-convolutional neural network (1D-CNN) were investigated to classify cancer and non-cancer skin lesions. Experimental results indicate the best performance obtained by LightGBM with pre-processing using standard normal variate (SNV), feature extraction providing values of 0.839 for balanced accuracy, 0.851 for recall, 0.852 for precision, and 0.850 for F-score. The obtained results indicate the first steps in CAD of skin lesions aiming the automated triage of patients with skin lesions in vivo using NIR spectral data. | 翻訳日:2024-01-03 13:46:13 公開日:2024-01-02 |
# セグメンテーションとディープラーニングによる物理インフォームド汎用無線チャネルモデリング:基礎,方法論,課題 Physics-informed Generalizable Wireless Channel Modeling with Segmentation and Deep Learning: Fundamentals, Methodologies, and Challenges ( http://arxiv.org/abs/2401.01288v1 ) ライセンス: Link先を確認 | Ethan Zhu, Haijian Sun, Mingyue Ji | (参考訳) チャネルモデリングは無線システムの進歩に基本的であり、研究の焦点となっている。
最近のトレンドは、モデリングプロセスを促進し、正確なチャネル予測を可能にするデータ駆動技術に依存しています。
本稿では,まず,データ駆動チャネルモデリング手法の簡潔な概要を提供し,その限界を強調する。
次に、物理インフォームドニューラルネットワーク(PINN)に基づくモデリングの概念と利点と、この分野における最近の貢献の要約を紹介する。
その結果, チャネルモデリングにおけるPINNに基づくアプローチは, 一般化可能性, 解釈可能性, 堅牢性などの有望な特性を示すことがわかった。
我々は、将来のモデル開発を知らせ、刺激するように設計されたpinn方法論の包括的なアーキテクチャを提供する。
セマンティックセグメンテーションとディープラーニングを用いた屋内チャネルの正確な予測に関する最近の研究事例について述べる。
この研究は、直面した課題に対処し、この分野における潜在的研究の方向性を提案することで締めくくられる。 Channel modeling is fundamental in advancing wireless systems and has thus attracted considerable research focus. Recent trends have seen a growing reliance on data-driven techniques to facilitate the modeling process and yield accurate channel predictions. In this work, we first provide a concise overview of data-driven channel modeling methods, highlighting their limitations. Subsequently, we introduce the concept and advantages of physics-informed neural network (PINN)-based modeling and a summary of recent contributions in this area. Our findings demonstrate that PINN-based approaches in channel modeling exhibit promising attributes such as generalizability, interpretability, and robustness. We offer a comprehensive architecture for PINN methodology, designed to inform and inspire future model development. A case-study of our recent work on precise indoor channel prediction with semantic segmentation and deep learning is presented. The study concludes by addressing the challenges faced and suggesting potential research directions in this field. | 翻訳日:2024-01-03 13:39:06 公開日:2024-01-02 |
# f$-divergenceベースの分類:クロスエントロピーの使用を超えて $f$-Divergence Based Classification: Beyond the Use of Cross-Entropy ( http://arxiv.org/abs/2401.01268v1 ) ライセンス: Link先を確認 | Nicola Novello, Andrea M. Tonello | (参考訳) ディープラーニングでは、分類タスクは、クロスエントロピーの最小化によって解決される最適化問題として形式化される。
しかし、目的関数の設計の最近の進歩により、$f$-divergence測度は分類の最適化問題の定式化を一般化できる。
この目的を念頭に置いてベイズ的視点を採用し,分類課題を最大後方確率問題として定式化する。
f$-divergence の変分表現に基づく目的関数のクラスを提案し,よく知られた $f$-divergences を利用した5つの後確率推定器のリストを抽出した。
さらに,最先端のアプローチの改善という課題から,シフトログ (sl) と呼ばれる新たな$f$-divergence に対応する新しい目的関数 (および後方確率推定子) を定式化するボトムアップ手法を提案する。
まず,後確率推定器の収束特性を理論的に証明する。
次に,提案する目的関数の集合を,玩具例,画像データセット,信号検出・復号問題という3つの応用シナリオで数値的に検証する。
解析されたタスクは,提案した推定器の有効性を示し,ほぼすべてのシナリオにおいて,SL偏差が最も高い分類精度を達成することを示す。 In deep learning, classification tasks are formalized as optimization problems solved via the minimization of the cross-entropy. However, recent advancements in the design of objective functions allow the $f$-divergence measure to generalize the formulation of the optimization problem for classification. With this goal in mind, we adopt a Bayesian perspective and formulate the classification task as a maximum a posteriori probability problem. We propose a class of objective functions based on the variational representation of the $f$-divergence, from which we extract a list of five posterior probability estimators leveraging well-known $f$-divergences. In addition, driven by the challenge of improving the state-of-the-art approach, we propose a bottom-up method that leads us to the formulation of a new objective function (and posterior probability estimator) corresponding to a novel $f$-divergence referred to as shifted log (SL). First, we theoretically prove the convergence property of the posterior probability estimators. Then, we numerically test the set of proposed objective functions in three application scenarios: toy examples, image data sets, and signal detection/decoding problems. The analyzed tasks demonstrate the effectiveness of the proposed estimators and that the SL divergence achieves the highest classification accuracy in almost all the scenarios. | 翻訳日:2024-01-03 13:38:50 公開日:2024-01-02 |
# 進化的アルゴリズムを用いたユニバーサルゲート付き有限状態機械の最適合成 Optimal Synthesis of Finite State Machines with Universal Gates using Evolutionary Algorithm ( http://arxiv.org/abs/2401.01265v1 ) ライセンス: Link先を確認 | Noor Ullah, Khawaja M. Yahya, Irfan Ahmed | (参考訳) 本研究は有限状態機械の合成のための最適化手法を提案する。
オンチップ領域の削減と回路コストの削減に重点が置かれている。
MCNC91ベンチマーク回路の有限状態マシンのリストは、Cartesian Genetic Programmingを用いて進化している。
平均して、ゲートの総数の約30%の削減が達成されている。
いくつかのパラメータが進化過程に与える影響も論文で議論されている。 This work presents an optimization method for the synthesis of finite state machines. The focus is on the reduction in the on-chip area and the cost of the circuit. A list of finite state machines from MCNC91 benchmark circuits have been evolved using Cartesian Genetic Programming. On the average, almost 30% of reduction in the total number of gates has been achieved. The effects of some parameters on the evolutionary process have also been discussed in the paper. | 翻訳日:2024-01-03 13:38:27 公開日:2024-01-02 |
# 自然言語処理と大規模言語モデルのための公正証明 Fairness Certification for Natural Language Processing and Large Language Models ( http://arxiv.org/abs/2401.01262v1 ) ライセンス: Link先を確認 | Vincent Freiberger, Erik Buchmann | (参考訳) 自然言語処理(NLP)は,特にLarge Language Models(LLM)の著しい進歩により,私たちの日常生活において重要な役割を果たす。
しかし、nlpには、採用のエキスパートシステムや教育のllmベースの家庭教師など、公正性に批判的なユースケースが数多くある。
NLPは人間の言語に基づいているため、潜在的に有害なバイアスはNLPシステムに拡散し、不公平な結果をもたらす可能性がある。
したがって、NLPアプローチの公平性検証を開発することが重要である。
我々は,NLPの公平性認定に向けた質的研究アプローチに従う。
特に,アルゴリズムの公正性に関する多くの文献をレビューし,その分野の専門家たちとの半構造化された専門家インタビューを行った。
我々は、nlpの6つの公平性基準を体系的に考案し、さらに18のサブカテゴリに分類できる。
当社の基準は,監査機関と監査機関の両方の観点から,公正を証明するための運用プロセスとテストプロセスの基盤を提供します。 Natural Language Processing (NLP) plays an important role in our daily lives, particularly due to the enormous progress of Large Language Models (LLM). However, NLP has many fairness-critical use cases, e.g., as an expert system in recruitment or as an LLM-based tutor in education. Since NLP is based on human language, potentially harmful biases can diffuse into NLP systems and produce unfair results, discriminate against minorities or generate legal issues. Hence, it is important to develop a fairness certification for NLP approaches. We follow a qualitative research approach towards a fairness certification for NLP. In particular, we have reviewed a large body of literature on algorithmic fairness, and we have conducted semi-structured expert interviews with a wide range of experts from that area. We have systematically devised six fairness criteria for NLP, which can be further refined into 18 sub-categories. Our criteria offer a foundation for operationalizing and testing processes to certify fairness, both from the perspective of the auditor and the audited organization. | 翻訳日:2024-01-03 13:38:22 公開日:2024-01-02 |
# 消散結合誘起uwbマグノニック周波数コム生成 Dissipative coupling induced UWB magnonic frequency combs generation ( http://arxiv.org/abs/2401.01260v1 ) ライセンス: Link先を確認 | Zeng-Xing Liu | (参考訳) 磁気周波数コムは、スピン波科学への潜在的な影響により、最近特に注目を集めている。
本稿では,開空空洞マグノメカニカルシステムにおける散逸結合による超広帯域(uwb)マグノニック周波数コムの発生を理論的に示す。
マグノンスペクトルではギガヘルツ繰り返しのブロードバンドコムが得られ、典型的な非摂動周波数コム構造も観察される。
強靭な高原地域でのマグノニック・コムの総幅は400行までで、以前の研究よりずっと広く平坦である。
さらに、散逸結合強度がさらに高くなると、マグノンスペクトルにおいてカオス運動が予測される。
本研究では,開量子系における非線形マグノメカニックダイナミクスを深く理解し,新しいスペクトル領域におけるマグノンの研究範囲を根本的に拡大する。 Magnonic frequency combs have recently attracted particular attention due to their potential impact on spin-wave science. Here, we demonstrate theoretically the generation of ultra-wideband (UWB) magnonic frequency combs induced by dissipative coupling in an open cavity magnomechanical system. A broadband comb with gigahertz repetition rates is obtained in the magnonic spectrum and a typical non-perturbation frequency-comb structure is also observed. The total width of the magnonic comb in the robust plateau region can be up to 400 comb lines, which is much broader and flatter than the reported in the previous works. Furthermore, when the dissipative coupling strength is further increased, the chaotic motion is predicted in the magnonic spectrum. Our results provide an in-depth understanding of nonlinear magnomechanic dynamics in open quantum systems and fundamentally broadens the research range of magnon in new spectral regimes. | 翻訳日:2024-01-03 13:38:05 公開日:2024-01-02 |
# 概念ボトルネックモデルは局所性に従うか? Do Concept Bottleneck Models Obey Locality? ( http://arxiv.org/abs/2401.01259v1 ) ライセンス: Link先を確認 | Naveen Raman, Mateo Espinosa Zarlenga, Juyeon Heo, Mateja Jamnik | (参考訳) 概念に基づく学習は、人間の理解可能な概念を通して予測を説明することによって、深層学習モデルの解釈可能性を改善する。
このパラダイムの下でトレーニングされたディープラーニングモデルは、ニューラルネットワークが他の概念とは独立して与えられた概念の存在や欠如を予測することができるという仮定に大きく依存している。
しかし、最近の研究は、この仮定が概念ベースの解釈可能なアーキテクチャの4つのファミリーであるConcept Bottleneck Models (CBM) で成り立たないことを強く示唆している。
本稿では,これらの概念が空間的にローカライズされた場合に,cbmsが条件付き独立度を正しく把握するかどうかを,その値を特徴の固定部分集合で完全に定義し,その値を予め定義された概念の固定部分集合にのみ関連付けることで意味論的に検討する。
局所性を理解するために,概念の空間的あるいは意味的局所性以外の特徴の変化が概念予測に与える影響を分析する。
以上の結果から,ある概念の存在が固定された特徴部分空間に局所化されている場合,あるいは意味が他の概念の小さな部分集合と相関している場合においても,CBMはそのような局所性を学習できないことが示唆された。
これらの結果は、CBMが学習した概念表現の質に疑問を呈し、概念に基づく説明が地域外の変化に脆弱である可能性を強く示唆した。 Concept-based learning improves a deep learning model's interpretability by explaining its predictions via human-understandable concepts. Deep learning models trained under this paradigm heavily rely on the assumption that neural networks can learn to predict the presence or absence of a given concept independently of other concepts. Recent work, however, strongly suggests that this assumption may fail to hold in Concept Bottleneck Models (CBMs), a quintessential family of concept-based interpretable architectures. In this paper, we investigate whether CBMs correctly capture the degree of conditional independence across concepts when such concepts are localised both spatially, by having their values entirely defined by a fixed subset of features, and semantically, by having their values correlated with only a fixed subset of predefined concepts. To understand locality, we analyse how changes to features outside of a concept's spatial or semantic locality impact concept predictions. Our results suggest that even in well-defined scenarios where the presence of a concept is localised to a fixed feature subspace, or whose semantics are correlated to a small subset of other concepts, CBMs fail to learn this locality. These results cast doubt upon the quality of concept representations learnt by CBMs and strongly suggest that concept-based explanations may be fragile to changes outside their localities. | 翻訳日:2024-01-03 13:37:52 公開日:2024-01-02 |
# レート制限チャネルを用いたモデルフリーLQR制御に向けて Towards Model-Free LQR Control over Rate-Limited Channels ( http://arxiv.org/abs/2401.01258v1 ) ライセンス: Link先を確認 | Aritra Mitra, Lintao Ye and Vijay Gupta | (参考訳) 多くの問題設定におけるモデルフリーな制御手法の成功を考えると、現実的な通信チャネルを勾配やポリシーの伝達に利用すれば、どう変わるのかを問うことは自然である。
結果として生じる問題は、ネットワーク制御システムのルーリックの下で研究される定式化と類似しているが、その領域の豊かな文献は一般にシステムのモデルが知られていると仮定している。
モデルフリー制御設計とネットワーク制御システムの橋渡しのステップとして, \textit{-線形二次レギュレータ(lqr)問題のような基本的な制御問題を,レート制限されたチャネル上でモデルフリーで解くことは可能か?
この質問に答えるべく、ワーカーエージェントが有限ビットレートのノイズのないチャンネルを介して(lqrコストの)定量化されたポリシー勾配をサーバに送信する設定について検討する。
そこで我々は,Adaptively Quantized Gradient Descent (\texttt{AQGD}) と題する新しいアルゴリズムを提案し,ある有限しきい値ビットレートを超えると,大域的最適ポリシーに対する指数関数的に高速な収束が保証され,指数関数が不等化設定に対して劣化することを証明する。
より一般に、我々の手法は高速線形収束率の保存における適応量子化の利点を明らかにし、圧縮最適化に関する文献には独立した関心を持つ可能性がある。 Given the success of model-free methods for control design in many problem settings, it is natural to ask how things will change if realistic communication channels are utilized for the transmission of gradients or policies. While the resulting problem has analogies with the formulations studied under the rubric of networked control systems, the rich literature in that area has typically assumed that the model of the system is known. As a step towards bridging the fields of model-free control design and networked control systems, we ask: \textit{Is it possible to solve basic control problems - such as the linear quadratic regulator (LQR) problem - in a model-free manner over a rate-limited channel?} Toward answering this question, we study a setting where a worker agent transmits quantized policy gradients (of the LQR cost) to a server over a noiseless channel with a finite bit-rate. We propose a new algorithm titled Adaptively Quantized Gradient Descent (\texttt{AQGD}), and prove that above a certain finite threshold bit-rate, \texttt{AQGD} guarantees exponentially fast convergence to the globally optimal policy, with \textit{no deterioration of the exponent relative to the unquantized setting}. More generally, our approach reveals the benefits of adaptive quantization in preserving fast linear convergence rates, and, as such, may be of independent interest to the literature on compressed optimization. | 翻訳日:2024-01-03 13:37:27 公開日:2024-01-02 |
# VideoDrafter:LLMによるコンテンツ一貫性のあるマルチシーンビデオ生成 VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM ( http://arxiv.org/abs/2401.01256v1 ) ライセンス: Link先を確認 | Fuchen Long and Zhaofan Qiu and Ting Yao and Tao Mei | (参考訳) 拡散モデルにおける最近のイノベーションとブレークスルーは、与えられたプロンプトに対して高品質なビデオを生成する可能性を大きく広げた。
既存の作業の多くは、単一のバックグラウンドで1つのビデオイベントしか発生しない、ワンシーンシナリオに取り組みます。
それでもマルチシーンビデオを生成するのは簡単ではなく、ビデオシーン全体のキーコンテンツの一貫した視覚的外観を維持しながら、ロジックを適切に管理する必要がある。
本稿では,コンテンツ一貫性のあるマルチシーンビデオ生成のための新しいフレームワークであるVideoDrafterを提案する。
技術的には、VideoDrafterはLarge Language Models (LLM)を利用して、入力プロンプトをLLMが学習した論理的知識の恩恵を受ける包括的なマルチシーンスクリプトに変換する。
各シーンのスクリプトには、イベントのプロンプト、フォアグラウンド/バックグラウンドエンティティ、カメラの動きが含まれている。
VideoDrafterはスクリプト全体の共通エンティティを特定し、各エンティティの詳細をLCMに尋ねる。
結果のエンティティ記述は、テキストから画像へのモデルに入力され、各エンティティの参照イメージを生成する。
最後に、VideoDrafterは、参照画像、イベントの説明的プロンプト、カメラの動きを考慮に入れた拡散プロセスを介して、各シーン映像を生成してマルチシーン映像を出力する。
拡散モデルは、参照画像を条件とアライメントとして取り入れ、マルチシーンビデオのコンテンツ一貫性を強化する。
大規模な実験により、VideoDrafterは、視覚的品質、コンテンツ整合性、ユーザー嗜好の点で、SOTAビデオ生成モデルより優れていることが示された。 The recent innovations and breakthroughs in diffusion models have significantly expanded the possibilities of generating high-quality videos for the given prompts. Most existing works tackle the single-scene scenario with only one video event occurring in a single background. Extending to generate multi-scene videos nevertheless is not trivial and necessitates to nicely manage the logic in between while preserving the consistent visual appearance of key content across video scenes. In this paper, we propose a novel framework, namely VideoDrafter, for content-consistent multi-scene video generation. Technically, VideoDrafter leverages Large Language Models (LLM) to convert the input prompt into comprehensive multi-scene script that benefits from the logical knowledge learnt by LLM. The script for each scene includes a prompt describing the event, the foreground/background entities, as well as camera movement. VideoDrafter identifies the common entities throughout the script and asks LLM to detail each entity. The resultant entity description is then fed into a text-to-image model to generate a reference image for each entity. Finally, VideoDrafter outputs a multi-scene video by generating each scene video via a diffusion process that takes the reference images, the descriptive prompt of the event and camera movement into account. The diffusion model incorporates the reference images as the condition and alignment to strengthen the content consistency of multi-scene videos. Extensive experiments demonstrate that VideoDrafter outperforms the SOTA video generation models in terms of visual quality, content consistency, and user preference. | 翻訳日:2024-01-03 13:36:59 公開日:2024-01-02 |
# ソーシャルメディアにおける非暴力的インフルエンサーの非プラットフォーム化 Deplatforming Norm-Violating Influencers on Social Media Reduces Overall Online Attention Toward Them ( http://arxiv.org/abs/2401.01253v1 ) ライセンス: Link先を確認 | Manoel Horta Ribeiro, Shagun Jhaver, Jordi Cluet i Martinell, Marie Reignier-Tayar, Robert West | (参考訳) 政治家からポッドキャストホストまで、オンラインプラットフォームは、プラットフォームガイドラインを破る上で影響力のあるユーザーを体系的に禁止している。
この介入の有効性に関する以前の質問は、不確定である。
1) 少数の非プラットフォームイベントのみを考慮する。
2) 彼らは,過度なエンゲージメント(例えば,好意や投稿)のみを考慮し,受動的エンゲージメント(例えば,ビュー)ではない。
3) デプラットフォームイベントの影響を受ける可能性のあるすべての場所を考慮していない。
この制限を101人のインフルエンサーを対象にした165の非プラットフォームイベントの,縦断的,準実験的な研究で解決する。
Redditの記事からデプラットフォームイベントを収集し、データを手作業でキュレートし、大規模なデプラットフォームイベントデータセットの正確性を保証する。
そして、これらのイベントをGoogle Trendsとウィキペディアのページビューにリンクし、プラットフォームに依存しないオンラインの注意を測り、一般大衆の特定のインフルエンサーに対する関心を捉えます。
差異・イン・ディファレンスアプローチによって、デプラットフォーム化はインフルエンサーに対するオンラインの関心を減少させることがわかった。
12か月後、オンラインのインフルエンサーに対する関心は、googleでは-63% (95% ci [-75%,-46%])、wikipediaでは-43% (95% ci [-57%,-24%]) 減少したと見積もられた。
さらに、100以上のデプラットフォームイベントを調査しながら、デプラットフォームが多かれ少なかれ影響を受けやすいケースを分析し、介入に関するニュアンスを明らかにします。
全体として、この作業は、コンテンツモデレーションの介入の有効性をマッピングし、プラットフォームガバナンスを憶測から遠ざけるための継続的な取り組みに寄与する。 From politicians to podcast hosts, online platforms have systematically banned (``deplatformed'') influential users for breaking platform guidelines. Previous inquiries on the effectiveness of this intervention are inconclusive because 1) they consider only few deplatforming events; 2) they consider only overt engagement traces (e.g., likes and posts) but not passive engagement (e.g., views); 3) they do not consider all the potential places users impacted by the deplatforming event might migrate to. We address these limitations in a longitudinal, quasi-experimental study of 165 deplatforming events targeted at 101 influencers. We collect deplatforming events from Reddit posts and then manually curate the data, ensuring the correctness of a large dataset of deplatforming events. Then, we link these events to Google Trends and Wikipedia page views, platform-agnostic measures of online attention that capture the general public's interest in specific influencers. Through a difference-in-differences approach, we find that deplatforming reduces online attention toward influencers. After 12 months, we estimate that online attention toward deplatformed influencers is reduced by -63% (95% CI [-75%,-46%]) on Google and by -43% (95% CI [-57%,-24%]) on Wikipedia. Further, as we study over a hundred deplatforming events, we can analyze in which cases deplatforming is more or less impactful, revealing nuances about the intervention. Notably, we find that both permanent and temporary deplatforming reduce online attention toward influencers; Overall, this work contributes to the ongoing effort to map the effectiveness of content moderation interventions, driving platform governance away from speculation. | 翻訳日:2024-01-03 13:36:32 公開日:2024-01-02 |
# 大きな巻数を持つフロケット位相位相 Floquet topological phases with large winding number ( http://arxiv.org/abs/2401.01250v1 ) ライセンス: Link先を確認 | Kaiye Shi, Xiang Zhang and Wei Zhang | (参考訳) 近年,各準エネルギーギャップにおいて,周期駆動モデルが巻数1と一対のエッジモードをサポートするように実現され,静的な相を伴わない異常なフロッケ位相相が観測されている。
ここでは, 光学格子中の低温原子ガスに着目し, 回転対称性を破るが, 即時ハミルトニアンの反転対称性を維持できる新しい駆動方式を提案し, 1 より大きい巻数を持つ新しいタイプの異常フロケ位相を発見する。
対称性制約下でのバンドタッチの条件を解析することにより、位相図を正確に駆動パラメータを変化させてマッピングし、典型的な位相位相の準エネルギースペクトルを議論する。
最後に、クエンチダイナミクスによるバンド反転面の検出により、そのような位相の位相を特徴付けることを提案する。 Recently, anomalous Floquet topological phases without static counterparts have been observed in different systems, where periodically driven models are realized to support a winding number of 1 and a pair of edge modes in each quasienergy gap. Here, we focus on cold atomic gases in optical lattices and propose a novel driving scheme that breaks rotation symmetry but maintains inversion symmetry of the instantaneous Hamiltonian, and discover a novel type of anomalous Floquet topological phase with winding number larger than 1. By analyzing the condition of band touching under symmetry constraint, we map out the phase diagram exactly by varying the driving parameters and discuss the quasienergy spectra of typical topological phases, which can present multiple pairs of edge modes within a single gap. Finally, we suggest to characterize the topology of such phases by detecting the band inversion surfaces via quench dynamics. | 翻訳日:2024-01-03 13:35:59 公開日:2024-01-02 |
# 深層学習に基づくcocoa pods(theobroma cacao l.)の病原体同定モデル Deep Learning-Based Computational Model for Disease Identification in Cocoa Pods (Theobroma cacao L.) ( http://arxiv.org/abs/2401.01247v1 ) ライセンス: Link先を確認 | Darlyn Buena\~no Vera, Byron Oviedo, Washington Chiriboga Casanova, Cristian Zambrano-Vega | (参考訳) ココアポッドの病気の早期発見は、高品質のココアの生産を保証する重要な課題である。
機械学習、コンピュータビジョン、ディープラーニングといった人工知能技術の利用は、ココアポッドの病気を特定し分類するための有望なソリューションである。
本稿では,ココアの病原体同定に応用した深層学習計算モデルの開発と評価を行い,「モニリア」と「ブラックポッド」の病原体に着目した。
コンピュータビジョンと深層学習技術を用いた植物病の同定に関する科学的論文をもとに,計算モデルの最先端技術に関する徹底的なレビューを行った。
検索の結果,オブジェクト検出の効率的かつ軽量なモデルであるEfficientDet-Lite4が選択された。
健康なcocoaポッドと病気のあるcocoaポッドの両方の画像を含むデータセットは、モデルのトレーニングに利用され、かなりの精度で病気の症状を検出し、特定する。
モデルトレーニングおよび評価における重要な強化は、画像解析による疾患の認識と分類能力を示す。
さらに、モデルの機能はユーザフレンドリーなインターフェースを備えたAndroidネイティブモバイルに統合され、若い農家や経験の浅い農家がココアポッドの健康状態の迅速かつ正確な識別が可能になる。 The early identification of diseases in cocoa pods is an important task to guarantee the production of high-quality cocoa. The use of artificial intelligence techniques such as machine learning, computer vision and deep learning are promising solutions to help identify and classify diseases in cocoa pods. In this paper we introduce the development and evaluation of a deep learning computational model applied to the identification of diseases in cocoa pods, focusing on "monilia" and "black pod" diseases. An exhaustive review of state-of-the-art of computational models was carried out, based on scientific articles related to the identification of plant diseases using computer vision and deep learning techniques. As a result of the search, EfficientDet-Lite4, an efficient and lightweight model for object detection, was selected. A dataset, including images of both healthy and diseased cocoa pods, has been utilized to train the model to detect and pinpoint disease manifestations with considerable accuracy. Significant enhancements in the model training and evaluation demonstrate the capability of recognizing and classifying diseases through image analysis. Furthermore, the functionalities of the model were integrated into an Android native mobile with an user-friendly interface, allowing to younger or inexperienced farmers a fast and accuracy identification of health status of cocoa pods | 翻訳日:2024-01-03 13:35:43 公開日:2024-01-02 |
# 誤差をもつ量子クリロフアルゴリズムの解析 Analysis of quantum Krylov algorithms with errors ( http://arxiv.org/abs/2401.01246v1 ) ライセンス: Link先を確認 | William Kirby | (参考訳) この研究は、量子回路の出力における一般的なエラーを対象とする、リアルタイム進化に基づく量子クリロフアルゴリズムの誤差解析を提供する。
これらの誤差を要約するために, 集合雑音率を定式化し, 基底状態エネルギー推定結果の誤差が, その雑音率において一階線形であることを証明した。
これにより、この線形スケーリングを示す既知の数値と、正方根スケーリングしか得られない事前理論解析との間の不一致が解消される。
我々の主な手法は、実効的クリロフ空間で研究された実効的対象ハミルトニアンの観点から、一般的な誤差を表現することである。
これらの結果は量子クライロフ誤差の主な特徴を理解するための理論的枠組みを提供する。 This work provides an error analysis of quantum Krylov algorithms based on real-time evolutions, subject to generic errors in the outputs of the quantum circuits. We establish a collective noise rate to summarize those errors, and prove that the resulting errors in the ground state energy estimates are leading-order linear in that noise rate. This resolves a misalignment between known numerics, which exhibit this linear scaling, and prior theoretical analysis, which only provably obtained square-root scaling. Our main technique is expressing generic errors in terms of an effective target Hamiltonian studied in an effective Krylov space. These results provide a theoretical framework for understanding the main features of quantum Krylov errors. | 翻訳日:2024-01-03 13:35:21 公開日:2024-01-02 |
# モーダリティプロンプトを用いた時間適応RGBT追跡 Temporal Adaptive RGBT Tracking with Modality Prompt ( http://arxiv.org/abs/2401.01244v1 ) ライセンス: Link先を確認 | Hongyu Wang, Xiaotao Liu, Yifan Li, Meng Sun, Dian Yuan, Jing Liu | (参考訳) RGBTトラッキングは、ロボット工学、監視処理、自動運転など様々な分野で広く使われている。
既存のRGBTトラッカーは、テンプレートと検索領域の間の空間情報を十分に探索し、外観マッチング結果に基づいてターゲットを特定する。
しかし、これらのRGBTトラッカーは、時間的情報を無視したり、オンラインサンプリングやトレーニングを通じて利用したり、時間的情報を非常に限定的に利用している。
前者は物体の状態の変化に対処するのに苦労し、後者は空間情報と時間情報の相関を無視する。
これらの制約を緩和するために,TATrack という名称のテンポラル適応 RGBT トラッキングフレームワークを提案する。
TATrackは時空間的2ストリーム構造を持ち、オンライン更新テンプレートによって時間情報をキャプチャする。この2ストリーム構造は、初期テンプレートとオンライン更新テンプレートのマルチモーダル特徴抽出と相互モーダル相互作用をそれぞれ参照する。
TATrackは、ターゲットローカライゼーションのための時空間情報とマルチモーダル情報を包括的に活用する。
さらに、2つの分岐をブリッジし、より長い時間スケールにまたがるクロスモーダル相互作用を可能にする時空間相互作用(STI)機構を設計する。
3つのRGBT追跡ベンチマークの大規模な実験により,本手法はリアルタイムに動作しながら最先端の性能を実現する。 RGBT tracking has been widely used in various fields such as robotics, surveillance processing, and autonomous driving. Existing RGBT trackers fully explore the spatial information between the template and the search region and locate the target based on the appearance matching results. However, these RGBT trackers have very limited exploitation of temporal information, either ignoring temporal information or exploiting it through online sampling and training. The former struggles to cope with the object state changes, while the latter neglects the correlation between spatial and temporal information. To alleviate these limitations, we propose a novel Temporal Adaptive RGBT Tracking framework, named as TATrack. TATrack has a spatio-temporal two-stream structure and captures temporal information by an online updated template, where the two-stream structure refers to the multi-modal feature extraction and cross-modal interaction for the initial template and the online update template respectively. TATrack contributes to comprehensively exploit spatio-temporal information and multi-modal information for target localization. In addition, we design a spatio-temporal interaction (STI) mechanism that bridges two branches and enables cross-modal interaction to span longer time scales. Extensive experiments on three popular RGBT tracking benchmarks show that our method achieves state-of-the-art performance, while running at real-time speed. | 翻訳日:2024-01-03 13:35:09 公開日:2024-01-02 |
# 共進化リーマン空間におけるコントラスト系列相互作用ネットワーク学習 Contrastive Sequential Interaction Network Learning on Co-Evolving Riemannian Spaces ( http://arxiv.org/abs/2401.01243v1 ) ライセンス: Link先を確認 | Li Sun, Junda Ye, Jiawei Zhang, Yong Yang, Mingsheng Liu, Feiyang Wang, Philip S.Yu | (参考訳) シーケンシャルなインタラクションネットワークは通常,レコメンダシステムなど,さまざまなアプリケーションで使用されている。
ここで、将来の相互作用を推測することは基本的な重要性であり、以前の取り組みは主に古典的零曲率ユークリッド空間の力学に焦点を当てている。
両部的な性質では、ユーザとアイテムノードを、固有の違いに関わらず、ひとつの同じ空間に配置することは適切か?
ネットワーク力学では、固定曲率空間の代わりに、新しい相互作用が連続的に現れるとき、表現空間は進化するのか?
学習パラダイムでは、ラベル情報を入手するのにコストがかかるのか?
上記の問題に対処するために, CSINCERE を用いた連続相互作用ネットワーク学習のための新しいコントラストモデルを提案する。
我々の知る限り、我々は、単一の空間や静的空間ではなく、複数の共進化表現空間を初めて導入し、シーケンシャルな相互作用ネットワークのための共競合学習を提案する。
CSINCEREでは、異なるリーマン幾何学の表現空間を横断するメッセージパッシングのためのクロススペースアグリゲーションを定式化し、リッチ曲率に基づくニューラル曲率推定器を設計し、時間とともに空間の進化をモデル化する。
その後,シーケンシャルネットワークの時間的視点の相互相関性が向上し,二つのリーマン空間がラベル無しの相互作用予測のために相互に相互作用することを示す。
5つの公開データセットの実証結果は、最先端の手法よりもCSINCEREの方が優れていることを示している。 The sequential interaction network usually find itself in a variety of applications, e.g., recommender system. Herein, inferring future interaction is of fundamental importance, and previous efforts are mainly focused on the dynamics in the classic zero-curvature Euclidean space. Despite the promising results achieved by previous methods, a range of significant issues still largely remains open: On the bipartite nature, is it appropriate to place user and item nodes in one identical space regardless of their inherent difference? On the network dynamics, instead of a fixed curvature space, will the representation spaces evolve when new interactions arrive continuously? On the learning paradigm, can we get rid of the label information costly to acquire? To address the aforementioned issues, we propose a novel Contrastive model for Sequential Interaction Network learning on Co-Evolving RiEmannian spaces, CSINCERE. To the best of our knowledge, we are the first to introduce a couple of co-evolving representation spaces, rather than a single or static space, and propose a co-contrastive learning for the sequential interaction network. In CSINCERE, we formulate a Cross-Space Aggregation for message-passing across representation spaces of different Riemannian geometries, and design a Neural Curvature Estimator based on Ricci curvatures for modeling the space evolvement over time. Thereafter, we present a Reweighed Co-Contrast between the temporal views of the sequential network, so that the couple of Riemannian spaces interact with each other for the interaction prediction without labels. Empirical results on 5 public datasets show the superiority of CSINCERE over the state-of-the-art methods. | 翻訳日:2024-01-03 13:34:48 公開日:2024-01-02 |
# コントラスト学習を用いた根木における連続時系列からのバイナリイベントの符号化 Encoding Binary Events from Continuous Time Series in Rooted Trees using Contrastive Learning ( http://arxiv.org/abs/2401.01242v1 ) ライセンス: Link先を確認 | Tobias Engelhardt Rasmussen and Siv S{\o}rensen | (参考訳) ブロードバンドインフラストラクチャの所有者は、顧客がローカルネットワークでどのように接続されているかを知っているとは限らない。
近年の研究では、木の葉(カストマー)からの離散時系列データを用いて、局所ネットワークのトポロジーを推測することができる。
本研究では,連続時系列データからバイナリイベントエンコーダを学習するための対比的アプローチを提案する。
予備的な結果として,本手法が有意義なエンコーダの学習に有効であることを示す。 Broadband infrastructure owners do not always know how their customers are connected in the local networks, which are structured as rooted trees. A recent study is able to infer the topology of a local network using discrete time series data from the leaves of the tree (customers). In this study we propose a contrastive approach for learning a binary event encoder from continuous time series data. As a preliminary result, we show that our approach has some potential in learning a valuable encoder. | 翻訳日:2024-01-03 13:34:21 公開日:2024-01-02 |
# センサフュージョンを用いた自律走行車用GNSSスポーフィング検出フレームワークの実験検証 Experimental Validation of Sensor Fusion-based GNSS Spoofing Attack Detection Framework for Autonomous Vehicles ( http://arxiv.org/abs/2401.01304v1 ) ライセンス: Link先を確認 | Sagar Dasgupta, Kazi Hassan Shakib, Mizanur Rahman | (参考訳) 本稿では,センサフュージョンをベースとしたグローバルナビゲーション衛星システム(GNSS)の自律走行車(AV)用スプーフィング攻撃検出フレームワークの性能を検証する。
データを収集するために、GNSS受信機を備えた車両と慣性測定ユニット(IMU)を使用する。
最初の戦略は、2つの連続するタイムスタンプ間の距離である予測位置シフトと慣性センサーに基づく位置シフトを比較することである。
この目的のために、加速度センサやジャイロセンサーなどの低コストの車載慣性センサーからのデータを融合し、長期記憶(LSTM)ニューラルネットワークに供給する。
第2の戦略はランダムフォレストが監督する機械学習モデルを用いてターンを検出して分類し、操舵角度センサからの出力を用いて左右のターンを区別する。
実験では、ターンバイターンと間違ったターンの2種類のスプーフィング攻撃モデルをシミュレートする。
これらの偽造攻撃はSQLインジェクションアタックとしてモデル化され、実装が成功すると、ナビゲーションシステムは偽造された位置情報を正当なGNSS信号を検出できずに正当であると認識する。
重要なことは、IMUのデータはスプーフィング攻撃を通じて未妥協のままである。
検出フレームワークの有効性をテストするため,都市道路構造を模倣したタスカルーサで実験を行った。
その結果,低位置ドリフト攻撃を含む様々な高度なGNSSスプーフィング攻撃を検出できることが示された。
全体としては,gssスプーフィング脅威に対するavsの保護におけるセンサフュージョンに基づくスプーフィング攻撃検出手法のロバスト性と有効性を示す。 In this paper, we validate the performance of the a sensor fusion-based Global Navigation Satellite System (GNSS) spoofing attack detection framework for Autonomous Vehicles (AVs). To collect data, a vehicle equipped with a GNSS receiver, along with Inertial Measurement Unit (IMU) is used. The detection framework incorporates two strategies: The first strategy involves comparing the predicted location shift, which is the distance traveled between two consecutive timestamps, with the inertial sensor-based location shift. For this purpose, data from low-cost in-vehicle inertial sensors such as the accelerometer and gyroscope sensor are fused and fed into a long short-term memory (LSTM) neural network. The second strategy employs a Random-Forest supervised machine learning model to detect and classify turns, distinguishing between left and right turns using the output from the steering angle sensor. In experiments, two types of spoofing attack models: turn-by-turn and wrong turn are simulated. These spoofing attacks are modeled as SQL injection attacks, where, upon successful implementation, the navigation system perceives injected spoofed location information as legitimate while being unable to detect legitimate GNSS signals. Importantly, the IMU data remains uncompromised throughout the spoofing attack. To test the effectiveness of the detection framework, experiments are conducted in Tuscaloosa, AL, mimicking urban road structures. The results demonstrate the framework's ability to detect various sophisticated GNSS spoofing attacks, even including slow position drifting attacks. Overall, the experimental results showcase the robustness and efficacy of the sensor fusion-based spoofing attack detection approach in safeguarding AVs against GNSS spoofing threats. | 翻訳日:2024-01-03 13:28:19 公開日:2024-01-02 |
# mr画像を用いた脳腫瘍セグメンテーションのための説明可能なアクティベーションマップを用いたエッジのu-netモデルへの統合 Integrating Edges into U-Net Models with Explainable Activation Maps for Brain Tumor Segmentation using MR Images ( http://arxiv.org/abs/2401.01303v1 ) ライセンス: Link先を確認 | Subin Sahayam and Umarani Jayaraman | (参考訳) 磁気共鳴(MR)画像から腫瘍領域を手動で切り離すのに時間がかかり、専門家が必要であり、人的ミスをしがちである。
近年、深層学習モデルが脳腫瘍の分節化のゴーツーアプローチとなっている。
医用画像のセマンティクスセグメンテーションのためのu-netとその変種は、文献において良好な結果を得た。
しかし、u-netとその変異体は腫瘍領域を過小評価する傾向があり、腫瘍端を正確に区分することができない。
腫瘍の縁は、正確な診断、外科的精度、治療計画のための腫瘍領域と同じくらい重要である。
本研究は,脳腫瘍の基底真理に加えて,基底真理を導出するために,微分型フィルタとエッジ再構成を用いて基底真理からエッジを抽出することを目的としている。
基礎的真理の両立を利用して,脳腫瘍分節のための腫瘍基底真理とともに,腫瘍エッジを標的としたu-netとitsの変種アーキテクチャについて検討した。
著者はbrats2020ベンチマークデータセットを使用して研究を行い、結果はdiceとhausdorff95メトリクスに集計された。
腫瘍全体 (WT) , 腫瘍コア (TC) , 腫瘍領域の増強 (ET) について, 平均および中央値が算出される。
ベースラインのU-Netとその変種と比較して、エッジと腫瘍領域を学習したモデルは、トレーニングと検証の両方のデータセットにおいて、コア腫瘍領域でよく機能した。
U-NetやV-Netのようなベースラインモデルでトレーニングされたエッジトレーニングモデルの性能は、Swin U-NetやMR-U-Netのようなベースラインの最先端モデルと同様のパフォーマンスを達成した。
エッジターゲットトレーニングされたモデルは、治療計画に有用なエッジマップを生成することができる。
さらに, MR-U-Netが生成する活性化マップについて, さらなる説明可能性について検討した。 Manual delineation of tumor regions from magnetic resonance (MR) images is time-consuming, requires an expert, and is prone to human error. In recent years, deep learning models have been the go-to approach for the segmentation of brain tumors. U-Net and its' variants for semantic segmentation of medical images have achieved good results in the literature. However, U-Net and its' variants tend to over-segment tumor regions and may not accurately segment the tumor edges. The edges of the tumor are as important as the tumor regions for accurate diagnosis, surgical precision, and treatment planning. In the proposed work, the authors aim to extract edges from the ground truth using a derivative-like filter followed by edge reconstruction to obtain an edge ground truth in addition to the brain tumor ground truth. Utilizing both ground truths, the author studies several U-Net and its' variant architectures with and without tumor edges ground truth as a target along with the tumor ground truth for brain tumor segmentation. The author used the BraTS2020 benchmark dataset to perform the study and the results are tabulated for the dice and Hausdorff95 metrics. The mean and median metrics are calculated for the whole tumor (WT), tumor core (TC), and enhancing tumor (ET) regions. Compared to the baseline U-Net and its variants, the models that learned edges along with the tumor regions performed well in core tumor regions in both training and validation datasets. The improved performance of edge-trained models trained on baseline models like U-Net and V-Net achieved performance similar to baseline state-of-the-art models like Swin U-Net and hybrid MR-U-Net. The edge-target trained models are capable of generating edge maps that can be useful for treatment planning. Additionally, for further explainability of the results, the activation map generated by the hybrid MR-U-Net has been studied. | 翻訳日:2024-01-03 13:27:50 公開日:2024-01-02 |
# 大規模法的フィクション:大規模言語モデルにおける法的幻覚のプロファイリング Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models ( http://arxiv.org/abs/2401.01301v1 ) ライセンス: Link先を確認 | Matthew Dahl, Varun Magesh, Mirac Suzgun, Daniel E. Ho | (参考訳) 大規模言語モデル(llm)は、法律の実践を変革する可能性を秘めているが、この可能性は法的な幻覚の存在によって脅かされている。
そこで本研究では,これらの幻覚の程度を,従来の法的クエリを用いて検討し,構造化された法的メタデータに対するLSMの応答を比較し,一貫性を検討する。
本研究は,(1)法的な幻覚の類型化を開発し,今後の研究のための概念的枠組みを提供する。
2)chatgpt 3.5では69%、llama 2では88%、無作為な連邦裁判所事件については特定の検証可能な質問がなされている。
3) llmは, 反事実的質問設定において, ユーザの誤った法的仮定を訂正できないことが多い。
(4) 法的な幻覚を発生させるとき, LLM が常に予測できないこと, あるいは常に知ることができないことの証拠を提供する。
これらの知見は,LLMの迅速かつ教師なしな法的統合に注意を払っている。
経験豊富な弁護士でさえ、法的な幻覚を警戒しなければならず、llmの利益を最も多く得ている人、または伝統的な法的な資源にアクセスできない人にとって、リスクは高い。 Large language models (LLMs) have the potential to transform the practice of law, but this potential is threatened by the presence of legal hallucinations -- responses from these models that are not consistent with legal facts. We investigate the extent of these hallucinations using an original suite of legal queries, comparing LLMs' responses to structured legal metadata and examining their consistency. Our work makes four key contributions: (1) We develop a typology of legal hallucinations, providing a conceptual framework for future research in this area. (2) We find that legal hallucinations are alarmingly prevalent, occurring between 69% of the time with ChatGPT 3.5 and 88% with Llama 2, when these models are asked specific, verifiable questions about random federal court cases. (3) We illustrate that LLMs often fail to correct a user's incorrect legal assumptions in a contra-factual question setup. (4) We provide evidence that LLMs cannot always predict, or do not always know, when they are producing legal hallucinations. Taken together, these findings caution against the rapid and unsupervised integration of popular LLMs into legal tasks. Even experienced lawyers must remain wary of legal hallucinations, and the risks are highest for those who stand to benefit from LLMs the most -- pro se litigants or those without access to traditional legal resources. | 翻訳日:2024-01-03 13:27:17 公開日:2024-01-02 |
# 差分プライバシーを持つ効率的なスパース最小絶対偏差回帰 Efficient Sparse Least Absolute Deviation Regression with Differential Privacy ( http://arxiv.org/abs/2401.01294v1 ) ライセンス: Link先を確認 | Weidong Liu, Xiaojun Mao, Xiaofei Zhang, Xin Zhang | (参考訳) 近年、多くの科学分野における重要な応用のために、プライバシー保護機械学習アルゴリズムが注目を集めている。
しかし、文献では、ほとんどのプライバシー保護アルゴリズムは、学習対象を強い凸とリプシッツ滑らかにすることを要求するため、広範なロバストな損失関数(例えば、分位/絶対損失)をカバーすることはできない。
本研究では,頑健な回帰問題に対する高速なプライバシー保護学習ソリューションの開発を目指す。
私たちの学習損失は、ロバストな最小絶対損失と、$\ell_1$スパースペナルティ項からなる。
与えられたプライバシー予算の下での非スムース損失を高速に解くために,絶対偏差を最小に抑える高速ロバスト・プライバシ保存推定(frappe)アルゴリズムを開発した。
本アルゴリズムは,分散lad問題をペナルド最小二乗推定問題として再構成し,$(\epsilon,\delta)$-differential privacyを保証するために3段階のノイズインジェクションを採用することで,高速推定を実現する。
提案手法は,プライバシ保存型回帰アルゴリズムと比較して,プライバシと統計精度のトレードオフが向上することを示す。
最後に,提案したFRAPPEアルゴリズムの有効性を検証する実験を行った。 In recent years, privacy-preserving machine learning algorithms have attracted increasing attention because of their important applications in many scientific fields. However, in the literature, most privacy-preserving algorithms demand learning objectives to be strongly convex and Lipschitz smooth, which thus cannot cover a wide class of robust loss functions (e.g., quantile/least absolute loss). In this work, we aim to develop a fast privacy-preserving learning solution for a sparse robust regression problem. Our learning loss consists of a robust least absolute loss and an $\ell_1$ sparse penalty term. To fast solve the non-smooth loss under a given privacy budget, we develop a Fast Robust And Privacy-Preserving Estimation (FRAPPE) algorithm for least absolute deviation regression. Our algorithm achieves a fast estimation by reformulating the sparse LAD problem as a penalized least square estimation problem and adopts a three-stage noise injection to guarantee the $(\epsilon,\delta)$-differential privacy. We show that our algorithm can achieve better privacy and statistical accuracy trade-off compared with the state-of-the-art privacy-preserving regression algorithms. In the end, we conduct experiments to verify the efficiency of our proposed FRAPPE algorithm. | 翻訳日:2024-01-03 13:26:52 公開日:2024-01-02 |
# ジェネレーティブAIはすでに公共セクターで普及している Generative AI is already widespread in the public sector ( http://arxiv.org/abs/2401.01291v1 ) ライセンス: Link先を確認 | Jonathan Bright and Florence E. Enock and Saba Esnaashari and John Francis and Youmna Hashem and Deborah Morgan | (参考訳) 生成AIは、生産性を高め、官僚制に費やした時間を短縮することによって、公共サービスの提供方法を変える可能性がある。
さらに、他のタイプの人工知能とは異なり、ボトムアップ採用のために急速に普及している技術である。
しかし、ジェネレーティブaiはすでに公共部門でどの程度使われているのか?
英国における938人の公共サービス専門家(教育、健康、社会福祉、救急サービスなど)に対する調査は、この質問に答えようとしている。
回答者の45%は、自分たちの領域内で生成AIの使用を認識しており、22%は、生成AIシステムを積極的に使用しています。
公共セクターの専門家は、この技術の現在の利用と、その効率を高め、将来官僚的負荷を減らす可能性の両方に肯定的だった。
例えば、NHSで働く人々は、生成AIが適切に活用された場合、官僚主義に費やされた時間は50%から30%に減少し、週に1日に相当する(大きな影響がある)と考えた。
当社の調査では、生成的AI出力に関する信頼度(61%)が高く、置換に対する恐れ(16%)も低かった。
回答者は全体として楽観的だったが、英国が公共サービスの改善にaiを使う機会を欠いているという懸念(76%)や、職場でのai利用に関する明確なガイダンスがあるように感じた回答者(32%)は少なかった。
言い換えれば、生成的AIが既に公共セクターを変革していることは明らかだが、明確なガイドラインなしでは、取り組まれていない。
イギリスの公共部門は、この技術を利用するためのより体系的な方法を開発する必要がある。 Generative AI has the potential to transform how public services are delivered by enhancing productivity and reducing time spent on bureaucracy. Furthermore, unlike other types of artificial intelligence, it is a technology that has quickly become widely available for bottom-up adoption: essentially anyone can decide to make use of it in their day to day work. But to what extent is generative AI already in use in the public sector? Our survey of 938 public service professionals within the UK (covering education, health, social work and emergency services) seeks to answer this question. We find that use of generative AI systems is already widespread: 45% of respondents were aware of generative AI usage within their area of work, while 22% actively use a generative AI system. Public sector professionals were positive about both current use of the technology and its potential to enhance their efficiency and reduce bureaucratic workload in the future. For example, those working in the NHS thought that time spent on bureaucracy could drop from 50% to 30% if generative AI was properly exploited, an equivalent of one day per week (an enormous potential impact). Our survey also found a high amount of trust (61%) around generative AI outputs, and a low fear of replacement (16%). While respondents were optimistic overall, areas of concern included feeling like the UK is missing out on opportunities to use AI to improve public services (76%), and only a minority of respondents (32%) felt like there was clear guidance on generative AI usage in their workplaces. In other words, it is clear that generative AI is already transforming the public sector, but uptake is happening in a disorganised fashion without clear guidelines. The UK's public sector urgently needs to develop more systematic methods for taking advantage of the technology. | 翻訳日:2024-01-03 13:26:27 公開日:2024-01-02 |
# 大規模言語モデルの知識編集に関する総合的研究 A Comprehensive Study of Knowledge Editing for Large Language Models ( http://arxiv.org/abs/2401.01286v1 ) ライセンス: Link先を確認 | Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen | (参考訳) 大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
しかしながら、主な制限はトレーニング中の重要な計算要求であり、その広範なパラメータ化が原因である。
この課題は世界のダイナミックな性質によってさらに強化され、古い情報を修正したり、新しい知識を統合するためにllmの頻繁な更新が必要である。
多くのアプリケーションは、欠陥や望ましくない振る舞いに対処するために、訓練後のモデル調整を要求している。
オンザフライモデル修正のための効率的で軽量な手法への関心が高まっている。
この目的のために, 近年, LLM の知識編集技術が盛んになり, 様々な入力の全体的な性能を保ちながら, 特定の領域内での LLM の振る舞いを効率的に修正することを目指している。
本稿ではまず,知識編集の問題を定義し,最先端アプローチの総合的なレビューを行う。
教育・認知研究理論から着想を得て,外部知識への依存,モデルへの知識の融合,内在知識の編集という,知識編集手法を3つのグループに分類する統一分類基準を提案する。
さらに,代表的知識編集手法の包括的評価のために,新しいベンチマークであるnoweditを導入する。
さらに,LLMに含まれる知識構造をより深く理解することのできる,知識位置の詳細な分析を行う。
最後に,知識編集の潜在的な応用について検討し,その広範かつ影響の大きい影響について概説する。 Large Language Models (LLMs) have shown extraordinary capabilities in understanding and generating text that closely mirrors human communication. However, a primary limitation lies in the significant computational demands during training, arising from their extensive parameterization. This challenge is further intensified by the dynamic nature of the world, necessitating frequent updates to LLMs to correct outdated information or integrate new knowledge, thereby ensuring their continued relevance. Note that many applications demand continual model adjustments post-training to address deficiencies or undesirable behaviors. There is an increasing interest in efficient, lightweight methods for on-the-fly model modifications. To this end, recent years have seen a burgeoning in the techniques of knowledge editing for LLMs, which aim to efficiently modify LLMs' behaviors within specific domains while preserving overall performance across various inputs. In this paper, we first define the knowledge editing problem and then provide a comprehensive review of cutting-edge approaches. Drawing inspiration from educational and cognitive research theories, we propose a unified categorization criterion that classifies knowledge editing methods into three groups: resorting to external knowledge, merging knowledge into the model, and editing intrinsic knowledge. Furthermore, we introduce a new benchmark, KnowEdit, for a comprehensive empirical evaluation of representative knowledge editing approaches. Additionally, we provide an in-depth analysis of knowledge location, which can provide a deeper understanding of the knowledge structures inherent within LLMs. Finally, we discuss several potential applications of knowledge editing, outlining its broad and impactful implications. | 翻訳日:2024-01-03 13:25:57 公開日:2024-01-02 |
# 導入科目における社会責任コンピューティング Socially Responsible Computing in an Introductory Course ( http://arxiv.org/abs/2401.01285v1 ) ライセンス: Link先を確認 | Aakash Gautam, Anagha Kulkarni, Sarah Hug, Jane Lehr, Ilmi Yoon | (参考訳) テクノロジーが社会に害を与え、不正をもたらす可能性を考えると、コンピュータサイエンス(CS)のカリキュラムが進むにつれて、学生の間で社会的責任感を育むことが不可欠である。
我々の学生は、技術開発と利用がどこにあるかという社会的複雑さを調べる必要がある。
また、学生の個人的目標と学習分野における目標達成能力の整合性は、モチベーションと帰属意識を促進する上で重要である。
コンピューティングを学習する際の共同目標の促進は、特に歴史的にコンピューティングに疎外されたグループにおける参加の拡大に役立つ。
これらの留意点を念頭に置いて,倫理的および社会的責任を負う留学生の活動がモジュール間で統合される,導入的なjavaプログラミングコースを試行した。
技術的コンテンツの上にソーシャルを加えるのではなく、我々のカリキュラム的アプローチはそれらを織り合わせようとしている。
授業のデータは、技術的な課題に社会的文脈が組み込まれていることが、より動機付けされ、社会変革を実現するためのより大きなエージェンシーが表されたことを示唆している。
我々は,この新たな社会的責任ある計算コースと学生の振り返りをデザインするアプローチを共有している。
また,社会に責任を負うコンピューティングを取り入れようとする教育者に対する7つの考察を強調する。 Given the potential for technology to inflict harm and injustice on society, it is imperative that we cultivate a sense of social responsibility among our students as they progress through the Computer Science (CS) curriculum. Our students need to be able to examine the social complexities in which technology development and use are situated. Also, aligning students' personal goals and their ability to achieve them in their field of study is important for promoting motivation and a sense of belonging. Promoting communal goals while learning computing can help broaden participation, particularly among groups who have been historically marginalized in computing. Keeping these considerations in mind, we piloted an introductory Java programming course in which activities engaging students in ethical and socially responsible considerations were integrated across modules. Rather than adding social on top of the technical content, our curricular approach seeks to weave them together. The data from the class suggests that the students found the inclusion of the social context in the technical assignments to be more motivating and expressed greater agency in realizing social change. We share our approach to designing this new introductory socially responsible computing course and the students' reflections. We also highlight seven considerations for educators seeking to incorporate socially responsible computing. | 翻訳日:2024-01-03 13:25:32 公開日:2024-01-02 |
# 自動計測のための機械翻訳基準の品質と量 Quality and Quantity of Machine Translation References for Automated Metrics ( http://arxiv.org/abs/2401.01283v1 ) ライセンス: Link先を確認 | Vil\'em Zouhar, Ond\v{r}ej Bojar | (参考訳) 自動機械翻訳メトリクスは、しばしば人間の翻訳を使用して、システム翻訳の品質を決定する。
この分野の一般的な知恵は、人間の参照は非常に高品質であるべきだと規定している。
しかし,機械翻訳評価の参考資料収集を計画する実践者の指導には,費用対効果分析は使用できない。
高品質な参照は、セグメントレベルでの人間とのメトリクス相関をより良くする。
セグメントごとに7つの参照を持ち、平均を取ることは、すべてのメトリクスに役立つ。
興味深いことに、異なる品質のベンダーからの参照を混ぜ合わせてメトリクスの成功を改善することができる。
しかし、高品質な参照は作成により多くのコストがかかり、これを最適化の問題とみなす:特定の予算が与えられたら、メートル法の成功を最大化するためにどの参照を収集すべきか。
これらの発見は、特定の予算の下で参照を作成する必要がある場合、共有タスクの評価者によって利用することができる。 Automatic machine translation metrics often use human translations to determine the quality system translations. Common wisdom in the field dictates that the human references should be of very high quality. However, there are no cost-benefit analyses that could be used to guide practitioners who plan to collect references for machine translation evaluation. We find that higher-quality references lead to better metric correlations with humans at the segment-level. Having up to 7 references per segment and taking their average helps all metrics. Interestingly, the references from vendors of different qualities can be mixed together and improve metric success. Higher quality references, however, cost more to create and we frame this as an optimization problem: given a specific budget, what references should be collected to maximize metric success. These findings can be used by evaluators of shared tasks when references need to be created under a certain budget. | 翻訳日:2024-01-03 13:25:10 公開日:2024-01-02 |
# GEqO:MLによるセマンティック等価検出 GEqO: ML-Accelerated Semantic Equivalence Detection ( http://arxiv.org/abs/2401.01280v1 ) ライセンス: Link先を確認 | Brandon Haynes, Rana Alotaibi, Anna Pavlenko, Jyoti Leeka, Alekh Jindal, Yuanyuan Tian | (参考訳) 大規模分析エンジンは、ビジネスの洞察と行動を促すために、現代のデータ駆動型企業の中核的な依存関係となっている。
これらのエンジンは、大量のデータを日々処理する大量の分析ジョブをサポートしており、ワークロードはしばしば、複数のジョブにまたがる重なり合う計算で溢れています。
クラスタリソースの効率的な利用とジョブ実行時間の削減には,共通計算の再利用が不可欠である。
共通計算の検出は、この計算冗長性を減らすための第1ステップであり、鍵となるステップである。
しかし、大規模分析エンジンの等価性を検出するには、完全に自動化された効率的でスケーラブルなソリューションが必要である。
さらに、計算再利用を最大化するためには、構文レベル(一見異なるように見えるクエリのセマンティックな同値性を検出する能力)ではなく、意味レベルで同値性を検出する必要がある。
残念ながら、既存のソリューションはこれらの要件を満たすには至っていない。
本稿では,大規模で意味論的に等価な計算を効率的に識別する,ポータブルで軽量な機械学習ベースのフレームワークであるGEqOを提案する。
GEqOは2つの機械学習ベースのフィルタを導入し、非等価な部分表現を素早く生成し、半教師付き学習フィードバックループを用いて、インテリジェントサンプリング機構でモデルを反復的に改善する。
さらに、GEqOはデータベースに依存しない新しい成果化手法により、学習をひとつのワークロードから別のデータベースに転送することができる。
TPC-DSライクなクエリでは、GEqOは自動検証器の最大200倍の性能向上を示し、オプティマイザやシグネチャベースの等価性検出手法よりも最大2倍高い等価性を求める。 Large scale analytics engines have become a core dependency for modern data-driven enterprises to derive business insights and drive actions. These engines support a large number of analytic jobs processing huge volumes of data on a daily basis, and workloads are often inundated with overlapping computations across multiple jobs. Reusing common computation is crucial for efficient cluster resource utilization and reducing job execution time. Detecting common computation is the first and key step for reducing this computational redundancy. However, detecting equivalence on large-scale analytics engines requires efficient and scalable solutions that are fully automated. In addition, to maximize computation reuse, equivalence needs to be detected at the semantic level instead of just the syntactic level (i.e., the ability to detect semantic equivalence of seemingly different-looking queries). Unfortunately, existing solutions fall short of satisfying these requirements. In this paper, we take a major step towards filling this gap by proposing GEqO, a portable and lightweight machine-learning-based framework for efficiently identifying semantically equivalent computations at scale. GEqO introduces two machine-learning-based filters that quickly prune out nonequivalent subexpressions and employs a semi-supervised learning feedback loop to iteratively improve its model with an intelligent sampling mechanism. Further, with its novel database-agnostic featurization method, GEqO can transfer the learning from one workload and database to another. Our extensive empirical evaluation shows that, on TPC-DS-like queries, GEqO yields significant performance gains-up to 200x faster than automated verifiers-and finds up to 2x more equivalences than optimizer and signature-based equivalence detection approaches. | 翻訳日:2024-01-03 13:24:57 公開日:2024-01-02 |
# characterEval: ロールプレイング対話エージェント評価のための中国語ベンチマーク CharacterEval: A Chinese Benchmark for Role-Playing Conversational Agent Evaluation ( http://arxiv.org/abs/2401.01275v1 ) ライセンス: Link先を確認 | Quan Tu, Shilong Fan, Zihang Tian, Rui Yan | (参考訳) 近年,大規模言語モデル (LLM) の出現は, 生成因子に革命をもたらした。
その中でもRPCAs(Role-Playing Conversational Agents)は,ユーザを感情的にエンゲージする能力から注目されている。
しかし、包括的なベンチマークの欠如はこの分野の進展を妨げている。
このギャップを埋めるために、我々は、高品質なデータセットをカスタマイズした、包括的なRPCAアセスメントのための中国のベンチマークである characterEvalを紹介した。
データセットは、1,785のマルチターンロールプレイングダイアログで構成され、23,020のサンプルを含み、中国の小説や脚本から派生した77の文字を含む。
最初はGPT-4による対話抽出,続いて厳密な人間主導品質制御,さらにBaidu Baikeからの詳細な文字プロファイルの強化など,慎重に構築された。
CharacterEvalは、多面的評価アプローチを採用し、4次元の13のターゲットメトリックを包含する。
CharacterEvalの総合的な実験により、中国のLLMは中国のロールプレイング会話において、GPT-4よりも有望な能力を示した。
ソースコード、データソース、報酬モデルはhttps://github.com/morecry/CharacterEval.comで公開されている。 Recently, the advent of large language models (LLMs) has revolutionized generative agents. Among them, Role-Playing Conversational Agents (RPCAs) attract considerable attention due to their ability to emotionally engage users. However, the absence of a comprehensive benchmark impedes progress in this field. To bridge this gap, we introduce CharacterEval, a Chinese benchmark for comprehensive RPCA assessment, complemented by a tailored high-quality dataset. The dataset comprises 1,785 multi-turn role-playing dialogues, encompassing 23,020 examples and featuring 77 characters derived from Chinese novels and scripts. It was carefully constructed, beginning with initial dialogue extraction via GPT-4, followed by rigorous human-led quality control, and enhanced with in-depth character profiles sourced from Baidu Baike. CharacterEval employs a multifaceted evaluation approach, encompassing thirteen targeted metrics on four dimensions. Comprehensive experiments on CharacterEval demonstrate that Chinese LLMs exhibit more promising capabilities than GPT-4 in Chinese role-playing conversation. Source code, data source and reward model will be publicly accessible at https://github.com/morecry/CharacterEval. | 翻訳日:2024-01-03 13:24:26 公開日:2024-01-02 |
# 気候変動を考慮した部分観測環境における学習型農業経営 Learning-based agricultural management in partially observable environments subject to climate variability ( http://arxiv.org/abs/2401.01273v1 ) ライセンス: Link先を確認 | Zhaoan Wang, Shaoping Xiao, Junchao Li, Jun Wang | (参考訳) 特に肥育戦略に焦点を絞った農業経営は、作物の収量、経済的な収益性、環境持続可能性の形成において中心的な役割を担っている。
従来のガイドラインは貴重な洞察を提供するが、熱波や干ばつのような極端な気象条件に直面すると効果は低下する。
本研究では,Deep Reinforcement Learning(DRL)とRecurrent Neural Networks(RNN)を統合する革新的なフレームワークを提案する。
Gym-DSSATシミュレータを利用して、最適な窒素施肥管理をマスターするためにインテリジェントエージェントを訓練する。
アイオワ州でトウモロコシの作物について一連のシミュレーション実験を行い、部分観測可能なマルコフ決定過程(POMDP)モデルとマルコフ決定過程(MDP)モデルを比較した。
本研究は,より効率的な窒素入力政策の開発において,逐次観測を利用することの利点を浮き彫りにする。
さらに,気候変動,特に極端な気象イベントが農業の成果や経営に与える影響についても検討する。
本研究は,様々な気候条件に対する受精政策の適応性を示す。
特に、一定の政策は小さな気候変動に直面して回復力を示し、トウモロコシの収穫量、コスト効率、環境保全に繋がる。
しかし,本研究は,極端な気象条件下での新しい最適政策を得るためのエージェントリトレーニングの必要性を明らかにした。
この研究は、動的気候シナリオとシームレスに整合し、最終的には作物管理の最適化に寄与する適応可能な受精戦略に向けた有望なコースをグラフ化します。 Agricultural management, with a particular focus on fertilization strategies, holds a central role in shaping crop yield, economic profitability, and environmental sustainability. While conventional guidelines offer valuable insights, their efficacy diminishes when confronted with extreme weather conditions, such as heatwaves and droughts. In this study, we introduce an innovative framework that integrates Deep Reinforcement Learning (DRL) with Recurrent Neural Networks (RNNs). Leveraging the Gym-DSSAT simulator, we train an intelligent agent to master optimal nitrogen fertilization management. Through a series of simulation experiments conducted on corn crops in Iowa, we compare Partially Observable Markov Decision Process (POMDP) models with Markov Decision Process (MDP) models. Our research underscores the advantages of utilizing sequential observations in developing more efficient nitrogen input policies. Additionally, we explore the impact of climate variability, particularly during extreme weather events, on agricultural outcomes and management. Our findings demonstrate the adaptability of fertilization policies to varying climate conditions. Notably, a fixed policy exhibits resilience in the face of minor climate fluctuations, leading to commendable corn yields, cost-effectiveness, and environmental conservation. However, our study illuminates the need for agent retraining to acquire new optimal policies under extreme weather events. This research charts a promising course toward adaptable fertilization strategies that can seamlessly align with dynamic climate scenarios, ultimately contributing to the optimization of crop management practices. | 翻訳日:2024-01-03 13:24:08 公開日:2024-01-02 |
# MOC-RVQ:多レベルコードブック支援ディジタル生成セマンティックコミュニケーション MOC-RVQ: Multilevel Codebook-assisted Digital Generative Semantic Communication ( http://arxiv.org/abs/2401.01272v1 ) ライセンス: Link先を確認 | Yingbin Zhou, Yaping Sun, Guanying Chen, Xiaodong Xu, Hao Chen, Binhong Huang, Shuguang Cui, Ping Zhang | (参考訳) ベクトル量子化に基づく画像意味コミュニケーションシステムは伝送効率の向上に成功しているが、コードブック設計とデジタルコンステレーション変調の相反する要件に直面している。
伝統的なコードブックは幅広いインデックス範囲を必要とするが、変調は少ない離散状態を好む。
そこで本研究では,二段階学習フレームワークを用いた多レベル生成意味コミュニケーションシステムを提案する。
第1段階では,マルチヘッドオクタナリーコードブック(moc)を用いて,ハイクオリティなコードブックをトレーニングし,インデックス範囲を圧縮する。
また,マルチレベル通信のための残差ベクトル量子化(rvq)機構も統合した。
第2段階では、Swin Transformerに基づくノイズ低減ブロック(NRB)と、第1段からのマルチレベルコードブックが組み合わされ、生成的特徴回復のための高品質なセマンティックナレッジベース(SKB)として機能する。
実験結果は,チャネル誤り訂正符号がなくても,BPGやJPEGなどの手法よりもMOC-RVQの方が優れた性能を示す。 Vector quantization-based image semantic communication systems have successfully boosted transmission efficiency, but face a challenge with conflicting requirements between codebook design and digital constellation modulation. Traditional codebooks need a wide index range, while modulation favors few discrete states. To address this, we propose a multilevel generative semantic communication system with a two-stage training framework. In the first stage, we train a high-quality codebook, using a multi-head octonary codebook (MOC) to compress the index range. We also integrate a residual vector quantization (RVQ) mechanism for effective multilevel communication. In the second stage, a noise reduction block (NRB) based on Swin Transformer is introduced, coupled with the multilevel codebook from the first stage, serving as a high-quality semantic knowledge base (SKB) for generative feature restoration. Experimental results highlight MOC-RVQ's superior performance over methods like BPG or JPEG, even without channel error correction coding. | 翻訳日:2024-01-03 13:23:40 公開日:2024-01-02 |
# 大次元のソース条件下におけるカーネルリッジ回帰の最適速度 Optimal Rates of Kernel Ridge Regression under Source Condition in Large Dimensions ( http://arxiv.org/abs/2401.01270v1 ) ライセンス: Link先を確認 | Haobo Zhang, Yicheng Li, Weihao Lu, Qian Lin | (参考訳) ニューラルネットワーク(例えば、神経接核理論)の研究に動機づけられ、サンプルサイズ $n \asymp d^{\gamma}$ がいくつかの$\gamma > 0$ に対して与えられるカーネルリッジ回帰(krr)の大規模挙動の研究を行う。
球面 $\mathbb{s}^{d}$ 上で定義される内積核に付随する rkhs $\mathcal{h}$ が与えられたとき、真の関数 $f_{\rho}^{*} \in [\mathcal{h}]^{s}$ は、ソース条件 $s>0$ とともに $\mathcal{h}$ の補間空間である。
最初に最適選択正規化パラメータ$\lambda$ に対するカーネルリッジ回帰の一般化誤差の正確な順序(上界と下界の両方)を決定した。
さらに、$0<s\le1$のとき、KRRがミニマックス最適であり、$s>1$のとき、KRRはミニマックス最適ではない(つまり飽和効果)。
その結果,$\gamma$ に沿って変化する速度曲線は周期的台台地挙動と多重降下挙動を示し,曲線が$s>0$ でどのように発展するかを示す。
興味深いことに、我々の研究は、それぞれ$s=0$と$s=1$に対応する大次元設定におけるカーネル回帰に関する最近のいくつかの研究の統一的な視点を提供する。 Motivated by the studies of neural networks (e.g.,the neural tangent kernel theory), we perform a study on the large-dimensional behavior of kernel ridge regression (KRR) where the sample size $n \asymp d^{\gamma}$ for some $\gamma > 0$. Given an RKHS $\mathcal{H}$ associated with an inner product kernel defined on the sphere $\mathbb{S}^{d}$, we suppose that the true function $f_{\rho}^{*} \in [\mathcal{H}]^{s}$, the interpolation space of $\mathcal{H}$ with source condition $s>0$. We first determined the exact order (both upper and lower bound) of the generalization error of kernel ridge regression for the optimally chosen regularization parameter $\lambda$. We then further showed that when $0<s\le1$, KRR is minimax optimal; and when $s>1$, KRR is not minimax optimal (a.k.a. he saturation effect). Our results illustrate that the curves of rate varying along $\gamma$ exhibit the periodic plateau behavior and the multiple descent behavior and show how the curves evolve with $s>0$. Interestingly, our work provides a unified viewpoint of several recent works on kernel regression in the large-dimensional setting, which correspond to $s=0$ and $s=1$ respectively. | 翻訳日:2024-01-03 13:23:21 公開日:2024-01-02 |
# llbezpeky: 脆弱性検出に大規模な言語モデルを活用する LLbezpeky: Leveraging Large Language Models for Vulnerability Detection ( http://arxiv.org/abs/2401.01269v1 ) ライセンス: Link先を確認 | Noble Saji Mathews, Yelizaveta Brus, Yousra Aafer, Mei Nagappan, Shane McIntosh | (参考訳) セキュアなシステムの構築に関する研究と進展は続いているが、androidアプリケーションは依然として脆弱性を抱えており、効果的な検出方法を必要としている。
静的および動的分析ツールを含む現在の戦略には、圧倒的な数の偽陽性や、採用が難しい分析範囲の限定といった制限がある。
過去数年間、脆弱性検出のための機械学習ベースのアプローチが広く研究されてきたが、実際の適用性はデータ要件と機能エンジニアリングの課題によって制限されている。
LLM(Large Language Models)は、その膨大なパラメータを持ち、人間やプログラミング言語のセマンティックスを理解する大きな可能性を示している。
Androidセキュリティのコンテキストにおける脆弱性検出のためのLLMの有効性について検討する。
私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
実験の結果,LLMはGheraベンチマークの91.67%のケースで,安全でないアプリを正しくフラグ付けするアプリケーション内での問題を見つける上で,私たちの期待を上回る結果となった。
実験から得た推論を用いて,堅牢で実行可能な脆弱性検出システムの構築を行い,その効果を実証する。
私たちの実験では、さまざまな単純な構成がTrue Positive(TP)とFalse Positive(FP)のレートにどのように影響するかも明らかにしました。 Despite the continued research and progress in building secure systems, Android applications continue to be ridden with vulnerabilities, necessitating effective detection methods. Current strategies involving static and dynamic analysis tools come with limitations like overwhelming number of false positives and limited scope of analysis which make either difficult to adopt. Over the past years, machine learning based approaches have been extensively explored for vulnerability detection, but its real-world applicability is constrained by data requirements and feature engineering challenges. Large Language Models (LLMs), with their vast parameters, have shown tremendous potential in understanding semnatics in human as well as programming languages. We dive into the efficacy of LLMs for detecting vulnerabilities in the context of Android security. We focus on building an AI-driven workflow to assist developers in identifying and rectifying vulnerabilities. Our experiments show that LLMs outperform our expectations in finding issues within applications correctly flagging insecure apps in 91.67% of cases in the Ghera benchmark. We use inferences from our experiments towards building a robust and actionable vulnerability detection system and demonstrate its effectiveness. Our experiments also shed light on how different various simple configurations can affect the True Positive (TP) and False Positive (FP) rates. | 翻訳日:2024-01-03 13:22:50 公開日:2024-01-02 |
# 動的都市景観のモデル化のための街路ガウス Street Gaussians for Modeling Dynamic Urban Scenes ( http://arxiv.org/abs/2401.01339v1 ) ライセンス: Link先を確認 | Yunzhi Yan, Haotong Lin, Chenxu Zhou, Weijie Wang, Haiyang Sun, Kun Zhan, Xianpeng Lang, Xiaowei Zhou, Sida Peng | (参考訳) 本稿では,都会の街並みを単眼映像からモデル化する問題に取り組むことを目的としている。
近年の手法では、車両のアニメーション化に追従した車両のポーズを取り入れてNeRFを拡張し、ダイナミックな街路シーンのリアルなビュー合成を可能にしている。
しかしながら、その低速なトレーニングとレンダリング速度と、トラックされた車両のポーズにおける高精度さの必要性が大きな制限となっている。
私たちは、これらの制限に対処する新しい明示的なシーン表現であるStreet Gaussiansを紹介します。
具体的には、ダイナミック・アーバン・ストリートは、セマンティクス・ロジットと3dガウシアンを備えた点雲の集合として表現され、それぞれが前景の車両または背景に関連付けられている。
前景物体車の動力学をモデル化するために、各物体点雲は、動的外観のための動的球面調和モデルと共に、最適化可能なトラックポーズで最適化される。
明示的な表現は、オブジェクト車両と背景の簡単な合成を可能にし、30分以内のトレーニングで133 FPS (1066$\times$1600 resolution)でのシーン編集操作とレンダリングを可能にする。
提案手法は,kitti と waymo open datasets を含む複数の挑戦ベンチマークで評価した。
実験により,提案手法は,すべてのデータセットにまたがる最先端手法を一貫して上回ることがわかった。
さらに,提案した表現は,市販のトラッカーのポーズにのみ依存するにも関わらず,正確な接地ポーズを用いて達成した結果と同等の性能を提供する。
コードはhttps://zju3dv.github.io/street_gaussians/で入手できる。 This paper aims to tackle the problem of modeling dynamic urban street scenes from monocular videos. Recent methods extend NeRF by incorporating tracked vehicle poses to animate vehicles, enabling photo-realistic view synthesis of dynamic urban street scenes. However, significant limitations are their slow training and rendering speed, coupled with the critical need for high precision in tracked vehicle poses. We introduce Street Gaussians, a new explicit scene representation that tackles all these limitations. Specifically, the dynamic urban street is represented as a set of point clouds equipped with semantic logits and 3D Gaussians, each associated with either a foreground vehicle or the background. To model the dynamics of foreground object vehicles, each object point cloud is optimized with optimizable tracked poses, along with a dynamic spherical harmonics model for the dynamic appearance. The explicit representation allows easy composition of object vehicles and background, which in turn allows for scene editing operations and rendering at 133 FPS (1066$\times$1600 resolution) within half an hour of training. The proposed method is evaluated on multiple challenging benchmarks, including KITTI and Waymo Open datasets. Experiments show that the proposed method consistently outperforms state-of-the-art methods across all datasets. Furthermore, the proposed representation delivers performance on par with that achieved using precise ground-truth poses, despite relying only on poses from an off-the-shelf tracker. The code is available at https://zju3dv.github.io/street_gaussians/. | 翻訳日:2024-01-03 13:14:58 公開日:2024-01-02 |
# 弱い言語モデルを強い言語モデルに変換するセルフプレイ微調整 Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models ( http://arxiv.org/abs/2401.01335v1 ) ライセンス: Link先を確認 | Zixiang Chen and Yihe Deng and Huizhuo Yuan and Kaixuan Ji and Quanquan Gu | (参考訳) Supervised Fine-Tuning (SFT) を通じて人間の注釈付きデータのパワーを損なうことは、Large Language Models (LLMs) の進展に重要である。
本稿では,人手による付加的なデータを取得することなく,弱いものから強力なLSMを成長させる可能性を探る。
教師付き微調整モデルから始まる自己再生fIne-tuNing (SPIN) と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
より具体的には、LSMは以前のイテレーションから独自のトレーニングデータを生成し、人間の注釈付きデータから得られたものから、これらの自己生成応答を識別することでポリシーを精査する。
提案手法は,LSMを生来のモデルから強大なモデルへと段階的に上昇させ,SFTのための人手による実演データの完全な可能性を解き放つ。
理論的には,本手法の学習目標関数に対するグローバル最適化は,llmポリシーが対象データ分布に適合する場合にのみ達成できることを実証する。
実験により,HuggingFace Open LLM LeaderboardやMT-Bench,Big-Benchのデータセットなど,いくつかのベンチマークデータセットについて評価を行った。
以上の結果から,SPINはGPT-4の嗜好データを補足した直接選好最適化(DPO)によりトレーニングしたモデルよりも優れた性能が得られることがわかった。
これは自己プレイの約束に光を当て、熟練した相手を必要とせずにLDMにおける人間レベルのパフォーマンスの達成を可能にする。 Harnessing the power of human-annotated data through Supervised Fine-Tuning (SFT) is pivotal for advancing Large Language Models (LLMs). In this paper, we delve into the prospect of growing a strong LLM out of a weak one without the need for acquiring additional human-annotated data. We propose a new fine-tuning method called Self-Play fIne-tuNing (SPIN), which starts from a supervised fine-tuned model. At the heart of SPIN lies a self-play mechanism, where the LLM refines its capability by playing against instances of itself. More specifically, the LLM generates its own training data from its previous iterations, refining its policy by discerning these self-generated responses from those obtained from human-annotated data. Our method progressively elevates the LLM from a nascent model to a formidable one, unlocking the full potential of human-annotated demonstration data for SFT. Theoretically, we prove that the global optimum to the training objective function of our method is achieved only when the LLM policy aligns with the target data distribution. Empirically, we evaluate our method on several benchmark datasets including the HuggingFace Open LLM Leaderboard, MT-Bench, and datasets from Big-Bench. Our results show that SPIN can significantly improve the LLM's performance across a variety of benchmarks and even outperform models trained through direct preference optimization (DPO) supplemented with extra GPT-4 preference data. This sheds light on the promise of self-play, enabling the achievement of human-level performance in LLMs without the need for expert opponents. | 翻訳日:2024-01-03 13:14:32 公開日:2024-01-02 |
# 固体スピンに基づく超微細化ジャイロスコープ Hyperfine-enhanced gyroscope based on solid-state spins ( http://arxiv.org/abs/2401.01334v1 ) ライセンス: Link先を確認 | Guoqing Wang, Minh-Thi Nguyen, Paola Cappellaro | (参考訳) エレクトロ核スピン系に基づく固体プラットフォームは、工業用途と相性が良い感度、安定性、コンパクトなサイズのため、回転センシングの魅力的な候補である。
従来のスピンベースのジャイロスコープは、核スピン重ね合わせ状態の累積位相を測定して回転速度を抽出し、スピンの低下に苦しむ。
本稿では、ホスト材料に内在的に結びついているスピンを含む2スピン系に基づくジャイロスコーププロトコルを提案し、他方のスピンを分離する。
回転速度は、その集団状態から始まる2つのスピン間の相対的な回転角を測定して抽出される。
特に、2つのスピン間の相対回転速度は、その超微粒子カップリングによって1桁以上増大し、さらに達成可能な感度を高めることができる。
ジャイロスコープの究極の感度はスピン系の寿命によって制限され、磁気ノイズや初期化や量子ビット操作による制御誤差がある場合でも広いダイナミックレンジと互換性がある。
その結果,スロー回転の精密測定と基礎物理学の探索が可能となった。 Solid-state platforms based on electro-nuclear spin systems are attractive candidates for rotation sensing due to their excellent sensitivity, stability, and compact size, compatible with industrial applications. Conventional spin-based gyroscopes measure the accumulated phase of a nuclear spin superposition state to extract the rotation rate and thus suffer from spin dephasing. Here, we propose a gyroscope protocol based on a two-spin system that includes a spin intrinsically tied to the host material, while the other spin is isolated. The rotation rate is then extracted by measuring the relative rotation angle between the two spins starting from their population states, robust against spin dephasing. In particular, the relative rotation rate between the two spins can be enhanced by their hyperfine coupling by more than an order of magnitude, further boosting the achievable sensitivity. The ultimate sensitivity of the gyroscope is limited by the lifetime of the spin system and compatible with a broad dynamic range, even in the presence of magnetic noises or control errors due to initialization and qubit manipulations. Our result enables precise measurement of slow rotations and exploration of fundamental physics. | 翻訳日:2024-01-03 13:14:01 公開日:2024-01-02 |
# ダイヤモンド中の^<15}$nv中心を有するエミュレートされた核スピンジャイロスコープ Emulated nuclear spin gyroscope with $^{15}$NV centers in diamond ( http://arxiv.org/abs/2401.01333v1 ) ライセンス: Link先を確認 | Guoqing Wang, Minh-Thi Nguyen, Dane W. de Quilettes, Eden Price, Zhiyao Hu, Danielle A. Braje, Paola Cappellaro | (参考訳) 固体プラットフォームの核スピンは、長いコヒーレンス時間のために回転センサーを構築することを約束している。
これらのプラットフォームの中で、窒素空室センターは環境操作条件でかなりの注目を集めている。
しかし、NVジャイロスコープの現在の性能は、大きなスピンアンサンブルで操作する際のコヒーレンス低下によって制限されている。
これらの系のコヒーレンスを保護するには、コヒーレンス崩壊機構の体系的研究が必要である。
ここでは,nv中心の窒素-15核スピンをジャイロスコープの構築に利用し,そのエネルギー構造が単純で,窒素14核スピンに比べて核四重極項が消滅する利点があるが,コヒーレンス保護の課題が異なる。
我々は、異なるNV電子スピン多様体における核スピンのコヒーレンス崩壊機構を体系的に明らかにし、さらに、NV電子スピンのみを制御することに基づく堅牢なコヒーレンス保護プロトコルを開発し、15倍の劣化時間改善を実現する。
改良されたコヒーレンス保護により,設計した回転率パターンを計測し,磁気感度の向上を示すエミュレートジャイロスコープを実証した。 Nuclear spins in solid-state platforms are promising for building rotation sensors due to their long coherence times. Among these platforms, nitrogen-vacancy centers have attracted considerable attention with ambient operating conditions. However, the current performance of NV gyroscopes remains limited by the degraded coherence when operating with large spin ensembles. Protecting the coherence of these systems requires a systematic study of the coherence decay mechanism. Here we present the use of nitrogen-15 nuclear spins of NV centers in building gyroscopes, benefiting from its simpler energy structure and vanishing nuclear quadrupole term compared with nitrogen-14 nuclear spins, though suffering from different challenges in coherence protection. We systematically reveal the coherence decay mechanism of the nuclear spin in different NV electronic spin manifolds and further develop a robust coherence protection protocol based on controlling the NV electronic spin only, achieving a 15-fold dephasing time improvement. With the developed coherence protection, we demonstrate an emulated gyroscope by measuring a designed rotation rate pattern, showing an order-of-magnitude sensitivity improvement. | 翻訳日:2024-01-03 13:13:43 公開日:2024-01-02 |
# TREC iKAT 2023: The Interactive Knowledge Assistance Track Overview TREC iKAT 2023: The Interactive Knowledge Assistance Track Overview ( http://arxiv.org/abs/2401.01330v1 ) ライセンス: Link先を確認 | Mohammad Aliannejadi and Zahra Abbasiantaeb and Shubham Chatterjee and Jeffery Dalton and Leif Azzopardi | (参考訳) 会話的情報探索は、これまでの研究から大きく貢献した重要な研究分野である。
TREC Interactive Knowledge Assistance Track (iKAT)は、TREC Conversational Assistance Track (CAsT)の基盤となる。
しかし、iKATは、ユーザの以前のインタラクションと現在のコンテキストに基づいて応答を適応する対話型検索エージェントの作成と研究を際立たせる。
課題は、会話型検索エージェント(csa)がこのパーソナライズされたコンテキストを効率良く取り入れ、関連する情報をユーザに効果的に誘導できるようにすることにある。
iKATはまた、ユーザが結論に達したり、アクションを実行するために、データや情報を通じてオプションを重み付けする決定的な検索タスクを強調している。
日々の情報参照決定(旅行、健康、ショッピングなど)に共通するこれらのタスクは、情報空間に関する問い合わせや質問、オプションの検索、オプションの比較、オプションの長所と短所の特定などを含む、高レベルの情報オペレータのサブセットを中心に展開されることが多い。
さまざまなペルソナとその情報ニーズ(質問のシーケンスを通じて表現される)を考えると、さまざまな会話の軌跡が発生するでしょう。
本稿では,TREC iKATの初年度について報告し,課題,トピック,データ収集,評価フレームワークについて述べる。
我々はさらに提出をレビューし、その結果を要約する。 Conversational Information Seeking stands as a pivotal research area with significant contributions from previous works. The TREC Interactive Knowledge Assistance Track (iKAT) builds on the foundational work of the TREC Conversational Assistance Track (CAsT). However, iKAT distinctively emphasizes the creation and research of conversational search agents that adapt responses based on user's prior interactions and present context. The challenge lies in enabling Conversational Search Agents (CSA) to incorporate this personalized context to efficiency and effectively guide users through the relevant information to them. iKAT also emphasizes decisional search tasks, where users sift through data and information to weigh up options in order to reach a conclusion or perform an action. These tasks, prevalent in everyday information-seeking decisions -- be it related to travel, health, or shopping -- often revolve around a subset of high-level information operators where queries or questions about the information space include: finding options, comparing options, identifying the pros and cons of options, etc. Given the different personas and their information need (expressed through the sequence of questions), diverse conversation trajectories will arise -- because the answers to these similar queries will be very different. In this paper, we report on the first year of TREC iKAT, describing the task, topics, data collection, and evaluation framework. We further review the submissions and summarize the findings. | 翻訳日:2024-01-03 13:13:22 公開日:2024-01-02 |
# 共同エンティティと関係抽出のための自動回帰テキスト-グラフフレームワーク An Autoregressive Text-to-Graph Framework for Joint Entity and Relation Extraction ( http://arxiv.org/abs/2401.01326v1 ) ライセンス: Link先を確認 | Zaratiana Urchade, Nadi Tomeh, Pierre Holat, Thierry Charnois | (参考訳) 本稿では、条件付きシーケンス生成問題としてフレーミングすることで、非構造化テキストから結合エンティティと関係抽出を行う新しい手法を提案する。
左から右へのトークンレベルジェネレータである従来の生成情報抽出モデルとは対照的に,本手法はtextit{span-based} である。
ノードがテキストスパンを表し、エッジが関係トリプルを表す線形化グラフを生成する。
本手法では,スパンと関係型の動的語彙にポインティング機構を付加したトランスフォーマーエンコーダデコーダアーキテクチャを用いる。
提案モデルでは,提案手法により生成した出力を元のテキストで同時にグラウンド化しながら,エンティティとリレーションの構造的特性と境界を表現できる。
ベンチマークデータセットの評価は、我々のアプローチの有効性を評価し、競合する結果を実証する。
コードはhttps://github.com/urchade/atgで入手できる。 In this paper, we propose a novel method for joint entity and relation extraction from unstructured text by framing it as a conditional sequence generation problem. In contrast to conventional generative information extraction models that are left-to-right token-level generators, our approach is \textit{span-based}. It generates a linearized graph where nodes represent text spans and edges represent relation triplets. Our method employs a transformer encoder-decoder architecture with pointing mechanism on a dynamic vocabulary of spans and relation types. Our model can capture the structural characteristics and boundaries of entities and relations through span representations while simultaneously grounding the generated output in the original text thanks to the pointing mechanism. Evaluation on benchmark datasets validates the effectiveness of our approach, demonstrating competitive results. Code is available at https://github.com/urchade/ATG. | 翻訳日:2024-01-03 13:12:57 公開日:2024-01-02 |
# LLMのLongLM: チューニング不要の自己拡張LDMコンテキストウィンドウ LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning ( http://arxiv.org/abs/2401.01325v1 ) ライセンス: Link先を確認 | Hongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu, Chia-Yuan Chang, Huiyuan Chen, Xia Hu | (参考訳) この研究は、LLMが微調整なしで長いコンテキストを扱う能力を引き出す。
トレーニング中のトレーニングシーケンスの長さの制限は、推論のための長い入力シーケンスに対するLarge Language Models (LLM)の適用を制限する可能性がある。
本研究では,既存のLLM自体が長いコンテキストを扱う固有の能力を持っていることを論じる。
本論では,LLMのコンテキスト処理能力を最大限に活用するために,LLMのコンテキストウィンドウを単独で拡張することを提案する。
基本的な考え方は、グループレベルと近隣レベルという2段階の注意情報を構築することである。
2つのレベルは、オリジナルのモデルの自己注意によって計算される。
4行のコード修正しか行わず、提案手法は微調整なしで既存のLLMのコンテキストウインドウを拡張することができる。
提案手法は,既存のLLMのコンテキストウィンドウの長さを効果的に拡張できることを示す。 This work elicits LLMs' inherent ability to handle long contexts without fine-tuning. The limited length of the training sequence during training may limit the application of Large Language Models (LLMs) on long input sequences for inference. In this work, we argue that existing LLMs themselves have inherent capabilities for handling long contexts. Based on this argument, we suggest extending LLMs' context window by themselves to fully utilize the inherent ability.We propose Self-Extend to stimulate LLMs' long context handling potential. The basic idea is to construct bi-level attention information: the group level and the neighbor level. The two levels are computed by the original model's self-attention, which means the proposed does not require any training. With only four lines of code modification, the proposed method can effortlessly extend existing LLMs' context window without any fine-tuning. We conduct comprehensive experiments and the results show that the proposed method can effectively extend existing LLMs' context window's length. | 翻訳日:2024-01-03 13:12:42 公開日:2024-01-02 |
# 量子情報のための知識コンパイルマップ A Knowledge Compilation Map for Quantum Information ( http://arxiv.org/abs/2401.01322v1 ) ライセンス: Link先を確認 | Lieuwe Vinkhuijzen, Tim Coopmans, Alfons Laarman | (参考訳) 量子コンピューティングは最適化、機械学習、物理学において有望な応用を見つけており、量子情報を表現する様々なモデルの開発に繋がる。
これらの表現は、しばしば異なる文脈(多体物理学、機械学習、形式的検証、シミュレーション)で研究されるため、それらの簡潔さとそれらを更新するための操作の実行時の基本的なトレードオフについてはほとんど知られていない。
したがって、行列積状態(MPS)、決定図(DD)、制限ボルツマンマシン(RBM)の3つの広く使われている量子状態表現を解析的に検討する。
これらのデータ構造の相対的簡潔性をマップし、関連するクエリおよび操作操作の複雑さを提供する。
さらに, 簡潔性と操作効率のバランスを図示するために, 本研究で研究されている非カノニカルデータ構造のサポートにより, 高速性の概念を拡張し, 特にmpsがddsと同程度の速さであることを示す。
量子状態表現のための知識コンパイルマップを提供することにより,本領域における固有時間と空間効率のトレードオフの理解に寄与する。 Quantum computing is finding promising applications in optimization, machine learning and physics, leading to the development of various models for representing quantum information. Because these representations are often studied in different contexts (many-body physics, machine learning, formal verification, simulation), little is known about fundamental trade-offs between their succinctness and the runtime of operations to update them. We therefore analytically investigate three widely-used quantum state representations: matrix product states (MPS), decision diagrams (DDs), and restricted Boltzmann machines (RBMs). We map the relative succinctness of these data structures and provide the complexity for relevant query and manipulation operations. Further, to chart the balance between succinctness and operation efficiency, we extend the concept of rapidity with support for the non-canonical data structures studied in this work, showing in particular that MPS is at least as rapid as some DDs. By providing a knowledge compilation map for quantum state representations, this paper contributes to the understanding of the inherent time and space efficiency trade-offs in this area. | 翻訳日:2024-01-03 13:12:26 公開日:2024-01-02 |
# 光子結合信号検出用シリコン光増倍器 Silicon Photomultipliers for Detection of Photon Bunching Signatures ( http://arxiv.org/abs/2401.01316v1 ) ライセンス: Link先を確認 | Lucas Finazzi, Federico Izraelevitch, Alexis Luszczak, Thomas Huber, Andreas Haungs, Federico Golmar | (参考訳) 本研究では,SiPMを用いてLED光からの光束を初めて観察した。
括弧は97 hsのデータを用いて7.3~\sigma$で観測された。
光は1nm帯通過フィルタとエタロンフィルタを用いてスペクトルフィルタリングされ、場の時間的コヒーレンスを保証し、そのコヒーレンス時間を$\tau_C = (13.0 \pm 1.3)$ psとした。
この種の測定におけるsipm非理想性の影響を考察し,sipmアナログ波形の処理法と,これらの非理想性を軽減するイベント選択法について述べる。 In this work, photon bunching from LED light was observed for the first time using SiPMs. The bunching signature was observed with a significance of $7.3~\sigma$ using 97 hs of data. The light was spectrally filtered using a 1 nm bandpass filter and an Etalon filter to ensure temporal coherence of the field and its coherence time was measured to be $\tau_C = (13.0 \pm 1.3)$ ps. The impact of SiPM non-idealities in these kinds of measurements is explored, and we describe the methodology to process SiPM analog waveforms and the event selection used to mitigate these non-idealities. | 翻訳日:2024-01-03 13:12:07 公開日:2024-01-02 |
# 大規模言語モデルにおける幻覚緩和手法に関する包括的調査 A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models ( http://arxiv.org/abs/2401.01313v1 ) ライセンス: Link先を確認 | S.M Towhidul Islam Tonmoy, S M Mehedi Zaman, Vinija Jain, Anku Rani, Vipula Rawte, Aman Chadha, Amitava Das | (参考訳) 大きな言語モデル (LLMs) は、人間のような文章を書く能力が向上し続けているため、現実的に見えるが根拠のないコンテンツを生み出す傾向に重要な課題が残っている。
この幻覚の問題は、人々の生活に影響を及ぼす現実世界のプロダクションシステムにこれらの強力なLSMを安全に配置する上で、おそらく最大の障害である。
実践環境でのllmの普及に向けた旅は、幻覚の対処と緩和に大きく依存している。
限られたタスクに焦点を当てた従来のAIシステムとは異なり、LLMはトレーニング中に大量のオンラインテキストデータにさらされている。
これにより、印象的な言語流感を表現できる一方で、トレーニングデータのバイアスから情報を外挿したり、曖昧なプロンプトを誤解釈したり、情報を入力と表面的に整合させることもできる。
医療記録の要約や財務分析レポートなど、センシティブなアプリケーションに言語生成機能に頼ると、これは非常に不安になります。
本稿では, llmsの幻覚を緩和するために開発された32以上の手法の包括的調査を行った。
中でも有名なものは、Retrieval Augmented Generation (Lewis et al, 2021), Knowledge Retrieval (Varshney et al, 2023), CoNLI (Lei et al, 2023), CoVe (Dhuliawala et al, 2023)である。
さらに,これらの手法をデータセットの利用,共通タスク,フィードバック機構,レトリバータイプなどのパラメータに基づいて分類する詳細な分類法を提案する。
この分類は、LLMの幻覚問題に取り組むために特別に設計された様々なアプローチを区別するのに役立つ。
さらに,これらの技術に固有の課題や限界を分析し,LLMの領域における幻覚や関連する現象に対処する上で,今後の研究の基盤となる。 As Large Language Models (LLMs) continue to advance in their ability to write human-like text, a key challenge remains around their tendency to hallucinate generating content that appears factual but is ungrounded. This issue of hallucination is arguably the biggest hindrance to safely deploying these powerful LLMs into real-world production systems that impact people's lives. The journey toward widespread adoption of LLMs in practical settings heavily relies on addressing and mitigating hallucinations. Unlike traditional AI systems focused on limited tasks, LLMs have been exposed to vast amounts of online text data during training. While this allows them to display impressive language fluency, it also means they are capable of extrapolating information from the biases in training data, misinterpreting ambiguous prompts, or modifying the information to align superficially with the input. This becomes hugely alarming when we rely on language generation capabilities for sensitive applications, such as summarizing medical records, financial analysis reports, etc. This paper presents a comprehensive survey of over 32 techniques developed to mitigate hallucination in LLMs. Notable among these are Retrieval Augmented Generation (Lewis et al, 2021), Knowledge Retrieval (Varshney et al,2023), CoNLI (Lei et al, 2023), and CoVe (Dhuliawala et al, 2023). Furthermore, we introduce a detailed taxonomy categorizing these methods based on various parameters, such as dataset utilization, common tasks, feedback mechanisms, and retriever types. This classification helps distinguish the diverse approaches specifically designed to tackle hallucination issues in LLMs. Additionally, we analyze the challenges and limitations inherent in these techniques, providing a solid foundation for future research in addressing hallucinations and related phenomena within the realm of LLMs. | 翻訳日:2024-01-03 13:11:53 公開日:2024-01-02 |
# 量子古典的ネットワークにおけるプロクリストエンタングルメント濃度 Procrustean entanglement concentration in quantum-classical networking ( http://arxiv.org/abs/2401.01311v1 ) ライセンス: Link先を確認 | Hsuan-Hao Lu, Muneer Alshowkan, Jude Alnas, Joseph M. Lukens, Nicholas A. Peters | (参考訳) 将来の量子インターネットの成功は、量子信号と古典信号が同じ光ファイバのインフラに共存する能力に部分的に関係している。
古典光に汚染された偏光絡み状態に対するprocrustean entanglement concentrationを理論的に記述し,実験的に実装し,高密度波長多重化におけるクロストークノイズの軽減効果を示した。
提案手法は、偏光依存損失エミュレータのペアを利用して、共有ファイバリンク上で共伝搬する従来の信号の不完全分離の結果、高度に偏光されたクロストークを減衰させる。
提案手法は,テーブル上と配置された量子ローカルネットワーク上で両立し,約75\%から約92\%までの2量子ビットエンタングル状態の忠実性が大幅に向上したことを示す。
この局所フィルタリング手法は、非対称誤差を減らすための予備ステップとして利用することができ、将来の量子リピータネットワークにおけるより複雑な誤り緩和技術と組み合わせて全体の効率を向上させることができる。 The success of a future quantum internet will rest in part on the ability of quantum and classical signals to coexist in the same optical fiber infrastructure, a challenging endeavor given the orders of magnitude differences in flux of single-photon-level quantum fields and bright classical traffic. We theoretically describe and experimentally implement Procrustean entanglement concentration for polarization-entangled states contaminated with classical light, showing significant mitigation of crosstalk noise in dense wavelength-division multiplexing. Our approach leverages a pair of polarization-dependent loss emulators to attenuate highly polarized crosstalk that results from imperfect isolation of conventional signals copropagating on shared fiber links. We demonstrate our technique both on the tabletop and over a deployed quantum local area network, finding a substantial improvement of two-qubit entangled state fidelity from approximately 75\% to over 92\%. This local filtering technique could be used as a preliminary step to reduce asymmetric errors, potentially improving the overall efficiency when combined with more complex error mitigation techniques in future quantum repeater networks. | 翻訳日:2024-01-03 13:11:20 公開日:2024-01-02 |
# パリティ時対称二量体の有効サイズは? What is the effective size of a parity-time symmetric dimer? ( http://arxiv.org/abs/2401.01309v1 ) ライセンス: Link先を確認 | Li Ge | (参考訳) パリティ時間(PT)対称二量体は、パリティと時間反転操作の組み合わせによって不変となる非エルミート系の特異な性質を強調するために導入された。
また、様々な対称性と位相的に保護された構造、特に統合フォトニックプラットフォームの構築ブロックでもある。
名前の通り、2つの結合振動子で構成されており、光学的、機械的、電子的といった性質を持つ。
本稿では,その有効サイズを格子運動量に逆比例する格子サイト数で定義する,エネルギー量子化の観点から考えると,驚くべきことに2個ではなく3個であることを示す。
より具体的には、1次元連結鎖の複素エネルギーレベルと$N$ PT-二量体はシステムサイズ$12N$で決定され、単一のPT-二量体の場合では3に減少する。
エネルギー量子化条件は様々な非エルミート系で確立されているが、ここで報告されているように、正確かつ明示的に量子化された複素エネルギーはいまだに乏しい。
また、非エルミート粒子ホール対称性やキラル対称性を含むPT二量体および連結PT二量体鎖の他の対称性についても論じる。 Parity-time (PT) symmetric dimers were introduced to highlight the unusual properties of non-Hermitian systems that are invariant after a combined parity and time reversal operation. They are also the building blocks of a variety of symmetry and topologically protected structures, especially on integrated photonic platforms. As the name suggests, it consists of two coupled oscillators, which can be optical, mechanical, electronic, etc. in nature. In this article, we show that its effective size, \cc{defined by the number of lattice sites inversely proportional to the lattice momentum}, is surprisingly three instead of two from the perspective of energy quantization. More specifically, we show analytically that the complex energy levels of a one-dimensional concatenated chain with $N$ PT-dimers are determined by a system size of $1+2N$, which reduces to three in the case of a single PT-dimer. We note that while energy quantization conditions have been established in various non-Hermitian systems, exact and explicitly quantized complex energies as reported here are still scarce. In connection, we also discuss the other symmetries of a PT-dimer and concatenated PT-dimer chain, including non-Hermitian particle-hole symmetry and chiral symmetry. | 翻訳日:2024-01-03 13:10:58 公開日:2024-01-02 |
# 量子場理論におけるハミルトン学習 Hamiltonian Learning in Quantum Field Theories ( http://arxiv.org/abs/2401.01308v1 ) ライセンス: Link先を確認 | Robert Ott, Torsten V. Zache, Maximilian Pr\"ufer, Sebastian Erne, Mohammadamin Tajik, Hannes Pichler, J\"org Schmiedmayer, and Peter Zoller | (参考訳) 実験データから実効場理論の作用素内容と結合定数を体系的に抽出するためのプロトコルとして、場の量子論におけるハミルトン学習について論じる。
様々な空間測定解像度でハミルトニアンを学ぶことで、異なるエネルギースケールで場の理論にアクセスでき、再正規化群を思い起こさせるハミルトニアンの流れを学べる。
本手法は, 量子シミュレーション実験において, 量子場理論の出現に新たな対処法を期待するものである。 We discuss Hamiltonian learning in quantum field theories as a protocol for systematically extracting the operator content and coupling constants of effective field theory Hamiltonians from experimental data. Learning the Hamiltonian for varying spatial measurement resolutions gives access to field theories at different energy scales, and allows to learn a flow of Hamiltonians reminiscent of the renormalization group. Our method, which we demonstrate in both theoretical studies and available data from a quantum gas experiment, promises new ways of addressing the emergence of quantum field theories in quantum simulation experiments. | 翻訳日:2024-01-03 13:10:35 公開日:2024-01-02 |
# 監視量子力学の再起動不確実性関係 Restart uncertainty relation for monitored quantum dynamics ( http://arxiv.org/abs/2401.01307v1 ) ライセンス: Link先を確認 | Ruoyu Yin, Qingyuan Wang, Sabine Tornow, Eli Barkai | (参考訳) 監視量子力学における再起動の文脈における時間-エネルギーの不確実性関係を新たに導入する。
当初,IBMの量子コンピュータと3サイトリンググラフを出発点として,量子システムにおける「最初のヒットタイム」の概念について検討した。
これまでの研究では、初期状態に戻るのに要する時間を表す平均再発時間がサンプリング時間の整数倍として量子化され、共鳴において点不連続な遷移を示すことが確認されている。
その結果, 実験室における再起動機構の自然利用は, 有限データ収集時間によって促進され, 平均再起動時間の変化に大きく影響することが示唆された。
新たに提案する不確実性関係は,共鳴近傍の平均打上げ時間の拡大と量子系の固有エネルギーと再帰時間のゆらぎを結びつけることで,これらの現象の根底にある本質を捉えている。
この研究は、量子計測と力学に関する基本的な側面の理解に寄与するだけでなく、中間回路測定による効率的な量子アルゴリズムの設計に実用的な洞察を与える。 We introduce a novel time-energy uncertainty relationship within the context of restarts in monitored quantum dynamics. Initially, we investigate the concept of ``first hitting time'' in quantum systems using an IBM quantum computer and a three-site ring graph as our starting point. Previous studies have established that the mean recurrence time, which represents the time taken to return to the initial state, is quantized as an integer multiple of the sampling time, displaying pointwise discontinuous transitions at resonances. Our findings demonstrate that, the natural utilization of the restart mechanism in laboratory experiments, driven by finite data collection time spans, leads to a broadening effect on the transitions of the mean recurrence time. Our newly proposed uncertainty relation captures the underlying essence of these phenomena, by connecting the broadening of the mean hitting time near resonances, to the intrinsic energies of the quantum system and to the fluctuations of recurrence time. This work not only contributes to our understanding of fundamental aspects related to quantum measurements and dynamics, but also offers practical insights for the design of efficient quantum algorithms with mid-circuit measurements. | 翻訳日:2024-01-03 13:10:24 公開日:2024-01-02 |
# 無限次元ヒルベルト空間におけるおもちゃ制約最適化問題の学習解 Learning solutions to some toy constrained optimization problems in infinite dimensional Hilbert spaces ( http://arxiv.org/abs/2401.01306v1 ) ライセンス: Link先を確認 | Pinak Mandal | (参考訳) 本研究では、無限次元ヒルベルト空間における2つの一般的な理論的制約付き最適化アルゴリズム、すなわちペナルティと拡張ラグランジアン手法のディープラーニング実装を提案する。
これらのアルゴリズムは、変分法または物理の計算から生じるいくつかのおもちゃの問題で検証する。
いずれの手法も,テスト問題に対して適度な近似を生成可能であり,異なる誤差の点で同等であることを示す。
ラグランジュ乗算器更新規則の共通発生は、ペナルティ法における部分問題を解くよりも計算コストが低く、制約関数の出力自体が関数である場合の大幅な高速化を実現する。 In this work we present deep learning implementations of two popular theoretical constrained optimization algorithms in infinite dimensional Hilbert spaces, namely, the penalty and the augmented Lagrangian methods. We test these algorithms on some toy problems originating in either calculus of variations or physics. We demonstrate that both methods are able to produce decent approximations for the test problems and are comparable in terms of different errors. Leveraging the common occurrence of the Lagrange multiplier update rule being computationally less expensive than solving subproblems in the penalty method, we achieve significant speedups in cases when the output of the constraint function is itself a function. | 翻訳日:2024-01-03 13:10:05 公開日:2024-01-02 |